W0428 14:15:30.340000 10638 torch/distributed/run.py:766] 
W0428 14:15:30.340000 10638 torch/distributed/run.py:766] *****************************************
W0428 14:15:30.340000 10638 torch/distributed/run.py:766] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
W0428 14:15:30.340000 10638 torch/distributed/run.py:766] *****************************************
/root/workdir/.venv/lib/python3.12/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-hausa_579_450h).
  warnings.warn(
04/28/2025 14:15:34 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: True
04/28/2025 14:15:34 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
_n_gpu=1,
accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
average_tokens_across_devices=False,
batch_eval_metrics=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=44,
dataloader_persistent_workers=False,
dataloader_pin_memory=True,
dataloader_prefetch_factor=None,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
dispatch_batches=None,
do_eval=True,
do_predict=False,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_do_concat_batches=True,
eval_on_start=False,
eval_steps=1000,
eval_strategy=IntervalStrategy.STEPS,
eval_use_gather_object=False,
evaluation_strategy=None,
fp16=True,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
gradient_accumulation_steps=1,
gradient_checkpointing=True,
gradient_checkpointing_kwargs=None,
greater_is_better=False,
group_by_length=True,
half_precision_backend=auto,
hub_always_push=False,
hub_model_id=CLEAR-Global/w2v-bert-2.0-hausa_579_450h,
hub_private_repo=None,
hub_strategy=HubStrategy.CHECKPOINT,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_for_metrics=[],
include_inputs_for_metrics=False,
include_num_input_tokens_seen=False,
include_tokens_per_second=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=3e-05,
length_column_name=input_length,
load_best_model_at_end=True,
local_rank=0,
log_level=passive,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=./w2v-bert-2.0-hausa_579_450h/runs/Apr28_14-15-34_synvoices-hausa-1tb,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=1.0,
logging_strategy=IntervalStrategy.STEPS,
lr_scheduler_kwargs={},
lr_scheduler_type=SchedulerType.LINEAR,
max_grad_norm=1.0,
max_steps=-1,
metric_for_best_model=loss,
mp_parameters=,
neftune_noise_alpha=None,
no_cuda=False,
num_train_epochs=24.0,
optim=OptimizerNames.ADAMW_TORCH,
optim_args=None,
optim_target_modules=None,
output_dir=./w2v-bert-2.0-hausa_579_450h,
overwrite_output_dir=False,
past_index=-1,
per_device_eval_batch_size=160,
per_device_train_batch_size=160,
prediction_loss_only=False,
push_to_hub=True,
push_to_hub_model_id=None,
push_to_hub_organization=CLEAR-Global,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=['tensorboard'],
restore_callback_states_from_checkpoint=False,
resume_from_checkpoint=None,
run_name=./w2v-bert-2.0-hausa_579_450h,
save_on_each_node=False,
save_only_model=False,
save_safetensors=True,
save_steps=1000,
save_strategy=SaveStrategy.STEPS,
save_total_limit=1,
seed=42,
skip_memory_metrics=True,
split_batches=None,
tf32=None,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torch_empty_cache_steps=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_cpu=False,
use_ipex=False,
use_legacy_prediction_loop=False,
use_liger_kernel=False,
use_mps_device=False,
warmup_ratio=0.1,
warmup_steps=0,
weight_decay=0.0,
)
/root/workdir/.venv/lib/python3.12/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-hausa_579_450h).
  warnings.warn(
04/28/2025 14:15:34 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1, distributed training: True, 16-bits training: True
[rank1]:[W428 14:15:55.498977009 ProcessGroupNCCL.cpp:4715] [PG ID 0 PG GUID 0 Rank 1]  using GPU 1 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can pecify device_id in init_process_group() to force use of a particular device.
[rank0]:[W428 14:15:55.525914070 ProcessGroupNCCL.cpp:4715] [PG ID 0 PG GUID 0 Rank 0]  using GPU 0 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can pecify device_id in init_process_group() to force use of a particular device.
loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/config.json
Model config Wav2Vec2BertConfig {
  "_name_or_path": "facebook/w2v-bert-2.0",
  "activation_dropout": 0.0,
  "adapter_act": "relu",
  "adapter_kernel_size": 3,
  "adapter_stride": 2,
  "add_adapter": false,
  "apply_spec_augment": false,
  "architectures": [
    "Wav2Vec2BertModel"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "classifier_proj_size": 768,
  "codevector_dim": 768,
  "conformer_conv_dropout": 0.1,
  "contrastive_logits_temperature": 0.1,
  "conv_depthwise_kernel_size": 31,
  "ctc_loss_reduction": "sum",
  "ctc_zero_infinity": false,
  "diversity_loss_weight": 0.1,
  "eos_token_id": 2,
  "feat_proj_dropout": 0.0,
  "feat_quantizer_dropout": 0.0,
  "feature_projection_input_dim": 160,
  "final_dropout": 0.1,
  "hidden_act": "swish",
  "hidden_dropout": 0.0,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "layerdrop": 0.1,
  "left_max_position_embeddings": 64,
  "mask_feature_length": 10,
  "mask_feature_min_masks": 0,
  "mask_feature_prob": 0.0,
  "mask_time_length": 10,
  "mask_time_min_masks": 2,
  "mask_time_prob": 0.05,
  "max_source_positions": 5000,
  "model_type": "wav2vec2-bert",
  "num_adapter_layers": 1,
  "num_attention_heads": 16,
  "num_codevector_groups": 2,
  "num_codevectors_per_group": 320,
  "num_hidden_layers": 24,
  "num_negatives": 100,
  "output_hidden_size": 1024,
  "pad_token_id": 0,
  "position_embeddings_type": "relative_key",
  "proj_codevector_dim": 768,
  "right_max_position_embeddings": 8,
  "rotary_embedding_base": 10000,
  "tdnn_dilation": [
    1,
    2,
    3,
    1,
    1
  ],
  "tdnn_dim": [
    512,
    512,
    512,
    512,
    1500
  ],
  "tdnn_kernel": [
    5,
    3,
    3,
    1,
    1
  ],
  "torch_dtype": "float32",
  "transformers_version": "4.48.1",
  "use_intermediate_ffn_before_adapter": false,
  "use_weighted_layer_sum": false,
  "vocab_size": null,
  "xvector_output_dim": 512
}

Map:   0%|          | 0/1046515 [00:00<?, ? examples/s]Map: 100%|██████████| 1046515/1046515 [00:01<00:00, 620495.26 examples/s]Map: 100%|██████████| 1046515/1046515 [00:01<00:00, 612707.48 examples/s]
Map:   0%|          | 0/4538 [00:00<?, ? examples/s]Map: 100%|██████████| 4538/4538 [00:00<00:00, 332664.84 examples/s]
`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Model config BertConfig {
  "_name_or_path": "./w2v-bert-2.0-hausa_579_450h",
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.48.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'Wav2Vec2CTCTokenizer'.
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'Wav2Vec2CTCTokenizer'.
loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/model.safetensors
Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Some weights of the model checkpoint at facebook/w2v-bert-2.0 were not used when initializing Wav2Vec2BertForCTC: ['masked_spec_embed']
- This IS expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/config.json
loading configuration file ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
loading configuration file ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
Feature extractor SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

loading file vocab.json
loading file tokenizer_config.json
loading file added_tokens.json
loading file special_tokens_map.json
loading file tokenizer.json
loading file chat_template.jinja
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Processor Wav2Vec2BertProcessor:
- feature_extractor: SeamlessM4TFeatureExtractor {
  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
  "feature_size": 80,
  "num_mel_bins": 80,
  "padding_side": "right",
  "padding_value": 1,
  "processor_class": "Wav2Vec2BertProcessor",
  "return_attention_mask": true,
  "sampling_rate": 16000,
  "stride": 2
}

- tokenizer: Wav2Vec2CTCTokenizer(name_or_path='./w2v-bert-2.0-hausa_579_450h', vocab_size=104, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	102: AddedToken("[UNK]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	103: AddedToken("[PAD]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
	104: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	105: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

{
  "processor_class": "Wav2Vec2BertProcessor"
}

Using auto half precision backend
04/28/2025 14:16:02 - INFO - __main__ - Fine-tuning model from scratch
The following columns in the training set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 1,046,515
  Num Epochs = 24
  Instantaneous batch size per device = 160
  Total train batch size (w. parallel, distributed & accumulation) = 320
  Gradient Accumulation steps = 1
  Total optimization steps = 78,504
  Number of trainable parameters = 605,786,026
  0%|          | 0/78504 [00:00<?, ?it/s]  0%|          | 1/78504 [00:29<644:13:00, 29.54s/it]                                                     {'loss': 8.2851, 'grad_norm': 20.83271598815918, 'learning_rate': 3.821169277799007e-09, 'epoch': 0.0}
  0%|          | 1/78504 [00:29<644:13:00, 29.54s/it]  0%|          | 2/78504 [00:32<305:04:45, 13.99s/it]                                                     {'loss': 8.1164, 'grad_norm': 20.908430099487305, 'learning_rate': 7.642338555598014e-09, 'epoch': 0.0}
  0%|          | 2/78504 [00:32<305:04:45, 13.99s/it]  0%|          | 3/78504 [00:35<195:47:53,  8.98s/it]                                                     {'loss': 8.3153, 'grad_norm': 21.901620864868164, 'learning_rate': 1.146350783339702e-08, 'epoch': 0.0}
  0%|          | 3/78504 [00:35<195:47:53,  8.98s/it]  0%|          | 4/78504 [00:38<140:55:02,  6.46s/it]                                                     {'loss': 8.208, 'grad_norm': 21.675174713134766, 'learning_rate': 1.5284677111196027e-08, 'epoch': 0.0}
  0%|          | 4/78504 [00:38<140:55:02,  6.46s/it]  0%|          | 5/78504 [00:40<109:28:03,  5.02s/it]                                                     {'loss': 8.2758, 'grad_norm': 21.793302536010742, 'learning_rate': 1.9105846388995033e-08, 'epoch': 0.0}
  0%|          | 5/78504 [00:40<109:28:03,  5.02s/it]  0%|          | 6/78504 [00:43<90:13:35,  4.14s/it]                                                     {'loss': 8.2566, 'grad_norm': 22.063997268676758, 'learning_rate': 2.292701566679404e-08, 'epoch': 0.0}
  0%|          | 6/78504 [00:43<90:13:35,  4.14s/it]  0%|          | 7/78504 [00:45<77:14:48,  3.54s/it]                                                    {'loss': 8.1169, 'grad_norm': 21.652164459228516, 'learning_rate': 2.6748184944593046e-08, 'epoch': 0.0}
  0%|          | 7/78504 [00:45<77:14:48,  3.54s/it]  0%|          | 8/78504 [00:47<67:16:59,  3.09s/it]                                                    {'loss': 7.9707, 'grad_norm': 21.013320922851562, 'learning_rate': 3.0569354222392055e-08, 'epoch': 0.0}
  0%|          | 8/78504 [00:47<67:16:59,  3.09s/it]  0%|          | 9/78504 [00:49<61:06:08,  2.80s/it]                                                    {'loss': 8.0038, 'grad_norm': 21.321041107177734, 'learning_rate': 3.439052350019106e-08, 'epoch': 0.0}
  0%|          | 9/78504 [00:49<61:06:08,  2.80s/it]  0%|          | 10/78504 [00:51<56:49:22,  2.61s/it]                                                     {'loss': 7.963, 'grad_norm': 21.157644271850586, 'learning_rate': 3.821169277799007e-08, 'epoch': 0.0}
  0%|          | 10/78504 [00:51<56:49:22,  2.61s/it]  0%|          | 11/78504 [00:53<51:49:25,  2.38s/it]                                                     {'loss': 7.9018, 'grad_norm': 20.705812454223633, 'learning_rate': 4.203286205578907e-08, 'epoch': 0.0}
  0%|          | 11/78504 [00:53<51:49:25,  2.38s/it]  0%|          | 12/78504 [00:55<49:08:17,  2.25s/it]                                                     {'loss': 7.795, 'grad_norm': 20.542030334472656, 'learning_rate': 4.585403133358808e-08, 'epoch': 0.0}
  0%|          | 12/78504 [00:55<49:08:17,  2.25s/it]  0%|          | 13/78504 [00:57<46:43:24,  2.14s/it]                                                     {'loss': 7.87, 'grad_norm': 20.973297119140625, 'learning_rate': 4.967520061138709e-08, 'epoch': 0.0}
  0%|          | 13/78504 [00:57<46:43:24,  2.14s/it]  0%|          | 14/78504 [00:59<44:56:01,  2.06s/it]                                                     {'loss': 7.8682, 'grad_norm': 20.95349884033203, 'learning_rate': 5.349636988918609e-08, 'epoch': 0.0}
  0%|          | 14/78504 [00:59<44:56:01,  2.06s/it]  0%|          | 15/78504 [01:01<42:58:14,  1.97s/it]                                                     {'loss': 7.8531, 'grad_norm': 20.954387664794922, 'learning_rate': 5.73175391669851e-08, 'epoch': 0.0}
  0%|          | 15/78504 [01:01<42:58:14,  1.97s/it]  0%|          | 16/78504 [01:02<40:53:37,  1.88s/it]                                                     {'loss': 7.6589, 'grad_norm': 20.018869400024414, 'learning_rate': 6.113870844478411e-08, 'epoch': 0.0}
  0%|          | 16/78504 [01:02<40:53:37,  1.88s/it]  0%|          | 17/78504 [01:04<38:38:30,  1.77s/it]                                                     {'loss': 7.6932, 'grad_norm': 20.128570556640625, 'learning_rate': 6.49598777225831e-08, 'epoch': 0.01}
  0%|          | 17/78504 [01:04<38:38:30,  1.77s/it]  0%|          | 18/78504 [01:05<36:38:38,  1.68s/it]                                                     {'loss': 7.5662, 'grad_norm': 19.92058753967285, 'learning_rate': 6.878104700038212e-08, 'epoch': 0.01}
  0%|          | 18/78504 [01:05<36:38:38,  1.68s/it]  0%|          | 19/78504 [01:07<34:39:12,  1.59s/it]                                                     {'loss': 7.5336, 'grad_norm': 19.663522720336914, 'learning_rate': 7.260221627818112e-08, 'epoch': 0.01}
  0%|          | 19/78504 [01:07<34:39:12,  1.59s/it]  0%|          | 20/78504 [01:08<32:36:52,  1.50s/it]                                                     {'loss': 7.3143, 'grad_norm': 18.939983367919922, 'learning_rate': 7.642338555598013e-08, 'epoch': 0.01}
  0%|          | 20/78504 [01:08<32:36:52,  1.50s/it]  0%|          | 21/78504 [01:09<30:20:07,  1.39s/it]                                                     {'loss': 7.3474, 'grad_norm': 19.282129287719727, 'learning_rate': 8.024455483377913e-08, 'epoch': 0.01}
  0%|          | 21/78504 [01:09<30:20:07,  1.39s/it]  0%|          | 22/78504 [01:10<28:20:25,  1.30s/it]                                                     {'loss': 7.2938, 'grad_norm': 19.209104537963867, 'learning_rate': 8.406572411157814e-08, 'epoch': 0.01}
  0%|          | 22/78504 [01:10<28:20:25,  1.30s/it]  0%|          | 23/78504 [01:11<26:39:07,  1.22s/it]                                                     {'loss': 7.1286, 'grad_norm': 18.60006332397461, 'learning_rate': 8.788689338937715e-08, 'epoch': 0.01}
  0%|          | 23/78504 [01:11<26:39:07,  1.22s/it]  0%|          | 24/78504 [01:12<24:45:41,  1.14s/it]                                                     {'loss': 7.0891, 'grad_norm': 18.60341453552246, 'learning_rate': 9.170806266717616e-08, 'epoch': 0.01}
  0%|          | 24/78504 [01:12<24:45:41,  1.14s/it]  0%|          | 25/78504 [01:13<22:13:35,  1.02s/it]                                                     {'loss': 6.7028, 'grad_norm': 17.593242645263672, 'learning_rate': 9.552923194497515e-08, 'epoch': 0.01}
  0%|          | 25/78504 [01:13<22:13:35,  1.02s/it]  0%|          | 26/78504 [01:21<70:27:55,  3.23s/it]                                                     {'loss': 8.3106, 'grad_norm': 21.129972457885742, 'learning_rate': 9.935040122277418e-08, 'epoch': 0.01}
  0%|          | 26/78504 [01:21<70:27:55,  3.23s/it]  0%|          | 27/78504 [01:25<71:20:48,  3.27s/it]                                                     {'loss': 8.1089, 'grad_norm': 21.232126235961914, 'learning_rate': 1.0317157050057317e-07, 'epoch': 0.01}
  0%|          | 27/78504 [01:25<71:20:48,  3.27s/it]  0%|          | 28/78504 [01:28<69:03:26,  3.17s/it]                                                     {'loss': 8.2139, 'grad_norm': 21.971832275390625, 'learning_rate': 1.0699273977837218e-07, 'epoch': 0.01}
  0%|          | 28/78504 [01:28<69:03:26,  3.17s/it]  0%|          | 29/78504 [01:30<64:14:36,  2.95s/it]                                                     {'loss': 8.0371, 'grad_norm': 21.493450164794922, 'learning_rate': 1.1081390905617119e-07, 'epoch': 0.01}
  0%|          | 29/78504 [01:30<64:14:36,  2.95s/it]  0%|          | 30/78504 [01:33<61:10:42,  2.81s/it]                                                     {'loss': 8.1334, 'grad_norm': 21.966949462890625, 'learning_rate': 1.146350783339702e-07, 'epoch': 0.01}
  0%|          | 30/78504 [01:33<61:10:42,  2.81s/it]  0%|          | 31/78504 [01:35<57:38:50,  2.64s/it]                                                     {'loss': 8.1462, 'grad_norm': 22.135982513427734, 'learning_rate': 1.184562476117692e-07, 'epoch': 0.01}
  0%|          | 31/78504 [01:35<57:38:50,  2.64s/it]  0%|          | 32/78504 [01:37<55:32:45,  2.55s/it]                                                     {'loss': 7.9279, 'grad_norm': 21.35399627685547, 'learning_rate': 1.2227741688956822e-07, 'epoch': 0.01}
  0%|          | 32/78504 [01:37<55:32:45,  2.55s/it]  0%|          | 33/78504 [01:39<52:34:13,  2.41s/it]                                                     {'loss': 7.9846, 'grad_norm': 21.780601501464844, 'learning_rate': 1.260985861673672e-07, 'epoch': 0.01}
  0%|          | 33/78504 [01:39<52:34:13,  2.41s/it]  0%|          | 34/78504 [01:42<51:06:55,  2.35s/it]                                                     {'loss': 7.9327, 'grad_norm': 21.5991268157959, 'learning_rate': 1.299197554451662e-07, 'epoch': 0.01}
  0%|          | 34/78504 [01:42<51:06:55,  2.35s/it]  0%|          | 35/78504 [01:44<49:46:39,  2.28s/it]                                                     {'loss': 7.9989, 'grad_norm': 22.09117889404297, 'learning_rate': 1.3374092472296525e-07, 'epoch': 0.01}
  0%|          | 35/78504 [01:44<49:46:39,  2.28s/it]  0%|          | 36/78504 [01:46<48:06:17,  2.21s/it]                                                     {'loss': 7.822, 'grad_norm': 21.179874420166016, 'learning_rate': 1.3756209400076423e-07, 'epoch': 0.01}
  0%|          | 36/78504 [01:46<48:06:17,  2.21s/it]  0%|          | 37/78504 [01:48<46:37:18,  2.14s/it]                                                     {'loss': 7.9289, 'grad_norm': 21.744579315185547, 'learning_rate': 1.4138326327856324e-07, 'epoch': 0.01}
  0%|          | 37/78504 [01:48<46:37:18,  2.14s/it]  0%|          | 38/78504 [01:50<45:12:05,  2.07s/it]                                                     {'loss': 7.8422, 'grad_norm': 21.675596237182617, 'learning_rate': 1.4520443255636225e-07, 'epoch': 0.01}
  0%|          | 38/78504 [01:50<45:12:05,  2.07s/it]  0%|          | 39/78504 [01:51<43:48:59,  2.01s/it]                                                     {'loss': 7.5889, 'grad_norm': 20.448606491088867, 'learning_rate': 1.4902560183416126e-07, 'epoch': 0.01}
  0%|          | 39/78504 [01:51<43:48:59,  2.01s/it]  0%|          | 40/78504 [01:53<42:15:37,  1.94s/it]                                                     {'loss': 7.712, 'grad_norm': 21.15997886657715, 'learning_rate': 1.5284677111196027e-07, 'epoch': 0.01}
  0%|          | 40/78504 [01:53<42:15:37,  1.94s/it]  0%|          | 41/78504 [01:55<40:24:19,  1.85s/it]                                                     {'loss': 7.5513, 'grad_norm': 20.340505599975586, 'learning_rate': 1.5666794038975928e-07, 'epoch': 0.01}
  0%|          | 41/78504 [01:55<40:24:19,  1.85s/it]  0%|          | 42/78504 [01:56<38:25:56,  1.76s/it]                                                     {'loss': 7.5256, 'grad_norm': 20.458667755126953, 'learning_rate': 1.6048910966755826e-07, 'epoch': 0.01}
  0%|          | 42/78504 [01:56<38:25:56,  1.76s/it]  0%|          | 43/78504 [01:58<36:32:38,  1.68s/it]                                                     {'loss': 7.2767, 'grad_norm': 19.467540740966797, 'learning_rate': 1.643102789453573e-07, 'epoch': 0.01}
  0%|          | 43/78504 [01:58<36:32:38,  1.68s/it]  0%|          | 44/78504 [01:59<34:44:47,  1.59s/it]                                                     {'loss': 7.2598, 'grad_norm': 19.30766487121582, 'learning_rate': 1.6813144822315628e-07, 'epoch': 0.01}
  0%|          | 44/78504 [01:59<34:44:47,  1.59s/it]  0%|          | 45/78504 [02:01<32:45:49,  1.50s/it]                                                     {'loss': 7.3321, 'grad_norm': 20.065006256103516, 'learning_rate': 1.719526175009553e-07, 'epoch': 0.01}
  0%|          | 45/78504 [02:01<32:45:49,  1.50s/it]  0%|          | 46/78504 [02:02<30:36:49,  1.40s/it]                                                     {'loss': 7.1171, 'grad_norm': 19.266765594482422, 'learning_rate': 1.757737867787543e-07, 'epoch': 0.01}
  0%|          | 46/78504 [02:02<30:36:49,  1.40s/it]  0%|          | 47/78504 [02:03<28:39:22,  1.31s/it]                                                     {'loss': 7.0568, 'grad_norm': 18.72146224975586, 'learning_rate': 1.795949560565533e-07, 'epoch': 0.01}
  0%|          | 47/78504 [02:03<28:39:22,  1.31s/it]  0%|          | 48/78504 [02:04<26:36:05,  1.22s/it]                                                     {'loss': 7.0006, 'grad_norm': 18.79753875732422, 'learning_rate': 1.8341612533435232e-07, 'epoch': 0.01}
  0%|          | 48/78504 [02:04<26:36:05,  1.22s/it]  0%|          | 49/78504 [02:05<24:43:55,  1.13s/it]                                                     {'loss': 6.8816, 'grad_norm': 18.57426643371582, 'learning_rate': 1.8723729461215133e-07, 'epoch': 0.01}
  0%|          | 49/78504 [02:05<24:43:55,  1.13s/it]  0%|          | 50/78504 [02:06<22:30:23,  1.03s/it]                                                     {'loss': 6.7234, 'grad_norm': 18.37809181213379, 'learning_rate': 1.910584638899503e-07, 'epoch': 0.02}
  0%|          | 50/78504 [02:06<22:30:23,  1.03s/it]  0%|          | 51/78504 [02:14<68:56:32,  3.16s/it]                                                     {'loss': 8.1972, 'grad_norm': 22.101274490356445, 'learning_rate': 1.9487963316774934e-07, 'epoch': 0.02}
  0%|          | 51/78504 [02:14<68:56:32,  3.16s/it]  0%|          | 52/78504 [02:17<70:08:02,  3.22s/it]                                                     {'loss': 8.0322, 'grad_norm': 22.215782165527344, 'learning_rate': 1.9870080244554835e-07, 'epoch': 0.02}
  0%|          | 52/78504 [02:17<70:08:02,  3.22s/it]  0%|          | 53/78504 [02:20<68:51:28,  3.16s/it]                                                     {'loss': 7.9079, 'grad_norm': 22.176252365112305, 'learning_rate': 2.0252197172334734e-07, 'epoch': 0.02}
  0%|          | 53/78504 [02:20<68:51:28,  3.16s/it]  0%|          | 54/78504 [02:23<65:03:35,  2.99s/it]                                                     {'loss': 8.0159, 'grad_norm': 22.701387405395508, 'learning_rate': 2.0634314100114635e-07, 'epoch': 0.02}
  0%|          | 54/78504 [02:23<65:03:35,  2.99s/it]  0%|          | 55/78504 [02:25<61:46:42,  2.84s/it]                                                     {'loss': 7.9018, 'grad_norm': 22.526180267333984, 'learning_rate': 2.1016431027894538e-07, 'epoch': 0.02}
  0%|          | 55/78504 [02:25<61:46:42,  2.84s/it]  0%|          | 56/78504 [02:28<59:05:19,  2.71s/it]                                                     {'loss': 7.9717, 'grad_norm': inf, 'learning_rate': 2.1016431027894538e-07, 'epoch': 0.02}
  0%|          | 56/78504 [02:28<59:05:19,  2.71s/it]  0%|          | 57/78504 [02:30<56:26:01,  2.59s/it]                                                     {'loss': 7.9217, 'grad_norm': 22.894088745117188, 'learning_rate': 2.1398547955674436e-07, 'epoch': 0.02}
  0%|          | 57/78504 [02:30<56:26:01,  2.59s/it]  0%|          | 58/78504 [02:32<54:18:55,  2.49s/it]                                                     {'loss': 7.7581, 'grad_norm': 22.222522735595703, 'learning_rate': 2.1780664883454337e-07, 'epoch': 0.02}
  0%|          | 58/78504 [02:32<54:18:55,  2.49s/it]  0%|          | 59/78504 [02:34<52:18:32,  2.40s/it]                                                     {'loss': 7.8329, 'grad_norm': 22.9604434967041, 'learning_rate': 2.2162781811234238e-07, 'epoch': 0.02}
  0%|          | 59/78504 [02:34<52:18:32,  2.40s/it]  0%|          | 60/78504 [02:37<50:47:51,  2.33s/it]                                                     {'loss': 7.7317, 'grad_norm': 22.268863677978516, 'learning_rate': 2.254489873901414e-07, 'epoch': 0.02}
  0%|          | 60/78504 [02:37<50:47:51,  2.33s/it]  0%|          | 61/78504 [02:38<47:49:36,  2.19s/it]                                                     {'loss': 7.6866, 'grad_norm': 22.327556610107422, 'learning_rate': 2.292701566679404e-07, 'epoch': 0.02}
  0%|          | 61/78504 [02:38<47:49:36,  2.19s/it]  0%|          | 62/78504 [02:40<46:27:29,  2.13s/it]                                                     {'loss': 7.5398, 'grad_norm': 21.665634155273438, 'learning_rate': 2.3309132594573938e-07, 'epoch': 0.02}
  0%|          | 62/78504 [02:40<46:27:29,  2.13s/it]  0%|          | 63/78504 [02:42<45:06:23,  2.07s/it]                                                     {'loss': 7.552, 'grad_norm': 21.92706871032715, 'learning_rate': 2.369124952235384e-07, 'epoch': 0.02}
  0%|          | 63/78504 [02:42<45:06:23,  2.07s/it]  0%|          | 64/78504 [02:44<43:51:39,  2.01s/it]                                                     {'loss': 7.6391, 'grad_norm': 22.52596664428711, 'learning_rate': 2.4073366450133743e-07, 'epoch': 0.02}
  0%|          | 64/78504 [02:44<43:51:39,  2.01s/it]  0%|          | 65/78504 [02:46<42:14:57,  1.94s/it]                                                     {'loss': 7.5744, 'grad_norm': 22.010770797729492, 'learning_rate': 2.4455483377913644e-07, 'epoch': 0.02}
  0%|          | 65/78504 [02:46<42:14:57,  1.94s/it]  0%|          | 66/78504 [02:48<39:56:05,  1.83s/it]                                                     {'loss': 7.3114, 'grad_norm': 21.1176815032959, 'learning_rate': 2.4837600305693545e-07, 'epoch': 0.02}
  0%|          | 66/78504 [02:48<39:56:05,  1.83s/it]  0%|          | 67/78504 [02:49<38:03:15,  1.75s/it]                                                     {'loss': 7.2313, 'grad_norm': 20.638681411743164, 'learning_rate': 2.521971723347344e-07, 'epoch': 0.02}
  0%|          | 67/78504 [02:49<38:03:15,  1.75s/it]  0%|          | 68/78504 [02:51<36:31:51,  1.68s/it]                                                     {'loss': 7.2519, 'grad_norm': 21.00934410095215, 'learning_rate': 2.560183416125334e-07, 'epoch': 0.02}
  0%|          | 68/78504 [02:51<36:31:51,  1.68s/it]  0%|          | 69/78504 [02:52<34:50:16,  1.60s/it]                                                     {'loss': 7.1, 'grad_norm': 20.51592254638672, 'learning_rate': 2.598395108903324e-07, 'epoch': 0.02}
  0%|          | 69/78504 [02:52<34:50:16,  1.60s/it]  0%|          | 70/78504 [02:53<32:52:12,  1.51s/it]                                                     {'loss': 7.0744, 'grad_norm': 20.412561416625977, 'learning_rate': 2.636606801681315e-07, 'epoch': 0.02}
  0%|          | 70/78504 [02:53<32:52:12,  1.51s/it]  0%|          | 71/78504 [02:55<30:56:37,  1.42s/it]                                                     {'loss': 6.912, 'grad_norm': 19.63575553894043, 'learning_rate': 2.674818494459305e-07, 'epoch': 0.02}
  0%|          | 71/78504 [02:55<30:56:37,  1.42s/it]  0%|          | 72/78504 [02:56<28:48:45,  1.32s/it]                                                     {'loss': 7.0643, 'grad_norm': 20.44173240661621, 'learning_rate': 2.7130301872372945e-07, 'epoch': 0.02}
  0%|          | 72/78504 [02:56<28:48:45,  1.32s/it]  0%|          | 73/78504 [02:57<27:02:50,  1.24s/it]                                                     {'loss': 6.7973, 'grad_norm': 19.610523223876953, 'learning_rate': 2.7512418800152846e-07, 'epoch': 0.02}
  0%|          | 73/78504 [02:57<27:02:50,  1.24s/it]  0%|          | 74/78504 [02:58<25:03:57,  1.15s/it]                                                     {'loss': 6.8148, 'grad_norm': 20.24230194091797, 'learning_rate': 2.7894535727932747e-07, 'epoch': 0.02}
  0%|          | 74/78504 [02:58<25:03:57,  1.15s/it]  0%|          | 75/78504 [02:58<22:34:37,  1.04s/it]                                                     {'loss': 6.3542, 'grad_norm': 18.317285537719727, 'learning_rate': 2.827665265571265e-07, 'epoch': 0.02}
  0%|          | 75/78504 [02:58<22:34:37,  1.04s/it]  0%|          | 76/78504 [03:05<56:40:56,  2.60s/it]                                                     {'loss': 7.8897, 'grad_norm': 23.29434585571289, 'learning_rate': 2.865876958349255e-07, 'epoch': 0.02}
  0%|          | 76/78504 [03:05<56:40:56,  2.60s/it]  0%|          | 77/78504 [03:08<59:39:04,  2.74s/it]                                                     {'loss': 7.7976, 'grad_norm': 24.129138946533203, 'learning_rate': 2.904088651127245e-07, 'epoch': 0.02}
  0%|          | 77/78504 [03:08<59:39:04,  2.74s/it]  0%|          | 78/78504 [03:11<61:16:26,  2.81s/it]                                                     {'loss': 7.6522, 'grad_norm': 23.71721076965332, 'learning_rate': 2.942300343905235e-07, 'epoch': 0.02}
  0%|          | 78/78504 [03:11<61:16:26,  2.81s/it]  0%|          | 79/78504 [03:13<60:01:18,  2.76s/it]                                                     {'loss': 7.5838, 'grad_norm': 23.49587059020996, 'learning_rate': 2.980512036683225e-07, 'epoch': 0.02}
  0%|          | 79/78504 [03:13<60:01:18,  2.76s/it]  0%|          | 80/78504 [03:16<58:13:54,  2.67s/it]                                                     {'loss': 7.5632, 'grad_norm': 23.677717208862305, 'learning_rate': 3.018723729461215e-07, 'epoch': 0.02}
  0%|          | 80/78504 [03:16<58:13:54,  2.67s/it]  0%|          | 81/78504 [03:18<56:39:50,  2.60s/it]                                                     {'loss': 7.652, 'grad_norm': 24.505083084106445, 'learning_rate': 3.0569354222392054e-07, 'epoch': 0.02}
  0%|          | 81/78504 [03:18<56:39:50,  2.60s/it]  0%|          | 82/78504 [03:21<54:52:49,  2.52s/it]                                                     {'loss': 7.4479, 'grad_norm': 23.516141891479492, 'learning_rate': 3.0951471150171954e-07, 'epoch': 0.03}
  0%|          | 82/78504 [03:21<54:52:49,  2.52s/it]  0%|          | 83/78504 [03:23<52:14:48,  2.40s/it]                                                     {'loss': 7.3801, 'grad_norm': 23.419748306274414, 'learning_rate': 3.1333588077951855e-07, 'epoch': 0.03}
  0%|          | 83/78504 [03:23<52:14:48,  2.40s/it]  0%|          | 84/78504 [03:25<50:51:23,  2.33s/it]                                                     {'loss': 7.4818, 'grad_norm': 24.187294006347656, 'learning_rate': 3.171570500573175e-07, 'epoch': 0.03}
  0%|          | 84/78504 [03:25<50:51:23,  2.33s/it]  0%|          | 85/78504 [03:27<49:48:23,  2.29s/it]                                                     {'loss': 7.355, 'grad_norm': 23.868162155151367, 'learning_rate': 3.209782193351165e-07, 'epoch': 0.03}
  0%|          | 85/78504 [03:27<49:48:23,  2.29s/it]  0%|          | 86/78504 [03:29<47:00:19,  2.16s/it]                                                     {'loss': 7.1132, 'grad_norm': 22.45135498046875, 'learning_rate': 3.247993886129156e-07, 'epoch': 0.03}
  0%|          | 86/78504 [03:29<47:00:19,  2.16s/it]  0%|          | 87/78504 [03:31<45:56:33,  2.11s/it]                                                     {'loss': 7.3015, 'grad_norm': 23.71923065185547, 'learning_rate': 3.286205578907146e-07, 'epoch': 0.03}
  0%|          | 87/78504 [03:31<45:56:33,  2.11s/it]  0%|          | 88/78504 [03:33<44:32:14,  2.04s/it]                                                     {'loss': 7.1894, 'grad_norm': 23.34016990661621, 'learning_rate': 3.324417271685136e-07, 'epoch': 0.03}
  0%|          | 88/78504 [03:33<44:32:14,  2.04s/it]  0%|          | 89/78504 [03:35<43:15:10,  1.99s/it]                                                     {'loss': 7.0706, 'grad_norm': 22.59413719177246, 'learning_rate': 3.3626289644631256e-07, 'epoch': 0.03}
  0%|          | 89/78504 [03:35<43:15:10,  1.99s/it]  0%|          | 90/78504 [03:36<41:57:10,  1.93s/it]                                                     {'loss': 7.0546, 'grad_norm': 22.837310791015625, 'learning_rate': 3.4008406572411157e-07, 'epoch': 0.03}
  0%|          | 90/78504 [03:36<41:57:10,  1.93s/it]  0%|          | 91/78504 [03:38<40:11:18,  1.85s/it]                                                     {'loss': 6.9382, 'grad_norm': 22.15131187438965, 'learning_rate': 3.439052350019106e-07, 'epoch': 0.03}
  0%|          | 91/78504 [03:38<40:11:18,  1.85s/it]  0%|          | 92/78504 [03:40<38:09:26,  1.75s/it]                                                     {'loss': 6.7568, 'grad_norm': 21.566699981689453, 'learning_rate': 3.477264042797096e-07, 'epoch': 0.03}
  0%|          | 92/78504 [03:40<38:09:26,  1.75s/it]  0%|          | 93/78504 [03:41<36:37:52,  1.68s/it]                                                     {'loss': 6.9284, 'grad_norm': 22.444026947021484, 'learning_rate': 3.515475735575086e-07, 'epoch': 0.03}
  0%|          | 93/78504 [03:41<36:37:52,  1.68s/it]  0%|          | 94/78504 [03:43<34:48:42,  1.60s/it]                                                     {'loss': 6.6904, 'grad_norm': 21.365964889526367, 'learning_rate': 3.5536874283530766e-07, 'epoch': 0.03}
  0%|          | 94/78504 [03:43<34:48:42,  1.60s/it]  0%|          | 95/78504 [03:44<32:46:33,  1.50s/it]                                                     {'loss': 6.8102, 'grad_norm': 22.21048927307129, 'learning_rate': 3.591899121131066e-07, 'epoch': 0.03}
  0%|          | 95/78504 [03:44<32:46:33,  1.50s/it]  0%|          | 96/78504 [03:45<30:31:44,  1.40s/it]                                                     {'loss': 6.5965, 'grad_norm': 21.176986694335938, 'learning_rate': 3.630110813909056e-07, 'epoch': 0.03}
  0%|          | 96/78504 [03:45<30:31:44,  1.40s/it]  0%|          | 97/78504 [03:46<28:26:43,  1.31s/it]                                                     {'loss': 6.4811, 'grad_norm': 21.002107620239258, 'learning_rate': 3.6683225066870463e-07, 'epoch': 0.03}
  0%|          | 97/78504 [03:46<28:26:43,  1.31s/it]  0%|          | 98/78504 [03:47<26:51:59,  1.23s/it]                                                     {'loss': 6.579, 'grad_norm': 21.357481002807617, 'learning_rate': 3.7065341994650364e-07, 'epoch': 0.03}
  0%|          | 98/78504 [03:47<26:51:59,  1.23s/it]  0%|          | 99/78504 [03:48<24:53:19,  1.14s/it]                                                     {'loss': 6.356, 'grad_norm': 20.7819766998291, 'learning_rate': 3.7447458922430265e-07, 'epoch': 0.03}
  0%|          | 99/78504 [03:48<24:53:19,  1.14s/it]  0%|          | 100/78504 [03:49<22:43:54,  1.04s/it]                                                      {'loss': 5.9806, 'grad_norm': 19.37672233581543, 'learning_rate': 3.7829575850210166e-07, 'epoch': 0.03}
  0%|          | 100/78504 [03:49<22:43:54,  1.04s/it]  0%|          | 101/78504 [03:58<73:52:38,  3.39s/it]                                                      {'loss': 7.4979, 'grad_norm': 25.86378288269043, 'learning_rate': 3.821169277799006e-07, 'epoch': 0.03}
  0%|          | 101/78504 [03:58<73:52:38,  3.39s/it]  0%|          | 102/78504 [04:01<72:14:31,  3.32s/it]                                                      {'loss': 7.1335, 'grad_norm': 25.07935905456543, 'learning_rate': 3.859380970576997e-07, 'epoch': 0.03}
  0%|          | 102/78504 [04:01<72:14:31,  3.32s/it]  0%|          | 103/78504 [04:04<70:19:52,  3.23s/it]                                                      {'loss': 7.1674, 'grad_norm': 25.704378128051758, 'learning_rate': 3.897592663354987e-07, 'epoch': 0.03}
  0%|          | 103/78504 [04:04<70:19:52,  3.23s/it]  0%|          | 104/78504 [04:07<66:20:58,  3.05s/it]                                                      {'loss': 7.0671, 'grad_norm': 25.522432327270508, 'learning_rate': 3.935804356132977e-07, 'epoch': 0.03}
  0%|          | 104/78504 [04:07<66:20:58,  3.05s/it]  0%|          | 105/78504 [04:09<61:53:42,  2.84s/it]                                                      {'loss': 7.0784, 'grad_norm': 25.79082679748535, 'learning_rate': 3.974016048910967e-07, 'epoch': 0.03}
  0%|          | 105/78504 [04:09<61:53:42,  2.84s/it]  0%|          | 106/78504 [04:11<58:09:56,  2.67s/it]                                                      {'loss': 7.043, 'grad_norm': 26.136260986328125, 'learning_rate': 4.0122277416889566e-07, 'epoch': 0.03}
  0%|          | 106/78504 [04:11<58:09:56,  2.67s/it]  0%|          | 107/78504 [04:13<55:53:52,  2.57s/it]                                                      {'loss': 7.0018, 'grad_norm': 26.306779861450195, 'learning_rate': 4.0504394344669467e-07, 'epoch': 0.03}
  0%|          | 107/78504 [04:13<55:53:52,  2.57s/it]  0%|          | 108/78504 [04:16<52:50:37,  2.43s/it]                                                      {'loss': 6.9363, 'grad_norm': 25.916648864746094, 'learning_rate': 4.088651127244937e-07, 'epoch': 0.03}
  0%|          | 108/78504 [04:16<52:50:37,  2.43s/it]  0%|          | 109/78504 [04:18<50:17:37,  2.31s/it]                                                      {'loss': 6.823, 'grad_norm': 25.371524810791016, 'learning_rate': 4.126862820022927e-07, 'epoch': 0.03}
  0%|          | 109/78504 [04:18<50:17:37,  2.31s/it]  0%|          | 110/78504 [04:20<49:10:38,  2.26s/it]                                                      {'loss': 6.8514, 'grad_norm': 26.303377151489258, 'learning_rate': 4.1650745128009175e-07, 'epoch': 0.03}
  0%|          | 110/78504 [04:20<49:10:38,  2.26s/it]  0%|          | 111/78504 [04:22<47:31:12,  2.18s/it]                                                      {'loss': 6.8182, 'grad_norm': 25.99602508544922, 'learning_rate': 4.2032862055789076e-07, 'epoch': 0.03}
  0%|          | 111/78504 [04:22<47:31:12,  2.18s/it]  0%|          | 112/78504 [04:24<45:05:46,  2.07s/it]                                                      {'loss': 6.7174, 'grad_norm': 25.688228607177734, 'learning_rate': 4.241497898356897e-07, 'epoch': 0.03}
  0%|          | 112/78504 [04:24<45:05:46,  2.07s/it]  0%|          | 113/78504 [04:25<43:47:54,  2.01s/it]                                                      {'loss': 6.5966, 'grad_norm': 25.091541290283203, 'learning_rate': 4.2797095911348873e-07, 'epoch': 0.03}
  0%|          | 113/78504 [04:25<43:47:54,  2.01s/it]  0%|          | 114/78504 [04:27<42:39:51,  1.96s/it]                                                      {'loss': 6.6025, 'grad_norm': 25.415782928466797, 'learning_rate': 4.3179212839128774e-07, 'epoch': 0.03}
  0%|          | 114/78504 [04:27<42:39:51,  1.96s/it]  0%|          | 115/78504 [04:29<41:23:28,  1.90s/it]                                                      {'loss': 6.4593, 'grad_norm': 24.51012420654297, 'learning_rate': 4.3561329766908675e-07, 'epoch': 0.04}
  0%|          | 115/78504 [04:29<41:23:28,  1.90s/it]  0%|          | 116/78504 [04:31<39:44:29,  1.83s/it]                                                      {'loss': 6.4542, 'grad_norm': 24.933269500732422, 'learning_rate': 4.3943446694688576e-07, 'epoch': 0.04}
  0%|          | 116/78504 [04:31<39:44:29,  1.83s/it]  0%|          | 117/78504 [04:32<37:46:56,  1.74s/it]                                                      {'loss': 6.3154, 'grad_norm': 24.050718307495117, 'learning_rate': 4.4325563622468477e-07, 'epoch': 0.04}
  0%|          | 117/78504 [04:32<37:46:56,  1.74s/it]  0%|          | 118/78504 [04:34<35:46:59,  1.64s/it]                                                      {'loss': 6.1785, 'grad_norm': 24.26476287841797, 'learning_rate': 4.470768055024838e-07, 'epoch': 0.04}
  0%|          | 118/78504 [04:34<35:46:59,  1.64s/it]  0%|          | 119/78504 [04:35<34:15:32,  1.57s/it]                                                      {'loss': 6.0754, 'grad_norm': 22.763628005981445, 'learning_rate': 4.508979747802828e-07, 'epoch': 0.04}
  0%|          | 119/78504 [04:35<34:15:32,  1.57s/it]  0%|          | 120/78504 [04:36<32:04:27,  1.47s/it]                                                      {'loss': 6.0542, 'grad_norm': 22.83565902709961, 'learning_rate': 4.547191440580818e-07, 'epoch': 0.04}
  0%|          | 120/78504 [04:36<32:04:27,  1.47s/it]  0%|          | 121/78504 [04:37<29:53:19,  1.37s/it]                                                      {'loss': 5.9399, 'grad_norm': 22.363571166992188, 'learning_rate': 4.585403133358808e-07, 'epoch': 0.04}
  0%|          | 121/78504 [04:37<29:53:19,  1.37s/it]  0%|          | 122/78504 [04:39<28:08:50,  1.29s/it]                                                      {'loss': 5.8391, 'grad_norm': 23.11133575439453, 'learning_rate': 4.623614826136798e-07, 'epoch': 0.04}
  0%|          | 122/78504 [04:39<28:08:50,  1.29s/it]  0%|          | 123/78504 [04:40<26:13:52,  1.20s/it]                                                      {'loss': 5.7934, 'grad_norm': 21.935550689697266, 'learning_rate': 4.6618265189147877e-07, 'epoch': 0.04}
  0%|          | 123/78504 [04:40<26:13:52,  1.20s/it]  0%|          | 124/78504 [04:40<24:35:22,  1.13s/it]                                                      {'loss': 5.7123, 'grad_norm': 21.85487937927246, 'learning_rate': 4.7000382116927783e-07, 'epoch': 0.04}
  0%|          | 124/78504 [04:41<24:35:22,  1.13s/it]  0%|          | 125/78504 [04:41<22:19:36,  1.03s/it]                                                      {'loss': 5.4847, 'grad_norm': 20.72574806213379, 'learning_rate': 4.738249904470768e-07, 'epoch': 0.04}
  0%|          | 125/78504 [04:41<22:19:36,  1.03s/it]  0%|          | 126/78504 [04:49<66:19:42,  3.05s/it]                                                      {'loss': 6.6482, 'grad_norm': 28.811315536499023, 'learning_rate': 4.776461597248758e-07, 'epoch': 0.04}
  0%|          | 126/78504 [04:49<66:19:42,  3.05s/it]  0%|          | 127/78504 [04:52<66:49:04,  3.07s/it]                                                      {'loss': 6.5336, 'grad_norm': 29.478004455566406, 'learning_rate': 4.814673290026749e-07, 'epoch': 0.04}
  0%|          | 127/78504 [04:52<66:49:04,  3.07s/it]  0%|          | 128/78504 [04:55<66:30:47,  3.06s/it]                                                      {'loss': 6.4138, 'grad_norm': 29.13392448425293, 'learning_rate': 4.852884982804738e-07, 'epoch': 0.04}
  0%|          | 128/78504 [04:55<66:30:47,  3.06s/it]  0%|          | 129/78504 [04:58<63:41:00,  2.93s/it]                                                      {'loss': 6.3758, 'grad_norm': 29.322067260742188, 'learning_rate': 4.891096675582729e-07, 'epoch': 0.04}
  0%|          | 129/78504 [04:58<63:41:00,  2.93s/it]  0%|          | 130/78504 [05:00<60:03:29,  2.76s/it]                                                      {'loss': 6.2729, 'grad_norm': 29.335927963256836, 'learning_rate': 4.929308368360718e-07, 'epoch': 0.04}
  0%|          | 130/78504 [05:00<60:03:29,  2.76s/it]  0%|          | 131/78504 [05:03<57:27:04,  2.64s/it]                                                      {'loss': 6.1525, 'grad_norm': 29.03062629699707, 'learning_rate': 4.967520061138709e-07, 'epoch': 0.04}
  0%|          | 131/78504 [05:03<57:27:04,  2.64s/it]  0%|          | 132/78504 [05:05<55:31:06,  2.55s/it]                                                      {'loss': 6.1818, 'grad_norm': 29.667264938354492, 'learning_rate': 5.005731753916699e-07, 'epoch': 0.04}
  0%|          | 132/78504 [05:05<55:31:06,  2.55s/it]  0%|          | 133/78504 [05:07<52:32:06,  2.41s/it]                                                      {'loss': 6.0194, 'grad_norm': 29.049808502197266, 'learning_rate': 5.043943446694688e-07, 'epoch': 0.04}
  0%|          | 133/78504 [05:07<52:32:06,  2.41s/it]  0%|          | 134/78504 [05:09<50:03:17,  2.30s/it]                                                      {'loss': 5.9337, 'grad_norm': 28.47346305847168, 'learning_rate': 5.082155139472679e-07, 'epoch': 0.04}
  0%|          | 134/78504 [05:09<50:03:17,  2.30s/it]  0%|          | 135/78504 [05:11<49:03:22,  2.25s/it]                                                      {'loss': 5.9656, 'grad_norm': 29.584733963012695, 'learning_rate': 5.120366832250668e-07, 'epoch': 0.04}
  0%|          | 135/78504 [05:11<49:03:22,  2.25s/it]  0%|          | 136/78504 [05:13<47:34:06,  2.19s/it]                                                      {'loss': 5.9457, 'grad_norm': 29.759511947631836, 'learning_rate': 5.158578525028659e-07, 'epoch': 0.04}
  0%|          | 136/78504 [05:13<47:34:06,  2.19s/it]  0%|          | 137/78504 [05:15<46:16:12,  2.13s/it]                                                      {'loss': 5.786, 'grad_norm': 28.96985626220703, 'learning_rate': 5.196790217806648e-07, 'epoch': 0.04}
  0%|          | 137/78504 [05:15<46:16:12,  2.13s/it]  0%|          | 138/78504 [05:17<44:38:33,  2.05s/it]                                                      {'loss': 5.7358, 'grad_norm': 28.883241653442383, 'learning_rate': 5.235001910584639e-07, 'epoch': 0.04}
  0%|          | 138/78504 [05:17<44:38:33,  2.05s/it]  0%|          | 139/78504 [05:19<43:34:23,  2.00s/it]                                                      {'loss': 5.6243, 'grad_norm': 28.061107635498047, 'learning_rate': 5.27321360336263e-07, 'epoch': 0.04}
  0%|          | 139/78504 [05:19<43:34:23,  2.00s/it]  0%|          | 140/78504 [05:21<41:52:36,  1.92s/it]                                                      {'loss': 5.595, 'grad_norm': 28.557910919189453, 'learning_rate': 5.311425296140619e-07, 'epoch': 0.04}
  0%|          | 140/78504 [05:21<41:52:36,  1.92s/it]  0%|          | 141/78504 [05:22<40:15:54,  1.85s/it]                                                      {'loss': 5.4564, 'grad_norm': 27.0810489654541, 'learning_rate': 5.34963698891861e-07, 'epoch': 0.04}
  0%|          | 141/78504 [05:22<40:15:54,  1.85s/it]  0%|          | 142/78504 [05:24<38:15:54,  1.76s/it]                                                      {'loss': 5.4069, 'grad_norm': 27.113380432128906, 'learning_rate': 5.387848681696599e-07, 'epoch': 0.04}
  0%|          | 142/78504 [05:24<38:15:54,  1.76s/it]  0%|          | 143/78504 [05:25<36:23:34,  1.67s/it]                                                      {'loss': 5.3479, 'grad_norm': 27.154207229614258, 'learning_rate': 5.426060374474589e-07, 'epoch': 0.04}
  0%|          | 143/78504 [05:25<36:23:34,  1.67s/it]  0%|          | 144/78504 [05:27<34:46:30,  1.60s/it]                                                      {'loss': 5.1618, 'grad_norm': 24.9394474029541, 'learning_rate': 5.46427206725258e-07, 'epoch': 0.04}
  0%|          | 144/78504 [05:27<34:46:30,  1.60s/it]  0%|          | 145/78504 [05:28<32:19:59,  1.49s/it]                                                      {'loss': 5.1594, 'grad_norm': 25.309959411621094, 'learning_rate': 5.502483760030569e-07, 'epoch': 0.04}
  0%|          | 145/78504 [05:28<32:19:59,  1.49s/it]  0%|          | 146/78504 [05:29<30:02:16,  1.38s/it]                                                      {'loss': 5.0929, 'grad_norm': 25.39933204650879, 'learning_rate': 5.54069545280856e-07, 'epoch': 0.04}
  0%|          | 146/78504 [05:29<30:02:16,  1.38s/it]  0%|          | 147/78504 [05:30<28:10:36,  1.29s/it]                                                      {'loss': 5.027, 'grad_norm': 25.4710693359375, 'learning_rate': 5.578907145586549e-07, 'epoch': 0.04}
  0%|          | 147/78504 [05:30<28:10:36,  1.29s/it]  0%|          | 148/78504 [05:31<26:18:13,  1.21s/it]                                                      {'loss': 4.9338, 'grad_norm': 24.42040252685547, 'learning_rate': 5.61711883836454e-07, 'epoch': 0.05}
  0%|          | 148/78504 [05:31<26:18:13,  1.21s/it]  0%|          | 149/78504 [05:32<24:37:14,  1.13s/it]                                                      {'loss': 4.769, 'grad_norm': 22.97148895263672, 'learning_rate': 5.65533053114253e-07, 'epoch': 0.05}
  0%|          | 149/78504 [05:32<24:37:14,  1.13s/it]  0%|          | 150/78504 [05:33<22:24:16,  1.03s/it]                                                      {'loss': 4.6579, 'grad_norm': 20.79481315612793, 'learning_rate': 5.693542223920519e-07, 'epoch': 0.05}
  0%|          | 150/78504 [05:33<22:24:16,  1.03s/it]  0%|          | 151/78504 [05:41<67:31:38,  3.10s/it]                                                      {'loss': 5.3634, 'grad_norm': inf, 'learning_rate': 5.693542223920519e-07, 'epoch': 0.05}
  0%|          | 151/78504 [05:41<67:31:38,  3.10s/it]  0%|          | 152/78504 [05:44<68:47:52,  3.16s/it]                                                      {'loss': 5.2018, 'grad_norm': 32.50153350830078, 'learning_rate': 5.73175391669851e-07, 'epoch': 0.05}
  0%|          | 152/78504 [05:44<68:47:52,  3.16s/it]  0%|          | 153/78504 [05:47<67:39:41,  3.11s/it]                                                      {'loss': 5.1173, 'grad_norm': 32.19245910644531, 'learning_rate': 5.769965609476499e-07, 'epoch': 0.05}
  0%|          | 153/78504 [05:47<67:39:41,  3.11s/it]  0%|          | 154/78504 [05:50<64:30:15,  2.96s/it]                                                      {'loss': 5.0188, 'grad_norm': 31.8254337310791, 'learning_rate': 5.80817730225449e-07, 'epoch': 0.05}
  0%|          | 154/78504 [05:50<64:30:15,  2.96s/it]  0%|          | 155/78504 [05:52<60:33:30,  2.78s/it]                                                      {'loss': 4.9354, 'grad_norm': 31.345176696777344, 'learning_rate': 5.846388995032481e-07, 'epoch': 0.05}
  0%|          | 155/78504 [05:52<60:33:30,  2.78s/it]  0%|          | 156/78504 [05:54<56:50:58,  2.61s/it]                                                      {'loss': 4.8688, 'grad_norm': 30.8551082611084, 'learning_rate': 5.88460068781047e-07, 'epoch': 0.05}
  0%|          | 156/78504 [05:54<56:50:58,  2.61s/it]  0%|          | 157/78504 [05:57<55:04:05,  2.53s/it]                                                      {'loss': 4.7249, 'grad_norm': 29.267337799072266, 'learning_rate': 5.922812380588461e-07, 'epoch': 0.05}
  0%|          | 157/78504 [05:57<55:04:05,  2.53s/it]  0%|          | 158/78504 [05:59<52:12:21,  2.40s/it]                                                      {'loss': 4.686, 'grad_norm': 29.33692169189453, 'learning_rate': 5.96102407336645e-07, 'epoch': 0.05}
  0%|          | 158/78504 [05:59<52:12:21,  2.40s/it]  0%|          | 159/78504 [06:01<50:51:46,  2.34s/it]                                                      {'loss': 4.6101, 'grad_norm': 28.15401268005371, 'learning_rate': 5.999235766144441e-07, 'epoch': 0.05}
  0%|          | 159/78504 [06:01<50:51:46,  2.34s/it]  0%|          | 160/78504 [06:03<49:34:55,  2.28s/it]                                                      {'loss': 4.5363, 'grad_norm': 27.548696517944336, 'learning_rate': 6.03744745892243e-07, 'epoch': 0.05}
  0%|          | 160/78504 [06:03<49:34:55,  2.28s/it]  0%|          | 161/78504 [06:05<47:46:07,  2.20s/it]                                                      {'loss': 4.4534, 'grad_norm': 26.75923728942871, 'learning_rate': 6.07565915170042e-07, 'epoch': 0.05}
  0%|          | 161/78504 [06:05<47:46:07,  2.20s/it]  0%|          | 162/78504 [06:07<45:18:13,  2.08s/it]                                                      {'loss': 4.3505, 'grad_norm': 24.019573211669922, 'learning_rate': 6.113870844478411e-07, 'epoch': 0.05}
  0%|          | 162/78504 [06:07<45:18:13,  2.08s/it]  0%|          | 163/78504 [06:09<43:51:39,  2.02s/it]                                                      {'loss': 4.3051, 'grad_norm': 23.76920509338379, 'learning_rate': 6.1520825372564e-07, 'epoch': 0.05}
  0%|          | 163/78504 [06:09<43:51:39,  2.02s/it]  0%|          | 164/78504 [06:11<41:56:37,  1.93s/it]                                                      {'loss': 4.2441, 'grad_norm': 21.32398223876953, 'learning_rate': 6.190294230034391e-07, 'epoch': 0.05}
  0%|          | 164/78504 [06:11<41:56:37,  1.93s/it]  0%|          | 165/78504 [06:12<40:42:40,  1.87s/it]                                                      {'loss': 4.1633, 'grad_norm': 19.767667770385742, 'learning_rate': 6.22850592281238e-07, 'epoch': 0.05}
  0%|          | 165/78504 [06:12<40:42:40,  1.87s/it]  0%|          | 166/78504 [06:14<39:18:05,  1.81s/it]                                                      {'loss': 4.098, 'grad_norm': 18.072601318359375, 'learning_rate': 6.266717615590371e-07, 'epoch': 0.05}
  0%|          | 166/78504 [06:14<39:18:05,  1.81s/it]  0%|          | 167/78504 [06:16<37:37:48,  1.73s/it]                                                      {'loss': 4.0733, 'grad_norm': 16.40079116821289, 'learning_rate': 6.304929308368361e-07, 'epoch': 0.05}
  0%|          | 167/78504 [06:16<37:37:48,  1.73s/it]  0%|          | 168/78504 [06:17<35:47:46,  1.65s/it]                                                      {'loss': 4.0248, 'grad_norm': 14.797042846679688, 'learning_rate': 6.34314100114635e-07, 'epoch': 0.05}
  0%|          | 168/78504 [06:17<35:47:46,  1.65s/it]  0%|          | 169/78504 [06:18<34:17:08,  1.58s/it]                                                      {'loss': 3.9938, 'grad_norm': 13.73922061920166, 'learning_rate': 6.381352693924341e-07, 'epoch': 0.05}
  0%|          | 169/78504 [06:18<34:17:08,  1.58s/it]  0%|          | 170/78504 [06:20<31:55:03,  1.47s/it]                                                      {'loss': 3.9397, 'grad_norm': 12.408406257629395, 'learning_rate': 6.41956438670233e-07, 'epoch': 0.05}
  0%|          | 170/78504 [06:20<31:55:03,  1.47s/it]  0%|          | 171/78504 [06:21<29:52:54,  1.37s/it]                                                      {'loss': 3.9039, 'grad_norm': 11.0806303024292, 'learning_rate': 6.457776079480322e-07, 'epoch': 0.05}
  0%|          | 171/78504 [06:21<29:52:54,  1.37s/it]  0%|          | 172/78504 [06:22<28:12:10,  1.30s/it]                                                      {'loss': 3.8567, 'grad_norm': 10.287764549255371, 'learning_rate': 6.495987772258312e-07, 'epoch': 0.05}
  0%|          | 172/78504 [06:22<28:12:10,  1.30s/it]  0%|          | 173/78504 [06:23<26:18:25,  1.21s/it]                                                      {'loss': 3.8572, 'grad_norm': 10.420894622802734, 'learning_rate': 6.534199465036301e-07, 'epoch': 0.05}
  0%|          | 173/78504 [06:23<26:18:25,  1.21s/it]  0%|          | 174/78504 [06:24<24:31:03,  1.13s/it]                                                      {'loss': 3.8225, 'grad_norm': 11.034759521484375, 'learning_rate': 6.572411157814292e-07, 'epoch': 0.05}
  0%|          | 174/78504 [06:24<24:31:03,  1.13s/it]  0%|          | 175/78504 [06:25<22:18:39,  1.03s/it]                                                      {'loss': 3.7767, 'grad_norm': 12.670732498168945, 'learning_rate': 6.610622850592281e-07, 'epoch': 0.05}
  0%|          | 175/78504 [06:25<22:18:39,  1.03s/it]  0%|          | 176/78504 [06:33<72:04:14,  3.31s/it]                                                      {'loss': 3.7531, 'grad_norm': 9.92987060546875, 'learning_rate': 6.648834543370272e-07, 'epoch': 0.05}
  0%|          | 176/78504 [06:33<72:04:14,  3.31s/it]  0%|          | 177/78504 [06:36<70:59:03,  3.26s/it]                                                      {'loss': 3.6744, 'grad_norm': 9.053284645080566, 'learning_rate': 6.687046236148262e-07, 'epoch': 0.05}
  0%|          | 177/78504 [06:36<70:59:03,  3.26s/it]  0%|          | 178/78504 [06:39<69:29:04,  3.19s/it]                                                      {'loss': 3.6464, 'grad_norm': 8.813132286071777, 'learning_rate': 6.725257928926251e-07, 'epoch': 0.05}
  0%|          | 178/78504 [06:39<69:29:04,  3.19s/it]  0%|          | 179/78504 [06:42<65:32:39,  3.01s/it]                                                      {'loss': 3.6191, 'grad_norm': 8.75460433959961, 'learning_rate': 6.763469621704242e-07, 'epoch': 0.05}
  0%|          | 179/78504 [06:42<65:32:39,  3.01s/it]  0%|          | 180/78504 [06:44<61:19:09,  2.82s/it]                                                      {'loss': 3.5784, 'grad_norm': 8.578996658325195, 'learning_rate': 6.801681314482231e-07, 'epoch': 0.06}
  0%|          | 180/78504 [06:44<61:19:09,  2.82s/it]  0%|          | 181/78504 [06:47<57:41:43,  2.65s/it]                                                      {'loss': 3.5504, 'grad_norm': 8.702179908752441, 'learning_rate': 6.839893007260222e-07, 'epoch': 0.06}
  0%|          | 181/78504 [06:47<57:41:43,  2.65s/it]  0%|          | 182/78504 [06:49<55:33:33,  2.55s/it]                                                      {'loss': 3.524, 'grad_norm': 7.9532999992370605, 'learning_rate': 6.878104700038212e-07, 'epoch': 0.06}
  0%|          | 182/78504 [06:49<55:33:33,  2.55s/it]  0%|          | 183/78504 [06:51<52:38:22,  2.42s/it]                                                      {'loss': 3.4855, 'grad_norm': 7.753958225250244, 'learning_rate': 6.916316392816202e-07, 'epoch': 0.06}
  0%|          | 183/78504 [06:51<52:38:22,  2.42s/it]  0%|          | 184/78504 [06:53<50:08:29,  2.30s/it]                                                      {'loss': 3.4897, 'grad_norm': 7.2960686683654785, 'learning_rate': 6.954528085594192e-07, 'epoch': 0.06}
  0%|          | 184/78504 [06:53<50:08:29,  2.30s/it]  0%|          | 185/78504 [06:55<49:05:31,  2.26s/it]                                                      {'loss': 3.4378, 'grad_norm': 6.889578819274902, 'learning_rate': 6.992739778372181e-07, 'epoch': 0.06}
  0%|          | 185/78504 [06:55<49:05:31,  2.26s/it]  0%|          | 186/78504 [06:57<47:34:53,  2.19s/it]                                                      {'loss': 3.4377, 'grad_norm': 6.90155029296875, 'learning_rate': 7.030951471150172e-07, 'epoch': 0.06}
  0%|          | 186/78504 [06:57<47:34:53,  2.19s/it]  0%|          | 187/78504 [06:59<46:16:29,  2.13s/it]                                                      {'loss': 3.3882, 'grad_norm': 6.828741550445557, 'learning_rate': 7.069163163928163e-07, 'epoch': 0.06}
  0%|          | 187/78504 [06:59<46:16:29,  2.13s/it]  0%|          | 188/78504 [07:01<44:36:15,  2.05s/it]                                                      {'loss': 3.386, 'grad_norm': 7.035349369049072, 'learning_rate': 7.107374856706153e-07, 'epoch': 0.06}
  0%|          | 188/78504 [07:01<44:36:15,  2.05s/it]  0%|          | 189/78504 [07:03<43:14:43,  1.99s/it]                                                      {'loss': 3.3903, 'grad_norm': 6.534512519836426, 'learning_rate': 7.145586549484143e-07, 'epoch': 0.06}
  0%|          | 189/78504 [07:03<43:14:43,  1.99s/it]  0%|          | 190/78504 [07:05<41:33:50,  1.91s/it]                                                      {'loss': 3.3708, 'grad_norm': 7.165710926055908, 'learning_rate': 7.183798242262132e-07, 'epoch': 0.06}
  0%|          | 190/78504 [07:05<41:33:50,  1.91s/it]  0%|          | 191/78504 [07:06<39:55:39,  1.84s/it]                                                      {'loss': 3.3402, 'grad_norm': 6.206090927124023, 'learning_rate': 7.222009935040123e-07, 'epoch': 0.06}
  0%|          | 191/78504 [07:06<39:55:39,  1.84s/it]  0%|          | 192/78504 [07:08<37:55:29,  1.74s/it]                                                      {'loss': 3.3556, 'grad_norm': 5.940566539764404, 'learning_rate': 7.260221627818112e-07, 'epoch': 0.06}
  0%|          | 192/78504 [07:08<37:55:29,  1.74s/it]  0%|          | 193/78504 [07:09<35:50:39,  1.65s/it]                                                      {'loss': 3.3237, 'grad_norm': 6.090426445007324, 'learning_rate': 7.298433320596103e-07, 'epoch': 0.06}
  0%|          | 193/78504 [07:09<35:50:39,  1.65s/it]  0%|          | 194/78504 [07:11<34:19:51,  1.58s/it]                                                      {'loss': 3.3234, 'grad_norm': 5.814377784729004, 'learning_rate': 7.336645013374093e-07, 'epoch': 0.06}
  0%|          | 194/78504 [07:11<34:19:51,  1.58s/it]  0%|          | 195/78504 [07:12<32:25:23,  1.49s/it]                                                      {'loss': 3.3093, 'grad_norm': 6.385340213775635, 'learning_rate': 7.374856706152082e-07, 'epoch': 0.06}
  0%|          | 195/78504 [07:12<32:25:23,  1.49s/it]  0%|          | 196/78504 [07:13<30:16:42,  1.39s/it]                                                      {'loss': 3.2687, 'grad_norm': 5.415619373321533, 'learning_rate': 7.413068398930073e-07, 'epoch': 0.06}
  0%|          | 196/78504 [07:13<30:16:42,  1.39s/it]  0%|          | 197/78504 [07:14<28:21:26,  1.30s/it]                                                      {'loss': 3.2456, 'grad_norm': 5.428919315338135, 'learning_rate': 7.451280091708062e-07, 'epoch': 0.06}
  0%|          | 197/78504 [07:14<28:21:26,  1.30s/it]  0%|          | 198/78504 [07:15<26:42:39,  1.23s/it]                                                      {'loss': 3.2619, 'grad_norm': 5.200325965881348, 'learning_rate': 7.489491784486053e-07, 'epoch': 0.06}
  0%|          | 198/78504 [07:15<26:42:39,  1.23s/it]  0%|          | 199/78504 [07:16<24:48:59,  1.14s/it]                                                      {'loss': 3.2184, 'grad_norm': 5.31981897354126, 'learning_rate': 7.527703477264043e-07, 'epoch': 0.06}
  0%|          | 199/78504 [07:16<24:48:59,  1.14s/it]  0%|          | 200/78504 [07:17<22:29:28,  1.03s/it]                                                      {'loss': 3.1818, 'grad_norm': 5.07005500793457, 'learning_rate': 7.565915170042033e-07, 'epoch': 0.06}
  0%|          | 200/78504 [07:17<22:29:28,  1.03s/it]  0%|          | 201/78504 [07:27<82:50:46,  3.81s/it]                                                      {'loss': 3.2727, 'grad_norm': 17.107723236083984, 'learning_rate': 7.604126862820023e-07, 'epoch': 0.06}
  0%|          | 201/78504 [07:27<82:50:46,  3.81s/it]  0%|          | 202/78504 [07:30<78:30:15,  3.61s/it]                                                      {'loss': 3.2089, 'grad_norm': 15.640349388122559, 'learning_rate': 7.642338555598012e-07, 'epoch': 0.06}
  0%|          | 202/78504 [07:31<78:30:15,  3.61s/it]  0%|          | 203/78504 [07:34<74:37:25,  3.43s/it]                                                      {'loss': 3.1685, 'grad_norm': 14.494150161743164, 'learning_rate': 7.680550248376004e-07, 'epoch': 0.06}
  0%|          | 203/78504 [07:34<74:37:25,  3.43s/it]  0%|          | 204/78504 [07:36<69:22:54,  3.19s/it]                                                      {'loss': 3.1455, 'grad_norm': 12.784191131591797, 'learning_rate': 7.718761941153994e-07, 'epoch': 0.06}
  0%|          | 204/78504 [07:36<69:22:54,  3.19s/it]  0%|          | 205/78504 [07:39<64:47:26,  2.98s/it]                                                      {'loss': 3.1119, 'grad_norm': 8.699557304382324, 'learning_rate': 7.756973633931984e-07, 'epoch': 0.06}
  0%|          | 205/78504 [07:39<64:47:26,  2.98s/it]  0%|          | 206/78504 [07:41<60:11:55,  2.77s/it]                                                      {'loss': 3.0995, 'grad_norm': 6.457502841949463, 'learning_rate': 7.795185326709974e-07, 'epoch': 0.06}
  0%|          | 206/78504 [07:41<60:11:55,  2.77s/it]  0%|          | 207/78504 [07:43<57:17:05,  2.63s/it]                                                      {'loss': 3.063, 'grad_norm': 4.067775249481201, 'learning_rate': 7.833397019487963e-07, 'epoch': 0.06}
  0%|          | 207/78504 [07:43<57:17:05,  2.63s/it]  0%|          | 208/78504 [07:45<53:48:17,  2.47s/it]                                                      {'loss': 3.0597, 'grad_norm': 5.944173336029053, 'learning_rate': 7.871608712265954e-07, 'epoch': 0.06}
  0%|          | 208/78504 [07:45<53:48:17,  2.47s/it]  0%|          | 209/78504 [07:48<51:56:17,  2.39s/it]                                                      {'loss': 3.0743, 'grad_norm': 6.701009750366211, 'learning_rate': 7.909820405043944e-07, 'epoch': 0.06}
  0%|          | 209/78504 [07:48<51:56:17,  2.39s/it]  0%|          | 210/78504 [07:50<50:30:39,  2.32s/it]                                                      {'loss': 3.0625, 'grad_norm': 7.740096092224121, 'learning_rate': 7.948032097821934e-07, 'epoch': 0.06}
  0%|          | 210/78504 [07:50<50:30:39,  2.32s/it]  0%|          | 211/78504 [07:52<47:37:33,  2.19s/it]                                                      {'loss': 3.0453, 'grad_norm': 8.296363830566406, 'learning_rate': 7.986243790599924e-07, 'epoch': 0.06}
  0%|          | 211/78504 [07:52<47:37:33,  2.19s/it]  0%|          | 212/78504 [07:54<46:16:16,  2.13s/it]                                                      {'loss': 3.0253, 'grad_norm': 6.8833770751953125, 'learning_rate': 8.024455483377913e-07, 'epoch': 0.06}
  0%|          | 212/78504 [07:54<46:16:16,  2.13s/it]  0%|          | 213/78504 [07:55<44:58:29,  2.07s/it]                                                      {'loss': 3.0221, 'grad_norm': 4.895036697387695, 'learning_rate': 8.062667176155904e-07, 'epoch': 0.07}
  0%|          | 213/78504 [07:55<44:58:29,  2.07s/it]  0%|          | 214/78504 [07:57<43:45:58,  2.01s/it]                                                      {'loss': 3.008, 'grad_norm': 3.5238819122314453, 'learning_rate': 8.100878868933893e-07, 'epoch': 0.07}
  0%|          | 214/78504 [07:57<43:45:58,  2.01s/it]  0%|          | 215/78504 [07:59<42:09:13,  1.94s/it]                                                      {'loss': 3.0103, 'grad_norm': 3.580324411392212, 'learning_rate': 8.139090561711884e-07, 'epoch': 0.07}
  0%|          | 215/78504 [07:59<42:09:13,  1.94s/it]  0%|          | 216/78504 [08:01<40:01:28,  1.84s/it]                                                      {'loss': 3.0208, 'grad_norm': 4.652540683746338, 'learning_rate': 8.177302254489874e-07, 'epoch': 0.07}
  0%|          | 216/78504 [08:01<40:01:28,  1.84s/it]  0%|          | 217/78504 [08:02<38:12:24,  1.76s/it]                                                      {'loss': 3.0356, 'grad_norm': 4.5278825759887695, 'learning_rate': 8.215513947267864e-07, 'epoch': 0.07}
  0%|          | 217/78504 [08:02<38:12:24,  1.76s/it]  0%|          | 218/78504 [08:04<36:36:52,  1.68s/it]                                                      {'loss': 3.0282, 'grad_norm': 3.829627752304077, 'learning_rate': 8.253725640045854e-07, 'epoch': 0.07}
  0%|          | 218/78504 [08:04<36:36:52,  1.68s/it]  0%|          | 219/78504 [08:05<34:46:03,  1.60s/it]                                                      {'loss': 3.0114, 'grad_norm': 3.477382183074951, 'learning_rate': 8.291937332823844e-07, 'epoch': 0.07}
  0%|          | 219/78504 [08:05<34:46:03,  1.60s/it]  0%|          | 220/78504 [08:06<32:45:00,  1.51s/it]                                                      {'loss': 3.0317, 'grad_norm': 4.350729942321777, 'learning_rate': 8.330149025601835e-07, 'epoch': 0.07}
  0%|          | 220/78504 [08:07<32:45:00,  1.51s/it]  0%|          | 221/78504 [08:08<30:48:22,  1.42s/it]                                                      {'loss': 3.0416, 'grad_norm': 3.895333766937256, 'learning_rate': 8.368360718379825e-07, 'epoch': 0.07}
  0%|          | 221/78504 [08:08<30:48:22,  1.42s/it]  0%|          | 222/78504 [08:09<28:38:27,  1.32s/it]                                                      {'loss': 2.9919, 'grad_norm': 3.6035702228546143, 'learning_rate': 8.406572411157815e-07, 'epoch': 0.07}
  0%|          | 222/78504 [08:09<28:38:27,  1.32s/it]  0%|          | 223/78504 [08:10<26:52:31,  1.24s/it]                                                      {'loss': 3.0035, 'grad_norm': 3.7856855392456055, 'learning_rate': 8.444784103935805e-07, 'epoch': 0.07}
  0%|          | 223/78504 [08:10<26:52:31,  1.24s/it]  0%|          | 224/78504 [08:11<24:54:20,  1.15s/it]                                                      {'loss': 2.9999, 'grad_norm': 3.925621509552002, 'learning_rate': 8.482995796713794e-07, 'epoch': 0.07}
  0%|          | 224/78504 [08:11<24:54:20,  1.15s/it]  0%|          | 225/78504 [08:12<22:33:43,  1.04s/it]                                                      {'loss': 2.9532, 'grad_norm': 7.144941806793213, 'learning_rate': 8.521207489491785e-07, 'epoch': 0.07}
  0%|          | 225/78504 [08:12<22:33:43,  1.04s/it]  0%|          | 226/78504 [08:20<72:44:08,  3.35s/it]                                                      {'loss': 2.992, 'grad_norm': 12.69289779663086, 'learning_rate': 8.559419182269775e-07, 'epoch': 0.07}
  0%|          | 226/78504 [08:20<72:44:08,  3.35s/it]  0%|          | 227/78504 [08:24<72:54:12,  3.35s/it]                                                      {'loss': 2.9521, 'grad_norm': 12.417204856872559, 'learning_rate': 8.597630875047765e-07, 'epoch': 0.07}
  0%|          | 227/78504 [08:24<72:54:12,  3.35s/it]  0%|          | 228/78504 [08:27<70:27:12,  3.24s/it]                                                      {'loss': 2.9375, 'grad_norm': 12.220179557800293, 'learning_rate': 8.635842567825755e-07, 'epoch': 0.07}
  0%|          | 228/78504 [08:27<70:27:12,  3.24s/it]  0%|          | 229/78504 [08:29<66:23:40,  3.05s/it]                                                      {'loss': 2.9194, 'grad_norm': 9.418977737426758, 'learning_rate': 8.674054260603744e-07, 'epoch': 0.07}
  0%|          | 229/78504 [08:29<66:23:40,  3.05s/it]  0%|          | 230/78504 [08:32<62:34:41,  2.88s/it]                                                      {'loss': 2.9017, 'grad_norm': 7.437530040740967, 'learning_rate': 8.712265953381735e-07, 'epoch': 0.07}
  0%|          | 230/78504 [08:32<62:34:41,  2.88s/it]  0%|          | 231/78504 [08:34<58:36:20,  2.70s/it]                                                      {'loss': 2.8791, 'grad_norm': 5.17976188659668, 'learning_rate': 8.750477646159725e-07, 'epoch': 0.07}
  0%|          | 231/78504 [08:34<58:36:20,  2.70s/it]  0%|          | 232/78504 [08:36<56:13:08,  2.59s/it]                                                      {'loss': 2.8595, 'grad_norm': 5.491673946380615, 'learning_rate': 8.788689338937715e-07, 'epoch': 0.07}
  0%|          | 232/78504 [08:36<56:13:08,  2.59s/it]  0%|          | 233/78504 [08:38<53:17:39,  2.45s/it]                                                      {'loss': 2.8916, 'grad_norm': 4.838670253753662, 'learning_rate': 8.826901031715705e-07, 'epoch': 0.07}
  0%|          | 233/78504 [08:38<53:17:39,  2.45s/it]  0%|          | 234/78504 [08:41<51:36:58,  2.37s/it]                                                      {'loss': 2.8787, 'grad_norm': 6.157463550567627, 'learning_rate': 8.865112724493695e-07, 'epoch': 0.07}
  0%|          | 234/78504 [08:41<51:36:58,  2.37s/it]  0%|          | 235/78504 [08:43<50:09:45,  2.31s/it]                                                      {'loss': 2.886, 'grad_norm': 6.79338264465332, 'learning_rate': 8.903324417271686e-07, 'epoch': 0.07}
  0%|          | 235/78504 [08:43<50:09:45,  2.31s/it]  0%|          | 236/78504 [08:45<48:22:18,  2.22s/it]                                                      {'loss': 2.8888, 'grad_norm': 6.777259349822998, 'learning_rate': 8.941536110049675e-07, 'epoch': 0.07}
  0%|          | 236/78504 [08:45<48:22:18,  2.22s/it]  0%|          | 237/78504 [08:47<46:47:35,  2.15s/it]                                                      {'loss': 2.8604, 'grad_norm': 5.309328079223633, 'learning_rate': 8.979747802827666e-07, 'epoch': 0.07}
  0%|          | 237/78504 [08:47<46:47:35,  2.15s/it]  0%|          | 238/78504 [08:49<44:53:39,  2.07s/it]                                                      {'loss': 2.8492, 'grad_norm': 2.91855525970459, 'learning_rate': 9.017959495605656e-07, 'epoch': 0.07}
  0%|          | 238/78504 [08:49<44:53:39,  2.07s/it]  0%|          | 239/78504 [08:51<43:21:59,  1.99s/it]                                                      {'loss': 2.8714, 'grad_norm': 2.6521034240722656, 'learning_rate': 9.056171188383646e-07, 'epoch': 0.07}
  0%|          | 239/78504 [08:51<43:21:59,  1.99s/it]  0%|          | 240/78504 [08:52<41:38:00,  1.92s/it]                                                      {'loss': 2.878, 'grad_norm': 4.107646942138672, 'learning_rate': 9.094382881161636e-07, 'epoch': 0.07}
  0%|          | 240/78504 [08:52<41:38:00,  1.92s/it]  0%|          | 241/78504 [08:54<39:51:59,  1.83s/it]                                                      {'loss': 2.8596, 'grad_norm': 3.249817371368408, 'learning_rate': 9.132594573939625e-07, 'epoch': 0.07}
  0%|          | 241/78504 [08:54<39:51:59,  1.83s/it]  0%|          | 242/78504 [08:55<37:54:05,  1.74s/it]                                                      {'loss': 2.8803, 'grad_norm': 3.9444007873535156, 'learning_rate': 9.170806266717616e-07, 'epoch': 0.07}
  0%|          | 242/78504 [08:55<37:54:05,  1.74s/it]  0%|          | 243/78504 [08:57<35:57:46,  1.65s/it]                                                      {'loss': 2.8768, 'grad_norm': 2.2641005516052246, 'learning_rate': 9.209017959495606e-07, 'epoch': 0.07}
  0%|          | 243/78504 [08:57<35:57:46,  1.65s/it]  0%|          | 244/78504 [08:58<34:24:40,  1.58s/it]                                                      {'loss': 2.8827, 'grad_norm': 2.0083391666412354, 'learning_rate': 9.247229652273596e-07, 'epoch': 0.07}
  0%|          | 244/78504 [08:58<34:24:40,  1.58s/it]  0%|          | 245/78504 [09:00<32:33:07,  1.50s/it]                                                      {'loss': 2.8879, 'grad_norm': 2.1648073196411133, 'learning_rate': 9.285441345051586e-07, 'epoch': 0.07}
  0%|          | 245/78504 [09:00<32:33:07,  1.50s/it]  0%|          | 246/78504 [09:01<30:24:28,  1.40s/it]                                                      {'loss': 2.8619, 'grad_norm': 2.881678819656372, 'learning_rate': 9.323653037829575e-07, 'epoch': 0.08}
  0%|          | 246/78504 [09:01<30:24:28,  1.40s/it]  0%|          | 247/78504 [09:02<28:29:12,  1.31s/it]                                                      {'loss': 2.8829, 'grad_norm': 4.199202537536621, 'learning_rate': 9.361864730607566e-07, 'epoch': 0.08}
  0%|          | 247/78504 [09:02<28:29:12,  1.31s/it]  0%|          | 248/78504 [09:03<26:28:21,  1.22s/it]                                                      {'loss': 2.8851, 'grad_norm': 2.215648889541626, 'learning_rate': 9.400076423385557e-07, 'epoch': 0.08}
  0%|          | 248/78504 [09:03<26:28:21,  1.22s/it]  0%|          | 249/78504 [09:04<24:39:52,  1.13s/it]                                                      {'loss': 2.894, 'grad_norm': 3.7611210346221924, 'learning_rate': 9.438288116163546e-07, 'epoch': 0.08}
  0%|          | 249/78504 [09:04<24:39:52,  1.13s/it]  0%|          | 250/78504 [09:05<22:21:15,  1.03s/it]                                                      {'loss': 2.8982, 'grad_norm': 5.182114124298096, 'learning_rate': 9.476499808941536e-07, 'epoch': 0.08}
  0%|          | 250/78504 [09:05<22:21:15,  1.03s/it]  0%|          | 251/78504 [09:12<66:21:41,  3.05s/it]                                                      {'loss': 2.8846, 'grad_norm': 13.185416221618652, 'learning_rate': 9.514711501719526e-07, 'epoch': 0.08}
  0%|          | 251/78504 [09:12<66:21:41,  3.05s/it]  0%|          | 252/78504 [09:15<65:28:11,  3.01s/it]                                                      {'loss': 2.8548, 'grad_norm': 12.94508171081543, 'learning_rate': 9.552923194497516e-07, 'epoch': 0.08}
  0%|          | 252/78504 [09:15<65:28:11,  3.01s/it]  0%|          | 253/78504 [09:18<62:37:03,  2.88s/it]                                                      {'loss': 2.8339, 'grad_norm': 11.59104061126709, 'learning_rate': 9.591134887275508e-07, 'epoch': 0.08}
  0%|          | 253/78504 [09:18<62:37:03,  2.88s/it]  0%|          | 254/78504 [09:20<60:41:43,  2.79s/it]                                                      {'loss': 2.8097, 'grad_norm': 10.375120162963867, 'learning_rate': 9.629346580053497e-07, 'epoch': 0.08}
  0%|          | 254/78504 [09:20<60:41:43,  2.79s/it]  0%|          | 255/78504 [09:23<58:40:30,  2.70s/it]                                                      {'loss': 2.8042, 'grad_norm': 7.854126930236816, 'learning_rate': 9.667558272831487e-07, 'epoch': 0.08}
  0%|          | 255/78504 [09:23<58:40:30,  2.70s/it]  0%|          | 256/78504 [09:25<55:55:49,  2.57s/it]                                                      {'loss': 2.7813, 'grad_norm': 4.425750732421875, 'learning_rate': 9.705769965609476e-07, 'epoch': 0.08}
  0%|          | 256/78504 [09:25<55:55:49,  2.57s/it]  0%|          | 257/78504 [09:27<54:16:57,  2.50s/it]                                                      {'loss': 2.786, 'grad_norm': 1.9504581689834595, 'learning_rate': 9.743981658387466e-07, 'epoch': 0.08}
  0%|          | 257/78504 [09:28<54:16:57,  2.50s/it]  0%|          | 258/78504 [09:30<52:48:25,  2.43s/it]                                                      {'loss': 2.7969, 'grad_norm': 4.718151092529297, 'learning_rate': 9.782193351165458e-07, 'epoch': 0.08}
  0%|          | 258/78504 [09:30<52:48:25,  2.43s/it]  0%|          | 259/78504 [09:32<51:19:59,  2.36s/it]                                                      {'loss': 2.7814, 'grad_norm': 6.841475486755371, 'learning_rate': 9.820405043943447e-07, 'epoch': 0.08}
  0%|          | 259/78504 [09:32<51:19:59,  2.36s/it]  0%|          | 260/78504 [09:34<50:08:10,  2.31s/it]                                                      {'loss': 2.7943, 'grad_norm': 7.138665199279785, 'learning_rate': 9.858616736721437e-07, 'epoch': 0.08}
  0%|          | 260/78504 [09:34<50:08:10,  2.31s/it]  0%|          | 261/78504 [09:36<47:20:53,  2.18s/it]                                                      {'loss': 2.7994, 'grad_norm': 7.370173454284668, 'learning_rate': 9.896828429499426e-07, 'epoch': 0.08}
  0%|          | 261/78504 [09:36<47:20:53,  2.18s/it]  0%|          | 262/78504 [09:38<46:06:07,  2.12s/it]                                                      {'loss': 2.7919, 'grad_norm': 4.9088568687438965, 'learning_rate': 9.935040122277418e-07, 'epoch': 0.08}
  0%|          | 262/78504 [09:38<46:06:07,  2.12s/it]  0%|          | 263/78504 [09:40<44:52:45,  2.06s/it]                                                      {'loss': 2.8051, 'grad_norm': 3.364069938659668, 'learning_rate': 9.973251815055407e-07, 'epoch': 0.08}
  0%|          | 263/78504 [09:40<44:52:45,  2.06s/it]  0%|          | 264/78504 [09:42<43:44:50,  2.01s/it]                                                      {'loss': 2.7853, 'grad_norm': 2.158391237258911, 'learning_rate': 1.0011463507833397e-06, 'epoch': 0.08}
  0%|          | 264/78504 [09:42<43:44:50,  2.01s/it]  0%|          | 265/78504 [09:44<42:12:40,  1.94s/it]                                                      {'loss': 2.7999, 'grad_norm': 3.541266441345215, 'learning_rate': 1.0049675200611387e-06, 'epoch': 0.08}
  0%|          | 265/78504 [09:44<42:12:40,  1.94s/it]  0%|          | 266/78504 [09:45<39:49:52,  1.83s/it]                                                      {'loss': 2.7828, 'grad_norm': 4.9565205574035645, 'learning_rate': 1.0087886893389376e-06, 'epoch': 0.08}
  0%|          | 266/78504 [09:45<39:49:52,  1.83s/it]  0%|          | 267/78504 [09:47<37:59:04,  1.75s/it]                                                      {'loss': 2.7967, 'grad_norm': 3.57356858253479, 'learning_rate': 1.0126098586167368e-06, 'epoch': 0.08}
  0%|          | 267/78504 [09:47<37:59:04,  1.75s/it]  0%|          | 268/78504 [09:48<36:13:46,  1.67s/it]                                                      {'loss': 2.8053, 'grad_norm': 2.7359962463378906, 'learning_rate': 1.0164310278945357e-06, 'epoch': 0.08}
  0%|          | 268/78504 [09:48<36:13:46,  1.67s/it]  0%|          | 269/78504 [09:50<34:30:37,  1.59s/it]                                                      {'loss': 2.8027, 'grad_norm': 1.7061967849731445, 'learning_rate': 1.0202521971723347e-06, 'epoch': 0.08}
  0%|          | 269/78504 [09:50<34:30:37,  1.59s/it]  0%|          | 270/78504 [09:51<32:31:22,  1.50s/it]                                                      {'loss': 2.8403, 'grad_norm': 1.9617775678634644, 'learning_rate': 1.0240733664501337e-06, 'epoch': 0.08}
  0%|          | 270/78504 [09:51<32:31:22,  1.50s/it]  0%|          | 271/78504 [09:52<30:18:30,  1.39s/it]                                                      {'loss': 2.8311, 'grad_norm': 2.1935503482818604, 'learning_rate': 1.0278945357279326e-06, 'epoch': 0.08}
  0%|          | 271/78504 [09:52<30:18:30,  1.39s/it]  0%|          | 272/78504 [09:53<28:19:54,  1.30s/it]                                                      {'loss': 2.816, 'grad_norm': 4.098847389221191, 'learning_rate': 1.0317157050057318e-06, 'epoch': 0.08}
  0%|          | 272/78504 [09:53<28:19:54,  1.30s/it]  0%|          | 273/78504 [09:54<26:38:02,  1.23s/it]                                                      {'loss': 2.8061, 'grad_norm': 3.851635217666626, 'learning_rate': 1.0355368742835307e-06, 'epoch': 0.08}
  0%|          | 273/78504 [09:54<26:38:02,  1.23s/it]  0%|          | 274/78504 [09:55<24:42:11,  1.14s/it]                                                      {'loss': 2.7834, 'grad_norm': 4.073040962219238, 'learning_rate': 1.0393580435613297e-06, 'epoch': 0.08}
  0%|          | 274/78504 [09:55<24:42:11,  1.14s/it]  0%|          | 275/78504 [09:56<22:26:58,  1.03s/it]                                                      {'loss': 2.8439, 'grad_norm': 6.517051696777344, 'learning_rate': 1.0431792128391289e-06, 'epoch': 0.08}
  0%|          | 275/78504 [09:56<22:26:58,  1.03s/it]  0%|          | 276/78504 [10:03<64:42:04,  2.98s/it]                                                      {'loss': 2.8143, 'grad_norm': 12.814970970153809, 'learning_rate': 1.0470003821169278e-06, 'epoch': 0.08}
  0%|          | 276/78504 [10:03<64:42:04,  2.98s/it]  0%|          | 277/78504 [10:07<67:10:06,  3.09s/it]                                                      {'loss': 2.7891, 'grad_norm': 11.48625373840332, 'learning_rate': 1.050821551394727e-06, 'epoch': 0.08}
  0%|          | 277/78504 [10:07<67:10:06,  3.09s/it]  0%|          | 278/78504 [10:10<66:42:32,  3.07s/it]                                                      {'loss': 2.7897, 'grad_norm': 13.583642959594727, 'learning_rate': 1.054642720672526e-06, 'epoch': 0.08}
  0%|          | 278/78504 [10:10<66:42:32,  3.07s/it]  0%|          | 279/78504 [10:12<63:46:18,  2.93s/it]                                                      {'loss': 2.7626, 'grad_norm': 10.428862571716309, 'learning_rate': 1.058463889950325e-06, 'epoch': 0.09}
  0%|          | 279/78504 [10:12<63:46:18,  2.93s/it]  0%|          | 280/78504 [10:15<60:46:29,  2.80s/it]                                                      {'loss': 2.7625, 'grad_norm': 8.284067153930664, 'learning_rate': 1.0622850592281239e-06, 'epoch': 0.09}
  0%|          | 280/78504 [10:15<60:46:29,  2.80s/it]  0%|          | 281/78504 [10:17<57:18:32,  2.64s/it]                                                      {'loss': 2.7306, 'grad_norm': 4.828396320343018, 'learning_rate': 1.0661062285059228e-06, 'epoch': 0.09}
  0%|          | 281/78504 [10:17<57:18:32,  2.64s/it]  0%|          | 282/78504 [10:20<55:17:21,  2.54s/it]                                                      {'loss': 2.728, 'grad_norm': 1.4717888832092285, 'learning_rate': 1.069927397783722e-06, 'epoch': 0.09}
  0%|          | 282/78504 [10:20<55:17:21,  2.54s/it]  0%|          | 283/78504 [10:22<52:27:41,  2.41s/it]                                                      {'loss': 2.7308, 'grad_norm': 4.078621864318848, 'learning_rate': 1.073748567061521e-06, 'epoch': 0.09}
  0%|          | 283/78504 [10:22<52:27:41,  2.41s/it]  0%|          | 284/78504 [10:24<50:02:40,  2.30s/it]                                                      {'loss': 2.729, 'grad_norm': 5.824599266052246, 'learning_rate': 1.0775697363393199e-06, 'epoch': 0.09}
  0%|          | 284/78504 [10:24<50:02:40,  2.30s/it]  0%|          | 285/78504 [10:26<49:01:15,  2.26s/it]                                                      {'loss': 2.736, 'grad_norm': 6.548873424530029, 'learning_rate': 1.0813909056171188e-06, 'epoch': 0.09}
  0%|          | 285/78504 [10:26<49:01:15,  2.26s/it]  0%|          | 286/78504 [10:28<47:31:42,  2.19s/it]                                                      {'loss': 2.7371, 'grad_norm': 5.897242069244385, 'learning_rate': 1.0852120748949178e-06, 'epoch': 0.09}
  0%|          | 286/78504 [10:28<47:31:42,  2.19s/it]  0%|          | 287/78504 [10:30<46:13:50,  2.13s/it]                                                      {'loss': 2.7297, 'grad_norm': 3.4619359970092773, 'learning_rate': 1.089033244172717e-06, 'epoch': 0.09}
  0%|          | 287/78504 [10:30<46:13:50,  2.13s/it]  0%|          | 288/78504 [10:32<44:41:03,  2.06s/it]                                                      {'loss': 2.7278, 'grad_norm': 1.3983134031295776, 'learning_rate': 1.092854413450516e-06, 'epoch': 0.09}
  0%|          | 288/78504 [10:32<44:41:03,  2.06s/it]  0%|          | 289/78504 [10:34<43:24:55,  2.00s/it]                                                      {'loss': 2.7404, 'grad_norm': 3.104123115539551, 'learning_rate': 1.0966755827283149e-06, 'epoch': 0.09}
  0%|          | 289/78504 [10:34<43:24:55,  2.00s/it]  0%|          | 290/78504 [10:35<41:58:24,  1.93s/it]                                                      {'loss': 2.7331, 'grad_norm': 4.219205379486084, 'learning_rate': 1.1004967520061138e-06, 'epoch': 0.09}
  0%|          | 290/78504 [10:35<41:58:24,  1.93s/it]  0%|          | 291/78504 [10:37<39:44:23,  1.83s/it]                                                      {'loss': 2.742, 'grad_norm': 2.462705135345459, 'learning_rate': 1.1043179212839128e-06, 'epoch': 0.09}
  0%|          | 291/78504 [10:37<39:44:23,  1.83s/it]  0%|          | 292/78504 [10:38<37:55:10,  1.75s/it]                                                      {'loss': 2.7501, 'grad_norm': 2.9489552974700928, 'learning_rate': 1.108139090561712e-06, 'epoch': 0.09}
  0%|          | 292/78504 [10:39<37:55:10,  1.75s/it]  0%|          | 293/78504 [10:40<36:05:56,  1.66s/it]                                                      {'loss': 2.7391, 'grad_norm': 2.010669469833374, 'learning_rate': 1.111960259839511e-06, 'epoch': 0.09}
  0%|          | 293/78504 [10:40<36:05:56,  1.66s/it]  0%|          | 294/78504 [10:41<34:27:44,  1.59s/it]                                                      {'loss': 2.7645, 'grad_norm': 3.1552932262420654, 'learning_rate': 1.1157814291173099e-06, 'epoch': 0.09}
  0%|          | 294/78504 [10:41<34:27:44,  1.59s/it]  0%|          | 295/78504 [10:43<32:34:35,  1.50s/it]                                                      {'loss': 2.77, 'grad_norm': 3.743298292160034, 'learning_rate': 1.1196025983951088e-06, 'epoch': 0.09}
  0%|          | 295/78504 [10:43<32:34:35,  1.50s/it]  0%|          | 296/78504 [10:44<30:18:07,  1.39s/it]                                                      {'loss': 2.7567, 'grad_norm': 2.441256284713745, 'learning_rate': 1.123423767672908e-06, 'epoch': 0.09}
  0%|          | 296/78504 [10:44<30:18:07,  1.39s/it]  0%|          | 297/78504 [10:45<28:22:09,  1.31s/it]                                                      {'loss': 2.7643, 'grad_norm': 2.0671463012695312, 'learning_rate': 1.127244936950707e-06, 'epoch': 0.09}
  0%|          | 297/78504 [10:45<28:22:09,  1.31s/it]  0%|          | 298/78504 [10:46<26:25:20,  1.22s/it]                                                      {'loss': 2.7704, 'grad_norm': 2.008615493774414, 'learning_rate': 1.131066106228506e-06, 'epoch': 0.09}
  0%|          | 298/78504 [10:46<26:25:20,  1.22s/it]  0%|          | 299/78504 [10:47<24:39:25,  1.14s/it]                                                      {'loss': 2.7672, 'grad_norm': 2.534212827682495, 'learning_rate': 1.1348872755063049e-06, 'epoch': 0.09}
  0%|          | 299/78504 [10:47<24:39:25,  1.14s/it]  0%|          | 300/78504 [10:48<22:26:04,  1.03s/it]                                                      {'loss': 2.7623, 'grad_norm': 3.4729485511779785, 'learning_rate': 1.1387084447841038e-06, 'epoch': 0.09}
  0%|          | 300/78504 [10:48<22:26:04,  1.03s/it]  0%|          | 301/78504 [10:56<70:35:56,  3.25s/it]                                                      {'loss': 2.7769, 'grad_norm': 11.738871574401855, 'learning_rate': 1.142529614061903e-06, 'epoch': 0.09}
  0%|          | 301/78504 [10:56<70:35:56,  3.25s/it]  0%|          | 302/78504 [10:59<69:20:26,  3.19s/it]                                                      {'loss': 2.7369, 'grad_norm': 10.210897445678711, 'learning_rate': 1.146350783339702e-06, 'epoch': 0.09}
  0%|          | 302/78504 [10:59<69:20:26,  3.19s/it]  0%|          | 303/78504 [11:02<66:15:36,  3.05s/it]                                                      {'loss': 2.7076, 'grad_norm': 8.165843963623047, 'learning_rate': 1.150171952617501e-06, 'epoch': 0.09}
  0%|          | 303/78504 [11:02<66:15:36,  3.05s/it]  0%|          | 304/78504 [11:04<63:28:36,  2.92s/it]                                                      {'loss': 2.6999, 'grad_norm': 6.514739513397217, 'learning_rate': 1.1539931218952999e-06, 'epoch': 0.09}
  0%|          | 304/78504 [11:05<63:28:36,  2.92s/it]  0%|          | 305/78504 [11:07<59:49:16,  2.75s/it]                                                      {'loss': 2.685, 'grad_norm': 2.4918906688690186, 'learning_rate': 1.1578142911730988e-06, 'epoch': 0.09}
  0%|          | 305/78504 [11:07<59:49:16,  2.75s/it]  0%|          | 306/78504 [11:09<56:38:22,  2.61s/it]                                                      {'loss': 2.6819, 'grad_norm': 3.355121374130249, 'learning_rate': 1.161635460450898e-06, 'epoch': 0.09}
  0%|          | 306/78504 [11:09<56:38:22,  2.61s/it]  0%|          | 307/78504 [11:11<54:47:25,  2.52s/it]                                                      {'loss': 2.6941, 'grad_norm': 6.0606369972229, 'learning_rate': 1.1654566297286972e-06, 'epoch': 0.09}
  0%|          | 307/78504 [11:11<54:47:25,  2.52s/it]  0%|          | 308/78504 [11:14<53:09:06,  2.45s/it]                                                      {'loss': 2.6851, 'grad_norm': 6.000965595245361, 'learning_rate': 1.1692777990064961e-06, 'epoch': 0.09}
  0%|          | 308/78504 [11:14<53:09:06,  2.45s/it]  0%|          | 309/78504 [11:16<51:29:51,  2.37s/it]                                                      {'loss': 2.6898, 'grad_norm': 5.907788276672363, 'learning_rate': 1.173098968284295e-06, 'epoch': 0.09}
  0%|          | 309/78504 [11:16<51:29:51,  2.37s/it]  0%|          | 310/78504 [11:18<50:11:09,  2.31s/it]                                                      {'loss': 2.6837, 'grad_norm': 3.0512032508850098, 'learning_rate': 1.176920137562094e-06, 'epoch': 0.09}
  0%|          | 310/78504 [11:18<50:11:09,  2.31s/it]  0%|          | 311/78504 [11:20<47:16:25,  2.18s/it]                                                      {'loss': 2.68, 'grad_norm': 1.813821792602539, 'learning_rate': 1.1807413068398932e-06, 'epoch': 0.1}
  0%|          | 311/78504 [11:20<47:16:25,  2.18s/it]  0%|          | 312/78504 [11:22<46:02:26,  2.12s/it]                                                      {'loss': 2.6916, 'grad_norm': 4.216711521148682, 'learning_rate': 1.1845624761176922e-06, 'epoch': 0.1}
  0%|          | 312/78504 [11:22<46:02:26,  2.12s/it]  0%|          | 313/78504 [11:24<44:31:45,  2.05s/it]                                                      {'loss': 2.6644, 'grad_norm': 4.127336502075195, 'learning_rate': 1.1883836453954911e-06, 'epoch': 0.1}
  0%|          | 313/78504 [11:24<44:31:45,  2.05s/it]  0%|          | 314/78504 [11:26<43:20:49,  2.00s/it]                                                      {'loss': 2.6881, 'grad_norm': 3.062204122543335, 'learning_rate': 1.19220481467329e-06, 'epoch': 0.1}
  0%|          | 314/78504 [11:26<43:20:49,  2.00s/it]  0%|          | 315/78504 [11:27<41:32:55,  1.91s/it]                                                      {'loss': 2.6726, 'grad_norm': 2.7297487258911133, 'learning_rate': 1.196025983951089e-06, 'epoch': 0.1}
  0%|          | 315/78504 [11:27<41:32:55,  1.91s/it]  0%|          | 316/78504 [11:29<39:49:01,  1.83s/it]                                                      {'loss': 2.6611, 'grad_norm': 1.652383804321289, 'learning_rate': 1.1998471532288882e-06, 'epoch': 0.1}
  0%|          | 316/78504 [11:29<39:49:01,  1.83s/it]  0%|          | 317/78504 [11:31<37:46:36,  1.74s/it]                                                      {'loss': 2.711, 'grad_norm': 2.2906124591827393, 'learning_rate': 1.2036683225066871e-06, 'epoch': 0.1}
  0%|          | 317/78504 [11:31<37:46:36,  1.74s/it]  0%|          | 318/78504 [11:32<35:45:58,  1.65s/it]                                                      {'loss': 2.7048, 'grad_norm': 4.368490219116211, 'learning_rate': 1.207489491784486e-06, 'epoch': 0.1}
  0%|          | 318/78504 [11:32<35:45:58,  1.65s/it]  0%|          | 319/78504 [11:33<34:14:05,  1.58s/it]                                                      {'loss': 2.6887, 'grad_norm': 3.133607864379883, 'learning_rate': 1.211310661062285e-06, 'epoch': 0.1}
  0%|          | 319/78504 [11:33<34:14:05,  1.58s/it]  0%|          | 320/78504 [11:35<32:18:41,  1.49s/it]                                                      {'loss': 2.6745, 'grad_norm': 1.8967219591140747, 'learning_rate': 1.215131830340084e-06, 'epoch': 0.1}
  0%|          | 320/78504 [11:35<32:18:41,  1.49s/it]  0%|          | 321/78504 [11:36<29:58:45,  1.38s/it]                                                      {'loss': 2.683, 'grad_norm': 3.3614561557769775, 'learning_rate': 1.2189529996178832e-06, 'epoch': 0.1}
  0%|          | 321/78504 [11:36<29:58:45,  1.38s/it]  0%|          | 322/78504 [11:37<28:09:05,  1.30s/it]                                                      {'loss': 2.6836, 'grad_norm': 2.8327786922454834, 'learning_rate': 1.2227741688956821e-06, 'epoch': 0.1}
  0%|          | 322/78504 [11:37<28:09:05,  1.30s/it]  0%|          | 323/78504 [11:38<26:10:20,  1.21s/it]                                                      {'loss': 2.6925, 'grad_norm': 2.965330123901367, 'learning_rate': 1.226595338173481e-06, 'epoch': 0.1}
  0%|          | 323/78504 [11:38<26:10:20,  1.21s/it]  0%|          | 324/78504 [11:39<24:25:17,  1.12s/it]                                                      {'loss': 2.6866, 'grad_norm': 1.953649878501892, 'learning_rate': 1.23041650745128e-06, 'epoch': 0.1}
  0%|          | 324/78504 [11:39<24:25:17,  1.12s/it]  0%|          | 325/78504 [11:40<22:11:53,  1.02s/it]                                                      {'loss': 2.6345, 'grad_norm': 3.590707778930664, 'learning_rate': 1.234237676729079e-06, 'epoch': 0.1}
  0%|          | 325/78504 [11:40<22:11:53,  1.02s/it]  0%|          | 326/78504 [11:48<71:46:18,  3.30s/it]                                                      {'loss': 2.6733, 'grad_norm': 8.426238059997559, 'learning_rate': 1.2380588460068782e-06, 'epoch': 0.1}
  0%|          | 326/78504 [11:48<71:46:18,  3.30s/it]  0%|          | 327/78504 [11:52<72:04:57,  3.32s/it]                                                      {'loss': 2.6307, 'grad_norm': 5.990464210510254, 'learning_rate': 1.2418800152846771e-06, 'epoch': 0.1}
  0%|          | 327/78504 [11:52<72:04:57,  3.32s/it]  0%|          | 328/78504 [11:55<69:30:20,  3.20s/it]                                                      {'loss': 2.6132, 'grad_norm': 4.106024742126465, 'learning_rate': 1.245701184562476e-06, 'epoch': 0.1}
  0%|          | 328/78504 [11:55<69:30:20,  3.20s/it]  0%|          | 329/78504 [11:57<65:28:13,  3.01s/it]                                                      {'loss': 2.5835, 'grad_norm': 2.2279388904571533, 'learning_rate': 1.249522353840275e-06, 'epoch': 0.1}
  0%|          | 329/78504 [11:57<65:28:13,  3.01s/it]  0%|          | 330/78504 [12:00<62:01:12,  2.86s/it]                                                      {'loss': 2.5801, 'grad_norm': 2.269000768661499, 'learning_rate': 1.2533435231180742e-06, 'epoch': 0.1}
  0%|          | 330/78504 [12:00<62:01:12,  2.86s/it]  0%|          | 331/78504 [12:02<58:12:27,  2.68s/it]                                                      {'loss': 2.5733, 'grad_norm': 3.3939566612243652, 'learning_rate': 1.2571646923958732e-06, 'epoch': 0.1}
  0%|          | 331/78504 [12:02<58:12:27,  2.68s/it]  0%|          | 332/78504 [12:04<55:45:36,  2.57s/it]                                                      {'loss': 2.5773, 'grad_norm': 3.9757797718048096, 'learning_rate': 1.2609858616736721e-06, 'epoch': 0.1}
  0%|          | 332/78504 [12:04<55:45:36,  2.57s/it]  0%|          | 333/78504 [12:06<52:41:20,  2.43s/it]                                                      {'loss': 2.546, 'grad_norm': 3.1792802810668945, 'learning_rate': 1.264807030951471e-06, 'epoch': 0.1}
  0%|          | 333/78504 [12:06<52:41:20,  2.43s/it]  0%|          | 334/78504 [12:08<50:09:00,  2.31s/it]                                                      {'loss': 2.5496, 'grad_norm': 2.417346477508545, 'learning_rate': 1.26862820022927e-06, 'epoch': 0.1}
  0%|          | 334/78504 [12:08<50:09:00,  2.31s/it]  0%|          | 335/78504 [12:10<49:04:24,  2.26s/it]                                                      {'loss': 2.565, 'grad_norm': 2.651249647140503, 'learning_rate': 1.2724493695070692e-06, 'epoch': 0.1}
  0%|          | 335/78504 [12:10<49:04:24,  2.26s/it]  0%|          | 336/78504 [12:12<47:32:59,  2.19s/it]                                                      {'loss': 2.5409, 'grad_norm': 3.017545461654663, 'learning_rate': 1.2762705387848682e-06, 'epoch': 0.1}
  0%|          | 336/78504 [12:13<47:32:59,  2.19s/it]  0%|          | 337/78504 [12:14<45:07:51,  2.08s/it]                                                      {'loss': 2.5227, 'grad_norm': 2.1479692459106445, 'learning_rate': 1.2800917080626671e-06, 'epoch': 0.1}
  0%|          | 337/78504 [12:14<45:07:51,  2.08s/it]  0%|          | 338/78504 [12:16<43:47:01,  2.02s/it]                                                      {'loss': 2.5196, 'grad_norm': 2.1394119262695312, 'learning_rate': 1.283912877340466e-06, 'epoch': 0.1}
  0%|          | 338/78504 [12:16<43:47:01,  2.02s/it]  0%|          | 339/78504 [12:18<42:34:39,  1.96s/it]                                                      {'loss': 2.5292, 'grad_norm': 1.9752380847930908, 'learning_rate': 1.2877340466182652e-06, 'epoch': 0.1}
  0%|          | 339/78504 [12:18<42:34:39,  1.96s/it]  0%|          | 340/78504 [12:20<41:26:14,  1.91s/it]                                                      {'loss': 2.5247, 'grad_norm': 2.3703057765960693, 'learning_rate': 1.2915552158960644e-06, 'epoch': 0.1}
  0%|          | 340/78504 [12:20<41:26:14,  1.91s/it]  0%|          | 341/78504 [12:21<39:42:40,  1.83s/it]                                                      {'loss': 2.5214, 'grad_norm': 2.328279972076416, 'learning_rate': 1.2953763851738634e-06, 'epoch': 0.1}
  0%|          | 341/78504 [12:21<39:42:40,  1.83s/it]  0%|          | 342/78504 [12:23<37:46:36,  1.74s/it]                                                      {'loss': 2.5172, 'grad_norm': 2.393890142440796, 'learning_rate': 1.2991975544516623e-06, 'epoch': 0.1}
  0%|          | 342/78504 [12:23<37:46:36,  1.74s/it]  0%|          | 343/78504 [12:24<36:03:16,  1.66s/it]                                                      {'loss': 2.5127, 'grad_norm': 2.300849437713623, 'learning_rate': 1.3030187237294613e-06, 'epoch': 0.1}
  0%|          | 343/78504 [12:24<36:03:16,  1.66s/it]  0%|          | 344/78504 [12:26<34:19:21,  1.58s/it]                                                      {'loss': 2.5007, 'grad_norm': 2.9283103942871094, 'learning_rate': 1.3068398930072602e-06, 'epoch': 0.11}
  0%|          | 344/78504 [12:26<34:19:21,  1.58s/it]  0%|          | 345/78504 [12:27<32:28:42,  1.50s/it]                                                      {'loss': 2.5139, 'grad_norm': 3.046299934387207, 'learning_rate': 1.3106610622850594e-06, 'epoch': 0.11}
  0%|          | 345/78504 [12:27<32:28:42,  1.50s/it]  0%|          | 346/78504 [12:28<30:13:45,  1.39s/it]                                                      {'loss': 2.5236, 'grad_norm': 2.42344331741333, 'learning_rate': 1.3144822315628584e-06, 'epoch': 0.11}
  0%|          | 346/78504 [12:28<30:13:45,  1.39s/it]  0%|          | 347/78504 [12:29<28:21:30,  1.31s/it]                                                      {'loss': 2.4708, 'grad_norm': 2.2297654151916504, 'learning_rate': 1.3183034008406573e-06, 'epoch': 0.11}
  0%|          | 347/78504 [12:29<28:21:30,  1.31s/it]  0%|          | 348/78504 [12:30<26:19:15,  1.21s/it]                                                      {'loss': 2.4602, 'grad_norm': 4.538825511932373, 'learning_rate': 1.3221245701184563e-06, 'epoch': 0.11}
  0%|          | 348/78504 [12:30<26:19:15,  1.21s/it]  0%|          | 349/78504 [12:31<24:47:00,  1.14s/it]                                                      {'loss': 2.5098, 'grad_norm': 4.105545520782471, 'learning_rate': 1.3259457393962552e-06, 'epoch': 0.11}
  0%|          | 349/78504 [12:31<24:47:00,  1.14s/it]  0%|          | 350/78504 [12:32<22:28:33,  1.04s/it]                                                      {'loss': 2.4997, 'grad_norm': 5.038228511810303, 'learning_rate': 1.3297669086740544e-06, 'epoch': 0.11}
  0%|          | 350/78504 [12:32<22:28:33,  1.04s/it]  0%|          | 351/78504 [12:39<60:54:34,  2.81s/it]                                                      {'loss': 2.4473, 'grad_norm': 7.075524806976318, 'learning_rate': 1.3335880779518534e-06, 'epoch': 0.11}
  0%|          | 351/78504 [12:39<60:54:34,  2.81s/it]  0%|          | 352/78504 [12:42<64:28:05,  2.97s/it]                                                      {'loss': 2.3623, 'grad_norm': 4.9096999168396, 'learning_rate': 1.3374092472296523e-06, 'epoch': 0.11}
  0%|          | 352/78504 [12:42<64:28:05,  2.97s/it]  0%|          | 353/78504 [12:45<61:51:53,  2.85s/it]                                                      {'loss': 2.3458, 'grad_norm': 4.376562118530273, 'learning_rate': 1.3412304165074513e-06, 'epoch': 0.11}
  0%|          | 353/78504 [12:45<61:51:53,  2.85s/it]  0%|          | 354/78504 [12:48<60:23:18,  2.78s/it]                                                      {'loss': 2.323, 'grad_norm': 3.0417819023132324, 'learning_rate': 1.3450515857852502e-06, 'epoch': 0.11}
  0%|          | 354/78504 [12:48<60:23:18,  2.78s/it]  0%|          | 355/78504 [12:50<58:23:58,  2.69s/it]                                                      {'loss': 2.2842, 'grad_norm': 2.4273712635040283, 'learning_rate': 1.3488727550630494e-06, 'epoch': 0.11}
  0%|          | 355/78504 [12:50<58:23:58,  2.69s/it]  0%|          | 356/78504 [12:52<55:40:56,  2.57s/it]                                                      {'loss': 2.2924, 'grad_norm': 2.5372025966644287, 'learning_rate': 1.3526939243408484e-06, 'epoch': 0.11}
  0%|          | 356/78504 [12:52<55:40:56,  2.57s/it]  0%|          | 357/78504 [12:55<54:11:25,  2.50s/it]                                                      {'loss': 2.2402, 'grad_norm': 3.219088554382324, 'learning_rate': 1.3565150936186473e-06, 'epoch': 0.11}
  0%|          | 357/78504 [12:55<54:11:25,  2.50s/it]  0%|          | 358/78504 [12:57<51:32:55,  2.37s/it]                                                      {'loss': 2.2583, 'grad_norm': 2.9789183139801025, 'learning_rate': 1.3603362628964463e-06, 'epoch': 0.11}
  0%|          | 358/78504 [12:57<51:32:55,  2.37s/it]  0%|          | 359/78504 [12:59<49:22:28,  2.27s/it]                                                      {'loss': 2.2439, 'grad_norm': 2.6980502605438232, 'learning_rate': 1.3641574321742452e-06, 'epoch': 0.11}
  0%|          | 359/78504 [12:59<49:22:28,  2.27s/it]  0%|          | 360/78504 [13:01<48:31:05,  2.24s/it]                                                      {'loss': 2.2246, 'grad_norm': 4.2234296798706055, 'learning_rate': 1.3679786014520444e-06, 'epoch': 0.11}
  0%|          | 360/78504 [13:01<48:31:05,  2.24s/it]  0%|          | 361/78504 [13:03<46:57:15,  2.16s/it]                                                      {'loss': 2.2323, 'grad_norm': 3.4755866527557373, 'learning_rate': 1.3717997707298433e-06, 'epoch': 0.11}
  0%|          | 361/78504 [13:03<46:57:15,  2.16s/it]  0%|          | 362/78504 [13:05<45:25:10,  2.09s/it]                                                      {'loss': 2.2209, 'grad_norm': 2.8702659606933594, 'learning_rate': 1.3756209400076423e-06, 'epoch': 0.11}
  0%|          | 362/78504 [13:05<45:25:10,  2.09s/it]  0%|          | 363/78504 [13:07<43:58:16,  2.03s/it]                                                      {'loss': 2.1912, 'grad_norm': 2.676515817642212, 'learning_rate': 1.3794421092854413e-06, 'epoch': 0.11}
  0%|          | 363/78504 [13:07<43:58:16,  2.03s/it]  0%|          | 364/78504 [13:09<41:56:16,  1.93s/it]                                                      {'loss': 2.1734, 'grad_norm': 2.8005123138427734, 'learning_rate': 1.3832632785632404e-06, 'epoch': 0.11}
  0%|          | 364/78504 [13:09<41:56:16,  1.93s/it]  0%|          | 365/78504 [13:10<40:55:17,  1.89s/it]                                                      {'loss': 2.1984, 'grad_norm': 3.2698559761047363, 'learning_rate': 1.3870844478410394e-06, 'epoch': 0.11}
  0%|          | 365/78504 [13:10<40:55:17,  1.89s/it]  0%|          | 366/78504 [13:12<39:18:27,  1.81s/it]                                                      {'loss': 2.1974, 'grad_norm': 3.2368435859680176, 'learning_rate': 1.3909056171188383e-06, 'epoch': 0.11}
  0%|          | 366/78504 [13:12<39:18:27,  1.81s/it]  0%|          | 367/78504 [13:13<37:20:59,  1.72s/it]                                                      {'loss': 2.1898, 'grad_norm': 4.320165634155273, 'learning_rate': 1.3947267863966373e-06, 'epoch': 0.11}
  0%|          | 367/78504 [13:13<37:20:59,  1.72s/it]  0%|          | 368/78504 [13:15<35:28:21,  1.63s/it]                                                      {'loss': 2.2032, 'grad_norm': 3.3868277072906494, 'learning_rate': 1.3985479556744363e-06, 'epoch': 0.11}
  0%|          | 368/78504 [13:15<35:28:21,  1.63s/it]  0%|          | 369/78504 [13:16<33:59:40,  1.57s/it]                                                      {'loss': 2.1826, 'grad_norm': 2.524139404296875, 'learning_rate': 1.4023691249522354e-06, 'epoch': 0.11}
  0%|          | 369/78504 [13:16<33:59:40,  1.57s/it]  0%|          | 370/78504 [13:17<31:45:44,  1.46s/it]                                                      {'loss': 2.2046, 'grad_norm': 4.037295818328857, 'learning_rate': 1.4061902942300344e-06, 'epoch': 0.11}
  0%|          | 370/78504 [13:18<31:45:44,  1.46s/it]  0%|          | 371/78504 [13:19<29:39:25,  1.37s/it]                                                      {'loss': 2.1787, 'grad_norm': 2.84753155708313, 'learning_rate': 1.4100114635078335e-06, 'epoch': 0.11}
  0%|          | 371/78504 [13:19<29:39:25,  1.37s/it]  0%|          | 372/78504 [13:20<27:53:03,  1.28s/it]                                                      {'loss': 2.1906, 'grad_norm': 5.823403358459473, 'learning_rate': 1.4138326327856325e-06, 'epoch': 0.11}
  0%|          | 372/78504 [13:20<27:53:03,  1.28s/it]  0%|          | 373/78504 [13:21<26:04:15,  1.20s/it]                                                      {'loss': 2.1904, 'grad_norm': 3.1884052753448486, 'learning_rate': 1.4176538020634315e-06, 'epoch': 0.11}
  0%|          | 373/78504 [13:21<26:04:15,  1.20s/it]  0%|          | 374/78504 [13:22<24:19:22,  1.12s/it]                                                      {'loss': 2.2293, 'grad_norm': 6.810904502868652, 'learning_rate': 1.4214749713412306e-06, 'epoch': 0.11}
  0%|          | 374/78504 [13:22<24:19:22,  1.12s/it]  0%|          | 375/78504 [13:22<22:09:56,  1.02s/it]                                                      {'loss': 2.2659, 'grad_norm': 12.195791244506836, 'learning_rate': 1.4252961406190296e-06, 'epoch': 0.11}
  0%|          | 375/78504 [13:22<22:09:56,  1.02s/it]  0%|          | 376/78504 [13:30<64:26:53,  2.97s/it]                                                      {'loss': 2.0571, 'grad_norm': 5.211302757263184, 'learning_rate': 1.4291173098968285e-06, 'epoch': 0.11}
  0%|          | 376/78504 [13:30<64:26:53,  2.97s/it]  0%|          | 377/78504 [13:33<65:28:48,  3.02s/it]                                                      {'loss': 2.0003, 'grad_norm': 4.886347770690918, 'learning_rate': 1.4329384791746275e-06, 'epoch': 0.12}
  0%|          | 377/78504 [13:33<65:28:48,  3.02s/it]  0%|          | 378/78504 [13:36<65:29:46,  3.02s/it]                                                      {'loss': 1.9535, 'grad_norm': 2.849539279937744, 'learning_rate': 1.4367596484524265e-06, 'epoch': 0.12}
  0%|          | 378/78504 [13:36<65:29:46,  3.02s/it]  0%|          | 379/78504 [13:39<62:55:47,  2.90s/it]                                                      {'loss': 1.9327, 'grad_norm': 2.738243579864502, 'learning_rate': 1.4405808177302256e-06, 'epoch': 0.12}
  0%|          | 379/78504 [13:39<62:55:47,  2.90s/it]  0%|          | 380/78504 [13:41<60:12:55,  2.77s/it]                                                      {'loss': 1.8734, 'grad_norm': 2.6285016536712646, 'learning_rate': 1.4444019870080246e-06, 'epoch': 0.12}
  0%|          | 380/78504 [13:41<60:12:55,  2.77s/it]  0%|          | 381/78504 [13:44<57:00:55,  2.63s/it]                                                      {'loss': 1.8533, 'grad_norm': 2.7497611045837402, 'learning_rate': 1.4482231562858235e-06, 'epoch': 0.12}
  0%|          | 381/78504 [13:44<57:00:55,  2.63s/it]  0%|          | 382/78504 [13:46<55:01:30,  2.54s/it]                                                      {'loss': 1.8661, 'grad_norm': 3.66969633102417, 'learning_rate': 1.4520443255636225e-06, 'epoch': 0.12}
  0%|          | 382/78504 [13:46<55:01:30,  2.54s/it]  0%|          | 383/78504 [13:48<52:17:52,  2.41s/it]                                                      {'loss': 1.8619, 'grad_norm': 2.8011255264282227, 'learning_rate': 1.4558654948414214e-06, 'epoch': 0.12}
  0%|          | 383/78504 [13:48<52:17:52,  2.41s/it]  0%|          | 384/78504 [13:50<50:52:06,  2.34s/it]                                                      {'loss': 1.8178, 'grad_norm': 4.164844036102295, 'learning_rate': 1.4596866641192206e-06, 'epoch': 0.12}
  0%|          | 384/78504 [13:50<50:52:06,  2.34s/it]  0%|          | 385/78504 [13:52<49:34:35,  2.28s/it]                                                      {'loss': 1.8197, 'grad_norm': 2.5509207248687744, 'learning_rate': 1.4635078333970196e-06, 'epoch': 0.12}
  0%|          | 385/78504 [13:52<49:34:35,  2.28s/it]  0%|          | 386/78504 [13:54<47:56:12,  2.21s/it]                                                      {'loss': 1.8331, 'grad_norm': 3.240171432495117, 'learning_rate': 1.4673290026748185e-06, 'epoch': 0.12}
  0%|          | 386/78504 [13:54<47:56:12,  2.21s/it]  0%|          | 387/78504 [13:56<46:28:09,  2.14s/it]                                                      {'loss': 1.7633, 'grad_norm': 2.3113067150115967, 'learning_rate': 1.4711501719526175e-06, 'epoch': 0.12}
  0%|          | 387/78504 [13:56<46:28:09,  2.14s/it]  0%|          | 388/78504 [13:58<44:54:04,  2.07s/it]                                                      {'loss': 1.7714, 'grad_norm': 3.651369571685791, 'learning_rate': 1.4749713412304164e-06, 'epoch': 0.12}
  0%|          | 388/78504 [13:58<44:54:04,  2.07s/it]  0%|          | 389/78504 [14:00<43:37:57,  2.01s/it]                                                      {'loss': 1.7975, 'grad_norm': 3.2712314128875732, 'learning_rate': 1.4787925105082156e-06, 'epoch': 0.12}
  0%|          | 389/78504 [14:00<43:37:57,  2.01s/it]  0%|          | 390/78504 [14:02<42:01:57,  1.94s/it]                                                      {'loss': 1.8103, 'grad_norm': 3.1503427028656006, 'learning_rate': 1.4826136797860146e-06, 'epoch': 0.12}
  0%|          | 390/78504 [14:02<42:01:57,  1.94s/it]  0%|          | 391/78504 [14:03<40:11:42,  1.85s/it]                                                      {'loss': 1.7841, 'grad_norm': 2.8008873462677, 'learning_rate': 1.4864348490638135e-06, 'epoch': 0.12}
  0%|          | 391/78504 [14:04<40:11:42,  1.85s/it]  0%|          | 392/78504 [14:05<38:13:23,  1.76s/it]                                                      {'loss': 1.7447, 'grad_norm': 5.765246391296387, 'learning_rate': 1.4902560183416125e-06, 'epoch': 0.12}
  0%|          | 392/78504 [14:05<38:13:23,  1.76s/it]  1%|          | 393/78504 [14:07<36:23:38,  1.68s/it]                                                      {'loss': 1.8219, 'grad_norm': 3.355313301086426, 'learning_rate': 1.4940771876194114e-06, 'epoch': 0.12}
  1%|          | 393/78504 [14:07<36:23:38,  1.68s/it]  1%|          | 394/78504 [14:08<34:30:07,  1.59s/it]                                                      {'loss': 1.8249, 'grad_norm': 13.86959457397461, 'learning_rate': 1.4978983568972106e-06, 'epoch': 0.12}
  1%|          | 394/78504 [14:08<34:30:07,  1.59s/it]  1%|          | 395/78504 [14:09<32:33:34,  1.50s/it]                                                      {'loss': 1.8005, 'grad_norm': 3.5347213745117188, 'learning_rate': 1.5017195261750096e-06, 'epoch': 0.12}
  1%|          | 395/78504 [14:09<32:33:34,  1.50s/it]  1%|          | 396/78504 [14:10<30:20:09,  1.40s/it]                                                      {'loss': 1.7947, 'grad_norm': 3.2886812686920166, 'learning_rate': 1.5055406954528085e-06, 'epoch': 0.12}
  1%|          | 396/78504 [14:10<30:20:09,  1.40s/it]  1%|          | 397/78504 [14:11<28:29:55,  1.31s/it]                                                      {'loss': 1.8414, 'grad_norm': 4.42784309387207, 'learning_rate': 1.5093618647306075e-06, 'epoch': 0.12}
  1%|          | 397/78504 [14:11<28:29:55,  1.31s/it]  1%|          | 398/78504 [14:12<26:24:52,  1.22s/it]                                                      {'loss': 1.8203, 'grad_norm': 3.717240810394287, 'learning_rate': 1.5131830340084066e-06, 'epoch': 0.12}
  1%|          | 398/78504 [14:13<26:24:52,  1.22s/it]  1%|          | 399/78504 [14:13<24:42:24,  1.14s/it]                                                      {'loss': 1.8637, 'grad_norm': 4.020057678222656, 'learning_rate': 1.5170042032862056e-06, 'epoch': 0.12}
  1%|          | 399/78504 [14:13<24:42:24,  1.14s/it]  1%|          | 400/78504 [14:14<22:23:19,  1.03s/it]                                                      {'loss': 1.9258, 'grad_norm': 5.128223896026611, 'learning_rate': 1.5208253725640046e-06, 'epoch': 0.12}
  1%|          | 400/78504 [14:14<22:23:19,  1.03s/it]  1%|          | 401/78504 [14:24<79:14:44,  3.65s/it]                                                      {'loss': 1.6823, 'grad_norm': 6.060498237609863, 'learning_rate': 1.5246465418418035e-06, 'epoch': 0.12}
  1%|          | 401/78504 [14:24<79:14:44,  3.65s/it]  1%|          | 402/78504 [14:27<77:01:05,  3.55s/it]                                                      {'loss': 1.5348, 'grad_norm': 8.363202095031738, 'learning_rate': 1.5284677111196025e-06, 'epoch': 0.12}
  1%|          | 402/78504 [14:27<77:01:05,  3.55s/it]  1%|          | 403/78504 [14:30<72:57:57,  3.36s/it]                                                      {'loss': 1.5099, 'grad_norm': 3.834468126296997, 'learning_rate': 1.5322888803974018e-06, 'epoch': 0.12}
  1%|          | 403/78504 [14:30<72:57:57,  3.36s/it]  1%|          | 404/78504 [14:33<67:56:45,  3.13s/it]                                                      {'loss': 1.4764, 'grad_norm': 3.746401786804199, 'learning_rate': 1.5361100496752008e-06, 'epoch': 0.12}
  1%|          | 404/78504 [14:33<67:56:45,  3.13s/it]  1%|          | 405/78504 [14:35<63:49:38,  2.94s/it]                                                      {'loss': 1.4221, 'grad_norm': 2.6676409244537354, 'learning_rate': 1.5399312189529998e-06, 'epoch': 0.12}
  1%|          | 405/78504 [14:35<63:49:38,  2.94s/it]  1%|          | 406/78504 [14:38<60:40:54,  2.80s/it]                                                      {'loss': 1.4456, 'grad_norm': 2.571153402328491, 'learning_rate': 1.5437523882307987e-06, 'epoch': 0.12}
  1%|          | 406/78504 [14:38<60:40:54,  2.80s/it]  1%|          | 407/78504 [14:40<57:36:51,  2.66s/it]                                                      {'loss': 1.4019, 'grad_norm': 4.898181438446045, 'learning_rate': 1.5475735575085977e-06, 'epoch': 0.12}
  1%|          | 407/78504 [14:40<57:36:51,  2.66s/it]  1%|          | 408/78504 [14:42<55:21:28,  2.55s/it]                                                      {'loss': 1.4338, 'grad_norm': 2.530176877975464, 'learning_rate': 1.5513947267863968e-06, 'epoch': 0.12}
  1%|          | 408/78504 [14:42<55:21:28,  2.55s/it]  1%|          | 409/78504 [14:45<53:05:13,  2.45s/it]                                                      {'loss': 1.3811, 'grad_norm': 2.52177095413208, 'learning_rate': 1.5552158960641958e-06, 'epoch': 0.13}
  1%|          | 409/78504 [14:45<53:05:13,  2.45s/it]  1%|          | 410/78504 [14:47<51:15:18,  2.36s/it]                                                      {'loss': 1.3315, 'grad_norm': 2.576986074447632, 'learning_rate': 1.5590370653419948e-06, 'epoch': 0.13}
  1%|          | 410/78504 [14:47<51:15:18,  2.36s/it]  1%|          | 411/78504 [14:49<48:06:46,  2.22s/it]                                                      {'loss': 1.3935, 'grad_norm': 3.0845768451690674, 'learning_rate': 1.5628582346197937e-06, 'epoch': 0.13}
  1%|          | 411/78504 [14:49<48:06:46,  2.22s/it]  1%|          | 412/78504 [14:51<46:36:58,  2.15s/it]                                                      {'loss': 1.3452, 'grad_norm': 2.6538684368133545, 'learning_rate': 1.5666794038975927e-06, 'epoch': 0.13}
  1%|          | 412/78504 [14:51<46:36:58,  2.15s/it]  1%|          | 413/78504 [14:53<45:07:05,  2.08s/it]                                                      {'loss': 1.3864, 'grad_norm': 3.6006276607513428, 'learning_rate': 1.5705005731753918e-06, 'epoch': 0.13}
  1%|          | 413/78504 [14:53<45:07:05,  2.08s/it]  1%|          | 414/78504 [14:54<44:02:04,  2.03s/it]                                                      {'loss': 1.3863, 'grad_norm': 3.4683022499084473, 'learning_rate': 1.5743217424531908e-06, 'epoch': 0.13}
  1%|          | 414/78504 [14:54<44:02:04,  2.03s/it]  1%|          | 415/78504 [14:56<42:20:47,  1.95s/it]                                                      {'loss': 1.4164, 'grad_norm': 2.454369068145752, 'learning_rate': 1.5781429117309897e-06, 'epoch': 0.13}
  1%|          | 415/78504 [14:56<42:20:47,  1.95s/it]  1%|          | 416/78504 [14:58<39:58:40,  1.84s/it]                                                      {'loss': 1.3805, 'grad_norm': 5.0718994140625, 'learning_rate': 1.5819640810087887e-06, 'epoch': 0.13}
  1%|          | 416/78504 [14:58<39:58:40,  1.84s/it]  1%|          | 417/78504 [14:59<37:47:56,  1.74s/it]                                                      {'loss': 1.4056, 'grad_norm': 4.366430282592773, 'learning_rate': 1.5857852502865877e-06, 'epoch': 0.13}
  1%|          | 417/78504 [14:59<37:47:56,  1.74s/it]  1%|          | 418/78504 [15:01<36:21:26,  1.68s/it]                                                      {'loss': 1.4218, 'grad_norm': 4.872661590576172, 'learning_rate': 1.5896064195643868e-06, 'epoch': 0.13}
  1%|          | 418/78504 [15:01<36:21:26,  1.68s/it]  1%|          | 419/78504 [15:02<34:42:10,  1.60s/it]                                                      {'loss': 1.4598, 'grad_norm': 5.092097759246826, 'learning_rate': 1.5934275888421858e-06, 'epoch': 0.13}
  1%|          | 419/78504 [15:02<34:42:10,  1.60s/it]  1%|          | 420/78504 [15:04<32:50:14,  1.51s/it]                                                      {'loss': 1.4403, 'grad_norm': 3.9631106853485107, 'learning_rate': 1.5972487581199847e-06, 'epoch': 0.13}
  1%|          | 420/78504 [15:04<32:50:14,  1.51s/it]  1%|          | 421/78504 [15:05<30:27:49,  1.40s/it]                                                      {'loss': 1.4372, 'grad_norm': 4.17078971862793, 'learning_rate': 1.6010699273977837e-06, 'epoch': 0.13}
  1%|          | 421/78504 [15:05<30:27:49,  1.40s/it]  1%|          | 422/78504 [15:06<28:33:45,  1.32s/it]                                                      {'loss': 1.47, 'grad_norm': 3.2774176597595215, 'learning_rate': 1.6048910966755827e-06, 'epoch': 0.13}
  1%|          | 422/78504 [15:06<28:33:45,  1.32s/it]  1%|          | 423/78504 [15:07<26:51:12,  1.24s/it]                                                      {'loss': 1.4868, 'grad_norm': 4.034589767456055, 'learning_rate': 1.6087122659533818e-06, 'epoch': 0.13}
  1%|          | 423/78504 [15:07<26:51:12,  1.24s/it]  1%|          | 424/78504 [15:08<24:54:26,  1.15s/it]                                                      {'loss': 1.5501, 'grad_norm': 9.104544639587402, 'learning_rate': 1.6125334352311808e-06, 'epoch': 0.13}
  1%|          | 424/78504 [15:08<24:54:26,  1.15s/it]  1%|          | 425/78504 [15:09<22:38:08,  1.04s/it]                                                      {'loss': 1.6433, 'grad_norm': 4.515106678009033, 'learning_rate': 1.6163546045089797e-06, 'epoch': 0.13}
  1%|          | 425/78504 [15:09<22:38:08,  1.04s/it]  1%|          | 426/78504 [15:16<64:48:16,  2.99s/it]                                                      {'loss': 1.2616, 'grad_norm': 4.018584728240967, 'learning_rate': 1.6201757737867787e-06, 'epoch': 0.13}
  1%|          | 426/78504 [15:16<64:48:16,  2.99s/it]  1%|          | 427/78504 [15:19<65:33:22,  3.02s/it]                                                      {'loss': 1.1645, 'grad_norm': 3.031351089477539, 'learning_rate': 1.6239969430645776e-06, 'epoch': 0.13}
  1%|          | 427/78504 [15:19<65:33:22,  3.02s/it]  1%|          | 428/78504 [15:22<64:58:41,  3.00s/it]                                                      {'loss': 1.0995, 'grad_norm': 2.3623054027557373, 'learning_rate': 1.6278181123423768e-06, 'epoch': 0.13}
  1%|          | 428/78504 [15:22<64:58:41,  3.00s/it]  1%|          | 429/78504 [15:25<62:18:00,  2.87s/it]                                                      {'loss': 1.0672, 'grad_norm': 2.514901638031006, 'learning_rate': 1.6316392816201758e-06, 'epoch': 0.13}
  1%|          | 429/78504 [15:25<62:18:00,  2.87s/it]  1%|          | 430/78504 [15:27<59:46:51,  2.76s/it]                                                      {'loss': 1.0925, 'grad_norm': 2.921835422515869, 'learning_rate': 1.6354604508979747e-06, 'epoch': 0.13}
  1%|          | 430/78504 [15:27<59:46:51,  2.76s/it]  1%|          | 431/78504 [15:30<56:36:40,  2.61s/it]                                                      {'loss': 1.0489, 'grad_norm': 4.234851360321045, 'learning_rate': 1.6392816201757737e-06, 'epoch': 0.13}
  1%|          | 431/78504 [15:30<56:36:40,  2.61s/it]  1%|          | 432/78504 [15:32<54:43:19,  2.52s/it]                                                      {'loss': 1.0556, 'grad_norm': 2.4434449672698975, 'learning_rate': 1.6431027894535729e-06, 'epoch': 0.13}
  1%|          | 432/78504 [15:32<54:43:19,  2.52s/it]  1%|          | 433/78504 [15:34<52:08:32,  2.40s/it]                                                      {'loss': 1.0521, 'grad_norm': 3.417098045349121, 'learning_rate': 1.6469239587313718e-06, 'epoch': 0.13}
  1%|          | 433/78504 [15:34<52:08:32,  2.40s/it]  1%|          | 434/78504 [15:36<50:43:57,  2.34s/it]                                                      {'loss': 1.0196, 'grad_norm': 2.177273988723755, 'learning_rate': 1.6507451280091708e-06, 'epoch': 0.13}
  1%|          | 434/78504 [15:36<50:43:57,  2.34s/it]  1%|          | 435/78504 [15:38<49:30:10,  2.28s/it]                                                      {'loss': 1.0267, 'grad_norm': 3.3506534099578857, 'learning_rate': 1.65456629728697e-06, 'epoch': 0.13}
  1%|          | 435/78504 [15:38<49:30:10,  2.28s/it]  1%|          | 436/78504 [15:40<47:51:32,  2.21s/it]                                                      {'loss': 1.0487, 'grad_norm': 2.9204158782958984, 'learning_rate': 1.6583874665647689e-06, 'epoch': 0.13}
  1%|          | 436/78504 [15:40<47:51:32,  2.21s/it]  1%|          | 437/78504 [15:42<46:22:23,  2.14s/it]                                                      {'loss': 0.9976, 'grad_norm': 2.0325400829315186, 'learning_rate': 1.662208635842568e-06, 'epoch': 0.13}
  1%|          | 437/78504 [15:42<46:22:23,  2.14s/it]  1%|          | 438/78504 [15:44<44:38:17,  2.06s/it]                                                      {'loss': 1.021, 'grad_norm': 2.835183620452881, 'learning_rate': 1.666029805120367e-06, 'epoch': 0.13}
  1%|          | 438/78504 [15:44<44:38:17,  2.06s/it]  1%|          | 439/78504 [15:46<43:14:42,  1.99s/it]                                                      {'loss': 1.0855, 'grad_norm': 3.622365951538086, 'learning_rate': 1.669850974398166e-06, 'epoch': 0.13}
  1%|          | 439/78504 [15:46<43:14:42,  1.99s/it]  1%|          | 440/78504 [15:48<41:58:02,  1.94s/it]                                                      {'loss': 1.0037, 'grad_norm': 5.125313758850098, 'learning_rate': 1.673672143675965e-06, 'epoch': 0.13}
  1%|          | 440/78504 [15:48<41:58:02,  1.94s/it]  1%|          | 441/78504 [15:50<40:05:53,  1.85s/it]                                                      {'loss': 1.1451, 'grad_norm': 4.361060619354248, 'learning_rate': 1.6774933129537639e-06, 'epoch': 0.13}
  1%|          | 441/78504 [15:50<40:05:53,  1.85s/it]  1%|          | 442/78504 [15:51<38:08:45,  1.76s/it]                                                      {'loss': 1.1106, 'grad_norm': 3.4043185710906982, 'learning_rate': 1.681314482231563e-06, 'epoch': 0.14}
  1%|          | 442/78504 [15:51<38:08:45,  1.76s/it]  1%|          | 443/78504 [15:53<36:23:25,  1.68s/it]                                                      {'loss': 1.1322, 'grad_norm': 6.439428806304932, 'learning_rate': 1.685135651509362e-06, 'epoch': 0.14}
  1%|          | 443/78504 [15:53<36:23:25,  1.68s/it]  1%|          | 444/78504 [15:54<34:46:12,  1.60s/it]                                                      {'loss': 1.1814, 'grad_norm': 12.970124244689941, 'learning_rate': 1.688956820787161e-06, 'epoch': 0.14}
  1%|          | 444/78504 [15:54<34:46:12,  1.60s/it]  1%|          | 445/78504 [15:55<32:41:20,  1.51s/it]                                                      {'loss': 1.1389, 'grad_norm': 3.0335333347320557, 'learning_rate': 1.69277799006496e-06, 'epoch': 0.14}
  1%|          | 445/78504 [15:55<32:41:20,  1.51s/it]  1%|          | 446/78504 [15:56<30:14:11,  1.39s/it]                                                      {'loss': 1.2176, 'grad_norm': 3.0099613666534424, 'learning_rate': 1.6965991593427589e-06, 'epoch': 0.14}
  1%|          | 446/78504 [15:56<30:14:11,  1.39s/it]  1%|          | 447/78504 [15:57<28:21:21,  1.31s/it]                                                      {'loss': 1.2042, 'grad_norm': 4.334911346435547, 'learning_rate': 1.700420328620558e-06, 'epoch': 0.14}
  1%|          | 447/78504 [15:58<28:21:21,  1.31s/it]  1%|          | 448/78504 [15:58<26:23:10,  1.22s/it]                                                      {'loss': 1.2655, 'grad_norm': 4.309381484985352, 'learning_rate': 1.704241497898357e-06, 'epoch': 0.14}
  1%|          | 448/78504 [15:59<26:23:10,  1.22s/it]  1%|          | 449/78504 [15:59<24:36:15,  1.13s/it]                                                      {'loss': 1.2392, 'grad_norm': 4.769018173217773, 'learning_rate': 1.708062667176156e-06, 'epoch': 0.14}
  1%|          | 449/78504 [15:59<24:36:15,  1.13s/it]  1%|          | 450/78504 [16:00<22:26:03,  1.03s/it]                                                      {'loss': 1.3634, 'grad_norm': 5.442220687866211, 'learning_rate': 1.711883836453955e-06, 'epoch': 0.14}
  1%|          | 450/78504 [16:00<22:26:03,  1.03s/it]  1%|          | 451/78504 [16:07<56:41:58,  2.62s/it]                                                      {'loss': 0.9715, 'grad_norm': 3.48395037651062, 'learning_rate': 1.7157050057317539e-06, 'epoch': 0.14}
  1%|          | 451/78504 [16:07<56:41:58,  2.62s/it]  1%|          | 452/78504 [16:10<60:01:01,  2.77s/it]                                                      {'loss': 0.8387, 'grad_norm': 4.614691734313965, 'learning_rate': 1.719526175009553e-06, 'epoch': 0.14}
  1%|          | 452/78504 [16:10<60:01:01,  2.77s/it]  1%|          | 453/78504 [16:13<61:41:48,  2.85s/it]                                                      {'loss': 0.8367, 'grad_norm': 2.3957905769348145, 'learning_rate': 1.723347344287352e-06, 'epoch': 0.14}
  1%|          | 453/78504 [16:13<61:41:48,  2.85s/it]  1%|          | 454/78504 [16:15<60:15:24,  2.78s/it]                                                      {'loss': 0.8262, 'grad_norm': 1.9913091659545898, 'learning_rate': 1.727168513565151e-06, 'epoch': 0.14}
  1%|          | 454/78504 [16:15<60:15:24,  2.78s/it]  1%|          | 455/78504 [16:18<58:19:24,  2.69s/it]                                                      {'loss': 0.7905, 'grad_norm': 1.7294175624847412, 'learning_rate': 1.73098968284295e-06, 'epoch': 0.14}
  1%|          | 455/78504 [16:18<58:19:24,  2.69s/it]  1%|          | 456/78504 [16:20<55:35:16,  2.56s/it]                                                      {'loss': 0.7588, 'grad_norm': 2.1419146060943604, 'learning_rate': 1.7348108521207489e-06, 'epoch': 0.14}
  1%|          | 456/78504 [16:20<55:35:16,  2.56s/it]  1%|          | 457/78504 [16:22<54:03:45,  2.49s/it]                                                      {'loss': 0.7792, 'grad_norm': 12.753339767456055, 'learning_rate': 1.738632021398548e-06, 'epoch': 0.14}
  1%|          | 457/78504 [16:22<54:03:45,  2.49s/it]  1%|          | 458/78504 [16:25<51:38:55,  2.38s/it]                                                      {'loss': 0.7945, 'grad_norm': 2.461897373199463, 'learning_rate': 1.742453190676347e-06, 'epoch': 0.14}
  1%|          | 458/78504 [16:25<51:38:55,  2.38s/it]  1%|          | 459/78504 [16:27<50:22:32,  2.32s/it]                                                      {'loss': 0.7969, 'grad_norm': 2.7683169841766357, 'learning_rate': 1.746274359954146e-06, 'epoch': 0.14}
  1%|          | 459/78504 [16:27<50:22:32,  2.32s/it]  1%|          | 460/78504 [16:29<49:15:08,  2.27s/it]                                                      {'loss': 0.7642, 'grad_norm': 2.86381459236145, 'learning_rate': 1.750095529231945e-06, 'epoch': 0.14}
  1%|          | 460/78504 [16:29<49:15:08,  2.27s/it]  1%|          | 461/78504 [16:31<47:39:17,  2.20s/it]                                                      {'loss': 0.8136, 'grad_norm': 2.6318113803863525, 'learning_rate': 1.7539166985097439e-06, 'epoch': 0.14}
  1%|          | 461/78504 [16:31<47:39:17,  2.20s/it]  1%|          | 462/78504 [16:33<46:14:32,  2.13s/it]                                                      {'loss': 0.7834, 'grad_norm': 2.953939199447632, 'learning_rate': 1.757737867787543e-06, 'epoch': 0.14}
  1%|          | 462/78504 [16:33<46:14:32,  2.13s/it]  1%|          | 463/78504 [16:35<44:43:28,  2.06s/it]                                                      {'loss': 0.7944, 'grad_norm': 2.338334321975708, 'learning_rate': 1.761559037065342e-06, 'epoch': 0.14}
  1%|          | 463/78504 [16:35<44:43:28,  2.06s/it]  1%|          | 464/78504 [16:37<43:27:45,  2.00s/it]                                                      {'loss': 0.8573, 'grad_norm': 2.588392496109009, 'learning_rate': 1.765380206343141e-06, 'epoch': 0.14}
  1%|          | 464/78504 [16:37<43:27:45,  2.00s/it]  1%|          | 465/78504 [16:38<41:59:29,  1.94s/it]                                                      {'loss': 0.8768, 'grad_norm': 3.032151937484741, 'learning_rate': 1.7692013756209399e-06, 'epoch': 0.14}
  1%|          | 465/78504 [16:38<41:59:29,  1.94s/it]  1%|          | 466/78504 [16:40<40:10:08,  1.85s/it]                                                      {'loss': 0.8856, 'grad_norm': 9.500019073486328, 'learning_rate': 1.773022544898739e-06, 'epoch': 0.14}
  1%|          | 466/78504 [16:40<40:10:08,  1.85s/it]  1%|          | 467/78504 [16:42<38:01:28,  1.75s/it]                                                      {'loss': 0.9228, 'grad_norm': 3.2756781578063965, 'learning_rate': 1.7768437141765382e-06, 'epoch': 0.14}
  1%|          | 467/78504 [16:42<38:01:28,  1.75s/it]  1%|          | 468/78504 [16:43<36:18:03,  1.67s/it]                                                      {'loss': 0.9459, 'grad_norm': 5.580215930938721, 'learning_rate': 1.7806648834543372e-06, 'epoch': 0.14}
  1%|          | 468/78504 [16:43<36:18:03,  1.67s/it]  1%|          | 469/78504 [16:45<34:43:25,  1.60s/it]                                                      {'loss': 0.9201, 'grad_norm': 2.782317876815796, 'learning_rate': 1.7844860527321361e-06, 'epoch': 0.14}
  1%|          | 469/78504 [16:45<34:43:25,  1.60s/it]  1%|          | 470/78504 [16:46<32:21:47,  1.49s/it]                                                      {'loss': 0.9625, 'grad_norm': 13.165220260620117, 'learning_rate': 1.788307222009935e-06, 'epoch': 0.14}
  1%|          | 470/78504 [16:46<32:21:47,  1.49s/it]  1%|          | 471/78504 [16:47<30:00:10,  1.38s/it]                                                      {'loss': 0.9699, 'grad_norm': 5.8131256103515625, 'learning_rate': 1.7921283912877343e-06, 'epoch': 0.14}
  1%|          | 471/78504 [16:47<30:00:10,  1.38s/it]  1%|          | 472/78504 [16:48<28:07:38,  1.30s/it]                                                      {'loss': 0.9813, 'grad_norm': 3.5020856857299805, 'learning_rate': 1.7959495605655332e-06, 'epoch': 0.14}
  1%|          | 472/78504 [16:48<28:07:38,  1.30s/it]  1%|          | 473/78504 [16:49<26:10:41,  1.21s/it]                                                      {'loss': 1.0794, 'grad_norm': 3.2566182613372803, 'learning_rate': 1.7997707298433322e-06, 'epoch': 0.14}
  1%|          | 473/78504 [16:49<26:10:41,  1.21s/it]  1%|          | 474/78504 [16:50<24:24:31,  1.13s/it]                                                      {'loss': 1.0848, 'grad_norm': 4.53338623046875, 'learning_rate': 1.8035918991211311e-06, 'epoch': 0.14}
  1%|          | 474/78504 [16:50<24:24:31,  1.13s/it]  1%|          | 475/78504 [16:51<22:21:13,  1.03s/it]                                                      {'loss': 1.1413, 'grad_norm': 4.8176422119140625, 'learning_rate': 1.80741306839893e-06, 'epoch': 0.15}
  1%|          | 475/78504 [16:51<22:21:13,  1.03s/it]  1%|          | 476/78504 [16:59<70:23:17,  3.25s/it]                                                      {'loss': 0.7812, 'grad_norm': 2.3498904705047607, 'learning_rate': 1.8112342376767293e-06, 'epoch': 0.15}
  1%|          | 476/78504 [16:59<70:23:17,  3.25s/it]  1%|          | 477/78504 [17:02<70:47:26,  3.27s/it]                                                      {'loss': 0.6597, 'grad_norm': 2.3315963745117188, 'learning_rate': 1.8150554069545282e-06, 'epoch': 0.15}
  1%|          | 477/78504 [17:02<70:47:26,  3.27s/it]  1%|          | 478/78504 [17:05<68:57:22,  3.18s/it]                                                      {'loss': 0.6077, 'grad_norm': 1.8880013227462769, 'learning_rate': 1.8188765762323272e-06, 'epoch': 0.15}
  1%|          | 478/78504 [17:05<68:57:22,  3.18s/it]  1%|          | 479/78504 [17:08<65:08:59,  3.01s/it]                                                      {'loss': 0.6482, 'grad_norm': 2.152780055999756, 'learning_rate': 1.8226977455101261e-06, 'epoch': 0.15}
  1%|          | 479/78504 [17:08<65:08:59,  3.01s/it]  1%|          | 480/78504 [17:10<60:58:05,  2.81s/it]                                                      {'loss': 0.5988, 'grad_norm': 2.2284717559814453, 'learning_rate': 1.826518914787925e-06, 'epoch': 0.15}
  1%|          | 480/78504 [17:10<60:58:05,  2.81s/it]  1%|          | 481/78504 [17:13<58:03:46,  2.68s/it]                                                      {'loss': 0.608, 'grad_norm': 2.35667085647583, 'learning_rate': 1.8303400840657243e-06, 'epoch': 0.15}
  1%|          | 481/78504 [17:13<58:03:46,  2.68s/it]  1%|          | 482/78504 [17:15<55:51:00,  2.58s/it]                                                      {'loss': 0.6213, 'grad_norm': 1.737558364868164, 'learning_rate': 1.8341612533435232e-06, 'epoch': 0.15}
  1%|          | 482/78504 [17:15<55:51:00,  2.58s/it]  1%|          | 483/78504 [17:17<52:43:27,  2.43s/it]                                                      {'loss': 0.5796, 'grad_norm': 3.0432419776916504, 'learning_rate': 1.8379824226213222e-06, 'epoch': 0.15}
  1%|          | 483/78504 [17:17<52:43:27,  2.43s/it]  1%|          | 484/78504 [17:19<50:11:33,  2.32s/it]                                                      {'loss': 0.6452, 'grad_norm': 2.378157138824463, 'learning_rate': 1.8418035918991211e-06, 'epoch': 0.15}
  1%|          | 484/78504 [17:19<50:11:33,  2.32s/it]  1%|          | 485/78504 [17:21<49:01:53,  2.26s/it]                                                      {'loss': 0.6331, 'grad_norm': 2.2500953674316406, 'learning_rate': 1.84562476117692e-06, 'epoch': 0.15}
  1%|          | 485/78504 [17:21<49:01:53,  2.26s/it]  1%|          | 486/78504 [17:23<47:31:27,  2.19s/it]                                                      {'loss': 0.6667, 'grad_norm': 1.9005255699157715, 'learning_rate': 1.8494459304547192e-06, 'epoch': 0.15}
  1%|          | 486/78504 [17:23<47:31:27,  2.19s/it]  1%|          | 487/78504 [17:25<46:09:50,  2.13s/it]                                                      {'loss': 0.6164, 'grad_norm': 2.0529346466064453, 'learning_rate': 1.8532670997325182e-06, 'epoch': 0.15}
  1%|          | 487/78504 [17:25<46:09:50,  2.13s/it]  1%|          | 488/78504 [17:27<44:49:22,  2.07s/it]                                                      {'loss': 0.6351, 'grad_norm': 2.85892915725708, 'learning_rate': 1.8570882690103172e-06, 'epoch': 0.15}
  1%|          | 488/78504 [17:27<44:49:22,  2.07s/it]  1%|          | 489/78504 [17:29<43:33:47,  2.01s/it]                                                      {'loss': 0.7176, 'grad_norm': 3.760477066040039, 'learning_rate': 1.8609094382881161e-06, 'epoch': 0.15}
  1%|          | 489/78504 [17:29<43:33:47,  2.01s/it]  1%|          | 490/78504 [17:31<42:05:05,  1.94s/it]                                                      {'loss': 0.696, 'grad_norm': 2.8358240127563477, 'learning_rate': 1.864730607565915e-06, 'epoch': 0.15}
  1%|          | 490/78504 [17:31<42:05:05,  1.94s/it]  1%|          | 491/78504 [17:33<40:15:41,  1.86s/it]                                                      {'loss': 0.734, 'grad_norm': 2.1552517414093018, 'learning_rate': 1.8685517768437142e-06, 'epoch': 0.15}
  1%|          | 491/78504 [17:33<40:15:41,  1.86s/it]  1%|          | 492/78504 [17:34<38:13:51,  1.76s/it]                                                      {'loss': 0.7408, 'grad_norm': 3.0512280464172363, 'learning_rate': 1.8723729461215132e-06, 'epoch': 0.15}
  1%|          | 492/78504 [17:34<38:13:51,  1.76s/it]  1%|          | 493/78504 [17:36<36:20:36,  1.68s/it]                                                      {'loss': 0.8121, 'grad_norm': 2.4025492668151855, 'learning_rate': 1.8761941153993124e-06, 'epoch': 0.15}
  1%|          | 493/78504 [17:36<36:20:36,  1.68s/it]  1%|          | 494/78504 [17:37<34:32:39,  1.59s/it]                                                      {'loss': 0.8352, 'grad_norm': 3.2039177417755127, 'learning_rate': 1.8800152846771113e-06, 'epoch': 0.15}
  1%|          | 494/78504 [17:37<34:32:39,  1.59s/it]  1%|          | 495/78504 [17:38<32:37:09,  1.51s/it]                                                      {'loss': 0.7791, 'grad_norm': 3.33308482170105, 'learning_rate': 1.8838364539549103e-06, 'epoch': 0.15}
  1%|          | 495/78504 [17:38<32:37:09,  1.51s/it]  1%|          | 496/78504 [17:40<30:21:41,  1.40s/it]                                                      {'loss': 0.8732, 'grad_norm': 5.387060642242432, 'learning_rate': 1.8876576232327092e-06, 'epoch': 0.15}
  1%|          | 496/78504 [17:40<30:21:41,  1.40s/it]  1%|          | 497/78504 [17:41<28:24:07,  1.31s/it]                                                      {'loss': 0.8497, 'grad_norm': 12.293320655822754, 'learning_rate': 1.8914787925105082e-06, 'epoch': 0.15}
  1%|          | 497/78504 [17:41<28:24:07,  1.31s/it]  1%|          | 498/78504 [17:42<26:45:10,  1.23s/it]                                                      {'loss': 0.8985, 'grad_norm': 6.623059272766113, 'learning_rate': 1.8952999617883071e-06, 'epoch': 0.15}
  1%|          | 498/78504 [17:42<26:45:10,  1.23s/it]  1%|          | 499/78504 [17:43<24:44:36,  1.14s/it]                                                      {'loss': 0.9528, 'grad_norm': 3.829218864440918, 'learning_rate': 1.8991211310661063e-06, 'epoch': 0.15}
  1%|          | 499/78504 [17:43<24:44:36,  1.14s/it]  1%|          | 500/78504 [17:43<22:34:01,  1.04s/it]                                                      {'loss': 1.1586, 'grad_norm': 5.141953945159912, 'learning_rate': 1.9029423003439053e-06, 'epoch': 0.15}
  1%|          | 500/78504 [17:43<22:34:01,  1.04s/it]  1%|          | 501/78504 [17:54<81:31:04,  3.76s/it]                                                      {'loss': 0.6662, 'grad_norm': 2.9247562885284424, 'learning_rate': 1.9067634696217042e-06, 'epoch': 0.15}
  1%|          | 501/78504 [17:54<81:31:04,  3.76s/it]  1%|          | 502/78504 [17:57<77:31:17,  3.58s/it]                                                      {'loss': 0.541, 'grad_norm': 1.8352329730987549, 'learning_rate': 1.910584638899503e-06, 'epoch': 0.15}
  1%|          | 502/78504 [17:57<77:31:17,  3.58s/it]  1%|          | 503/78504 [17:59<70:58:55,  3.28s/it]                                                      {'loss': 0.518, 'grad_norm': 2.0667295455932617, 'learning_rate': 1.9144058081773024e-06, 'epoch': 0.15}
  1%|          | 503/78504 [17:59<70:58:55,  3.28s/it]  1%|          | 504/78504 [18:02<66:44:48,  3.08s/it]                                                      {'loss': 0.4779, 'grad_norm': 2.013383388519287, 'learning_rate': 1.9182269774551015e-06, 'epoch': 0.15}
  1%|          | 504/78504 [18:02<66:44:48,  3.08s/it]  1%|          | 505/78504 [18:04<62:57:04,  2.91s/it]                                                      {'loss': 0.486, 'grad_norm': 1.5878100395202637, 'learning_rate': 1.9220481467329003e-06, 'epoch': 0.15}
  1%|          | 505/78504 [18:04<62:57:04,  2.91s/it]  1%|          | 506/78504 [18:07<58:48:18,  2.71s/it]                                                      {'loss': 0.5001, 'grad_norm': 2.509739875793457, 'learning_rate': 1.9258693160106994e-06, 'epoch': 0.15}
  1%|          | 506/78504 [18:07<58:48:18,  2.71s/it]  1%|          | 507/78504 [18:09<56:15:44,  2.60s/it]                                                      {'loss': 0.4727, 'grad_norm': 1.5657154321670532, 'learning_rate': 1.929690485288498e-06, 'epoch': 0.15}
  1%|          | 507/78504 [18:09<56:15:44,  2.60s/it]  1%|          | 508/78504 [18:11<53:07:58,  2.45s/it]                                                      {'loss': 0.4528, 'grad_norm': 2.223322868347168, 'learning_rate': 1.9335116545662973e-06, 'epoch': 0.16}
  1%|          | 508/78504 [18:11<53:07:58,  2.45s/it]  1%|          | 509/78504 [18:13<51:25:31,  2.37s/it]                                                      {'loss': 0.5225, 'grad_norm': 1.8643583059310913, 'learning_rate': 1.937332823844096e-06, 'epoch': 0.16}
  1%|          | 509/78504 [18:13<51:25:31,  2.37s/it]  1%|          | 510/78504 [18:15<49:56:19,  2.31s/it]                                                      {'loss': 0.5406, 'grad_norm': 1.4416460990905762, 'learning_rate': 1.9411539931218953e-06, 'epoch': 0.16}
  1%|          | 510/78504 [18:15<49:56:19,  2.31s/it]  1%|          | 511/78504 [18:17<48:05:31,  2.22s/it]                                                      {'loss': 0.5087, 'grad_norm': 1.5860602855682373, 'learning_rate': 1.944975162399694e-06, 'epoch': 0.16}
  1%|          | 511/78504 [18:17<48:05:31,  2.22s/it]  1%|          | 512/78504 [18:19<45:23:42,  2.10s/it]                                                      {'loss': 0.4941, 'grad_norm': 1.9665247201919556, 'learning_rate': 1.948796331677493e-06, 'epoch': 0.16}
  1%|          | 512/78504 [18:19<45:23:42,  2.10s/it]  1%|          | 513/78504 [18:21<43:53:51,  2.03s/it]                                                      {'loss': 0.5711, 'grad_norm': 2.475602865219116, 'learning_rate': 1.9526175009552923e-06, 'epoch': 0.16}
  1%|          | 513/78504 [18:21<43:53:51,  2.03s/it]  1%|          | 514/78504 [18:23<42:40:51,  1.97s/it]                                                      {'loss': 0.5102, 'grad_norm': 2.0139565467834473, 'learning_rate': 1.9564386702330915e-06, 'epoch': 0.16}
  1%|          | 514/78504 [18:23<42:40:51,  1.97s/it]  1%|          | 515/78504 [18:25<40:44:43,  1.88s/it]                                                      {'loss': 0.6104, 'grad_norm': 2.325047731399536, 'learning_rate': 1.9602598395108907e-06, 'epoch': 0.16}
  1%|          | 515/78504 [18:25<40:44:43,  1.88s/it]  1%|          | 516/78504 [18:26<39:12:43,  1.81s/it]                                                      {'loss': 0.5935, 'grad_norm': 7.147446155548096, 'learning_rate': 1.9640810087886894e-06, 'epoch': 0.16}
  1%|          | 516/78504 [18:26<39:12:43,  1.81s/it]  1%|          | 517/78504 [18:28<37:21:53,  1.72s/it]                                                      {'loss': 0.6561, 'grad_norm': 2.743516206741333, 'learning_rate': 1.9679021780664886e-06, 'epoch': 0.16}
  1%|          | 517/78504 [18:28<37:21:53,  1.72s/it]  1%|          | 518/78504 [18:29<35:42:15,  1.65s/it]                                                      {'loss': 0.6801, 'grad_norm': 2.4997544288635254, 'learning_rate': 1.9717233473442873e-06, 'epoch': 0.16}
  1%|          | 518/78504 [18:29<35:42:15,  1.65s/it]  1%|          | 519/78504 [18:31<34:13:40,  1.58s/it]                                                      {'loss': 0.7012, 'grad_norm': 2.784456968307495, 'learning_rate': 1.9755445166220865e-06, 'epoch': 0.16}
  1%|          | 519/78504 [18:31<34:13:40,  1.58s/it]  1%|          | 520/78504 [18:32<32:21:01,  1.49s/it]                                                      {'loss': 0.7193, 'grad_norm': 2.4825854301452637, 'learning_rate': 1.9793656858998852e-06, 'epoch': 0.16}
  1%|          | 520/78504 [18:32<32:21:01,  1.49s/it]  1%|          | 521/78504 [18:33<30:12:38,  1.39s/it]                                                      {'loss': 0.7379, 'grad_norm': 3.431854724884033, 'learning_rate': 1.9831868551776844e-06, 'epoch': 0.16}
  1%|          | 521/78504 [18:33<30:12:38,  1.39s/it]  1%|          | 522/78504 [18:34<28:23:45,  1.31s/it]                                                      {'loss': 0.7685, 'grad_norm': 2.3170371055603027, 'learning_rate': 1.9870080244554836e-06, 'epoch': 0.16}
  1%|          | 522/78504 [18:34<28:23:45,  1.31s/it]  1%|          | 523/78504 [18:35<26:19:36,  1.22s/it]                                                      {'loss': 0.8337, 'grad_norm': 3.6807382106781006, 'learning_rate': 1.9908291937332828e-06, 'epoch': 0.16}
  1%|          | 523/78504 [18:35<26:19:36,  1.22s/it]  1%|          | 524/78504 [18:36<24:36:24,  1.14s/it]                                                      {'loss': 0.8645, 'grad_norm': 5.5456929206848145, 'learning_rate': 1.9946503630110815e-06, 'epoch': 0.16}
  1%|          | 524/78504 [18:36<24:36:24,  1.14s/it]  1%|          | 525/78504 [18:37<22:19:59,  1.03s/it]                                                      {'loss': 1.0078, 'grad_norm': 6.413071632385254, 'learning_rate': 1.9984715322888807e-06, 'epoch': 0.16}
  1%|          | 525/78504 [18:37<22:19:59,  1.03s/it]  1%|          | 526/78504 [18:46<75:39:16,  3.49s/it]                                                      {'loss': 0.5575, 'grad_norm': 2.0091118812561035, 'learning_rate': 2.0022927015666794e-06, 'epoch': 0.16}
  1%|          | 526/78504 [18:46<75:39:16,  3.49s/it]  1%|          | 527/78504 [18:50<74:46:09,  3.45s/it]                                                      {'loss': 0.4564, 'grad_norm': 1.6980489492416382, 'learning_rate': 2.0061138708444786e-06, 'epoch': 0.16}
  1%|          | 527/78504 [18:50<74:46:09,  3.45s/it]  1%|          | 528/78504 [18:52<71:25:40,  3.30s/it]                                                      {'loss': 0.407, 'grad_norm': 2.7025721073150635, 'learning_rate': 2.0099350401222773e-06, 'epoch': 0.16}
  1%|          | 528/78504 [18:53<71:25:40,  3.30s/it]  1%|          | 529/78504 [18:55<66:55:35,  3.09s/it]                                                      {'loss': 0.4167, 'grad_norm': 1.7798800468444824, 'learning_rate': 2.0137562094000765e-06, 'epoch': 0.16}
  1%|          | 529/78504 [18:55<66:55:35,  3.09s/it]  1%|          | 530/78504 [18:58<63:01:17,  2.91s/it]                                                      {'loss': 0.4156, 'grad_norm': 1.4504377841949463, 'learning_rate': 2.0175773786778752e-06, 'epoch': 0.16}
  1%|          | 530/78504 [18:58<63:01:17,  2.91s/it]  1%|          | 531/78504 [19:00<60:05:04,  2.77s/it]                                                      {'loss': 0.4037, 'grad_norm': 1.8627259731292725, 'learning_rate': 2.0213985479556744e-06, 'epoch': 0.16}
  1%|          | 531/78504 [19:00<60:05:04,  2.77s/it]  1%|          | 532/78504 [19:02<57:09:45,  2.64s/it]                                                      {'loss': 0.3831, 'grad_norm': 1.6564728021621704, 'learning_rate': 2.0252197172334736e-06, 'epoch': 0.16}
  1%|          | 532/78504 [19:02<57:09:45,  2.64s/it]  1%|          | 533/78504 [19:04<53:48:32,  2.48s/it]                                                      {'loss': 0.4393, 'grad_norm': 1.4642672538757324, 'learning_rate': 2.0290408865112727e-06, 'epoch': 0.16}
  1%|          | 533/78504 [19:05<53:48:32,  2.48s/it]  1%|          | 534/78504 [19:07<51:57:57,  2.40s/it]                                                      {'loss': 0.415, 'grad_norm': 1.8814715147018433, 'learning_rate': 2.0328620557890715e-06, 'epoch': 0.16}
  1%|          | 534/78504 [19:07<51:57:57,  2.40s/it]  1%|          | 535/78504 [19:09<50:28:52,  2.33s/it]                                                      {'loss': 0.411, 'grad_norm': 1.587811827659607, 'learning_rate': 2.0366832250668707e-06, 'epoch': 0.16}
  1%|          | 535/78504 [19:09<50:28:52,  2.33s/it]  1%|          | 536/78504 [19:11<47:32:35,  2.20s/it]                                                      {'loss': 0.4554, 'grad_norm': 1.9181551933288574, 'learning_rate': 2.0405043943446694e-06, 'epoch': 0.16}
  1%|          | 536/78504 [19:11<47:32:35,  2.20s/it]  1%|          | 537/78504 [19:13<46:11:33,  2.13s/it]                                                      {'loss': 0.4431, 'grad_norm': 1.884787917137146, 'learning_rate': 2.0443255636224686e-06, 'epoch': 0.16}
  1%|          | 537/78504 [19:13<46:11:33,  2.13s/it]  1%|          | 538/78504 [19:15<44:51:12,  2.07s/it]                                                      {'loss': 0.443, 'grad_norm': 1.845542311668396, 'learning_rate': 2.0481467329002673e-06, 'epoch': 0.16}
  1%|          | 538/78504 [19:15<44:51:12,  2.07s/it]  1%|          | 539/78504 [19:17<43:31:40,  2.01s/it]                                                      {'loss': 0.5149, 'grad_norm': 1.990646481513977, 'learning_rate': 2.0519679021780665e-06, 'epoch': 0.16}
  1%|          | 539/78504 [19:17<43:31:40,  2.01s/it]  1%|          | 540/78504 [19:18<41:41:30,  1.93s/it]                                                      {'loss': 0.5302, 'grad_norm': 2.2489404678344727, 'learning_rate': 2.0557890714558652e-06, 'epoch': 0.17}
  1%|          | 540/78504 [19:18<41:41:30,  1.93s/it]  1%|          | 541/78504 [19:20<39:59:27,  1.85s/it]                                                      {'loss': 0.5574, 'grad_norm': 2.2587578296661377, 'learning_rate': 2.0596102407336644e-06, 'epoch': 0.17}
  1%|          | 541/78504 [19:20<39:59:27,  1.85s/it]  1%|          | 542/78504 [19:21<38:01:27,  1.76s/it]                                                      {'loss': 0.5689, 'grad_norm': 2.3649537563323975, 'learning_rate': 2.0634314100114636e-06, 'epoch': 0.17}
  1%|          | 542/78504 [19:21<38:01:27,  1.76s/it]  1%|          | 543/78504 [19:23<36:16:13,  1.67s/it]                                                      {'loss': 0.5753, 'grad_norm': 2.313070058822632, 'learning_rate': 2.0672525792892627e-06, 'epoch': 0.17}
  1%|          | 543/78504 [19:23<36:16:13,  1.67s/it]  1%|          | 544/78504 [19:24<34:39:30,  1.60s/it]                                                      {'loss': 0.61, 'grad_norm': 3.4409608840942383, 'learning_rate': 2.0710737485670615e-06, 'epoch': 0.17}
  1%|          | 544/78504 [19:24<34:39:30,  1.60s/it]  1%|          | 545/78504 [19:26<32:41:26,  1.51s/it]                                                      {'loss': 0.6313, 'grad_norm': 3.74385404586792, 'learning_rate': 2.0748949178448606e-06, 'epoch': 0.17}
  1%|          | 545/78504 [19:26<32:41:26,  1.51s/it]  1%|          | 546/78504 [19:27<30:23:27,  1.40s/it]                                                      {'loss': 0.6367, 'grad_norm': 3.0134334564208984, 'learning_rate': 2.0787160871226594e-06, 'epoch': 0.17}
  1%|          | 546/78504 [19:27<30:23:27,  1.40s/it]  1%|          | 547/78504 [19:28<28:19:27,  1.31s/it]                                                      {'loss': 0.6752, 'grad_norm': 3.9642484188079834, 'learning_rate': 2.0825372564004586e-06, 'epoch': 0.17}
  1%|          | 547/78504 [19:28<28:19:27,  1.31s/it]  1%|          | 548/78504 [19:29<26:38:24,  1.23s/it]                                                      {'loss': 0.7621, 'grad_norm': 3.2685201168060303, 'learning_rate': 2.0863584256782577e-06, 'epoch': 0.17}
  1%|          | 548/78504 [19:29<26:38:24,  1.23s/it]  1%|          | 549/78504 [19:30<24:48:38,  1.15s/it]                                                      {'loss': 0.824, 'grad_norm': 3.7088401317596436, 'learning_rate': 2.0901795949560565e-06, 'epoch': 0.17}
  1%|          | 549/78504 [19:30<24:48:38,  1.15s/it]  1%|          | 550/78504 [19:31<22:40:34,  1.05s/it]                                                      {'loss': 1.0039, 'grad_norm': 5.210728645324707, 'learning_rate': 2.0940007642338556e-06, 'epoch': 0.17}
  1%|          | 550/78504 [19:31<22:40:34,  1.05s/it]  1%|          | 551/78504 [19:39<69:58:49,  3.23s/it]                                                      {'loss': 0.5267, 'grad_norm': 2.1009469032287598, 'learning_rate': 2.097821933511655e-06, 'epoch': 0.17}
  1%|          | 551/78504 [19:39<69:58:49,  3.23s/it]  1%|          | 552/78504 [19:42<70:48:37,  3.27s/it]                                                      {'loss': 0.4076, 'grad_norm': 1.359464168548584, 'learning_rate': 2.101643102789454e-06, 'epoch': 0.17}
  1%|          | 552/78504 [19:42<70:48:37,  3.27s/it]  1%|          | 553/78504 [19:45<68:35:49,  3.17s/it]                                                      {'loss': 0.3406, 'grad_norm': 2.794334650039673, 'learning_rate': 2.1054642720672527e-06, 'epoch': 0.17}
  1%|          | 553/78504 [19:45<68:35:49,  3.17s/it]  1%|          | 554/78504 [19:48<63:50:17,  2.95s/it]                                                      {'loss': 0.3674, 'grad_norm': 1.4243654012680054, 'learning_rate': 2.109285441345052e-06, 'epoch': 0.17}
  1%|          | 554/78504 [19:48<63:50:17,  2.95s/it]  1%|          | 555/78504 [19:50<60:46:40,  2.81s/it]                                                      {'loss': 0.3626, 'grad_norm': 1.7794015407562256, 'learning_rate': 2.1131066106228506e-06, 'epoch': 0.17}
  1%|          | 555/78504 [19:50<60:46:40,  2.81s/it]  1%|          | 556/78504 [19:53<58:24:45,  2.70s/it]                                                      {'loss': 0.3507, 'grad_norm': 1.3493459224700928, 'learning_rate': 2.11692777990065e-06, 'epoch': 0.17}
  1%|          | 556/78504 [19:53<58:24:45,  2.70s/it]  1%|          | 557/78504 [19:55<56:07:20,  2.59s/it]                                                      {'loss': 0.3771, 'grad_norm': 3.3774242401123047, 'learning_rate': 2.1207489491784485e-06, 'epoch': 0.17}
  1%|          | 557/78504 [19:55<56:07:20,  2.59s/it]  1%|          | 558/78504 [19:57<54:16:19,  2.51s/it]                                                      {'loss': 0.3543, 'grad_norm': 1.6613430976867676, 'learning_rate': 2.1245701184562477e-06, 'epoch': 0.17}
  1%|          | 558/78504 [19:57<54:16:19,  2.51s/it]  1%|          | 559/78504 [20:00<52:11:40,  2.41s/it]                                                      {'loss': 0.3558, 'grad_norm': 1.4288980960845947, 'learning_rate': 2.1283912877340465e-06, 'epoch': 0.17}
  1%|          | 559/78504 [20:00<52:11:40,  2.41s/it]  1%|          | 560/78504 [20:02<50:29:41,  2.33s/it]                                                      {'loss': 0.3698, 'grad_norm': 1.64877188205719, 'learning_rate': 2.1322124570118456e-06, 'epoch': 0.17}
  1%|          | 560/78504 [20:02<50:29:41,  2.33s/it]  1%|          | 561/78504 [20:04<48:30:44,  2.24s/it]                                                      {'loss': 0.4758, 'grad_norm': 1.612062692642212, 'learning_rate': 2.136033626289645e-06, 'epoch': 0.17}
  1%|          | 561/78504 [20:04<48:30:44,  2.24s/it]  1%|          | 562/78504 [20:06<46:53:37,  2.17s/it]                                                      {'loss': 0.4161, 'grad_norm': 5.2402119636535645, 'learning_rate': 2.139854795567444e-06, 'epoch': 0.17}
  1%|          | 562/78504 [20:06<46:53:37,  2.17s/it]  1%|          | 563/78504 [20:08<45:21:12,  2.09s/it]                                                      {'loss': 0.4302, 'grad_norm': 1.6275651454925537, 'learning_rate': 2.1436759648452427e-06, 'epoch': 0.17}
  1%|          | 563/78504 [20:08<45:21:12,  2.09s/it]  1%|          | 564/78504 [20:10<44:00:58,  2.03s/it]                                                      {'loss': 0.4154, 'grad_norm': 1.86667001247406, 'learning_rate': 2.147497134123042e-06, 'epoch': 0.17}
  1%|          | 564/78504 [20:10<44:00:58,  2.03s/it]  1%|          | 565/78504 [20:11<42:16:55,  1.95s/it]                                                      {'loss': 0.4791, 'grad_norm': 1.8689332008361816, 'learning_rate': 2.1513183034008406e-06, 'epoch': 0.17}
  1%|          | 565/78504 [20:11<42:16:55,  1.95s/it]  1%|          | 566/78504 [20:13<40:26:14,  1.87s/it]                                                      {'loss': 0.4901, 'grad_norm': 2.0869057178497314, 'learning_rate': 2.1551394726786398e-06, 'epoch': 0.17}
  1%|          | 566/78504 [20:13<40:26:14,  1.87s/it]  1%|          | 567/78504 [20:14<38:17:15,  1.77s/it]                                                      {'loss': 0.5142, 'grad_norm': 2.356966018676758, 'learning_rate': 2.1589606419564385e-06, 'epoch': 0.17}
  1%|          | 567/78504 [20:15<38:17:15,  1.77s/it]  1%|          | 568/78504 [20:16<36:26:06,  1.68s/it]                                                      {'loss': 0.5735, 'grad_norm': 2.961998701095581, 'learning_rate': 2.1627818112342377e-06, 'epoch': 0.17}
  1%|          | 568/78504 [20:16<36:26:06,  1.68s/it]  1%|          | 569/78504 [20:17<34:52:51,  1.61s/it]                                                      {'loss': 0.6058, 'grad_norm': 2.626810073852539, 'learning_rate': 2.1666029805120364e-06, 'epoch': 0.17}
  1%|          | 569/78504 [20:17<34:52:51,  1.61s/it]  1%|          | 570/78504 [20:19<32:51:20,  1.52s/it]                                                      {'loss': 0.6305, 'grad_norm': 2.779517412185669, 'learning_rate': 2.1704241497898356e-06, 'epoch': 0.17}
  1%|          | 570/78504 [20:19<32:51:20,  1.52s/it]  1%|          | 571/78504 [20:20<30:29:08,  1.41s/it]                                                      {'loss': 0.6686, 'grad_norm': 3.350560188293457, 'learning_rate': 2.1742453190676348e-06, 'epoch': 0.17}
  1%|          | 571/78504 [20:20<30:29:08,  1.41s/it]  1%|          | 572/78504 [20:21<28:34:46,  1.32s/it]                                                      {'loss': 0.6323, 'grad_norm': 6.4714131355285645, 'learning_rate': 2.178066488345434e-06, 'epoch': 0.17}
  1%|          | 572/78504 [20:21<28:34:46,  1.32s/it]  1%|          | 573/78504 [20:22<26:47:02,  1.24s/it]                                                      {'loss': 0.7519, 'grad_norm': 4.758286476135254, 'learning_rate': 2.1818876576232327e-06, 'epoch': 0.18}
  1%|          | 573/78504 [20:22<26:47:02,  1.24s/it]  1%|          | 574/78504 [20:23<24:56:01,  1.15s/it]                                                      {'loss': 0.77, 'grad_norm': 7.642584323883057, 'learning_rate': 2.185708826901032e-06, 'epoch': 0.18}
  1%|          | 574/78504 [20:23<24:56:01,  1.15s/it]  1%|          | 575/78504 [20:24<22:37:21,  1.05s/it]                                                      {'loss': 0.941, 'grad_norm': 3.984527826309204, 'learning_rate': 2.1895299961788306e-06, 'epoch': 0.18}
  1%|          | 575/78504 [20:24<22:37:21,  1.05s/it]  1%|          | 576/78504 [20:31<64:16:39,  2.97s/it]                                                      {'loss': 0.487, 'grad_norm': 2.2247626781463623, 'learning_rate': 2.1933511654566298e-06, 'epoch': 0.18}
  1%|          | 576/78504 [20:31<64:16:39,  2.97s/it]  1%|          | 577/78504 [20:35<66:28:44,  3.07s/it]                                                      {'loss': 0.3795, 'grad_norm': 1.7136754989624023, 'learning_rate': 2.1971723347344285e-06, 'epoch': 0.18}
  1%|          | 577/78504 [20:35<66:28:44,  3.07s/it]  1%|          | 578/78504 [20:38<65:57:42,  3.05s/it]                                                      {'loss': 0.3549, 'grad_norm': 1.4240525960922241, 'learning_rate': 2.2009935040122277e-06, 'epoch': 0.18}
  1%|          | 578/78504 [20:38<65:57:42,  3.05s/it]  1%|          | 579/78504 [20:40<63:02:50,  2.91s/it]                                                      {'loss': 0.3147, 'grad_norm': 1.2393327951431274, 'learning_rate': 2.204814673290027e-06, 'epoch': 0.18}
  1%|          | 579/78504 [20:40<63:02:50,  2.91s/it]  1%|          | 580/78504 [20:43<60:17:12,  2.79s/it]                                                      {'loss': 0.3305, 'grad_norm': 1.2773252725601196, 'learning_rate': 2.2086358425678256e-06, 'epoch': 0.18}
  1%|          | 580/78504 [20:43<60:17:12,  2.79s/it]  1%|          | 581/78504 [20:45<57:02:51,  2.64s/it]                                                      {'loss': 0.3059, 'grad_norm': 1.4127362966537476, 'learning_rate': 2.212457011845625e-06, 'epoch': 0.18}
  1%|          | 581/78504 [20:45<57:02:51,  2.64s/it]  1%|          | 582/78504 [20:47<55:10:47,  2.55s/it]                                                      {'loss': 0.2971, 'grad_norm': 1.2819136381149292, 'learning_rate': 2.216278181123424e-06, 'epoch': 0.18}
  1%|          | 582/78504 [20:47<55:10:47,  2.55s/it]  1%|          | 583/78504 [20:49<52:13:26,  2.41s/it]                                                      {'loss': 0.3257, 'grad_norm': 1.5068365335464478, 'learning_rate': 2.220099350401223e-06, 'epoch': 0.18}
  1%|          | 583/78504 [20:49<52:13:26,  2.41s/it]  1%|          | 584/78504 [20:51<49:45:21,  2.30s/it]                                                      {'loss': 0.35, 'grad_norm': 1.537855625152588, 'learning_rate': 2.223920519679022e-06, 'epoch': 0.18}
  1%|          | 584/78504 [20:51<49:45:21,  2.30s/it]  1%|          | 585/78504 [20:54<48:44:25,  2.25s/it]                                                      {'loss': 0.315, 'grad_norm': 1.1823945045471191, 'learning_rate': 2.227741688956821e-06, 'epoch': 0.18}
  1%|          | 585/78504 [20:54<48:44:25,  2.25s/it]  1%|          | 586/78504 [20:56<47:16:18,  2.18s/it]                                                      {'loss': 0.3727, 'grad_norm': 1.1116009950637817, 'learning_rate': 2.2315628582346198e-06, 'epoch': 0.18}
  1%|          | 586/78504 [20:56<47:16:18,  2.18s/it]  1%|          | 587/78504 [20:57<44:49:25,  2.07s/it]                                                      {'loss': 0.3956, 'grad_norm': 1.6083769798278809, 'learning_rate': 2.235384027512419e-06, 'epoch': 0.18}
  1%|          | 587/78504 [20:57<44:49:25,  2.07s/it]  1%|          | 588/78504 [20:59<43:31:32,  2.01s/it]                                                      {'loss': 0.3687, 'grad_norm': 1.6152915954589844, 'learning_rate': 2.2392051967902177e-06, 'epoch': 0.18}
  1%|          | 588/78504 [20:59<43:31:32,  2.01s/it]  1%|          | 589/78504 [21:01<41:33:55,  1.92s/it]                                                      {'loss': 0.4004, 'grad_norm': 1.6674989461898804, 'learning_rate': 2.243026366068017e-06, 'epoch': 0.18}
  1%|          | 589/78504 [21:01<41:33:55,  1.92s/it]  1%|          | 590/78504 [21:03<40:41:42,  1.88s/it]                                                      {'loss': 0.4449, 'grad_norm': 2.49977970123291, 'learning_rate': 2.246847535345816e-06, 'epoch': 0.18}
  1%|          | 590/78504 [21:03<40:41:42,  1.88s/it]  1%|          | 591/78504 [21:04<39:12:41,  1.81s/it]                                                      {'loss': 0.4651, 'grad_norm': 1.623542308807373, 'learning_rate': 2.250668704623615e-06, 'epoch': 0.18}
  1%|          | 591/78504 [21:04<39:12:41,  1.81s/it]  1%|          | 592/78504 [21:06<37:21:16,  1.73s/it]                                                      {'loss': 0.5553, 'grad_norm': 2.207078456878662, 'learning_rate': 2.254489873901414e-06, 'epoch': 0.18}
  1%|          | 592/78504 [21:06<37:21:16,  1.73s/it]  1%|          | 593/78504 [21:07<35:41:05,  1.65s/it]                                                      {'loss': 0.529, 'grad_norm': 2.674281358718872, 'learning_rate': 2.258311043179213e-06, 'epoch': 0.18}
  1%|          | 593/78504 [21:07<35:41:05,  1.65s/it]  1%|          | 594/78504 [21:09<34:09:37,  1.58s/it]                                                      {'loss': 0.5767, 'grad_norm': 2.441256046295166, 'learning_rate': 2.262132212457012e-06, 'epoch': 0.18}
  1%|          | 594/78504 [21:09<34:09:37,  1.58s/it]  1%|          | 595/78504 [21:10<31:51:25,  1.47s/it]                                                      {'loss': 0.5787, 'grad_norm': 2.961146593093872, 'learning_rate': 2.265953381734811e-06, 'epoch': 0.18}
  1%|          | 595/78504 [21:10<31:51:25,  1.47s/it]  1%|          | 596/78504 [21:11<29:39:11,  1.37s/it]                                                      {'loss': 0.6015, 'grad_norm': 3.3737189769744873, 'learning_rate': 2.2697745510126097e-06, 'epoch': 0.18}
  1%|          | 596/78504 [21:11<29:39:11,  1.37s/it]  1%|          | 597/78504 [21:12<27:49:33,  1.29s/it]                                                      {'loss': 0.6207, 'grad_norm': 4.567743301391602, 'learning_rate': 2.273595720290409e-06, 'epoch': 0.18}
  1%|          | 597/78504 [21:12<27:49:33,  1.29s/it]  1%|          | 598/78504 [21:13<26:00:59,  1.20s/it]                                                      {'loss': 0.6985, 'grad_norm': 2.571335554122925, 'learning_rate': 2.2774168895682077e-06, 'epoch': 0.18}
  1%|          | 598/78504 [21:13<26:00:59,  1.20s/it]  1%|          | 599/78504 [21:14<24:21:40,  1.13s/it]                                                      {'loss': 0.7639, 'grad_norm': 5.7726826667785645, 'learning_rate': 2.281238058846007e-06, 'epoch': 0.18}
  1%|          | 599/78504 [21:14<24:21:40,  1.13s/it]  1%|          | 600/78504 [21:15<22:13:56,  1.03s/it]                                                      {'loss': 0.9754, 'grad_norm': 10.315164566040039, 'learning_rate': 2.285059228123806e-06, 'epoch': 0.18}
  1%|          | 600/78504 [21:15<22:13:56,  1.03s/it]  1%|          | 601/78504 [21:23<69:38:41,  3.22s/it]                                                      {'loss': 0.4545, 'grad_norm': 2.9848074913024902, 'learning_rate': 2.288880397401605e-06, 'epoch': 0.18}
  1%|          | 601/78504 [21:23<69:38:41,  3.22s/it]  1%|          | 602/78504 [21:26<68:46:35,  3.18s/it]                                                      {'loss': 0.3241, 'grad_norm': 1.6752336025238037, 'learning_rate': 2.292701566679404e-06, 'epoch': 0.18}
  1%|          | 602/78504 [21:26<68:46:35,  3.18s/it]  1%|          | 603/78504 [21:29<67:31:08,  3.12s/it]                                                      {'loss': 0.3076, 'grad_norm': 1.8096387386322021, 'learning_rate': 2.296522735957203e-06, 'epoch': 0.18}
  1%|          | 603/78504 [21:29<67:31:08,  3.12s/it]  1%|          | 604/78504 [21:32<64:06:49,  2.96s/it]                                                      {'loss': 0.3031, 'grad_norm': 2.0160815715789795, 'learning_rate': 2.300343905235002e-06, 'epoch': 0.18}
  1%|          | 604/78504 [21:32<64:06:49,  2.96s/it]  1%|          | 605/78504 [21:34<61:02:22,  2.82s/it]                                                      {'loss': 0.2886, 'grad_norm': 1.157773733139038, 'learning_rate': 2.304165074512801e-06, 'epoch': 0.18}
  1%|          | 605/78504 [21:34<61:02:22,  2.82s/it]  1%|          | 606/78504 [21:37<58:03:41,  2.68s/it]                                                      {'loss': 0.2856, 'grad_norm': 1.167496681213379, 'learning_rate': 2.3079862437905997e-06, 'epoch': 0.19}
  1%|          | 606/78504 [21:37<58:03:41,  2.68s/it]  1%|          | 607/78504 [21:39<55:49:29,  2.58s/it]                                                      {'loss': 0.3177, 'grad_norm': 1.3030118942260742, 'learning_rate': 2.311807413068399e-06, 'epoch': 0.19}
  1%|          | 607/78504 [21:39<55:49:29,  2.58s/it]  1%|          | 608/78504 [21:41<53:45:11,  2.48s/it]                                                      {'loss': 0.3095, 'grad_norm': 1.2056314945220947, 'learning_rate': 2.3156285823461976e-06, 'epoch': 0.19}
  1%|          | 608/78504 [21:41<53:45:11,  2.48s/it]  1%|          | 609/78504 [21:43<50:46:47,  2.35s/it]                                                      {'loss': 0.3264, 'grad_norm': 1.601122260093689, 'learning_rate': 2.319449751623997e-06, 'epoch': 0.19}
  1%|          | 609/78504 [21:43<50:46:47,  2.35s/it]  1%|          | 610/78504 [21:46<49:24:35,  2.28s/it]                                                      {'loss': 0.3246, 'grad_norm': 1.2699966430664062, 'learning_rate': 2.323270920901796e-06, 'epoch': 0.19}
  1%|          | 610/78504 [21:46<49:24:35,  2.28s/it]  1%|          | 611/78504 [21:48<47:33:13,  2.20s/it]                                                      {'loss': 0.3116, 'grad_norm': 1.8906351327896118, 'learning_rate': 2.327092090179595e-06, 'epoch': 0.19}
  1%|          | 611/78504 [21:48<47:33:13,  2.20s/it]  1%|          | 612/78504 [21:49<45:01:34,  2.08s/it]                                                      {'loss': 0.3127, 'grad_norm': 1.6584614515304565, 'learning_rate': 2.3309132594573943e-06, 'epoch': 0.19}
  1%|          | 612/78504 [21:49<45:01:34,  2.08s/it]  1%|          | 613/78504 [21:51<43:35:39,  2.01s/it]                                                      {'loss': 0.4041, 'grad_norm': 2.021218776702881, 'learning_rate': 2.334734428735193e-06, 'epoch': 0.19}
  1%|          | 613/78504 [21:51<43:35:39,  2.01s/it]  1%|          | 614/78504 [21:53<41:37:50,  1.92s/it]                                                      {'loss': 0.4238, 'grad_norm': 1.3904544115066528, 'learning_rate': 2.3385555980129922e-06, 'epoch': 0.19}
  1%|          | 614/78504 [21:53<41:37:50,  1.92s/it]  1%|          | 615/78504 [21:55<40:35:34,  1.88s/it]                                                      {'loss': 0.4283, 'grad_norm': 1.9503837823867798, 'learning_rate': 2.342376767290791e-06, 'epoch': 0.19}
  1%|          | 615/78504 [21:55<40:35:34,  1.88s/it]  1%|          | 616/78504 [21:56<39:01:39,  1.80s/it]                                                      {'loss': 0.4476, 'grad_norm': 7.3907599449157715, 'learning_rate': 2.34619793656859e-06, 'epoch': 0.19}
  1%|          | 616/78504 [21:56<39:01:39,  1.80s/it]  1%|          | 617/78504 [21:58<37:13:17,  1.72s/it]                                                      {'loss': 0.4592, 'grad_norm': 1.5735561847686768, 'learning_rate': 2.350019105846389e-06, 'epoch': 0.19}
  1%|          | 617/78504 [21:58<37:13:17,  1.72s/it]  1%|          | 618/78504 [21:59<35:25:45,  1.64s/it]                                                      {'loss': 0.5428, 'grad_norm': 3.255760431289673, 'learning_rate': 2.353840275124188e-06, 'epoch': 0.19}
  1%|          | 618/78504 [21:59<35:25:45,  1.64s/it]  1%|          | 619/78504 [22:01<34:00:47,  1.57s/it]                                                      {'loss': 0.5292, 'grad_norm': 8.075132369995117, 'learning_rate': 2.357661444401987e-06, 'epoch': 0.19}
  1%|          | 619/78504 [22:01<34:00:47,  1.57s/it]  1%|          | 620/78504 [22:02<31:46:26,  1.47s/it]                                                      {'loss': 0.547, 'grad_norm': 2.5360372066497803, 'learning_rate': 2.3614826136797864e-06, 'epoch': 0.19}
  1%|          | 620/78504 [22:02<31:46:26,  1.47s/it]  1%|          | 621/78504 [22:03<29:40:20,  1.37s/it]                                                      {'loss': 0.5392, 'grad_norm': 6.8622918128967285, 'learning_rate': 2.365303782957585e-06, 'epoch': 0.19}
  1%|          | 621/78504 [22:03<29:40:20,  1.37s/it]  1%|          | 622/78504 [22:04<27:53:11,  1.29s/it]                                                      {'loss': 0.5655, 'grad_norm': 3.9884440898895264, 'learning_rate': 2.3691249522353843e-06, 'epoch': 0.19}
  1%|          | 622/78504 [22:04<27:53:11,  1.29s/it]  1%|          | 623/78504 [22:05<25:59:00,  1.20s/it]                                                      {'loss': 0.6158, 'grad_norm': 3.568575143814087, 'learning_rate': 2.372946121513183e-06, 'epoch': 0.19}
  1%|          | 623/78504 [22:05<25:59:00,  1.20s/it]  1%|          | 624/78504 [22:06<24:13:32,  1.12s/it]                                                      {'loss': 0.7271, 'grad_norm': 3.530162811279297, 'learning_rate': 2.3767672907909822e-06, 'epoch': 0.19}
  1%|          | 624/78504 [22:06<24:13:32,  1.12s/it]  1%|          | 625/78504 [22:07<22:00:32,  1.02s/it]                                                      {'loss': 0.8417, 'grad_norm': 6.587818145751953, 'learning_rate': 2.380588460068781e-06, 'epoch': 0.19}
  1%|          | 625/78504 [22:07<22:00:32,  1.02s/it]  1%|          | 626/78504 [22:17<78:30:08,  3.63s/it]                                                      {'loss': 0.4252, 'grad_norm': 1.8634132146835327, 'learning_rate': 2.38440962934658e-06, 'epoch': 0.19}
  1%|          | 626/78504 [22:17<78:30:08,  3.63s/it]  1%|          | 627/78504 [22:20<74:59:06,  3.47s/it]                                                      {'loss': 0.3399, 'grad_norm': 2.477269172668457, 'learning_rate': 2.388230798624379e-06, 'epoch': 0.19}
  1%|          | 627/78504 [22:20<74:59:06,  3.47s/it]  1%|          | 628/78504 [22:22<69:12:20,  3.20s/it]                                                      {'loss': 0.2774, 'grad_norm': 1.0835822820663452, 'learning_rate': 2.392051967902178e-06, 'epoch': 0.19}
  1%|          | 628/78504 [22:22<69:12:20,  3.20s/it]  1%|          | 629/78504 [22:25<65:26:15,  3.03s/it]                                                      {'loss': 0.2753, 'grad_norm': 1.6555373668670654, 'learning_rate': 2.3958731371799772e-06, 'epoch': 0.19}
  1%|          | 629/78504 [22:25<65:26:15,  3.03s/it]  1%|          | 630/78504 [22:27<61:09:20,  2.83s/it]                                                      {'loss': 0.28, 'grad_norm': 1.3458442687988281, 'learning_rate': 2.3996943064577764e-06, 'epoch': 0.19}
  1%|          | 630/78504 [22:27<61:09:20,  2.83s/it]  1%|          | 631/78504 [22:30<57:30:25,  2.66s/it]                                                      {'loss': 0.2995, 'grad_norm': 1.3522217273712158, 'learning_rate': 2.403515475735575e-06, 'epoch': 0.19}
  1%|          | 631/78504 [22:30<57:30:25,  2.66s/it]  1%|          | 632/78504 [22:32<55:20:26,  2.56s/it]                                                      {'loss': 0.2598, 'grad_norm': 1.6339012384414673, 'learning_rate': 2.4073366450133743e-06, 'epoch': 0.19}
  1%|          | 632/78504 [22:32<55:20:26,  2.56s/it]  1%|          | 633/78504 [22:34<52:21:06,  2.42s/it]                                                      {'loss': 0.2902, 'grad_norm': 1.7244874238967896, 'learning_rate': 2.411157814291173e-06, 'epoch': 0.19}
  1%|          | 633/78504 [22:34<52:21:06,  2.42s/it]  1%|          | 634/78504 [22:36<49:52:13,  2.31s/it]                                                      {'loss': 0.3323, 'grad_norm': 2.2811813354492188, 'learning_rate': 2.414978983568972e-06, 'epoch': 0.19}
  1%|          | 634/78504 [22:36<49:52:13,  2.31s/it]  1%|          | 635/78504 [22:38<48:50:57,  2.26s/it]                                                      {'loss': 0.301, 'grad_norm': 1.639678716659546, 'learning_rate': 2.418800152846771e-06, 'epoch': 0.19}
  1%|          | 635/78504 [22:38<48:50:57,  2.26s/it]  1%|          | 636/78504 [22:40<47:12:33,  2.18s/it]                                                      {'loss': 0.3653, 'grad_norm': 1.488454818725586, 'learning_rate': 2.42262132212457e-06, 'epoch': 0.19}
  1%|          | 636/78504 [22:40<47:12:33,  2.18s/it]  1%|          | 637/78504 [22:42<45:33:29,  2.11s/it]                                                      {'loss': 0.3253, 'grad_norm': 2.8326029777526855, 'learning_rate': 2.426442491402369e-06, 'epoch': 0.19}
  1%|          | 637/78504 [22:42<45:33:29,  2.11s/it]  1%|          | 638/78504 [22:44<44:05:47,  2.04s/it]                                                      {'loss': 0.3185, 'grad_norm': 1.7051372528076172, 'learning_rate': 2.430263660680168e-06, 'epoch': 0.2}
  1%|          | 638/78504 [22:44<44:05:47,  2.04s/it]  1%|          | 639/78504 [22:46<42:46:21,  1.98s/it]                                                      {'loss': 0.4091, 'grad_norm': 1.6777942180633545, 'learning_rate': 2.434084829957967e-06, 'epoch': 0.2}
  1%|          | 639/78504 [22:46<42:46:21,  1.98s/it]  1%|          | 640/78504 [22:48<41:09:49,  1.90s/it]                                                      {'loss': 0.3603, 'grad_norm': 2.9844322204589844, 'learning_rate': 2.4379059992357664e-06, 'epoch': 0.2}
  1%|          | 640/78504 [22:48<41:09:49,  1.90s/it]  1%|          | 641/78504 [22:49<39:30:51,  1.83s/it]                                                      {'loss': 0.4222, 'grad_norm': 1.8816248178482056, 'learning_rate': 2.441727168513565e-06, 'epoch': 0.2}
  1%|          | 641/78504 [22:49<39:30:51,  1.83s/it]  1%|          | 642/78504 [22:51<37:34:04,  1.74s/it]                                                      {'loss': 0.4648, 'grad_norm': 1.4618343114852905, 'learning_rate': 2.4455483377913643e-06, 'epoch': 0.2}
  1%|          | 642/78504 [22:51<37:34:04,  1.74s/it]  1%|          | 643/78504 [22:52<35:50:39,  1.66s/it]                                                      {'loss': 0.5242, 'grad_norm': 3.0512123107910156, 'learning_rate': 2.4493695070691634e-06, 'epoch': 0.2}
  1%|          | 643/78504 [22:52<35:50:39,  1.66s/it]  1%|          | 644/78504 [22:54<34:13:54,  1.58s/it]                                                      {'loss': 0.5195, 'grad_norm': 2.6113593578338623, 'learning_rate': 2.453190676346962e-06, 'epoch': 0.2}
  1%|          | 644/78504 [22:54<34:13:54,  1.58s/it]  1%|          | 645/78504 [22:55<32:25:30,  1.50s/it]                                                      {'loss': 0.5015, 'grad_norm': 2.579439401626587, 'learning_rate': 2.4570118456247614e-06, 'epoch': 0.2}
  1%|          | 645/78504 [22:55<32:25:30,  1.50s/it]  1%|          | 646/78504 [22:56<30:07:29,  1.39s/it]                                                      {'loss': 0.6044, 'grad_norm': 7.6709208488464355, 'learning_rate': 2.46083301490256e-06, 'epoch': 0.2}
  1%|          | 646/78504 [22:56<30:07:29,  1.39s/it]  1%|          | 647/78504 [22:57<28:11:42,  1.30s/it]                                                      {'loss': 0.6066, 'grad_norm': 2.471949338912964, 'learning_rate': 2.4646541841803593e-06, 'epoch': 0.2}
  1%|          | 647/78504 [22:57<28:11:42,  1.30s/it]  1%|          | 648/78504 [22:58<26:34:58,  1.23s/it]                                                      {'loss': 0.6613, 'grad_norm': 5.208921909332275, 'learning_rate': 2.468475353458158e-06, 'epoch': 0.2}
  1%|          | 648/78504 [22:58<26:34:58,  1.23s/it]  1%|          | 649/78504 [22:59<24:49:41,  1.15s/it]                                                      {'loss': 0.7095, 'grad_norm': 3.0910837650299072, 'learning_rate': 2.4722965227359576e-06, 'epoch': 0.2}
  1%|          | 649/78504 [22:59<24:49:41,  1.15s/it]  1%|          | 650/78504 [23:00<22:40:06,  1.05s/it]                                                      {'loss': 0.8402, 'grad_norm': 4.622714996337891, 'learning_rate': 2.4761176920137564e-06, 'epoch': 0.2}
  1%|          | 650/78504 [23:00<22:40:06,  1.05s/it]  1%|          | 651/78504 [23:07<64:08:55,  2.97s/it]                                                      {'loss': 0.4351, 'grad_norm': 1.7911807298660278, 'learning_rate': 2.4799388612915555e-06, 'epoch': 0.2}
  1%|          | 651/78504 [23:07<64:08:55,  2.97s/it]  1%|          | 652/78504 [23:11<66:38:34,  3.08s/it]                                                      {'loss': 0.2957, 'grad_norm': 1.1847429275512695, 'learning_rate': 2.4837600305693543e-06, 'epoch': 0.2}
  1%|          | 652/78504 [23:11<66:38:34,  3.08s/it]  1%|          | 653/78504 [23:13<63:19:35,  2.93s/it]                                                      {'loss': 0.3238, 'grad_norm': 1.7359099388122559, 'learning_rate': 2.4875811998471534e-06, 'epoch': 0.2}
  1%|          | 653/78504 [23:13<63:19:35,  2.93s/it]  1%|          | 654/78504 [23:16<61:07:56,  2.83s/it]                                                      {'loss': 0.275, 'grad_norm': 1.1558010578155518, 'learning_rate': 2.491402369124952e-06, 'epoch': 0.2}
  1%|          | 654/78504 [23:16<61:07:56,  2.83s/it]  1%|          | 655/78504 [23:18<59:00:55,  2.73s/it]                                                      {'loss': 0.2475, 'grad_norm': 1.2988994121551514, 'learning_rate': 2.4952235384027514e-06, 'epoch': 0.2}
  1%|          | 655/78504 [23:18<59:00:55,  2.73s/it]  1%|          | 656/78504 [23:21<56:02:49,  2.59s/it]                                                      {'loss': 0.2547, 'grad_norm': 1.3303642272949219, 'learning_rate': 2.49904470768055e-06, 'epoch': 0.2}
  1%|          | 656/78504 [23:21<56:02:49,  2.59s/it]  1%|          | 657/78504 [23:23<54:21:49,  2.51s/it]                                                      {'loss': 0.2404, 'grad_norm': 0.9915971159934998, 'learning_rate': 2.5028658769583493e-06, 'epoch': 0.2}
  1%|          | 657/78504 [23:23<54:21:49,  2.51s/it]  1%|          | 658/78504 [23:25<53:04:56,  2.45s/it]                                                      {'loss': 0.3418, 'grad_norm': 2.1064414978027344, 'learning_rate': 2.5066870462361484e-06, 'epoch': 0.2}
  1%|          | 658/78504 [23:25<53:04:56,  2.45s/it]  1%|          | 659/78504 [23:28<51:23:15,  2.38s/it]                                                      {'loss': 0.2658, 'grad_norm': 1.326471209526062, 'learning_rate': 2.5105082155139476e-06, 'epoch': 0.2}
  1%|          | 659/78504 [23:28<51:23:15,  2.38s/it]  1%|          | 660/78504 [23:30<50:04:41,  2.32s/it]                                                      {'loss': 0.2489, 'grad_norm': 1.1975065469741821, 'learning_rate': 2.5143293847917463e-06, 'epoch': 0.2}
  1%|          | 660/78504 [23:30<50:04:41,  2.32s/it]  1%|          | 661/78504 [23:32<47:16:26,  2.19s/it]                                                      {'loss': 0.3059, 'grad_norm': 2.133723258972168, 'learning_rate': 2.5181505540695455e-06, 'epoch': 0.2}
  1%|          | 661/78504 [23:32<47:16:26,  2.19s/it]  1%|          | 662/78504 [23:34<46:05:08,  2.13s/it]                                                      {'loss': 0.2941, 'grad_norm': 1.5578323602676392, 'learning_rate': 2.5219717233473443e-06, 'epoch': 0.2}
  1%|          | 662/78504 [23:34<46:05:08,  2.13s/it]  1%|          | 663/78504 [23:36<44:42:49,  2.07s/it]                                                      {'loss': 0.3256, 'grad_norm': 1.9208160638809204, 'learning_rate': 2.5257928926251434e-06, 'epoch': 0.2}
  1%|          | 663/78504 [23:36<44:42:49,  2.07s/it]  1%|          | 664/78504 [23:37<43:22:14,  2.01s/it]                                                      {'loss': 0.343, 'grad_norm': 1.7661373615264893, 'learning_rate': 2.529614061902942e-06, 'epoch': 0.2}
  1%|          | 664/78504 [23:37<43:22:14,  2.01s/it]  1%|          | 665/78504 [23:39<41:50:23,  1.94s/it]                                                      {'loss': 0.3971, 'grad_norm': 1.6304936408996582, 'learning_rate': 2.5334352311807413e-06, 'epoch': 0.2}
  1%|          | 665/78504 [23:39<41:50:23,  1.94s/it]  1%|          | 666/78504 [23:41<40:03:56,  1.85s/it]                                                      {'loss': 0.4091, 'grad_norm': 2.799717664718628, 'learning_rate': 2.53725640045854e-06, 'epoch': 0.2}
  1%|          | 666/78504 [23:41<40:03:56,  1.85s/it]  1%|          | 667/78504 [23:42<38:05:13,  1.76s/it]                                                      {'loss': 0.4538, 'grad_norm': 1.9289597272872925, 'learning_rate': 2.5410775697363393e-06, 'epoch': 0.2}
  1%|          | 667/78504 [23:42<38:05:13,  1.76s/it]  1%|          | 668/78504 [23:44<36:11:49,  1.67s/it]                                                      {'loss': 0.488, 'grad_norm': 1.7867443561553955, 'learning_rate': 2.5448987390141384e-06, 'epoch': 0.2}
  1%|          | 668/78504 [23:44<36:11:49,  1.67s/it]  1%|          | 669/78504 [23:45<34:24:54,  1.59s/it]                                                      {'loss': 0.5239, 'grad_norm': 1.996587872505188, 'learning_rate': 2.5487199082919376e-06, 'epoch': 0.2}
  1%|          | 669/78504 [23:45<34:24:54,  1.59s/it]  1%|          | 670/78504 [23:47<32:21:48,  1.50s/it]                                                      {'loss': 0.5155, 'grad_norm': 2.9546732902526855, 'learning_rate': 2.5525410775697363e-06, 'epoch': 0.2}
  1%|          | 670/78504 [23:47<32:21:48,  1.50s/it]  1%|          | 671/78504 [23:48<30:09:59,  1.40s/it]                                                      {'loss': 0.4765, 'grad_norm': 3.387373208999634, 'learning_rate': 2.5563622468475355e-06, 'epoch': 0.21}
  1%|          | 671/78504 [23:48<30:09:59,  1.40s/it]  1%|          | 672/78504 [23:49<28:17:39,  1.31s/it]                                                      {'loss': 0.5886, 'grad_norm': 2.0132648944854736, 'learning_rate': 2.5601834161253342e-06, 'epoch': 0.21}
  1%|          | 672/78504 [23:49<28:17:39,  1.31s/it]  1%|          | 673/78504 [23:50<26:43:56,  1.24s/it]                                                      {'loss': 0.6429, 'grad_norm': 3.351811170578003, 'learning_rate': 2.5640045854031334e-06, 'epoch': 0.21}
  1%|          | 673/78504 [23:50<26:43:56,  1.24s/it]  1%|          | 674/78504 [23:51<24:44:29,  1.14s/it]                                                      {'loss': 0.7054, 'grad_norm': 5.944129467010498, 'learning_rate': 2.567825754680932e-06, 'epoch': 0.21}
  1%|          | 674/78504 [23:51<24:44:29,  1.14s/it]  1%|          | 675/78504 [23:52<22:10:29,  1.03s/it]                                                      {'loss': 0.9446, 'grad_norm': 4.535555839538574, 'learning_rate': 2.5716469239587313e-06, 'epoch': 0.21}
  1%|          | 675/78504 [23:52<22:10:29,  1.03s/it]  1%|          | 676/78504 [24:00<72:12:29,  3.34s/it]                                                      {'loss': 0.4221, 'grad_norm': 1.882334589958191, 'learning_rate': 2.5754680932365305e-06, 'epoch': 0.21}
  1%|          | 676/78504 [24:00<72:12:29,  3.34s/it]  1%|          | 677/78504 [24:04<72:49:46,  3.37s/it]                                                      {'loss': 0.2823, 'grad_norm': 1.1755021810531616, 'learning_rate': 2.5792892625143292e-06, 'epoch': 0.21}
  1%|          | 677/78504 [24:04<72:49:46,  3.37s/it]  1%|          | 678/78504 [24:06<67:40:53,  3.13s/it]                                                      {'loss': 0.2511, 'grad_norm': 1.0582528114318848, 'learning_rate': 2.583110431792129e-06, 'epoch': 0.21}
  1%|          | 678/78504 [24:06<67:40:53,  3.13s/it]  1%|          | 679/78504 [24:09<63:06:11,  2.92s/it]                                                      {'loss': 0.2129, 'grad_norm': 1.8595941066741943, 'learning_rate': 2.5869316010699276e-06, 'epoch': 0.21}
  1%|          | 679/78504 [24:09<63:06:11,  2.92s/it]  1%|          | 680/78504 [24:11<60:17:09,  2.79s/it]                                                      {'loss': 0.2448, 'grad_norm': 0.8721693158149719, 'learning_rate': 2.5907527703477267e-06, 'epoch': 0.21}
  1%|          | 680/78504 [24:11<60:17:09,  2.79s/it]  1%|          | 681/78504 [24:14<58:00:49,  2.68s/it]                                                      {'loss': 0.2918, 'grad_norm': 2.302337408065796, 'learning_rate': 2.5945739396255255e-06, 'epoch': 0.21}
  1%|          | 681/78504 [24:14<58:00:49,  2.68s/it]  1%|          | 682/78504 [24:16<55:44:39,  2.58s/it]                                                      {'loss': 0.2426, 'grad_norm': 1.240998387336731, 'learning_rate': 2.5983951089033247e-06, 'epoch': 0.21}
  1%|          | 682/78504 [24:16<55:44:39,  2.58s/it]  1%|          | 683/78504 [24:18<54:00:51,  2.50s/it]                                                      {'loss': 0.2786, 'grad_norm': 1.0954853296279907, 'learning_rate': 2.6022162781811234e-06, 'epoch': 0.21}
  1%|          | 683/78504 [24:18<54:00:51,  2.50s/it]  1%|          | 684/78504 [24:20<52:03:16,  2.41s/it]                                                      {'loss': 0.2779, 'grad_norm': 2.5269856452941895, 'learning_rate': 2.6060374474589226e-06, 'epoch': 0.21}
  1%|          | 684/78504 [24:21<52:03:16,  2.41s/it]  1%|          | 685/78504 [24:23<50:22:14,  2.33s/it]                                                      {'loss': 0.2605, 'grad_norm': 1.0602166652679443, 'learning_rate': 2.6098586167367213e-06, 'epoch': 0.21}
  1%|          | 685/78504 [24:23<50:22:14,  2.33s/it]  1%|          | 686/78504 [24:25<47:26:35,  2.19s/it]                                                      {'loss': 0.3267, 'grad_norm': 2.0247888565063477, 'learning_rate': 2.6136797860145205e-06, 'epoch': 0.21}
  1%|          | 686/78504 [24:25<47:26:35,  2.19s/it]  1%|          | 687/78504 [24:27<46:08:15,  2.13s/it]                                                      {'loss': 0.2977, 'grad_norm': 1.1914857625961304, 'learning_rate': 2.6175009552923192e-06, 'epoch': 0.21}
  1%|          | 687/78504 [24:27<46:08:15,  2.13s/it]  1%|          | 688/78504 [24:28<44:47:07,  2.07s/it]                                                      {'loss': 0.3015, 'grad_norm': 1.5091577768325806, 'learning_rate': 2.621322124570119e-06, 'epoch': 0.21}
  1%|          | 688/78504 [24:28<44:47:07,  2.07s/it]  1%|          | 689/78504 [24:30<43:31:37,  2.01s/it]                                                      {'loss': 0.3421, 'grad_norm': 2.038410186767578, 'learning_rate': 2.6251432938479176e-06, 'epoch': 0.21}
  1%|          | 689/78504 [24:30<43:31:37,  2.01s/it]  1%|          | 690/78504 [24:32<41:56:14,  1.94s/it]                                                      {'loss': 0.4153, 'grad_norm': 2.0064024925231934, 'learning_rate': 2.6289644631257167e-06, 'epoch': 0.21}
  1%|          | 690/78504 [24:32<41:56:14,  1.94s/it]  1%|          | 691/78504 [24:34<40:09:15,  1.86s/it]                                                      {'loss': 0.4071, 'grad_norm': 6.313762664794922, 'learning_rate': 2.6327856324035155e-06, 'epoch': 0.21}
  1%|          | 691/78504 [24:34<40:09:15,  1.86s/it]  1%|          | 692/78504 [24:35<38:04:32,  1.76s/it]                                                      {'loss': 0.4479, 'grad_norm': 2.073700189590454, 'learning_rate': 2.6366068016813146e-06, 'epoch': 0.21}
  1%|          | 692/78504 [24:35<38:04:32,  1.76s/it]  1%|          | 693/78504 [24:37<36:09:23,  1.67s/it]                                                      {'loss': 0.4684, 'grad_norm': 1.42826247215271, 'learning_rate': 2.6404279709591134e-06, 'epoch': 0.21}
  1%|          | 693/78504 [24:37<36:09:23,  1.67s/it]  1%|          | 694/78504 [24:38<34:22:40,  1.59s/it]                                                      {'loss': 0.4552, 'grad_norm': 2.2967960834503174, 'learning_rate': 2.6442491402369126e-06, 'epoch': 0.21}
  1%|          | 694/78504 [24:38<34:22:40,  1.59s/it]  1%|          | 695/78504 [24:39<32:24:52,  1.50s/it]                                                      {'loss': 0.4889, 'grad_norm': 2.804847240447998, 'learning_rate': 2.6480703095147113e-06, 'epoch': 0.21}
  1%|          | 695/78504 [24:39<32:24:52,  1.50s/it]  1%|          | 696/78504 [24:41<30:11:31,  1.40s/it]                                                      {'loss': 0.5096, 'grad_norm': 3.5497236251831055, 'learning_rate': 2.6518914787925105e-06, 'epoch': 0.21}
  1%|          | 696/78504 [24:41<30:11:31,  1.40s/it]  1%|          | 697/78504 [24:42<28:11:02,  1.30s/it]                                                      {'loss': 0.5215, 'grad_norm': 2.795166015625, 'learning_rate': 2.6557126480703096e-06, 'epoch': 0.21}
  1%|          | 697/78504 [24:42<28:11:02,  1.30s/it]  1%|          | 698/78504 [24:43<26:32:56,  1.23s/it]                                                      {'loss': 0.5962, 'grad_norm': 4.121243000030518, 'learning_rate': 2.659533817348109e-06, 'epoch': 0.21}
  1%|          | 698/78504 [24:43<26:32:56,  1.23s/it]  1%|          | 699/78504 [24:44<24:40:51,  1.14s/it]                                                      {'loss': 0.647, 'grad_norm': 3.8289809226989746, 'learning_rate': 2.6633549866259075e-06, 'epoch': 0.21}
  1%|          | 699/78504 [24:44<24:40:51,  1.14s/it]  1%|          | 700/78504 [24:44<22:20:16,  1.03s/it]                                                      {'loss': 0.8404, 'grad_norm': inf, 'learning_rate': 2.6633549866259075e-06, 'epoch': 0.21}
  1%|          | 700/78504 [24:44<22:20:16,  1.03s/it]  1%|          | 701/78504 [24:54<77:49:36,  3.60s/it]                                                      {'loss': 0.4417, 'grad_norm': 1.7922110557556152, 'learning_rate': 2.6671761559037067e-06, 'epoch': 0.21}
  1%|          | 701/78504 [24:54<77:49:36,  3.60s/it]  1%|          | 702/78504 [24:57<74:34:57,  3.45s/it]                                                      {'loss': 0.2671, 'grad_norm': 0.8783388733863831, 'learning_rate': 2.6709973251815055e-06, 'epoch': 0.21}
  1%|          | 702/78504 [24:57<74:34:57,  3.45s/it]  1%|          | 703/78504 [25:00<71:12:11,  3.29s/it]                                                      {'loss': 0.2656, 'grad_norm': 0.9789925217628479, 'learning_rate': 2.6748184944593046e-06, 'epoch': 0.21}
  1%|          | 703/78504 [25:00<71:12:11,  3.29s/it]  1%|          | 704/78504 [25:03<66:38:00,  3.08s/it]                                                      {'loss': 0.2363, 'grad_norm': 1.0348937511444092, 'learning_rate': 2.6786396637371034e-06, 'epoch': 0.22}
  1%|          | 704/78504 [25:03<66:38:00,  3.08s/it]  1%|          | 705/78504 [25:05<62:51:30,  2.91s/it]                                                      {'loss': 0.2237, 'grad_norm': 1.1928491592407227, 'learning_rate': 2.6824608330149025e-06, 'epoch': 0.22}
  1%|          | 705/78504 [25:05<62:51:30,  2.91s/it]  1%|          | 706/78504 [25:08<59:56:21,  2.77s/it]                                                      {'loss': 0.2485, 'grad_norm': 1.178456425666809, 'learning_rate': 2.6862820022927013e-06, 'epoch': 0.22}
  1%|          | 706/78504 [25:08<59:56:21,  2.77s/it]  1%|          | 707/78504 [25:10<57:00:16,  2.64s/it]                                                      {'loss': 0.227, 'grad_norm': 1.1639955043792725, 'learning_rate': 2.6901031715705005e-06, 'epoch': 0.22}
  1%|          | 707/78504 [25:10<57:00:16,  2.64s/it]  1%|          | 708/78504 [25:12<54:53:54,  2.54s/it]                                                      {'loss': 0.2727, 'grad_norm': 1.12504243850708, 'learning_rate': 2.6939243408482996e-06, 'epoch': 0.22}
  1%|          | 708/78504 [25:12<54:53:54,  2.54s/it]  1%|          | 709/78504 [25:14<52:35:08,  2.43s/it]                                                      {'loss': 0.2661, 'grad_norm': 1.0727709531784058, 'learning_rate': 2.697745510126099e-06, 'epoch': 0.22}
  1%|          | 709/78504 [25:14<52:35:08,  2.43s/it]  1%|          | 710/78504 [25:17<50:52:35,  2.35s/it]                                                      {'loss': 0.2643, 'grad_norm': 1.1062134504318237, 'learning_rate': 2.701566679403898e-06, 'epoch': 0.22}
  1%|          | 710/78504 [25:17<50:52:35,  2.35s/it]  1%|          | 711/78504 [25:19<48:46:32,  2.26s/it]                                                      {'loss': 0.2987, 'grad_norm': 1.1997114419937134, 'learning_rate': 2.7053878486816967e-06, 'epoch': 0.22}
  1%|          | 711/78504 [25:19<48:46:32,  2.26s/it]  1%|          | 712/78504 [25:21<46:57:10,  2.17s/it]                                                      {'loss': 0.2862, 'grad_norm': 2.1866345405578613, 'learning_rate': 2.709209017959496e-06, 'epoch': 0.22}
  1%|          | 712/78504 [25:21<46:57:10,  2.17s/it]  1%|          | 713/78504 [25:23<45:09:22,  2.09s/it]                                                      {'loss': 0.2796, 'grad_norm': 1.0748859643936157, 'learning_rate': 2.7130301872372946e-06, 'epoch': 0.22}
  1%|          | 713/78504 [25:23<45:09:22,  2.09s/it]  1%|          | 714/78504 [25:24<43:43:57,  2.02s/it]                                                      {'loss': 0.3571, 'grad_norm': 1.1325124502182007, 'learning_rate': 2.7168513565150938e-06, 'epoch': 0.22}
  1%|          | 714/78504 [25:24<43:43:57,  2.02s/it]  1%|          | 715/78504 [25:26<41:49:03,  1.94s/it]                                                      {'loss': 0.3683, 'grad_norm': 1.4994715452194214, 'learning_rate': 2.7206725257928925e-06, 'epoch': 0.22}
  1%|          | 715/78504 [25:26<41:49:03,  1.94s/it]  1%|          | 716/78504 [25:28<40:03:00,  1.85s/it]                                                      {'loss': 0.3818, 'grad_norm': 2.099163770675659, 'learning_rate': 2.7244936950706917e-06, 'epoch': 0.22}
  1%|          | 716/78504 [25:28<40:03:00,  1.85s/it]  1%|          | 717/78504 [25:29<38:02:05,  1.76s/it]                                                      {'loss': 0.4218, 'grad_norm': 3.8756957054138184, 'learning_rate': 2.7283148643484904e-06, 'epoch': 0.22}
  1%|          | 717/78504 [25:29<38:02:05,  1.76s/it]  1%|          | 718/78504 [25:31<36:09:39,  1.67s/it]                                                      {'loss': 0.4721, 'grad_norm': 2.2356796264648438, 'learning_rate': 2.73213603362629e-06, 'epoch': 0.22}
  1%|          | 718/78504 [25:31<36:09:39,  1.67s/it]  1%|          | 719/78504 [25:32<34:32:19,  1.60s/it]                                                      {'loss': 0.4625, 'grad_norm': 2.6031112670898438, 'learning_rate': 2.7359572029040888e-06, 'epoch': 0.22}
  1%|          | 719/78504 [25:32<34:32:19,  1.60s/it]  1%|          | 720/78504 [25:34<32:32:52,  1.51s/it]                                                      {'loss': 0.4919, 'grad_norm': 2.5132453441619873, 'learning_rate': 2.739778372181888e-06, 'epoch': 0.22}
  1%|          | 720/78504 [25:34<32:32:52,  1.51s/it]  1%|          | 721/78504 [25:35<30:24:44,  1.41s/it]                                                      {'loss': 0.4692, 'grad_norm': 2.1530442237854004, 'learning_rate': 2.7435995414596867e-06, 'epoch': 0.22}
  1%|          | 721/78504 [25:35<30:24:44,  1.41s/it]  1%|          | 722/78504 [25:36<28:29:14,  1.32s/it]                                                      {'loss': 0.4946, 'grad_norm': 4.225505352020264, 'learning_rate': 2.747420710737486e-06, 'epoch': 0.22}
  1%|          | 722/78504 [25:36<28:29:14,  1.32s/it]  1%|          | 723/78504 [25:37<26:28:22,  1.23s/it]                                                      {'loss': 0.5925, 'grad_norm': 2.351405143737793, 'learning_rate': 2.7512418800152846e-06, 'epoch': 0.22}
  1%|          | 723/78504 [25:37<26:28:22,  1.23s/it]  1%|          | 724/78504 [25:38<24:37:25,  1.14s/it]                                                      {'loss': 0.661, 'grad_norm': 2.9702484607696533, 'learning_rate': 2.7550630492930838e-06, 'epoch': 0.22}
  1%|          | 724/78504 [25:38<24:37:25,  1.14s/it]  1%|          | 725/78504 [25:39<22:17:44,  1.03s/it]                                                      {'loss': 0.8358, 'grad_norm': 4.436789035797119, 'learning_rate': 2.7588842185708825e-06, 'epoch': 0.22}
  1%|          | 725/78504 [25:39<22:17:44,  1.03s/it]  1%|          | 726/78504 [25:48<77:20:52,  3.58s/it]                                                      {'loss': 0.338, 'grad_norm': 1.2003217935562134, 'learning_rate': 2.7627053878486817e-06, 'epoch': 0.22}
  1%|          | 726/78504 [25:48<77:20:52,  3.58s/it]  1%|          | 727/78504 [25:51<75:35:56,  3.50s/it]                                                      {'loss': 0.2516, 'grad_norm': 1.6521906852722168, 'learning_rate': 2.766526557126481e-06, 'epoch': 0.22}
  1%|          | 727/78504 [25:51<75:35:56,  3.50s/it]  1%|          | 728/78504 [25:54<72:15:33,  3.34s/it]                                                      {'loss': 0.2662, 'grad_norm': 3.649739980697632, 'learning_rate': 2.77034772640428e-06, 'epoch': 0.22}
  1%|          | 728/78504 [25:54<72:15:33,  3.34s/it]  1%|          | 729/78504 [25:57<67:34:46,  3.13s/it]                                                      {'loss': 0.217, 'grad_norm': 0.9027721881866455, 'learning_rate': 2.7741688956820788e-06, 'epoch': 0.22}
  1%|          | 729/78504 [25:57<67:34:46,  3.13s/it]  1%|          | 730/78504 [25:59<63:18:26,  2.93s/it]                                                      {'loss': 0.2572, 'grad_norm': 0.9324570894241333, 'learning_rate': 2.777990064959878e-06, 'epoch': 0.22}
  1%|          | 730/78504 [25:59<63:18:26,  2.93s/it]  1%|          | 731/78504 [26:02<59:02:59,  2.73s/it]                                                      {'loss': 0.2306, 'grad_norm': 0.8034723997116089, 'learning_rate': 2.7818112342376767e-06, 'epoch': 0.22}
  1%|          | 731/78504 [26:02<59:02:59,  2.73s/it]  1%|          | 732/78504 [26:04<56:26:08,  2.61s/it]                                                      {'loss': 0.1994, 'grad_norm': 0.9497804045677185, 'learning_rate': 2.785632403515476e-06, 'epoch': 0.22}
  1%|          | 732/78504 [26:04<56:26:08,  2.61s/it]  1%|          | 733/78504 [26:06<53:06:46,  2.46s/it]                                                      {'loss': 0.2184, 'grad_norm': 1.146822214126587, 'learning_rate': 2.7894535727932746e-06, 'epoch': 0.22}
  1%|          | 733/78504 [26:06<53:06:46,  2.46s/it]  1%|          | 734/78504 [26:08<51:25:42,  2.38s/it]                                                      {'loss': 0.2525, 'grad_norm': 0.9643145799636841, 'learning_rate': 2.7932747420710738e-06, 'epoch': 0.22}
  1%|          | 734/78504 [26:08<51:25:42,  2.38s/it]  1%|          | 735/78504 [26:10<49:56:27,  2.31s/it]                                                      {'loss': 0.2325, 'grad_norm': 0.8484119176864624, 'learning_rate': 2.7970959113488725e-06, 'epoch': 0.22}
  1%|          | 735/78504 [26:11<49:56:27,  2.31s/it]  1%|          | 736/78504 [26:13<48:07:57,  2.23s/it]                                                      {'loss': 0.2601, 'grad_norm': 0.9125089049339294, 'learning_rate': 2.8009170806266717e-06, 'epoch': 0.23}
  1%|          | 736/78504 [26:13<48:07:57,  2.23s/it]  1%|          | 737/78504 [26:15<46:33:02,  2.15s/it]                                                      {'loss': 0.2516, 'grad_norm': 1.248022437095642, 'learning_rate': 2.804738249904471e-06, 'epoch': 0.23}
  1%|          | 737/78504 [26:15<46:33:02,  2.15s/it]  1%|          | 738/78504 [26:16<44:47:59,  2.07s/it]                                                      {'loss': 0.297, 'grad_norm': 1.6245940923690796, 'learning_rate': 2.80855941918227e-06, 'epoch': 0.23}
  1%|          | 738/78504 [26:16<44:47:59,  2.07s/it]  1%|          | 739/78504 [26:18<43:34:51,  2.02s/it]                                                      {'loss': 0.3085, 'grad_norm': 1.0951716899871826, 'learning_rate': 2.8123805884600688e-06, 'epoch': 0.23}
  1%|          | 739/78504 [26:18<43:34:51,  2.02s/it]  1%|          | 740/78504 [26:20<42:04:40,  1.95s/it]                                                      {'loss': 0.3149, 'grad_norm': 1.2818330526351929, 'learning_rate': 2.816201757737868e-06, 'epoch': 0.23}
  1%|          | 740/78504 [26:20<42:04:40,  1.95s/it]  1%|          | 741/78504 [26:22<40:10:51,  1.86s/it]                                                      {'loss': 0.3913, 'grad_norm': 2.9516377449035645, 'learning_rate': 2.820022927015667e-06, 'epoch': 0.23}
  1%|          | 741/78504 [26:22<40:10:51,  1.86s/it]  1%|          | 742/78504 [26:23<38:12:22,  1.77s/it]                                                      {'loss': 0.3933, 'grad_norm': 1.7961523532867432, 'learning_rate': 2.823844096293466e-06, 'epoch': 0.23}
  1%|          | 742/78504 [26:23<38:12:22,  1.77s/it]  1%|          | 743/78504 [26:25<36:29:24,  1.69s/it]                                                      {'loss': 0.4256, 'grad_norm': 9.704188346862793, 'learning_rate': 2.827665265571265e-06, 'epoch': 0.23}
  1%|          | 743/78504 [26:25<36:29:24,  1.69s/it]  1%|          | 744/78504 [26:26<34:46:56,  1.61s/it]                                                      {'loss': 0.4294, 'grad_norm': 1.8876543045043945, 'learning_rate': 2.8314864348490637e-06, 'epoch': 0.23}
  1%|          | 744/78504 [26:26<34:46:56,  1.61s/it]  1%|          | 745/78504 [26:28<32:51:33,  1.52s/it]                                                      {'loss': 0.4702, 'grad_norm': 2.8924856185913086, 'learning_rate': 2.835307604126863e-06, 'epoch': 0.23}
  1%|          | 745/78504 [26:28<32:51:33,  1.52s/it]  1%|          | 746/78504 [26:29<30:33:30,  1.41s/it]                                                      {'loss': 0.4644, 'grad_norm': 3.0494930744171143, 'learning_rate': 2.8391287734046617e-06, 'epoch': 0.23}
  1%|          | 746/78504 [26:29<30:33:30,  1.41s/it]  1%|          | 747/78504 [26:30<28:30:36,  1.32s/it]                                                      {'loss': 0.4766, 'grad_norm': 2.7149107456207275, 'learning_rate': 2.8429499426824613e-06, 'epoch': 0.23}
  1%|          | 747/78504 [26:30<28:30:36,  1.32s/it]  1%|          | 748/78504 [26:31<26:43:08,  1.24s/it]                                                      {'loss': 0.5436, 'grad_norm': 4.382872581481934, 'learning_rate': 2.84677111196026e-06, 'epoch': 0.23}
  1%|          | 748/78504 [26:31<26:43:08,  1.24s/it]  1%|          | 749/78504 [26:32<24:45:19,  1.15s/it]                                                      {'loss': 0.5952, 'grad_norm': 7.625521659851074, 'learning_rate': 2.850592281238059e-06, 'epoch': 0.23}
  1%|          | 749/78504 [26:32<24:45:19,  1.15s/it]  1%|          | 750/78504 [26:33<22:30:45,  1.04s/it]                                                      {'loss': 0.8423, 'grad_norm': 3.692756175994873, 'learning_rate': 2.854413450515858e-06, 'epoch': 0.23}
  1%|          | 750/78504 [26:33<22:30:45,  1.04s/it]  1%|          | 751/78504 [26:41<71:39:54,  3.32s/it]                                                      {'loss': 0.3792, 'grad_norm': 1.4606287479400635, 'learning_rate': 2.858234619793657e-06, 'epoch': 0.23}
  1%|          | 751/78504 [26:41<71:39:54,  3.32s/it]  1%|          | 752/78504 [26:45<71:59:32,  3.33s/it]                                                      {'loss': 0.2929, 'grad_norm': 1.0110578536987305, 'learning_rate': 2.862055789071456e-06, 'epoch': 0.23}
  1%|          | 752/78504 [26:45<71:59:32,  3.33s/it]  1%|          | 753/78504 [26:47<67:02:41,  3.10s/it]                                                      {'loss': 0.2514, 'grad_norm': 1.2443649768829346, 'learning_rate': 2.865876958349255e-06, 'epoch': 0.23}
  1%|          | 753/78504 [26:47<67:02:41,  3.10s/it]  1%|          | 754/78504 [26:50<63:58:34,  2.96s/it]                                                      {'loss': 0.2782, 'grad_norm': 1.3578917980194092, 'learning_rate': 2.8696981276270537e-06, 'epoch': 0.23}
  1%|          | 754/78504 [26:50<63:58:34,  2.96s/it]  1%|          | 755/78504 [26:52<60:48:58,  2.82s/it]                                                      {'loss': 0.2223, 'grad_norm': 1.2922049760818481, 'learning_rate': 2.873519296904853e-06, 'epoch': 0.23}
  1%|          | 755/78504 [26:52<60:48:58,  2.82s/it]  1%|          | 756/78504 [26:55<58:24:45,  2.70s/it]                                                      {'loss': 0.2171, 'grad_norm': 0.8305726647377014, 'learning_rate': 2.8773404661826516e-06, 'epoch': 0.23}
  1%|          | 756/78504 [26:55<58:24:45,  2.70s/it]  1%|          | 757/78504 [26:57<55:58:25,  2.59s/it]                                                      {'loss': 0.2003, 'grad_norm': 1.1240423917770386, 'learning_rate': 2.8811616354604512e-06, 'epoch': 0.23}
  1%|          | 757/78504 [26:57<55:58:25,  2.59s/it]  1%|          | 758/78504 [26:59<52:54:50,  2.45s/it]                                                      {'loss': 0.2092, 'grad_norm': 1.0584266185760498, 'learning_rate': 2.88498280473825e-06, 'epoch': 0.23}
  1%|          | 758/78504 [26:59<52:54:50,  2.45s/it]  1%|          | 759/78504 [27:01<51:16:34,  2.37s/it]                                                      {'loss': 0.2477, 'grad_norm': 0.9399870038032532, 'learning_rate': 2.888803974016049e-06, 'epoch': 0.23}
  1%|          | 759/78504 [27:01<51:16:34,  2.37s/it]  1%|          | 760/78504 [27:03<49:52:59,  2.31s/it]                                                      {'loss': 0.2405, 'grad_norm': 1.3306925296783447, 'learning_rate': 2.892625143293848e-06, 'epoch': 0.23}
  1%|          | 760/78504 [27:03<49:52:59,  2.31s/it]  1%|          | 761/78504 [27:06<48:04:05,  2.23s/it]                                                      {'loss': 0.2655, 'grad_norm': 1.019371509552002, 'learning_rate': 2.896446312571647e-06, 'epoch': 0.23}
  1%|          | 761/78504 [27:06<48:04:05,  2.23s/it]  1%|          | 762/78504 [27:07<46:30:37,  2.15s/it]                                                      {'loss': 0.2307, 'grad_norm': 1.0196822881698608, 'learning_rate': 2.900267481849446e-06, 'epoch': 0.23}
  1%|          | 762/78504 [27:08<46:30:37,  2.15s/it]  1%|          | 763/78504 [27:09<44:40:03,  2.07s/it]                                                      {'loss': 0.2457, 'grad_norm': 1.033806562423706, 'learning_rate': 2.904088651127245e-06, 'epoch': 0.23}
  1%|          | 763/78504 [27:09<44:40:03,  2.07s/it]  1%|          | 764/78504 [27:11<43:10:34,  2.00s/it]                                                      {'loss': 0.3396, 'grad_norm': 1.9663867950439453, 'learning_rate': 2.9079098204050437e-06, 'epoch': 0.23}
  1%|          | 764/78504 [27:11<43:10:34,  2.00s/it]  1%|          | 765/78504 [27:13<41:01:28,  1.90s/it]                                                      {'loss': 0.3769, 'grad_norm': 1.5990153551101685, 'learning_rate': 2.911730989682843e-06, 'epoch': 0.23}
  1%|          | 765/78504 [27:13<41:01:28,  1.90s/it]  1%|          | 766/78504 [27:15<39:19:42,  1.82s/it]                                                      {'loss': 0.4052, 'grad_norm': 1.925100564956665, 'learning_rate': 2.915552158960642e-06, 'epoch': 0.23}
  1%|          | 766/78504 [27:15<39:19:42,  1.82s/it]  1%|          | 767/78504 [27:16<37:20:58,  1.73s/it]                                                      {'loss': 0.4064, 'grad_norm': 1.712884545326233, 'learning_rate': 2.9193733282384412e-06, 'epoch': 0.23}
  1%|          | 767/78504 [27:16<37:20:58,  1.73s/it]  1%|          | 768/78504 [27:18<35:44:28,  1.66s/it]                                                      {'loss': 0.4364, 'grad_norm': 1.8831430673599243, 'learning_rate': 2.92319449751624e-06, 'epoch': 0.23}
  1%|          | 768/78504 [27:18<35:44:28,  1.66s/it]  1%|          | 769/78504 [27:19<34:13:44,  1.59s/it]                                                      {'loss': 0.45, 'grad_norm': 1.581552267074585, 'learning_rate': 2.927015666794039e-06, 'epoch': 0.24}
  1%|          | 769/78504 [27:19<34:13:44,  1.59s/it]  1%|          | 770/78504 [27:20<32:17:38,  1.50s/it]                                                      {'loss': 0.511, 'grad_norm': 2.1549465656280518, 'learning_rate': 2.930836836071838e-06, 'epoch': 0.24}
  1%|          | 770/78504 [27:20<32:17:38,  1.50s/it]  1%|          | 771/78504 [27:21<30:02:50,  1.39s/it]                                                      {'loss': 0.4978, 'grad_norm': 2.248976469039917, 'learning_rate': 2.934658005349637e-06, 'epoch': 0.24}
  1%|          | 771/78504 [27:21<30:02:50,  1.39s/it]  1%|          | 772/78504 [27:22<28:12:08,  1.31s/it]                                                      {'loss': 0.5254, 'grad_norm': 2.12103271484375, 'learning_rate': 2.9384791746274362e-06, 'epoch': 0.24}
  1%|          | 772/78504 [27:22<28:12:08,  1.31s/it]  1%|          | 773/78504 [27:23<26:13:49,  1.21s/it]                                                      {'loss': 0.596, 'grad_norm': 2.358510971069336, 'learning_rate': 2.942300343905235e-06, 'epoch': 0.24}
  1%|          | 773/78504 [27:23<26:13:49,  1.21s/it]  1%|          | 774/78504 [27:24<24:26:55,  1.13s/it]                                                      {'loss': 0.6137, 'grad_norm': 2.7500617504119873, 'learning_rate': 2.946121513183034e-06, 'epoch': 0.24}
  1%|          | 774/78504 [27:24<24:26:55,  1.13s/it]  1%|          | 775/78504 [27:25<22:11:34,  1.03s/it]                                                      {'loss': 0.852, 'grad_norm': 7.139145374298096, 'learning_rate': 2.949942682460833e-06, 'epoch': 0.24}
  1%|          | 775/78504 [27:25<22:11:34,  1.03s/it]  1%|          | 776/78504 [27:34<69:31:17,  3.22s/it]                                                      {'loss': 0.3558, 'grad_norm': 1.4672679901123047, 'learning_rate': 2.9537638517386325e-06, 'epoch': 0.24}
  1%|          | 776/78504 [27:34<69:31:17,  3.22s/it]  1%|          | 777/78504 [27:37<70:28:33,  3.26s/it]                                                      {'loss': 0.2693, 'grad_norm': 0.8170671463012695, 'learning_rate': 2.9575850210164312e-06, 'epoch': 0.24}
  1%|          | 777/78504 [27:37<70:28:33,  3.26s/it]  1%|          | 778/78504 [27:39<65:58:40,  3.06s/it]                                                      {'loss': 0.2311, 'grad_norm': 0.7714478969573975, 'learning_rate': 2.9614061902942304e-06, 'epoch': 0.24}
  1%|          | 778/78504 [27:39<65:58:40,  3.06s/it]  1%|          | 779/78504 [27:42<63:09:51,  2.93s/it]                                                      {'loss': 0.2207, 'grad_norm': 0.9282224178314209, 'learning_rate': 2.965227359572029e-06, 'epoch': 0.24}
  1%|          | 779/78504 [27:42<63:09:51,  2.93s/it]  1%|          | 780/78504 [27:45<60:15:08,  2.79s/it]                                                      {'loss': 0.2219, 'grad_norm': 1.0686646699905396, 'learning_rate': 2.9690485288498283e-06, 'epoch': 0.24}
  1%|          | 780/78504 [27:45<60:15:08,  2.79s/it]  1%|          | 781/78504 [27:47<56:55:49,  2.64s/it]                                                      {'loss': 0.2068, 'grad_norm': 1.107957363128662, 'learning_rate': 2.972869698127627e-06, 'epoch': 0.24}
  1%|          | 781/78504 [27:47<56:55:49,  2.64s/it]  1%|          | 782/78504 [27:49<54:58:19,  2.55s/it]                                                      {'loss': 0.1731, 'grad_norm': 0.8315656185150146, 'learning_rate': 2.976690867405426e-06, 'epoch': 0.24}
  1%|          | 782/78504 [27:49<54:58:19,  2.55s/it]  1%|          | 783/78504 [27:51<52:04:29,  2.41s/it]                                                      {'loss': 0.2247, 'grad_norm': 1.289969801902771, 'learning_rate': 2.980512036683225e-06, 'epoch': 0.24}
  1%|          | 783/78504 [27:51<52:04:29,  2.41s/it]  1%|          | 784/78504 [27:53<50:41:19,  2.35s/it]                                                      {'loss': 0.2597, 'grad_norm': 1.00977623462677, 'learning_rate': 2.984333205961024e-06, 'epoch': 0.24}
  1%|          | 784/78504 [27:53<50:41:19,  2.35s/it]  1%|          | 785/78504 [27:56<49:19:59,  2.29s/it]                                                      {'loss': 0.2225, 'grad_norm': 2.032116413116455, 'learning_rate': 2.988154375238823e-06, 'epoch': 0.24}
  1%|          | 785/78504 [27:56<49:19:59,  2.29s/it]  1%|          | 786/78504 [27:58<47:29:18,  2.20s/it]                                                      {'loss': 0.2964, 'grad_norm': 1.5789105892181396, 'learning_rate': 2.9919755445166225e-06, 'epoch': 0.24}
  1%|          | 786/78504 [27:58<47:29:18,  2.20s/it]  1%|          | 787/78504 [28:00<45:42:00,  2.12s/it]                                                      {'loss': 0.2736, 'grad_norm': 1.3969404697418213, 'learning_rate': 2.995796713794421e-06, 'epoch': 0.24}
  1%|          | 787/78504 [28:00<45:42:00,  2.12s/it]  1%|          | 788/78504 [28:01<44:06:29,  2.04s/it]                                                      {'loss': 0.2605, 'grad_norm': 0.9456064105033875, 'learning_rate': 2.9996178830722204e-06, 'epoch': 0.24}
  1%|          | 788/78504 [28:01<44:06:29,  2.04s/it]  1%|          | 789/78504 [28:03<41:59:25,  1.95s/it]                                                      {'loss': 0.3205, 'grad_norm': 1.4224978685379028, 'learning_rate': 3.003439052350019e-06, 'epoch': 0.24}
  1%|          | 789/78504 [28:03<41:59:25,  1.95s/it]  1%|          | 790/78504 [28:05<40:49:12,  1.89s/it]                                                      {'loss': 0.3674, 'grad_norm': 1.534359097480774, 'learning_rate': 3.0072602216278183e-06, 'epoch': 0.24}
  1%|          | 790/78504 [28:05<40:49:12,  1.89s/it]  1%|          | 791/78504 [28:07<39:15:10,  1.82s/it]                                                      {'loss': 0.348, 'grad_norm': 2.2560229301452637, 'learning_rate': 3.011081390905617e-06, 'epoch': 0.24}
  1%|          | 791/78504 [28:07<39:15:10,  1.82s/it]  1%|          | 792/78504 [28:08<37:30:48,  1.74s/it]                                                      {'loss': 0.4247, 'grad_norm': 1.7111784219741821, 'learning_rate': 3.014902560183416e-06, 'epoch': 0.24}
  1%|          | 792/78504 [28:08<37:30:48,  1.74s/it]  1%|          | 793/78504 [28:10<35:31:15,  1.65s/it]                                                      {'loss': 0.4276, 'grad_norm': 1.5935587882995605, 'learning_rate': 3.018723729461215e-06, 'epoch': 0.24}
  1%|          | 793/78504 [28:10<35:31:15,  1.65s/it]  1%|          | 794/78504 [28:11<34:04:10,  1.58s/it]                                                      {'loss': 0.4284, 'grad_norm': 2.479442596435547, 'learning_rate': 3.022544898739014e-06, 'epoch': 0.24}
  1%|          | 794/78504 [28:11<34:04:10,  1.58s/it]  1%|          | 795/78504 [28:12<31:46:05,  1.47s/it]                                                      {'loss': 0.478, 'grad_norm': 2.3076531887054443, 'learning_rate': 3.0263660680168133e-06, 'epoch': 0.24}
  1%|          | 795/78504 [28:12<31:46:05,  1.47s/it]  1%|          | 796/78504 [28:13<29:34:06,  1.37s/it]                                                      {'loss': 0.4892, 'grad_norm': 2.6625897884368896, 'learning_rate': 3.0301872372946124e-06, 'epoch': 0.24}
  1%|          | 796/78504 [28:13<29:34:06,  1.37s/it]  1%|          | 797/78504 [28:14<27:47:28,  1.29s/it]                                                      {'loss': 0.5336, 'grad_norm': 4.701833724975586, 'learning_rate': 3.034008406572411e-06, 'epoch': 0.24}
  1%|          | 797/78504 [28:14<27:47:28,  1.29s/it]  1%|          | 798/78504 [28:16<26:58:52,  1.25s/it]                                                      {'loss': 0.604, 'grad_norm': 2.6905274391174316, 'learning_rate': 3.0378295758502104e-06, 'epoch': 0.24}
  1%|          | 798/78504 [28:16<26:58:52,  1.25s/it]  1%|          | 799/78504 [28:16<24:56:07,  1.16s/it]                                                      {'loss': 0.5587, 'grad_norm': 7.340642929077148, 'learning_rate': 3.041650745128009e-06, 'epoch': 0.24}
  1%|          | 799/78504 [28:17<24:56:07,  1.16s/it]  1%|          | 800/78504 [28:17<22:19:27,  1.03s/it]                                                      {'loss': 0.8292, 'grad_norm': 3.5030980110168457, 'learning_rate': 3.0454719144058083e-06, 'epoch': 0.24}
  1%|          | 800/78504 [28:17<22:19:27,  1.03s/it]  1%|          | 801/78504 [28:26<69:59:01,  3.24s/it]                                                      {'loss': 0.364, 'grad_norm': 1.3179982900619507, 'learning_rate': 3.049293083683607e-06, 'epoch': 0.24}
  1%|          | 801/78504 [28:26<69:59:01,  3.24s/it]  1%|          | 802/78504 [28:29<67:51:30,  3.14s/it]                                                      {'loss': 0.217, 'grad_norm': 0.7543867230415344, 'learning_rate': 3.053114252961406e-06, 'epoch': 0.25}
  1%|          | 802/78504 [28:29<67:51:30,  3.14s/it]  1%|          | 803/78504 [28:31<64:08:40,  2.97s/it]                                                      {'loss': 0.2064, 'grad_norm': 1.153267502784729, 'learning_rate': 3.056935422239205e-06, 'epoch': 0.25}
  1%|          | 803/78504 [28:31<64:08:40,  2.97s/it]  1%|          | 804/78504 [28:34<61:35:11,  2.85s/it]                                                      {'loss': 0.2234, 'grad_norm': 0.7060242891311646, 'learning_rate': 3.060756591517004e-06, 'epoch': 0.25}
  1%|          | 804/78504 [28:34<61:35:11,  2.85s/it]  1%|          | 805/78504 [28:36<59:19:36,  2.75s/it]                                                      {'loss': 0.1877, 'grad_norm': 1.5104851722717285, 'learning_rate': 3.0645777607948037e-06, 'epoch': 0.25}
  1%|          | 805/78504 [28:36<59:19:36,  2.75s/it]  1%|          | 806/78504 [28:39<57:16:09,  2.65s/it]                                                      {'loss': 0.2213, 'grad_norm': 1.4368271827697754, 'learning_rate': 3.0683989300726024e-06, 'epoch': 0.25}
  1%|          | 806/78504 [28:39<57:16:09,  2.65s/it]  1%|          | 807/78504 [28:41<55:08:37,  2.56s/it]                                                      {'loss': 0.1944, 'grad_norm': 0.9648993015289307, 'learning_rate': 3.0722200993504016e-06, 'epoch': 0.25}
  1%|          | 807/78504 [28:41<55:08:37,  2.56s/it]  1%|          | 808/78504 [28:43<53:32:39,  2.48s/it]                                                      {'loss': 0.217, 'grad_norm': 0.8218436241149902, 'learning_rate': 3.0760412686282003e-06, 'epoch': 0.25}
  1%|          | 808/78504 [28:43<53:32:39,  2.48s/it]  1%|          | 809/78504 [28:45<51:38:57,  2.39s/it]                                                      {'loss': 0.1939, 'grad_norm': 0.8687562942504883, 'learning_rate': 3.0798624379059995e-06, 'epoch': 0.25}
  1%|          | 809/78504 [28:45<51:38:57,  2.39s/it]  1%|          | 810/78504 [28:48<50:14:31,  2.33s/it]                                                      {'loss': 0.2352, 'grad_norm': 1.039297342300415, 'learning_rate': 3.0836836071837983e-06, 'epoch': 0.25}
  1%|          | 810/78504 [28:48<50:14:31,  2.33s/it]  1%|          | 811/78504 [28:49<47:17:07,  2.19s/it]                                                      {'loss': 0.2073, 'grad_norm': 0.8904309868812561, 'learning_rate': 3.0875047764615974e-06, 'epoch': 0.25}
  1%|          | 811/78504 [28:50<47:17:07,  2.19s/it]  1%|          | 812/78504 [28:51<46:03:29,  2.13s/it]                                                      {'loss': 0.2428, 'grad_norm': 1.0772004127502441, 'learning_rate': 3.091325945739396e-06, 'epoch': 0.25}
  1%|          | 812/78504 [28:52<46:03:29,  2.13s/it]  1%|          | 813/78504 [28:53<44:46:55,  2.08s/it]                                                      {'loss': 0.2647, 'grad_norm': 1.0597343444824219, 'learning_rate': 3.0951471150171953e-06, 'epoch': 0.25}
  1%|          | 813/78504 [28:53<44:46:55,  2.08s/it]  1%|          | 814/78504 [28:55<43:23:10,  2.01s/it]                                                      {'loss': 0.311, 'grad_norm': 1.2086689472198486, 'learning_rate': 3.098968284294994e-06, 'epoch': 0.25}
  1%|          | 814/78504 [28:55<43:23:10,  2.01s/it]  1%|          | 815/78504 [28:57<41:56:26,  1.94s/it]                                                      {'loss': 0.3497, 'grad_norm': 1.0789388418197632, 'learning_rate': 3.1027894535727937e-06, 'epoch': 0.25}
  1%|          | 815/78504 [28:57<41:56:26,  1.94s/it]  1%|          | 816/78504 [28:59<39:37:01,  1.84s/it]                                                      {'loss': 0.3455, 'grad_norm': 2.0154805183410645, 'learning_rate': 3.1066106228505924e-06, 'epoch': 0.25}
  1%|          | 816/78504 [28:59<39:37:01,  1.84s/it]  1%|          | 817/78504 [29:00<37:31:46,  1.74s/it]                                                      {'loss': 0.3783, 'grad_norm': 1.539566159248352, 'learning_rate': 3.1104317921283916e-06, 'epoch': 0.25}
  1%|          | 817/78504 [29:00<37:31:46,  1.74s/it]  1%|          | 818/78504 [29:02<36:05:53,  1.67s/it]                                                      {'loss': 0.3805, 'grad_norm': 1.6037242412567139, 'learning_rate': 3.1142529614061903e-06, 'epoch': 0.25}
  1%|          | 818/78504 [29:02<36:05:53,  1.67s/it]  1%|          | 819/78504 [29:03<34:31:44,  1.60s/it]                                                      {'loss': 0.4398, 'grad_norm': 3.7115602493286133, 'learning_rate': 3.1180741306839895e-06, 'epoch': 0.25}
  1%|          | 819/78504 [29:03<34:31:44,  1.60s/it]  1%|          | 820/78504 [29:04<32:29:19,  1.51s/it]                                                      {'loss': 0.3988, 'grad_norm': 2.4537336826324463, 'learning_rate': 3.1218952999617882e-06, 'epoch': 0.25}
  1%|          | 820/78504 [29:04<32:29:19,  1.51s/it]  1%|          | 821/78504 [29:06<30:31:21,  1.41s/it]                                                      {'loss': 0.4966, 'grad_norm': 1.8688207864761353, 'learning_rate': 3.1257164692395874e-06, 'epoch': 0.25}
  1%|          | 821/78504 [29:06<30:31:21,  1.41s/it]  1%|          | 822/78504 [29:07<28:26:50,  1.32s/it]                                                      {'loss': 0.4865, 'grad_norm': 3.0661752223968506, 'learning_rate': 3.129537638517386e-06, 'epoch': 0.25}
  1%|          | 822/78504 [29:07<28:26:50,  1.32s/it]  1%|          | 823/78504 [29:08<26:44:07,  1.24s/it]                                                      {'loss': 0.5205, 'grad_norm': 2.264585256576538, 'learning_rate': 3.1333588077951853e-06, 'epoch': 0.25}
  1%|          | 823/78504 [29:08<26:44:07,  1.24s/it]  1%|          | 824/78504 [29:09<24:49:03,  1.15s/it]                                                      {'loss': 0.595, 'grad_norm': 4.2344651222229, 'learning_rate': 3.137179977072984e-06, 'epoch': 0.25}
  1%|          | 824/78504 [29:09<24:49:03,  1.15s/it]  1%|          | 825/78504 [29:09<22:28:14,  1.04s/it]                                                      {'loss': 0.8322, 'grad_norm': 8.463536262512207, 'learning_rate': 3.1410011463507837e-06, 'epoch': 0.25}
  1%|          | 825/78504 [29:10<22:28:14,  1.04s/it]  1%|          | 826/78504 [29:19<76:36:24,  3.55s/it]                                                      {'loss': 0.3507, 'grad_norm': 1.8538283109664917, 'learning_rate': 3.1448223156285824e-06, 'epoch': 0.25}
  1%|          | 826/78504 [29:19<76:36:24,  3.55s/it]  1%|          | 827/78504 [29:22<75:24:49,  3.50s/it]                                                      {'loss': 0.2179, 'grad_norm': 1.0638113021850586, 'learning_rate': 3.1486434849063816e-06, 'epoch': 0.25}
  1%|          | 827/78504 [29:22<75:24:49,  3.50s/it]  1%|          | 828/78504 [29:25<71:45:17,  3.33s/it]                                                      {'loss': 0.2242, 'grad_norm': 0.7938324213027954, 'learning_rate': 3.1524646541841803e-06, 'epoch': 0.25}
  1%|          | 828/78504 [29:25<71:45:17,  3.33s/it]  1%|          | 829/78504 [29:28<66:55:11,  3.10s/it]                                                      {'loss': 0.2132, 'grad_norm': 0.7650423645973206, 'learning_rate': 3.1562858234619795e-06, 'epoch': 0.25}
  1%|          | 829/78504 [29:28<66:55:11,  3.10s/it]  1%|          | 830/78504 [29:30<63:01:20,  2.92s/it]                                                      {'loss': 0.1634, 'grad_norm': 1.0319920778274536, 'learning_rate': 3.1601069927397782e-06, 'epoch': 0.25}
  1%|          | 830/78504 [29:30<63:01:20,  2.92s/it]  1%|          | 831/78504 [29:33<60:03:07,  2.78s/it]                                                      {'loss': 0.2156, 'grad_norm': 0.7111336588859558, 'learning_rate': 3.1639281620175774e-06, 'epoch': 0.25}
  1%|          | 831/78504 [29:33<60:03:07,  2.78s/it]  1%|          | 832/78504 [29:35<57:06:18,  2.65s/it]                                                      {'loss': 0.1762, 'grad_norm': 2.026247024536133, 'learning_rate': 3.167749331295376e-06, 'epoch': 0.25}
  1%|          | 832/78504 [29:35<57:06:18,  2.65s/it]  1%|          | 833/78504 [29:37<54:58:43,  2.55s/it]                                                      {'loss': 0.2227, 'grad_norm': 0.9108959436416626, 'learning_rate': 3.1715705005731753e-06, 'epoch': 0.25}
  1%|          | 833/78504 [29:37<54:58:43,  2.55s/it]  1%|          | 834/78504 [29:40<52:48:26,  2.45s/it]                                                      {'loss': 0.1921, 'grad_norm': 0.8213369846343994, 'learning_rate': 3.1753916698509745e-06, 'epoch': 0.25}
  1%|          | 834/78504 [29:40<52:48:26,  2.45s/it]  1%|          | 835/78504 [29:42<50:59:03,  2.36s/it]                                                      {'loss': 0.2207, 'grad_norm': 2.320335626602173, 'learning_rate': 3.1792128391287737e-06, 'epoch': 0.26}
  1%|          | 835/78504 [29:42<50:59:03,  2.36s/it]  1%|          | 836/78504 [29:44<47:43:54,  2.21s/it]                                                      {'loss': 0.2443, 'grad_norm': 1.2573775053024292, 'learning_rate': 3.1830340084065724e-06, 'epoch': 0.26}
  1%|          | 836/78504 [29:44<47:43:54,  2.21s/it]  1%|          | 837/78504 [29:46<46:18:14,  2.15s/it]                                                      {'loss': 0.2318, 'grad_norm': 1.0866658687591553, 'learning_rate': 3.1868551776843716e-06, 'epoch': 0.26}
  1%|          | 837/78504 [29:46<46:18:14,  2.15s/it]  1%|          | 838/78504 [29:48<44:51:10,  2.08s/it]                                                      {'loss': 0.2299, 'grad_norm': 0.9015803933143616, 'learning_rate': 3.1906763469621707e-06, 'epoch': 0.26}
  1%|          | 838/78504 [29:48<44:51:10,  2.08s/it]  1%|          | 839/78504 [29:49<43:23:32,  2.01s/it]                                                      {'loss': 0.2925, 'grad_norm': 1.0368118286132812, 'learning_rate': 3.1944975162399695e-06, 'epoch': 0.26}
  1%|          | 839/78504 [29:49<43:23:32,  2.01s/it]  1%|          | 840/78504 [29:51<41:47:53,  1.94s/it]                                                      {'loss': 0.3041, 'grad_norm': 1.1617902517318726, 'learning_rate': 3.1983186855177686e-06, 'epoch': 0.26}
  1%|          | 840/78504 [29:51<41:47:53,  1.94s/it]  1%|          | 841/78504 [29:53<39:58:17,  1.85s/it]                                                      {'loss': 0.3221, 'grad_norm': 2.747490167617798, 'learning_rate': 3.2021398547955674e-06, 'epoch': 0.26}
  1%|          | 841/78504 [29:53<39:58:17,  1.85s/it]  1%|          | 842/78504 [29:54<37:57:02,  1.76s/it]                                                      {'loss': 0.3348, 'grad_norm': 1.3473057746887207, 'learning_rate': 3.2059610240733666e-06, 'epoch': 0.26}
  1%|          | 842/78504 [29:54<37:57:02,  1.76s/it]  1%|          | 843/78504 [29:56<36:03:40,  1.67s/it]                                                      {'loss': 0.4155, 'grad_norm': 1.6611056327819824, 'learning_rate': 3.2097821933511653e-06, 'epoch': 0.26}
  1%|          | 843/78504 [29:56<36:03:40,  1.67s/it]  1%|          | 844/78504 [29:57<34:19:24,  1.59s/it]                                                      {'loss': 0.4365, 'grad_norm': 1.9074817895889282, 'learning_rate': 3.213603362628965e-06, 'epoch': 0.26}
  1%|          | 844/78504 [29:57<34:19:24,  1.59s/it]  1%|          | 845/78504 [29:59<32:20:42,  1.50s/it]                                                      {'loss': 0.4364, 'grad_norm': 2.7206919193267822, 'learning_rate': 3.2174245319067636e-06, 'epoch': 0.26}
  1%|          | 845/78504 [29:59<32:20:42,  1.50s/it]  1%|          | 846/78504 [30:00<30:04:15,  1.39s/it]                                                      {'loss': 0.4516, 'grad_norm': 1.6449638605117798, 'learning_rate': 3.221245701184563e-06, 'epoch': 0.26}
  1%|          | 846/78504 [30:00<30:04:15,  1.39s/it]  1%|          | 847/78504 [30:01<28:08:03,  1.30s/it]                                                      {'loss': 0.4904, 'grad_norm': 2.88694167137146, 'learning_rate': 3.2250668704623616e-06, 'epoch': 0.26}
  1%|          | 847/78504 [30:01<28:08:03,  1.30s/it]  1%|          | 848/78504 [30:02<26:07:01,  1.21s/it]                                                      {'loss': 0.5572, 'grad_norm': 3.1289596557617188, 'learning_rate': 3.2288880397401607e-06, 'epoch': 0.26}
  1%|          | 848/78504 [30:02<26:07:01,  1.21s/it]  1%|          | 849/78504 [30:03<24:20:39,  1.13s/it]                                                      {'loss': 0.5783, 'grad_norm': 6.177978992462158, 'learning_rate': 3.2327092090179595e-06, 'epoch': 0.26}
  1%|          | 849/78504 [30:03<24:20:39,  1.13s/it]  1%|          | 850/78504 [30:03<22:06:30,  1.02s/it]                                                      {'loss': 0.68, 'grad_norm': 3.8244118690490723, 'learning_rate': 3.2365303782957586e-06, 'epoch': 0.26}
  1%|          | 850/78504 [30:03<22:06:30,  1.02s/it]  1%|          | 851/78504 [30:10<60:43:18,  2.82s/it]                                                      {'loss': 0.2944, 'grad_norm': 0.9537702798843384, 'learning_rate': 3.2403515475735574e-06, 'epoch': 0.26}
  1%|          | 851/78504 [30:10<60:43:18,  2.82s/it]  1%|          | 852/78504 [30:13<61:20:25,  2.84s/it]                                                      {'loss': 0.2568, 'grad_norm': 1.4670441150665283, 'learning_rate': 3.2441727168513565e-06, 'epoch': 0.26}
  1%|          | 852/78504 [30:13<61:20:25,  2.84s/it]  1%|          | 853/78504 [30:16<61:53:54,  2.87s/it]                                                      {'loss': 0.1983, 'grad_norm': 0.696590781211853, 'learning_rate': 3.2479938861291553e-06, 'epoch': 0.26}
  1%|          | 853/78504 [30:16<61:53:54,  2.87s/it]  1%|          | 854/78504 [30:19<60:02:17,  2.78s/it]                                                      {'loss': 0.1664, 'grad_norm': 0.7362313866615295, 'learning_rate': 3.251815055406955e-06, 'epoch': 0.26}
  1%|          | 854/78504 [30:19<60:02:17,  2.78s/it]  1%|          | 855/78504 [30:21<58:04:54,  2.69s/it]                                                      {'loss': 0.1834, 'grad_norm': 0.8481813669204712, 'learning_rate': 3.2556362246847536e-06, 'epoch': 0.26}
  1%|          | 855/78504 [30:21<58:04:54,  2.69s/it]  1%|          | 856/78504 [30:24<56:23:37,  2.61s/it]                                                      {'loss': 0.173, 'grad_norm': 1.6507830619812012, 'learning_rate': 3.259457393962553e-06, 'epoch': 0.26}
  1%|          | 856/78504 [30:24<56:23:37,  2.61s/it]  1%|          | 857/78504 [30:26<54:30:47,  2.53s/it]                                                      {'loss': 0.1679, 'grad_norm': 0.78886878490448, 'learning_rate': 3.2632785632403515e-06, 'epoch': 0.26}
  1%|          | 857/78504 [30:26<54:30:47,  2.53s/it]  1%|          | 858/78504 [30:28<51:49:27,  2.40s/it]                                                      {'loss': 0.1896, 'grad_norm': 1.0186578035354614, 'learning_rate': 3.2670997325181507e-06, 'epoch': 0.26}
  1%|          | 858/78504 [30:28<51:49:27,  2.40s/it]  1%|          | 859/78504 [30:30<50:25:28,  2.34s/it]                                                      {'loss': 0.2128, 'grad_norm': 0.9392130970954895, 'learning_rate': 3.2709209017959495e-06, 'epoch': 0.26}
  1%|          | 859/78504 [30:30<50:25:28,  2.34s/it]  1%|          | 860/78504 [30:33<49:22:10,  2.29s/it]                                                      {'loss': 0.2193, 'grad_norm': 0.9970370531082153, 'learning_rate': 3.2747420710737486e-06, 'epoch': 0.26}
  1%|          | 860/78504 [30:33<49:22:10,  2.29s/it]  1%|          | 861/78504 [30:35<47:37:23,  2.21s/it]                                                      {'loss': 0.247, 'grad_norm': 1.0239818096160889, 'learning_rate': 3.2785632403515474e-06, 'epoch': 0.26}
  1%|          | 861/78504 [30:35<47:37:23,  2.21s/it]  1%|          | 862/78504 [30:37<46:08:47,  2.14s/it]                                                      {'loss': 0.213, 'grad_norm': 1.439717411994934, 'learning_rate': 3.2823844096293465e-06, 'epoch': 0.26}
  1%|          | 862/78504 [30:37<46:08:47,  2.14s/it]  1%|          | 863/78504 [30:39<44:43:38,  2.07s/it]                                                      {'loss': 0.2579, 'grad_norm': 1.3641846179962158, 'learning_rate': 3.2862055789071457e-06, 'epoch': 0.26}
  1%|          | 863/78504 [30:39<44:43:38,  2.07s/it]  1%|          | 864/78504 [30:40<43:30:51,  2.02s/it]                                                      {'loss': 0.2629, 'grad_norm': 1.1911258697509766, 'learning_rate': 3.290026748184945e-06, 'epoch': 0.26}
  1%|          | 864/78504 [30:40<43:30:51,  2.02s/it]  1%|          | 865/78504 [30:42<41:56:59,  1.95s/it]                                                      {'loss': 0.3565, 'grad_norm': 1.9084525108337402, 'learning_rate': 3.2938479174627436e-06, 'epoch': 0.26}
  1%|          | 865/78504 [30:42<41:56:59,  1.95s/it]  1%|          | 866/78504 [30:44<39:43:20,  1.84s/it]                                                      {'loss': 0.3464, 'grad_norm': 1.4821032285690308, 'learning_rate': 3.2976690867405428e-06, 'epoch': 0.26}
  1%|          | 866/78504 [30:44<39:43:20,  1.84s/it]  1%|          | 867/78504 [30:45<37:45:50,  1.75s/it]                                                      {'loss': 0.3148, 'grad_norm': 1.6723273992538452, 'learning_rate': 3.3014902560183415e-06, 'epoch': 0.27}
  1%|          | 867/78504 [30:45<37:45:50,  1.75s/it]  1%|          | 868/78504 [30:47<35:57:16,  1.67s/it]                                                      {'loss': 0.4308, 'grad_norm': 2.078939914703369, 'learning_rate': 3.3053114252961407e-06, 'epoch': 0.27}
  1%|          | 868/78504 [30:47<35:57:16,  1.67s/it]  1%|          | 869/78504 [30:48<34:19:47,  1.59s/it]                                                      {'loss': 0.4124, 'grad_norm': 1.4272770881652832, 'learning_rate': 3.30913259457394e-06, 'epoch': 0.27}
  1%|          | 869/78504 [30:48<34:19:47,  1.59s/it]  1%|          | 870/78504 [30:49<32:17:54,  1.50s/it]                                                      {'loss': 0.434, 'grad_norm': 1.9923712015151978, 'learning_rate': 3.3129537638517386e-06, 'epoch': 0.27}
  1%|          | 870/78504 [30:49<32:17:54,  1.50s/it]  1%|          | 871/78504 [30:51<30:01:34,  1.39s/it]                                                      {'loss': 0.4464, 'grad_norm': 2.1373660564422607, 'learning_rate': 3.3167749331295378e-06, 'epoch': 0.27}
  1%|          | 871/78504 [30:51<30:01:34,  1.39s/it]  1%|          | 872/78504 [30:52<28:19:05,  1.31s/it]                                                      {'loss': 0.4647, 'grad_norm': 3.2901558876037598, 'learning_rate': 3.3205961024073365e-06, 'epoch': 0.27}
  1%|          | 872/78504 [30:52<28:19:05,  1.31s/it]  1%|          | 873/78504 [30:53<26:39:26,  1.24s/it]                                                      {'loss': 0.5263, 'grad_norm': 2.7022202014923096, 'learning_rate': 3.324417271685136e-06, 'epoch': 0.27}
  1%|          | 873/78504 [30:53<26:39:26,  1.24s/it]  1%|          | 874/78504 [30:54<24:44:46,  1.15s/it]                                                      {'loss': 0.6329, 'grad_norm': 2.460059642791748, 'learning_rate': 3.328238440962935e-06, 'epoch': 0.27}
  1%|          | 874/78504 [30:54<24:44:46,  1.15s/it]  1%|          | 875/78504 [30:55<22:25:49,  1.04s/it]                                                      {'loss': 0.7567, 'grad_norm': 3.3876047134399414, 'learning_rate': 3.332059610240734e-06, 'epoch': 0.27}
  1%|          | 875/78504 [30:55<22:25:49,  1.04s/it]  1%|          | 876/78504 [31:02<66:21:49,  3.08s/it]                                                      {'loss': 0.325, 'grad_norm': 2.0188682079315186, 'learning_rate': 3.3358807795185328e-06, 'epoch': 0.27}
  1%|          | 876/78504 [31:02<66:21:49,  3.08s/it]  1%|          | 877/78504 [31:06<67:35:38,  3.13s/it]                                                      {'loss': 0.2071, 'grad_norm': 1.1262519359588623, 'learning_rate': 3.339701948796332e-06, 'epoch': 0.27}
  1%|          | 877/78504 [31:06<67:35:38,  3.13s/it]  1%|          | 878/78504 [31:09<66:36:51,  3.09s/it]                                                      {'loss': 0.2045, 'grad_norm': 0.7505500912666321, 'learning_rate': 3.3435231180741307e-06, 'epoch': 0.27}
  1%|          | 878/78504 [31:09<66:36:51,  3.09s/it]  1%|          | 879/78504 [31:11<63:35:23,  2.95s/it]                                                      {'loss': 0.2084, 'grad_norm': 1.2032933235168457, 'learning_rate': 3.34734428735193e-06, 'epoch': 0.27}
  1%|          | 879/78504 [31:11<63:35:23,  2.95s/it]  1%|          | 880/78504 [31:14<60:39:28,  2.81s/it]                                                      {'loss': 0.2033, 'grad_norm': 0.9491597414016724, 'learning_rate': 3.3511654566297286e-06, 'epoch': 0.27}
  1%|          | 880/78504 [31:14<60:39:28,  2.81s/it]  1%|          | 881/78504 [31:16<57:44:22,  2.68s/it]                                                      {'loss': 0.2052, 'grad_norm': 0.8610473871231079, 'learning_rate': 3.3549866259075278e-06, 'epoch': 0.27}
  1%|          | 881/78504 [31:16<57:44:22,  2.68s/it]  1%|          | 882/78504 [31:18<55:29:32,  2.57s/it]                                                      {'loss': 0.2134, 'grad_norm': 0.822860062122345, 'learning_rate': 3.3588077951853265e-06, 'epoch': 0.27}
  1%|          | 882/78504 [31:18<55:29:32,  2.57s/it]  1%|          | 883/78504 [31:21<53:30:17,  2.48s/it]                                                      {'loss': 0.1746, 'grad_norm': 0.7616949081420898, 'learning_rate': 3.362628964463126e-06, 'epoch': 0.27}
  1%|          | 883/78504 [31:21<53:30:17,  2.48s/it]  1%|          | 884/78504 [31:23<51:40:40,  2.40s/it]                                                      {'loss': 0.2254, 'grad_norm': 1.551196575164795, 'learning_rate': 3.366450133740925e-06, 'epoch': 0.27}
  1%|          | 884/78504 [31:23<51:40:40,  2.40s/it]  1%|          | 885/78504 [31:25<48:46:23,  2.26s/it]                                                      {'loss': 0.1686, 'grad_norm': 0.863467812538147, 'learning_rate': 3.370271303018724e-06, 'epoch': 0.27}
  1%|          | 885/78504 [31:25<48:46:23,  2.26s/it]  1%|          | 886/78504 [31:27<47:00:44,  2.18s/it]                                                      {'loss': 0.2352, 'grad_norm': 1.057520866394043, 'learning_rate': 3.3740924722965228e-06, 'epoch': 0.27}
  1%|          | 886/78504 [31:27<47:00:44,  2.18s/it]  1%|          | 887/78504 [31:29<44:36:09,  2.07s/it]                                                      {'loss': 0.2625, 'grad_norm': 1.1597425937652588, 'learning_rate': 3.377913641574322e-06, 'epoch': 0.27}
  1%|          | 887/78504 [31:29<44:36:09,  2.07s/it]  1%|          | 888/78504 [31:31<43:25:05,  2.01s/it]                                                      {'loss': 0.2388, 'grad_norm': 1.1816015243530273, 'learning_rate': 3.3817348108521207e-06, 'epoch': 0.27}
  1%|          | 888/78504 [31:31<43:25:05,  2.01s/it]  1%|          | 889/78504 [31:32<41:11:04,  1.91s/it]                                                      {'loss': 0.2969, 'grad_norm': 1.0564309358596802, 'learning_rate': 3.38555598012992e-06, 'epoch': 0.27}
  1%|          | 889/78504 [31:32<41:11:04,  1.91s/it]  1%|          | 890/78504 [31:34<40:23:54,  1.87s/it]                                                      {'loss': 0.3554, 'grad_norm': 1.3525733947753906, 'learning_rate': 3.3893771494077186e-06, 'epoch': 0.27}
  1%|          | 890/78504 [31:34<40:23:54,  1.87s/it]  1%|          | 891/78504 [31:36<38:16:49,  1.78s/it]                                                      {'loss': 0.3603, 'grad_norm': 1.5584194660186768, 'learning_rate': 3.3931983186855178e-06, 'epoch': 0.27}
  1%|          | 891/78504 [31:36<38:16:49,  1.78s/it]  1%|          | 892/78504 [31:37<36:29:31,  1.69s/it]                                                      {'loss': 0.3663, 'grad_norm': 1.3594835996627808, 'learning_rate': 3.3970194879633165e-06, 'epoch': 0.27}
  1%|          | 892/78504 [31:37<36:29:31,  1.69s/it]  1%|          | 893/78504 [31:39<35:04:20,  1.63s/it]                                                      {'loss': 0.4149, 'grad_norm': 1.8705556392669678, 'learning_rate': 3.400840657241116e-06, 'epoch': 0.27}
  1%|          | 893/78504 [31:39<35:04:20,  1.63s/it]  1%|          | 894/78504 [31:40<33:43:37,  1.56s/it]                                                      {'loss': 0.4358, 'grad_norm': 1.5554174184799194, 'learning_rate': 3.404661826518915e-06, 'epoch': 0.27}
  1%|          | 894/78504 [31:40<33:43:37,  1.56s/it]  1%|          | 895/78504 [31:41<31:32:28,  1.46s/it]                                                      {'loss': 0.383, 'grad_norm': 1.8985402584075928, 'learning_rate': 3.408482995796714e-06, 'epoch': 0.27}
  1%|          | 895/78504 [31:41<31:32:28,  1.46s/it]  1%|          | 896/78504 [31:42<29:52:26,  1.39s/it]                                                      {'loss': 0.4782, 'grad_norm': 1.7365281581878662, 'learning_rate': 3.4123041650745127e-06, 'epoch': 0.27}
  1%|          | 896/78504 [31:42<29:52:26,  1.39s/it]  1%|          | 897/78504 [31:43<28:01:05,  1.30s/it]                                                      {'loss': 0.4895, 'grad_norm': 1.9615099430084229, 'learning_rate': 3.416125334352312e-06, 'epoch': 0.27}
  1%|          | 897/78504 [31:43<28:01:05,  1.30s/it]  1%|          | 898/78504 [31:44<26:07:33,  1.21s/it]                                                      {'loss': 0.5149, 'grad_norm': 4.274942398071289, 'learning_rate': 3.4199465036301107e-06, 'epoch': 0.27}
  1%|          | 898/78504 [31:44<26:07:33,  1.21s/it]  1%|          | 899/78504 [31:45<24:19:02,  1.13s/it]                                                      {'loss': 0.563, 'grad_norm': 3.709667921066284, 'learning_rate': 3.42376767290791e-06, 'epoch': 0.27}
  1%|          | 899/78504 [31:45<24:19:02,  1.13s/it]  1%|          | 900/78504 [31:46<22:02:59,  1.02s/it]                                                      {'loss': 0.5919, 'grad_norm': 3.3592917919158936, 'learning_rate': 3.427588842185709e-06, 'epoch': 0.28}
  1%|          | 900/78504 [31:46<22:02:59,  1.02s/it]  1%|          | 901/78504 [31:55<72:41:01,  3.37s/it]                                                      {'loss': 0.3236, 'grad_norm': 1.4470044374465942, 'learning_rate': 3.4314100114635077e-06, 'epoch': 0.28}
  1%|          | 901/78504 [31:55<72:41:01,  3.37s/it]  1%|          | 902/78504 [31:58<71:58:12,  3.34s/it]                                                      {'loss': 0.2133, 'grad_norm': 2.599872589111328, 'learning_rate': 3.4352311807413073e-06, 'epoch': 0.28}
  1%|          | 902/78504 [31:58<71:58:12,  3.34s/it]  1%|          | 903/78504 [32:01<69:52:58,  3.24s/it]                                                      {'loss': 0.1789, 'grad_norm': 0.6367613673210144, 'learning_rate': 3.439052350019106e-06, 'epoch': 0.28}
  1%|          | 903/78504 [32:01<69:52:58,  3.24s/it]  1%|          | 904/78504 [32:04<65:41:06,  3.05s/it]                                                      {'loss': 0.1785, 'grad_norm': 0.6760447025299072, 'learning_rate': 3.4428735192969052e-06, 'epoch': 0.28}
  1%|          | 904/78504 [32:04<65:41:06,  3.05s/it]  1%|          | 905/78504 [32:06<61:14:45,  2.84s/it]                                                      {'loss': 0.1787, 'grad_norm': 1.3422507047653198, 'learning_rate': 3.446694688574704e-06, 'epoch': 0.28}
  1%|          | 905/78504 [32:06<61:14:45,  2.84s/it]  1%|          | 906/78504 [32:09<57:31:02,  2.67s/it]                                                      {'loss': 0.1827, 'grad_norm': 1.0021319389343262, 'learning_rate': 3.450515857852503e-06, 'epoch': 0.28}
  1%|          | 906/78504 [32:09<57:31:02,  2.67s/it]  1%|          | 907/78504 [32:11<55:22:19,  2.57s/it]                                                      {'loss': 0.1539, 'grad_norm': 0.9093711376190186, 'learning_rate': 3.454337027130302e-06, 'epoch': 0.28}
  1%|          | 907/78504 [32:11<55:22:19,  2.57s/it]  1%|          | 908/78504 [32:13<52:17:14,  2.43s/it]                                                      {'loss': 0.1866, 'grad_norm': 0.9904459714889526, 'learning_rate': 3.458158196408101e-06, 'epoch': 0.28}
  1%|          | 908/78504 [32:13<52:17:14,  2.43s/it]  1%|          | 909/78504 [32:15<49:50:03,  2.31s/it]                                                      {'loss': 0.3031, 'grad_norm': 1.0212785005569458, 'learning_rate': 3.4619793656859e-06, 'epoch': 0.28}
  1%|          | 909/78504 [32:15<49:50:03,  2.31s/it]  1%|          | 910/78504 [32:17<48:44:02,  2.26s/it]                                                      {'loss': 0.2428, 'grad_norm': 1.0360158681869507, 'learning_rate': 3.465800534963699e-06, 'epoch': 0.28}
  1%|          | 910/78504 [32:17<48:44:02,  2.26s/it]  1%|          | 911/78504 [32:19<47:09:21,  2.19s/it]                                                      {'loss': 0.2287, 'grad_norm': 0.8007262945175171, 'learning_rate': 3.4696217042414977e-06, 'epoch': 0.28}
  1%|          | 911/78504 [32:19<47:09:21,  2.19s/it]  1%|          | 912/78504 [32:21<44:44:26,  2.08s/it]                                                      {'loss': 0.1924, 'grad_norm': 0.8959519863128662, 'learning_rate': 3.4734428735192973e-06, 'epoch': 0.28}
  1%|          | 912/78504 [32:21<44:44:26,  2.08s/it]  1%|          | 913/78504 [32:23<43:26:05,  2.02s/it]                                                      {'loss': 0.248, 'grad_norm': 1.0466686487197876, 'learning_rate': 3.477264042797096e-06, 'epoch': 0.28}
  1%|          | 913/78504 [32:23<43:26:05,  2.02s/it]  1%|          | 914/78504 [32:25<42:14:32,  1.96s/it]                                                      {'loss': 0.3001, 'grad_norm': 1.3770745992660522, 'learning_rate': 3.4810852120748952e-06, 'epoch': 0.28}
  1%|          | 914/78504 [32:25<42:14:32,  1.96s/it]  1%|          | 915/78504 [32:26<40:45:06,  1.89s/it]                                                      {'loss': 0.2705, 'grad_norm': 1.1539194583892822, 'learning_rate': 3.484906381352694e-06, 'epoch': 0.28}
  1%|          | 915/78504 [32:26<40:45:06,  1.89s/it]  1%|          | 916/78504 [32:28<39:09:34,  1.82s/it]                                                      {'loss': 0.3735, 'grad_norm': 2.576812267303467, 'learning_rate': 3.488727550630493e-06, 'epoch': 0.28}
  1%|          | 916/78504 [32:28<39:09:34,  1.82s/it]  1%|          | 917/78504 [32:30<37:14:22,  1.73s/it]                                                      {'loss': 0.3831, 'grad_norm': 1.3034688234329224, 'learning_rate': 3.492548719908292e-06, 'epoch': 0.28}
  1%|          | 917/78504 [32:30<37:14:22,  1.73s/it]  1%|          | 918/78504 [32:31<35:18:15,  1.64s/it]                                                      {'loss': 0.3278, 'grad_norm': 3.0693068504333496, 'learning_rate': 3.496369889186091e-06, 'epoch': 0.28}
  1%|          | 918/78504 [32:31<35:18:15,  1.64s/it]  1%|          | 919/78504 [32:32<33:49:58,  1.57s/it]                                                      {'loss': 0.4466, 'grad_norm': 1.5301369428634644, 'learning_rate': 3.50019105846389e-06, 'epoch': 0.28}
  1%|          | 919/78504 [32:32<33:49:58,  1.57s/it]  1%|          | 920/78504 [32:34<31:59:09,  1.48s/it]                                                      {'loss': 0.3631, 'grad_norm': 1.3439732789993286, 'learning_rate': 3.504012227741689e-06, 'epoch': 0.28}
  1%|          | 920/78504 [32:34<31:59:09,  1.48s/it]  1%|          | 921/78504 [32:35<29:45:08,  1.38s/it]                                                      {'loss': 0.372, 'grad_norm': 1.6414856910705566, 'learning_rate': 3.5078333970194877e-06, 'epoch': 0.28}
  1%|          | 921/78504 [32:35<29:45:08,  1.38s/it]  1%|          | 922/78504 [32:36<27:55:33,  1.30s/it]                                                      {'loss': 0.4684, 'grad_norm': 1.836067795753479, 'learning_rate': 3.5116545662972873e-06, 'epoch': 0.28}
  1%|          | 922/78504 [32:36<27:55:33,  1.30s/it]  1%|          | 923/78504 [32:37<25:58:53,  1.21s/it]                                                      {'loss': 0.3979, 'grad_norm': 1.9536476135253906, 'learning_rate': 3.515475735575086e-06, 'epoch': 0.28}
  1%|          | 923/78504 [32:37<25:58:53,  1.21s/it]  1%|          | 924/78504 [32:38<24:16:45,  1.13s/it]                                                      {'loss': 0.593, 'grad_norm': 2.660726547241211, 'learning_rate': 3.5192969048528852e-06, 'epoch': 0.28}
  1%|          | 924/78504 [32:38<24:16:45,  1.13s/it]  1%|          | 925/78504 [32:39<22:11:17,  1.03s/it]                                                      {'loss': 0.6554, 'grad_norm': 3.781505823135376, 'learning_rate': 3.523118074130684e-06, 'epoch': 0.28}
  1%|          | 925/78504 [32:39<22:11:17,  1.03s/it]  1%|          | 926/78504 [32:48<77:49:17,  3.61s/it]                                                      {'loss': 0.28, 'grad_norm': 1.0426303148269653, 'learning_rate': 3.526939243408483e-06, 'epoch': 0.28}
  1%|          | 926/78504 [32:48<77:49:17,  3.61s/it]  1%|          | 927/78504 [32:52<75:49:33,  3.52s/it]                                                      {'loss': 0.1903, 'grad_norm': 1.6242036819458008, 'learning_rate': 3.530760412686282e-06, 'epoch': 0.28}
  1%|          | 927/78504 [32:52<75:49:33,  3.52s/it]  1%|          | 928/78504 [32:55<72:35:54,  3.37s/it]                                                      {'loss': 0.2025, 'grad_norm': 0.7854489088058472, 'learning_rate': 3.534581581964081e-06, 'epoch': 0.28}
  1%|          | 928/78504 [32:55<72:35:54,  3.37s/it]  1%|          | 929/78504 [32:57<67:44:47,  3.14s/it]                                                      {'loss': 0.187, 'grad_norm': 0.8480618596076965, 'learning_rate': 3.5384027512418798e-06, 'epoch': 0.28}
  1%|          | 929/78504 [32:57<67:44:47,  3.14s/it]  1%|          | 930/78504 [33:00<62:41:57,  2.91s/it]                                                      {'loss': 0.1789, 'grad_norm': 0.8296639323234558, 'learning_rate': 3.542223920519679e-06, 'epoch': 0.28}
  1%|          | 930/78504 [33:00<62:41:57,  2.91s/it]  1%|          | 931/78504 [33:02<59:07:45,  2.74s/it]                                                      {'loss': 0.1754, 'grad_norm': 0.8910701274871826, 'learning_rate': 3.546045089797478e-06, 'epoch': 0.28}
  1%|          | 931/78504 [33:02<59:07:45,  2.74s/it]  1%|          | 932/78504 [33:04<56:31:16,  2.62s/it]                                                      {'loss': 0.1465, 'grad_norm': 0.7361922860145569, 'learning_rate': 3.5498662590752773e-06, 'epoch': 0.28}
  1%|          | 932/78504 [33:04<56:31:16,  2.62s/it]  1%|          | 933/78504 [33:06<53:06:56,  2.47s/it]                                                      {'loss': 0.1857, 'grad_norm': 0.8140453100204468, 'learning_rate': 3.5536874283530765e-06, 'epoch': 0.29}
  1%|          | 933/78504 [33:06<53:06:56,  2.47s/it]  1%|          | 934/78504 [33:08<50:17:34,  2.33s/it]                                                      {'loss': 0.2407, 'grad_norm': 0.9322276711463928, 'learning_rate': 3.557508597630875e-06, 'epoch': 0.29}
  1%|          | 934/78504 [33:08<50:17:34,  2.33s/it]  1%|          | 935/78504 [33:11<49:01:55,  2.28s/it]                                                      {'loss': 0.1954, 'grad_norm': 0.858069121837616, 'learning_rate': 3.5613297669086744e-06, 'epoch': 0.29}
  1%|          | 935/78504 [33:11<49:01:55,  2.28s/it]  1%|          | 936/78504 [33:13<47:24:16,  2.20s/it]                                                      {'loss': 0.2117, 'grad_norm': 1.0602911710739136, 'learning_rate': 3.565150936186473e-06, 'epoch': 0.29}
  1%|          | 936/78504 [33:13<47:24:16,  2.20s/it]  1%|          | 937/78504 [33:14<44:46:28,  2.08s/it]                                                      {'loss': 0.2228, 'grad_norm': 0.8842675685882568, 'learning_rate': 3.5689721054642723e-06, 'epoch': 0.29}
  1%|          | 937/78504 [33:14<44:46:28,  2.08s/it]  1%|          | 938/78504 [33:16<43:25:52,  2.02s/it]                                                      {'loss': 0.2641, 'grad_norm': 1.0718669891357422, 'learning_rate': 3.572793274742071e-06, 'epoch': 0.29}
  1%|          | 938/78504 [33:16<43:25:52,  2.02s/it]  1%|          | 939/78504 [33:18<41:34:07,  1.93s/it]                                                      {'loss': 0.2372, 'grad_norm': 0.9640434384346008, 'learning_rate': 3.57661444401987e-06, 'epoch': 0.29}
  1%|          | 939/78504 [33:18<41:34:07,  1.93s/it]  1%|          | 940/78504 [33:20<40:31:04,  1.88s/it]                                                      {'loss': 0.3228, 'grad_norm': 1.245141625404358, 'learning_rate': 3.580435613297669e-06, 'epoch': 0.29}
  1%|          | 940/78504 [33:20<40:31:04,  1.88s/it]  1%|          | 941/78504 [33:21<39:04:32,  1.81s/it]                                                      {'loss': 0.3199, 'grad_norm': 1.4815608263015747, 'learning_rate': 3.5842567825754685e-06, 'epoch': 0.29}
  1%|          | 941/78504 [33:21<39:04:32,  1.81s/it]  1%|          | 942/78504 [33:23<37:11:34,  1.73s/it]                                                      {'loss': 0.3614, 'grad_norm': 1.6869502067565918, 'learning_rate': 3.5880779518532673e-06, 'epoch': 0.29}
  1%|          | 942/78504 [33:23<37:11:34,  1.73s/it]  1%|          | 943/78504 [33:24<35:35:12,  1.65s/it]                                                      {'loss': 0.3426, 'grad_norm': 1.719228744506836, 'learning_rate': 3.5918991211310664e-06, 'epoch': 0.29}
  1%|          | 943/78504 [33:24<35:35:12,  1.65s/it]  1%|          | 944/78504 [33:26<34:05:50,  1.58s/it]                                                      {'loss': 0.4099, 'grad_norm': 2.166821241378784, 'learning_rate': 3.595720290408865e-06, 'epoch': 0.29}
  1%|          | 944/78504 [33:26<34:05:50,  1.58s/it]  1%|          | 945/78504 [33:27<31:47:38,  1.48s/it]                                                      {'loss': 0.4429, 'grad_norm': 3.5243821144104004, 'learning_rate': 3.5995414596866644e-06, 'epoch': 0.29}
  1%|          | 945/78504 [33:27<31:47:38,  1.48s/it]  1%|          | 946/78504 [33:28<29:40:44,  1.38s/it]                                                      {'loss': 0.4019, 'grad_norm': 2.4826912879943848, 'learning_rate': 3.603362628964463e-06, 'epoch': 0.29}
  1%|          | 946/78504 [33:28<29:40:44,  1.38s/it]  1%|          | 947/78504 [33:29<27:53:25,  1.29s/it]                                                      {'loss': 0.4329, 'grad_norm': 4.965357780456543, 'learning_rate': 3.6071837982422623e-06, 'epoch': 0.29}
  1%|          | 947/78504 [33:29<27:53:25,  1.29s/it]  1%|          | 948/78504 [33:30<25:55:21,  1.20s/it]                                                      {'loss': 0.4903, 'grad_norm': 2.470799207687378, 'learning_rate': 3.611004967520061e-06, 'epoch': 0.29}
  1%|          | 948/78504 [33:30<25:55:21,  1.20s/it]  1%|          | 949/78504 [33:31<24:08:54,  1.12s/it]                                                      {'loss': 0.572, 'grad_norm': 4.475967884063721, 'learning_rate': 3.61482613679786e-06, 'epoch': 0.29}
  1%|          | 949/78504 [33:31<24:08:54,  1.12s/it]  1%|          | 950/78504 [33:32<21:48:45,  1.01s/it]                                                      {'loss': 0.6624, 'grad_norm': 3.687953233718872, 'learning_rate': 3.618647306075659e-06, 'epoch': 0.29}
  1%|          | 950/78504 [33:32<21:48:45,  1.01s/it]  1%|          | 951/78504 [33:39<61:34:44,  2.86s/it]                                                      {'loss': 0.3031, 'grad_norm': 1.0951178073883057, 'learning_rate': 3.6224684753534585e-06, 'epoch': 0.29}
  1%|          | 951/78504 [33:39<61:34:44,  2.86s/it]  1%|          | 952/78504 [33:42<62:59:48,  2.92s/it]                                                      {'loss': 0.2053, 'grad_norm': 0.6947671175003052, 'learning_rate': 3.6262896446312573e-06, 'epoch': 0.29}
  1%|          | 952/78504 [33:42<62:59:48,  2.92s/it]  1%|          | 953/78504 [33:45<63:23:09,  2.94s/it]                                                      {'loss': 0.2202, 'grad_norm': 0.7736409306526184, 'learning_rate': 3.6301108139090564e-06, 'epoch': 0.29}
  1%|          | 953/78504 [33:45<63:23:09,  2.94s/it]  1%|          | 954/78504 [33:48<61:07:12,  2.84s/it]                                                      {'loss': 0.1581, 'grad_norm': 0.7130172252655029, 'learning_rate': 3.633931983186855e-06, 'epoch': 0.29}
  1%|          | 954/78504 [33:48<61:07:12,  2.84s/it]  1%|          | 955/78504 [33:50<58:05:15,  2.70s/it]                                                      {'loss': 0.1808, 'grad_norm': 0.7076172232627869, 'learning_rate': 3.6377531524646543e-06, 'epoch': 0.29}
  1%|          | 955/78504 [33:50<58:05:15,  2.70s/it]  1%|          | 956/78504 [33:52<55:17:42,  2.57s/it]                                                      {'loss': 0.2322, 'grad_norm': 0.9558129906654358, 'learning_rate': 3.641574321742453e-06, 'epoch': 0.29}
  1%|          | 956/78504 [33:52<55:17:42,  2.57s/it]  1%|          | 957/78504 [33:55<53:46:41,  2.50s/it]                                                      {'loss': 0.165, 'grad_norm': 0.9007523059844971, 'learning_rate': 3.6453954910202523e-06, 'epoch': 0.29}
  1%|          | 957/78504 [33:55<53:46:41,  2.50s/it]  1%|          | 958/78504 [33:57<51:11:05,  2.38s/it]                                                      {'loss': 0.1669, 'grad_norm': 1.029890537261963, 'learning_rate': 3.649216660298051e-06, 'epoch': 0.29}
  1%|          | 958/78504 [33:57<51:11:05,  2.38s/it]  1%|          | 959/78504 [33:59<48:57:30,  2.27s/it]                                                      {'loss': 0.2099, 'grad_norm': 1.2067070007324219, 'learning_rate': 3.65303782957585e-06, 'epoch': 0.29}
  1%|          | 959/78504 [33:59<48:57:30,  2.27s/it]  1%|          | 960/78504 [34:01<48:06:29,  2.23s/it]                                                      {'loss': 0.1891, 'grad_norm': 0.9087214469909668, 'learning_rate': 3.656858998853649e-06, 'epoch': 0.29}
  1%|          | 960/78504 [34:01<48:06:29,  2.23s/it]  1%|          | 961/78504 [34:03<46:45:48,  2.17s/it]                                                      {'loss': 0.2275, 'grad_norm': 0.8722643852233887, 'learning_rate': 3.6606801681314485e-06, 'epoch': 0.29}
  1%|          | 961/78504 [34:03<46:45:48,  2.17s/it]  1%|          | 962/78504 [34:05<45:35:58,  2.12s/it]                                                      {'loss': 0.1976, 'grad_norm': 0.9560788869857788, 'learning_rate': 3.6645013374092473e-06, 'epoch': 0.29}
  1%|          | 962/78504 [34:05<45:35:58,  2.12s/it]  1%|          | 963/78504 [34:07<44:09:01,  2.05s/it]                                                      {'loss': 0.2653, 'grad_norm': 1.1193222999572754, 'learning_rate': 3.6683225066870464e-06, 'epoch': 0.29}
  1%|          | 963/78504 [34:07<44:09:01,  2.05s/it]  1%|          | 964/78504 [34:09<42:59:13,  2.00s/it]                                                      {'loss': 0.2311, 'grad_norm': 1.0764985084533691, 'learning_rate': 3.672143675964845e-06, 'epoch': 0.29}
  1%|          | 964/78504 [34:09<42:59:13,  2.00s/it]  1%|          | 965/78504 [34:11<41:34:46,  1.93s/it]                                                      {'loss': 0.3012, 'grad_norm': 1.5377695560455322, 'learning_rate': 3.6759648452426443e-06, 'epoch': 0.3}
  1%|          | 965/78504 [34:11<41:34:46,  1.93s/it]  1%|          | 966/78504 [34:12<39:47:06,  1.85s/it]                                                      {'loss': 0.359, 'grad_norm': 1.3881505727767944, 'learning_rate': 3.6797860145204435e-06, 'epoch': 0.3}
  1%|          | 966/78504 [34:12<39:47:06,  1.85s/it]  1%|          | 967/78504 [34:14<37:50:09,  1.76s/it]                                                      {'loss': 0.3436, 'grad_norm': 1.147066593170166, 'learning_rate': 3.6836071837982422e-06, 'epoch': 0.3}
  1%|          | 967/78504 [34:14<37:50:09,  1.76s/it]  1%|          | 968/78504 [34:15<35:58:40,  1.67s/it]                                                      {'loss': 0.3578, 'grad_norm': 1.2819370031356812, 'learning_rate': 3.6874283530760414e-06, 'epoch': 0.3}
  1%|          | 968/78504 [34:15<35:58:40,  1.67s/it]  1%|          | 969/78504 [34:17<34:17:44,  1.59s/it]                                                      {'loss': 0.3396, 'grad_norm': 1.3058921098709106, 'learning_rate': 3.69124952235384e-06, 'epoch': 0.3}
  1%|          | 969/78504 [34:17<34:17:44,  1.59s/it]  1%|          | 970/78504 [34:18<32:20:19,  1.50s/it]                                                      {'loss': 0.4165, 'grad_norm': 1.3253852128982544, 'learning_rate': 3.6950706916316398e-06, 'epoch': 0.3}
  1%|          | 970/78504 [34:18<32:20:19,  1.50s/it]  1%|          | 971/78504 [34:19<30:08:52,  1.40s/it]                                                      {'loss': 0.4577, 'grad_norm': 4.134953022003174, 'learning_rate': 3.6988918609094385e-06, 'epoch': 0.3}
  1%|          | 971/78504 [34:19<30:08:52,  1.40s/it]  1%|          | 972/78504 [34:20<28:10:26,  1.31s/it]                                                      {'loss': 0.4633, 'grad_norm': 1.5740094184875488, 'learning_rate': 3.7027130301872377e-06, 'epoch': 0.3}
  1%|          | 972/78504 [34:20<28:10:26,  1.31s/it]  1%|          | 973/78504 [34:21<26:09:13,  1.21s/it]                                                      {'loss': 0.5124, 'grad_norm': 2.8621842861175537, 'learning_rate': 3.7065341994650364e-06, 'epoch': 0.3}
  1%|          | 973/78504 [34:21<26:09:13,  1.21s/it]  1%|          | 974/78504 [34:22<24:20:57,  1.13s/it]                                                      {'loss': 0.5096, 'grad_norm': 3.1555027961730957, 'learning_rate': 3.7103553687428356e-06, 'epoch': 0.3}
  1%|          | 974/78504 [34:22<24:20:57,  1.13s/it]  1%|          | 975/78504 [34:23<22:06:46,  1.03s/it]                                                      {'loss': 0.6141, 'grad_norm': 2.829953908920288, 'learning_rate': 3.7141765380206343e-06, 'epoch': 0.3}
  1%|          | 975/78504 [34:23<22:06:46,  1.03s/it]  1%|          | 976/78504 [34:32<73:59:41,  3.44s/it]                                                      {'loss': 0.3074, 'grad_norm': 1.1862764358520508, 'learning_rate': 3.7179977072984335e-06, 'epoch': 0.3}
  1%|          | 976/78504 [34:32<73:59:41,  3.44s/it]  1%|          | 977/78504 [34:35<73:29:57,  3.41s/it]                                                      {'loss': 0.2151, 'grad_norm': 1.2319847345352173, 'learning_rate': 3.7218188765762322e-06, 'epoch': 0.3}
  1%|          | 977/78504 [34:35<73:29:57,  3.41s/it]  1%|          | 978/78504 [34:38<70:43:18,  3.28s/it]                                                      {'loss': 0.1812, 'grad_norm': 0.78661048412323, 'learning_rate': 3.7256400458540314e-06, 'epoch': 0.3}
  1%|          | 978/78504 [34:38<70:43:18,  3.28s/it]  1%|          | 979/78504 [34:41<66:26:16,  3.09s/it]                                                      {'loss': 0.186, 'grad_norm': 1.3464089632034302, 'learning_rate': 3.72946121513183e-06, 'epoch': 0.3}
  1%|          | 979/78504 [34:41<66:26:16,  3.09s/it]  1%|          | 980/78504 [34:43<61:46:59,  2.87s/it]                                                      {'loss': 0.1971, 'grad_norm': 1.1940717697143555, 'learning_rate': 3.7332823844096297e-06, 'epoch': 0.3}
  1%|          | 980/78504 [34:43<61:46:59,  2.87s/it]  1%|          | 981/78504 [34:46<57:53:56,  2.69s/it]                                                      {'loss': 0.1605, 'grad_norm': 0.952959418296814, 'learning_rate': 3.7371035536874285e-06, 'epoch': 0.3}
  1%|          | 981/78504 [34:46<57:53:56,  2.69s/it]  1%|▏         | 982/78504 [34:48<55:30:19,  2.58s/it]                                                      {'loss': 0.1904, 'grad_norm': 0.8503403067588806, 'learning_rate': 3.7409247229652277e-06, 'epoch': 0.3}
  1%|▏         | 982/78504 [34:48<55:30:19,  2.58s/it]  1%|▏         | 983/78504 [34:50<52:25:29,  2.43s/it]                                                      {'loss': 0.1692, 'grad_norm': 1.0747379064559937, 'learning_rate': 3.7447458922430264e-06, 'epoch': 0.3}
  1%|▏         | 983/78504 [34:50<52:25:29,  2.43s/it]  1%|▏         | 984/78504 [34:52<49:56:28,  2.32s/it]                                                      {'loss': 0.2379, 'grad_norm': 1.0567278861999512, 'learning_rate': 3.7485670615208256e-06, 'epoch': 0.3}
  1%|▏         | 984/78504 [34:52<49:56:28,  2.32s/it]  1%|▏         | 985/78504 [34:54<48:51:08,  2.27s/it]                                                      {'loss': 0.2409, 'grad_norm': 1.0569156408309937, 'learning_rate': 3.7523882307986247e-06, 'epoch': 0.3}
  1%|▏         | 985/78504 [34:54<48:51:08,  2.27s/it]  1%|▏         | 986/78504 [34:56<47:18:44,  2.20s/it]                                                      {'loss': 0.2104, 'grad_norm': 0.9285370707511902, 'learning_rate': 3.756209400076424e-06, 'epoch': 0.3}
  1%|▏         | 986/78504 [34:56<47:18:44,  2.20s/it]  1%|▏         | 987/78504 [34:58<46:04:16,  2.14s/it]                                                      {'loss': 0.224, 'grad_norm': 0.9066474437713623, 'learning_rate': 3.7600305693542226e-06, 'epoch': 0.3}
  1%|▏         | 987/78504 [34:58<46:04:16,  2.14s/it]  1%|▏         | 988/78504 [35:00<44:20:35,  2.06s/it]                                                      {'loss': 0.2366, 'grad_norm': 0.9189996123313904, 'learning_rate': 3.763851738632022e-06, 'epoch': 0.3}
  1%|▏         | 988/78504 [35:00<44:20:35,  2.06s/it]  1%|▏         | 989/78504 [35:02<42:51:11,  1.99s/it]                                                      {'loss': 0.2362, 'grad_norm': 1.025918960571289, 'learning_rate': 3.7676729079098206e-06, 'epoch': 0.3}
  1%|▏         | 989/78504 [35:02<42:51:11,  1.99s/it]  1%|▏         | 990/78504 [35:04<40:48:38,  1.90s/it]                                                      {'loss': 0.3118, 'grad_norm': 1.6051228046417236, 'learning_rate': 3.7714940771876197e-06, 'epoch': 0.3}
  1%|▏         | 990/78504 [35:04<40:48:38,  1.90s/it]  1%|▏         | 991/78504 [35:05<39:12:00,  1.82s/it]                                                      {'loss': 0.3329, 'grad_norm': 1.5180524587631226, 'learning_rate': 3.7753152464654185e-06, 'epoch': 0.3}
  1%|▏         | 991/78504 [35:05<39:12:00,  1.82s/it]  1%|▏         | 992/78504 [35:07<37:20:25,  1.73s/it]                                                      {'loss': 0.3804, 'grad_norm': 1.2812504768371582, 'learning_rate': 3.7791364157432176e-06, 'epoch': 0.3}
  1%|▏         | 992/78504 [35:07<37:20:25,  1.73s/it]  1%|▏         | 993/78504 [35:08<35:37:37,  1.65s/it]                                                      {'loss': 0.4223, 'grad_norm': 2.386523723602295, 'learning_rate': 3.7829575850210164e-06, 'epoch': 0.3}
  1%|▏         | 993/78504 [35:08<35:37:37,  1.65s/it]  1%|▏         | 994/78504 [35:10<34:05:05,  1.58s/it]                                                      {'loss': 0.3947, 'grad_norm': 1.4212864637374878, 'learning_rate': 3.7867787542988156e-06, 'epoch': 0.3}
  1%|▏         | 994/78504 [35:10<34:05:05,  1.58s/it]  1%|▏         | 995/78504 [35:11<31:46:19,  1.48s/it]                                                      {'loss': 0.4138, 'grad_norm': 1.4915727376937866, 'learning_rate': 3.7905999235766143e-06, 'epoch': 0.3}
  1%|▏         | 995/78504 [35:11<31:46:19,  1.48s/it]  1%|▏         | 996/78504 [35:12<29:40:53,  1.38s/it]                                                      {'loss': 0.3776, 'grad_norm': 2.1796538829803467, 'learning_rate': 3.7944210928544135e-06, 'epoch': 0.3}
  1%|▏         | 996/78504 [35:12<29:40:53,  1.38s/it]  1%|▏         | 997/78504 [35:13<27:51:38,  1.29s/it]                                                      {'loss': 0.4081, 'grad_norm': 1.7348482608795166, 'learning_rate': 3.7982422621322126e-06, 'epoch': 0.3}
  1%|▏         | 997/78504 [35:13<27:51:38,  1.29s/it]  1%|▏         | 998/78504 [35:14<25:56:59,  1.21s/it]                                                      {'loss': 0.5387, 'grad_norm': 3.7839818000793457, 'learning_rate': 3.8020634314100114e-06, 'epoch': 0.31}
  1%|▏         | 998/78504 [35:14<25:56:59,  1.21s/it]  1%|▏         | 999/78504 [35:15<24:14:58,  1.13s/it]                                                      {'loss': 0.5312, 'grad_norm': 2.3856942653656006, 'learning_rate': 3.8058846006878105e-06, 'epoch': 0.31}
  1%|▏         | 999/78504 [35:15<24:14:58,  1.13s/it]  1%|▏         | 1000/78504 [35:16<22:02:10,  1.02s/it]                                                       {'loss': 0.6282, 'grad_norm': 6.250284671783447, 'learning_rate': 3.8097057699656093e-06, 'epoch': 0.31}
  1%|▏         | 1000/78504 [35:16<22:02:10,  1.02s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.52it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.72it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.63it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.76it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.08it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.52it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.49it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.69it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.04it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.44it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
 93%|█████████▎| 14/15 [00:07<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.20it/s][A                                                       
                                               [A{'eval_loss': 0.44768765568733215, 'eval_wer': 0.42121728443339573, 'eval_cer': 0.21323360937448857, 'eval_runtime': 19.7618, 'eval_samples_per_second': 229.634, 'eval_steps_per_second': 0.759, 'epoch': 0.31}
  1%|▏         | 1000/78504 [36:23<22:02:10,  1.02s/it]
100%|██████████| 15/15 [00:11<00:00,  1.20it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-1000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
  1%|▏         | 1001/78504 [36:43<580:24:31, 26.96s/it]                                                        {'loss': 0.2703, 'grad_norm': 0.8415254950523376, 'learning_rate': 3.8135269392434085e-06, 'epoch': 0.31}
  1%|▏         | 1001/78504 [36:43<580:24:31, 26.96s/it]  1%|▏         | 1002/78504 [36:47<426:33:21, 19.81s/it]                                                        {'loss': 0.2348, 'grad_norm': 1.0004171133041382, 'learning_rate': 3.817348108521208e-06, 'epoch': 0.31}
  1%|▏         | 1002/78504 [36:47<426:33:21, 19.81s/it]  1%|▏         | 1003/78504 [36:50<317:57:56, 14.77s/it]                                                        {'loss': 0.1856, 'grad_norm': 1.009069800376892, 'learning_rate': 3.821169277799006e-06, 'epoch': 0.31}
  1%|▏         | 1003/78504 [36:50<317:57:56, 14.77s/it]  1%|▏         | 1004/78504 [36:52<238:12:36, 11.07s/it]                                                        {'loss': 0.1765, 'grad_norm': 0.6723507642745972, 'learning_rate': 3.824990447076806e-06, 'epoch': 0.31}
  1%|▏         | 1004/78504 [36:52<238:12:36, 11.07s/it]  1%|▏         | 1005/78504 [36:54<182:40:50,  8.49s/it]                                                        {'loss': 0.1811, 'grad_norm': 0.8880953192710876, 'learning_rate': 3.828811616354605e-06, 'epoch': 0.31}
  1%|▏         | 1005/78504 [36:54<182:40:50,  8.49s/it]  1%|▏         | 1006/78504 [36:57<143:32:25,  6.67s/it]                                                        {'loss': 0.1552, 'grad_norm': 1.200845718383789, 'learning_rate': 3.832632785632404e-06, 'epoch': 0.31}
  1%|▏         | 1006/78504 [36:57<143:32:25,  6.67s/it]  1%|▏         | 1007/78504 [36:59<115:25:36,  5.36s/it]                                                        {'loss': 0.1675, 'grad_norm': 0.8896739482879639, 'learning_rate': 3.836453954910203e-06, 'epoch': 0.31}
  1%|▏         | 1007/78504 [36:59<115:25:36,  5.36s/it]  1%|▏         | 1008/78504 [37:01<94:27:12,  4.39s/it]                                                        {'loss': 0.1995, 'grad_norm': 0.7621726989746094, 'learning_rate': 3.840275124188002e-06, 'epoch': 0.31}
  1%|▏         | 1008/78504 [37:01<94:27:12,  4.39s/it]  1%|▏         | 1009/78504 [37:03<80:16:29,  3.73s/it]                                                       {'loss': 0.202, 'grad_norm': 0.83097243309021, 'learning_rate': 3.8440962934658005e-06, 'epoch': 0.31}
  1%|▏         | 1009/78504 [37:03<80:16:29,  3.73s/it]  1%|▏         | 1010/78504 [37:06<70:03:25,  3.25s/it]                                                       {'loss': 0.2153, 'grad_norm': 0.8738337755203247, 'learning_rate': 3.8479174627436e-06, 'epoch': 0.31}
  1%|▏         | 1010/78504 [37:06<70:03:25,  3.25s/it]  1%|▏         | 1011/78504 [37:08<62:06:27,  2.89s/it]                                                       {'loss': 0.1743, 'grad_norm': 0.9159551858901978, 'learning_rate': 3.851738632021399e-06, 'epoch': 0.31}
  1%|▏         | 1011/78504 [37:08<62:06:27,  2.89s/it]  1%|▏         | 1012/78504 [37:09<55:04:06,  2.56s/it]                                                       {'loss': 0.2208, 'grad_norm': 1.198378324508667, 'learning_rate': 3.855559801299198e-06, 'epoch': 0.31}
  1%|▏         | 1012/78504 [37:09<55:04:06,  2.56s/it]  1%|▏         | 1013/78504 [37:11<50:36:56,  2.35s/it]                                                       {'loss': 0.2187, 'grad_norm': 1.0526041984558105, 'learning_rate': 3.859380970576996e-06, 'epoch': 0.31}
  1%|▏         | 1013/78504 [37:11<50:36:56,  2.35s/it]  1%|▏         | 1014/78504 [37:13<46:25:54,  2.16s/it]                                                       {'loss': 0.2258, 'grad_norm': 0.9403125643730164, 'learning_rate': 3.863202139854796e-06, 'epoch': 0.31}
  1%|▏         | 1014/78504 [37:13<46:25:54,  2.16s/it]  1%|▏         | 1015/78504 [37:15<43:21:01,  2.01s/it]                                                       {'loss': 0.2674, 'grad_norm': 0.9867441654205322, 'learning_rate': 3.867023309132595e-06, 'epoch': 0.31}
  1%|▏         | 1015/78504 [37:15<43:21:01,  2.01s/it]  1%|▏         | 1016/78504 [37:16<40:55:19,  1.90s/it]                                                       {'loss': 0.3138, 'grad_norm': 1.7308610677719116, 'learning_rate': 3.8708444784103934e-06, 'epoch': 0.31}
  1%|▏         | 1016/78504 [37:16<40:55:19,  1.90s/it]  1%|▏         | 1017/78504 [37:18<38:28:18,  1.79s/it]                                                       {'loss': 0.3281, 'grad_norm': 1.2558552026748657, 'learning_rate': 3.874665647688192e-06, 'epoch': 0.31}
  1%|▏         | 1017/78504 [37:18<38:28:18,  1.79s/it]  1%|▏         | 1018/78504 [37:19<36:37:34,  1.70s/it]                                                       {'loss': 0.3603, 'grad_norm': 1.2523506879806519, 'learning_rate': 3.878486816965992e-06, 'epoch': 0.31}
  1%|▏         | 1018/78504 [37:19<36:37:34,  1.70s/it]  1%|▏         | 1019/78504 [37:21<34:29:30,  1.60s/it]                                                       {'loss': 0.3768, 'grad_norm': 2.837400436401367, 'learning_rate': 3.8823079862437905e-06, 'epoch': 0.31}
  1%|▏         | 1019/78504 [37:21<34:29:30,  1.60s/it]  1%|▏         | 1020/78504 [37:22<32:22:48,  1.50s/it]                                                       {'loss': 0.3512, 'grad_norm': 2.156273126602173, 'learning_rate': 3.886129155521589e-06, 'epoch': 0.31}
  1%|▏         | 1020/78504 [37:22<32:22:48,  1.50s/it]  1%|▏         | 1021/78504 [37:23<30:12:02,  1.40s/it]                                                       {'loss': 0.4058, 'grad_norm': 1.4955203533172607, 'learning_rate': 3.889950324799388e-06, 'epoch': 0.31}
  1%|▏         | 1021/78504 [37:23<30:12:02,  1.40s/it]  1%|▏         | 1022/78504 [37:24<28:13:14,  1.31s/it]                                                       {'loss': 0.4265, 'grad_norm': 1.6584020853042603, 'learning_rate': 3.893771494077188e-06, 'epoch': 0.31}
  1%|▏         | 1022/78504 [37:24<28:13:14,  1.31s/it]  1%|▏         | 1023/78504 [37:25<26:40:12,  1.24s/it]                                                       {'loss': 0.4069, 'grad_norm': 2.272995710372925, 'learning_rate': 3.897592663354986e-06, 'epoch': 0.31}
  1%|▏         | 1023/78504 [37:25<26:40:12,  1.24s/it]  1%|▏         | 1024/78504 [37:26<24:51:11,  1.15s/it]                                                       {'loss': 0.5492, 'grad_norm': 3.419945478439331, 'learning_rate': 3.901413832632786e-06, 'epoch': 0.31}
  1%|▏         | 1024/78504 [37:26<24:51:11,  1.15s/it]  1%|▏         | 1025/78504 [37:27<22:32:57,  1.05s/it]                                                       {'loss': 0.5632, 'grad_norm': 3.8543241024017334, 'learning_rate': 3.905235001910585e-06, 'epoch': 0.31}
  1%|▏         | 1025/78504 [37:27<22:32:57,  1.05s/it]  1%|▏         | 1026/78504 [37:35<68:49:37,  3.20s/it]                                                       {'loss': 0.2975, 'grad_norm': 1.2046235799789429, 'learning_rate': 3.909056171188384e-06, 'epoch': 0.31}
  1%|▏         | 1026/78504 [37:35<68:49:37,  3.20s/it]  1%|▏         | 1027/78504 [37:39<69:29:19,  3.23s/it]                                                       {'loss': 0.1702, 'grad_norm': 0.6379966139793396, 'learning_rate': 3.912877340466183e-06, 'epoch': 0.31}
  1%|▏         | 1027/78504 [37:39<69:29:19,  3.23s/it]  1%|▏         | 1028/78504 [37:42<68:05:15,  3.16s/it]                                                       {'loss': 0.1699, 'grad_norm': 0.6776479482650757, 'learning_rate': 3.916698509743982e-06, 'epoch': 0.31}
  1%|▏         | 1028/78504 [37:42<68:05:15,  3.16s/it]  1%|▏         | 1029/78504 [37:44<64:29:35,  3.00s/it]                                                       {'loss': 0.1678, 'grad_norm': 0.6807871460914612, 'learning_rate': 3.920519679021781e-06, 'epoch': 0.31}
  1%|▏         | 1029/78504 [37:44<64:29:35,  3.00s/it]  1%|▏         | 1030/78504 [37:47<61:05:24,  2.84s/it]                                                       {'loss': 0.1539, 'grad_norm': 0.6433473229408264, 'learning_rate': 3.92434084829958e-06, 'epoch': 0.31}
  1%|▏         | 1030/78504 [37:47<61:05:24,  2.84s/it]  1%|▏         | 1031/78504 [37:49<57:23:55,  2.67s/it]                                                       {'loss': 0.1331, 'grad_norm': 0.7070204615592957, 'learning_rate': 3.928162017577379e-06, 'epoch': 0.32}
  1%|▏         | 1031/78504 [37:49<57:23:55,  2.67s/it]  1%|▏         | 1032/78504 [37:51<55:12:01,  2.57s/it]                                                       {'loss': 0.1649, 'grad_norm': 0.6519095301628113, 'learning_rate': 3.931983186855178e-06, 'epoch': 0.32}
  1%|▏         | 1032/78504 [37:51<55:12:01,  2.57s/it]  1%|▏         | 1033/78504 [37:53<52:13:34,  2.43s/it]                                                       {'loss': 0.1766, 'grad_norm': 0.69696444272995, 'learning_rate': 3.935804356132977e-06, 'epoch': 0.32}
  1%|▏         | 1033/78504 [37:53<52:13:34,  2.43s/it]  1%|▏         | 1034/78504 [37:56<50:39:09,  2.35s/it]                                                       {'loss': 0.2003, 'grad_norm': 1.4875261783599854, 'learning_rate': 3.939625525410776e-06, 'epoch': 0.32}
  1%|▏         | 1034/78504 [37:56<50:39:09,  2.35s/it]  1%|▏         | 1035/78504 [37:58<49:22:13,  2.29s/it]                                                       {'loss': 0.19, 'grad_norm': 0.8749998211860657, 'learning_rate': 3.943446694688575e-06, 'epoch': 0.32}
  1%|▏         | 1035/78504 [37:58<49:22:13,  2.29s/it]  1%|▏         | 1036/78504 [38:00<47:38:25,  2.21s/it]                                                       {'loss': 0.2043, 'grad_norm': 1.026098608970642, 'learning_rate': 3.947267863966373e-06, 'epoch': 0.32}
  1%|▏         | 1036/78504 [38:00<47:38:25,  2.21s/it]  1%|▏         | 1037/78504 [38:02<46:08:12,  2.14s/it]                                                       {'loss': 0.1939, 'grad_norm': 0.7759823203086853, 'learning_rate': 3.951089033244173e-06, 'epoch': 0.32}
  1%|▏         | 1037/78504 [38:02<46:08:12,  2.14s/it]  1%|▏         | 1038/78504 [38:04<44:22:03,  2.06s/it]                                                       {'loss': 0.251, 'grad_norm': 1.0083603858947754, 'learning_rate': 3.954910202521972e-06, 'epoch': 0.32}
  1%|▏         | 1038/78504 [38:04<44:22:03,  2.06s/it]  1%|▏         | 1039/78504 [38:05<42:55:52,  2.00s/it]                                                       {'loss': 0.2558, 'grad_norm': 1.5741424560546875, 'learning_rate': 3.9587313717997705e-06, 'epoch': 0.32}
  1%|▏         | 1039/78504 [38:05<42:55:52,  2.00s/it]  1%|▏         | 1040/78504 [38:07<41:28:50,  1.93s/it]                                                       {'loss': 0.2559, 'grad_norm': 1.0051624774932861, 'learning_rate': 3.962552541077569e-06, 'epoch': 0.32}
  1%|▏         | 1040/78504 [38:07<41:28:50,  1.93s/it]  1%|▏         | 1041/78504 [38:09<39:52:44,  1.85s/it]                                                       {'loss': 0.2575, 'grad_norm': 1.1902285814285278, 'learning_rate': 3.966373710355369e-06, 'epoch': 0.32}
  1%|▏         | 1041/78504 [38:09<39:52:44,  1.85s/it]  1%|▏         | 1042/78504 [38:10<37:56:09,  1.76s/it]                                                       {'loss': 0.3412, 'grad_norm': 1.4542866945266724, 'learning_rate': 3.970194879633168e-06, 'epoch': 0.32}
  1%|▏         | 1042/78504 [38:10<37:56:09,  1.76s/it]  1%|▏         | 1043/78504 [38:12<36:02:04,  1.67s/it]                                                       {'loss': 0.3705, 'grad_norm': 1.434388518333435, 'learning_rate': 3.974016048910967e-06, 'epoch': 0.32}
  1%|▏         | 1043/78504 [38:12<36:02:04,  1.67s/it]  1%|▏         | 1044/78504 [38:13<34:11:11,  1.59s/it]                                                       {'loss': 0.3634, 'grad_norm': 2.0379223823547363, 'learning_rate': 3.977837218188766e-06, 'epoch': 0.32}
  1%|▏         | 1044/78504 [38:13<34:11:11,  1.59s/it]  1%|▏         | 1045/78504 [38:15<32:22:19,  1.50s/it]                                                       {'loss': 0.3759, 'grad_norm': 2.016648054122925, 'learning_rate': 3.9816583874665655e-06, 'epoch': 0.32}
  1%|▏         | 1045/78504 [38:15<32:22:19,  1.50s/it]  1%|▏         | 1046/78504 [38:16<30:03:57,  1.40s/it]                                                       {'loss': 0.4286, 'grad_norm': 1.7251392602920532, 'learning_rate': 3.985479556744364e-06, 'epoch': 0.32}
  1%|▏         | 1046/78504 [38:16<30:03:57,  1.40s/it]  1%|▏         | 1047/78504 [38:17<28:06:34,  1.31s/it]                                                       {'loss': 0.4297, 'grad_norm': 4.037511348724365, 'learning_rate': 3.989300726022163e-06, 'epoch': 0.32}
  1%|▏         | 1047/78504 [38:17<28:06:34,  1.31s/it]  1%|▏         | 1048/78504 [38:18<26:04:04,  1.21s/it]                                                       {'loss': 0.5292, 'grad_norm': 1.8641585111618042, 'learning_rate': 3.993121895299962e-06, 'epoch': 0.32}
  1%|▏         | 1048/78504 [38:18<26:04:04,  1.21s/it]  1%|▏         | 1049/78504 [38:19<24:24:18,  1.13s/it]                                                       {'loss': 0.4624, 'grad_norm': 1.6908762454986572, 'learning_rate': 3.996943064577761e-06, 'epoch': 0.32}
  1%|▏         | 1049/78504 [38:19<24:24:18,  1.13s/it]  1%|▏         | 1050/78504 [38:20<22:08:37,  1.03s/it]                                                       {'loss': 0.6478, 'grad_norm': 3.1654205322265625, 'learning_rate': 4.00076423385556e-06, 'epoch': 0.32}
  1%|▏         | 1050/78504 [38:20<22:08:37,  1.03s/it]  1%|▏         | 1051/78504 [38:27<63:07:14,  2.93s/it]                                                       {'loss': 0.3266, 'grad_norm': 0.9773539304733276, 'learning_rate': 4.004585403133359e-06, 'epoch': 0.32}
  1%|▏         | 1051/78504 [38:27<63:07:14,  2.93s/it]  1%|▏         | 1052/78504 [38:30<64:08:20,  2.98s/it]                                                       {'loss': 0.1681, 'grad_norm': 0.6849073171615601, 'learning_rate': 4.0084065724111576e-06, 'epoch': 0.32}
  1%|▏         | 1052/78504 [38:30<64:08:20,  2.98s/it]  1%|▏         | 1053/78504 [38:33<64:20:20,  2.99s/it]                                                       {'loss': 0.1955, 'grad_norm': 0.5629790425300598, 'learning_rate': 4.012227741688957e-06, 'epoch': 0.32}
  1%|▏         | 1053/78504 [38:33<64:20:20,  2.99s/it]  1%|▏         | 1054/78504 [38:35<60:11:37,  2.80s/it]                                                       {'loss': 0.2212, 'grad_norm': 0.726783812046051, 'learning_rate': 4.016048910966756e-06, 'epoch': 0.32}
  1%|▏         | 1054/78504 [38:35<60:11:37,  2.80s/it]  1%|▏         | 1055/78504 [38:38<58:01:36,  2.70s/it]                                                       {'loss': 0.1518, 'grad_norm': 0.7148677706718445, 'learning_rate': 4.019870080244555e-06, 'epoch': 0.32}
  1%|▏         | 1055/78504 [38:38<58:01:36,  2.70s/it]  1%|▏         | 1056/78504 [38:40<56:16:58,  2.62s/it]                                                       {'loss': 0.1819, 'grad_norm': 0.7914243936538696, 'learning_rate': 4.023691249522353e-06, 'epoch': 0.32}
  1%|▏         | 1056/78504 [38:40<56:16:58,  2.62s/it]  1%|▏         | 1057/78504 [38:43<54:21:48,  2.53s/it]                                                       {'loss': 0.1755, 'grad_norm': 0.8621677756309509, 'learning_rate': 4.027512418800153e-06, 'epoch': 0.32}
  1%|▏         | 1057/78504 [38:43<54:21:48,  2.53s/it]  1%|▏         | 1058/78504 [38:45<51:38:54,  2.40s/it]                                                       {'loss': 0.1517, 'grad_norm': 0.6665903329849243, 'learning_rate': 4.031333588077952e-06, 'epoch': 0.32}
  1%|▏         | 1058/78504 [38:45<51:38:54,  2.40s/it]  1%|▏         | 1059/78504 [38:47<50:20:51,  2.34s/it]                                                       {'loss': 0.1619, 'grad_norm': 0.8795692920684814, 'learning_rate': 4.0351547573557505e-06, 'epoch': 0.32}
  1%|▏         | 1059/78504 [38:47<50:20:51,  2.34s/it]  1%|▏         | 1060/78504 [38:49<49:12:54,  2.29s/it]                                                       {'loss': 0.1688, 'grad_norm': 0.7709496021270752, 'learning_rate': 4.03897592663355e-06, 'epoch': 0.32}
  1%|▏         | 1060/78504 [38:49<49:12:54,  2.29s/it]  1%|▏         | 1061/78504 [38:51<47:32:57,  2.21s/it]                                                       {'loss': 0.2338, 'grad_norm': 1.1102931499481201, 'learning_rate': 4.042797095911349e-06, 'epoch': 0.32}
  1%|▏         | 1061/78504 [38:51<47:32:57,  2.21s/it]  1%|▏         | 1062/78504 [38:53<46:09:30,  2.15s/it]                                                       {'loss': 0.224, 'grad_norm': 0.8988953828811646, 'learning_rate': 4.0466182651891476e-06, 'epoch': 0.32}
  1%|▏         | 1062/78504 [38:53<46:09:30,  2.15s/it]  1%|▏         | 1063/78504 [38:55<44:43:55,  2.08s/it]                                                       {'loss': 0.233, 'grad_norm': 2.1740994453430176, 'learning_rate': 4.050439434466947e-06, 'epoch': 0.32}
  1%|▏         | 1063/78504 [38:55<44:43:55,  2.08s/it]  1%|▏         | 1064/78504 [38:57<43:35:25,  2.03s/it]                                                       {'loss': 0.2368, 'grad_norm': 1.3498635292053223, 'learning_rate': 4.054260603744747e-06, 'epoch': 0.33}
  1%|▏         | 1064/78504 [38:57<43:35:25,  2.03s/it]  1%|▏         | 1065/78504 [38:59<41:52:50,  1.95s/it]                                                       {'loss': 0.2432, 'grad_norm': 2.5414867401123047, 'learning_rate': 4.0580817730225455e-06, 'epoch': 0.33}
  1%|▏         | 1065/78504 [38:59<41:52:50,  1.95s/it]  1%|▏         | 1066/78504 [39:00<39:56:14,  1.86s/it]                                                       {'loss': 0.2999, 'grad_norm': 1.7503288984298706, 'learning_rate': 4.061902942300344e-06, 'epoch': 0.33}
  1%|▏         | 1066/78504 [39:00<39:56:14,  1.86s/it]  1%|▏         | 1067/78504 [39:02<37:54:59,  1.76s/it]                                                       {'loss': 0.3283, 'grad_norm': 1.8839746713638306, 'learning_rate': 4.065724111578143e-06, 'epoch': 0.33}
  1%|▏         | 1067/78504 [39:02<37:54:59,  1.76s/it]  1%|▏         | 1068/78504 [39:03<36:22:08,  1.69s/it]                                                       {'loss': 0.3461, 'grad_norm': 1.4148657321929932, 'learning_rate': 4.0695452808559426e-06, 'epoch': 0.33}
  1%|▏         | 1068/78504 [39:03<36:22:08,  1.69s/it]  1%|▏         | 1069/78504 [39:05<34:42:50,  1.61s/it]                                                       {'loss': 0.341, 'grad_norm': 1.5503294467926025, 'learning_rate': 4.073366450133741e-06, 'epoch': 0.33}
  1%|▏         | 1069/78504 [39:05<34:42:50,  1.61s/it]  1%|▏         | 1070/78504 [39:06<32:41:05,  1.52s/it]                                                       {'loss': 0.3582, 'grad_norm': 1.3923650979995728, 'learning_rate': 4.07718761941154e-06, 'epoch': 0.33}
  1%|▏         | 1070/78504 [39:06<32:41:05,  1.52s/it]  1%|▏         | 1071/78504 [39:07<30:21:07,  1.41s/it]                                                       {'loss': 0.3496, 'grad_norm': 1.3900295495986938, 'learning_rate': 4.081008788689339e-06, 'epoch': 0.33}
  1%|▏         | 1071/78504 [39:07<30:21:07,  1.41s/it]  1%|▏         | 1072/78504 [39:08<28:19:23,  1.32s/it]                                                       {'loss': 0.4887, 'grad_norm': 2.051630735397339, 'learning_rate': 4.084829957967138e-06, 'epoch': 0.33}
  1%|▏         | 1072/78504 [39:08<28:19:23,  1.32s/it]  1%|▏         | 1073/78504 [39:09<26:43:16,  1.24s/it]                                                       {'loss': 0.4455, 'grad_norm': 1.7488216161727905, 'learning_rate': 4.088651127244937e-06, 'epoch': 0.33}
  1%|▏         | 1073/78504 [39:09<26:43:16,  1.24s/it]  1%|▏         | 1074/78504 [39:10<24:44:41,  1.15s/it]                                                       {'loss': 0.4877, 'grad_norm': 2.6405110359191895, 'learning_rate': 4.092472296522736e-06, 'epoch': 0.33}
  1%|▏         | 1074/78504 [39:10<24:44:41,  1.15s/it]  1%|▏         | 1075/78504 [39:11<22:30:26,  1.05s/it]                                                       {'loss': 0.591, 'grad_norm': 3.600313425064087, 'learning_rate': 4.096293465800535e-06, 'epoch': 0.33}
  1%|▏         | 1075/78504 [39:11<22:30:26,  1.05s/it]  1%|▏         | 1076/78504 [39:21<77:08:45,  3.59s/it]                                                       {'loss': 0.3278, 'grad_norm': 1.3394747972488403, 'learning_rate': 4.100114635078334e-06, 'epoch': 0.33}
  1%|▏         | 1076/78504 [39:21<77:08:45,  3.59s/it]  1%|▏         | 1077/78504 [39:24<74:14:45,  3.45s/it]                                                       {'loss': 0.1751, 'grad_norm': 1.4324204921722412, 'learning_rate': 4.103935804356133e-06, 'epoch': 0.33}
  1%|▏         | 1077/78504 [39:24<74:14:45,  3.45s/it]  1%|▏         | 1078/78504 [39:27<71:28:10,  3.32s/it]                                                       {'loss': 0.1534, 'grad_norm': 0.7233107089996338, 'learning_rate': 4.107756973633932e-06, 'epoch': 0.33}
  1%|▏         | 1078/78504 [39:27<71:28:10,  3.32s/it]  1%|▏         | 1079/78504 [39:29<67:00:34,  3.12s/it]                                                       {'loss': 0.1545, 'grad_norm': 0.9019874930381775, 'learning_rate': 4.1115781429117304e-06, 'epoch': 0.33}
  1%|▏         | 1079/78504 [39:30<67:00:34,  3.12s/it]  1%|▏         | 1080/78504 [39:32<62:49:48,  2.92s/it]                                                       {'loss': 0.1597, 'grad_norm': 0.5924026370048523, 'learning_rate': 4.11539931218953e-06, 'epoch': 0.33}
  1%|▏         | 1080/78504 [39:32<62:49:48,  2.92s/it]  1%|▏         | 1081/78504 [39:34<58:36:52,  2.73s/it]                                                       {'loss': 0.13, 'grad_norm': 0.672450602054596, 'learning_rate': 4.119220481467329e-06, 'epoch': 0.33}
  1%|▏         | 1081/78504 [39:34<58:36:52,  2.73s/it]  1%|▏         | 1082/78504 [39:37<56:03:07,  2.61s/it]                                                       {'loss': 0.183, 'grad_norm': 2.211538553237915, 'learning_rate': 4.123041650745128e-06, 'epoch': 0.33}
  1%|▏         | 1082/78504 [39:37<56:03:07,  2.61s/it]  1%|▏         | 1083/78504 [39:39<52:57:22,  2.46s/it]                                                       {'loss': 0.1842, 'grad_norm': 2.2014520168304443, 'learning_rate': 4.126862820022927e-06, 'epoch': 0.33}
  1%|▏         | 1083/78504 [39:39<52:57:22,  2.46s/it]  1%|▏         | 1084/78504 [39:41<51:09:49,  2.38s/it]                                                       {'loss': 0.1588, 'grad_norm': 0.7176119685173035, 'learning_rate': 4.130683989300727e-06, 'epoch': 0.33}
  1%|▏         | 1084/78504 [39:41<51:09:49,  2.38s/it]  1%|▏         | 1085/78504 [39:43<49:40:19,  2.31s/it]                                                       {'loss': 0.2206, 'grad_norm': 0.9973981976509094, 'learning_rate': 4.1345051585785255e-06, 'epoch': 0.33}
  1%|▏         | 1085/78504 [39:43<49:40:19,  2.31s/it]  1%|▏         | 1086/78504 [39:45<47:48:35,  2.22s/it]                                                       {'loss': 0.1835, 'grad_norm': 0.81184321641922, 'learning_rate': 4.138326327856324e-06, 'epoch': 0.33}
  1%|▏         | 1086/78504 [39:45<47:48:35,  2.22s/it]  1%|▏         | 1087/78504 [39:47<46:15:51,  2.15s/it]                                                       {'loss': 0.2241, 'grad_norm': 1.1753523349761963, 'learning_rate': 4.142147497134123e-06, 'epoch': 0.33}
  1%|▏         | 1087/78504 [39:47<46:15:51,  2.15s/it]  1%|▏         | 1088/78504 [39:49<44:30:30,  2.07s/it]                                                       {'loss': 0.2062, 'grad_norm': 1.019192099571228, 'learning_rate': 4.1459686664119225e-06, 'epoch': 0.33}
  1%|▏         | 1088/78504 [39:49<44:30:30,  2.07s/it]  1%|▏         | 1089/78504 [39:51<43:01:45,  2.00s/it]                                                       {'loss': 0.2578, 'grad_norm': 0.9956881999969482, 'learning_rate': 4.149789835689721e-06, 'epoch': 0.33}
  1%|▏         | 1089/78504 [39:51<43:01:45,  2.00s/it]  1%|▏         | 1090/78504 [39:52<40:56:49,  1.90s/it]                                                       {'loss': 0.2768, 'grad_norm': 0.9867995977401733, 'learning_rate': 4.15361100496752e-06, 'epoch': 0.33}
  1%|▏         | 1090/78504 [39:52<40:56:49,  1.90s/it]  1%|▏         | 1091/78504 [39:54<39:15:30,  1.83s/it]                                                       {'loss': 0.2893, 'grad_norm': 2.218087673187256, 'learning_rate': 4.157432174245319e-06, 'epoch': 0.33}
  1%|▏         | 1091/78504 [39:54<39:15:30,  1.83s/it]  1%|▏         | 1092/78504 [39:56<37:28:04,  1.74s/it]                                                       {'loss': 0.3277, 'grad_norm': 1.3115246295928955, 'learning_rate': 4.161253343523118e-06, 'epoch': 0.33}
  1%|▏         | 1092/78504 [39:56<37:28:04,  1.74s/it]  1%|▏         | 1093/78504 [39:57<35:43:28,  1.66s/it]                                                       {'loss': 0.3407, 'grad_norm': 2.1156673431396484, 'learning_rate': 4.165074512800917e-06, 'epoch': 0.33}
  1%|▏         | 1093/78504 [39:57<35:43:28,  1.66s/it]  1%|▏         | 1094/78504 [39:58<34:08:42,  1.59s/it]                                                       {'loss': 0.3004, 'grad_norm': 1.7131067514419556, 'learning_rate': 4.168895682078716e-06, 'epoch': 0.33}
  1%|▏         | 1094/78504 [39:59<34:08:42,  1.59s/it]  1%|▏         | 1095/78504 [40:00<32:14:34,  1.50s/it]                                                       {'loss': 0.3867, 'grad_norm': 1.9218730926513672, 'learning_rate': 4.1727168513565154e-06, 'epoch': 0.33}
  1%|▏         | 1095/78504 [40:00<32:14:34,  1.50s/it]  1%|▏         | 1096/78504 [40:01<30:00:39,  1.40s/it]                                                       {'loss': 0.4201, 'grad_norm': 2.220580577850342, 'learning_rate': 4.176538020634314e-06, 'epoch': 0.34}
  1%|▏         | 1096/78504 [40:01<30:00:39,  1.40s/it]  1%|▏         | 1097/78504 [40:02<28:03:00,  1.30s/it]                                                       {'loss': 0.3985, 'grad_norm': 2.000875473022461, 'learning_rate': 4.180359189912113e-06, 'epoch': 0.34}
  1%|▏         | 1097/78504 [40:02<28:03:00,  1.30s/it]  1%|▏         | 1098/78504 [40:03<26:25:45,  1.23s/it]                                                       {'loss': 0.4526, 'grad_norm': 1.9349753856658936, 'learning_rate': 4.184180359189912e-06, 'epoch': 0.34}
  1%|▏         | 1098/78504 [40:03<26:25:45,  1.23s/it]  1%|▏         | 1099/78504 [40:04<24:32:56,  1.14s/it]                                                       {'loss': 0.4895, 'grad_norm': 2.833981990814209, 'learning_rate': 4.188001528467711e-06, 'epoch': 0.34}
  1%|▏         | 1099/78504 [40:04<24:32:56,  1.14s/it]  1%|▏         | 1100/78504 [40:05<22:23:42,  1.04s/it]                                                       {'loss': 0.5825, 'grad_norm': 2.7497096061706543, 'learning_rate': 4.19182269774551e-06, 'epoch': 0.34}
  1%|▏         | 1100/78504 [40:05<22:23:42,  1.04s/it]  1%|▏         | 1101/78504 [40:14<74:05:29,  3.45s/it]                                                       {'loss': 0.2779, 'grad_norm': 1.1093322038650513, 'learning_rate': 4.19564386702331e-06, 'epoch': 0.34}
  1%|▏         | 1101/78504 [40:14<74:05:29,  3.45s/it]  1%|▏         | 1102/78504 [40:17<72:00:39,  3.35s/it]                                                       {'loss': 0.2334, 'grad_norm': 0.7151468396186829, 'learning_rate': 4.199465036301108e-06, 'epoch': 0.34}
  1%|▏         | 1102/78504 [40:17<72:00:39,  3.35s/it]  1%|▏         | 1103/78504 [40:20<69:42:00,  3.24s/it]                                                       {'loss': 0.1542, 'grad_norm': 0.9146250486373901, 'learning_rate': 4.203286205578908e-06, 'epoch': 0.34}
  1%|▏         | 1103/78504 [40:20<69:42:00,  3.24s/it]  1%|▏         | 1104/78504 [40:23<65:32:50,  3.05s/it]                                                       {'loss': 0.1261, 'grad_norm': 0.8436581492424011, 'learning_rate': 4.207107374856707e-06, 'epoch': 0.34}
  1%|▏         | 1104/78504 [40:23<65:32:50,  3.05s/it]  1%|▏         | 1105/78504 [40:25<61:51:03,  2.88s/it]                                                       {'loss': 0.1424, 'grad_norm': 0.695248007774353, 'learning_rate': 4.2109285441345054e-06, 'epoch': 0.34}
  1%|▏         | 1105/78504 [40:25<61:51:03,  2.88s/it]  1%|▏         | 1106/78504 [40:27<57:57:12,  2.70s/it]                                                       {'loss': 0.164, 'grad_norm': 0.8848037123680115, 'learning_rate': 4.214749713412304e-06, 'epoch': 0.34}
  1%|▏         | 1106/78504 [40:27<57:57:12,  2.70s/it]  1%|▏         | 1107/78504 [40:30<55:30:28,  2.58s/it]                                                       {'loss': 0.1293, 'grad_norm': 0.6781333684921265, 'learning_rate': 4.218570882690104e-06, 'epoch': 0.34}
  1%|▏         | 1107/78504 [40:30<55:30:28,  2.58s/it]  1%|▏         | 1108/78504 [40:32<52:32:03,  2.44s/it]                                                       {'loss': 0.1714, 'grad_norm': 0.8748390078544617, 'learning_rate': 4.2223920519679025e-06, 'epoch': 0.34}
  1%|▏         | 1108/78504 [40:32<52:32:03,  2.44s/it]  1%|▏         | 1109/78504 [40:34<50:56:03,  2.37s/it]                                                       {'loss': 0.1569, 'grad_norm': 0.8061756491661072, 'learning_rate': 4.226213221245701e-06, 'epoch': 0.34}
  1%|▏         | 1109/78504 [40:34<50:56:03,  2.37s/it]  1%|▏         | 1110/78504 [40:36<49:38:55,  2.31s/it]                                                       {'loss': 0.2055, 'grad_norm': 0.9454506039619446, 'learning_rate': 4.2300343905235e-06, 'epoch': 0.34}
  1%|▏         | 1110/78504 [40:36<49:38:55,  2.31s/it]  1%|▏         | 1111/78504 [40:38<46:52:02,  2.18s/it]                                                       {'loss': 0.1854, 'grad_norm': 0.847995400428772, 'learning_rate': 4.2338555598013e-06, 'epoch': 0.34}
  1%|▏         | 1111/78504 [40:38<46:52:02,  2.18s/it]  1%|▏         | 1112/78504 [40:40<45:36:41,  2.12s/it]                                                       {'loss': 0.1578, 'grad_norm': 0.6679621934890747, 'learning_rate': 4.237676729079098e-06, 'epoch': 0.34}
  1%|▏         | 1112/78504 [40:40<45:36:41,  2.12s/it]  1%|▏         | 1113/78504 [40:42<44:27:34,  2.07s/it]                                                       {'loss': 0.2692, 'grad_norm': 1.1085615158081055, 'learning_rate': 4.241497898356897e-06, 'epoch': 0.34}
  1%|▏         | 1113/78504 [40:42<44:27:34,  2.07s/it]  1%|▏         | 1114/78504 [40:44<43:21:50,  2.02s/it]                                                       {'loss': 0.2288, 'grad_norm': 2.481106758117676, 'learning_rate': 4.245319067634696e-06, 'epoch': 0.34}
  1%|▏         | 1114/78504 [40:44<43:21:50,  2.02s/it]  1%|▏         | 1115/78504 [40:46<42:07:15,  1.96s/it]                                                       {'loss': 0.2294, 'grad_norm': 1.167162299156189, 'learning_rate': 4.249140236912495e-06, 'epoch': 0.34}
  1%|▏         | 1115/78504 [40:46<42:07:15,  1.96s/it]  1%|▏         | 1116/78504 [40:47<40:05:15,  1.86s/it]                                                       {'loss': 0.2898, 'grad_norm': 1.6012628078460693, 'learning_rate': 4.252961406190294e-06, 'epoch': 0.34}
  1%|▏         | 1116/78504 [40:47<40:05:15,  1.86s/it]  1%|▏         | 1117/78504 [40:49<37:40:45,  1.75s/it]                                                       {'loss': 0.2829, 'grad_norm': 1.1955419778823853, 'learning_rate': 4.256782575468093e-06, 'epoch': 0.34}
  1%|▏         | 1117/78504 [40:49<37:40:45,  1.75s/it]  1%|▏         | 1118/78504 [40:50<36:16:37,  1.69s/it]                                                       {'loss': 0.3057, 'grad_norm': 1.400905728340149, 'learning_rate': 4.260603744745892e-06, 'epoch': 0.34}
  1%|▏         | 1118/78504 [40:50<36:16:37,  1.69s/it]  1%|▏         | 1119/78504 [40:52<34:32:27,  1.61s/it]                                                       {'loss': 0.3267, 'grad_norm': 1.4307470321655273, 'learning_rate': 4.264424914023691e-06, 'epoch': 0.34}
  1%|▏         | 1119/78504 [40:52<34:32:27,  1.61s/it]  1%|▏         | 1120/78504 [40:53<32:33:45,  1.51s/it]                                                       {'loss': 0.3661, 'grad_norm': 2.791585683822632, 'learning_rate': 4.26824608330149e-06, 'epoch': 0.34}
  1%|▏         | 1120/78504 [40:53<32:33:45,  1.51s/it]  1%|▏         | 1121/78504 [40:54<30:17:06,  1.41s/it]                                                       {'loss': 0.4289, 'grad_norm': 9.107033729553223, 'learning_rate': 4.27206725257929e-06, 'epoch': 0.34}
  1%|▏         | 1121/78504 [40:54<30:17:06,  1.41s/it]  1%|▏         | 1122/78504 [40:55<28:18:51,  1.32s/it]                                                       {'loss': 0.4214, 'grad_norm': 4.044131278991699, 'learning_rate': 4.275888421857088e-06, 'epoch': 0.34}
  1%|▏         | 1122/78504 [40:55<28:18:51,  1.32s/it]  1%|▏         | 1123/78504 [40:56<26:36:37,  1.24s/it]                                                       {'loss': 0.4047, 'grad_norm': 1.9075394868850708, 'learning_rate': 4.279709591134888e-06, 'epoch': 0.34}
  1%|▏         | 1123/78504 [40:56<26:36:37,  1.24s/it]  1%|▏         | 1124/78504 [40:57<24:39:45,  1.15s/it]                                                       {'loss': 0.5156, 'grad_norm': 2.836144208908081, 'learning_rate': 4.283530760412687e-06, 'epoch': 0.34}
  1%|▏         | 1124/78504 [40:57<24:39:45,  1.15s/it]  1%|▏         | 1125/78504 [40:58<22:31:32,  1.05s/it]                                                       {'loss': 0.5951, 'grad_norm': 2.5184106826782227, 'learning_rate': 4.287351929690485e-06, 'epoch': 0.34}
  1%|▏         | 1125/78504 [40:58<22:31:32,  1.05s/it]  1%|▏         | 1126/78504 [41:08<76:24:15,  3.55s/it]                                                       {'loss': 0.2705, 'grad_norm': 0.9171217679977417, 'learning_rate': 4.291173098968285e-06, 'epoch': 0.34}
  1%|▏         | 1126/78504 [41:08<76:24:15,  3.55s/it]  1%|▏         | 1127/78504 [41:11<73:14:43,  3.41s/it]                                                       {'loss': 0.1875, 'grad_norm': 0.5947016477584839, 'learning_rate': 4.294994268246084e-06, 'epoch': 0.34}
  1%|▏         | 1127/78504 [41:11<73:14:43,  3.41s/it]  1%|▏         | 1128/78504 [41:13<67:52:49,  3.16s/it]                                                       {'loss': 0.1621, 'grad_norm': 0.7303478121757507, 'learning_rate': 4.2988154375238825e-06, 'epoch': 0.34}
  1%|▏         | 1128/78504 [41:13<67:52:49,  3.16s/it]  1%|▏         | 1129/78504 [41:16<64:30:55,  3.00s/it]                                                       {'loss': 0.149, 'grad_norm': 0.6008920669555664, 'learning_rate': 4.302636606801681e-06, 'epoch': 0.35}
  1%|▏         | 1129/78504 [41:16<64:30:55,  3.00s/it]  1%|▏         | 1130/78504 [41:18<61:06:05,  2.84s/it]                                                       {'loss': 0.1959, 'grad_norm': 0.8052994608879089, 'learning_rate': 4.306457776079481e-06, 'epoch': 0.35}
  1%|▏         | 1130/78504 [41:18<61:06:05,  2.84s/it]  1%|▏         | 1131/78504 [41:21<57:24:46,  2.67s/it]                                                       {'loss': 0.1683, 'grad_norm': 0.6567323803901672, 'learning_rate': 4.3102789453572796e-06, 'epoch': 0.35}
  1%|▏         | 1131/78504 [41:21<57:24:46,  2.67s/it]  1%|▏         | 1132/78504 [41:23<55:09:52,  2.57s/it]                                                       {'loss': 0.2163, 'grad_norm': 1.3648227453231812, 'learning_rate': 4.314100114635078e-06, 'epoch': 0.35}
  1%|▏         | 1132/78504 [41:23<55:09:52,  2.57s/it]  1%|▏         | 1133/78504 [41:25<52:07:00,  2.42s/it]                                                       {'loss': 0.164, 'grad_norm': 0.8216473460197449, 'learning_rate': 4.317921283912877e-06, 'epoch': 0.35}
  1%|▏         | 1133/78504 [41:25<52:07:00,  2.42s/it]  1%|▏         | 1134/78504 [41:27<50:35:54,  2.35s/it]                                                       {'loss': 0.1698, 'grad_norm': 0.7333937883377075, 'learning_rate': 4.321742453190677e-06, 'epoch': 0.35}
  1%|▏         | 1134/78504 [41:27<50:35:54,  2.35s/it]  1%|▏         | 1135/78504 [41:29<49:15:19,  2.29s/it]                                                       {'loss': 0.1711, 'grad_norm': 0.7512550354003906, 'learning_rate': 4.325563622468475e-06, 'epoch': 0.35}
  1%|▏         | 1135/78504 [41:29<49:15:19,  2.29s/it]  1%|▏         | 1136/78504 [41:31<47:25:11,  2.21s/it]                                                       {'loss': 0.162, 'grad_norm': 0.6834243535995483, 'learning_rate': 4.329384791746274e-06, 'epoch': 0.35}
  1%|▏         | 1136/78504 [41:31<47:25:11,  2.21s/it]  1%|▏         | 1137/78504 [41:33<46:00:07,  2.14s/it]                                                       {'loss': 0.21, 'grad_norm': 0.8810251951217651, 'learning_rate': 4.333205961024073e-06, 'epoch': 0.35}
  1%|▏         | 1137/78504 [41:33<46:00:07,  2.14s/it]  1%|▏         | 1138/78504 [41:35<44:13:53,  2.06s/it]                                                       {'loss': 0.2293, 'grad_norm': 1.0049279928207397, 'learning_rate': 4.3370271303018725e-06, 'epoch': 0.35}
  1%|▏         | 1138/78504 [41:35<44:13:53,  2.06s/it]  1%|▏         | 1139/78504 [41:37<43:02:04,  2.00s/it]                                                       {'loss': 0.2556, 'grad_norm': 1.8311522006988525, 'learning_rate': 4.340848299579671e-06, 'epoch': 0.35}
  1%|▏         | 1139/78504 [41:37<43:02:04,  2.00s/it]  1%|▏         | 1140/78504 [41:39<41:35:27,  1.94s/it]                                                       {'loss': 0.2703, 'grad_norm': 1.1780295372009277, 'learning_rate': 4.344669468857471e-06, 'epoch': 0.35}
  1%|▏         | 1140/78504 [41:39<41:35:27,  1.94s/it]  1%|▏         | 1141/78504 [41:41<39:51:27,  1.85s/it]                                                       {'loss': 0.2708, 'grad_norm': 2.1878504753112793, 'learning_rate': 4.3484906381352696e-06, 'epoch': 0.35}
  1%|▏         | 1141/78504 [41:41<39:51:27,  1.85s/it]  1%|▏         | 1142/78504 [41:42<37:53:02,  1.76s/it]                                                       {'loss': 0.3028, 'grad_norm': 1.6044468879699707, 'learning_rate': 4.352311807413069e-06, 'epoch': 0.35}
  1%|▏         | 1142/78504 [41:42<37:53:02,  1.76s/it]  1%|▏         | 1143/78504 [41:44<36:02:12,  1.68s/it]                                                       {'loss': 0.3491, 'grad_norm': 1.3686617612838745, 'learning_rate': 4.356132976690868e-06, 'epoch': 0.35}
  1%|▏         | 1143/78504 [41:44<36:02:12,  1.68s/it]  1%|▏         | 1144/78504 [41:45<34:24:12,  1.60s/it]                                                       {'loss': 0.3583, 'grad_norm': 1.4625345468521118, 'learning_rate': 4.359954145968667e-06, 'epoch': 0.35}
  1%|▏         | 1144/78504 [41:45<34:24:12,  1.60s/it]  1%|▏         | 1145/78504 [41:46<31:56:09,  1.49s/it]                                                       {'loss': 0.3969, 'grad_norm': 1.625711441040039, 'learning_rate': 4.363775315246465e-06, 'epoch': 0.35}
  1%|▏         | 1145/78504 [41:46<31:56:09,  1.49s/it]  1%|▏         | 1146/78504 [41:47<29:38:56,  1.38s/it]                                                       {'loss': 0.3894, 'grad_norm': 1.6420135498046875, 'learning_rate': 4.367596484524265e-06, 'epoch': 0.35}
  1%|▏         | 1146/78504 [41:47<29:38:56,  1.38s/it]  1%|▏         | 1147/78504 [41:48<27:49:30,  1.29s/it]                                                       {'loss': 0.4036, 'grad_norm': 1.8871665000915527, 'learning_rate': 4.371417653802064e-06, 'epoch': 0.35}
  1%|▏         | 1147/78504 [41:48<27:49:30,  1.29s/it]  1%|▏         | 1148/78504 [41:49<25:53:06,  1.20s/it]                                                       {'loss': 0.4323, 'grad_norm': 3.2323544025421143, 'learning_rate': 4.3752388230798625e-06, 'epoch': 0.35}
  1%|▏         | 1148/78504 [41:49<25:53:06,  1.20s/it]  1%|▏         | 1149/78504 [41:50<24:06:04,  1.12s/it]                                                       {'loss': 0.5179, 'grad_norm': 2.3272202014923096, 'learning_rate': 4.379059992357661e-06, 'epoch': 0.35}
  1%|▏         | 1149/78504 [41:50<24:06:04,  1.12s/it]  1%|▏         | 1150/78504 [41:51<21:53:18,  1.02s/it]                                                       {'loss': 0.6009, 'grad_norm': 4.4944963455200195, 'learning_rate': 4.382881161635461e-06, 'epoch': 0.35}
  1%|▏         | 1150/78504 [41:51<21:53:18,  1.02s/it]  1%|▏         | 1151/78504 [42:00<72:27:50,  3.37s/it]                                                       {'loss': 0.2907, 'grad_norm': 1.019527554512024, 'learning_rate': 4.3867023309132595e-06, 'epoch': 0.35}
  1%|▏         | 1151/78504 [42:00<72:27:50,  3.37s/it]  1%|▏         | 1152/78504 [42:03<69:31:11,  3.24s/it]                                                       {'loss': 0.1949, 'grad_norm': 0.7130956649780273, 'learning_rate': 4.390523500191058e-06, 'epoch': 0.35}
  1%|▏         | 1152/78504 [42:03<69:31:11,  3.24s/it]  1%|▏         | 1153/78504 [42:06<67:32:58,  3.14s/it]                                                       {'loss': 0.1656, 'grad_norm': 0.6597585082054138, 'learning_rate': 4.394344669468857e-06, 'epoch': 0.35}
  1%|▏         | 1153/78504 [42:06<67:32:58,  3.14s/it]  1%|▏         | 1154/78504 [42:08<63:55:08,  2.97s/it]                                                       {'loss': 0.1528, 'grad_norm': 0.5587711334228516, 'learning_rate': 4.398165838746657e-06, 'epoch': 0.35}
  1%|▏         | 1154/78504 [42:08<63:55:08,  2.97s/it]  1%|▏         | 1155/78504 [42:11<60:42:18,  2.83s/it]                                                       {'loss': 0.1723, 'grad_norm': 0.6974244713783264, 'learning_rate': 4.401987008024455e-06, 'epoch': 0.35}
  1%|▏         | 1155/78504 [42:11<60:42:18,  2.83s/it]  1%|▏         | 1156/78504 [42:13<57:09:41,  2.66s/it]                                                       {'loss': 0.1411, 'grad_norm': 2.3464181423187256, 'learning_rate': 4.405808177302254e-06, 'epoch': 0.35}
  1%|▏         | 1156/78504 [42:13<57:09:41,  2.66s/it]  1%|▏         | 1157/78504 [42:15<54:57:20,  2.56s/it]                                                       {'loss': 0.1236, 'grad_norm': 0.7518149018287659, 'learning_rate': 4.409629346580054e-06, 'epoch': 0.35}
  1%|▏         | 1157/78504 [42:15<54:57:20,  2.56s/it]  1%|▏         | 1158/78504 [42:18<52:07:23,  2.43s/it]                                                       {'loss': 0.2237, 'grad_norm': 0.9952051043510437, 'learning_rate': 4.4134505158578524e-06, 'epoch': 0.35}
  1%|▏         | 1158/78504 [42:18<52:07:23,  2.43s/it]  1%|▏         | 1159/78504 [42:20<50:33:17,  2.35s/it]                                                       {'loss': 0.1668, 'grad_norm': 0.9834770560264587, 'learning_rate': 4.417271685135651e-06, 'epoch': 0.35}
  1%|▏         | 1159/78504 [42:20<50:33:17,  2.35s/it]  1%|▏         | 1160/78504 [42:22<49:23:32,  2.30s/it]                                                       {'loss': 0.187, 'grad_norm': 1.851924180984497, 'learning_rate': 4.421092854413451e-06, 'epoch': 0.35}
  1%|▏         | 1160/78504 [42:22<49:23:32,  2.30s/it]  1%|▏         | 1161/78504 [42:24<46:34:37,  2.17s/it]                                                       {'loss': 0.2206, 'grad_norm': 0.8051882386207581, 'learning_rate': 4.42491402369125e-06, 'epoch': 0.35}
  1%|▏         | 1161/78504 [42:24<46:34:37,  2.17s/it]  1%|▏         | 1162/78504 [42:26<45:24:04,  2.11s/it]                                                       {'loss': 0.2111, 'grad_norm': 2.004366636276245, 'learning_rate': 4.428735192969049e-06, 'epoch': 0.36}
  1%|▏         | 1162/78504 [42:26<45:24:04,  2.11s/it]  1%|▏         | 1163/78504 [42:28<44:10:33,  2.06s/it]                                                       {'loss': 0.2049, 'grad_norm': 0.8372135162353516, 'learning_rate': 4.432556362246848e-06, 'epoch': 0.36}
  1%|▏         | 1163/78504 [42:28<44:10:33,  2.06s/it]  1%|▏         | 1164/78504 [42:30<43:02:20,  2.00s/it]                                                       {'loss': 0.2359, 'grad_norm': 0.9269620180130005, 'learning_rate': 4.436377531524647e-06, 'epoch': 0.36}
  1%|▏         | 1164/78504 [42:30<43:02:20,  2.00s/it]  1%|▏         | 1165/78504 [42:31<41:30:21,  1.93s/it]                                                       {'loss': 0.2334, 'grad_norm': 0.8397481441497803, 'learning_rate': 4.440198700802446e-06, 'epoch': 0.36}
  1%|▏         | 1165/78504 [42:31<41:30:21,  1.93s/it]  1%|▏         | 1166/78504 [42:33<39:13:14,  1.83s/it]                                                       {'loss': 0.2583, 'grad_norm': 0.9950135350227356, 'learning_rate': 4.444019870080245e-06, 'epoch': 0.36}
  1%|▏         | 1166/78504 [42:33<39:13:14,  1.83s/it]  1%|▏         | 1167/78504 [42:34<37:24:22,  1.74s/it]                                                       {'loss': 0.3058, 'grad_norm': 1.252647876739502, 'learning_rate': 4.447841039358044e-06, 'epoch': 0.36}
  1%|▏         | 1167/78504 [42:34<37:24:22,  1.74s/it]  1%|▏         | 1168/78504 [42:36<35:38:47,  1.66s/it]                                                       {'loss': 0.313, 'grad_norm': 1.8272062540054321, 'learning_rate': 4.4516622086358424e-06, 'epoch': 0.36}
  1%|▏         | 1168/78504 [42:36<35:38:47,  1.66s/it]  1%|▏         | 1169/78504 [42:37<34:11:55,  1.59s/it]                                                       {'loss': 0.3409, 'grad_norm': 1.408332109451294, 'learning_rate': 4.455483377913642e-06, 'epoch': 0.36}
  1%|▏         | 1169/78504 [42:37<34:11:55,  1.59s/it]  1%|▏         | 1170/78504 [42:39<32:12:59,  1.50s/it]                                                       {'loss': 0.3515, 'grad_norm': 1.6306763887405396, 'learning_rate': 4.459304547191441e-06, 'epoch': 0.36}
  1%|▏         | 1170/78504 [42:39<32:12:59,  1.50s/it]  1%|▏         | 1171/78504 [42:40<29:52:45,  1.39s/it]                                                       {'loss': 0.4033, 'grad_norm': 2.2903521060943604, 'learning_rate': 4.4631257164692395e-06, 'epoch': 0.36}
  1%|▏         | 1171/78504 [42:40<29:52:45,  1.39s/it]  1%|▏         | 1172/78504 [42:41<27:58:13,  1.30s/it]                                                       {'loss': 0.3847, 'grad_norm': 1.9211477041244507, 'learning_rate': 4.466946885747038e-06, 'epoch': 0.36}
  1%|▏         | 1172/78504 [42:41<27:58:13,  1.30s/it]  1%|▏         | 1173/78504 [42:42<25:58:19,  1.21s/it]                                                       {'loss': 0.4541, 'grad_norm': 2.318091630935669, 'learning_rate': 4.470768055024838e-06, 'epoch': 0.36}
  1%|▏         | 1173/78504 [42:42<25:58:19,  1.21s/it]  1%|▏         | 1174/78504 [42:43<24:25:22,  1.14s/it]                                                       {'loss': 0.555, 'grad_norm': 2.068183183670044, 'learning_rate': 4.474589224302637e-06, 'epoch': 0.36}
  1%|▏         | 1174/78504 [42:43<24:25:22,  1.14s/it]  1%|▏         | 1175/78504 [42:44<22:10:52,  1.03s/it]                                                       {'loss': 0.5953, 'grad_norm': 3.0729846954345703, 'learning_rate': 4.478410393580435e-06, 'epoch': 0.36}
  1%|▏         | 1175/78504 [42:44<22:10:52,  1.03s/it]  1%|▏         | 1176/78504 [42:51<61:18:36,  2.85s/it]                                                       {'loss': 0.2732, 'grad_norm': 0.7593841552734375, 'learning_rate': 4.482231562858234e-06, 'epoch': 0.36}
  1%|▏         | 1176/78504 [42:51<61:18:36,  2.85s/it]  1%|▏         | 1177/78504 [42:54<63:58:57,  2.98s/it]                                                       {'loss': 0.1496, 'grad_norm': 0.5460600256919861, 'learning_rate': 4.486052732136034e-06, 'epoch': 0.36}
  1%|▏         | 1177/78504 [42:54<63:58:57,  2.98s/it]  2%|▏         | 1178/78504 [42:57<64:02:32,  2.98s/it]                                                       {'loss': 0.1748, 'grad_norm': 0.776069700717926, 'learning_rate': 4.4898739014138324e-06, 'epoch': 0.36}
  2%|▏         | 1178/78504 [42:57<64:02:32,  2.98s/it]  2%|▏         | 1179/78504 [43:00<61:42:20,  2.87s/it]                                                       {'loss': 0.1481, 'grad_norm': 0.6357946991920471, 'learning_rate': 4.493695070691632e-06, 'epoch': 0.36}
  2%|▏         | 1179/78504 [43:00<61:42:20,  2.87s/it]  2%|▏         | 1180/78504 [43:02<59:07:30,  2.75s/it]                                                       {'loss': 0.1284, 'grad_norm': 0.6793935894966125, 'learning_rate': 4.497516239969431e-06, 'epoch': 0.36}
  2%|▏         | 1180/78504 [43:02<59:07:30,  2.75s/it]  2%|▏         | 1181/78504 [43:04<56:02:31,  2.61s/it]                                                       {'loss': 0.1293, 'grad_norm': 0.7535185217857361, 'learning_rate': 4.50133740924723e-06, 'epoch': 0.36}
  2%|▏         | 1181/78504 [43:04<56:02:31,  2.61s/it]  2%|▏         | 1182/78504 [43:07<54:10:57,  2.52s/it]                                                       {'loss': 0.1343, 'grad_norm': 0.637328565120697, 'learning_rate': 4.505158578525029e-06, 'epoch': 0.36}
  2%|▏         | 1182/78504 [43:07<54:10:57,  2.52s/it]  2%|▏         | 1183/78504 [43:09<52:47:34,  2.46s/it]                                                       {'loss': 0.1902, 'grad_norm': 0.9011083841323853, 'learning_rate': 4.508979747802828e-06, 'epoch': 0.36}
  2%|▏         | 1183/78504 [43:09<52:47:34,  2.46s/it]  2%|▏         | 1184/78504 [43:11<51:03:51,  2.38s/it]                                                       {'loss': 0.1781, 'grad_norm': 0.7913046479225159, 'learning_rate': 4.512800917080627e-06, 'epoch': 0.36}
  2%|▏         | 1184/78504 [43:11<51:03:51,  2.38s/it]  2%|▏         | 1185/78504 [43:13<49:34:24,  2.31s/it]                                                       {'loss': 0.1995, 'grad_norm': 0.8933420777320862, 'learning_rate': 4.516622086358426e-06, 'epoch': 0.36}
  2%|▏         | 1185/78504 [43:13<49:34:24,  2.31s/it]  2%|▏         | 1186/78504 [43:15<47:43:40,  2.22s/it]                                                       {'loss': 0.158, 'grad_norm': 0.7659948468208313, 'learning_rate': 4.520443255636225e-06, 'epoch': 0.36}
  2%|▏         | 1186/78504 [43:15<47:43:40,  2.22s/it]  2%|▏         | 1187/78504 [43:17<46:12:07,  2.15s/it]                                                       {'loss': 0.2086, 'grad_norm': 1.0395658016204834, 'learning_rate': 4.524264424914024e-06, 'epoch': 0.36}
  2%|▏         | 1187/78504 [43:17<46:12:07,  2.15s/it]  2%|▏         | 1188/78504 [43:19<44:22:19,  2.07s/it]                                                       {'loss': 0.2109, 'grad_norm': 1.2591477632522583, 'learning_rate': 4.528085594191822e-06, 'epoch': 0.36}
  2%|▏         | 1188/78504 [43:19<44:22:19,  2.07s/it]  2%|▏         | 1189/78504 [43:21<43:09:22,  2.01s/it]                                                       {'loss': 0.2713, 'grad_norm': 1.366073489189148, 'learning_rate': 4.531906763469622e-06, 'epoch': 0.36}
  2%|▏         | 1189/78504 [43:21<43:09:22,  2.01s/it]  2%|▏         | 1190/78504 [43:23<41:35:28,  1.94s/it]                                                       {'loss': 0.2742, 'grad_norm': 1.0495946407318115, 'learning_rate': 4.535727932747421e-06, 'epoch': 0.36}
  2%|▏         | 1190/78504 [43:23<41:35:28,  1.94s/it]  2%|▏         | 1191/78504 [43:25<39:54:08,  1.86s/it]                                                       {'loss': 0.2989, 'grad_norm': 2.097355842590332, 'learning_rate': 4.5395491020252195e-06, 'epoch': 0.36}
  2%|▏         | 1191/78504 [43:25<39:54:08,  1.86s/it]  2%|▏         | 1192/78504 [43:26<37:56:02,  1.77s/it]                                                       {'loss': 0.3166, 'grad_norm': 4.305901527404785, 'learning_rate': 4.543370271303019e-06, 'epoch': 0.36}
  2%|▏         | 1192/78504 [43:26<37:56:02,  1.77s/it]  2%|▏         | 1193/78504 [43:28<36:02:35,  1.68s/it]                                                       {'loss': 0.3717, 'grad_norm': 1.4982064962387085, 'learning_rate': 4.547191440580818e-06, 'epoch': 0.36}
  2%|▏         | 1193/78504 [43:28<36:02:35,  1.68s/it]  2%|▏         | 1194/78504 [43:29<34:25:11,  1.60s/it]                                                       {'loss': 0.351, 'grad_norm': 1.4732321500778198, 'learning_rate': 4.5510126098586166e-06, 'epoch': 0.37}
  2%|▏         | 1194/78504 [43:29<34:25:11,  1.60s/it]  2%|▏         | 1195/78504 [43:30<32:29:09,  1.51s/it]                                                       {'loss': 0.3883, 'grad_norm': 1.4862436056137085, 'learning_rate': 4.554833779136415e-06, 'epoch': 0.37}
  2%|▏         | 1195/78504 [43:30<32:29:09,  1.51s/it]  2%|▏         | 1196/78504 [43:31<30:33:00,  1.42s/it]                                                       {'loss': 0.4332, 'grad_norm': 1.484092116355896, 'learning_rate': 4.558654948414215e-06, 'epoch': 0.37}
  2%|▏         | 1196/78504 [43:32<30:33:00,  1.42s/it]  2%|▏         | 1197/78504 [43:33<28:29:31,  1.33s/it]                                                       {'loss': 0.3552, 'grad_norm': 1.7387186288833618, 'learning_rate': 4.562476117692014e-06, 'epoch': 0.37}
  2%|▏         | 1197/78504 [43:33<28:29:31,  1.33s/it]  2%|▏         | 1198/78504 [43:34<26:46:13,  1.25s/it]                                                       {'loss': 0.4179, 'grad_norm': 2.1320910453796387, 'learning_rate': 4.566297286969812e-06, 'epoch': 0.37}
  2%|▏         | 1198/78504 [43:34<26:46:13,  1.25s/it]  2%|▏         | 1199/78504 [43:35<24:43:36,  1.15s/it]                                                       {'loss': 0.4558, 'grad_norm': 2.523535966873169, 'learning_rate': 4.570118456247612e-06, 'epoch': 0.37}
  2%|▏         | 1199/78504 [43:35<24:43:36,  1.15s/it]  2%|▏         | 1200/78504 [43:35<22:24:00,  1.04s/it]                                                       {'loss': 0.5766, 'grad_norm': 2.65391206741333, 'learning_rate': 4.573939625525412e-06, 'epoch': 0.37}
  2%|▏         | 1200/78504 [43:35<22:24:00,  1.04s/it]  2%|▏         | 1201/78504 [43:44<74:06:31,  3.45s/it]                                                       {'loss': 0.2372, 'grad_norm': 1.5112229585647583, 'learning_rate': 4.57776079480321e-06, 'epoch': 0.37}
  2%|▏         | 1201/78504 [43:44<74:06:31,  3.45s/it]  2%|▏         | 1202/78504 [43:48<73:10:54,  3.41s/it]                                                       {'loss': 0.1654, 'grad_norm': 0.6302282810211182, 'learning_rate': 4.581581964081009e-06, 'epoch': 0.37}
  2%|▏         | 1202/78504 [43:48<73:10:54,  3.41s/it]  2%|▏         | 1203/78504 [43:51<70:28:42,  3.28s/it]                                                       {'loss': 0.1819, 'grad_norm': 1.6004841327667236, 'learning_rate': 4.585403133358808e-06, 'epoch': 0.37}
  2%|▏         | 1203/78504 [43:51<70:28:42,  3.28s/it]  2%|▏         | 1204/78504 [43:53<66:01:24,  3.07s/it]                                                       {'loss': 0.1512, 'grad_norm': 1.3499172925949097, 'learning_rate': 4.589224302636607e-06, 'epoch': 0.37}
  2%|▏         | 1204/78504 [43:53<66:01:24,  3.07s/it]  2%|▏         | 1205/78504 [43:56<62:16:59,  2.90s/it]                                                       {'loss': 0.1307, 'grad_norm': 0.5445764064788818, 'learning_rate': 4.593045471914406e-06, 'epoch': 0.37}
  2%|▏         | 1205/78504 [43:56<62:16:59,  2.90s/it]  2%|▏         | 1206/78504 [43:58<57:47:01,  2.69s/it]                                                       {'loss': 0.1537, 'grad_norm': 0.7139901518821716, 'learning_rate': 4.596866641192205e-06, 'epoch': 0.37}
  2%|▏         | 1206/78504 [43:58<57:47:01,  2.69s/it]  2%|▏         | 1207/78504 [44:00<55:30:37,  2.59s/it]                                                       {'loss': 0.1317, 'grad_norm': 0.652698814868927, 'learning_rate': 4.600687810470004e-06, 'epoch': 0.37}
  2%|▏         | 1207/78504 [44:00<55:30:37,  2.59s/it]  2%|▏         | 1208/78504 [44:02<52:25:45,  2.44s/it]                                                       {'loss': 0.1396, 'grad_norm': 0.6621175408363342, 'learning_rate': 4.604508979747803e-06, 'epoch': 0.37}
  2%|▏         | 1208/78504 [44:02<52:25:45,  2.44s/it]  2%|▏         | 1209/78504 [44:05<50:47:11,  2.37s/it]                                                       {'loss': 0.2034, 'grad_norm': 2.3930506706237793, 'learning_rate': 4.608330149025602e-06, 'epoch': 0.37}
  2%|▏         | 1209/78504 [44:05<50:47:11,  2.37s/it]  2%|▏         | 1210/78504 [44:07<49:23:08,  2.30s/it]                                                       {'loss': 0.179, 'grad_norm': 0.5879676342010498, 'learning_rate': 4.612151318303401e-06, 'epoch': 0.37}
  2%|▏         | 1210/78504 [44:07<49:23:08,  2.30s/it]  2%|▏         | 1211/78504 [44:09<47:38:15,  2.22s/it]                                                       {'loss': 0.216, 'grad_norm': 0.8301270008087158, 'learning_rate': 4.6159724875811995e-06, 'epoch': 0.37}
  2%|▏         | 1211/78504 [44:09<47:38:15,  2.22s/it]  2%|▏         | 1212/78504 [44:11<46:07:44,  2.15s/it]                                                       {'loss': 0.1584, 'grad_norm': 0.9897774457931519, 'learning_rate': 4.619793656858999e-06, 'epoch': 0.37}
  2%|▏         | 1212/78504 [44:11<46:07:44,  2.15s/it]  2%|▏         | 1213/78504 [44:13<44:26:30,  2.07s/it]                                                       {'loss': 0.2009, 'grad_norm': 0.8671888113021851, 'learning_rate': 4.623614826136798e-06, 'epoch': 0.37}
  2%|▏         | 1213/78504 [44:13<44:26:30,  2.07s/it]  2%|▏         | 1214/78504 [44:15<42:56:36,  2.00s/it]                                                       {'loss': 0.2442, 'grad_norm': 1.2332406044006348, 'learning_rate': 4.6274359954145965e-06, 'epoch': 0.37}
  2%|▏         | 1214/78504 [44:15<42:56:36,  2.00s/it]  2%|▏         | 1215/78504 [44:16<41:15:33,  1.92s/it]                                                       {'loss': 0.2362, 'grad_norm': 1.0080281496047974, 'learning_rate': 4.631257164692395e-06, 'epoch': 0.37}
  2%|▏         | 1215/78504 [44:16<41:15:33,  1.92s/it]  2%|▏         | 1216/78504 [44:18<39:27:35,  1.84s/it]                                                       {'loss': 0.2614, 'grad_norm': 1.6309752464294434, 'learning_rate': 4.635078333970195e-06, 'epoch': 0.37}
  2%|▏         | 1216/78504 [44:18<39:27:35,  1.84s/it]  2%|▏         | 1217/78504 [44:19<37:36:18,  1.75s/it]                                                       {'loss': 0.299, 'grad_norm': 2.336900472640991, 'learning_rate': 4.638899503247994e-06, 'epoch': 0.37}
  2%|▏         | 1217/78504 [44:19<37:36:18,  1.75s/it]  2%|▏         | 1218/78504 [44:21<35:46:55,  1.67s/it]                                                       {'loss': 0.3456, 'grad_norm': 1.335769772529602, 'learning_rate': 4.642720672525793e-06, 'epoch': 0.37}
  2%|▏         | 1218/78504 [44:21<35:46:55,  1.67s/it]  2%|▏         | 1219/78504 [44:22<33:59:09,  1.58s/it]                                                       {'loss': 0.316, 'grad_norm': 1.6250522136688232, 'learning_rate': 4.646541841803592e-06, 'epoch': 0.37}
  2%|▏         | 1219/78504 [44:22<33:59:09,  1.58s/it]  2%|▏         | 1220/78504 [44:24<32:04:27,  1.49s/it]                                                       {'loss': 0.3646, 'grad_norm': 1.1951230764389038, 'learning_rate': 4.6503630110813916e-06, 'epoch': 0.37}
  2%|▏         | 1220/78504 [44:24<32:04:27,  1.49s/it]  2%|▏         | 1221/78504 [44:25<29:53:37,  1.39s/it]                                                       {'loss': 0.3933, 'grad_norm': 1.4477193355560303, 'learning_rate': 4.65418418035919e-06, 'epoch': 0.37}
  2%|▏         | 1221/78504 [44:25<29:53:37,  1.39s/it]  2%|▏         | 1222/78504 [44:26<27:57:06,  1.30s/it]                                                       {'loss': 0.4151, 'grad_norm': 2.3576576709747314, 'learning_rate': 4.658005349636989e-06, 'epoch': 0.37}
  2%|▏         | 1222/78504 [44:26<27:57:06,  1.30s/it]  2%|▏         | 1223/78504 [44:27<26:18:34,  1.23s/it]                                                       {'loss': 0.4628, 'grad_norm': 2.3455891609191895, 'learning_rate': 4.661826518914789e-06, 'epoch': 0.37}
  2%|▏         | 1223/78504 [44:27<26:18:34,  1.23s/it]  2%|▏         | 1224/78504 [44:28<24:25:08,  1.14s/it]                                                       {'loss': 0.451, 'grad_norm': 3.121619939804077, 'learning_rate': 4.665647688192587e-06, 'epoch': 0.37}
  2%|▏         | 1224/78504 [44:28<24:25:08,  1.14s/it]  2%|▏         | 1225/78504 [44:29<22:09:24,  1.03s/it]                                                       {'loss': 0.6167, 'grad_norm': 5.18320894241333, 'learning_rate': 4.669468857470386e-06, 'epoch': 0.37}
  2%|▏         | 1225/78504 [44:29<22:09:24,  1.03s/it]  2%|▏         | 1226/78504 [44:39<79:34:32,  3.71s/it]                                                       {'loss': 0.2915, 'grad_norm': 0.9331083297729492, 'learning_rate': 4.673290026748185e-06, 'epoch': 0.37}
  2%|▏         | 1226/78504 [44:39<79:34:32,  3.71s/it]  2%|▏         | 1227/78504 [44:42<77:25:24,  3.61s/it]                                                       {'loss': 0.1623, 'grad_norm': 0.6090571880340576, 'learning_rate': 4.6771111960259845e-06, 'epoch': 0.38}
  2%|▏         | 1227/78504 [44:42<77:25:24,  3.61s/it]  2%|▏         | 1228/78504 [44:45<72:08:30,  3.36s/it]                                                       {'loss': 0.1677, 'grad_norm': 0.5480424165725708, 'learning_rate': 4.680932365303783e-06, 'epoch': 0.38}
  2%|▏         | 1228/78504 [44:45<72:08:30,  3.36s/it]  2%|▏         | 1229/78504 [44:47<67:22:01,  3.14s/it]                                                       {'loss': 0.1364, 'grad_norm': 0.6573004722595215, 'learning_rate': 4.684753534581582e-06, 'epoch': 0.38}
  2%|▏         | 1229/78504 [44:47<67:22:01,  3.14s/it]  2%|▏         | 1230/78504 [44:50<63:05:45,  2.94s/it]                                                       {'loss': 0.1303, 'grad_norm': 0.573586642742157, 'learning_rate': 4.688574703859381e-06, 'epoch': 0.38}
  2%|▏         | 1230/78504 [44:50<63:05:45,  2.94s/it]  2%|▏         | 1231/78504 [44:52<59:50:32,  2.79s/it]                                                       {'loss': 0.1454, 'grad_norm': 0.7404967546463013, 'learning_rate': 4.69239587313718e-06, 'epoch': 0.38}
  2%|▏         | 1231/78504 [44:52<59:50:32,  2.79s/it]  2%|▏         | 1232/78504 [44:55<56:50:52,  2.65s/it]                                                       {'loss': 0.1344, 'grad_norm': 0.6259741187095642, 'learning_rate': 4.696217042414979e-06, 'epoch': 0.38}
  2%|▏         | 1232/78504 [44:55<56:50:52,  2.65s/it]  2%|▏         | 1233/78504 [44:57<53:25:08,  2.49s/it]                                                       {'loss': 0.1754, 'grad_norm': 0.6448951363563538, 'learning_rate': 4.700038211692778e-06, 'epoch': 0.38}
  2%|▏         | 1233/78504 [44:57<53:25:08,  2.49s/it]  2%|▏         | 1234/78504 [44:59<51:27:52,  2.40s/it]                                                       {'loss': 0.1477, 'grad_norm': 0.6660234928131104, 'learning_rate': 4.7038593809705765e-06, 'epoch': 0.38}
  2%|▏         | 1234/78504 [44:59<51:27:52,  2.40s/it]  2%|▏         | 1235/78504 [45:01<50:00:26,  2.33s/it]                                                       {'loss': 0.1984, 'grad_norm': 0.7363557815551758, 'learning_rate': 4.707680550248376e-06, 'epoch': 0.38}
  2%|▏         | 1235/78504 [45:01<50:00:26,  2.33s/it]  2%|▏         | 1236/78504 [45:03<48:06:03,  2.24s/it]                                                       {'loss': 0.1789, 'grad_norm': 1.0360037088394165, 'learning_rate': 4.711501719526175e-06, 'epoch': 0.38}
  2%|▏         | 1236/78504 [45:03<48:06:03,  2.24s/it]  2%|▏         | 1237/78504 [45:05<46:23:28,  2.16s/it]                                                       {'loss': 0.2025, 'grad_norm': 0.7956397533416748, 'learning_rate': 4.715322888803974e-06, 'epoch': 0.38}
  2%|▏         | 1237/78504 [45:05<46:23:28,  2.16s/it]  2%|▏         | 1238/78504 [45:07<44:30:39,  2.07s/it]                                                       {'loss': 0.2078, 'grad_norm': 0.9116426110267639, 'learning_rate': 4.719144058081773e-06, 'epoch': 0.38}
  2%|▏         | 1238/78504 [45:07<44:30:39,  2.07s/it]  2%|▏         | 1239/78504 [45:09<43:10:20,  2.01s/it]                                                       {'loss': 0.2724, 'grad_norm': 1.4188889265060425, 'learning_rate': 4.722965227359573e-06, 'epoch': 0.38}
  2%|▏         | 1239/78504 [45:09<43:10:20,  2.01s/it]  2%|▏         | 1240/78504 [45:11<41:35:27,  1.94s/it]                                                       {'loss': 0.2228, 'grad_norm': 0.9818515181541443, 'learning_rate': 4.7267863966373715e-06, 'epoch': 0.38}
  2%|▏         | 1240/78504 [45:11<41:35:27,  1.94s/it]  2%|▏         | 1241/78504 [45:12<39:47:53,  1.85s/it]                                                       {'loss': 0.2944, 'grad_norm': 0.9690314531326294, 'learning_rate': 4.73060756591517e-06, 'epoch': 0.38}
  2%|▏         | 1241/78504 [45:12<39:47:53,  1.85s/it]  2%|▏         | 1242/78504 [45:14<37:49:20,  1.76s/it]                                                       {'loss': 0.2757, 'grad_norm': 1.0667005777359009, 'learning_rate': 4.734428735192969e-06, 'epoch': 0.38}
  2%|▏         | 1242/78504 [45:14<37:49:20,  1.76s/it]  2%|▏         | 1243/78504 [45:15<36:13:26,  1.69s/it]                                                       {'loss': 0.3291, 'grad_norm': 1.805499792098999, 'learning_rate': 4.738249904470769e-06, 'epoch': 0.38}
  2%|▏         | 1243/78504 [45:15<36:13:26,  1.69s/it]  2%|▏         | 1244/78504 [45:17<34:20:03,  1.60s/it]                                                       {'loss': 0.3119, 'grad_norm': 2.141906976699829, 'learning_rate': 4.742071073748567e-06, 'epoch': 0.38}
  2%|▏         | 1244/78504 [45:17<34:20:03,  1.60s/it]  2%|▏         | 1245/78504 [45:18<32:23:20,  1.51s/it]                                                       {'loss': 0.3759, 'grad_norm': 1.2072532176971436, 'learning_rate': 4.745892243026366e-06, 'epoch': 0.38}
  2%|▏         | 1245/78504 [45:18<32:23:20,  1.51s/it]  2%|▏         | 1246/78504 [45:19<30:09:02,  1.40s/it]                                                       {'loss': 0.4293, 'grad_norm': 1.837446689605713, 'learning_rate': 4.749713412304165e-06, 'epoch': 0.38}
  2%|▏         | 1246/78504 [45:19<30:09:02,  1.40s/it]  2%|▏         | 1247/78504 [45:20<28:13:04,  1.31s/it]                                                       {'loss': 0.4032, 'grad_norm': 10.997689247131348, 'learning_rate': 4.7535345815819644e-06, 'epoch': 0.38}
  2%|▏         | 1247/78504 [45:20<28:13:04,  1.31s/it]  2%|▏         | 1248/78504 [45:21<26:32:54,  1.24s/it]                                                       {'loss': 0.4073, 'grad_norm': 2.047083854675293, 'learning_rate': 4.757355750859763e-06, 'epoch': 0.38}
  2%|▏         | 1248/78504 [45:21<26:32:54,  1.24s/it]  2%|▏         | 1249/78504 [45:22<24:38:28,  1.15s/it]                                                       {'loss': 0.4536, 'grad_norm': 1.693834662437439, 'learning_rate': 4.761176920137562e-06, 'epoch': 0.38}
  2%|▏         | 1249/78504 [45:22<24:38:28,  1.15s/it]  2%|▏         | 1250/78504 [45:23<22:30:25,  1.05s/it]                                                       {'loss': 0.5747, 'grad_norm': 3.0123660564422607, 'learning_rate': 4.764998089415361e-06, 'epoch': 0.38}
  2%|▏         | 1250/78504 [45:23<22:30:25,  1.05s/it]  2%|▏         | 1251/78504 [45:31<65:49:31,  3.07s/it]                                                       {'loss': 0.2484, 'grad_norm': 0.966464102268219, 'learning_rate': 4.76881925869316e-06, 'epoch': 0.38}
  2%|▏         | 1251/78504 [45:31<65:49:31,  3.07s/it]  2%|▏         | 1252/78504 [45:34<66:03:46,  3.08s/it]                                                       {'loss': 0.1966, 'grad_norm': 0.6172966957092285, 'learning_rate': 4.772640427970959e-06, 'epoch': 0.38}
  2%|▏         | 1252/78504 [45:34<66:03:46,  3.08s/it]  2%|▏         | 1253/78504 [45:37<65:06:16,  3.03s/it]                                                       {'loss': 0.1782, 'grad_norm': 0.8758047223091125, 'learning_rate': 4.776461597248758e-06, 'epoch': 0.38}
  2%|▏         | 1253/78504 [45:37<65:06:16,  3.03s/it]  2%|▏         | 1254/78504 [45:39<62:11:59,  2.90s/it]                                                       {'loss': 0.1519, 'grad_norm': 0.6286633610725403, 'learning_rate': 4.780282766526557e-06, 'epoch': 0.38}
  2%|▏         | 1254/78504 [45:39<62:11:59,  2.90s/it]  2%|▏         | 1255/78504 [45:42<59:32:29,  2.77s/it]                                                       {'loss': 0.165, 'grad_norm': 0.7264947891235352, 'learning_rate': 4.784103935804356e-06, 'epoch': 0.38}
  2%|▏         | 1255/78504 [45:42<59:32:29,  2.77s/it]  2%|▏         | 1256/78504 [45:44<57:20:36,  2.67s/it]                                                       {'loss': 0.1416, 'grad_norm': 0.7599061727523804, 'learning_rate': 4.787925105082155e-06, 'epoch': 0.38}
  2%|▏         | 1256/78504 [45:44<57:20:36,  2.67s/it]  2%|▏         | 1257/78504 [45:47<55:06:18,  2.57s/it]                                                       {'loss': 0.1296, 'grad_norm': 0.4763408303260803, 'learning_rate': 4.7917462743599544e-06, 'epoch': 0.38}
  2%|▏         | 1257/78504 [45:47<55:06:18,  2.57s/it]  2%|▏         | 1258/78504 [45:49<53:26:41,  2.49s/it]                                                       {'loss': 0.1672, 'grad_norm': 0.9735826849937439, 'learning_rate': 4.795567443637754e-06, 'epoch': 0.38}
  2%|▏         | 1258/78504 [45:49<53:26:41,  2.49s/it]  2%|▏         | 1259/78504 [45:51<51:32:37,  2.40s/it]                                                       {'loss': 0.2141, 'grad_norm': 1.1784754991531372, 'learning_rate': 4.799388612915553e-06, 'epoch': 0.38}
  2%|▏         | 1259/78504 [45:51<51:32:37,  2.40s/it]  2%|▏         | 1260/78504 [45:53<50:01:55,  2.33s/it]                                                       {'loss': 0.1299, 'grad_norm': 0.5954272150993347, 'learning_rate': 4.8032097821933515e-06, 'epoch': 0.39}
  2%|▏         | 1260/78504 [45:53<50:01:55,  2.33s/it]  2%|▏         | 1261/78504 [45:55<48:05:05,  2.24s/it]                                                       {'loss': 0.1962, 'grad_norm': 0.9857587814331055, 'learning_rate': 4.80703095147115e-06, 'epoch': 0.39}
  2%|▏         | 1261/78504 [45:55<48:05:05,  2.24s/it]  2%|▏         | 1262/78504 [45:57<46:27:18,  2.17s/it]                                                       {'loss': 0.1764, 'grad_norm': 0.8069046139717102, 'learning_rate': 4.81085212074895e-06, 'epoch': 0.39}
  2%|▏         | 1262/78504 [45:57<46:27:18,  2.17s/it]  2%|▏         | 1263/78504 [45:59<44:44:06,  2.08s/it]                                                       {'loss': 0.2051, 'grad_norm': 0.7979682087898254, 'learning_rate': 4.814673290026749e-06, 'epoch': 0.39}
  2%|▏         | 1263/78504 [45:59<44:44:06,  2.08s/it]  2%|▏         | 1264/78504 [46:01<43:23:35,  2.02s/it]                                                       {'loss': 0.2215, 'grad_norm': 0.8909856081008911, 'learning_rate': 4.818494459304547e-06, 'epoch': 0.39}
  2%|▏         | 1264/78504 [46:01<43:23:35,  2.02s/it]  2%|▏         | 1265/78504 [46:03<41:45:15,  1.95s/it]                                                       {'loss': 0.2247, 'grad_norm': 0.7755007147789001, 'learning_rate': 4.822315628582346e-06, 'epoch': 0.39}
  2%|▏         | 1265/78504 [46:03<41:45:15,  1.95s/it]  2%|▏         | 1266/78504 [46:05<39:56:57,  1.86s/it]                                                       {'loss': 0.2763, 'grad_norm': 1.0999784469604492, 'learning_rate': 4.826136797860146e-06, 'epoch': 0.39}
  2%|▏         | 1266/78504 [46:05<39:56:57,  1.86s/it]  2%|▏         | 1267/78504 [46:06<37:51:42,  1.76s/it]                                                       {'loss': 0.3282, 'grad_norm': 1.3482717275619507, 'learning_rate': 4.829957967137944e-06, 'epoch': 0.39}
  2%|▏         | 1267/78504 [46:06<37:51:42,  1.76s/it]  2%|▏         | 1268/78504 [46:08<35:59:23,  1.68s/it]                                                       {'loss': 0.3597, 'grad_norm': 1.530321717262268, 'learning_rate': 4.833779136415743e-06, 'epoch': 0.39}
  2%|▏         | 1268/78504 [46:08<35:59:23,  1.68s/it]  2%|▏         | 1269/78504 [46:09<34:21:59,  1.60s/it]                                                       {'loss': 0.3259, 'grad_norm': 1.3318259716033936, 'learning_rate': 4.837600305693542e-06, 'epoch': 0.39}
  2%|▏         | 1269/78504 [46:09<34:21:59,  1.60s/it]  2%|▏         | 1270/78504 [46:10<32:22:53,  1.51s/it]                                                       {'loss': 0.3545, 'grad_norm': 1.4329966306686401, 'learning_rate': 4.8414214749713415e-06, 'epoch': 0.39}
  2%|▏         | 1270/78504 [46:10<32:22:53,  1.51s/it]  2%|▏         | 1271/78504 [46:11<29:56:42,  1.40s/it]                                                       {'loss': 0.3543, 'grad_norm': 1.8052146434783936, 'learning_rate': 4.84524264424914e-06, 'epoch': 0.39}
  2%|▏         | 1271/78504 [46:11<29:56:42,  1.40s/it]  2%|▏         | 1272/78504 [46:13<28:03:32,  1.31s/it]                                                       {'loss': 0.4046, 'grad_norm': 1.7306065559387207, 'learning_rate': 4.849063813526939e-06, 'epoch': 0.39}
  2%|▏         | 1272/78504 [46:13<28:03:32,  1.31s/it]  2%|▏         | 1273/78504 [46:14<26:11:03,  1.22s/it]                                                       {'loss': 0.4291, 'grad_norm': 2.1445608139038086, 'learning_rate': 4.852884982804738e-06, 'epoch': 0.39}
  2%|▏         | 1273/78504 [46:14<26:11:03,  1.22s/it]  2%|▏         | 1274/78504 [46:15<24:27:03,  1.14s/it]                                                       {'loss': 0.4113, 'grad_norm': 3.239980459213257, 'learning_rate': 4.856706152082537e-06, 'epoch': 0.39}
  2%|▏         | 1274/78504 [46:15<24:27:03,  1.14s/it]  2%|▏         | 1275/78504 [46:15<22:11:20,  1.03s/it]                                                       {'loss': 0.5835, 'grad_norm': 3.9969916343688965, 'learning_rate': 4.860527321360336e-06, 'epoch': 0.39}
  2%|▏         | 1275/78504 [46:15<22:11:20,  1.03s/it]  2%|▏         | 1276/78504 [46:23<67:30:50,  3.15s/it]                                                       {'loss': 0.2788, 'grad_norm': 0.7067741751670837, 'learning_rate': 4.864348490638136e-06, 'epoch': 0.39}
  2%|▏         | 1276/78504 [46:23<67:30:50,  3.15s/it]  2%|▏         | 1277/78504 [46:26<67:04:49,  3.13s/it]                                                       {'loss': 0.1937, 'grad_norm': 0.5166637301445007, 'learning_rate': 4.868169659915934e-06, 'epoch': 0.39}
  2%|▏         | 1277/78504 [46:27<67:04:49,  3.13s/it]  2%|▏         | 1278/78504 [46:29<63:30:04,  2.96s/it]                                                       {'loss': 0.1739, 'grad_norm': 0.7154192924499512, 'learning_rate': 4.871990829193734e-06, 'epoch': 0.39}
  2%|▏         | 1278/78504 [46:29<63:30:04,  2.96s/it]  2%|▏         | 1279/78504 [46:32<61:21:18,  2.86s/it]                                                       {'loss': 0.1428, 'grad_norm': 0.508371114730835, 'learning_rate': 4.875811998471533e-06, 'epoch': 0.39}
  2%|▏         | 1279/78504 [46:32<61:21:18,  2.86s/it]  2%|▏         | 1280/78504 [46:34<58:52:24,  2.74s/it]                                                       {'loss': 0.1288, 'grad_norm': 0.5431569218635559, 'learning_rate': 4.8796331677493315e-06, 'epoch': 0.39}
  2%|▏         | 1280/78504 [46:34<58:52:24,  2.74s/it]  2%|▏         | 1281/78504 [46:36<55:56:05,  2.61s/it]                                                       {'loss': 0.1134, 'grad_norm': 0.7764075398445129, 'learning_rate': 4.88345433702713e-06, 'epoch': 0.39}
  2%|▏         | 1281/78504 [46:36<55:56:05,  2.61s/it]  2%|▏         | 1282/78504 [46:39<54:06:52,  2.52s/it]                                                       {'loss': 0.1523, 'grad_norm': 0.5803810358047485, 'learning_rate': 4.88727550630493e-06, 'epoch': 0.39}
  2%|▏         | 1282/78504 [46:39<54:06:52,  2.52s/it]  2%|▏         | 1283/78504 [46:41<51:35:15,  2.40s/it]                                                       {'loss': 0.1612, 'grad_norm': 0.6589874029159546, 'learning_rate': 4.8910966755827286e-06, 'epoch': 0.39}
  2%|▏         | 1283/78504 [46:41<51:35:15,  2.40s/it]  2%|▏         | 1284/78504 [46:43<50:15:18,  2.34s/it]                                                       {'loss': 0.1563, 'grad_norm': 0.6391811370849609, 'learning_rate': 4.894917844860527e-06, 'epoch': 0.39}
  2%|▏         | 1284/78504 [46:43<50:15:18,  2.34s/it]  2%|▏         | 1285/78504 [46:45<49:06:29,  2.29s/it]                                                       {'loss': 0.1472, 'grad_norm': 0.6180522441864014, 'learning_rate': 4.898739014138327e-06, 'epoch': 0.39}
  2%|▏         | 1285/78504 [46:45<49:06:29,  2.29s/it]  2%|▏         | 1286/78504 [46:47<46:26:01,  2.16s/it]                                                       {'loss': 0.2134, 'grad_norm': 0.9768776297569275, 'learning_rate': 4.902560183416126e-06, 'epoch': 0.39}
  2%|▏         | 1286/78504 [46:47<46:26:01,  2.16s/it]  2%|▏         | 1287/78504 [46:49<45:16:15,  2.11s/it]                                                       {'loss': 0.1895, 'grad_norm': 0.8891527652740479, 'learning_rate': 4.906381352693924e-06, 'epoch': 0.39}
  2%|▏         | 1287/78504 [46:49<45:16:15,  2.11s/it]  2%|▏         | 1288/78504 [46:51<44:02:15,  2.05s/it]                                                       {'loss': 0.2201, 'grad_norm': 0.9281437993049622, 'learning_rate': 4.910202521971723e-06, 'epoch': 0.39}
  2%|▏         | 1288/78504 [46:51<44:02:15,  2.05s/it]  2%|▏         | 1289/78504 [46:53<42:48:51,  2.00s/it]                                                       {'loss': 0.193, 'grad_norm': 1.1035382747650146, 'learning_rate': 4.914023691249523e-06, 'epoch': 0.39}
  2%|▏         | 1289/78504 [46:53<42:48:51,  2.00s/it]  2%|▏         | 1290/78504 [46:55<41:19:03,  1.93s/it]                                                       {'loss': 0.2009, 'grad_norm': 0.9090976715087891, 'learning_rate': 4.9178448605273215e-06, 'epoch': 0.39}
  2%|▏         | 1290/78504 [46:55<41:19:03,  1.93s/it]  2%|▏         | 1291/78504 [46:56<39:29:35,  1.84s/it]                                                       {'loss': 0.2479, 'grad_norm': 0.8891276717185974, 'learning_rate': 4.92166602980512e-06, 'epoch': 0.39}
  2%|▏         | 1291/78504 [46:56<39:29:35,  1.84s/it]  2%|▏         | 1292/78504 [46:58<37:34:38,  1.75s/it]                                                       {'loss': 0.2774, 'grad_norm': 1.1348284482955933, 'learning_rate': 4.925487199082919e-06, 'epoch': 0.39}
  2%|▏         | 1292/78504 [46:58<37:34:38,  1.75s/it]  2%|▏         | 1293/78504 [46:59<36:00:43,  1.68s/it]                                                       {'loss': 0.3512, 'grad_norm': 1.1534793376922607, 'learning_rate': 4.9293083683607186e-06, 'epoch': 0.4}
  2%|▏         | 1293/78504 [46:59<36:00:43,  1.68s/it]  2%|▏         | 1294/78504 [47:01<34:08:46,  1.59s/it]                                                       {'loss': 0.3463, 'grad_norm': 1.1900779008865356, 'learning_rate': 4.933129537638517e-06, 'epoch': 0.4}
  2%|▏         | 1294/78504 [47:01<34:08:46,  1.59s/it]  2%|▏         | 1295/78504 [47:02<32:09:00,  1.50s/it]                                                       {'loss': 0.3638, 'grad_norm': 1.3482097387313843, 'learning_rate': 4.936950706916316e-06, 'epoch': 0.4}
  2%|▏         | 1295/78504 [47:02<32:09:00,  1.50s/it]  2%|▏         | 1296/78504 [47:03<30:17:14,  1.41s/it]                                                       {'loss': 0.3569, 'grad_norm': 1.7599655389785767, 'learning_rate': 4.940771876194116e-06, 'epoch': 0.4}
  2%|▏         | 1296/78504 [47:03<30:17:14,  1.41s/it]  2%|▏         | 1297/78504 [47:04<28:08:28,  1.31s/it]                                                       {'loss': 0.4064, 'grad_norm': 2.334439754486084, 'learning_rate': 4.944593045471915e-06, 'epoch': 0.4}
  2%|▏         | 1297/78504 [47:04<28:08:28,  1.31s/it]  2%|▏         | 1298/78504 [47:05<26:23:50,  1.23s/it]                                                       {'loss': 0.3995, 'grad_norm': 1.5174139738082886, 'learning_rate': 4.948414214749714e-06, 'epoch': 0.4}
  2%|▏         | 1298/78504 [47:05<26:23:50,  1.23s/it]  2%|▏         | 1299/78504 [47:06<24:23:49,  1.14s/it]                                                       {'loss': 0.4199, 'grad_norm': 2.1678736209869385, 'learning_rate': 4.952235384027513e-06, 'epoch': 0.4}
  2%|▏         | 1299/78504 [47:06<24:23:49,  1.14s/it]  2%|▏         | 1300/78504 [47:07<22:13:02,  1.04s/it]                                                       {'loss': 0.5467, 'grad_norm': 4.567468643188477, 'learning_rate': 4.9560565533053115e-06, 'epoch': 0.4}
  2%|▏         | 1300/78504 [47:07<22:13:02,  1.04s/it]  2%|▏         | 1301/78504 [47:15<69:06:21,  3.22s/it]                                                       {'loss': 0.2589, 'grad_norm': 0.9034004807472229, 'learning_rate': 4.959877722583111e-06, 'epoch': 0.4}
  2%|▏         | 1301/78504 [47:15<69:06:21,  3.22s/it]  2%|▏         | 1302/78504 [47:18<67:01:11,  3.13s/it]                                                       {'loss': 0.1992, 'grad_norm': 0.7938328981399536, 'learning_rate': 4.96369889186091e-06, 'epoch': 0.4}
  2%|▏         | 1302/78504 [47:18<67:01:11,  3.13s/it]  2%|▏         | 1303/78504 [47:21<65:46:51,  3.07s/it]                                                       {'loss': 0.141, 'grad_norm': 0.803612232208252, 'learning_rate': 4.9675200611387085e-06, 'epoch': 0.4}
  2%|▏         | 1303/78504 [47:21<65:46:51,  3.07s/it]  2%|▏         | 1304/78504 [47:24<62:43:42,  2.93s/it]                                                       {'loss': 0.1903, 'grad_norm': 0.6698991656303406, 'learning_rate': 4.971341230416507e-06, 'epoch': 0.4}
  2%|▏         | 1304/78504 [47:24<62:43:42,  2.93s/it]  2%|▏         | 1305/78504 [47:26<60:01:41,  2.80s/it]                                                       {'loss': 0.1443, 'grad_norm': 0.7669826149940491, 'learning_rate': 4.975162399694307e-06, 'epoch': 0.4}
  2%|▏         | 1305/78504 [47:26<60:01:41,  2.80s/it]  2%|▏         | 1306/78504 [47:29<57:46:51,  2.69s/it]                                                       {'loss': 0.1606, 'grad_norm': 0.8387812376022339, 'learning_rate': 4.978983568972106e-06, 'epoch': 0.4}
  2%|▏         | 1306/78504 [47:29<57:46:51,  2.69s/it]  2%|▏         | 1307/78504 [47:31<55:26:56,  2.59s/it]                                                       {'loss': 0.1355, 'grad_norm': 0.5812118053436279, 'learning_rate': 4.982804738249904e-06, 'epoch': 0.4}
  2%|▏         | 1307/78504 [47:31<55:26:56,  2.59s/it]  2%|▏         | 1308/78504 [47:33<53:38:33,  2.50s/it]                                                       {'loss': 0.1772, 'grad_norm': 1.2772188186645508, 'learning_rate': 4.986625907527703e-06, 'epoch': 0.4}
  2%|▏         | 1308/78504 [47:33<53:38:33,  2.50s/it]  2%|▏         | 1309/78504 [47:36<51:41:18,  2.41s/it]                                                       {'loss': 0.1501, 'grad_norm': 0.6703361868858337, 'learning_rate': 4.990447076805503e-06, 'epoch': 0.4}
  2%|▏         | 1309/78504 [47:36<51:41:18,  2.41s/it]  2%|▏         | 1310/78504 [47:38<49:59:05,  2.33s/it]                                                       {'loss': 0.1778, 'grad_norm': 0.6659746766090393, 'learning_rate': 4.9942682460833014e-06, 'epoch': 0.4}
  2%|▏         | 1310/78504 [47:38<49:59:05,  2.33s/it]  2%|▏         | 1311/78504 [47:40<47:26:35,  2.21s/it]                                                       {'loss': 0.1686, 'grad_norm': 0.8355326652526855, 'learning_rate': 4.9980894153611e-06, 'epoch': 0.4}
  2%|▏         | 1311/78504 [47:40<47:26:35,  2.21s/it]  2%|▏         | 1312/78504 [47:42<46:00:02,  2.15s/it]                                                       {'loss': 0.1576, 'grad_norm': 0.6912976503372192, 'learning_rate': 5.001910584638899e-06, 'epoch': 0.4}
  2%|▏         | 1312/78504 [47:42<46:00:02,  2.15s/it]  2%|▏         | 1313/78504 [47:44<44:35:36,  2.08s/it]                                                       {'loss': 0.2627, 'grad_norm': 0.9919653534889221, 'learning_rate': 5.0057317539166985e-06, 'epoch': 0.4}
  2%|▏         | 1313/78504 [47:44<44:35:36,  2.08s/it]  2%|▏         | 1314/78504 [47:46<43:19:46,  2.02s/it]                                                       {'loss': 0.2185, 'grad_norm': 0.7396920919418335, 'learning_rate': 5.009552923194497e-06, 'epoch': 0.4}
  2%|▏         | 1314/78504 [47:46<43:19:46,  2.02s/it]  2%|▏         | 1315/78504 [47:47<41:42:10,  1.94s/it]                                                       {'loss': 0.2353, 'grad_norm': 1.0119283199310303, 'learning_rate': 5.013374092472297e-06, 'epoch': 0.4}
  2%|▏         | 1315/78504 [47:47<41:42:10,  1.94s/it]  2%|▏         | 1316/78504 [47:49<39:23:48,  1.84s/it]                                                       {'loss': 0.277, 'grad_norm': 4.674990653991699, 'learning_rate': 5.017195261750096e-06, 'epoch': 0.4}
  2%|▏         | 1316/78504 [47:49<39:23:48,  1.84s/it]  2%|▏         | 1317/78504 [47:50<37:30:37,  1.75s/it]                                                       {'loss': 0.2979, 'grad_norm': 1.253829836845398, 'learning_rate': 5.021016431027895e-06, 'epoch': 0.4}
  2%|▏         | 1317/78504 [47:50<37:30:37,  1.75s/it]  2%|▏         | 1318/78504 [47:52<36:01:24,  1.68s/it]                                                       {'loss': 0.2951, 'grad_norm': 1.1452797651290894, 'learning_rate': 5.024837600305694e-06, 'epoch': 0.4}
  2%|▏         | 1318/78504 [47:52<36:01:24,  1.68s/it]  2%|▏         | 1319/78504 [47:53<34:12:34,  1.60s/it]                                                       {'loss': 0.3283, 'grad_norm': 1.277434229850769, 'learning_rate': 5.028658769583493e-06, 'epoch': 0.4}
  2%|▏         | 1319/78504 [47:53<34:12:34,  1.60s/it]  2%|▏         | 1320/78504 [47:55<32:13:59,  1.50s/it]                                                       {'loss': 0.3366, 'grad_norm': 2.8071792125701904, 'learning_rate': 5.032479938861292e-06, 'epoch': 0.4}
  2%|▏         | 1320/78504 [47:55<32:13:59,  1.50s/it]  2%|▏         | 1321/78504 [47:56<29:58:16,  1.40s/it]                                                       {'loss': 0.3886, 'grad_norm': 1.5146147012710571, 'learning_rate': 5.036301108139091e-06, 'epoch': 0.4}
  2%|▏         | 1321/78504 [47:56<29:58:16,  1.40s/it]  2%|▏         | 1322/78504 [47:57<28:06:03,  1.31s/it]                                                       {'loss': 0.3978, 'grad_norm': 2.0810978412628174, 'learning_rate': 5.04012227741689e-06, 'epoch': 0.4}
  2%|▏         | 1322/78504 [47:57<28:06:03,  1.31s/it]  2%|▏         | 1323/78504 [47:58<26:25:28,  1.23s/it]                                                       {'loss': 0.3682, 'grad_norm': 1.4489542245864868, 'learning_rate': 5.0439434466946885e-06, 'epoch': 0.4}
  2%|▏         | 1323/78504 [47:58<26:25:28,  1.23s/it]  2%|▏         | 1324/78504 [47:59<24:34:52,  1.15s/it]                                                       {'loss': 0.3916, 'grad_norm': 1.9398267269134521, 'learning_rate': 5.047764615972488e-06, 'epoch': 0.4}
  2%|▏         | 1324/78504 [47:59<24:34:52,  1.15s/it]  2%|▏         | 1325/78504 [48:00<22:13:48,  1.04s/it]                                                       {'loss': 0.5732, 'grad_norm': 2.455259323120117, 'learning_rate': 5.051585785250287e-06, 'epoch': 0.41}
  2%|▏         | 1325/78504 [48:00<22:13:48,  1.04s/it]  2%|▏         | 1326/78504 [48:06<58:42:55,  2.74s/it]                                                       {'loss': 0.2848, 'grad_norm': 0.9040418267250061, 'learning_rate': 5.055406954528086e-06, 'epoch': 0.41}
  2%|▏         | 1326/78504 [48:06<58:42:55,  2.74s/it]  2%|▏         | 1327/78504 [48:10<62:49:17,  2.93s/it]                                                       {'loss': 0.2016, 'grad_norm': 0.6162763237953186, 'learning_rate': 5.059228123805884e-06, 'epoch': 0.41}
  2%|▏         | 1327/78504 [48:10<62:49:17,  2.93s/it]  2%|▏         | 1328/78504 [48:13<62:56:15,  2.94s/it]                                                       {'loss': 0.1413, 'grad_norm': 0.6002427339553833, 'learning_rate': 5.063049293083684e-06, 'epoch': 0.41}
  2%|▏         | 1328/78504 [48:13<62:56:15,  2.94s/it]  2%|▏         | 1329/78504 [48:15<60:45:15,  2.83s/it]                                                       {'loss': 0.156, 'grad_norm': 0.715265154838562, 'learning_rate': 5.066870462361483e-06, 'epoch': 0.41}
  2%|▏         | 1329/78504 [48:15<60:45:15,  2.83s/it]  2%|▏         | 1330/78504 [48:18<58:35:06,  2.73s/it]                                                       {'loss': 0.1101, 'grad_norm': 0.5038378834724426, 'learning_rate': 5.070691631639281e-06, 'epoch': 0.41}
  2%|▏         | 1330/78504 [48:18<58:35:06,  2.73s/it]  2%|▏         | 1331/78504 [48:20<56:48:23,  2.65s/it]                                                       {'loss': 0.1412, 'grad_norm': 1.0096873044967651, 'learning_rate': 5.07451280091708e-06, 'epoch': 0.41}
  2%|▏         | 1331/78504 [48:20<56:48:23,  2.65s/it]  2%|▏         | 1332/78504 [48:23<54:55:56,  2.56s/it]                                                       {'loss': 0.1477, 'grad_norm': 0.635530412197113, 'learning_rate': 5.07833397019488e-06, 'epoch': 0.41}
  2%|▏         | 1332/78504 [48:23<54:55:56,  2.56s/it]  2%|▏         | 1333/78504 [48:25<53:17:55,  2.49s/it]                                                       {'loss': 0.1436, 'grad_norm': 0.5414690375328064, 'learning_rate': 5.0821551394726785e-06, 'epoch': 0.41}
  2%|▏         | 1333/78504 [48:25<53:17:55,  2.49s/it]  2%|▏         | 1334/78504 [48:27<51:26:54,  2.40s/it]                                                       {'loss': 0.1376, 'grad_norm': 0.5466145873069763, 'learning_rate': 5.085976308750477e-06, 'epoch': 0.41}
  2%|▏         | 1334/78504 [48:27<51:26:54,  2.40s/it]  2%|▏         | 1335/78504 [48:29<49:58:45,  2.33s/it]                                                       {'loss': 0.1436, 'grad_norm': 0.5597972273826599, 'learning_rate': 5.089797478028277e-06, 'epoch': 0.41}
  2%|▏         | 1335/78504 [48:29<49:58:45,  2.33s/it]  2%|▏         | 1336/78504 [48:31<46:58:42,  2.19s/it]                                                       {'loss': 0.1836, 'grad_norm': 0.7341774106025696, 'learning_rate': 5.0936186473060764e-06, 'epoch': 0.41}
  2%|▏         | 1336/78504 [48:31<46:58:42,  2.19s/it]  2%|▏         | 1337/78504 [48:33<45:38:50,  2.13s/it]                                                       {'loss': 0.1916, 'grad_norm': 0.8261978030204773, 'learning_rate': 5.097439816583875e-06, 'epoch': 0.41}
  2%|▏         | 1337/78504 [48:33<45:38:50,  2.13s/it]  2%|▏         | 1338/78504 [48:35<43:57:27,  2.05s/it]                                                       {'loss': 0.1742, 'grad_norm': 0.7484690546989441, 'learning_rate': 5.101260985861674e-06, 'epoch': 0.41}
  2%|▏         | 1338/78504 [48:35<43:57:27,  2.05s/it]  2%|▏         | 1339/78504 [48:37<42:47:28,  2.00s/it]                                                       {'loss': 0.2566, 'grad_norm': 0.8227639198303223, 'learning_rate': 5.105082155139473e-06, 'epoch': 0.41}
  2%|▏         | 1339/78504 [48:37<42:47:28,  2.00s/it]  2%|▏         | 1340/78504 [48:39<41:18:51,  1.93s/it]                                                       {'loss': 0.222, 'grad_norm': 0.7340384125709534, 'learning_rate': 5.108903324417272e-06, 'epoch': 0.41}
  2%|▏         | 1340/78504 [48:39<41:18:51,  1.93s/it]  2%|▏         | 1341/78504 [48:40<39:33:15,  1.85s/it]                                                       {'loss': 0.2607, 'grad_norm': 1.3571431636810303, 'learning_rate': 5.112724493695071e-06, 'epoch': 0.41}
  2%|▏         | 1341/78504 [48:40<39:33:15,  1.85s/it]  2%|▏         | 1342/78504 [48:42<37:36:35,  1.75s/it]                                                       {'loss': 0.2953, 'grad_norm': 1.7297300100326538, 'learning_rate': 5.11654566297287e-06, 'epoch': 0.41}
  2%|▏         | 1342/78504 [48:42<37:36:35,  1.75s/it]  2%|▏         | 1343/78504 [48:43<35:48:43,  1.67s/it]                                                       {'loss': 0.3289, 'grad_norm': 1.267896294593811, 'learning_rate': 5.1203668322506685e-06, 'epoch': 0.41}
  2%|▏         | 1343/78504 [48:43<35:48:43,  1.67s/it]  2%|▏         | 1344/78504 [48:45<34:07:13,  1.59s/it]                                                       {'loss': 0.3474, 'grad_norm': 1.213083028793335, 'learning_rate': 5.124188001528468e-06, 'epoch': 0.41}
  2%|▏         | 1344/78504 [48:45<34:07:13,  1.59s/it]  2%|▏         | 1345/78504 [48:46<31:42:18,  1.48s/it]                                                       {'loss': 0.3517, 'grad_norm': 1.2214168310165405, 'learning_rate': 5.128009170806267e-06, 'epoch': 0.41}
  2%|▏         | 1345/78504 [48:46<31:42:18,  1.48s/it]  2%|▏         | 1346/78504 [48:47<29:31:41,  1.38s/it]                                                       {'loss': 0.3737, 'grad_norm': 1.5511515140533447, 'learning_rate': 5.1318303400840656e-06, 'epoch': 0.41}
  2%|▏         | 1346/78504 [48:47<29:31:41,  1.38s/it]  2%|▏         | 1347/78504 [48:48<27:48:32,  1.30s/it]                                                       {'loss': 0.3323, 'grad_norm': 2.18957257270813, 'learning_rate': 5.135651509361864e-06, 'epoch': 0.41}
  2%|▏         | 1347/78504 [48:48<27:48:32,  1.30s/it]  2%|▏         | 1348/78504 [48:49<25:52:00,  1.21s/it]                                                       {'loss': 0.3993, 'grad_norm': 1.9654964208602905, 'learning_rate': 5.139472678639664e-06, 'epoch': 0.41}
  2%|▏         | 1348/78504 [48:49<25:52:00,  1.21s/it]  2%|▏         | 1349/78504 [48:50<24:06:00,  1.12s/it]                                                       {'loss': 0.4265, 'grad_norm': 1.6144508123397827, 'learning_rate': 5.143293847917463e-06, 'epoch': 0.41}
  2%|▏         | 1349/78504 [48:50<24:06:00,  1.12s/it]  2%|▏         | 1350/78504 [48:51<21:56:11,  1.02s/it]                                                       {'loss': 0.5924, 'grad_norm': 3.655642032623291, 'learning_rate': 5.147115017195261e-06, 'epoch': 0.41}
  2%|▏         | 1350/78504 [48:51<21:56:11,  1.02s/it]  2%|▏         | 1351/78504 [48:59<67:48:35,  3.16s/it]                                                       {'loss': 0.2883, 'grad_norm': 1.316231608390808, 'learning_rate': 5.150936186473061e-06, 'epoch': 0.41}
  2%|▏         | 1351/78504 [48:59<67:48:35,  3.16s/it]  2%|▏         | 1352/78504 [49:02<69:08:25,  3.23s/it]                                                       {'loss': 0.1348, 'grad_norm': 1.2389651536941528, 'learning_rate': 5.15475735575086e-06, 'epoch': 0.41}
  2%|▏         | 1352/78504 [49:02<69:08:25,  3.23s/it]  2%|▏         | 1353/78504 [49:05<64:57:08,  3.03s/it]                                                       {'loss': 0.1705, 'grad_norm': 0.5293911099433899, 'learning_rate': 5.1585785250286585e-06, 'epoch': 0.41}
  2%|▏         | 1353/78504 [49:05<64:57:08,  3.03s/it]  2%|▏         | 1354/78504 [49:08<62:02:09,  2.89s/it]                                                       {'loss': 0.1618, 'grad_norm': 0.6752898693084717, 'learning_rate': 5.162399694306458e-06, 'epoch': 0.41}
  2%|▏         | 1354/78504 [49:08<62:02:09,  2.89s/it]  2%|▏         | 1355/78504 [49:10<59:24:18,  2.77s/it]                                                       {'loss': 0.1234, 'grad_norm': 0.6094158887863159, 'learning_rate': 5.166220863584258e-06, 'epoch': 0.41}
  2%|▏         | 1355/78504 [49:10<59:24:18,  2.77s/it]  2%|▏         | 1356/78504 [49:12<57:13:33,  2.67s/it]                                                       {'loss': 0.1404, 'grad_norm': 0.602851152420044, 'learning_rate': 5.170042032862056e-06, 'epoch': 0.41}
  2%|▏         | 1356/78504 [49:13<57:13:33,  2.67s/it]  2%|▏         | 1357/78504 [49:15<55:00:09,  2.57s/it]                                                       {'loss': 0.1038, 'grad_norm': 0.5731081366539001, 'learning_rate': 5.173863202139855e-06, 'epoch': 0.41}
  2%|▏         | 1357/78504 [49:15<55:00:09,  2.57s/it]  2%|▏         | 1358/78504 [49:17<53:20:43,  2.49s/it]                                                       {'loss': 0.1508, 'grad_norm': 0.5587401390075684, 'learning_rate': 5.177684371417654e-06, 'epoch': 0.42}
  2%|▏         | 1358/78504 [49:17<53:20:43,  2.49s/it]  2%|▏         | 1359/78504 [49:19<51:29:16,  2.40s/it]                                                       {'loss': 0.1277, 'grad_norm': 0.7085039019584656, 'learning_rate': 5.1815055406954535e-06, 'epoch': 0.42}
  2%|▏         | 1359/78504 [49:19<51:29:16,  2.40s/it]  2%|▏         | 1360/78504 [49:21<50:00:24,  2.33s/it]                                                       {'loss': 0.159, 'grad_norm': 0.6725518703460693, 'learning_rate': 5.185326709973252e-06, 'epoch': 0.42}
  2%|▏         | 1360/78504 [49:22<50:00:24,  2.33s/it]  2%|▏         | 1361/78504 [49:23<47:08:52,  2.20s/it]                                                       {'loss': 0.1325, 'grad_norm': 0.6211150288581848, 'learning_rate': 5.189147879251051e-06, 'epoch': 0.42}
  2%|▏         | 1361/78504 [49:23<47:08:52,  2.20s/it]  2%|▏         | 1362/78504 [49:25<45:56:16,  2.14s/it]                                                       {'loss': 0.1861, 'grad_norm': 0.8007253408432007, 'learning_rate': 5.19296904852885e-06, 'epoch': 0.42}
  2%|▏         | 1362/78504 [49:25<45:56:16,  2.14s/it]  2%|▏         | 1363/78504 [49:27<44:34:27,  2.08s/it]                                                       {'loss': 0.2073, 'grad_norm': 0.8060648441314697, 'learning_rate': 5.196790217806649e-06, 'epoch': 0.42}
  2%|▏         | 1363/78504 [49:27<44:34:27,  2.08s/it]  2%|▏         | 1364/78504 [49:29<43:21:37,  2.02s/it]                                                       {'loss': 0.2059, 'grad_norm': 1.1795018911361694, 'learning_rate': 5.200611387084448e-06, 'epoch': 0.42}
  2%|▏         | 1364/78504 [49:29<43:21:37,  2.02s/it]  2%|▏         | 1365/78504 [49:31<41:48:35,  1.95s/it]                                                       {'loss': 0.2874, 'grad_norm': 1.853468894958496, 'learning_rate': 5.204432556362247e-06, 'epoch': 0.42}
  2%|▏         | 1365/78504 [49:31<41:48:35,  1.95s/it]  2%|▏         | 1366/78504 [49:33<39:26:16,  1.84s/it]                                                       {'loss': 0.2554, 'grad_norm': 1.273930549621582, 'learning_rate': 5.2082537256400455e-06, 'epoch': 0.42}
  2%|▏         | 1366/78504 [49:33<39:26:16,  1.84s/it]  2%|▏         | 1367/78504 [49:34<37:29:58,  1.75s/it]                                                       {'loss': 0.3478, 'grad_norm': 2.221656322479248, 'learning_rate': 5.212074894917845e-06, 'epoch': 0.42}
  2%|▏         | 1367/78504 [49:34<37:29:58,  1.75s/it]  2%|▏         | 1368/78504 [49:36<36:00:31,  1.68s/it]                                                       {'loss': 0.321, 'grad_norm': 1.0372730493545532, 'learning_rate': 5.215896064195644e-06, 'epoch': 0.42}
  2%|▏         | 1368/78504 [49:36<36:00:31,  1.68s/it]  2%|▏         | 1369/78504 [49:37<34:20:04,  1.60s/it]                                                       {'loss': 0.3348, 'grad_norm': 2.164851665496826, 'learning_rate': 5.219717233473443e-06, 'epoch': 0.42}
  2%|▏         | 1369/78504 [49:37<34:20:04,  1.60s/it]  2%|▏         | 1370/78504 [49:38<32:20:00,  1.51s/it]                                                       {'loss': 0.3234, 'grad_norm': 1.6584869623184204, 'learning_rate': 5.223538402751241e-06, 'epoch': 0.42}
  2%|▏         | 1370/78504 [49:38<32:20:00,  1.51s/it]  2%|▏         | 1371/78504 [49:39<29:53:21,  1.40s/it]                                                       {'loss': 0.3578, 'grad_norm': 1.3357857465744019, 'learning_rate': 5.227359572029041e-06, 'epoch': 0.42}
  2%|▏         | 1371/78504 [49:39<29:53:21,  1.40s/it]  2%|▏         | 1372/78504 [49:41<27:56:13,  1.30s/it]                                                       {'loss': 0.3588, 'grad_norm': 3.0854299068450928, 'learning_rate': 5.23118074130684e-06, 'epoch': 0.42}
  2%|▏         | 1372/78504 [49:41<27:56:13,  1.30s/it]  2%|▏         | 1373/78504 [49:42<26:03:11,  1.22s/it]                                                       {'loss': 0.3934, 'grad_norm': 2.023376703262329, 'learning_rate': 5.2350019105846385e-06, 'epoch': 0.42}
  2%|▏         | 1373/78504 [49:42<26:03:11,  1.22s/it]  2%|▏         | 1374/78504 [49:43<24:14:03,  1.13s/it]                                                       {'loss': 0.4199, 'grad_norm': 5.353822708129883, 'learning_rate': 5.238823079862438e-06, 'epoch': 0.42}
  2%|▏         | 1374/78504 [49:43<24:14:03,  1.13s/it]  2%|▏         | 1375/78504 [49:43<22:01:11,  1.03s/it]                                                       {'loss': 0.5676, 'grad_norm': 8.218305587768555, 'learning_rate': 5.242644249140238e-06, 'epoch': 0.42}
  2%|▏         | 1375/78504 [49:43<22:01:11,  1.03s/it]  2%|▏         | 1376/78504 [49:53<74:43:58,  3.49s/it]                                                       {'loss': 0.2468, 'grad_norm': 0.6208615899085999, 'learning_rate': 5.246465418418036e-06, 'epoch': 0.42}
  2%|▏         | 1376/78504 [49:53<74:43:58,  3.49s/it]  2%|▏         | 1377/78504 [49:56<73:53:50,  3.45s/it]                                                       {'loss': 0.1748, 'grad_norm': 0.5228369832038879, 'learning_rate': 5.250286587695835e-06, 'epoch': 0.42}
  2%|▏         | 1377/78504 [49:56<73:53:50,  3.45s/it]  2%|▏         | 1378/78504 [49:58<68:16:08,  3.19s/it]                                                       {'loss': 0.172, 'grad_norm': 0.7981668710708618, 'learning_rate': 5.254107756973634e-06, 'epoch': 0.42}
  2%|▏         | 1378/78504 [49:58<68:16:08,  3.19s/it]  2%|▏         | 1379/78504 [50:01<64:39:38,  3.02s/it]                                                       {'loss': 0.1359, 'grad_norm': 0.5856297612190247, 'learning_rate': 5.2579289262514335e-06, 'epoch': 0.42}
  2%|▏         | 1379/78504 [50:01<64:39:38,  3.02s/it]  2%|▏         | 1380/78504 [50:04<61:15:51,  2.86s/it]                                                       {'loss': 0.1277, 'grad_norm': 0.5179661512374878, 'learning_rate': 5.261750095529232e-06, 'epoch': 0.42}
  2%|▏         | 1380/78504 [50:04<61:15:51,  2.86s/it]  2%|▏         | 1381/78504 [50:06<57:36:33,  2.69s/it]                                                       {'loss': 0.1218, 'grad_norm': 0.5800349116325378, 'learning_rate': 5.265571264807031e-06, 'epoch': 0.42}
  2%|▏         | 1381/78504 [50:06<57:36:33,  2.69s/it]  2%|▏         | 1382/78504 [50:08<55:14:47,  2.58s/it]                                                       {'loss': 0.1345, 'grad_norm': 0.5725017786026001, 'learning_rate': 5.2693924340848305e-06, 'epoch': 0.42}
  2%|▏         | 1382/78504 [50:08<55:14:47,  2.58s/it]  2%|▏         | 1383/78504 [50:11<53:40:31,  2.51s/it]                                                       {'loss': 0.161, 'grad_norm': 0.9929306507110596, 'learning_rate': 5.273213603362629e-06, 'epoch': 0.42}
  2%|▏         | 1383/78504 [50:11<53:40:31,  2.51s/it]  2%|▏         | 1384/78504 [50:13<51:40:20,  2.41s/it]                                                       {'loss': 0.1369, 'grad_norm': 0.5800286531448364, 'learning_rate': 5.277034772640428e-06, 'epoch': 0.42}
  2%|▏         | 1384/78504 [50:13<51:40:20,  2.41s/it]  2%|▏         | 1385/78504 [50:15<50:02:13,  2.34s/it]                                                       {'loss': 0.1677, 'grad_norm': 0.7855810523033142, 'learning_rate': 5.280855941918227e-06, 'epoch': 0.42}
  2%|▏         | 1385/78504 [50:15<50:02:13,  2.34s/it]  2%|▏         | 1386/78504 [50:17<48:08:10,  2.25s/it]                                                       {'loss': 0.1791, 'grad_norm': 1.3666610717773438, 'learning_rate': 5.284677111196026e-06, 'epoch': 0.42}
  2%|▏         | 1386/78504 [50:17<48:08:10,  2.25s/it]  2%|▏         | 1387/78504 [50:19<46:31:53,  2.17s/it]                                                       {'loss': 0.1871, 'grad_norm': 0.8579196333885193, 'learning_rate': 5.288498280473825e-06, 'epoch': 0.42}
  2%|▏         | 1387/78504 [50:19<46:31:53,  2.17s/it]  2%|▏         | 1388/78504 [50:21<44:33:07,  2.08s/it]                                                       {'loss': 0.1772, 'grad_norm': 0.7060865759849548, 'learning_rate': 5.292319449751624e-06, 'epoch': 0.42}
  2%|▏         | 1388/78504 [50:21<44:33:07,  2.08s/it]  2%|▏         | 1389/78504 [50:23<43:00:16,  2.01s/it]                                                       {'loss': 0.2279, 'grad_norm': 1.1772781610488892, 'learning_rate': 5.296140619029423e-06, 'epoch': 0.42}
  2%|▏         | 1389/78504 [50:23<43:00:16,  2.01s/it]  2%|▏         | 1390/78504 [50:24<41:36:00,  1.94s/it]                                                       {'loss': 0.2232, 'grad_norm': 1.0134859085083008, 'learning_rate': 5.299961788307222e-06, 'epoch': 0.42}
  2%|▏         | 1390/78504 [50:24<41:36:00,  1.94s/it]  2%|▏         | 1391/78504 [50:26<39:46:06,  1.86s/it]                                                       {'loss': 0.2284, 'grad_norm': 1.5585485696792603, 'learning_rate': 5.303782957585021e-06, 'epoch': 0.43}
  2%|▏         | 1391/78504 [50:26<39:46:06,  1.86s/it]  2%|▏         | 1392/78504 [50:28<37:49:53,  1.77s/it]                                                       {'loss': 0.3609, 'grad_norm': 1.302858591079712, 'learning_rate': 5.30760412686282e-06, 'epoch': 0.43}
  2%|▏         | 1392/78504 [50:28<37:49:53,  1.77s/it]  2%|▏         | 1393/78504 [50:29<35:59:17,  1.68s/it]                                                       {'loss': 0.3036, 'grad_norm': 0.9647319316864014, 'learning_rate': 5.311425296140619e-06, 'epoch': 0.43}
  2%|▏         | 1393/78504 [50:29<35:59:17,  1.68s/it]  2%|▏         | 1394/78504 [50:30<34:05:57,  1.59s/it]                                                       {'loss': 0.289, 'grad_norm': 0.9970281720161438, 'learning_rate': 5.315246465418419e-06, 'epoch': 0.43}
  2%|▏         | 1394/78504 [50:30<34:05:57,  1.59s/it]  2%|▏         | 1395/78504 [50:32<32:15:11,  1.51s/it]                                                       {'loss': 0.3206, 'grad_norm': 1.377230167388916, 'learning_rate': 5.319067634696218e-06, 'epoch': 0.43}
  2%|▏         | 1395/78504 [50:32<32:15:11,  1.51s/it]  2%|▏         | 1396/78504 [50:33<29:56:08,  1.40s/it]                                                       {'loss': 0.3324, 'grad_norm': 1.393159031867981, 'learning_rate': 5.322888803974016e-06, 'epoch': 0.43}
  2%|▏         | 1396/78504 [50:33<29:56:08,  1.40s/it]  2%|▏         | 1397/78504 [50:34<28:00:54,  1.31s/it]                                                       {'loss': 0.3662, 'grad_norm': 1.5722496509552002, 'learning_rate': 5.326709973251815e-06, 'epoch': 0.43}
  2%|▏         | 1397/78504 [50:34<28:00:54,  1.31s/it]  2%|▏         | 1398/78504 [50:35<25:58:29,  1.21s/it]                                                       {'loss': 0.3452, 'grad_norm': 3.3081650733947754, 'learning_rate': 5.330531142529615e-06, 'epoch': 0.43}
  2%|▏         | 1398/78504 [50:35<25:58:29,  1.21s/it]  2%|▏         | 1399/78504 [50:36<24:10:59,  1.13s/it]                                                       {'loss': 0.4308, 'grad_norm': 2.036569118499756, 'learning_rate': 5.3343523118074134e-06, 'epoch': 0.43}
  2%|▏         | 1399/78504 [50:36<24:10:59,  1.13s/it]  2%|▏         | 1400/78504 [50:37<21:59:11,  1.03s/it]                                                       {'loss': 0.5594, 'grad_norm': 2.355095624923706, 'learning_rate': 5.338173481085212e-06, 'epoch': 0.43}
  2%|▏         | 1400/78504 [50:37<21:59:11,  1.03s/it]  2%|▏         | 1401/78504 [50:45<65:23:27,  3.05s/it]                                                       {'loss': 0.2556, 'grad_norm': 0.7370728850364685, 'learning_rate': 5.341994650363011e-06, 'epoch': 0.43}
  2%|▏         | 1401/78504 [50:45<65:23:27,  3.05s/it]  2%|▏         | 1402/78504 [50:48<67:26:47,  3.15s/it]                                                       {'loss': 0.1656, 'grad_norm': 0.5488453507423401, 'learning_rate': 5.3458158196408105e-06, 'epoch': 0.43}
  2%|▏         | 1402/78504 [50:48<67:26:47,  3.15s/it]  2%|▏         | 1403/78504 [50:50<63:43:45,  2.98s/it]                                                       {'loss': 0.1442, 'grad_norm': 0.7265148162841797, 'learning_rate': 5.349636988918609e-06, 'epoch': 0.43}
  2%|▏         | 1403/78504 [50:50<63:43:45,  2.98s/it]  2%|▏         | 1404/78504 [50:53<61:26:32,  2.87s/it]                                                       {'loss': 0.1462, 'grad_norm': 0.5736374258995056, 'learning_rate': 5.353458158196408e-06, 'epoch': 0.43}
  2%|▏         | 1404/78504 [50:53<61:26:32,  2.87s/it]  2%|▏         | 1405/78504 [50:56<58:55:03,  2.75s/it]                                                       {'loss': 0.1515, 'grad_norm': 0.5143766403198242, 'learning_rate': 5.357279327474207e-06, 'epoch': 0.43}
  2%|▏         | 1405/78504 [50:56<58:55:03,  2.75s/it]  2%|▏         | 1406/78504 [50:58<56:52:30,  2.66s/it]                                                       {'loss': 0.1309, 'grad_norm': 0.5869737863540649, 'learning_rate': 5.361100496752006e-06, 'epoch': 0.43}
  2%|▏         | 1406/78504 [50:58<56:52:30,  2.66s/it]  2%|▏         | 1407/78504 [51:00<54:45:36,  2.56s/it]                                                       {'loss': 0.1246, 'grad_norm': 0.5825177431106567, 'learning_rate': 5.364921666029805e-06, 'epoch': 0.43}
  2%|▏         | 1407/78504 [51:00<54:45:36,  2.56s/it]  2%|▏         | 1408/78504 [51:03<52:51:22,  2.47s/it]                                                       {'loss': 0.1985, 'grad_norm': 0.9723330140113831, 'learning_rate': 5.368742835307604e-06, 'epoch': 0.43}
  2%|▏         | 1408/78504 [51:03<52:51:22,  2.47s/it]  2%|▏         | 1409/78504 [51:05<50:17:48,  2.35s/it]                                                       {'loss': 0.1668, 'grad_norm': 0.838407039642334, 'learning_rate': 5.3725640045854026e-06, 'epoch': 0.43}
  2%|▏         | 1409/78504 [51:05<50:17:48,  2.35s/it]  2%|▏         | 1410/78504 [51:07<49:02:38,  2.29s/it]                                                       {'loss': 0.1655, 'grad_norm': 0.7364253997802734, 'learning_rate': 5.376385173863202e-06, 'epoch': 0.43}
  2%|▏         | 1410/78504 [51:07<49:02:38,  2.29s/it]  2%|▏         | 1411/78504 [51:09<46:23:43,  2.17s/it]                                                       {'loss': 0.1984, 'grad_norm': 0.8068876266479492, 'learning_rate': 5.380206343141001e-06, 'epoch': 0.43}
  2%|▏         | 1411/78504 [51:09<46:23:43,  2.17s/it]  2%|▏         | 1412/78504 [51:11<45:12:22,  2.11s/it]                                                       {'loss': 0.159, 'grad_norm': 0.8391739726066589, 'learning_rate': 5.3840275124188005e-06, 'epoch': 0.43}
  2%|▏         | 1412/78504 [51:11<45:12:22,  2.11s/it]  2%|▏         | 1413/78504 [51:13<44:00:45,  2.06s/it]                                                       {'loss': 0.1747, 'grad_norm': 0.6882902383804321, 'learning_rate': 5.387848681696599e-06, 'epoch': 0.43}
  2%|▏         | 1413/78504 [51:13<44:00:45,  2.06s/it]  2%|▏         | 1414/78504 [51:14<42:54:08,  2.00s/it]                                                       {'loss': 0.1911, 'grad_norm': 0.8079756498336792, 'learning_rate': 5.391669850974399e-06, 'epoch': 0.43}
  2%|▏         | 1414/78504 [51:14<42:54:08,  2.00s/it]  2%|▏         | 1415/78504 [51:16<41:24:25,  1.93s/it]                                                       {'loss': 0.2716, 'grad_norm': 0.8331185579299927, 'learning_rate': 5.395491020252198e-06, 'epoch': 0.43}
  2%|▏         | 1415/78504 [51:16<41:24:25,  1.93s/it]  2%|▏         | 1416/78504 [51:18<39:09:25,  1.83s/it]                                                       {'loss': 0.2349, 'grad_norm': 1.1497169733047485, 'learning_rate': 5.399312189529996e-06, 'epoch': 0.43}
  2%|▏         | 1416/78504 [51:18<39:09:25,  1.83s/it]  2%|▏         | 1417/78504 [51:19<37:16:52,  1.74s/it]                                                       {'loss': 0.2846, 'grad_norm': 1.065093994140625, 'learning_rate': 5.403133358807796e-06, 'epoch': 0.43}
  2%|▏         | 1417/78504 [51:19<37:16:52,  1.74s/it]  2%|▏         | 1418/78504 [51:21<35:55:16,  1.68s/it]                                                       {'loss': 0.3136, 'grad_norm': 1.44892156124115, 'learning_rate': 5.406954528085595e-06, 'epoch': 0.43}
  2%|▏         | 1418/78504 [51:21<35:55:16,  1.68s/it]  2%|▏         | 1419/78504 [51:22<34:15:44,  1.60s/it]                                                       {'loss': 0.2822, 'grad_norm': 1.2225708961486816, 'learning_rate': 5.410775697363393e-06, 'epoch': 0.43}
  2%|▏         | 1419/78504 [51:22<34:15:44,  1.60s/it]  2%|▏         | 1420/78504 [51:24<32:22:15,  1.51s/it]                                                       {'loss': 0.3719, 'grad_norm': 1.2240264415740967, 'learning_rate': 5.414596866641192e-06, 'epoch': 0.43}
  2%|▏         | 1420/78504 [51:24<32:22:15,  1.51s/it]  2%|▏         | 1421/78504 [51:25<30:00:32,  1.40s/it]                                                       {'loss': 0.3533, 'grad_norm': 1.328163981437683, 'learning_rate': 5.418418035918992e-06, 'epoch': 0.43}
  2%|▏         | 1421/78504 [51:25<30:00:32,  1.40s/it]  2%|▏         | 1422/78504 [51:26<28:09:11,  1.31s/it]                                                       {'loss': 0.419, 'grad_norm': 1.6499191522598267, 'learning_rate': 5.4222392051967905e-06, 'epoch': 0.43}
  2%|▏         | 1422/78504 [51:26<28:09:11,  1.31s/it]  2%|▏         | 1423/78504 [51:27<26:11:06,  1.22s/it]                                                       {'loss': 0.3761, 'grad_norm': 1.7151870727539062, 'learning_rate': 5.426060374474589e-06, 'epoch': 0.44}
  2%|▏         | 1423/78504 [51:27<26:11:06,  1.22s/it]  2%|▏         | 1424/78504 [51:28<24:24:10,  1.14s/it]                                                       {'loss': 0.426, 'grad_norm': 2.173807382583618, 'learning_rate': 5.429881543752388e-06, 'epoch': 0.44}
  2%|▏         | 1424/78504 [51:28<24:24:10,  1.14s/it]  2%|▏         | 1425/78504 [51:29<22:07:47,  1.03s/it]                                                       {'loss': 0.5084, 'grad_norm': 2.887911558151245, 'learning_rate': 5.4337027130301876e-06, 'epoch': 0.44}
  2%|▏         | 1425/78504 [51:29<22:07:47,  1.03s/it]  2%|▏         | 1426/78504 [51:38<74:44:46,  3.49s/it]                                                       {'loss': 0.2304, 'grad_norm': 0.6654773354530334, 'learning_rate': 5.437523882307986e-06, 'epoch': 0.44}
  2%|▏         | 1426/78504 [51:38<74:44:46,  3.49s/it]  2%|▏         | 1427/78504 [51:41<70:59:26,  3.32s/it]                                                       {'loss': 0.1422, 'grad_norm': 0.7351674437522888, 'learning_rate': 5.441345051585785e-06, 'epoch': 0.44}
  2%|▏         | 1427/78504 [51:41<70:59:26,  3.32s/it]  2%|▏         | 1428/78504 [51:44<68:29:56,  3.20s/it]                                                       {'loss': 0.142, 'grad_norm': 0.6390872597694397, 'learning_rate': 5.445166220863584e-06, 'epoch': 0.44}
  2%|▏         | 1428/78504 [51:44<68:29:56,  3.20s/it]  2%|▏         | 1429/78504 [51:46<64:01:05,  2.99s/it]                                                       {'loss': 0.1648, 'grad_norm': 0.7088742852210999, 'learning_rate': 5.448987390141383e-06, 'epoch': 0.44}
  2%|▏         | 1429/78504 [51:46<64:01:05,  2.99s/it]  2%|▏         | 1430/78504 [51:49<60:43:51,  2.84s/it]                                                       {'loss': 0.11, 'grad_norm': 0.48904478549957275, 'learning_rate': 5.452808559419182e-06, 'epoch': 0.44}
  2%|▏         | 1430/78504 [51:49<60:43:51,  2.84s/it]  2%|▏         | 1431/78504 [51:51<58:09:00,  2.72s/it]                                                       {'loss': 0.13, 'grad_norm': 0.6018951535224915, 'learning_rate': 5.456629728696981e-06, 'epoch': 0.44}
  2%|▏         | 1431/78504 [51:51<58:09:00,  2.72s/it]  2%|▏         | 1432/78504 [51:53<55:36:01,  2.60s/it]                                                       {'loss': 0.1068, 'grad_norm': 0.5275538563728333, 'learning_rate': 5.4604508979747805e-06, 'epoch': 0.44}
  2%|▏         | 1432/78504 [51:53<55:36:01,  2.60s/it]  2%|▏         | 1433/78504 [51:56<52:35:06,  2.46s/it]                                                       {'loss': 0.1436, 'grad_norm': 0.9476163983345032, 'learning_rate': 5.46427206725258e-06, 'epoch': 0.44}
  2%|▏         | 1433/78504 [51:56<52:35:06,  2.46s/it]  2%|▏         | 1434/78504 [51:58<50:49:50,  2.37s/it]                                                       {'loss': 0.14, 'grad_norm': 0.770512044429779, 'learning_rate': 5.468093236530379e-06, 'epoch': 0.44}
  2%|▏         | 1434/78504 [51:58<50:49:50,  2.37s/it]  2%|▏         | 1435/78504 [52:00<49:32:20,  2.31s/it]                                                       {'loss': 0.1264, 'grad_norm': 0.5432831048965454, 'learning_rate': 5.4719144058081776e-06, 'epoch': 0.44}
  2%|▏         | 1435/78504 [52:00<49:32:20,  2.31s/it]  2%|▏         | 1436/78504 [52:02<46:39:43,  2.18s/it]                                                       {'loss': 0.1696, 'grad_norm': 0.6544167995452881, 'learning_rate': 5.475735575085976e-06, 'epoch': 0.44}
  2%|▏         | 1436/78504 [52:02<46:39:43,  2.18s/it]  2%|▏         | 1437/78504 [52:04<45:35:07,  2.13s/it]                                                       {'loss': 0.1356, 'grad_norm': 0.7097304463386536, 'learning_rate': 5.479556744363776e-06, 'epoch': 0.44}
  2%|▏         | 1437/78504 [52:04<45:35:07,  2.13s/it]  2%|▏         | 1438/78504 [52:06<43:54:43,  2.05s/it]                                                       {'loss': 0.1921, 'grad_norm': 0.7673826217651367, 'learning_rate': 5.483377913641575e-06, 'epoch': 0.44}
  2%|▏         | 1438/78504 [52:06<43:54:43,  2.05s/it]  2%|▏         | 1439/78504 [52:07<42:31:10,  1.99s/it]                                                       {'loss': 0.2195, 'grad_norm': 1.9408562183380127, 'learning_rate': 5.487199082919373e-06, 'epoch': 0.44}
  2%|▏         | 1439/78504 [52:08<42:31:10,  1.99s/it]  2%|▏         | 1440/78504 [52:09<40:50:17,  1.91s/it]                                                       {'loss': 0.2187, 'grad_norm': 0.6766736507415771, 'learning_rate': 5.491020252197172e-06, 'epoch': 0.44}
  2%|▏         | 1440/78504 [52:09<40:50:17,  1.91s/it]  2%|▏         | 1441/78504 [52:11<39:09:32,  1.83s/it]                                                       {'loss': 0.2626, 'grad_norm': 0.9510131478309631, 'learning_rate': 5.494841421474972e-06, 'epoch': 0.44}
  2%|▏         | 1441/78504 [52:11<39:09:32,  1.83s/it]  2%|▏         | 1442/78504 [52:12<37:10:11,  1.74s/it]                                                       {'loss': 0.2616, 'grad_norm': 0.9889276623725891, 'learning_rate': 5.4986625907527705e-06, 'epoch': 0.44}
  2%|▏         | 1442/78504 [52:12<37:10:11,  1.74s/it]  2%|▏         | 1443/78504 [52:14<35:18:40,  1.65s/it]                                                       {'loss': 0.3341, 'grad_norm': 1.3165086507797241, 'learning_rate': 5.502483760030569e-06, 'epoch': 0.44}
  2%|▏         | 1443/78504 [52:14<35:18:40,  1.65s/it]  2%|▏         | 1444/78504 [52:15<33:52:03,  1.58s/it]                                                       {'loss': 0.3683, 'grad_norm': 1.6684355735778809, 'learning_rate': 5.506304929308368e-06, 'epoch': 0.44}
  2%|▏         | 1444/78504 [52:15<33:52:03,  1.58s/it]  2%|▏         | 1445/78504 [52:16<31:42:21,  1.48s/it]                                                       {'loss': 0.3065, 'grad_norm': 1.9388741254806519, 'learning_rate': 5.5101260985861675e-06, 'epoch': 0.44}
  2%|▏         | 1445/78504 [52:17<31:42:21,  1.48s/it]  2%|▏         | 1446/78504 [52:18<29:36:04,  1.38s/it]                                                       {'loss': 0.3132, 'grad_norm': 3.941204309463501, 'learning_rate': 5.513947267863966e-06, 'epoch': 0.44}
  2%|▏         | 1446/78504 [52:18<29:36:04,  1.38s/it]  2%|▏         | 1447/78504 [52:19<27:57:14,  1.31s/it]                                                       {'loss': 0.375, 'grad_norm': 2.1633684635162354, 'learning_rate': 5.517768437141765e-06, 'epoch': 0.44}
  2%|▏         | 1447/78504 [52:19<27:57:14,  1.31s/it]  2%|▏         | 1448/78504 [52:20<26:04:22,  1.22s/it]                                                       {'loss': 0.4015, 'grad_norm': 1.605307936668396, 'learning_rate': 5.521589606419565e-06, 'epoch': 0.44}
  2%|▏         | 1448/78504 [52:20<26:04:22,  1.22s/it]  2%|▏         | 1449/78504 [52:21<24:20:17,  1.14s/it]                                                       {'loss': 0.4365, 'grad_norm': 1.779604196548462, 'learning_rate': 5.525410775697363e-06, 'epoch': 0.44}
  2%|▏         | 1449/78504 [52:21<24:20:17,  1.14s/it]  2%|▏         | 1450/78504 [52:22<22:09:33,  1.04s/it]                                                       {'loss': 0.531, 'grad_norm': 3.9954564571380615, 'learning_rate': 5.529231944975162e-06, 'epoch': 0.44}
  2%|▏         | 1450/78504 [52:22<22:09:33,  1.04s/it]  2%|▏         | 1451/78504 [52:29<64:50:50,  3.03s/it]                                                       {'loss': 0.2426, 'grad_norm': 0.6006679534912109, 'learning_rate': 5.533053114252962e-06, 'epoch': 0.44}
  2%|▏         | 1451/78504 [52:29<64:50:50,  3.03s/it]  2%|▏         | 1452/78504 [52:33<66:54:31,  3.13s/it]                                                       {'loss': 0.1714, 'grad_norm': 0.5728842616081238, 'learning_rate': 5.536874283530761e-06, 'epoch': 0.44}
  2%|▏         | 1452/78504 [52:33<66:54:31,  3.13s/it]  2%|▏         | 1453/78504 [52:35<63:21:30,  2.96s/it]                                                       {'loss': 0.1377, 'grad_norm': 0.6073495745658875, 'learning_rate': 5.54069545280856e-06, 'epoch': 0.44}
  2%|▏         | 1453/78504 [52:35<63:21:30,  2.96s/it]  2%|▏         | 1454/78504 [52:38<61:15:37,  2.86s/it]                                                       {'loss': 0.1455, 'grad_norm': 0.7928131222724915, 'learning_rate': 5.544516622086359e-06, 'epoch': 0.44}
  2%|▏         | 1454/78504 [52:38<61:15:37,  2.86s/it]  2%|▏         | 1455/78504 [52:40<58:05:40,  2.71s/it]                                                       {'loss': 0.1387, 'grad_norm': 0.6218541860580444, 'learning_rate': 5.5483377913641575e-06, 'epoch': 0.44}
  2%|▏         | 1455/78504 [52:40<58:05:40,  2.71s/it]  2%|▏         | 1456/78504 [52:42<55:13:27,  2.58s/it]                                                       {'loss': 0.1558, 'grad_norm': 0.5825249552726746, 'learning_rate': 5.552158960641957e-06, 'epoch': 0.45}
  2%|▏         | 1456/78504 [52:42<55:13:27,  2.58s/it]  2%|▏         | 1457/78504 [52:45<53:39:37,  2.51s/it]                                                       {'loss': 0.1813, 'grad_norm': 0.8664868474006653, 'learning_rate': 5.555980129919756e-06, 'epoch': 0.45}
  2%|▏         | 1457/78504 [52:45<53:39:37,  2.51s/it]  2%|▏         | 1458/78504 [52:47<51:16:27,  2.40s/it]                                                       {'loss': 0.1448, 'grad_norm': 0.5208842754364014, 'learning_rate': 5.559801299197555e-06, 'epoch': 0.45}
  2%|▏         | 1458/78504 [52:47<51:16:27,  2.40s/it]  2%|▏         | 1459/78504 [52:49<50:02:59,  2.34s/it]                                                       {'loss': 0.169, 'grad_norm': 0.6711595058441162, 'learning_rate': 5.563622468475353e-06, 'epoch': 0.45}
  2%|▏         | 1459/78504 [52:49<50:02:59,  2.34s/it]  2%|▏         | 1460/78504 [52:51<49:02:01,  2.29s/it]                                                       {'loss': 0.1346, 'grad_norm': 0.7706631422042847, 'learning_rate': 5.567443637753153e-06, 'epoch': 0.45}
  2%|▏         | 1460/78504 [52:51<49:02:01,  2.29s/it]  2%|▏         | 1461/78504 [52:53<46:12:38,  2.16s/it]                                                       {'loss': 0.217, 'grad_norm': 0.6589921712875366, 'learning_rate': 5.571264807030952e-06, 'epoch': 0.45}
  2%|▏         | 1461/78504 [52:53<46:12:38,  2.16s/it]  2%|▏         | 1462/78504 [52:55<45:07:12,  2.11s/it]                                                       {'loss': 0.1543, 'grad_norm': 0.6047631502151489, 'learning_rate': 5.5750859763087504e-06, 'epoch': 0.45}
  2%|▏         | 1462/78504 [52:55<45:07:12,  2.11s/it]  2%|▏         | 1463/78504 [52:57<43:41:45,  2.04s/it]                                                       {'loss': 0.2012, 'grad_norm': 0.901934802532196, 'learning_rate': 5.578907145586549e-06, 'epoch': 0.45}
  2%|▏         | 1463/78504 [52:57<43:41:45,  2.04s/it]  2%|▏         | 1464/78504 [52:59<42:35:03,  1.99s/it]                                                       {'loss': 0.2004, 'grad_norm': 0.8441657423973083, 'learning_rate': 5.582728314864349e-06, 'epoch': 0.45}
  2%|▏         | 1464/78504 [52:59<42:35:03,  1.99s/it]  2%|▏         | 1465/78504 [53:01<41:11:13,  1.92s/it]                                                       {'loss': 0.2299, 'grad_norm': 0.9855977296829224, 'learning_rate': 5.5865494841421475e-06, 'epoch': 0.45}
  2%|▏         | 1465/78504 [53:01<41:11:13,  1.92s/it]  2%|▏         | 1466/78504 [53:02<39:26:39,  1.84s/it]                                                       {'loss': 0.2572, 'grad_norm': 0.9420602321624756, 'learning_rate': 5.590370653419946e-06, 'epoch': 0.45}
  2%|▏         | 1466/78504 [53:02<39:26:39,  1.84s/it]  2%|▏         | 1467/78504 [53:04<37:33:59,  1.76s/it]                                                       {'loss': 0.2665, 'grad_norm': 1.2400072813034058, 'learning_rate': 5.594191822697745e-06, 'epoch': 0.45}
  2%|▏         | 1467/78504 [53:04<37:33:59,  1.76s/it]  2%|▏         | 1468/78504 [53:05<35:39:47,  1.67s/it]                                                       {'loss': 0.3153, 'grad_norm': 0.8167262077331543, 'learning_rate': 5.598012991975545e-06, 'epoch': 0.45}
  2%|▏         | 1468/78504 [53:05<35:39:47,  1.67s/it]  2%|▏         | 1469/78504 [53:07<34:00:54,  1.59s/it]                                                       {'loss': 0.3112, 'grad_norm': 1.2354620695114136, 'learning_rate': 5.601834161253343e-06, 'epoch': 0.45}
  2%|▏         | 1469/78504 [53:07<34:00:54,  1.59s/it]  2%|▏         | 1470/78504 [53:08<32:00:25,  1.50s/it]                                                       {'loss': 0.3297, 'grad_norm': 1.4385031461715698, 'learning_rate': 5.605655330531142e-06, 'epoch': 0.45}
  2%|▏         | 1470/78504 [53:08<32:00:25,  1.50s/it]  2%|▏         | 1471/78504 [53:09<29:48:13,  1.39s/it]                                                       {'loss': 0.3426, 'grad_norm': 1.140471339225769, 'learning_rate': 5.609476499808942e-06, 'epoch': 0.45}
  2%|▏         | 1471/78504 [53:09<29:48:13,  1.39s/it]  2%|▏         | 1472/78504 [53:10<27:59:48,  1.31s/it]                                                       {'loss': 0.3459, 'grad_norm': 1.5762871503829956, 'learning_rate': 5.613297669086741e-06, 'epoch': 0.45}
  2%|▏         | 1472/78504 [53:10<27:59:48,  1.31s/it]  2%|▏         | 1473/78504 [53:11<26:02:32,  1.22s/it]                                                       {'loss': 0.4316, 'grad_norm': 2.192809581756592, 'learning_rate': 5.61711883836454e-06, 'epoch': 0.45}
  2%|▏         | 1473/78504 [53:11<26:02:32,  1.22s/it]  2%|▏         | 1474/78504 [53:12<24:19:48,  1.14s/it]                                                       {'loss': 0.4396, 'grad_norm': 1.8700090646743774, 'learning_rate': 5.620940007642339e-06, 'epoch': 0.45}
  2%|▏         | 1474/78504 [53:12<24:19:48,  1.14s/it]  2%|▏         | 1475/78504 [53:13<22:06:02,  1.03s/it]                                                       {'loss': 0.5464, 'grad_norm': 2.949990749359131, 'learning_rate': 5.6247611769201375e-06, 'epoch': 0.45}
  2%|▏         | 1475/78504 [53:13<22:06:02,  1.03s/it]  2%|▏         | 1476/78504 [53:22<72:13:43,  3.38s/it]                                                       {'loss': 0.2602, 'grad_norm': 0.5750002264976501, 'learning_rate': 5.628582346197937e-06, 'epoch': 0.45}
  2%|▏         | 1476/78504 [53:22<72:13:43,  3.38s/it]  2%|▏         | 1477/78504 [53:25<70:28:55,  3.29s/it]                                                       {'loss': 0.1773, 'grad_norm': 0.6884226202964783, 'learning_rate': 5.632403515475736e-06, 'epoch': 0.45}
  2%|▏         | 1477/78504 [53:25<70:28:55,  3.29s/it]  2%|▏         | 1478/78504 [53:28<68:06:48,  3.18s/it]                                                       {'loss': 0.1433, 'grad_norm': 0.7850894331932068, 'learning_rate': 5.636224684753535e-06, 'epoch': 0.45}
  2%|▏         | 1478/78504 [53:28<68:06:48,  3.18s/it]  2%|▏         | 1479/78504 [53:30<64:14:48,  3.00s/it]                                                       {'loss': 0.1353, 'grad_norm': 0.5394912362098694, 'learning_rate': 5.640045854031334e-06, 'epoch': 0.45}
  2%|▏         | 1479/78504 [53:30<64:14:48,  3.00s/it]  2%|▏         | 1480/78504 [53:33<60:59:00,  2.85s/it]                                                       {'loss': 0.124, 'grad_norm': 0.43276676535606384, 'learning_rate': 5.643867023309133e-06, 'epoch': 0.45}
  2%|▏         | 1480/78504 [53:33<60:59:00,  2.85s/it]  2%|▏         | 1481/78504 [53:35<58:27:50,  2.73s/it]                                                       {'loss': 0.1468, 'grad_norm': 0.5779910683631897, 'learning_rate': 5.647688192586932e-06, 'epoch': 0.45}
  2%|▏         | 1481/78504 [53:35<58:27:50,  2.73s/it]  2%|▏         | 1482/78504 [53:38<55:48:09,  2.61s/it]                                                       {'loss': 0.1229, 'grad_norm': 0.6509206891059875, 'learning_rate': 5.65150936186473e-06, 'epoch': 0.45}
  2%|▏         | 1482/78504 [53:38<55:48:09,  2.61s/it]  2%|▏         | 1483/78504 [53:40<53:53:24,  2.52s/it]                                                       {'loss': 0.1453, 'grad_norm': 0.6439804434776306, 'learning_rate': 5.65533053114253e-06, 'epoch': 0.45}
  2%|▏         | 1483/78504 [53:40<53:53:24,  2.52s/it]  2%|▏         | 1484/78504 [53:42<51:44:32,  2.42s/it]                                                       {'loss': 0.1248, 'grad_norm': 0.5339728593826294, 'learning_rate': 5.659151700420329e-06, 'epoch': 0.45}
  2%|▏         | 1484/78504 [53:42<51:44:32,  2.42s/it]  2%|▏         | 1485/78504 [53:44<50:07:53,  2.34s/it]                                                       {'loss': 0.1615, 'grad_norm': 0.5214660167694092, 'learning_rate': 5.6629728696981275e-06, 'epoch': 0.45}
  2%|▏         | 1485/78504 [53:44<50:07:53,  2.34s/it]  2%|▏         | 1486/78504 [53:46<47:07:24,  2.20s/it]                                                       {'loss': 0.1557, 'grad_norm': 0.7597001194953918, 'learning_rate': 5.666794038975926e-06, 'epoch': 0.45}
  2%|▏         | 1486/78504 [53:46<47:07:24,  2.20s/it]  2%|▏         | 1487/78504 [53:48<45:44:23,  2.14s/it]                                                       {'loss': 0.1712, 'grad_norm': 0.7975046038627625, 'learning_rate': 5.670615208253726e-06, 'epoch': 0.45}
  2%|▏         | 1487/78504 [53:48<45:44:23,  2.14s/it]  2%|▏         | 1488/78504 [53:50<44:20:06,  2.07s/it]                                                       {'loss': 0.2003, 'grad_norm': 0.9877157211303711, 'learning_rate': 5.674436377531525e-06, 'epoch': 0.45}
  2%|▏         | 1488/78504 [53:50<44:20:06,  2.07s/it]  2%|▏         | 1489/78504 [53:52<43:11:01,  2.02s/it]                                                       {'loss': 0.1946, 'grad_norm': 0.7565435171127319, 'learning_rate': 5.678257546809323e-06, 'epoch': 0.46}
  2%|▏         | 1489/78504 [53:52<43:11:01,  2.02s/it]  2%|▏         | 1490/78504 [53:54<41:31:54,  1.94s/it]                                                       {'loss': 0.2548, 'grad_norm': 0.917678713798523, 'learning_rate': 5.682078716087123e-06, 'epoch': 0.46}
  2%|▏         | 1490/78504 [53:54<41:31:54,  1.94s/it]  2%|▏         | 1491/78504 [53:55<39:14:33,  1.83s/it]                                                       {'loss': 0.2248, 'grad_norm': 1.4010577201843262, 'learning_rate': 5.6858998853649225e-06, 'epoch': 0.46}
  2%|▏         | 1491/78504 [53:55<39:14:33,  1.83s/it]  2%|▏         | 1492/78504 [53:57<37:24:29,  1.75s/it]                                                       {'loss': 0.3098, 'grad_norm': 1.313340425491333, 'learning_rate': 5.689721054642721e-06, 'epoch': 0.46}
  2%|▏         | 1492/78504 [53:57<37:24:29,  1.75s/it]  2%|▏         | 1493/78504 [53:58<35:53:42,  1.68s/it]                                                       {'loss': 0.2985, 'grad_norm': 1.1965148448944092, 'learning_rate': 5.69354222392052e-06, 'epoch': 0.46}
  2%|▏         | 1493/78504 [53:58<35:53:42,  1.68s/it]  2%|▏         | 1494/78504 [54:00<34:12:16,  1.60s/it]                                                       {'loss': 0.2997, 'grad_norm': 0.9224949479103088, 'learning_rate': 5.697363393198319e-06, 'epoch': 0.46}
  2%|▏         | 1494/78504 [54:00<34:12:16,  1.60s/it]  2%|▏         | 1495/78504 [54:01<32:15:25,  1.51s/it]                                                       {'loss': 0.3162, 'grad_norm': 1.384360909461975, 'learning_rate': 5.701184562476118e-06, 'epoch': 0.46}
  2%|▏         | 1495/78504 [54:01<32:15:25,  1.51s/it]  2%|▏         | 1496/78504 [54:02<30:01:48,  1.40s/it]                                                       {'loss': 0.3502, 'grad_norm': 1.2723926305770874, 'learning_rate': 5.705005731753917e-06, 'epoch': 0.46}
  2%|▏         | 1496/78504 [54:02<30:01:48,  1.40s/it]  2%|▏         | 1497/78504 [54:04<28:55:20,  1.35s/it]                                                       {'loss': 0.3442, 'grad_norm': 1.572136640548706, 'learning_rate': 5.708826901031716e-06, 'epoch': 0.46}
  2%|▏         | 1497/78504 [54:04<28:55:20,  1.35s/it]  2%|▏         | 1498/78504 [54:05<26:36:19,  1.24s/it]                                                       {'loss': 0.3754, 'grad_norm': 1.644147276878357, 'learning_rate': 5.7126480703095146e-06, 'epoch': 0.46}
  2%|▏         | 1498/78504 [54:05<26:36:19,  1.24s/it]  2%|▏         | 1499/78504 [54:06<24:43:28,  1.16s/it]                                                       {'loss': 0.3957, 'grad_norm': 2.1421966552734375, 'learning_rate': 5.716469239587314e-06, 'epoch': 0.46}
  2%|▏         | 1499/78504 [54:06<24:43:28,  1.16s/it]  2%|▏         | 1500/78504 [54:06<22:21:53,  1.05s/it]                                                       {'loss': 0.4966, 'grad_norm': 3.6919493675231934, 'learning_rate': 5.720290408865113e-06, 'epoch': 0.46}
  2%|▏         | 1500/78504 [54:06<22:21:53,  1.05s/it]  2%|▏         | 1501/78504 [54:14<65:37:34,  3.07s/it]                                                       {'loss': 0.2853, 'grad_norm': 0.8912977576255798, 'learning_rate': 5.724111578142912e-06, 'epoch': 0.46}
  2%|▏         | 1501/78504 [54:14<65:37:34,  3.07s/it]  2%|▏         | 1502/78504 [54:17<65:42:43,  3.07s/it]                                                       {'loss': 0.159, 'grad_norm': 0.5687696933746338, 'learning_rate': 5.72793274742071e-06, 'epoch': 0.46}
  2%|▏         | 1502/78504 [54:17<65:42:43,  3.07s/it]  2%|▏         | 1503/78504 [54:20<65:14:23,  3.05s/it]                                                       {'loss': 0.1756, 'grad_norm': 0.634182870388031, 'learning_rate': 5.73175391669851e-06, 'epoch': 0.46}
  2%|▏         | 1503/78504 [54:20<65:14:23,  3.05s/it]  2%|▏         | 1504/78504 [54:23<62:22:22,  2.92s/it]                                                       {'loss': 0.1239, 'grad_norm': 0.5093748569488525, 'learning_rate': 5.735575085976309e-06, 'epoch': 0.46}
  2%|▏         | 1504/78504 [54:23<62:22:22,  2.92s/it]  2%|▏         | 1505/78504 [54:25<59:39:45,  2.79s/it]                                                       {'loss': 0.104, 'grad_norm': 0.5008350610733032, 'learning_rate': 5.7393962552541075e-06, 'epoch': 0.46}
  2%|▏         | 1505/78504 [54:25<59:39:45,  2.79s/it]  2%|▏         | 1506/78504 [54:28<56:53:54,  2.66s/it]                                                       {'loss': 0.1296, 'grad_norm': 0.6922484040260315, 'learning_rate': 5.743217424531906e-06, 'epoch': 0.46}
  2%|▏         | 1506/78504 [54:28<56:53:54,  2.66s/it]  2%|▏         | 1507/78504 [54:30<54:50:32,  2.56s/it]                                                       {'loss': 0.1274, 'grad_norm': 0.5465528964996338, 'learning_rate': 5.747038593809706e-06, 'epoch': 0.46}
  2%|▏         | 1507/78504 [54:30<54:50:32,  2.56s/it]  2%|▏         | 1508/78504 [54:32<51:47:33,  2.42s/it]                                                       {'loss': 0.1062, 'grad_norm': 0.5320935249328613, 'learning_rate': 5.7508597630875046e-06, 'epoch': 0.46}
  2%|▏         | 1508/78504 [54:32<51:47:33,  2.42s/it]  2%|▏         | 1509/78504 [54:34<50:22:28,  2.36s/it]                                                       {'loss': 0.174, 'grad_norm': 0.6155261993408203, 'learning_rate': 5.754680932365303e-06, 'epoch': 0.46}
  2%|▏         | 1509/78504 [54:34<50:22:28,  2.36s/it]  2%|▏         | 1510/78504 [54:36<48:59:37,  2.29s/it]                                                       {'loss': 0.1433, 'grad_norm': 1.0189393758773804, 'learning_rate': 5.758502101643103e-06, 'epoch': 0.46}
  2%|▏         | 1510/78504 [54:36<48:59:37,  2.29s/it]  2%|▏         | 1511/78504 [54:38<47:22:12,  2.21s/it]                                                       {'loss': 0.129, 'grad_norm': 0.6382350325584412, 'learning_rate': 5.7623232709209025e-06, 'epoch': 0.46}
  2%|▏         | 1511/78504 [54:38<47:22:12,  2.21s/it]  2%|▏         | 1512/78504 [54:40<45:54:18,  2.15s/it]                                                       {'loss': 0.1861, 'grad_norm': 1.652158498764038, 'learning_rate': 5.766144440198701e-06, 'epoch': 0.46}
  2%|▏         | 1512/78504 [54:40<45:54:18,  2.15s/it]  2%|▏         | 1513/78504 [54:42<44:07:33,  2.06s/it]                                                       {'loss': 0.208, 'grad_norm': 0.9698798060417175, 'learning_rate': 5.7699656094765e-06, 'epoch': 0.46}
  2%|▏         | 1513/78504 [54:42<44:07:33,  2.06s/it]  2%|▏         | 1514/78504 [54:44<41:56:10,  1.96s/it]                                                       {'loss': 0.2001, 'grad_norm': 0.8726076483726501, 'learning_rate': 5.7737867787542996e-06, 'epoch': 0.46}
  2%|▏         | 1514/78504 [54:44<41:56:10,  1.96s/it]  2%|▏         | 1515/78504 [54:46<40:02:52,  1.87s/it]                                                       {'loss': 0.2294, 'grad_norm': 0.753102719783783, 'learning_rate': 5.777607948032098e-06, 'epoch': 0.46}
  2%|▏         | 1515/78504 [54:46<40:02:52,  1.87s/it]  2%|▏         | 1516/78504 [54:47<38:35:41,  1.80s/it]                                                       {'loss': 0.219, 'grad_norm': 0.9722453951835632, 'learning_rate': 5.781429117309897e-06, 'epoch': 0.46}
  2%|▏         | 1516/78504 [54:47<38:35:41,  1.80s/it]  2%|▏         | 1517/78504 [54:49<36:45:13,  1.72s/it]                                                       {'loss': 0.2646, 'grad_norm': 1.0511925220489502, 'learning_rate': 5.785250286587696e-06, 'epoch': 0.46}
  2%|▏         | 1517/78504 [54:49<36:45:13,  1.72s/it]  2%|▏         | 1518/78504 [54:50<35:12:03,  1.65s/it]                                                       {'loss': 0.2864, 'grad_norm': 1.0059694051742554, 'learning_rate': 5.789071455865495e-06, 'epoch': 0.46}
  2%|▏         | 1518/78504 [54:50<35:12:03,  1.65s/it]  2%|▏         | 1519/78504 [54:52<33:39:01,  1.57s/it]                                                       {'loss': 0.3016, 'grad_norm': 1.1343311071395874, 'learning_rate': 5.792892625143294e-06, 'epoch': 0.46}
  2%|▏         | 1519/78504 [54:52<33:39:01,  1.57s/it]  2%|▏         | 1520/78504 [54:53<31:48:40,  1.49s/it]                                                       {'loss': 0.3558, 'grad_norm': 4.117332458496094, 'learning_rate': 5.796713794421093e-06, 'epoch': 0.46}
  2%|▏         | 1520/78504 [54:53<31:48:40,  1.49s/it]  2%|▏         | 1521/78504 [54:54<29:40:11,  1.39s/it]                                                       {'loss': 0.359, 'grad_norm': 1.7416610717773438, 'learning_rate': 5.800534963698892e-06, 'epoch': 0.46}
  2%|▏         | 1521/78504 [54:54<29:40:11,  1.39s/it]  2%|▏         | 1522/78504 [54:55<27:50:48,  1.30s/it]                                                       {'loss': 0.3616, 'grad_norm': 4.492753505706787, 'learning_rate': 5.804356132976691e-06, 'epoch': 0.47}
  2%|▏         | 1522/78504 [54:55<27:50:48,  1.30s/it]  2%|▏         | 1523/78504 [54:56<26:14:25,  1.23s/it]                                                       {'loss': 0.3859, 'grad_norm': 3.5465192794799805, 'learning_rate': 5.80817730225449e-06, 'epoch': 0.47}
  2%|▏         | 1523/78504 [54:56<26:14:25,  1.23s/it]  2%|▏         | 1524/78504 [54:57<24:20:36,  1.14s/it]                                                       {'loss': 0.3971, 'grad_norm': 1.7752809524536133, 'learning_rate': 5.811998471532289e-06, 'epoch': 0.47}
  2%|▏         | 1524/78504 [54:57<24:20:36,  1.14s/it]  2%|▏         | 1525/78504 [54:58<22:03:31,  1.03s/it]                                                       {'loss': 0.5869, 'grad_norm': 3.450338363647461, 'learning_rate': 5.8158196408100874e-06, 'epoch': 0.47}
  2%|▏         | 1525/78504 [54:58<22:03:31,  1.03s/it]  2%|▏         | 1526/78504 [55:07<74:13:26,  3.47s/it]                                                       {'loss': 0.2576, 'grad_norm': 0.6518266201019287, 'learning_rate': 5.819640810087887e-06, 'epoch': 0.47}
  2%|▏         | 1526/78504 [55:07<74:13:26,  3.47s/it]  2%|▏         | 1527/78504 [55:10<70:39:35,  3.30s/it]                                                       {'loss': 0.1598, 'grad_norm': 0.4855239987373352, 'learning_rate': 5.823461979365686e-06, 'epoch': 0.47}
  2%|▏         | 1527/78504 [55:10<70:39:35,  3.30s/it]  2%|▏         | 1528/78504 [55:13<66:00:12,  3.09s/it]                                                       {'loss': 0.1582, 'grad_norm': 0.4652314782142639, 'learning_rate': 5.8272831486434845e-06, 'epoch': 0.47}
  2%|▏         | 1528/78504 [55:13<66:00:12,  3.09s/it]  2%|▏         | 1529/78504 [55:15<63:00:07,  2.95s/it]                                                       {'loss': 0.1152, 'grad_norm': 0.46380504965782166, 'learning_rate': 5.831104317921284e-06, 'epoch': 0.47}
  2%|▏         | 1529/78504 [55:15<63:00:07,  2.95s/it]  2%|▏         | 1530/78504 [55:18<60:05:25,  2.81s/it]                                                       {'loss': 0.1138, 'grad_norm': 0.4838676154613495, 'learning_rate': 5.834925487199084e-06, 'epoch': 0.47}
  2%|▏         | 1530/78504 [55:18<60:05:25,  2.81s/it]  2%|▏         | 1531/78504 [55:20<57:40:55,  2.70s/it]                                                       {'loss': 0.135, 'grad_norm': 0.5403484106063843, 'learning_rate': 5.8387466564768825e-06, 'epoch': 0.47}
  2%|▏         | 1531/78504 [55:20<57:40:55,  2.70s/it]  2%|▏         | 1532/78504 [55:23<55:16:50,  2.59s/it]                                                       {'loss': 0.1169, 'grad_norm': 0.4559294581413269, 'learning_rate': 5.842567825754681e-06, 'epoch': 0.47}
  2%|▏         | 1532/78504 [55:23<55:16:50,  2.59s/it]  2%|▏         | 1533/78504 [55:25<52:17:29,  2.45s/it]                                                       {'loss': 0.1629, 'grad_norm': 0.8320120573043823, 'learning_rate': 5.84638899503248e-06, 'epoch': 0.47}
  2%|▏         | 1533/78504 [55:25<52:17:29,  2.45s/it]  2%|▏         | 1534/78504 [55:27<50:35:20,  2.37s/it]                                                       {'loss': 0.1142, 'grad_norm': 0.5228766798973083, 'learning_rate': 5.8502101643102795e-06, 'epoch': 0.47}
  2%|▏         | 1534/78504 [55:27<50:35:20,  2.37s/it]  2%|▏         | 1535/78504 [55:29<49:21:34,  2.31s/it]                                                       {'loss': 0.1487, 'grad_norm': 0.8565366268157959, 'learning_rate': 5.854031333588078e-06, 'epoch': 0.47}
  2%|▏         | 1535/78504 [55:29<49:21:34,  2.31s/it]  2%|▏         | 1536/78504 [55:31<46:30:02,  2.17s/it]                                                       {'loss': 0.1852, 'grad_norm': 0.835739016532898, 'learning_rate': 5.857852502865877e-06, 'epoch': 0.47}
  2%|▏         | 1536/78504 [55:31<46:30:02,  2.17s/it]  2%|▏         | 1537/78504 [55:33<45:20:37,  2.12s/it]                                                       {'loss': 0.1502, 'grad_norm': 0.6322270631790161, 'learning_rate': 5.861673672143676e-06, 'epoch': 0.47}
  2%|▏         | 1537/78504 [55:33<45:20:37,  2.12s/it]  2%|▏         | 1538/78504 [55:35<44:07:09,  2.06s/it]                                                       {'loss': 0.2125, 'grad_norm': 0.6449726223945618, 'learning_rate': 5.865494841421475e-06, 'epoch': 0.47}
  2%|▏         | 1538/78504 [55:35<44:07:09,  2.06s/it]  2%|▏         | 1539/78504 [55:37<43:03:19,  2.01s/it]                                                       {'loss': 0.1806, 'grad_norm': 0.9615899324417114, 'learning_rate': 5.869316010699274e-06, 'epoch': 0.47}
  2%|▏         | 1539/78504 [55:37<43:03:19,  2.01s/it]  2%|▏         | 1540/78504 [55:38<41:28:07,  1.94s/it]                                                       {'loss': 0.3039, 'grad_norm': 1.5217723846435547, 'learning_rate': 5.873137179977073e-06, 'epoch': 0.47}
  2%|▏         | 1540/78504 [55:38<41:28:07,  1.94s/it]  2%|▏         | 1541/78504 [55:40<39:12:55,  1.83s/it]                                                       {'loss': 0.2308, 'grad_norm': 1.047280192375183, 'learning_rate': 5.8769583492548724e-06, 'epoch': 0.47}
  2%|▏         | 1541/78504 [55:40<39:12:55,  1.83s/it]  2%|▏         | 1542/78504 [55:42<37:22:48,  1.75s/it]                                                       {'loss': 0.2975, 'grad_norm': 1.2710621356964111, 'learning_rate': 5.880779518532671e-06, 'epoch': 0.47}
  2%|▏         | 1542/78504 [55:42<37:22:48,  1.75s/it]  2%|▏         | 1543/78504 [55:43<35:36:58,  1.67s/it]                                                       {'loss': 0.3252, 'grad_norm': 1.2034118175506592, 'learning_rate': 5.88460068781047e-06, 'epoch': 0.47}
  2%|▏         | 1543/78504 [55:43<35:36:58,  1.67s/it]  2%|▏         | 1544/78504 [55:44<33:57:52,  1.59s/it]                                                       {'loss': 0.3477, 'grad_norm': 1.399906873703003, 'learning_rate': 5.888421857088269e-06, 'epoch': 0.47}
  2%|▏         | 1544/78504 [55:45<33:57:52,  1.59s/it]  2%|▏         | 1545/78504 [55:46<32:03:53,  1.50s/it]                                                       {'loss': 0.3406, 'grad_norm': 1.4099671840667725, 'learning_rate': 5.892243026366068e-06, 'epoch': 0.47}
  2%|▏         | 1545/78504 [55:46<32:03:53,  1.50s/it]  2%|▏         | 1546/78504 [55:47<29:47:07,  1.39s/it]                                                       {'loss': 0.3249, 'grad_norm': 2.3429577350616455, 'learning_rate': 5.896064195643867e-06, 'epoch': 0.47}
  2%|▏         | 1546/78504 [55:47<29:47:07,  1.39s/it]  2%|▏         | 1547/78504 [55:48<27:56:28,  1.31s/it]                                                       {'loss': 0.3721, 'grad_norm': 11.052801132202148, 'learning_rate': 5.899885364921666e-06, 'epoch': 0.47}
  2%|▏         | 1547/78504 [55:48<27:56:28,  1.31s/it]  2%|▏         | 1548/78504 [55:49<25:59:35,  1.22s/it]                                                       {'loss': 0.3924, 'grad_norm': 1.7301377058029175, 'learning_rate': 5.903706534199465e-06, 'epoch': 0.47}
  2%|▏         | 1548/78504 [55:49<25:59:35,  1.22s/it]  2%|▏         | 1549/78504 [55:50<24:18:23,  1.14s/it]                                                       {'loss': 0.4019, 'grad_norm': 1.925672173500061, 'learning_rate': 5.907527703477265e-06, 'epoch': 0.47}
  2%|▏         | 1549/78504 [55:50<24:18:23,  1.14s/it]  2%|▏         | 1550/78504 [55:51<22:15:03,  1.04s/it]                                                       {'loss': 0.5798, 'grad_norm': 2.3690290451049805, 'learning_rate': 5.911348872755064e-06, 'epoch': 0.47}
  2%|▏         | 1550/78504 [55:51<22:15:03,  1.04s/it]  2%|▏         | 1551/78504 [56:00<72:21:07,  3.38s/it]                                                       {'loss': 0.2334, 'grad_norm': 0.6058140993118286, 'learning_rate': 5.9151700420328624e-06, 'epoch': 0.47}
  2%|▏         | 1551/78504 [56:00<72:21:07,  3.38s/it]  2%|▏         | 1552/78504 [56:03<72:14:32,  3.38s/it]                                                       {'loss': 0.1489, 'grad_norm': 0.6556515693664551, 'learning_rate': 5.918991211310661e-06, 'epoch': 0.47}
  2%|▏         | 1552/78504 [56:03<72:14:32,  3.38s/it]  2%|▏         | 1553/78504 [56:06<67:01:52,  3.14s/it]                                                       {'loss': 0.1519, 'grad_norm': 0.6158584356307983, 'learning_rate': 5.922812380588461e-06, 'epoch': 0.47}
  2%|▏         | 1553/78504 [56:06<67:01:52,  3.14s/it]  2%|▏         | 1554/78504 [56:08<63:42:48,  2.98s/it]                                                       {'loss': 0.1172, 'grad_norm': 0.5261646509170532, 'learning_rate': 5.9266335498662595e-06, 'epoch': 0.48}
  2%|▏         | 1554/78504 [56:08<63:42:48,  2.98s/it]  2%|▏         | 1555/78504 [56:11<59:45:41,  2.80s/it]                                                       {'loss': 0.1138, 'grad_norm': 0.4238406717777252, 'learning_rate': 5.930454719144058e-06, 'epoch': 0.48}
  2%|▏         | 1555/78504 [56:11<59:45:41,  2.80s/it]  2%|▏         | 1556/78504 [56:13<56:22:32,  2.64s/it]                                                       {'loss': 0.1489, 'grad_norm': 0.5132592916488647, 'learning_rate': 5.934275888421857e-06, 'epoch': 0.48}
  2%|▏         | 1556/78504 [56:13<56:22:32,  2.64s/it]  2%|▏         | 1557/78504 [56:15<54:20:48,  2.54s/it]                                                       {'loss': 0.1029, 'grad_norm': 0.489541232585907, 'learning_rate': 5.938097057699657e-06, 'epoch': 0.48}
  2%|▏         | 1557/78504 [56:15<54:20:48,  2.54s/it]  2%|▏         | 1558/78504 [56:17<51:28:37,  2.41s/it]                                                       {'loss': 0.1105, 'grad_norm': 0.7315694689750671, 'learning_rate': 5.941918226977455e-06, 'epoch': 0.48}
  2%|▏         | 1558/78504 [56:17<51:28:37,  2.41s/it]  2%|▏         | 1559/78504 [56:19<50:06:40,  2.34s/it]                                                       {'loss': 0.1747, 'grad_norm': 0.6320673227310181, 'learning_rate': 5.945739396255254e-06, 'epoch': 0.48}
  2%|▏         | 1559/78504 [56:19<50:06:40,  2.34s/it]  2%|▏         | 1560/78504 [56:22<48:51:02,  2.29s/it]                                                       {'loss': 0.1051, 'grad_norm': 0.6652668714523315, 'learning_rate': 5.949560565533053e-06, 'epoch': 0.48}
  2%|▏         | 1560/78504 [56:22<48:51:02,  2.29s/it]  2%|▏         | 1561/78504 [56:24<47:12:08,  2.21s/it]                                                       {'loss': 0.2037, 'grad_norm': 0.7119699120521545, 'learning_rate': 5.953381734810852e-06, 'epoch': 0.48}
  2%|▏         | 1561/78504 [56:24<47:12:08,  2.21s/it]  2%|▏         | 1562/78504 [56:26<45:52:20,  2.15s/it]                                                       {'loss': 0.1742, 'grad_norm': 0.9247368574142456, 'learning_rate': 5.957202904088651e-06, 'epoch': 0.48}
  2%|▏         | 1562/78504 [56:26<45:52:20,  2.15s/it]  2%|▏         | 1563/78504 [56:28<44:26:15,  2.08s/it]                                                       {'loss': 0.2186, 'grad_norm': 0.7939284443855286, 'learning_rate': 5.96102407336645e-06, 'epoch': 0.48}
  2%|▏         | 1563/78504 [56:28<44:26:15,  2.08s/it]  2%|▏         | 1564/78504 [56:29<43:12:39,  2.02s/it]                                                       {'loss': 0.1897, 'grad_norm': 1.5275377035140991, 'learning_rate': 5.964845242644249e-06, 'epoch': 0.48}
  2%|▏         | 1564/78504 [56:29<43:12:39,  2.02s/it]  2%|▏         | 1565/78504 [56:31<41:35:11,  1.95s/it]                                                       {'loss': 0.226, 'grad_norm': 0.8849748373031616, 'learning_rate': 5.968666411922048e-06, 'epoch': 0.48}
  2%|▏         | 1565/78504 [56:31<41:35:11,  1.95s/it]  2%|▏         | 1566/78504 [56:33<39:13:20,  1.84s/it]                                                       {'loss': 0.2697, 'grad_norm': 1.4264332056045532, 'learning_rate': 5.972487581199847e-06, 'epoch': 0.48}
  2%|▏         | 1566/78504 [56:33<39:13:20,  1.84s/it]  2%|▏         | 1567/78504 [56:34<37:20:21,  1.75s/it]                                                       {'loss': 0.2519, 'grad_norm': 1.2362239360809326, 'learning_rate': 5.976308750477646e-06, 'epoch': 0.48}
  2%|▏         | 1567/78504 [56:34<37:20:21,  1.75s/it]  2%|▏         | 1568/78504 [56:36<35:34:30,  1.66s/it]                                                       {'loss': 0.2949, 'grad_norm': 1.2370015382766724, 'learning_rate': 5.980129919755445e-06, 'epoch': 0.48}
  2%|▏         | 1568/78504 [56:36<35:34:30,  1.66s/it]  2%|▏         | 1569/78504 [56:37<33:58:28,  1.59s/it]                                                       {'loss': 0.3011, 'grad_norm': 1.231164574623108, 'learning_rate': 5.983951089033245e-06, 'epoch': 0.48}
  2%|▏         | 1569/78504 [56:37<33:58:28,  1.59s/it]  2%|▏         | 1570/78504 [56:39<31:58:25,  1.50s/it]                                                       {'loss': 0.3082, 'grad_norm': 1.7411141395568848, 'learning_rate': 5.987772258311044e-06, 'epoch': 0.48}
  2%|▏         | 1570/78504 [56:39<31:58:25,  1.50s/it]  2%|▏         | 1571/78504 [56:40<29:45:19,  1.39s/it]                                                       {'loss': 0.3462, 'grad_norm': 1.3877772092819214, 'learning_rate': 5.991593427588842e-06, 'epoch': 0.48}
  2%|▏         | 1571/78504 [56:40<29:45:19,  1.39s/it]  2%|▏         | 1572/78504 [56:41<27:54:50,  1.31s/it]                                                       {'loss': 0.3205, 'grad_norm': 1.653743028640747, 'learning_rate': 5.995414596866641e-06, 'epoch': 0.48}
  2%|▏         | 1572/78504 [56:41<27:54:50,  1.31s/it]  2%|▏         | 1573/78504 [56:42<25:54:43,  1.21s/it]                                                       {'loss': 0.3775, 'grad_norm': 2.664297580718994, 'learning_rate': 5.999235766144441e-06, 'epoch': 0.48}
  2%|▏         | 1573/78504 [56:42<25:54:43,  1.21s/it]  2%|▏         | 1574/78504 [56:43<24:06:27,  1.13s/it]                                                       {'loss': 0.441, 'grad_norm': 2.1151676177978516, 'learning_rate': 6.0030569354222395e-06, 'epoch': 0.48}
  2%|▏         | 1574/78504 [56:43<24:06:27,  1.13s/it]  2%|▏         | 1575/78504 [56:43<21:51:36,  1.02s/it]                                                       {'loss': 0.5031, 'grad_norm': 3.1114697456359863, 'learning_rate': 6.006878104700038e-06, 'epoch': 0.48}
  2%|▏         | 1575/78504 [56:43<21:51:36,  1.02s/it]  2%|▏         | 1576/78504 [56:54<80:08:31,  3.75s/it]                                                       {'loss': 0.2442, 'grad_norm': 1.0440870523452759, 'learning_rate': 6.010699273977838e-06, 'epoch': 0.48}
  2%|▏         | 1576/78504 [56:54<80:08:31,  3.75s/it]  2%|▏         | 1577/78504 [56:57<77:00:32,  3.60s/it]                                                       {'loss': 0.1554, 'grad_norm': 0.4584539532661438, 'learning_rate': 6.0145204432556366e-06, 'epoch': 0.48}
  2%|▏         | 1577/78504 [56:57<77:00:32,  3.60s/it]  2%|▏         | 1578/78504 [56:59<70:22:37,  3.29s/it]                                                       {'loss': 0.1355, 'grad_norm': 0.6052743196487427, 'learning_rate': 6.018341612533435e-06, 'epoch': 0.48}
  2%|▏         | 1578/78504 [56:59<70:22:37,  3.29s/it]  2%|▏         | 1579/78504 [57:02<65:48:07,  3.08s/it]                                                       {'loss': 0.1239, 'grad_norm': 0.5751933455467224, 'learning_rate': 6.022162781811234e-06, 'epoch': 0.48}
  2%|▏         | 1579/78504 [57:02<65:48:07,  3.08s/it]  2%|▏         | 1580/78504 [57:04<62:05:17,  2.91s/it]                                                       {'loss': 0.1303, 'grad_norm': 0.5758290886878967, 'learning_rate': 6.025983951089034e-06, 'epoch': 0.48}
  2%|▏         | 1580/78504 [57:05<62:05:17,  2.91s/it]  2%|▏         | 1581/78504 [57:07<59:12:14,  2.77s/it]                                                       {'loss': 0.1557, 'grad_norm': 0.8872753977775574, 'learning_rate': 6.029805120366832e-06, 'epoch': 0.48}
  2%|▏         | 1581/78504 [57:07<59:12:14,  2.77s/it]  2%|▏         | 1582/78504 [57:09<56:19:54,  2.64s/it]                                                       {'loss': 0.1012, 'grad_norm': 0.4593057334423065, 'learning_rate': 6.033626289644631e-06, 'epoch': 0.48}
  2%|▏         | 1582/78504 [57:09<56:19:54,  2.64s/it]  2%|▏         | 1583/78504 [57:12<54:12:40,  2.54s/it]                                                       {'loss': 0.1886, 'grad_norm': 2.508209705352783, 'learning_rate': 6.03744745892243e-06, 'epoch': 0.48}
  2%|▏         | 1583/78504 [57:12<54:12:40,  2.54s/it]  2%|▏         | 1584/78504 [57:14<52:02:10,  2.44s/it]                                                       {'loss': 0.1446, 'grad_norm': 0.5534228086471558, 'learning_rate': 6.0412686282002295e-06, 'epoch': 0.48}
  2%|▏         | 1584/78504 [57:14<52:02:10,  2.44s/it]  2%|▏         | 1585/78504 [57:16<50:19:06,  2.36s/it]                                                       {'loss': 0.1213, 'grad_norm': 0.6376481652259827, 'learning_rate': 6.045089797478028e-06, 'epoch': 0.48}
  2%|▏         | 1585/78504 [57:16<50:19:06,  2.36s/it]  2%|▏         | 1586/78504 [57:18<47:12:18,  2.21s/it]                                                       {'loss': 0.1827, 'grad_norm': 0.831822395324707, 'learning_rate': 6.048910966755827e-06, 'epoch': 0.48}
  2%|▏         | 1586/78504 [57:18<47:12:18,  2.21s/it]  2%|▏         | 1587/78504 [57:20<45:47:40,  2.14s/it]                                                       {'loss': 0.149, 'grad_norm': 0.5340111255645752, 'learning_rate': 6.0527321360336266e-06, 'epoch': 0.49}
  2%|▏         | 1587/78504 [57:20<45:47:40,  2.14s/it]  2%|▏         | 1588/78504 [57:22<44:25:50,  2.08s/it]                                                       {'loss': 0.183, 'grad_norm': 0.899723470211029, 'learning_rate': 6.056553305311426e-06, 'epoch': 0.49}
  2%|▏         | 1588/78504 [57:22<44:25:50,  2.08s/it]  2%|▏         | 1589/78504 [57:24<43:16:49,  2.03s/it]                                                       {'loss': 0.1985, 'grad_norm': 0.7544511556625366, 'learning_rate': 6.060374474589225e-06, 'epoch': 0.49}
  2%|▏         | 1589/78504 [57:24<43:16:49,  2.03s/it]  2%|▏         | 1590/78504 [57:25<41:39:24,  1.95s/it]                                                       {'loss': 0.2104, 'grad_norm': 0.837821900844574, 'learning_rate': 6.064195643867024e-06, 'epoch': 0.49}
  2%|▏         | 1590/78504 [57:25<41:39:24,  1.95s/it]  2%|▏         | 1591/78504 [57:27<39:18:35,  1.84s/it]                                                       {'loss': 0.2526, 'grad_norm': 1.1283105611801147, 'learning_rate': 6.068016813144822e-06, 'epoch': 0.49}
  2%|▏         | 1591/78504 [57:27<39:18:35,  1.84s/it]  2%|▏         | 1592/78504 [57:29<37:22:05,  1.75s/it]                                                       {'loss': 0.2586, 'grad_norm': 1.5213171243667603, 'learning_rate': 6.071837982422622e-06, 'epoch': 0.49}
  2%|▏         | 1592/78504 [57:29<37:22:05,  1.75s/it]  2%|▏         | 1593/78504 [57:30<35:51:01,  1.68s/it]                                                       {'loss': 0.2846, 'grad_norm': 1.7326734066009521, 'learning_rate': 6.075659151700421e-06, 'epoch': 0.49}
  2%|▏         | 1593/78504 [57:30<35:51:01,  1.68s/it]  2%|▏         | 1594/78504 [57:31<34:04:13,  1.59s/it]                                                       {'loss': 0.3226, 'grad_norm': 1.5707367658615112, 'learning_rate': 6.0794803209782195e-06, 'epoch': 0.49}
  2%|▏         | 1594/78504 [57:31<34:04:13,  1.59s/it]  2%|▏         | 1595/78504 [57:33<32:05:44,  1.50s/it]                                                       {'loss': 0.3242, 'grad_norm': 1.4573074579238892, 'learning_rate': 6.083301490256018e-06, 'epoch': 0.49}
  2%|▏         | 1595/78504 [57:33<32:05:44,  1.50s/it]  2%|▏         | 1596/78504 [57:34<29:50:10,  1.40s/it]                                                       {'loss': 0.3074, 'grad_norm': 1.2020325660705566, 'learning_rate': 6.087122659533818e-06, 'epoch': 0.49}
  2%|▏         | 1596/78504 [57:34<29:50:10,  1.40s/it]  2%|▏         | 1597/78504 [57:35<27:57:52,  1.31s/it]                                                       {'loss': 0.361, 'grad_norm': 1.8295068740844727, 'learning_rate': 6.0909438288116165e-06, 'epoch': 0.49}
  2%|▏         | 1597/78504 [57:35<27:57:52,  1.31s/it]  2%|▏         | 1598/78504 [57:36<25:58:15,  1.22s/it]                                                       {'loss': 0.3962, 'grad_norm': 1.915524959564209, 'learning_rate': 6.094764998089415e-06, 'epoch': 0.49}
  2%|▏         | 1598/78504 [57:36<25:58:15,  1.22s/it]  2%|▏         | 1599/78504 [57:37<24:14:19,  1.13s/it]                                                       {'loss': 0.3812, 'grad_norm': 2.43646240234375, 'learning_rate': 6.098586167367214e-06, 'epoch': 0.49}
  2%|▏         | 1599/78504 [57:37<24:14:19,  1.13s/it]  2%|▏         | 1600/78504 [57:38<22:09:10,  1.04s/it]                                                       {'loss': 0.5736, 'grad_norm': 3.28507924079895, 'learning_rate': 6.102407336645014e-06, 'epoch': 0.49}
  2%|▏         | 1600/78504 [57:38<22:09:10,  1.04s/it]  2%|▏         | 1601/78504 [57:47<75:48:42,  3.55s/it]                                                       {'loss': 0.2374, 'grad_norm': 0.5855198502540588, 'learning_rate': 6.106228505922812e-06, 'epoch': 0.49}
  2%|▏         | 1601/78504 [57:47<75:48:42,  3.55s/it]  2%|▏         | 1602/78504 [57:50<72:58:21,  3.42s/it]                                                       {'loss': 0.1849, 'grad_norm': 0.6425602436065674, 'learning_rate': 6.110049675200611e-06, 'epoch': 0.49}
  2%|▏         | 1602/78504 [57:50<72:58:21,  3.42s/it]  2%|▏         | 1603/78504 [57:53<69:51:44,  3.27s/it]                                                       {'loss': 0.1223, 'grad_norm': 0.5482865571975708, 'learning_rate': 6.11387084447841e-06, 'epoch': 0.49}
  2%|▏         | 1603/78504 [57:53<69:51:44,  3.27s/it]  2%|▏         | 1604/78504 [57:56<65:26:52,  3.06s/it]                                                       {'loss': 0.1182, 'grad_norm': 0.49301162362098694, 'learning_rate': 6.1176920137562094e-06, 'epoch': 0.49}
  2%|▏         | 1604/78504 [57:56<65:26:52,  3.06s/it]  2%|▏         | 1605/78504 [57:58<61:49:33,  2.89s/it]                                                       {'loss': 0.1091, 'grad_norm': 0.464394748210907, 'learning_rate': 6.121513183034008e-06, 'epoch': 0.49}
  2%|▏         | 1605/78504 [57:58<61:49:33,  2.89s/it]  2%|▏         | 1606/78504 [58:01<58:59:41,  2.76s/it]                                                       {'loss': 0.1237, 'grad_norm': 0.5490759015083313, 'learning_rate': 6.125334352311807e-06, 'epoch': 0.49}
  2%|▏         | 1606/78504 [58:01<58:59:41,  2.76s/it]  2%|▏         | 1607/78504 [58:03<56:13:52,  2.63s/it]                                                       {'loss': 0.1106, 'grad_norm': 0.5359674692153931, 'learning_rate': 6.129155521589607e-06, 'epoch': 0.49}
  2%|▏         | 1607/78504 [58:03<56:13:52,  2.63s/it]  2%|▏         | 1608/78504 [58:05<54:11:44,  2.54s/it]                                                       {'loss': 0.1769, 'grad_norm': 0.6040338277816772, 'learning_rate': 6.132976690867406e-06, 'epoch': 0.49}
  2%|▏         | 1608/78504 [58:05<54:11:44,  2.54s/it]  2%|▏         | 1609/78504 [58:08<52:01:38,  2.44s/it]                                                       {'loss': 0.1422, 'grad_norm': 0.5274519920349121, 'learning_rate': 6.136797860145205e-06, 'epoch': 0.49}
  2%|▏         | 1609/78504 [58:08<52:01:38,  2.44s/it]  2%|▏         | 1610/78504 [58:10<50:22:26,  2.36s/it]                                                       {'loss': 0.1534, 'grad_norm': 0.6024336218833923, 'learning_rate': 6.140619029423004e-06, 'epoch': 0.49}
  2%|▏         | 1610/78504 [58:10<50:22:26,  2.36s/it]  2%|▏         | 1611/78504 [58:12<47:26:19,  2.22s/it]                                                       {'loss': 0.1631, 'grad_norm': 0.8656171560287476, 'learning_rate': 6.144440198700803e-06, 'epoch': 0.49}
  2%|▏         | 1611/78504 [58:12<47:26:19,  2.22s/it]  2%|▏         | 1612/78504 [58:14<45:57:00,  2.15s/it]                                                       {'loss': 0.17, 'grad_norm': 0.5407431721687317, 'learning_rate': 6.148261367978602e-06, 'epoch': 0.49}
  2%|▏         | 1612/78504 [58:14<45:57:00,  2.15s/it]  2%|▏         | 1613/78504 [58:16<44:33:29,  2.09s/it]                                                       {'loss': 0.2147, 'grad_norm': 0.8366139531135559, 'learning_rate': 6.152082537256401e-06, 'epoch': 0.49}
  2%|▏         | 1613/78504 [58:16<44:33:29,  2.09s/it]  2%|▏         | 1614/78504 [58:17<43:16:41,  2.03s/it]                                                       {'loss': 0.1943, 'grad_norm': 0.7693113088607788, 'learning_rate': 6.1559037065341994e-06, 'epoch': 0.49}
  2%|▏         | 1614/78504 [58:17<43:16:41,  2.03s/it]  2%|▏         | 1615/78504 [58:19<41:35:37,  1.95s/it]                                                       {'loss': 0.2573, 'grad_norm': 1.0070055723190308, 'learning_rate': 6.159724875811999e-06, 'epoch': 0.49}
  2%|▏         | 1615/78504 [58:19<41:35:37,  1.95s/it]  2%|▏         | 1616/78504 [58:21<39:14:01,  1.84s/it]                                                       {'loss': 0.2419, 'grad_norm': 1.0975981950759888, 'learning_rate': 6.163546045089798e-06, 'epoch': 0.49}
  2%|▏         | 1616/78504 [58:21<39:14:01,  1.84s/it]  2%|▏         | 1617/78504 [58:22<37:20:51,  1.75s/it]                                                       {'loss': 0.2551, 'grad_norm': 0.9759030342102051, 'learning_rate': 6.1673672143675965e-06, 'epoch': 0.49}
  2%|▏         | 1617/78504 [58:22<37:20:51,  1.75s/it]  2%|▏         | 1618/78504 [58:24<35:54:19,  1.68s/it]                                                       {'loss': 0.2874, 'grad_norm': 1.008446216583252, 'learning_rate': 6.171188383645395e-06, 'epoch': 0.49}
  2%|▏         | 1618/78504 [58:24<35:54:19,  1.68s/it]  2%|▏         | 1619/78504 [58:25<34:07:47,  1.60s/it]                                                       {'loss': 0.3149, 'grad_norm': 1.062767505645752, 'learning_rate': 6.175009552923195e-06, 'epoch': 0.49}
  2%|▏         | 1619/78504 [58:25<34:07:47,  1.60s/it]  2%|▏         | 1620/78504 [58:27<32:11:26,  1.51s/it]                                                       {'loss': 0.3361, 'grad_norm': 1.5594909191131592, 'learning_rate': 6.178830722200994e-06, 'epoch': 0.5}
  2%|▏         | 1620/78504 [58:27<32:11:26,  1.51s/it]  2%|▏         | 1621/78504 [58:28<29:53:31,  1.40s/it]                                                       {'loss': 0.3783, 'grad_norm': 1.493957281112671, 'learning_rate': 6.182651891478792e-06, 'epoch': 0.5}
  2%|▏         | 1621/78504 [58:28<29:53:31,  1.40s/it]  2%|▏         | 1622/78504 [58:29<27:55:28,  1.31s/it]                                                       {'loss': 0.3477, 'grad_norm': 1.4434784650802612, 'learning_rate': 6.186473060756591e-06, 'epoch': 0.5}
  2%|▏         | 1622/78504 [58:29<27:55:28,  1.31s/it]  2%|▏         | 1623/78504 [58:30<26:19:59,  1.23s/it]                                                       {'loss': 0.3558, 'grad_norm': 1.7336812019348145, 'learning_rate': 6.190294230034391e-06, 'epoch': 0.5}
  2%|▏         | 1623/78504 [58:30<26:19:59,  1.23s/it]  2%|▏         | 1624/78504 [58:31<24:26:05,  1.14s/it]                                                       {'loss': 0.3954, 'grad_norm': 1.7658923864364624, 'learning_rate': 6.1941153993121894e-06, 'epoch': 0.5}
  2%|▏         | 1624/78504 [58:31<24:26:05,  1.14s/it]  2%|▏         | 1625/78504 [58:32<22:06:11,  1.04s/it]                                                       {'loss': 0.4981, 'grad_norm': 2.757596731185913, 'learning_rate': 6.197936568589988e-06, 'epoch': 0.5}
  2%|▏         | 1625/78504 [58:32<22:06:11,  1.04s/it]  2%|▏         | 1626/78504 [58:41<78:05:33,  3.66s/it]                                                       {'loss': 0.2782, 'grad_norm': 0.611805260181427, 'learning_rate': 6.201757737867788e-06, 'epoch': 0.5}
  2%|▏         | 1626/78504 [58:41<78:05:33,  3.66s/it]  2%|▏         | 1627/78504 [58:45<75:50:16,  3.55s/it]                                                       {'loss': 0.1676, 'grad_norm': 0.533721923828125, 'learning_rate': 6.205578907145587e-06, 'epoch': 0.5}
  2%|▏         | 1627/78504 [58:45<75:50:16,  3.55s/it]  2%|▏         | 1628/78504 [58:48<72:24:12,  3.39s/it]                                                       {'loss': 0.1387, 'grad_norm': 0.4837518632411957, 'learning_rate': 6.209400076423386e-06, 'epoch': 0.5}
  2%|▏         | 1628/78504 [58:48<72:24:12,  3.39s/it]  2%|▏         | 1629/78504 [58:50<67:16:57,  3.15s/it]                                                       {'loss': 0.0965, 'grad_norm': 0.45139122009277344, 'learning_rate': 6.213221245701185e-06, 'epoch': 0.5}
  2%|▏         | 1629/78504 [58:50<67:16:57,  3.15s/it]  2%|▏         | 1630/78504 [58:53<62:14:17,  2.91s/it]                                                       {'loss': 0.1077, 'grad_norm': 0.5238125324249268, 'learning_rate': 6.217042414978984e-06, 'epoch': 0.5}
  2%|▏         | 1630/78504 [58:53<62:14:17,  2.91s/it]  2%|▏         | 1631/78504 [58:55<58:05:23,  2.72s/it]                                                       {'loss': 0.1037, 'grad_norm': 0.48245754837989807, 'learning_rate': 6.220863584256783e-06, 'epoch': 0.5}
  2%|▏         | 1631/78504 [58:55<58:05:23,  2.72s/it]  2%|▏         | 1632/78504 [58:57<55:31:32,  2.60s/it]                                                       {'loss': 0.1477, 'grad_norm': 0.5867476463317871, 'learning_rate': 6.224684753534582e-06, 'epoch': 0.5}
  2%|▏         | 1632/78504 [58:57<55:31:32,  2.60s/it]  2%|▏         | 1633/78504 [58:59<52:26:46,  2.46s/it]                                                       {'loss': 0.128, 'grad_norm': 0.5914271473884583, 'learning_rate': 6.228505922812381e-06, 'epoch': 0.5}
  2%|▏         | 1633/78504 [58:59<52:26:46,  2.46s/it]  2%|▏         | 1634/78504 [59:01<49:43:37,  2.33s/it]                                                       {'loss': 0.1346, 'grad_norm': 0.6185508370399475, 'learning_rate': 6.232327092090179e-06, 'epoch': 0.5}
  2%|▏         | 1634/78504 [59:01<49:43:37,  2.33s/it]  2%|▏         | 1635/78504 [59:04<48:37:50,  2.28s/it]                                                       {'loss': 0.1191, 'grad_norm': 0.5250635147094727, 'learning_rate': 6.236148261367979e-06, 'epoch': 0.5}
  2%|▏         | 1635/78504 [59:04<48:37:50,  2.28s/it]  2%|▏         | 1636/78504 [59:06<47:07:50,  2.21s/it]                                                       {'loss': 0.1697, 'grad_norm': 0.8693307042121887, 'learning_rate': 6.239969430645778e-06, 'epoch': 0.5}
  2%|▏         | 1636/78504 [59:06<47:07:50,  2.21s/it]  2%|▏         | 1637/78504 [59:08<45:41:10,  2.14s/it]                                                       {'loss': 0.1317, 'grad_norm': 0.8064185380935669, 'learning_rate': 6.2437905999235765e-06, 'epoch': 0.5}
  2%|▏         | 1637/78504 [59:08<45:41:10,  2.14s/it]  2%|▏         | 1638/78504 [59:09<44:01:06,  2.06s/it]                                                       {'loss': 0.162, 'grad_norm': 0.618786633014679, 'learning_rate': 6.247611769201376e-06, 'epoch': 0.5}
  2%|▏         | 1638/78504 [59:09<44:01:06,  2.06s/it]  2%|▏         | 1639/78504 [59:11<42:33:48,  1.99s/it]                                                       {'loss': 0.2306, 'grad_norm': 1.03717839717865, 'learning_rate': 6.251432938479175e-06, 'epoch': 0.5}
  2%|▏         | 1639/78504 [59:11<42:33:48,  1.99s/it]  2%|▏         | 1640/78504 [59:13<41:17:59,  1.93s/it]                                                       {'loss': 0.1903, 'grad_norm': 0.763977587223053, 'learning_rate': 6.2552541077569736e-06, 'epoch': 0.5}
  2%|▏         | 1640/78504 [59:13<41:17:59,  1.93s/it]  2%|▏         | 1641/78504 [59:15<39:26:07,  1.85s/it]                                                       {'loss': 0.2766, 'grad_norm': 0.9757720828056335, 'learning_rate': 6.259075277034772e-06, 'epoch': 0.5}
  2%|▏         | 1641/78504 [59:15<39:26:07,  1.85s/it]  2%|▏         | 1642/78504 [59:16<37:35:10,  1.76s/it]                                                       {'loss': 0.2642, 'grad_norm': 0.8174242377281189, 'learning_rate': 6.262896446312572e-06, 'epoch': 0.5}
  2%|▏         | 1642/78504 [59:16<37:35:10,  1.76s/it]  2%|▏         | 1643/78504 [59:18<35:46:18,  1.68s/it]                                                       {'loss': 0.2949, 'grad_norm': 1.1471222639083862, 'learning_rate': 6.266717615590371e-06, 'epoch': 0.5}
  2%|▏         | 1643/78504 [59:18<35:46:18,  1.68s/it]  2%|▏         | 1644/78504 [59:19<33:56:13,  1.59s/it]                                                       {'loss': 0.3133, 'grad_norm': 1.6578450202941895, 'learning_rate': 6.270538784868169e-06, 'epoch': 0.5}
  2%|▏         | 1644/78504 [59:19<33:56:13,  1.59s/it]  2%|▏         | 1645/78504 [59:20<32:05:03,  1.50s/it]                                                       {'loss': 0.3063, 'grad_norm': 1.3881834745407104, 'learning_rate': 6.274359954145968e-06, 'epoch': 0.5}
  2%|▏         | 1645/78504 [59:20<32:05:03,  1.50s/it]  2%|▏         | 1646/78504 [59:22<29:59:39,  1.40s/it]                                                       {'loss': 0.3251, 'grad_norm': 1.5048508644104004, 'learning_rate': 6.278181123423769e-06, 'epoch': 0.5}
  2%|▏         | 1646/78504 [59:22<29:59:39,  1.40s/it]  2%|▏         | 1647/78504 [59:23<28:00:50,  1.31s/it]                                                       {'loss': 0.2975, 'grad_norm': 4.338088035583496, 'learning_rate': 6.282002292701567e-06, 'epoch': 0.5}
  2%|▏         | 1647/78504 [59:23<28:00:50,  1.31s/it]  2%|▏         | 1648/78504 [59:24<26:19:59,  1.23s/it]                                                       {'loss': 0.3339, 'grad_norm': 1.5654417276382446, 'learning_rate': 6.285823461979366e-06, 'epoch': 0.5}
  2%|▏         | 1648/78504 [59:24<26:19:59,  1.23s/it]  2%|▏         | 1649/78504 [59:25<24:23:27,  1.14s/it]                                                       {'loss': 0.4566, 'grad_norm': 2.7351977825164795, 'learning_rate': 6.289644631257165e-06, 'epoch': 0.5}
  2%|▏         | 1649/78504 [59:25<24:23:27,  1.14s/it]  2%|▏         | 1650/78504 [59:25<22:07:21,  1.04s/it]                                                       {'loss': 0.4367, 'grad_norm': 2.563049077987671, 'learning_rate': 6.293465800534964e-06, 'epoch': 0.5}
  2%|▏         | 1650/78504 [59:25<22:07:21,  1.04s/it]  2%|▏         | 1651/78504 [59:33<66:27:19,  3.11s/it]                                                       {'loss': 0.2453, 'grad_norm': 0.6670291423797607, 'learning_rate': 6.297286969812763e-06, 'epoch': 0.5}
  2%|▏         | 1651/78504 [59:33<66:27:19,  3.11s/it]  2%|▏         | 1652/78504 [59:37<66:37:20,  3.12s/it]                                                       {'loss': 0.146, 'grad_norm': 0.5144705176353455, 'learning_rate': 6.301108139090562e-06, 'epoch': 0.51}
  2%|▏         | 1652/78504 [59:37<66:37:20,  3.12s/it]  2%|▏         | 1653/78504 [59:39<63:07:43,  2.96s/it]                                                       {'loss': 0.1407, 'grad_norm': 0.5700180530548096, 'learning_rate': 6.304929308368361e-06, 'epoch': 0.51}
  2%|▏         | 1653/78504 [59:39<63:07:43,  2.96s/it]  2%|▏         | 1654/78504 [59:42<60:59:01,  2.86s/it]                                                       {'loss': 0.1274, 'grad_norm': 0.4960145056247711, 'learning_rate': 6.30875047764616e-06, 'epoch': 0.51}
  2%|▏         | 1654/78504 [59:42<60:59:01,  2.86s/it]  2%|▏         | 1655/78504 [59:44<57:51:59,  2.71s/it]                                                       {'loss': 0.1063, 'grad_norm': 0.6106263399124146, 'learning_rate': 6.312571646923959e-06, 'epoch': 0.51}
  2%|▏         | 1655/78504 [59:44<57:51:59,  2.71s/it]  2%|▏         | 1656/78504 [59:46<55:35:40,  2.60s/it]                                                       {'loss': 0.116, 'grad_norm': 0.6492846012115479, 'learning_rate': 6.316392816201758e-06, 'epoch': 0.51}
  2%|▏         | 1656/78504 [59:47<55:35:40,  2.60s/it]  2%|▏         | 1657/78504 [59:49<53:53:17,  2.52s/it]                                                       {'loss': 0.1139, 'grad_norm': 0.47340261936187744, 'learning_rate': 6.3202139854795565e-06, 'epoch': 0.51}
  2%|▏         | 1657/78504 [59:49<53:53:17,  2.52s/it]  2%|▏         | 1658/78504 [59:51<51:07:18,  2.39s/it]                                                       {'loss': 0.1088, 'grad_norm': 0.6347806453704834, 'learning_rate': 6.324035154757356e-06, 'epoch': 0.51}
  2%|▏         | 1658/78504 [59:51<51:07:18,  2.39s/it]  2%|▏         | 1659/78504 [59:53<49:47:47,  2.33s/it]                                                       {'loss': 0.1336, 'grad_norm': 0.5559546947479248, 'learning_rate': 6.327856324035155e-06, 'epoch': 0.51}
  2%|▏         | 1659/78504 [59:53<49:47:47,  2.33s/it]  2%|▏         | 1660/78504 [59:55<48:36:26,  2.28s/it]                                                       {'loss': 0.1319, 'grad_norm': 0.8151801228523254, 'learning_rate': 6.3316774933129535e-06, 'epoch': 0.51}
  2%|▏         | 1660/78504 [59:55<48:36:26,  2.28s/it]  2%|▏         | 1661/78504 [59:57<46:59:54,  2.20s/it]                                                       {'loss': 0.1878, 'grad_norm': 0.729644775390625, 'learning_rate': 6.335498662590752e-06, 'epoch': 0.51}
  2%|▏         | 1661/78504 [59:57<46:59:54,  2.20s/it]  2%|▏         | 1662/78504 [59:59<45:39:02,  2.14s/it]                                                       {'loss': 0.1573, 'grad_norm': 1.1487776041030884, 'learning_rate': 6.339319831868552e-06, 'epoch': 0.51}
  2%|▏         | 1662/78504 [59:59<45:39:02,  2.14s/it]  2%|▏         | 1663/78504 [1:00:01<44:02:01,  2.06s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.7020917534828186, 'learning_rate': 6.343141001146351e-06, 'epoch': 0.51}
  2%|▏         | 1663/78504 [1:00:01<44:02:01,  2.06s/it]  2%|▏         | 1664/78504 [1:00:03<42:44:12,  2.00s/it]                                                         {'loss': 0.2263, 'grad_norm': 1.0798276662826538, 'learning_rate': 6.346962170424149e-06, 'epoch': 0.51}
  2%|▏         | 1664/78504 [1:00:03<42:44:12,  2.00s/it]  2%|▏         | 1665/78504 [1:00:05<41:14:43,  1.93s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.8994076251983643, 'learning_rate': 6.350783339701949e-06, 'epoch': 0.51}
  2%|▏         | 1665/78504 [1:00:05<41:14:43,  1.93s/it]  2%|▏         | 1666/78504 [1:00:06<39:23:44,  1.85s/it]                                                         {'loss': 0.2553, 'grad_norm': 1.0153549909591675, 'learning_rate': 6.3546045089797486e-06, 'epoch': 0.51}
  2%|▏         | 1666/78504 [1:00:06<39:23:44,  1.85s/it]  2%|▏         | 1667/78504 [1:00:08<37:24:56,  1.75s/it]                                                         {'loss': 0.2602, 'grad_norm': 0.9655422568321228, 'learning_rate': 6.358425678257547e-06, 'epoch': 0.51}
  2%|▏         | 1667/78504 [1:00:08<37:24:56,  1.75s/it]  2%|▏         | 1668/78504 [1:00:09<35:19:30,  1.66s/it]                                                         {'loss': 0.2632, 'grad_norm': 1.2048882246017456, 'learning_rate': 6.362246847535346e-06, 'epoch': 0.51}
  2%|▏         | 1668/78504 [1:00:09<35:19:30,  1.66s/it]  2%|▏         | 1669/78504 [1:00:11<33:43:12,  1.58s/it]                                                         {'loss': 0.3065, 'grad_norm': 1.4865163564682007, 'learning_rate': 6.366068016813145e-06, 'epoch': 0.51}
  2%|▏         | 1669/78504 [1:00:11<33:43:12,  1.58s/it]  2%|▏         | 1670/78504 [1:00:12<31:52:33,  1.49s/it]                                                         {'loss': 0.3029, 'grad_norm': 1.376583456993103, 'learning_rate': 6.369889186090944e-06, 'epoch': 0.51}
  2%|▏         | 1670/78504 [1:00:12<31:52:33,  1.49s/it]  2%|▏         | 1671/78504 [1:00:13<29:32:07,  1.38s/it]                                                         {'loss': 0.3445, 'grad_norm': 1.279587984085083, 'learning_rate': 6.373710355368743e-06, 'epoch': 0.51}
  2%|▏         | 1671/78504 [1:00:13<29:32:07,  1.38s/it]  2%|▏         | 1672/78504 [1:00:14<27:43:37,  1.30s/it]                                                         {'loss': 0.3272, 'grad_norm': 1.405760645866394, 'learning_rate': 6.377531524646542e-06, 'epoch': 0.51}
  2%|▏         | 1672/78504 [1:00:14<27:43:37,  1.30s/it]  2%|▏         | 1673/78504 [1:00:15<25:48:55,  1.21s/it]                                                         {'loss': 0.3537, 'grad_norm': 1.6558563709259033, 'learning_rate': 6.3813526939243415e-06, 'epoch': 0.51}
  2%|▏         | 1673/78504 [1:00:15<25:48:55,  1.21s/it]  2%|▏         | 1674/78504 [1:00:16<24:04:41,  1.13s/it]                                                         {'loss': 0.3902, 'grad_norm': 2.5302646160125732, 'learning_rate': 6.38517386320214e-06, 'epoch': 0.51}
  2%|▏         | 1674/78504 [1:00:16<24:04:41,  1.13s/it]  2%|▏         | 1675/78504 [1:00:17<21:54:01,  1.03s/it]                                                         {'loss': 0.4142, 'grad_norm': 2.25349497795105, 'learning_rate': 6.388995032479939e-06, 'epoch': 0.51}
  2%|▏         | 1675/78504 [1:00:17<21:54:01,  1.03s/it]  2%|▏         | 1676/78504 [1:00:26<74:35:45,  3.50s/it]                                                         {'loss': 0.2218, 'grad_norm': 0.7292546033859253, 'learning_rate': 6.392816201757738e-06, 'epoch': 0.51}
  2%|▏         | 1676/78504 [1:00:26<74:35:45,  3.50s/it]  2%|▏         | 1677/78504 [1:00:29<71:47:09,  3.36s/it]                                                         {'loss': 0.1358, 'grad_norm': 0.5065193176269531, 'learning_rate': 6.396637371035537e-06, 'epoch': 0.51}
  2%|▏         | 1677/78504 [1:00:29<71:47:09,  3.36s/it]  2%|▏         | 1678/78504 [1:00:32<69:21:25,  3.25s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.4380475580692291, 'learning_rate': 6.400458540313336e-06, 'epoch': 0.51}
  2%|▏         | 1678/78504 [1:00:32<69:21:25,  3.25s/it]  2%|▏         | 1679/78504 [1:00:35<64:04:42,  3.00s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.5089801549911499, 'learning_rate': 6.404279709591135e-06, 'epoch': 0.51}
  2%|▏         | 1679/78504 [1:00:35<64:04:42,  3.00s/it]  2%|▏         | 1680/78504 [1:00:37<60:42:08,  2.84s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.38961079716682434, 'learning_rate': 6.4081008788689335e-06, 'epoch': 0.51}
  2%|▏         | 1680/78504 [1:00:37<60:42:08,  2.84s/it]  2%|▏         | 1681/78504 [1:00:40<58:06:36,  2.72s/it]                                                         {'loss': 0.1197, 'grad_norm': 0.4964177906513214, 'learning_rate': 6.411922048146733e-06, 'epoch': 0.51}
  2%|▏         | 1681/78504 [1:00:40<58:06:36,  2.72s/it]  2%|▏         | 1682/78504 [1:00:42<55:34:02,  2.60s/it]                                                         {'loss': 0.0856, 'grad_norm': 0.5046684145927429, 'learning_rate': 6.415743217424532e-06, 'epoch': 0.51}
  2%|▏         | 1682/78504 [1:00:42<55:34:02,  2.60s/it]  2%|▏         | 1683/78504 [1:00:44<53:41:32,  2.52s/it]                                                         {'loss': 0.1414, 'grad_norm': 0.6274060010910034, 'learning_rate': 6.419564386702331e-06, 'epoch': 0.51}
  2%|▏         | 1683/78504 [1:00:44<53:41:32,  2.52s/it]  2%|▏         | 1684/78504 [1:00:47<51:37:26,  2.42s/it]                                                         {'loss': 0.1196, 'grad_norm': 0.4708370864391327, 'learning_rate': 6.42338555598013e-06, 'epoch': 0.51}
  2%|▏         | 1684/78504 [1:00:47<51:37:26,  2.42s/it]  2%|▏         | 1685/78504 [1:00:49<50:03:09,  2.35s/it]                                                         {'loss': 0.1299, 'grad_norm': 0.6558343172073364, 'learning_rate': 6.42720672525793e-06, 'epoch': 0.52}
  2%|▏         | 1685/78504 [1:00:49<50:03:09,  2.35s/it]  2%|▏         | 1686/78504 [1:00:51<46:57:31,  2.20s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.6934751868247986, 'learning_rate': 6.4310278945357285e-06, 'epoch': 0.52}
  2%|▏         | 1686/78504 [1:00:51<46:57:31,  2.20s/it]  2%|▏         | 1687/78504 [1:00:53<45:34:11,  2.14s/it]                                                         {'loss': 0.1112, 'grad_norm': 0.6181259751319885, 'learning_rate': 6.434849063813527e-06, 'epoch': 0.52}
  2%|▏         | 1687/78504 [1:00:53<45:34:11,  2.14s/it]  2%|▏         | 1688/78504 [1:00:54<44:01:00,  2.06s/it]                                                         {'loss': 0.1689, 'grad_norm': 0.8272998929023743, 'learning_rate': 6.438670233091326e-06, 'epoch': 0.52}
  2%|▏         | 1688/78504 [1:00:54<44:01:00,  2.06s/it]  2%|▏         | 1689/78504 [1:00:56<42:51:37,  2.01s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.7596091032028198, 'learning_rate': 6.442491402369126e-06, 'epoch': 0.52}
  2%|▏         | 1689/78504 [1:00:56<42:51:37,  2.01s/it]  2%|▏         | 1690/78504 [1:00:58<41:20:10,  1.94s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.9862402677536011, 'learning_rate': 6.446312571646924e-06, 'epoch': 0.52}
  2%|▏         | 1690/78504 [1:00:58<41:20:10,  1.94s/it]  2%|▏         | 1691/78504 [1:01:00<39:33:34,  1.85s/it]                                                         {'loss': 0.2756, 'grad_norm': 0.9424225091934204, 'learning_rate': 6.450133740924723e-06, 'epoch': 0.52}
  2%|▏         | 1691/78504 [1:01:00<39:33:34,  1.85s/it]  2%|▏         | 1692/78504 [1:01:01<37:34:04,  1.76s/it]                                                         {'loss': 0.2741, 'grad_norm': 1.1410669088363647, 'learning_rate': 6.453954910202522e-06, 'epoch': 0.52}
  2%|▏         | 1692/78504 [1:01:01<37:34:04,  1.76s/it]  2%|▏         | 1693/78504 [1:01:03<35:59:06,  1.69s/it]                                                         {'loss': 0.2855, 'grad_norm': 0.9108328819274902, 'learning_rate': 6.4577760794803214e-06, 'epoch': 0.52}
  2%|▏         | 1693/78504 [1:01:03<35:59:06,  1.69s/it]  2%|▏         | 1694/78504 [1:01:04<34:15:24,  1.61s/it]                                                         {'loss': 0.3046, 'grad_norm': 1.3621546030044556, 'learning_rate': 6.46159724875812e-06, 'epoch': 0.52}
  2%|▏         | 1694/78504 [1:01:04<34:15:24,  1.61s/it]  2%|▏         | 1695/78504 [1:01:05<32:13:52,  1.51s/it]                                                         {'loss': 0.2958, 'grad_norm': 1.0968899726867676, 'learning_rate': 6.465418418035919e-06, 'epoch': 0.52}
  2%|▏         | 1695/78504 [1:01:06<32:13:52,  1.51s/it]  2%|▏         | 1696/78504 [1:01:07<30:18:43,  1.42s/it]                                                         {'loss': 0.2745, 'grad_norm': 1.5882469415664673, 'learning_rate': 6.469239587313718e-06, 'epoch': 0.52}
  2%|▏         | 1696/78504 [1:01:07<30:18:43,  1.42s/it]  2%|▏         | 1697/78504 [1:01:08<28:13:19,  1.32s/it]                                                         {'loss': 0.3655, 'grad_norm': 2.4131453037261963, 'learning_rate': 6.473060756591517e-06, 'epoch': 0.52}
  2%|▏         | 1697/78504 [1:01:08<28:13:19,  1.32s/it]  2%|▏         | 1698/78504 [1:01:09<26:30:44,  1.24s/it]                                                         {'loss': 0.3067, 'grad_norm': 4.667337417602539, 'learning_rate': 6.476881925869316e-06, 'epoch': 0.52}
  2%|▏         | 1698/78504 [1:01:09<26:30:44,  1.24s/it]  2%|▏         | 1699/78504 [1:01:10<24:30:16,  1.15s/it]                                                         {'loss': 0.4418, 'grad_norm': 5.6264166831970215, 'learning_rate': 6.480703095147115e-06, 'epoch': 0.52}
  2%|▏         | 1699/78504 [1:01:10<24:30:16,  1.15s/it]  2%|▏         | 1700/78504 [1:01:11<22:14:18,  1.04s/it]                                                         {'loss': 0.5145, 'grad_norm': 4.336860656738281, 'learning_rate': 6.4845242644249135e-06, 'epoch': 0.52}
  2%|▏         | 1700/78504 [1:01:11<22:14:18,  1.04s/it]  2%|▏         | 1701/78504 [1:01:20<73:32:24,  3.45s/it]                                                         {'loss': 0.2602, 'grad_norm': 0.7986057996749878, 'learning_rate': 6.488345433702713e-06, 'epoch': 0.52}
  2%|▏         | 1701/78504 [1:01:20<73:32:24,  3.45s/it]  2%|▏         | 1702/78504 [1:01:23<71:13:29,  3.34s/it]                                                         {'loss': 0.1502, 'grad_norm': 0.5907853245735168, 'learning_rate': 6.492166602980512e-06, 'epoch': 0.52}
  2%|▏         | 1702/78504 [1:01:23<71:13:29,  3.34s/it]  2%|▏         | 1703/78504 [1:01:26<68:34:19,  3.21s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.694563627243042, 'learning_rate': 6.495987772258311e-06, 'epoch': 0.52}
  2%|▏         | 1703/78504 [1:01:26<68:34:19,  3.21s/it]  2%|▏         | 1704/78504 [1:01:28<64:39:45,  3.03s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.6006177067756653, 'learning_rate': 6.499808941536111e-06, 'epoch': 0.52}
  2%|▏         | 1704/78504 [1:01:28<64:39:45,  3.03s/it]  2%|▏         | 1705/78504 [1:01:31<61:14:28,  2.87s/it]                                                         {'loss': 0.1322, 'grad_norm': 0.5028936266899109, 'learning_rate': 6.50363011081391e-06, 'epoch': 0.52}
  2%|▏         | 1705/78504 [1:01:31<61:14:28,  2.87s/it]  2%|▏         | 1706/78504 [1:01:33<58:35:07,  2.75s/it]                                                         {'loss': 0.0956, 'grad_norm': 0.5607298016548157, 'learning_rate': 6.5074512800917085e-06, 'epoch': 0.52}
  2%|▏         | 1706/78504 [1:01:33<58:35:07,  2.75s/it]  2%|▏         | 1707/78504 [1:01:36<56:07:42,  2.63s/it]                                                         {'loss': 0.109, 'grad_norm': 0.5568869709968567, 'learning_rate': 6.511272449369507e-06, 'epoch': 0.52}
  2%|▏         | 1707/78504 [1:01:36<56:07:42,  2.63s/it]  2%|▏         | 1708/78504 [1:01:38<54:02:28,  2.53s/it]                                                         {'loss': 0.1555, 'grad_norm': 0.7582440376281738, 'learning_rate': 6.515093618647307e-06, 'epoch': 0.52}
  2%|▏         | 1708/78504 [1:01:38<54:02:28,  2.53s/it]  2%|▏         | 1709/78504 [1:01:40<51:54:51,  2.43s/it]                                                         {'loss': 0.115, 'grad_norm': 0.5096423029899597, 'learning_rate': 6.518914787925106e-06, 'epoch': 0.52}
  2%|▏         | 1709/78504 [1:01:40<51:54:51,  2.43s/it]  2%|▏         | 1710/78504 [1:01:42<50:10:48,  2.35s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.4977381229400635, 'learning_rate': 6.522735957202904e-06, 'epoch': 0.52}
  2%|▏         | 1710/78504 [1:01:42<50:10:48,  2.35s/it]  2%|▏         | 1711/78504 [1:01:44<47:08:52,  2.21s/it]                                                         {'loss': 0.1583, 'grad_norm': 0.9183540940284729, 'learning_rate': 6.526557126480703e-06, 'epoch': 0.52}
  2%|▏         | 1711/78504 [1:01:44<47:08:52,  2.21s/it]  2%|▏         | 1712/78504 [1:01:46<45:41:37,  2.14s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.6528307199478149, 'learning_rate': 6.530378295758503e-06, 'epoch': 0.52}
  2%|▏         | 1712/78504 [1:01:46<45:41:37,  2.14s/it]  2%|▏         | 1713/78504 [1:01:48<44:18:31,  2.08s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.6433296799659729, 'learning_rate': 6.534199465036301e-06, 'epoch': 0.52}
  2%|▏         | 1713/78504 [1:01:48<44:18:31,  2.08s/it]  2%|▏         | 1714/78504 [1:01:50<43:02:55,  2.02s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.765804648399353, 'learning_rate': 6.5380206343141e-06, 'epoch': 0.52}
  2%|▏         | 1714/78504 [1:01:50<43:02:55,  2.02s/it]  2%|▏         | 1715/78504 [1:01:52<41:32:03,  1.95s/it]                                                         {'loss': 0.2195, 'grad_norm': 1.1224417686462402, 'learning_rate': 6.541841803591899e-06, 'epoch': 0.52}
  2%|▏         | 1715/78504 [1:01:52<41:32:03,  1.95s/it]  2%|▏         | 1716/78504 [1:01:53<39:33:33,  1.85s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.9797439575195312, 'learning_rate': 6.5456629728696985e-06, 'epoch': 0.52}
  2%|▏         | 1716/78504 [1:01:53<39:33:33,  1.85s/it]  2%|▏         | 1717/78504 [1:01:55<37:37:54,  1.76s/it]                                                         {'loss': 0.254, 'grad_norm': 1.0683081150054932, 'learning_rate': 6.549484142147497e-06, 'epoch': 0.52}
  2%|▏         | 1717/78504 [1:01:55<37:37:54,  1.76s/it]  2%|▏         | 1718/78504 [1:01:56<35:32:38,  1.67s/it]                                                         {'loss': 0.3259, 'grad_norm': 2.301647901535034, 'learning_rate': 6.553305311425296e-06, 'epoch': 0.53}
  2%|▏         | 1718/78504 [1:01:56<35:32:38,  1.67s/it]  2%|▏         | 1719/78504 [1:01:58<33:52:48,  1.59s/it]                                                         {'loss': 0.317, 'grad_norm': 1.9776228666305542, 'learning_rate': 6.557126480703095e-06, 'epoch': 0.53}
  2%|▏         | 1719/78504 [1:01:58<33:52:48,  1.59s/it]  2%|▏         | 1720/78504 [1:01:59<31:32:32,  1.48s/it]                                                         {'loss': 0.3543, 'grad_norm': 1.1763262748718262, 'learning_rate': 6.560947649980894e-06, 'epoch': 0.53}
  2%|▏         | 1720/78504 [1:01:59<31:32:32,  1.48s/it]  2%|▏         | 1721/78504 [1:02:00<29:29:04,  1.38s/it]                                                         {'loss': 0.3035, 'grad_norm': 1.8406590223312378, 'learning_rate': 6.564768819258693e-06, 'epoch': 0.53}
  2%|▏         | 1721/78504 [1:02:00<29:29:04,  1.38s/it]  2%|▏         | 1722/78504 [1:02:01<27:44:42,  1.30s/it]                                                         {'loss': 0.3478, 'grad_norm': 3.476926565170288, 'learning_rate': 6.568589988536492e-06, 'epoch': 0.53}
  2%|▏         | 1722/78504 [1:02:01<27:44:42,  1.30s/it]  2%|▏         | 1723/78504 [1:02:02<25:46:39,  1.21s/it]                                                         {'loss': 0.3549, 'grad_norm': 1.8574650287628174, 'learning_rate': 6.572411157814291e-06, 'epoch': 0.53}
  2%|▏         | 1723/78504 [1:02:02<25:46:39,  1.21s/it]  2%|▏         | 1724/78504 [1:02:03<23:58:56,  1.12s/it]                                                         {'loss': 0.4455, 'grad_norm': 2.153702735900879, 'learning_rate': 6.576232327092091e-06, 'epoch': 0.53}
  2%|▏         | 1724/78504 [1:02:03<23:58:56,  1.12s/it]  2%|▏         | 1725/78504 [1:02:04<21:46:54,  1.02s/it]                                                         {'loss': 0.4863, 'grad_norm': 3.9471218585968018, 'learning_rate': 6.58005349636989e-06, 'epoch': 0.53}
  2%|▏         | 1725/78504 [1:02:04<21:46:54,  1.02s/it]  2%|▏         | 1726/78504 [1:02:12<67:19:41,  3.16s/it]                                                         {'loss': 0.2702, 'grad_norm': 0.9496064186096191, 'learning_rate': 6.5838746656476885e-06, 'epoch': 0.53}
  2%|▏         | 1726/78504 [1:02:12<67:19:41,  3.16s/it]  2%|▏         | 1727/78504 [1:02:15<68:40:55,  3.22s/it]                                                         {'loss': 0.1316, 'grad_norm': 0.8866237998008728, 'learning_rate': 6.587695834925487e-06, 'epoch': 0.53}
  2%|▏         | 1727/78504 [1:02:15<68:40:55,  3.22s/it]  2%|▏         | 1728/78504 [1:02:18<65:55:34,  3.09s/it]                                                         {'loss': 0.1249, 'grad_norm': 0.6133860349655151, 'learning_rate': 6.591517004203287e-06, 'epoch': 0.53}
  2%|▏         | 1728/78504 [1:02:18<65:55:34,  3.09s/it]  2%|▏         | 1729/78504 [1:02:21<61:40:35,  2.89s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.6006677746772766, 'learning_rate': 6.5953381734810856e-06, 'epoch': 0.53}
  2%|▏         | 1729/78504 [1:02:21<61:40:35,  2.89s/it]  2%|▏         | 1730/78504 [1:02:23<59:04:14,  2.77s/it]                                                         {'loss': 0.1053, 'grad_norm': 0.47958436608314514, 'learning_rate': 6.599159342758884e-06, 'epoch': 0.53}
  2%|▏         | 1730/78504 [1:02:23<59:04:14,  2.77s/it]  2%|▏         | 1731/78504 [1:02:25<55:53:08,  2.62s/it]                                                         {'loss': 0.1159, 'grad_norm': 0.5783552527427673, 'learning_rate': 6.602980512036683e-06, 'epoch': 0.53}
  2%|▏         | 1731/78504 [1:02:25<55:53:08,  2.62s/it]  2%|▏         | 1732/78504 [1:02:28<54:08:30,  2.54s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.5806292295455933, 'learning_rate': 6.606801681314483e-06, 'epoch': 0.53}
  2%|▏         | 1732/78504 [1:02:28<54:08:30,  2.54s/it]  2%|▏         | 1733/78504 [1:02:30<51:18:27,  2.41s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.9246692061424255, 'learning_rate': 6.610622850592281e-06, 'epoch': 0.53}
  2%|▏         | 1733/78504 [1:02:30<51:18:27,  2.41s/it]  2%|▏         | 1734/78504 [1:02:32<49:55:13,  2.34s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.7009364366531372, 'learning_rate': 6.61444401987008e-06, 'epoch': 0.53}
  2%|▏         | 1734/78504 [1:02:32<49:55:13,  2.34s/it]  2%|▏         | 1735/78504 [1:02:34<48:48:14,  2.29s/it]                                                         {'loss': 0.126, 'grad_norm': 0.646483302116394, 'learning_rate': 6.61826518914788e-06, 'epoch': 0.53}
  2%|▏         | 1735/78504 [1:02:34<48:48:14,  2.29s/it]  2%|▏         | 1736/78504 [1:02:36<47:06:45,  2.21s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.7322234511375427, 'learning_rate': 6.6220863584256785e-06, 'epoch': 0.53}
  2%|▏         | 1736/78504 [1:02:36<47:06:45,  2.21s/it]  2%|▏         | 1737/78504 [1:02:38<45:40:44,  2.14s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.7209143042564392, 'learning_rate': 6.625907527703477e-06, 'epoch': 0.53}
  2%|▏         | 1737/78504 [1:02:38<45:40:44,  2.14s/it]  2%|▏         | 1738/78504 [1:02:40<43:57:19,  2.06s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.6876514554023743, 'learning_rate': 6.629728696981276e-06, 'epoch': 0.53}
  2%|▏         | 1738/78504 [1:02:40<43:57:19,  2.06s/it]  2%|▏         | 1739/78504 [1:02:42<42:43:17,  2.00s/it]                                                         {'loss': 0.22, 'grad_norm': 0.721433162689209, 'learning_rate': 6.6335498662590756e-06, 'epoch': 0.53}
  2%|▏         | 1739/78504 [1:02:42<42:43:17,  2.00s/it]  2%|▏         | 1740/78504 [1:02:44<41:11:22,  1.93s/it]                                                         {'loss': 0.1925, 'grad_norm': 1.4250761270523071, 'learning_rate': 6.637371035536874e-06, 'epoch': 0.53}
  2%|▏         | 1740/78504 [1:02:44<41:11:22,  1.93s/it]  2%|▏         | 1741/78504 [1:02:45<39:21:44,  1.85s/it]                                                         {'loss': 0.2499, 'grad_norm': 0.9893543124198914, 'learning_rate': 6.641192204814673e-06, 'epoch': 0.53}
  2%|▏         | 1741/78504 [1:02:45<39:21:44,  1.85s/it]  2%|▏         | 1742/78504 [1:02:47<37:26:01,  1.76s/it]                                                         {'loss': 0.2387, 'grad_norm': 1.0274531841278076, 'learning_rate': 6.645013374092472e-06, 'epoch': 0.53}
  2%|▏         | 1742/78504 [1:02:47<37:26:01,  1.76s/it]  2%|▏         | 1743/78504 [1:02:48<35:20:00,  1.66s/it]                                                         {'loss': 0.2847, 'grad_norm': 1.2412492036819458, 'learning_rate': 6.648834543370272e-06, 'epoch': 0.53}
  2%|▏         | 1743/78504 [1:02:48<35:20:00,  1.66s/it]  2%|▏         | 1744/78504 [1:02:50<33:49:18,  1.59s/it]                                                         {'loss': 0.3024, 'grad_norm': 1.5094294548034668, 'learning_rate': 6.652655712648071e-06, 'epoch': 0.53}
  2%|▏         | 1744/78504 [1:02:50<33:49:18,  1.59s/it]  2%|▏         | 1745/78504 [1:02:51<31:53:18,  1.50s/it]                                                         {'loss': 0.3876, 'grad_norm': 1.6246464252471924, 'learning_rate': 6.65647688192587e-06, 'epoch': 0.53}
  2%|▏         | 1745/78504 [1:02:51<31:53:18,  1.50s/it]  2%|▏         | 1746/78504 [1:02:52<29:40:49,  1.39s/it]                                                         {'loss': 0.3135, 'grad_norm': 2.33821439743042, 'learning_rate': 6.6602980512036685e-06, 'epoch': 0.53}
  2%|▏         | 1746/78504 [1:02:52<29:40:49,  1.39s/it]  2%|▏         | 1747/78504 [1:02:53<27:48:36,  1.30s/it]                                                         {'loss': 0.3671, 'grad_norm': 2.55466890335083, 'learning_rate': 6.664119220481468e-06, 'epoch': 0.53}
  2%|▏         | 1747/78504 [1:02:53<27:48:36,  1.30s/it]  2%|▏         | 1748/78504 [1:02:54<26:15:01,  1.23s/it]                                                         {'loss': 0.3639, 'grad_norm': 1.6293448209762573, 'learning_rate': 6.667940389759267e-06, 'epoch': 0.53}
  2%|▏         | 1748/78504 [1:02:54<26:15:01,  1.23s/it]  2%|▏         | 1749/78504 [1:02:55<24:26:54,  1.15s/it]                                                         {'loss': 0.3982, 'grad_norm': 1.3241603374481201, 'learning_rate': 6.6717615590370655e-06, 'epoch': 0.53}
  2%|▏         | 1749/78504 [1:02:55<24:26:54,  1.15s/it]  2%|▏         | 1750/78504 [1:02:56<22:07:00,  1.04s/it]                                                         {'loss': 0.4296, 'grad_norm': 1.7417325973510742, 'learning_rate': 6.675582728314864e-06, 'epoch': 0.54}
  2%|▏         | 1750/78504 [1:02:56<22:07:00,  1.04s/it]  2%|▏         | 1751/78504 [1:03:05<73:27:59,  3.45s/it]                                                         {'loss': 0.2665, 'grad_norm': 0.780276358127594, 'learning_rate': 6.679403897592664e-06, 'epoch': 0.54}
  2%|▏         | 1751/78504 [1:03:05<73:27:59,  3.45s/it]  2%|▏         | 1752/78504 [1:03:08<71:25:13,  3.35s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.5509480237960815, 'learning_rate': 6.683225066870463e-06, 'epoch': 0.54}
  2%|▏         | 1752/78504 [1:03:08<71:25:13,  3.35s/it]  2%|▏         | 1753/78504 [1:03:11<69:05:40,  3.24s/it]                                                         {'loss': 0.1185, 'grad_norm': 0.42979732155799866, 'learning_rate': 6.687046236148261e-06, 'epoch': 0.54}
  2%|▏         | 1753/78504 [1:03:11<69:05:40,  3.24s/it]  2%|▏         | 1754/78504 [1:03:14<64:57:53,  3.05s/it]                                                         {'loss': 0.1316, 'grad_norm': 0.6056907176971436, 'learning_rate': 6.69086740542606e-06, 'epoch': 0.54}
  2%|▏         | 1754/78504 [1:03:14<64:57:53,  3.05s/it]  2%|▏         | 1755/78504 [1:03:16<61:24:49,  2.88s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.560955822467804, 'learning_rate': 6.69468857470386e-06, 'epoch': 0.54}
  2%|▏         | 1755/78504 [1:03:16<61:24:49,  2.88s/it]  2%|▏         | 1756/78504 [1:03:19<57:29:49,  2.70s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.6280403137207031, 'learning_rate': 6.6985097439816584e-06, 'epoch': 0.54}
  2%|▏         | 1756/78504 [1:03:19<57:29:49,  2.70s/it]  2%|▏         | 1757/78504 [1:03:21<55:04:12,  2.58s/it]                                                         {'loss': 0.1126, 'grad_norm': 0.5801345705986023, 'learning_rate': 6.702330913259457e-06, 'epoch': 0.54}
  2%|▏         | 1757/78504 [1:03:21<55:04:12,  2.58s/it]  2%|▏         | 1758/78504 [1:03:23<51:59:27,  2.44s/it]                                                         {'loss': 0.1205, 'grad_norm': 1.837843656539917, 'learning_rate': 6.706152082537256e-06, 'epoch': 0.54}
  2%|▏         | 1758/78504 [1:03:23<51:59:27,  2.44s/it]  2%|▏         | 1759/78504 [1:03:25<50:22:24,  2.36s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5427421927452087, 'learning_rate': 6.7099732518150555e-06, 'epoch': 0.54}
  2%|▏         | 1759/78504 [1:03:25<50:22:24,  2.36s/it]  2%|▏         | 1760/78504 [1:03:27<48:58:31,  2.30s/it]                                                         {'loss': 0.1422, 'grad_norm': 0.8376352190971375, 'learning_rate': 6.713794421092854e-06, 'epoch': 0.54}
  2%|▏         | 1760/78504 [1:03:27<48:58:31,  2.30s/it]  2%|▏         | 1761/78504 [1:03:29<47:15:12,  2.22s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.6468901038169861, 'learning_rate': 6.717615590370653e-06, 'epoch': 0.54}
  2%|▏         | 1761/78504 [1:03:29<47:15:12,  2.22s/it]  2%|▏         | 1762/78504 [1:03:31<45:45:27,  2.15s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.637401819229126, 'learning_rate': 6.721436759648453e-06, 'epoch': 0.54}
  2%|▏         | 1762/78504 [1:03:31<45:45:27,  2.15s/it]  2%|▏         | 1763/78504 [1:03:33<44:18:33,  2.08s/it]                                                         {'loss': 0.1752, 'grad_norm': 0.9416242837905884, 'learning_rate': 6.725257928926252e-06, 'epoch': 0.54}
  2%|▏         | 1763/78504 [1:03:33<44:18:33,  2.08s/it]  2%|▏         | 1764/78504 [1:03:35<42:55:59,  2.01s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.8398690819740295, 'learning_rate': 6.729079098204051e-06, 'epoch': 0.54}
  2%|▏         | 1764/78504 [1:03:35<42:55:59,  2.01s/it]  2%|▏         | 1765/78504 [1:03:37<41:21:35,  1.94s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.7533447742462158, 'learning_rate': 6.73290026748185e-06, 'epoch': 0.54}
  2%|▏         | 1765/78504 [1:03:37<41:21:35,  1.94s/it]  2%|▏         | 1766/78504 [1:03:39<39:31:33,  1.85s/it]                                                         {'loss': 0.2139, 'grad_norm': 1.7478350400924683, 'learning_rate': 6.7367214367596484e-06, 'epoch': 0.54}
  2%|▏         | 1766/78504 [1:03:39<39:31:33,  1.85s/it]  2%|▏         | 1767/78504 [1:03:40<37:32:42,  1.76s/it]                                                         {'loss': 0.2829, 'grad_norm': 0.8349722027778625, 'learning_rate': 6.740542606037448e-06, 'epoch': 0.54}
  2%|▏         | 1767/78504 [1:03:40<37:32:42,  1.76s/it]  2%|▏         | 1768/78504 [1:03:42<35:40:37,  1.67s/it]                                                         {'loss': 0.2922, 'grad_norm': 0.8959169983863831, 'learning_rate': 6.744363775315247e-06, 'epoch': 0.54}
  2%|▏         | 1768/78504 [1:03:42<35:40:37,  1.67s/it]  2%|▏         | 1769/78504 [1:03:43<34:01:01,  1.60s/it]                                                         {'loss': 0.2908, 'grad_norm': 1.2058583498001099, 'learning_rate': 6.7481849445930455e-06, 'epoch': 0.54}
  2%|▏         | 1769/78504 [1:03:43<34:01:01,  1.60s/it]  2%|▏         | 1770/78504 [1:03:44<32:04:30,  1.50s/it]                                                         {'loss': 0.2972, 'grad_norm': 1.068112850189209, 'learning_rate': 6.752006113870845e-06, 'epoch': 0.54}
  2%|▏         | 1770/78504 [1:03:44<32:04:30,  1.50s/it]  2%|▏         | 1771/78504 [1:03:45<29:51:02,  1.40s/it]                                                         {'loss': 0.2919, 'grad_norm': 1.0865105390548706, 'learning_rate': 6.755827283148644e-06, 'epoch': 0.54}
  2%|▏         | 1771/78504 [1:03:45<29:51:02,  1.40s/it]  2%|▏         | 1772/78504 [1:03:47<27:58:16,  1.31s/it]                                                         {'loss': 0.3471, 'grad_norm': 1.4941085577011108, 'learning_rate': 6.759648452426443e-06, 'epoch': 0.54}
  2%|▏         | 1772/78504 [1:03:47<27:58:16,  1.31s/it]  2%|▏         | 1773/78504 [1:03:48<26:19:44,  1.24s/it]                                                         {'loss': 0.3238, 'grad_norm': 1.738445520401001, 'learning_rate': 6.763469621704241e-06, 'epoch': 0.54}
  2%|▏         | 1773/78504 [1:03:48<26:19:44,  1.24s/it]  2%|▏         | 1774/78504 [1:03:49<24:27:19,  1.15s/it]                                                         {'loss': 0.3471, 'grad_norm': 1.6376501321792603, 'learning_rate': 6.767290790982041e-06, 'epoch': 0.54}
  2%|▏         | 1774/78504 [1:03:49<24:27:19,  1.15s/it]  2%|▏         | 1775/78504 [1:03:49<22:12:53,  1.04s/it]                                                         {'loss': 0.4833, 'grad_norm': 2.122401475906372, 'learning_rate': 6.77111196025984e-06, 'epoch': 0.54}
  2%|▏         | 1775/78504 [1:03:49<22:12:53,  1.04s/it]  2%|▏         | 1776/78504 [1:03:59<75:48:02,  3.56s/it]                                                         {'loss': 0.2308, 'grad_norm': 0.7851406335830688, 'learning_rate': 6.774933129537638e-06, 'epoch': 0.54}
  2%|▏         | 1776/78504 [1:03:59<75:48:02,  3.56s/it]  2%|▏         | 1777/78504 [1:04:02<72:55:10,  3.42s/it]                                                         {'loss': 0.1598, 'grad_norm': 0.7153325080871582, 'learning_rate': 6.778754298815437e-06, 'epoch': 0.54}
  2%|▏         | 1777/78504 [1:04:02<72:55:10,  3.42s/it]  2%|▏         | 1778/78504 [1:04:05<70:19:49,  3.30s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.9585533738136292, 'learning_rate': 6.782575468093237e-06, 'epoch': 0.54}
  2%|▏         | 1778/78504 [1:04:05<70:19:49,  3.30s/it]  2%|▏         | 1779/78504 [1:04:08<65:59:33,  3.10s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.4236360490322113, 'learning_rate': 6.7863966373710355e-06, 'epoch': 0.54}
  2%|▏         | 1779/78504 [1:04:08<65:59:33,  3.10s/it]  2%|▏         | 1780/78504 [1:04:10<62:00:44,  2.91s/it]                                                         {'loss': 0.0905, 'grad_norm': 0.47418978810310364, 'learning_rate': 6.790217806648834e-06, 'epoch': 0.54}
  2%|▏         | 1780/78504 [1:04:10<62:00:44,  2.91s/it]  2%|▏         | 1781/78504 [1:04:12<57:58:54,  2.72s/it]                                                         {'loss': 0.0894, 'grad_norm': 0.3970838189125061, 'learning_rate': 6.794038975926633e-06, 'epoch': 0.54}
  2%|▏         | 1781/78504 [1:04:12<57:58:54,  2.72s/it]  2%|▏         | 1782/78504 [1:04:15<55:25:44,  2.60s/it]                                                         {'loss': 0.1147, 'grad_norm': 0.5803502798080444, 'learning_rate': 6.7978601452044334e-06, 'epoch': 0.54}
  2%|▏         | 1782/78504 [1:04:15<55:25:44,  2.60s/it]  2%|▏         | 1783/78504 [1:04:17<52:18:15,  2.45s/it]                                                         {'loss': 0.1368, 'grad_norm': 0.5404546856880188, 'learning_rate': 6.801681314482232e-06, 'epoch': 0.55}
  2%|▏         | 1783/78504 [1:04:17<52:18:15,  2.45s/it]  2%|▏         | 1784/78504 [1:04:19<50:36:17,  2.37s/it]                                                         {'loss': 0.1239, 'grad_norm': 0.5083880424499512, 'learning_rate': 6.805502483760031e-06, 'epoch': 0.55}
  2%|▏         | 1784/78504 [1:04:19<50:36:17,  2.37s/it]  2%|▏         | 1785/78504 [1:04:21<49:17:08,  2.31s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.5567473769187927, 'learning_rate': 6.80932365303783e-06, 'epoch': 0.55}
  2%|▏         | 1785/78504 [1:04:21<49:17:08,  2.31s/it]  2%|▏         | 1786/78504 [1:04:23<47:29:57,  2.23s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.7537161707878113, 'learning_rate': 6.813144822315629e-06, 'epoch': 0.55}
  2%|▏         | 1786/78504 [1:04:23<47:29:57,  2.23s/it]  2%|▏         | 1787/78504 [1:04:25<46:02:58,  2.16s/it]                                                         {'loss': 0.1618, 'grad_norm': 1.0778430700302124, 'learning_rate': 6.816965991593428e-06, 'epoch': 0.55}
  2%|▏         | 1787/78504 [1:04:25<46:02:58,  2.16s/it]  2%|▏         | 1788/78504 [1:04:27<44:05:57,  2.07s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.7368510961532593, 'learning_rate': 6.820787160871227e-06, 'epoch': 0.55}
  2%|▏         | 1788/78504 [1:04:27<44:05:57,  2.07s/it]  2%|▏         | 1789/78504 [1:04:29<42:48:57,  2.01s/it]                                                         {'loss': 0.1868, 'grad_norm': 0.7914478182792664, 'learning_rate': 6.8246083301490255e-06, 'epoch': 0.55}
  2%|▏         | 1789/78504 [1:04:29<42:48:57,  2.01s/it]  2%|▏         | 1790/78504 [1:04:31<41:16:08,  1.94s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.8107283115386963, 'learning_rate': 6.828429499426825e-06, 'epoch': 0.55}
  2%|▏         | 1790/78504 [1:04:31<41:16:08,  1.94s/it]  2%|▏         | 1791/78504 [1:04:32<39:00:59,  1.83s/it]                                                         {'loss': 0.2363, 'grad_norm': 0.9262338280677795, 'learning_rate': 6.832250668704624e-06, 'epoch': 0.55}
  2%|▏         | 1791/78504 [1:04:32<39:00:59,  1.83s/it]  2%|▏         | 1792/78504 [1:04:34<37:10:47,  1.74s/it]                                                         {'loss': 0.2751, 'grad_norm': 0.7571263313293457, 'learning_rate': 6.8360718379824226e-06, 'epoch': 0.55}
  2%|▏         | 1792/78504 [1:04:34<37:10:47,  1.74s/it]  2%|▏         | 1793/78504 [1:04:35<35:38:33,  1.67s/it]                                                         {'loss': 0.2702, 'grad_norm': 1.1687792539596558, 'learning_rate': 6.839893007260221e-06, 'epoch': 0.55}
  2%|▏         | 1793/78504 [1:04:35<35:38:33,  1.67s/it]  2%|▏         | 1794/78504 [1:04:37<34:01:04,  1.60s/it]                                                         {'loss': 0.3352, 'grad_norm': 1.3911783695220947, 'learning_rate': 6.843714176538021e-06, 'epoch': 0.55}
  2%|▏         | 1794/78504 [1:04:37<34:01:04,  1.60s/it]  2%|▏         | 1795/78504 [1:04:38<32:04:54,  1.51s/it]                                                         {'loss': 0.3185, 'grad_norm': 4.138689041137695, 'learning_rate': 6.84753534581582e-06, 'epoch': 0.55}
  2%|▏         | 1795/78504 [1:04:38<32:04:54,  1.51s/it]  2%|▏         | 1796/78504 [1:04:39<30:09:24,  1.42s/it]                                                         {'loss': 0.3027, 'grad_norm': 1.644181489944458, 'learning_rate': 6.851356515093618e-06, 'epoch': 0.55}
  2%|▏         | 1796/78504 [1:04:39<30:09:24,  1.42s/it]  2%|▏         | 1797/78504 [1:04:40<28:00:56,  1.31s/it]                                                         {'loss': 0.3259, 'grad_norm': 1.4144753217697144, 'learning_rate': 6.855177684371418e-06, 'epoch': 0.55}
  2%|▏         | 1797/78504 [1:04:40<28:00:56,  1.31s/it]  2%|▏         | 1798/78504 [1:04:41<26:26:26,  1.24s/it]                                                         {'loss': 0.3478, 'grad_norm': 2.061938524246216, 'learning_rate': 6.858998853649217e-06, 'epoch': 0.55}
  2%|▏         | 1798/78504 [1:04:41<26:26:26,  1.24s/it]  2%|▏         | 1799/78504 [1:04:42<24:28:50,  1.15s/it]                                                         {'loss': 0.4054, 'grad_norm': 3.06655216217041, 'learning_rate': 6.8628200229270155e-06, 'epoch': 0.55}
  2%|▏         | 1799/78504 [1:04:42<24:28:50,  1.15s/it]  2%|▏         | 1800/78504 [1:04:43<22:14:45,  1.04s/it]                                                         {'loss': 0.5118, 'grad_norm': 3.4562156200408936, 'learning_rate': 6.866641192204814e-06, 'epoch': 0.55}
  2%|▏         | 1800/78504 [1:04:43<22:14:45,  1.04s/it]  2%|▏         | 1801/78504 [1:04:51<67:36:37,  3.17s/it]                                                         {'loss': 0.238, 'grad_norm': 0.7622950673103333, 'learning_rate': 6.870462361482615e-06, 'epoch': 0.55}
  2%|▏         | 1801/78504 [1:04:51<67:36:37,  3.17s/it]  2%|▏         | 1802/78504 [1:04:55<68:46:02,  3.23s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.6364317536354065, 'learning_rate': 6.874283530760413e-06, 'epoch': 0.55}
  2%|▏         | 1802/78504 [1:04:55<68:46:02,  3.23s/it]  2%|▏         | 1803/78504 [1:04:57<66:52:37,  3.14s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.48387864232063293, 'learning_rate': 6.878104700038212e-06, 'epoch': 0.55}
  2%|▏         | 1803/78504 [1:04:57<66:52:37,  3.14s/it]  2%|▏         | 1804/78504 [1:05:00<62:19:07,  2.92s/it]                                                         {'loss': 0.1277, 'grad_norm': 0.5266673564910889, 'learning_rate': 6.881925869316011e-06, 'epoch': 0.55}
  2%|▏         | 1804/78504 [1:05:00<62:19:07,  2.92s/it]  2%|▏         | 1805/78504 [1:05:02<59:29:49,  2.79s/it]                                                         {'loss': 0.1209, 'grad_norm': 0.4874516427516937, 'learning_rate': 6.8857470385938105e-06, 'epoch': 0.55}
  2%|▏         | 1805/78504 [1:05:02<59:29:49,  2.79s/it]  2%|▏         | 1806/78504 [1:05:05<56:08:56,  2.64s/it]                                                         {'loss': 0.099, 'grad_norm': 0.7448146343231201, 'learning_rate': 6.889568207871609e-06, 'epoch': 0.55}
  2%|▏         | 1806/78504 [1:05:05<56:08:56,  2.64s/it]  2%|▏         | 1807/78504 [1:05:07<54:09:26,  2.54s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.47271373867988586, 'learning_rate': 6.893389377149408e-06, 'epoch': 0.55}
  2%|▏         | 1807/78504 [1:05:07<54:09:26,  2.54s/it]  2%|▏         | 1808/78504 [1:05:09<51:27:58,  2.42s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.5431455969810486, 'learning_rate': 6.897210546427207e-06, 'epoch': 0.55}
  2%|▏         | 1808/78504 [1:05:09<51:27:58,  2.42s/it]  2%|▏         | 1809/78504 [1:05:11<50:03:16,  2.35s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.5700578093528748, 'learning_rate': 6.901031715705006e-06, 'epoch': 0.55}
  2%|▏         | 1809/78504 [1:05:11<50:03:16,  2.35s/it]  2%|▏         | 1810/78504 [1:05:13<48:54:38,  2.30s/it]                                                         {'loss': 0.1202, 'grad_norm': 0.4578174352645874, 'learning_rate': 6.904852884982805e-06, 'epoch': 0.55}
  2%|▏         | 1810/78504 [1:05:13<48:54:38,  2.30s/it]  2%|▏         | 1811/78504 [1:05:15<46:14:55,  2.17s/it]                                                         {'loss': 0.1227, 'grad_norm': 0.7084099650382996, 'learning_rate': 6.908674054260604e-06, 'epoch': 0.55}
  2%|▏         | 1811/78504 [1:05:15<46:14:55,  2.17s/it]  2%|▏         | 1812/78504 [1:05:17<45:06:38,  2.12s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.5544901490211487, 'learning_rate': 6.9124952235384025e-06, 'epoch': 0.55}
  2%|▏         | 1812/78504 [1:05:17<45:06:38,  2.12s/it]  2%|▏         | 1813/78504 [1:05:19<43:54:30,  2.06s/it]                                                         {'loss': 0.2126, 'grad_norm': 1.721486210823059, 'learning_rate': 6.916316392816202e-06, 'epoch': 0.55}
  2%|▏         | 1813/78504 [1:05:19<43:54:30,  2.06s/it]  2%|▏         | 1814/78504 [1:05:21<42:45:56,  2.01s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.8468775749206543, 'learning_rate': 6.920137562094001e-06, 'epoch': 0.55}
  2%|▏         | 1814/78504 [1:05:21<42:45:56,  2.01s/it]  2%|▏         | 1815/78504 [1:05:23<41:10:48,  1.93s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.8471442461013794, 'learning_rate': 6.9239587313718e-06, 'epoch': 0.55}
  2%|▏         | 1815/78504 [1:05:23<41:10:48,  1.93s/it]  2%|▏         | 1816/78504 [1:05:25<39:21:08,  1.85s/it]                                                         {'loss': 0.2569, 'grad_norm': 0.848345160484314, 'learning_rate': 6.927779900649598e-06, 'epoch': 0.56}
  2%|▏         | 1816/78504 [1:05:25<39:21:08,  1.85s/it]  2%|▏         | 1817/78504 [1:05:26<37:05:24,  1.74s/it]                                                         {'loss': 0.2259, 'grad_norm': 0.9333407282829285, 'learning_rate': 6.931601069927398e-06, 'epoch': 0.56}
  2%|▏         | 1817/78504 [1:05:26<37:05:24,  1.74s/it]  2%|▏         | 1818/78504 [1:05:28<35:36:00,  1.67s/it]                                                         {'loss': 0.2619, 'grad_norm': 0.9360960125923157, 'learning_rate': 6.935422239205197e-06, 'epoch': 0.56}
  2%|▏         | 1818/78504 [1:05:28<35:36:00,  1.67s/it]  2%|▏         | 1819/78504 [1:05:29<34:01:54,  1.60s/it]                                                         {'loss': 0.2503, 'grad_norm': 0.8180817365646362, 'learning_rate': 6.9392434084829955e-06, 'epoch': 0.56}
  2%|▏         | 1819/78504 [1:05:29<34:01:54,  1.60s/it]  2%|▏         | 1820/78504 [1:05:30<32:01:59,  1.50s/it]                                                         {'loss': 0.268, 'grad_norm': 1.3674391508102417, 'learning_rate': 6.943064577760794e-06, 'epoch': 0.56}
  2%|▏         | 1820/78504 [1:05:30<32:01:59,  1.50s/it]  2%|▏         | 1821/78504 [1:05:31<29:51:54,  1.40s/it]                                                         {'loss': 0.333, 'grad_norm': 1.4019544124603271, 'learning_rate': 6.946885747038595e-06, 'epoch': 0.56}
  2%|▏         | 1821/78504 [1:05:31<29:51:54,  1.40s/it]  2%|▏         | 1822/78504 [1:05:33<27:52:41,  1.31s/it]                                                         {'loss': 0.3103, 'grad_norm': 2.144352436065674, 'learning_rate': 6.950706916316393e-06, 'epoch': 0.56}
  2%|▏         | 1822/78504 [1:05:33<27:52:41,  1.31s/it]  2%|▏         | 1823/78504 [1:05:34<25:55:15,  1.22s/it]                                                         {'loss': 0.3443, 'grad_norm': 1.6411892175674438, 'learning_rate': 6.954528085594192e-06, 'epoch': 0.56}
  2%|▏         | 1823/78504 [1:05:34<25:55:15,  1.22s/it]  2%|▏         | 1824/78504 [1:05:34<24:04:50,  1.13s/it]                                                         {'loss': 0.3871, 'grad_norm': 1.988133192062378, 'learning_rate': 6.958349254871991e-06, 'epoch': 0.56}
  2%|▏         | 1824/78504 [1:05:34<24:04:50,  1.13s/it]  2%|▏         | 1825/78504 [1:05:35<21:59:44,  1.03s/it]                                                         {'loss': 0.4486, 'grad_norm': 2.3542673587799072, 'learning_rate': 6.9621704241497905e-06, 'epoch': 0.56}
  2%|▏         | 1825/78504 [1:05:35<21:59:44,  1.03s/it]  2%|▏         | 1826/78504 [1:05:43<62:58:56,  2.96s/it]                                                         {'loss': 0.2243, 'grad_norm': 0.6053528785705566, 'learning_rate': 6.965991593427589e-06, 'epoch': 0.56}
  2%|▏         | 1826/78504 [1:05:43<62:58:56,  2.96s/it]  2%|▏         | 1827/78504 [1:05:46<65:12:35,  3.06s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.5742367506027222, 'learning_rate': 6.969812762705388e-06, 'epoch': 0.56}
  2%|▏         | 1827/78504 [1:05:46<65:12:35,  3.06s/it]  2%|▏         | 1828/78504 [1:05:49<64:43:44,  3.04s/it]                                                         {'loss': 0.1049, 'grad_norm': 0.4263661205768585, 'learning_rate': 6.973633931983187e-06, 'epoch': 0.56}
  2%|▏         | 1828/78504 [1:05:49<64:43:44,  3.04s/it]  2%|▏         | 1829/78504 [1:05:52<62:02:33,  2.91s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.5401995778083801, 'learning_rate': 6.977455101260986e-06, 'epoch': 0.56}
  2%|▏         | 1829/78504 [1:05:52<62:02:33,  2.91s/it]  2%|▏         | 1830/78504 [1:05:54<59:13:56,  2.78s/it]                                                         {'loss': 0.1294, 'grad_norm': 0.6042286157608032, 'learning_rate': 6.981276270538785e-06, 'epoch': 0.56}
  2%|▏         | 1830/78504 [1:05:54<59:13:56,  2.78s/it]  2%|▏         | 1831/78504 [1:05:57<57:01:36,  2.68s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.6417702436447144, 'learning_rate': 6.985097439816584e-06, 'epoch': 0.56}
  2%|▏         | 1831/78504 [1:05:57<57:01:36,  2.68s/it]  2%|▏         | 1832/78504 [1:05:59<54:46:09,  2.57s/it]                                                         {'loss': 0.1123, 'grad_norm': 0.5610223412513733, 'learning_rate': 6.988918609094383e-06, 'epoch': 0.56}
  2%|▏         | 1832/78504 [1:05:59<54:46:09,  2.57s/it]  2%|▏         | 1833/78504 [1:06:01<51:50:38,  2.43s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.5107663869857788, 'learning_rate': 6.992739778372182e-06, 'epoch': 0.56}
  2%|▏         | 1833/78504 [1:06:01<51:50:38,  2.43s/it]  2%|▏         | 1834/78504 [1:06:03<49:18:38,  2.32s/it]                                                         {'loss': 0.1275, 'grad_norm': 0.5423054695129395, 'learning_rate': 6.996560947649981e-06, 'epoch': 0.56}
  2%|▏         | 1834/78504 [1:06:03<49:18:38,  2.32s/it]  2%|▏         | 1835/78504 [1:06:05<48:10:57,  2.26s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.5394623875617981, 'learning_rate': 7.00038211692778e-06, 'epoch': 0.56}
  2%|▏         | 1835/78504 [1:06:05<48:10:57,  2.26s/it]  2%|▏         | 1836/78504 [1:06:07<46:47:35,  2.20s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.706482470035553, 'learning_rate': 7.004203286205579e-06, 'epoch': 0.56}
  2%|▏         | 1836/78504 [1:06:07<46:47:35,  2.20s/it]  2%|▏         | 1837/78504 [1:06:09<45:27:47,  2.13s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.873502254486084, 'learning_rate': 7.008024455483378e-06, 'epoch': 0.56}
  2%|▏         | 1837/78504 [1:06:09<45:27:47,  2.13s/it]  2%|▏         | 1838/78504 [1:06:11<43:46:59,  2.06s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.6734521985054016, 'learning_rate': 7.011845624761177e-06, 'epoch': 0.56}
  2%|▏         | 1838/78504 [1:06:11<43:46:59,  2.06s/it]  2%|▏         | 1839/78504 [1:06:13<42:37:29,  2.00s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.6665511727333069, 'learning_rate': 7.0156667940389754e-06, 'epoch': 0.56}
  2%|▏         | 1839/78504 [1:06:13<42:37:29,  2.00s/it]  2%|▏         | 1840/78504 [1:06:15<41:09:12,  1.93s/it]                                                         {'loss': 0.209, 'grad_norm': 0.8156330585479736, 'learning_rate': 7.019487963316776e-06, 'epoch': 0.56}
  2%|▏         | 1840/78504 [1:06:15<41:09:12,  1.93s/it]  2%|▏         | 1841/78504 [1:06:16<39:22:06,  1.85s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.8651542067527771, 'learning_rate': 7.023309132594575e-06, 'epoch': 0.56}
  2%|▏         | 1841/78504 [1:06:16<39:22:06,  1.85s/it]  2%|▏         | 1842/78504 [1:06:18<37:24:46,  1.76s/it]                                                         {'loss': 0.2359, 'grad_norm': 1.0602695941925049, 'learning_rate': 7.027130301872373e-06, 'epoch': 0.56}
  2%|▏         | 1842/78504 [1:06:18<37:24:46,  1.76s/it]  2%|▏         | 1843/78504 [1:06:19<35:34:30,  1.67s/it]                                                         {'loss': 0.2854, 'grad_norm': 1.0098832845687866, 'learning_rate': 7.030951471150172e-06, 'epoch': 0.56}
  2%|▏         | 1843/78504 [1:06:19<35:34:30,  1.67s/it]  2%|▏         | 1844/78504 [1:06:21<33:56:02,  1.59s/it]                                                         {'loss': 0.3244, 'grad_norm': 1.1456831693649292, 'learning_rate': 7.034772640427972e-06, 'epoch': 0.56}
  2%|▏         | 1844/78504 [1:06:21<33:56:02,  1.59s/it]  2%|▏         | 1845/78504 [1:06:22<31:58:16,  1.50s/it]                                                         {'loss': 0.2631, 'grad_norm': 1.1722238063812256, 'learning_rate': 7.0385938097057704e-06, 'epoch': 0.56}
  2%|▏         | 1845/78504 [1:06:22<31:58:16,  1.50s/it]  2%|▏         | 1846/78504 [1:06:23<29:42:12,  1.39s/it]                                                         {'loss': 0.3364, 'grad_norm': 1.3385485410690308, 'learning_rate': 7.042414978983569e-06, 'epoch': 0.56}
  2%|▏         | 1846/78504 [1:06:23<29:42:12,  1.39s/it]  2%|▏         | 1847/78504 [1:06:24<27:46:28,  1.30s/it]                                                         {'loss': 0.3114, 'grad_norm': 1.5197807550430298, 'learning_rate': 7.046236148261368e-06, 'epoch': 0.56}
  2%|▏         | 1847/78504 [1:06:24<27:46:28,  1.30s/it]  2%|▏         | 1848/78504 [1:06:25<26:12:11,  1.23s/it]                                                         {'loss': 0.3204, 'grad_norm': 2.1980814933776855, 'learning_rate': 7.0500573175391675e-06, 'epoch': 0.56}
  2%|▏         | 1848/78504 [1:06:25<26:12:11,  1.23s/it]  2%|▏         | 1849/78504 [1:06:26<24:17:21,  1.14s/it]                                                         {'loss': 0.3492, 'grad_norm': 1.6695780754089355, 'learning_rate': 7.053878486816966e-06, 'epoch': 0.57}
  2%|▏         | 1849/78504 [1:06:26<24:17:21,  1.14s/it]  2%|▏         | 1850/78504 [1:06:27<21:59:37,  1.03s/it]                                                         {'loss': 0.4781, 'grad_norm': 5.04495096206665, 'learning_rate': 7.057699656094765e-06, 'epoch': 0.57}
  2%|▏         | 1850/78504 [1:06:27<21:59:37,  1.03s/it]  2%|▏         | 1851/78504 [1:06:37<77:00:55,  3.62s/it]                                                         {'loss': 0.2337, 'grad_norm': 0.6675856709480286, 'learning_rate': 7.061520825372564e-06, 'epoch': 0.57}
  2%|▏         | 1851/78504 [1:06:37<77:00:55,  3.62s/it]  2%|▏         | 1852/78504 [1:06:40<75:02:48,  3.52s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.8079965710639954, 'learning_rate': 7.065341994650363e-06, 'epoch': 0.57}
  2%|▏         | 1852/78504 [1:06:40<75:02:48,  3.52s/it]  2%|▏         | 1853/78504 [1:06:43<68:57:28,  3.24s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.6248931884765625, 'learning_rate': 7.069163163928162e-06, 'epoch': 0.57}
  2%|▏         | 1853/78504 [1:06:43<68:57:28,  3.24s/it]  2%|▏         | 1854/78504 [1:06:45<64:50:20,  3.05s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.5726986527442932, 'learning_rate': 7.072984333205961e-06, 'epoch': 0.57}
  2%|▏         | 1854/78504 [1:06:45<64:50:20,  3.05s/it]  2%|▏         | 1855/78504 [1:06:48<61:12:19,  2.87s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.4778134226799011, 'learning_rate': 7.0768055024837596e-06, 'epoch': 0.57}
  2%|▏         | 1855/78504 [1:06:48<61:12:19,  2.87s/it]  2%|▏         | 1856/78504 [1:06:50<57:21:07,  2.69s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.4854373037815094, 'learning_rate': 7.080626671761559e-06, 'epoch': 0.57}
  2%|▏         | 1856/78504 [1:06:50<57:21:07,  2.69s/it]  2%|▏         | 1857/78504 [1:06:52<55:04:21,  2.59s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.48632878065109253, 'learning_rate': 7.084447841039358e-06, 'epoch': 0.57}
  2%|▏         | 1857/78504 [1:06:52<55:04:21,  2.59s/it]  2%|▏         | 1858/78504 [1:06:54<51:56:27,  2.44s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.4848400950431824, 'learning_rate': 7.088269010317157e-06, 'epoch': 0.57}
  2%|▏         | 1858/78504 [1:06:54<51:56:27,  2.44s/it]  2%|▏         | 1859/78504 [1:06:57<50:22:59,  2.37s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.623792827129364, 'learning_rate': 7.092090179594956e-06, 'epoch': 0.57}
  2%|▏         | 1859/78504 [1:06:57<50:22:59,  2.37s/it]  2%|▏         | 1860/78504 [1:06:59<48:58:03,  2.30s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5443034172058105, 'learning_rate': 7.095911348872756e-06, 'epoch': 0.57}
  2%|▏         | 1860/78504 [1:06:59<48:58:03,  2.30s/it]  2%|▏         | 1861/78504 [1:07:01<46:57:40,  2.21s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.5323377847671509, 'learning_rate': 7.099732518150555e-06, 'epoch': 0.57}
  2%|▏         | 1861/78504 [1:07:01<46:57:40,  2.21s/it]  2%|▏         | 1862/78504 [1:07:02<44:23:31,  2.09s/it]                                                         {'loss': 0.1434, 'grad_norm': 1.3336899280548096, 'learning_rate': 7.103553687428353e-06, 'epoch': 0.57}
  2%|▏         | 1862/78504 [1:07:03<44:23:31,  2.09s/it]  2%|▏         | 1863/78504 [1:07:04<43:01:45,  2.02s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.796190083026886, 'learning_rate': 7.107374856706153e-06, 'epoch': 0.57}
  2%|▏         | 1863/78504 [1:07:04<43:01:45,  2.02s/it]  2%|▏         | 1864/78504 [1:07:06<41:51:07,  1.97s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.7670611143112183, 'learning_rate': 7.111196025983952e-06, 'epoch': 0.57}
  2%|▏         | 1864/78504 [1:07:06<41:51:07,  1.97s/it]  2%|▏         | 1865/78504 [1:07:08<40:38:05,  1.91s/it]                                                         {'loss': 0.222, 'grad_norm': 0.754612922668457, 'learning_rate': 7.11501719526175e-06, 'epoch': 0.57}
  2%|▏         | 1865/78504 [1:07:08<40:38:05,  1.91s/it]  2%|▏         | 1866/78504 [1:07:10<38:56:13,  1.83s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.7055993676185608, 'learning_rate': 7.118838364539549e-06, 'epoch': 0.57}
  2%|▏         | 1866/78504 [1:07:10<38:56:13,  1.83s/it]  2%|▏         | 1867/78504 [1:07:11<37:07:49,  1.74s/it]                                                         {'loss': 0.2757, 'grad_norm': 1.0119719505310059, 'learning_rate': 7.122659533817349e-06, 'epoch': 0.57}
  2%|▏         | 1867/78504 [1:07:11<37:07:49,  1.74s/it]  2%|▏         | 1868/78504 [1:07:13<35:19:35,  1.66s/it]                                                         {'loss': 0.2741, 'grad_norm': 1.5251290798187256, 'learning_rate': 7.1264807030951475e-06, 'epoch': 0.57}
  2%|▏         | 1868/78504 [1:07:13<35:19:35,  1.66s/it]  2%|▏         | 1869/78504 [1:07:14<33:46:03,  1.59s/it]                                                         {'loss': 0.2888, 'grad_norm': 1.0728724002838135, 'learning_rate': 7.130301872372946e-06, 'epoch': 0.57}
  2%|▏         | 1869/78504 [1:07:14<33:46:03,  1.59s/it]  2%|▏         | 1870/78504 [1:07:15<31:53:09,  1.50s/it]                                                         {'loss': 0.2991, 'grad_norm': 1.1715260744094849, 'learning_rate': 7.134123041650745e-06, 'epoch': 0.57}
  2%|▏         | 1870/78504 [1:07:15<31:53:09,  1.50s/it]  2%|▏         | 1871/78504 [1:07:17<29:50:49,  1.40s/it]                                                         {'loss': 0.3092, 'grad_norm': 1.0131726264953613, 'learning_rate': 7.1379442109285446e-06, 'epoch': 0.57}
  2%|▏         | 1871/78504 [1:07:17<29:50:49,  1.40s/it]  2%|▏         | 1872/78504 [1:07:18<27:49:29,  1.31s/it]                                                         {'loss': 0.3002, 'grad_norm': 1.6379377841949463, 'learning_rate': 7.141765380206343e-06, 'epoch': 0.57}
  2%|▏         | 1872/78504 [1:07:18<27:49:29,  1.31s/it]  2%|▏         | 1873/78504 [1:07:19<26:12:22,  1.23s/it]                                                         {'loss': 0.3404, 'grad_norm': 2.2192718982696533, 'learning_rate': 7.145586549484142e-06, 'epoch': 0.57}
  2%|▏         | 1873/78504 [1:07:19<26:12:22,  1.23s/it]  2%|▏         | 1874/78504 [1:07:20<24:20:37,  1.14s/it]                                                         {'loss': 0.396, 'grad_norm': 1.8767591714859009, 'learning_rate': 7.149407718761941e-06, 'epoch': 0.57}
  2%|▏         | 1874/78504 [1:07:20<24:20:37,  1.14s/it]  2%|▏         | 1875/78504 [1:07:20<22:04:36,  1.04s/it]                                                         {'loss': 0.3777, 'grad_norm': 4.572295188903809, 'learning_rate': 7.15322888803974e-06, 'epoch': 0.57}
  2%|▏         | 1875/78504 [1:07:20<22:04:36,  1.04s/it]  2%|▏         | 1876/78504 [1:07:28<65:23:41,  3.07s/it]                                                         {'loss': 0.2412, 'grad_norm': 0.9931073188781738, 'learning_rate': 7.157050057317539e-06, 'epoch': 0.57}
  2%|▏         | 1876/78504 [1:07:28<65:23:41,  3.07s/it]  2%|▏         | 1877/78504 [1:07:31<66:50:50,  3.14s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.7713192105293274, 'learning_rate': 7.160871226595338e-06, 'epoch': 0.57}
  2%|▏         | 1877/78504 [1:07:32<66:50:50,  3.14s/it]  2%|▏         | 1878/78504 [1:07:35<66:01:51,  3.10s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.5861683487892151, 'learning_rate': 7.164692395873137e-06, 'epoch': 0.57}
  2%|▏         | 1878/78504 [1:07:35<66:01:51,  3.10s/it]  2%|▏         | 1879/78504 [1:07:37<62:48:57,  2.95s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5489619374275208, 'learning_rate': 7.168513565150937e-06, 'epoch': 0.57}
  2%|▏         | 1879/78504 [1:07:37<62:48:57,  2.95s/it]  2%|▏         | 1880/78504 [1:07:40<59:43:57,  2.81s/it]                                                         {'loss': 0.1096, 'grad_norm': 0.6320542693138123, 'learning_rate': 7.172334734428736e-06, 'epoch': 0.57}
  2%|▏         | 1880/78504 [1:07:40<59:43:57,  2.81s/it]  2%|▏         | 1881/78504 [1:07:42<56:17:46,  2.64s/it]                                                         {'loss': 0.1148, 'grad_norm': 0.49416646361351013, 'learning_rate': 7.1761559037065346e-06, 'epoch': 0.58}
  2%|▏         | 1881/78504 [1:07:42<56:17:46,  2.64s/it]  2%|▏         | 1882/78504 [1:07:44<54:15:29,  2.55s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.5392212271690369, 'learning_rate': 7.179977072984333e-06, 'epoch': 0.58}
  2%|▏         | 1882/78504 [1:07:44<54:15:29,  2.55s/it]  2%|▏         | 1883/78504 [1:07:46<51:21:58,  2.41s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.5214961767196655, 'learning_rate': 7.183798242262133e-06, 'epoch': 0.58}
  2%|▏         | 1883/78504 [1:07:46<51:21:58,  2.41s/it]  2%|▏         | 1884/78504 [1:07:48<49:55:58,  2.35s/it]                                                         {'loss': 0.139, 'grad_norm': 0.9156227707862854, 'learning_rate': 7.187619411539932e-06, 'epoch': 0.58}
  2%|▏         | 1884/78504 [1:07:48<49:55:58,  2.35s/it]  2%|▏         | 1885/78504 [1:07:51<48:51:20,  2.30s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.4529374837875366, 'learning_rate': 7.19144058081773e-06, 'epoch': 0.58}
  2%|▏         | 1885/78504 [1:07:51<48:51:20,  2.30s/it]  2%|▏         | 1886/78504 [1:07:52<46:06:33,  2.17s/it]                                                         {'loss': 0.2534, 'grad_norm': 0.8996360301971436, 'learning_rate': 7.195261750095529e-06, 'epoch': 0.58}
  2%|▏         | 1886/78504 [1:07:53<46:06:33,  2.17s/it]  2%|▏         | 1887/78504 [1:07:54<45:04:43,  2.12s/it]                                                         {'loss': 0.1587, 'grad_norm': 0.6929118633270264, 'learning_rate': 7.199082919373329e-06, 'epoch': 0.58}
  2%|▏         | 1887/78504 [1:07:55<45:04:43,  2.12s/it]  2%|▏         | 1888/78504 [1:07:56<43:51:37,  2.06s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.6763818860054016, 'learning_rate': 7.2029040886511275e-06, 'epoch': 0.58}
  2%|▏         | 1888/78504 [1:07:56<43:51:37,  2.06s/it]  2%|▏         | 1889/78504 [1:07:58<42:37:31,  2.00s/it]                                                         {'loss': 0.2175, 'grad_norm': 1.7264829874038696, 'learning_rate': 7.206725257928926e-06, 'epoch': 0.58}
  2%|▏         | 1889/78504 [1:07:58<42:37:31,  2.00s/it]  2%|▏         | 1890/78504 [1:08:00<41:11:47,  1.94s/it]                                                         {'loss': 0.2092, 'grad_norm': 1.155777096748352, 'learning_rate': 7.210546427206725e-06, 'epoch': 0.58}
  2%|▏         | 1890/78504 [1:08:00<41:11:47,  1.94s/it]  2%|▏         | 1891/78504 [1:08:02<39:20:21,  1.85s/it]                                                         {'loss': 0.2554, 'grad_norm': 0.8028881549835205, 'learning_rate': 7.2143675964845245e-06, 'epoch': 0.58}
  2%|▏         | 1891/78504 [1:08:02<39:20:21,  1.85s/it]  2%|▏         | 1892/78504 [1:08:03<37:21:05,  1.76s/it]                                                         {'loss': 0.2911, 'grad_norm': 1.0740469694137573, 'learning_rate': 7.218188765762323e-06, 'epoch': 0.58}
  2%|▏         | 1892/78504 [1:08:03<37:21:05,  1.76s/it]  2%|▏         | 1893/78504 [1:08:05<35:14:42,  1.66s/it]                                                         {'loss': 0.2815, 'grad_norm': 1.1702165603637695, 'learning_rate': 7.222009935040122e-06, 'epoch': 0.58}
  2%|▏         | 1893/78504 [1:08:05<35:14:42,  1.66s/it]  2%|▏         | 1894/78504 [1:08:06<33:43:01,  1.58s/it]                                                         {'loss': 0.3072, 'grad_norm': 1.360775113105774, 'learning_rate': 7.225831104317922e-06, 'epoch': 0.58}
  2%|▏         | 1894/78504 [1:08:06<33:43:01,  1.58s/it]  2%|▏         | 1895/78504 [1:08:07<31:22:59,  1.47s/it]                                                         {'loss': 0.2708, 'grad_norm': 1.7146896123886108, 'learning_rate': 7.22965227359572e-06, 'epoch': 0.58}
  2%|▏         | 1895/78504 [1:08:07<31:22:59,  1.47s/it]  2%|▏         | 1896/78504 [1:08:08<29:25:54,  1.38s/it]                                                         {'loss': 0.3322, 'grad_norm': 1.5225187540054321, 'learning_rate': 7.233473442873519e-06, 'epoch': 0.58}
  2%|▏         | 1896/78504 [1:08:09<29:25:54,  1.38s/it]  2%|▏         | 1897/78504 [1:08:10<27:44:42,  1.30s/it]                                                         {'loss': 0.3362, 'grad_norm': 1.4397433996200562, 'learning_rate': 7.237294612151318e-06, 'epoch': 0.58}
  2%|▏         | 1897/78504 [1:08:10<27:44:42,  1.30s/it]  2%|▏         | 1898/78504 [1:08:11<25:54:12,  1.22s/it]                                                         {'loss': 0.3135, 'grad_norm': 1.6193811893463135, 'learning_rate': 7.241115781429118e-06, 'epoch': 0.58}
  2%|▏         | 1898/78504 [1:08:11<25:54:12,  1.22s/it]  2%|▏         | 1899/78504 [1:08:12<24:09:47,  1.14s/it]                                                         {'loss': 0.3633, 'grad_norm': 1.8463780879974365, 'learning_rate': 7.244936950706917e-06, 'epoch': 0.58}
  2%|▏         | 1899/78504 [1:08:12<24:09:47,  1.14s/it]  2%|▏         | 1900/78504 [1:08:12<21:57:44,  1.03s/it]                                                         {'loss': 0.4879, 'grad_norm': 3.014223098754883, 'learning_rate': 7.248758119984716e-06, 'epoch': 0.58}
  2%|▏         | 1900/78504 [1:08:12<21:57:44,  1.03s/it]  2%|▏         | 1901/78504 [1:08:22<79:22:11,  3.73s/it]                                                         {'loss': 0.2055, 'grad_norm': 0.606360673904419, 'learning_rate': 7.2525792892625145e-06, 'epoch': 0.58}
  2%|▏         | 1901/78504 [1:08:22<79:22:11,  3.73s/it]  2%|▏         | 1902/78504 [1:08:26<76:41:14,  3.60s/it]                                                         {'loss': 0.142, 'grad_norm': 0.4634894132614136, 'learning_rate': 7.256400458540314e-06, 'epoch': 0.58}
  2%|▏         | 1902/78504 [1:08:26<76:41:14,  3.60s/it]  2%|▏         | 1903/78504 [1:08:28<71:01:13,  3.34s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.777320921421051, 'learning_rate': 7.260221627818113e-06, 'epoch': 0.58}
  2%|▏         | 1903/78504 [1:08:28<71:01:13,  3.34s/it]  2%|▏         | 1904/78504 [1:08:31<66:15:55,  3.11s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.6068689227104187, 'learning_rate': 7.264042797095912e-06, 'epoch': 0.58}
  2%|▏         | 1904/78504 [1:08:31<66:15:55,  3.11s/it]  2%|▏         | 1905/78504 [1:08:33<62:10:24,  2.92s/it]                                                         {'loss': 0.1259, 'grad_norm': 0.578449010848999, 'learning_rate': 7.26786396637371e-06, 'epoch': 0.58}
  2%|▏         | 1905/78504 [1:08:33<62:10:24,  2.92s/it]  2%|▏         | 1906/78504 [1:08:36<57:59:29,  2.73s/it]                                                         {'loss': 0.1274, 'grad_norm': 0.44615569710731506, 'learning_rate': 7.27168513565151e-06, 'epoch': 0.58}
  2%|▏         | 1906/78504 [1:08:36<57:59:29,  2.73s/it]  2%|▏         | 1907/78504 [1:08:38<55:23:57,  2.60s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.7546061277389526, 'learning_rate': 7.275506304929309e-06, 'epoch': 0.58}
  2%|▏         | 1907/78504 [1:08:38<55:23:57,  2.60s/it]  2%|▏         | 1908/78504 [1:08:40<52:10:34,  2.45s/it]                                                         {'loss': 0.111, 'grad_norm': 0.5305916666984558, 'learning_rate': 7.2793274742071074e-06, 'epoch': 0.58}
  2%|▏         | 1908/78504 [1:08:40<52:10:34,  2.45s/it]  2%|▏         | 1909/78504 [1:08:42<49:32:52,  2.33s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.6672648191452026, 'learning_rate': 7.283148643484906e-06, 'epoch': 0.58}
  2%|▏         | 1909/78504 [1:08:42<49:32:52,  2.33s/it]  2%|▏         | 1910/78504 [1:08:44<48:21:32,  2.27s/it]                                                         {'loss': 0.1032, 'grad_norm': 0.645152747631073, 'learning_rate': 7.286969812762706e-06, 'epoch': 0.58}
  2%|▏         | 1910/78504 [1:08:44<48:21:32,  2.27s/it]  2%|▏         | 1911/78504 [1:08:46<46:46:15,  2.20s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.6592658758163452, 'learning_rate': 7.2907909820405045e-06, 'epoch': 0.58}
  2%|▏         | 1911/78504 [1:08:46<46:46:15,  2.20s/it]  2%|▏         | 1912/78504 [1:08:48<45:01:49,  2.12s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.5453980565071106, 'learning_rate': 7.294612151318303e-06, 'epoch': 0.58}
  2%|▏         | 1912/78504 [1:08:48<45:01:49,  2.12s/it]  2%|▏         | 1913/78504 [1:08:50<43:26:48,  2.04s/it]                                                         {'loss': 0.1414, 'grad_norm': 2.6207962036132812, 'learning_rate': 7.298433320596102e-06, 'epoch': 0.58}
  2%|▏         | 1913/78504 [1:08:50<43:26:48,  2.04s/it]  2%|▏         | 1914/78504 [1:08:52<41:21:19,  1.94s/it]                                                         {'loss': 0.2271, 'grad_norm': 0.9048108458518982, 'learning_rate': 7.302254489873902e-06, 'epoch': 0.59}
  2%|▏         | 1914/78504 [1:08:52<41:21:19,  1.94s/it]  2%|▏         | 1915/78504 [1:08:54<39:58:27,  1.88s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.9043570756912231, 'learning_rate': 7.3060756591517e-06, 'epoch': 0.59}
  2%|▏         | 1915/78504 [1:08:54<39:58:27,  1.88s/it]  2%|▏         | 1916/78504 [1:08:55<38:32:51,  1.81s/it]                                                         {'loss': 0.2544, 'grad_norm': 0.7846548557281494, 'learning_rate': 7.309896828429499e-06, 'epoch': 0.59}
  2%|▏         | 1916/78504 [1:08:55<38:32:51,  1.81s/it]  2%|▏         | 1917/78504 [1:08:57<36:47:42,  1.73s/it]                                                         {'loss': 0.2716, 'grad_norm': 0.8672215342521667, 'learning_rate': 7.313717997707298e-06, 'epoch': 0.59}
  2%|▏         | 1917/78504 [1:08:57<36:47:42,  1.73s/it]  2%|▏         | 1918/78504 [1:08:58<35:11:41,  1.65s/it]                                                         {'loss': 0.2872, 'grad_norm': 1.4152439832687378, 'learning_rate': 7.317539166985098e-06, 'epoch': 0.59}
  2%|▏         | 1918/78504 [1:08:58<35:11:41,  1.65s/it]  2%|▏         | 1919/78504 [1:09:00<33:35:38,  1.58s/it]                                                         {'loss': 0.2653, 'grad_norm': 1.0666393041610718, 'learning_rate': 7.321360336262897e-06, 'epoch': 0.59}
  2%|▏         | 1919/78504 [1:09:00<33:35:38,  1.58s/it]  2%|▏         | 1920/78504 [1:09:01<31:44:20,  1.49s/it]                                                         {'loss': 0.3009, 'grad_norm': 0.8719692826271057, 'learning_rate': 7.325181505540696e-06, 'epoch': 0.59}
  2%|▏         | 1920/78504 [1:09:01<31:44:20,  1.49s/it]  2%|▏         | 1921/78504 [1:09:02<29:34:52,  1.39s/it]                                                         {'loss': 0.3038, 'grad_norm': 1.164770245552063, 'learning_rate': 7.3290026748184945e-06, 'epoch': 0.59}
  2%|▏         | 1921/78504 [1:09:02<29:34:52,  1.39s/it]  2%|▏         | 1922/78504 [1:09:03<27:41:56,  1.30s/it]                                                         {'loss': 0.3053, 'grad_norm': 1.359133243560791, 'learning_rate': 7.332823844096294e-06, 'epoch': 0.59}
  2%|▏         | 1922/78504 [1:09:03<27:41:56,  1.30s/it]  2%|▏         | 1923/78504 [1:09:04<26:09:06,  1.23s/it]                                                         {'loss': 0.3819, 'grad_norm': 1.3975558280944824, 'learning_rate': 7.336645013374093e-06, 'epoch': 0.59}
  2%|▏         | 1923/78504 [1:09:04<26:09:06,  1.23s/it]  2%|▏         | 1924/78504 [1:09:05<24:13:56,  1.14s/it]                                                         {'loss': 0.3591, 'grad_norm': 2.2978293895721436, 'learning_rate': 7.340466182651892e-06, 'epoch': 0.59}
  2%|▏         | 1924/78504 [1:09:05<24:13:56,  1.14s/it]  2%|▏         | 1925/78504 [1:09:06<21:48:51,  1.03s/it]                                                         {'loss': 0.4354, 'grad_norm': 2.55303955078125, 'learning_rate': 7.34428735192969e-06, 'epoch': 0.59}
  2%|▏         | 1925/78504 [1:09:06<21:48:51,  1.03s/it]  2%|▏         | 1926/78504 [1:09:13<57:31:25,  2.70s/it]                                                         {'loss': 0.2003, 'grad_norm': 0.6490985751152039, 'learning_rate': 7.34810852120749e-06, 'epoch': 0.59}
  2%|▏         | 1926/78504 [1:09:13<57:31:25,  2.70s/it]  2%|▏         | 1927/78504 [1:09:16<60:16:25,  2.83s/it]                                                         {'loss': 0.1321, 'grad_norm': 0.6329155564308167, 'learning_rate': 7.351929690485289e-06, 'epoch': 0.59}
  2%|▏         | 1927/78504 [1:09:16<60:16:25,  2.83s/it]  2%|▏         | 1928/78504 [1:09:18<58:39:14,  2.76s/it]                                                         {'loss': 0.137, 'grad_norm': 0.5672707557678223, 'learning_rate': 7.355750859763087e-06, 'epoch': 0.59}
  2%|▏         | 1928/78504 [1:09:18<58:39:14,  2.76s/it]  2%|▏         | 1929/78504 [1:09:21<56:33:35,  2.66s/it]                                                         {'loss': 0.1096, 'grad_norm': 0.4347907602787018, 'learning_rate': 7.359572029040887e-06, 'epoch': 0.59}
  2%|▏         | 1929/78504 [1:09:21<56:33:35,  2.66s/it]  2%|▏         | 1930/78504 [1:09:23<55:31:58,  2.61s/it]                                                         {'loss': 0.087, 'grad_norm': 0.4673721194267273, 'learning_rate': 7.363393198318686e-06, 'epoch': 0.59}
  2%|▏         | 1930/78504 [1:09:23<55:31:58,  2.61s/it]  2%|▏         | 1931/78504 [1:09:26<54:32:23,  2.56s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.5681637525558472, 'learning_rate': 7.3672143675964845e-06, 'epoch': 0.59}
  2%|▏         | 1931/78504 [1:09:26<54:32:23,  2.56s/it]  2%|▏         | 1932/78504 [1:09:28<53:00:18,  2.49s/it]                                                         {'loss': 0.1021, 'grad_norm': 0.4858405292034149, 'learning_rate': 7.371035536874283e-06, 'epoch': 0.59}
  2%|▏         | 1932/78504 [1:09:28<53:00:18,  2.49s/it]  2%|▏         | 1933/78504 [1:09:30<51:49:36,  2.44s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.7588855624198914, 'learning_rate': 7.374856706152083e-06, 'epoch': 0.59}
  2%|▏         | 1933/78504 [1:09:30<51:49:36,  2.44s/it]  2%|▏         | 1934/78504 [1:09:33<50:18:19,  2.37s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.5144547820091248, 'learning_rate': 7.378677875429882e-06, 'epoch': 0.59}
  2%|▏         | 1934/78504 [1:09:33<50:18:19,  2.37s/it]  2%|▏         | 1935/78504 [1:09:35<49:10:03,  2.31s/it]                                                         {'loss': 0.1126, 'grad_norm': 0.4558835029602051, 'learning_rate': 7.38249904470768e-06, 'epoch': 0.59}
  2%|▏         | 1935/78504 [1:09:35<49:10:03,  2.31s/it]  2%|▏         | 1936/78504 [1:09:37<46:21:36,  2.18s/it]                                                         {'loss': 0.1689, 'grad_norm': 1.0903987884521484, 'learning_rate': 7.386320213985479e-06, 'epoch': 0.59}
  2%|▏         | 1936/78504 [1:09:37<46:21:36,  2.18s/it]  2%|▏         | 1937/78504 [1:09:39<45:06:18,  2.12s/it]                                                         {'loss': 0.1315, 'grad_norm': 0.5751377940177917, 'learning_rate': 7.3901413832632795e-06, 'epoch': 0.59}
  2%|▏         | 1937/78504 [1:09:39<45:06:18,  2.12s/it]  2%|▏         | 1938/78504 [1:09:40<43:54:53,  2.06s/it]                                                         {'loss': 0.1657, 'grad_norm': 1.0316221714019775, 'learning_rate': 7.393962552541078e-06, 'epoch': 0.59}
  2%|▏         | 1938/78504 [1:09:41<43:54:53,  2.06s/it]  2%|▏         | 1939/78504 [1:09:42<42:47:44,  2.01s/it]                                                         {'loss': 0.1639, 'grad_norm': 1.7573440074920654, 'learning_rate': 7.397783721818877e-06, 'epoch': 0.59}
  2%|▏         | 1939/78504 [1:09:42<42:47:44,  2.01s/it]  2%|▏         | 1940/78504 [1:09:44<41:14:26,  1.94s/it]                                                         {'loss': 0.2168, 'grad_norm': 1.1260974407196045, 'learning_rate': 7.401604891096676e-06, 'epoch': 0.59}
  2%|▏         | 1940/78504 [1:09:44<41:14:26,  1.94s/it]  2%|▏         | 1941/78504 [1:09:46<39:30:53,  1.86s/it]                                                         {'loss': 0.2438, 'grad_norm': 0.8659827709197998, 'learning_rate': 7.405426060374475e-06, 'epoch': 0.59}
  2%|▏         | 1941/78504 [1:09:46<39:30:53,  1.86s/it]  2%|▏         | 1942/78504 [1:09:47<37:31:59,  1.76s/it]                                                         {'loss': 0.236, 'grad_norm': 1.1062947511672974, 'learning_rate': 7.409247229652274e-06, 'epoch': 0.59}
  2%|▏         | 1942/78504 [1:09:47<37:31:59,  1.76s/it]  2%|▏         | 1943/78504 [1:09:49<35:39:03,  1.68s/it]                                                         {'loss': 0.2982, 'grad_norm': 1.2706793546676636, 'learning_rate': 7.413068398930073e-06, 'epoch': 0.59}
  2%|▏         | 1943/78504 [1:09:49<35:39:03,  1.68s/it]  2%|▏         | 1944/78504 [1:09:50<33:56:08,  1.60s/it]                                                         {'loss': 0.2564, 'grad_norm': 1.1166890859603882, 'learning_rate': 7.4168895682078716e-06, 'epoch': 0.59}
  2%|▏         | 1944/78504 [1:09:50<33:56:08,  1.60s/it]  2%|▏         | 1945/78504 [1:09:52<31:58:32,  1.50s/it]                                                         {'loss': 0.2565, 'grad_norm': 1.195608377456665, 'learning_rate': 7.420710737485671e-06, 'epoch': 0.59}
  2%|▏         | 1945/78504 [1:09:52<31:58:32,  1.50s/it]  2%|▏         | 1946/78504 [1:09:53<29:43:06,  1.40s/it]                                                         {'loss': 0.3364, 'grad_norm': 1.3918237686157227, 'learning_rate': 7.42453190676347e-06, 'epoch': 0.59}
  2%|▏         | 1946/78504 [1:09:53<29:43:06,  1.40s/it]  2%|▏         | 1947/78504 [1:09:54<27:51:12,  1.31s/it]                                                         {'loss': 0.2856, 'grad_norm': 1.5003726482391357, 'learning_rate': 7.428353076041269e-06, 'epoch': 0.6}
  2%|▏         | 1947/78504 [1:09:54<27:51:12,  1.31s/it]  2%|▏         | 1948/78504 [1:09:55<26:10:30,  1.23s/it]                                                         {'loss': 0.3776, 'grad_norm': 1.7223433256149292, 'learning_rate': 7.432174245319067e-06, 'epoch': 0.6}
  2%|▏         | 1948/78504 [1:09:55<26:10:30,  1.23s/it]  2%|▏         | 1949/78504 [1:09:56<24:11:45,  1.14s/it]                                                         {'loss': 0.3658, 'grad_norm': 1.8875541687011719, 'learning_rate': 7.435995414596867e-06, 'epoch': 0.6}
  2%|▏         | 1949/78504 [1:09:56<24:11:45,  1.14s/it]  2%|▏         | 1950/78504 [1:09:57<21:55:34,  1.03s/it]                                                         {'loss': 0.5088, 'grad_norm': 3.2051913738250732, 'learning_rate': 7.439816583874666e-06, 'epoch': 0.6}
  2%|▏         | 1950/78504 [1:09:57<21:55:34,  1.03s/it]  2%|▏         | 1951/78504 [1:10:06<74:34:25,  3.51s/it]                                                         {'loss': 0.2045, 'grad_norm': 0.7080013155937195, 'learning_rate': 7.4436377531524645e-06, 'epoch': 0.6}
  2%|▏         | 1951/78504 [1:10:06<74:34:25,  3.51s/it]  2%|▏         | 1952/78504 [1:10:09<72:15:34,  3.40s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.4593445956707001, 'learning_rate': 7.447458922430263e-06, 'epoch': 0.6}
  2%|▏         | 1952/78504 [1:10:09<72:15:34,  3.40s/it]  2%|▏         | 1953/78504 [1:10:12<69:52:35,  3.29s/it]                                                         {'loss': 0.121, 'grad_norm': 0.6685171127319336, 'learning_rate': 7.451280091708063e-06, 'epoch': 0.6}
  2%|▏         | 1953/78504 [1:10:12<69:52:35,  3.29s/it]  2%|▏         | 1954/78504 [1:10:15<65:35:57,  3.09s/it]                                                         {'loss': 0.114, 'grad_norm': 0.6758092641830444, 'learning_rate': 7.4551012609858616e-06, 'epoch': 0.6}
  2%|▏         | 1954/78504 [1:10:15<65:35:57,  3.09s/it]  2%|▏         | 1955/78504 [1:10:17<61:42:51,  2.90s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.47277897596359253, 'learning_rate': 7.45892243026366e-06, 'epoch': 0.6}
  2%|▏         | 1955/78504 [1:10:17<61:42:51,  2.90s/it]  2%|▏         | 1956/78504 [1:10:19<57:40:39,  2.71s/it]                                                         {'loss': 0.1018, 'grad_norm': 0.7233219146728516, 'learning_rate': 7.462743599541459e-06, 'epoch': 0.6}
  2%|▏         | 1956/78504 [1:10:19<57:40:39,  2.71s/it]  2%|▏         | 1957/78504 [1:10:22<55:15:53,  2.60s/it]                                                         {'loss': 0.1128, 'grad_norm': 0.5520886182785034, 'learning_rate': 7.4665647688192595e-06, 'epoch': 0.6}
  2%|▏         | 1957/78504 [1:10:22<55:15:53,  2.60s/it]  2%|▏         | 1958/78504 [1:10:24<52:05:33,  2.45s/it]                                                         {'loss': 0.1194, 'grad_norm': 0.9269227981567383, 'learning_rate': 7.470385938097058e-06, 'epoch': 0.6}
  2%|▏         | 1958/78504 [1:10:24<52:05:33,  2.45s/it]  2%|▏         | 1959/78504 [1:10:26<49:29:06,  2.33s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.6073543429374695, 'learning_rate': 7.474207107374857e-06, 'epoch': 0.6}
  2%|▏         | 1959/78504 [1:10:26<49:29:06,  2.33s/it]  2%|▏         | 1960/78504 [1:10:28<48:20:19,  2.27s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.6807029247283936, 'learning_rate': 7.4780282766526566e-06, 'epoch': 0.6}
  2%|▏         | 1960/78504 [1:10:28<48:20:19,  2.27s/it]  2%|▏         | 1961/78504 [1:10:30<46:35:21,  2.19s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.5982428789138794, 'learning_rate': 7.481849445930455e-06, 'epoch': 0.6}
  2%|▏         | 1961/78504 [1:10:30<46:35:21,  2.19s/it]  2%|▏         | 1962/78504 [1:10:32<44:12:29,  2.08s/it]                                                         {'loss': 0.133, 'grad_norm': 0.6457120776176453, 'learning_rate': 7.485670615208254e-06, 'epoch': 0.6}
  2%|▏         | 1962/78504 [1:10:32<44:12:29,  2.08s/it]  3%|▎         | 1963/78504 [1:10:34<42:52:42,  2.02s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.7989453077316284, 'learning_rate': 7.489491784486053e-06, 'epoch': 0.6}
  3%|▎         | 1963/78504 [1:10:34<42:52:42,  2.02s/it]  3%|▎         | 1964/78504 [1:10:36<41:46:40,  1.96s/it]                                                         {'loss': 0.2336, 'grad_norm': 0.7645642757415771, 'learning_rate': 7.493312953763852e-06, 'epoch': 0.6}
  3%|▎         | 1964/78504 [1:10:36<41:46:40,  1.96s/it]  3%|▎         | 1965/78504 [1:10:37<39:57:10,  1.88s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.807452380657196, 'learning_rate': 7.497134123041651e-06, 'epoch': 0.6}
  3%|▎         | 1965/78504 [1:10:37<39:57:10,  1.88s/it]  3%|▎         | 1966/78504 [1:10:39<38:32:59,  1.81s/it]                                                         {'loss': 0.2204, 'grad_norm': 0.7843896150588989, 'learning_rate': 7.500955292319451e-06, 'epoch': 0.6}
  3%|▎         | 1966/78504 [1:10:39<38:32:59,  1.81s/it]  3%|▎         | 1967/78504 [1:10:40<36:46:21,  1.73s/it]                                                         {'loss': 0.2777, 'grad_norm': 1.6914281845092773, 'learning_rate': 7.5047764615972495e-06, 'epoch': 0.6}
  3%|▎         | 1967/78504 [1:10:40<36:46:21,  1.73s/it]  3%|▎         | 1968/78504 [1:10:42<34:46:10,  1.64s/it]                                                         {'loss': 0.2443, 'grad_norm': 2.399582862854004, 'learning_rate': 7.508597630875049e-06, 'epoch': 0.6}
  3%|▎         | 1968/78504 [1:10:42<34:46:10,  1.64s/it]  3%|▎         | 1969/78504 [1:10:43<33:31:51,  1.58s/it]                                                         {'loss': 0.2426, 'grad_norm': 1.7999681234359741, 'learning_rate': 7.512418800152848e-06, 'epoch': 0.6}
  3%|▎         | 1969/78504 [1:10:43<33:31:51,  1.58s/it]  3%|▎         | 1970/78504 [1:10:44<31:22:04,  1.48s/it]                                                         {'loss': 0.306, 'grad_norm': 1.30343496799469, 'learning_rate': 7.5162399694306465e-06, 'epoch': 0.6}
  3%|▎         | 1970/78504 [1:10:44<31:22:04,  1.48s/it]  3%|▎         | 1971/78504 [1:10:46<29:16:37,  1.38s/it]                                                         {'loss': 0.3187, 'grad_norm': 1.2521511316299438, 'learning_rate': 7.520061138708445e-06, 'epoch': 0.6}
  3%|▎         | 1971/78504 [1:10:46<29:16:37,  1.38s/it]  3%|▎         | 1972/78504 [1:10:47<27:35:41,  1.30s/it]                                                         {'loss': 0.3291, 'grad_norm': 1.4214974641799927, 'learning_rate': 7.523882307986245e-06, 'epoch': 0.6}
  3%|▎         | 1972/78504 [1:10:47<27:35:41,  1.30s/it]  3%|▎         | 1973/78504 [1:10:48<25:43:05,  1.21s/it]                                                         {'loss': 0.3514, 'grad_norm': 1.6459029912948608, 'learning_rate': 7.527703477264044e-06, 'epoch': 0.6}
  3%|▎         | 1973/78504 [1:10:48<25:43:05,  1.21s/it]  3%|▎         | 1974/78504 [1:10:49<23:58:13,  1.13s/it]                                                         {'loss': 0.3365, 'grad_norm': 1.73680579662323, 'learning_rate': 7.531524646541842e-06, 'epoch': 0.6}
  3%|▎         | 1974/78504 [1:10:49<23:58:13,  1.13s/it]  3%|▎         | 1975/78504 [1:10:49<21:50:27,  1.03s/it]                                                         {'loss': 0.4793, 'grad_norm': 2.2698380947113037, 'learning_rate': 7.535345815819641e-06, 'epoch': 0.6}
  3%|▎         | 1975/78504 [1:10:50<21:50:27,  1.03s/it]  3%|▎         | 1976/78504 [1:11:00<83:01:27,  3.91s/it]                                                         {'loss': 0.203, 'grad_norm': 1.160672903060913, 'learning_rate': 7.539166985097441e-06, 'epoch': 0.6}
  3%|▎         | 1976/78504 [1:11:00<83:01:27,  3.91s/it]  3%|▎         | 1977/78504 [1:11:03<78:04:21,  3.67s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.45741963386535645, 'learning_rate': 7.5429881543752395e-06, 'epoch': 0.6}
  3%|▎         | 1977/78504 [1:11:03<78:04:21,  3.67s/it]  3%|▎         | 1978/78504 [1:11:06<73:44:39,  3.47s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.544162392616272, 'learning_rate': 7.546809323653038e-06, 'epoch': 0.6}
  3%|▎         | 1978/78504 [1:11:06<73:44:39,  3.47s/it]  3%|▎         | 1979/78504 [1:11:09<68:09:06,  3.21s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.681744396686554, 'learning_rate': 7.550630492930837e-06, 'epoch': 0.61}
  3%|▎         | 1979/78504 [1:11:09<68:09:06,  3.21s/it]  3%|▎         | 1980/78504 [1:11:11<63:38:16,  2.99s/it]                                                         {'loss': 0.1021, 'grad_norm': 0.4992324411869049, 'learning_rate': 7.5544516622086365e-06, 'epoch': 0.61}
  3%|▎         | 1980/78504 [1:11:11<63:38:16,  2.99s/it]  3%|▎         | 1981/78504 [1:11:14<58:59:56,  2.78s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.4904412031173706, 'learning_rate': 7.558272831486435e-06, 'epoch': 0.61}
  3%|▎         | 1981/78504 [1:11:14<58:59:56,  2.78s/it]  3%|▎         | 1982/78504 [1:11:16<56:11:55,  2.64s/it]                                                         {'loss': 0.1193, 'grad_norm': 0.581933856010437, 'learning_rate': 7.562094000764234e-06, 'epoch': 0.61}
  3%|▎         | 1982/78504 [1:11:16<56:11:55,  2.64s/it]  3%|▎         | 1983/78504 [1:11:18<52:44:22,  2.48s/it]                                                         {'loss': 0.1275, 'grad_norm': 0.43909770250320435, 'learning_rate': 7.565915170042033e-06, 'epoch': 0.61}
  3%|▎         | 1983/78504 [1:11:18<52:44:22,  2.48s/it]  3%|▎         | 1984/78504 [1:11:20<49:56:25,  2.35s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.5250309109687805, 'learning_rate': 7.569736339319832e-06, 'epoch': 0.61}
  3%|▎         | 1984/78504 [1:11:20<49:56:25,  2.35s/it]  3%|▎         | 1985/78504 [1:11:22<48:40:52,  2.29s/it]                                                         {'loss': 0.109, 'grad_norm': 0.48730164766311646, 'learning_rate': 7.573557508597631e-06, 'epoch': 0.61}
  3%|▎         | 1985/78504 [1:11:22<48:40:52,  2.29s/it]  3%|▎         | 1986/78504 [1:11:24<46:47:01,  2.20s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.646440327167511, 'learning_rate': 7.57737867787543e-06, 'epoch': 0.61}
  3%|▎         | 1986/78504 [1:11:24<46:47:01,  2.20s/it]  3%|▎         | 1987/78504 [1:11:26<44:21:26,  2.09s/it]                                                         {'loss': 0.187, 'grad_norm': 0.6552844643592834, 'learning_rate': 7.581199847153229e-06, 'epoch': 0.61}
  3%|▎         | 1987/78504 [1:11:26<44:21:26,  2.09s/it]  3%|▎         | 1988/78504 [1:11:28<42:57:49,  2.02s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.8944993615150452, 'learning_rate': 7.585021016431028e-06, 'epoch': 0.61}
  3%|▎         | 1988/78504 [1:11:28<42:57:49,  2.02s/it]  3%|▎         | 1989/78504 [1:11:30<41:08:51,  1.94s/it]                                                         {'loss': 0.1867, 'grad_norm': 1.3205132484436035, 'learning_rate': 7.588842185708827e-06, 'epoch': 0.61}
  3%|▎         | 1989/78504 [1:11:30<41:08:51,  1.94s/it]  3%|▎         | 1990/78504 [1:11:31<40:05:49,  1.89s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.8520851135253906, 'learning_rate': 7.592663354986626e-06, 'epoch': 0.61}
  3%|▎         | 1990/78504 [1:11:31<40:05:49,  1.89s/it]  3%|▎         | 1991/78504 [1:11:33<38:34:03,  1.81s/it]                                                         {'loss': 0.2362, 'grad_norm': 0.7794179916381836, 'learning_rate': 7.596484524264425e-06, 'epoch': 0.61}
  3%|▎         | 1991/78504 [1:11:33<38:34:03,  1.81s/it]  3%|▎         | 1992/78504 [1:11:35<36:41:20,  1.73s/it]                                                         {'loss': 0.2607, 'grad_norm': 1.0107321739196777, 'learning_rate': 7.600305693542224e-06, 'epoch': 0.61}
  3%|▎         | 1992/78504 [1:11:35<36:41:20,  1.73s/it]  3%|▎         | 1993/78504 [1:11:36<35:10:45,  1.66s/it]                                                         {'loss': 0.2569, 'grad_norm': 0.7697958946228027, 'learning_rate': 7.604126862820023e-06, 'epoch': 0.61}
  3%|▎         | 1993/78504 [1:11:36<35:10:45,  1.66s/it]  3%|▎         | 1994/78504 [1:11:37<33:45:43,  1.59s/it]                                                         {'loss': 0.2955, 'grad_norm': 0.9239106178283691, 'learning_rate': 7.6079480320978215e-06, 'epoch': 0.61}
  3%|▎         | 1994/78504 [1:11:38<33:45:43,  1.59s/it]  3%|▎         | 1995/78504 [1:11:39<31:27:55,  1.48s/it]                                                         {'loss': 0.2667, 'grad_norm': 2.1650359630584717, 'learning_rate': 7.611769201375621e-06, 'epoch': 0.61}
  3%|▎         | 1995/78504 [1:11:39<31:27:55,  1.48s/it]  3%|▎         | 1996/78504 [1:11:40<29:33:00,  1.39s/it]                                                         {'loss': 0.3121, 'grad_norm': 2.0550553798675537, 'learning_rate': 7.61559037065342e-06, 'epoch': 0.61}
  3%|▎         | 1996/78504 [1:11:40<29:33:00,  1.39s/it]  3%|▎         | 1997/78504 [1:11:41<27:44:19,  1.31s/it]                                                         {'loss': 0.3325, 'grad_norm': 1.3943654298782349, 'learning_rate': 7.619411539931219e-06, 'epoch': 0.61}
  3%|▎         | 1997/78504 [1:11:41<27:44:19,  1.31s/it]  3%|▎         | 1998/78504 [1:11:42<25:43:58,  1.21s/it]                                                         {'loss': 0.3516, 'grad_norm': 1.320082664489746, 'learning_rate': 7.623232709209017e-06, 'epoch': 0.61}
  3%|▎         | 1998/78504 [1:11:42<25:43:58,  1.21s/it]  3%|▎         | 1999/78504 [1:11:43<24:13:34,  1.14s/it]                                                         {'loss': 0.35, 'grad_norm': 3.998629570007324, 'learning_rate': 7.627053878486817e-06, 'epoch': 0.61}
  3%|▎         | 1999/78504 [1:11:43<24:13:34,  1.14s/it]  3%|▎         | 2000/78504 [1:11:44<22:00:46,  1.04s/it]                                                         {'loss': 0.5207, 'grad_norm': 2.585301399230957, 'learning_rate': 7.630875047764615e-06, 'epoch': 0.61}
  3%|▎         | 2000/78504 [1:11:44<22:00:46,  1.04s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.90it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.74it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.90it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.20it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.64it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.51it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.71it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.07it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.43it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.89it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.30it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.20it/s][A                                                         
                                               [A{'eval_loss': 0.3285868167877197, 'eval_wer': 0.37571576212954944, 'eval_cer': 0.20164097192672362, 'eval_runtime': 19.2728, 'eval_samples_per_second': 235.461, 'eval_steps_per_second': 0.778, 'epoch': 0.61}
  3%|▎         | 2000/78504 [1:12:52<22:00:46,  1.04s/it]
100%|██████████| 15/15 [00:11<00:00,  1.20it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-2000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
  3%|▎         | 2001/78504 [1:13:13<587:18:57, 27.64s/it]                                                          {'loss': 0.194, 'grad_norm': 0.5187902450561523, 'learning_rate': 7.634696217042415e-06, 'epoch': 0.61}
  3%|▎         | 2001/78504 [1:13:13<587:18:57, 27.64s/it]  3%|▎         | 2002/78504 [1:13:16<429:34:17, 20.21s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.6038624048233032, 'learning_rate': 7.638517386320214e-06, 'epoch': 0.61}
  3%|▎         | 2002/78504 [1:13:16<429:34:17, 20.21s/it]  3%|▎         | 2003/78504 [1:13:19<319:21:23, 15.03s/it]                                                          {'loss': 0.126, 'grad_norm': 0.430724173784256, 'learning_rate': 7.642338555598013e-06, 'epoch': 0.61}
  3%|▎         | 2003/78504 [1:13:19<319:21:23, 15.03s/it]  3%|▎         | 2004/78504 [1:13:22<239:56:11, 11.29s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.45426061749458313, 'learning_rate': 7.646159724875811e-06, 'epoch': 0.61}
  3%|▎         | 2004/78504 [1:13:22<239:56:11, 11.29s/it]  3%|▎         | 2005/78504 [1:13:24<183:52:27,  8.65s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.4350703954696655, 'learning_rate': 7.649980894153612e-06, 'epoch': 0.61}
  3%|▎         | 2005/78504 [1:13:24<183:52:27,  8.65s/it]  3%|▎         | 2006/78504 [1:13:27<144:14:48,  6.79s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.37412363290786743, 'learning_rate': 7.65380206343141e-06, 'epoch': 0.61}
  3%|▎         | 2006/78504 [1:13:27<144:14:48,  6.79s/it]  3%|▎         | 2007/78504 [1:13:29<115:45:31,  5.45s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.44846847653388977, 'learning_rate': 7.65762323270921e-06, 'epoch': 0.61}
  3%|▎         | 2007/78504 [1:13:29<115:45:31,  5.45s/it]  3%|▎         | 2008/78504 [1:13:31<94:35:28,  4.45s/it]                                                          {'loss': 0.1188, 'grad_norm': 0.6391977071762085, 'learning_rate': 7.661444401987008e-06, 'epoch': 0.61}
  3%|▎         | 2008/78504 [1:13:31<94:35:28,  4.45s/it]  3%|▎         | 2009/78504 [1:13:33<80:09:44,  3.77s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.47337374091148376, 'learning_rate': 7.665265571264809e-06, 'epoch': 0.61}
  3%|▎         | 2009/78504 [1:13:33<80:09:44,  3.77s/it]  3%|▎         | 2010/78504 [1:13:36<69:54:23,  3.29s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.5771970748901367, 'learning_rate': 7.669086740542607e-06, 'epoch': 0.61}
  3%|▎         | 2010/78504 [1:13:36<69:54:23,  3.29s/it]  3%|▎         | 2011/78504 [1:13:37<60:43:52,  2.86s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.540390133857727, 'learning_rate': 7.672907909820406e-06, 'epoch': 0.61}
  3%|▎         | 2011/78504 [1:13:37<60:43:52,  2.86s/it]  3%|▎         | 2012/78504 [1:13:39<55:08:06,  2.59s/it]                                                         {'loss': 0.15, 'grad_norm': 0.7346463799476624, 'learning_rate': 7.676729079098205e-06, 'epoch': 0.62}
  3%|▎         | 2012/78504 [1:13:39<55:08:06,  2.59s/it]  3%|▎         | 2013/78504 [1:13:41<50:53:10,  2.39s/it]                                                         {'loss': 0.1422, 'grad_norm': 1.2267534732818604, 'learning_rate': 7.680550248376004e-06, 'epoch': 0.62}
  3%|▎         | 2013/78504 [1:13:41<50:53:10,  2.39s/it]  3%|▎         | 2014/78504 [1:13:43<47:26:14,  2.23s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.7928211092948914, 'learning_rate': 7.684371417653802e-06, 'epoch': 0.62}
  3%|▎         | 2014/78504 [1:13:43<47:26:14,  2.23s/it]  3%|▎         | 2015/78504 [1:13:45<44:31:39,  2.10s/it]                                                         {'loss': 0.244, 'grad_norm': 0.8881862163543701, 'learning_rate': 7.688192586931601e-06, 'epoch': 0.62}
  3%|▎         | 2015/78504 [1:13:45<44:31:39,  2.10s/it]  3%|▎         | 2016/78504 [1:13:47<41:12:46,  1.94s/it]                                                         {'loss': 0.2139, 'grad_norm': 1.2150815725326538, 'learning_rate': 7.6920137562094e-06, 'epoch': 0.62}
  3%|▎         | 2016/78504 [1:13:47<41:12:46,  1.94s/it]  3%|▎         | 2017/78504 [1:13:48<38:43:36,  1.82s/it]                                                         {'loss': 0.2747, 'grad_norm': 0.8944963216781616, 'learning_rate': 7.6958349254872e-06, 'epoch': 0.62}
  3%|▎         | 2017/78504 [1:13:48<38:43:36,  1.82s/it]  3%|▎         | 2018/78504 [1:13:50<36:26:47,  1.72s/it]                                                         {'loss': 0.2959, 'grad_norm': 1.2540019750595093, 'learning_rate': 7.699656094764999e-06, 'epoch': 0.62}
  3%|▎         | 2018/78504 [1:13:50<36:26:47,  1.72s/it]  3%|▎         | 2019/78504 [1:13:51<34:33:52,  1.63s/it]                                                         {'loss': 0.2871, 'grad_norm': 1.0746394395828247, 'learning_rate': 7.703477264042798e-06, 'epoch': 0.62}
  3%|▎         | 2019/78504 [1:13:51<34:33:52,  1.63s/it]  3%|▎         | 2020/78504 [1:13:52<32:20:53,  1.52s/it]                                                         {'loss': 0.318, 'grad_norm': 1.1277234554290771, 'learning_rate': 7.707298433320596e-06, 'epoch': 0.62}
  3%|▎         | 2020/78504 [1:13:52<32:20:53,  1.52s/it]  3%|▎         | 2021/78504 [1:13:53<29:59:13,  1.41s/it]                                                         {'loss': 0.2858, 'grad_norm': 1.2350902557373047, 'learning_rate': 7.711119602598395e-06, 'epoch': 0.62}
  3%|▎         | 2021/78504 [1:13:53<29:59:13,  1.41s/it]  3%|▎         | 2022/78504 [1:13:55<27:55:42,  1.31s/it]                                                         {'loss': 0.2861, 'grad_norm': 1.9677119255065918, 'learning_rate': 7.714940771876194e-06, 'epoch': 0.62}
  3%|▎         | 2022/78504 [1:13:55<27:55:42,  1.31s/it]  3%|▎         | 2023/78504 [1:13:56<25:52:28,  1.22s/it]                                                         {'loss': 0.3575, 'grad_norm': 2.8836381435394287, 'learning_rate': 7.718761941153993e-06, 'epoch': 0.62}
  3%|▎         | 2023/78504 [1:13:56<25:52:28,  1.22s/it]  3%|▎         | 2024/78504 [1:13:56<24:03:03,  1.13s/it]                                                         {'loss': 0.4289, 'grad_norm': 1.7863613367080688, 'learning_rate': 7.722583110431793e-06, 'epoch': 0.62}
  3%|▎         | 2024/78504 [1:13:56<24:03:03,  1.13s/it]  3%|▎         | 2025/78504 [1:13:57<21:42:39,  1.02s/it]                                                         {'loss': 0.5282, 'grad_norm': 3.1880104541778564, 'learning_rate': 7.726404279709592e-06, 'epoch': 0.62}
  3%|▎         | 2025/78504 [1:13:57<21:42:39,  1.02s/it]  3%|▎         | 2026/78504 [1:14:06<68:47:41,  3.24s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.6489416360855103, 'learning_rate': 7.73022544898739e-06, 'epoch': 0.62}
  3%|▎         | 2026/78504 [1:14:06<68:47:41,  3.24s/it]  3%|▎         | 2027/78504 [1:14:09<67:34:56,  3.18s/it]                                                         {'loss': 0.1617, 'grad_norm': 0.4780120253562927, 'learning_rate': 7.73404661826519e-06, 'epoch': 0.62}
  3%|▎         | 2027/78504 [1:14:09<67:34:56,  3.18s/it]  3%|▎         | 2028/78504 [1:14:12<66:29:23,  3.13s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.7685484886169434, 'learning_rate': 7.737867787542988e-06, 'epoch': 0.62}
  3%|▎         | 2028/78504 [1:14:12<66:29:23,  3.13s/it]  3%|▎         | 2029/78504 [1:14:14<63:16:07,  2.98s/it]                                                         {'loss': 0.1166, 'grad_norm': 0.6536751985549927, 'learning_rate': 7.741688956820787e-06, 'epoch': 0.62}
  3%|▎         | 2029/78504 [1:14:14<63:16:07,  2.98s/it]  3%|▎         | 2030/78504 [1:14:17<59:59:49,  2.82s/it]                                                         {'loss': 0.104, 'grad_norm': 0.5400654673576355, 'learning_rate': 7.745510126098586e-06, 'epoch': 0.62}
  3%|▎         | 2030/78504 [1:14:17<59:59:49,  2.82s/it]  3%|▎         | 2031/78504 [1:14:19<56:26:48,  2.66s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.7401245832443237, 'learning_rate': 7.749331295376384e-06, 'epoch': 0.62}
  3%|▎         | 2031/78504 [1:14:19<56:26:48,  2.66s/it]  3%|▎         | 2032/78504 [1:14:21<54:17:48,  2.56s/it]                                                         {'loss': 0.1103, 'grad_norm': 0.5311408638954163, 'learning_rate': 7.753152464654185e-06, 'epoch': 0.62}
  3%|▎         | 2032/78504 [1:14:21<54:17:48,  2.56s/it]  3%|▎         | 2033/78504 [1:14:23<51:22:25,  2.42s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.4083317220211029, 'learning_rate': 7.756973633931984e-06, 'epoch': 0.62}
  3%|▎         | 2033/78504 [1:14:23<51:22:25,  2.42s/it]  3%|▎         | 2034/78504 [1:14:26<49:53:15,  2.35s/it]                                                         {'loss': 0.1357, 'grad_norm': 0.5604150891304016, 'learning_rate': 7.760794803209782e-06, 'epoch': 0.62}
  3%|▎         | 2034/78504 [1:14:26<49:53:15,  2.35s/it]  3%|▎         | 2035/78504 [1:14:28<48:33:19,  2.29s/it]                                                         {'loss': 0.1137, 'grad_norm': 1.2679128646850586, 'learning_rate': 7.764615972487581e-06, 'epoch': 0.62}
  3%|▎         | 2035/78504 [1:14:28<48:33:19,  2.29s/it]  3%|▎         | 2036/78504 [1:14:30<46:45:32,  2.20s/it]                                                         {'loss': 0.1328, 'grad_norm': 0.4440188705921173, 'learning_rate': 7.76843714176538e-06, 'epoch': 0.62}
  3%|▎         | 2036/78504 [1:14:30<46:45:32,  2.20s/it]  3%|▎         | 2037/78504 [1:14:32<45:23:06,  2.14s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.7043231129646301, 'learning_rate': 7.772258311043179e-06, 'epoch': 0.62}
  3%|▎         | 2037/78504 [1:14:32<45:23:06,  2.14s/it]  3%|▎         | 2038/78504 [1:14:34<43:40:23,  2.06s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.9576815366744995, 'learning_rate': 7.776079480320977e-06, 'epoch': 0.62}
  3%|▎         | 2038/78504 [1:14:34<43:40:23,  2.06s/it]  3%|▎         | 2039/78504 [1:14:35<41:34:39,  1.96s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.5889386534690857, 'learning_rate': 7.779900649598776e-06, 'epoch': 0.62}
  3%|▎         | 2039/78504 [1:14:35<41:34:39,  1.96s/it]  3%|▎         | 2040/78504 [1:14:37<39:40:03,  1.87s/it]                                                         {'loss': 0.2192, 'grad_norm': 1.869053840637207, 'learning_rate': 7.783721818876576e-06, 'epoch': 0.62}
  3%|▎         | 2040/78504 [1:14:37<39:40:03,  1.87s/it]  3%|▎         | 2041/78504 [1:14:39<38:12:07,  1.80s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.845515787601471, 'learning_rate': 7.787542988154375e-06, 'epoch': 0.62}
  3%|▎         | 2041/78504 [1:14:39<38:12:07,  1.80s/it]  3%|▎         | 2042/78504 [1:14:40<36:25:31,  1.71s/it]                                                         {'loss': 0.2535, 'grad_norm': 5.7928338050842285, 'learning_rate': 7.791364157432174e-06, 'epoch': 0.62}
  3%|▎         | 2042/78504 [1:14:40<36:25:31,  1.71s/it]  3%|▎         | 2043/78504 [1:14:42<34:55:12,  1.64s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.8845643997192383, 'learning_rate': 7.795185326709973e-06, 'epoch': 0.62}
  3%|▎         | 2043/78504 [1:14:42<34:55:12,  1.64s/it]  3%|▎         | 2044/78504 [1:14:43<33:28:45,  1.58s/it]                                                         {'loss': 0.2769, 'grad_norm': 1.0290377140045166, 'learning_rate': 7.799006495987773e-06, 'epoch': 0.62}
  3%|▎         | 2044/78504 [1:14:43<33:28:45,  1.58s/it]  3%|▎         | 2045/78504 [1:14:44<31:35:11,  1.49s/it]                                                         {'loss': 0.3156, 'grad_norm': 1.3524507284164429, 'learning_rate': 7.802827665265572e-06, 'epoch': 0.63}
  3%|▎         | 2045/78504 [1:14:44<31:35:11,  1.49s/it]  3%|▎         | 2046/78504 [1:14:45<29:27:08,  1.39s/it]                                                         {'loss': 0.2782, 'grad_norm': 1.0882244110107422, 'learning_rate': 7.80664883454337e-06, 'epoch': 0.63}
  3%|▎         | 2046/78504 [1:14:46<29:27:08,  1.39s/it]  3%|▎         | 2047/78504 [1:14:47<27:38:20,  1.30s/it]                                                         {'loss': 0.3211, 'grad_norm': 1.3886784315109253, 'learning_rate': 7.81047000382117e-06, 'epoch': 0.63}
  3%|▎         | 2047/78504 [1:14:47<27:38:20,  1.30s/it]  3%|▎         | 2048/78504 [1:14:48<25:40:24,  1.21s/it]                                                         {'loss': 0.3185, 'grad_norm': 1.6012904644012451, 'learning_rate': 7.81429117309897e-06, 'epoch': 0.63}
  3%|▎         | 2048/78504 [1:14:48<25:40:24,  1.21s/it]  3%|▎         | 2049/78504 [1:14:49<23:53:32,  1.13s/it]                                                         {'loss': 0.3439, 'grad_norm': 1.5593615770339966, 'learning_rate': 7.818112342376769e-06, 'epoch': 0.63}
  3%|▎         | 2049/78504 [1:14:49<23:53:32,  1.13s/it]  3%|▎         | 2050/78504 [1:14:49<21:41:01,  1.02s/it]                                                         {'loss': 0.4586, 'grad_norm': 2.3732826709747314, 'learning_rate': 7.821933511654567e-06, 'epoch': 0.63}
  3%|▎         | 2050/78504 [1:14:49<21:41:01,  1.02s/it]  3%|▎         | 2051/78504 [1:14:56<55:03:56,  2.59s/it]                                                         {'loss': 0.1938, 'grad_norm': 0.8152393698692322, 'learning_rate': 7.825754680932366e-06, 'epoch': 0.63}
  3%|▎         | 2051/78504 [1:14:56<55:03:56,  2.59s/it]  3%|▎         | 2052/78504 [1:14:59<59:34:39,  2.81s/it]                                                         {'loss': 0.125, 'grad_norm': 0.4624381363391876, 'learning_rate': 7.829575850210165e-06, 'epoch': 0.63}
  3%|▎         | 2052/78504 [1:14:59<59:34:39,  2.81s/it]  3%|▎         | 2053/78504 [1:15:02<60:42:35,  2.86s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.5955327153205872, 'learning_rate': 7.833397019487964e-06, 'epoch': 0.63}
  3%|▎         | 2053/78504 [1:15:02<60:42:35,  2.86s/it]  3%|▎         | 2054/78504 [1:15:04<59:11:21,  2.79s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.47326764464378357, 'learning_rate': 7.837218188765762e-06, 'epoch': 0.63}
  3%|▎         | 2054/78504 [1:15:04<59:11:21,  2.79s/it]  3%|▎         | 2055/78504 [1:15:07<57:10:47,  2.69s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.6850059032440186, 'learning_rate': 7.841039358043563e-06, 'epoch': 0.63}
  3%|▎         | 2055/78504 [1:15:07<57:10:47,  2.69s/it]  3%|▎         | 2056/78504 [1:15:09<54:28:25,  2.57s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.4454417824745178, 'learning_rate': 7.844860527321361e-06, 'epoch': 0.63}
  3%|▎         | 2056/78504 [1:15:09<54:28:25,  2.57s/it]  3%|▎         | 2057/78504 [1:15:12<52:55:08,  2.49s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.7535659074783325, 'learning_rate': 7.84868169659916e-06, 'epoch': 0.63}
  3%|▎         | 2057/78504 [1:15:12<52:55:08,  2.49s/it]  3%|▎         | 2058/78504 [1:15:14<50:32:38,  2.38s/it]                                                         {'loss': 0.164, 'grad_norm': 0.6505241394042969, 'learning_rate': 7.852502865876959e-06, 'epoch': 0.63}
  3%|▎         | 2058/78504 [1:15:14<50:32:38,  2.38s/it]  3%|▎         | 2059/78504 [1:15:16<49:21:09,  2.32s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.5871323943138123, 'learning_rate': 7.856324035154758e-06, 'epoch': 0.63}
  3%|▎         | 2059/78504 [1:15:16<49:21:09,  2.32s/it]  3%|▎         | 2060/78504 [1:15:18<48:19:38,  2.28s/it]                                                         {'loss': 0.1155, 'grad_norm': 0.575226366519928, 'learning_rate': 7.860145204432556e-06, 'epoch': 0.63}
  3%|▎         | 2060/78504 [1:15:18<48:19:38,  2.28s/it]  3%|▎         | 2061/78504 [1:15:20<45:47:19,  2.16s/it]                                                         {'loss': 0.1084, 'grad_norm': 0.9004877805709839, 'learning_rate': 7.863966373710355e-06, 'epoch': 0.63}
  3%|▎         | 2061/78504 [1:15:20<45:47:19,  2.16s/it]  3%|▎         | 2062/78504 [1:15:22<44:40:45,  2.10s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.9147818684577942, 'learning_rate': 7.867787542988154e-06, 'epoch': 0.63}
  3%|▎         | 2062/78504 [1:15:22<44:40:45,  2.10s/it]  3%|▎         | 2063/78504 [1:15:24<43:29:49,  2.05s/it]                                                         {'loss': 0.2254, 'grad_norm': 1.1063188314437866, 'learning_rate': 7.871608712265954e-06, 'epoch': 0.63}
  3%|▎         | 2063/78504 [1:15:24<43:29:49,  2.05s/it]  3%|▎         | 2064/78504 [1:15:26<42:24:38,  2.00s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.6520466208457947, 'learning_rate': 7.875429881543753e-06, 'epoch': 0.63}
  3%|▎         | 2064/78504 [1:15:26<42:24:38,  2.00s/it]  3%|▎         | 2065/78504 [1:15:27<41:21:04,  1.95s/it]                                                         {'loss': 0.2396, 'grad_norm': 0.7221137881278992, 'learning_rate': 7.879251050821552e-06, 'epoch': 0.63}
  3%|▎         | 2065/78504 [1:15:28<41:21:04,  1.95s/it]  3%|▎         | 2066/78504 [1:15:29<40:02:15,  1.89s/it]                                                         {'loss': 0.2054, 'grad_norm': 0.8394717574119568, 'learning_rate': 7.88307222009935e-06, 'epoch': 0.63}
  3%|▎         | 2066/78504 [1:15:29<40:02:15,  1.89s/it]  3%|▎         | 2067/78504 [1:15:31<37:26:45,  1.76s/it]                                                         {'loss': 0.2989, 'grad_norm': 1.6745811700820923, 'learning_rate': 7.88689338937715e-06, 'epoch': 0.63}
  3%|▎         | 2067/78504 [1:15:31<37:26:45,  1.76s/it]  3%|▎         | 2068/78504 [1:15:32<35:50:44,  1.69s/it]                                                         {'loss': 0.2787, 'grad_norm': 1.0665745735168457, 'learning_rate': 7.890714558654948e-06, 'epoch': 0.63}
  3%|▎         | 2068/78504 [1:15:32<35:50:44,  1.69s/it]  3%|▎         | 2069/78504 [1:15:34<34:05:18,  1.61s/it]                                                         {'loss': 0.2962, 'grad_norm': 1.9412670135498047, 'learning_rate': 7.894535727932747e-06, 'epoch': 0.63}
  3%|▎         | 2069/78504 [1:15:34<34:05:18,  1.61s/it]  3%|▎         | 2070/78504 [1:15:35<32:03:58,  1.51s/it]                                                         {'loss': 0.3329, 'grad_norm': 1.23017156124115, 'learning_rate': 7.898356897210546e-06, 'epoch': 0.63}
  3%|▎         | 2070/78504 [1:15:35<32:03:58,  1.51s/it]  3%|▎         | 2071/78504 [1:15:36<30:09:36,  1.42s/it]                                                         {'loss': 0.3038, 'grad_norm': 1.7694157361984253, 'learning_rate': 7.902178066488346e-06, 'epoch': 0.63}
  3%|▎         | 2071/78504 [1:15:36<30:09:36,  1.42s/it]  3%|▎         | 2072/78504 [1:15:37<28:06:54,  1.32s/it]                                                         {'loss': 0.2973, 'grad_norm': 1.2622723579406738, 'learning_rate': 7.905999235766145e-06, 'epoch': 0.63}
  3%|▎         | 2072/78504 [1:15:37<28:06:54,  1.32s/it]  3%|▎         | 2073/78504 [1:15:38<26:21:41,  1.24s/it]                                                         {'loss': 0.4583, 'grad_norm': 2.9322917461395264, 'learning_rate': 7.909820405043944e-06, 'epoch': 0.63}
  3%|▎         | 2073/78504 [1:15:38<26:21:41,  1.24s/it]  3%|▎         | 2074/78504 [1:15:39<24:23:53,  1.15s/it]                                                         {'loss': 0.384, 'grad_norm': 3.0593667030334473, 'learning_rate': 7.913641574321742e-06, 'epoch': 0.63}
  3%|▎         | 2074/78504 [1:15:39<24:23:53,  1.15s/it]  3%|▎         | 2075/78504 [1:15:40<22:13:55,  1.05s/it]                                                         {'loss': 0.4604, 'grad_norm': 4.861026763916016, 'learning_rate': 7.917462743599541e-06, 'epoch': 0.63}
  3%|▎         | 2075/78504 [1:15:40<22:13:55,  1.05s/it]  3%|▎         | 2076/78504 [1:15:49<74:26:54,  3.51s/it]                                                         {'loss': 0.2289, 'grad_norm': 1.4252387285232544, 'learning_rate': 7.92128391287734e-06, 'epoch': 0.63}
  3%|▎         | 2076/78504 [1:15:49<74:26:54,  3.51s/it]  3%|▎         | 2077/78504 [1:15:52<72:00:30,  3.39s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.7187891006469727, 'learning_rate': 7.925105082155138e-06, 'epoch': 0.63}
  3%|▎         | 2077/78504 [1:15:52<72:00:30,  3.39s/it]  3%|▎         | 2078/78504 [1:15:55<69:37:37,  3.28s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.5627343654632568, 'learning_rate': 7.928926251432937e-06, 'epoch': 0.64}
  3%|▎         | 2078/78504 [1:15:55<69:37:37,  3.28s/it]  3%|▎         | 2079/78504 [1:15:58<65:26:19,  3.08s/it]                                                         {'loss': 0.1481, 'grad_norm': 0.5516590476036072, 'learning_rate': 7.932747420710738e-06, 'epoch': 0.64}
  3%|▎         | 2079/78504 [1:15:58<65:26:19,  3.08s/it]  3%|▎         | 2080/78504 [1:16:01<61:34:38,  2.90s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.5831177830696106, 'learning_rate': 7.936568589988536e-06, 'epoch': 0.64}
  3%|▎         | 2080/78504 [1:16:01<61:34:38,  2.90s/it]  3%|▎         | 2081/78504 [1:16:03<57:36:56,  2.71s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.3841116428375244, 'learning_rate': 7.940389759266335e-06, 'epoch': 0.64}
  3%|▎         | 2081/78504 [1:16:03<57:36:56,  2.71s/it]  3%|▎         | 2082/78504 [1:16:05<55:08:31,  2.60s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.5494676232337952, 'learning_rate': 7.944210928544134e-06, 'epoch': 0.64}
  3%|▎         | 2082/78504 [1:16:05<55:08:31,  2.60s/it]  3%|▎         | 2083/78504 [1:16:07<52:09:39,  2.46s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.5728955864906311, 'learning_rate': 7.948032097821934e-06, 'epoch': 0.64}
  3%|▎         | 2083/78504 [1:16:07<52:09:39,  2.46s/it]  3%|▎         | 2084/78504 [1:16:09<50:27:37,  2.38s/it]                                                         {'loss': 0.089, 'grad_norm': 0.4761159420013428, 'learning_rate': 7.951853267099733e-06, 'epoch': 0.64}
  3%|▎         | 2084/78504 [1:16:09<50:27:37,  2.38s/it]  3%|▎         | 2085/78504 [1:16:12<49:07:34,  2.31s/it]                                                         {'loss': 0.1188, 'grad_norm': 0.5311678051948547, 'learning_rate': 7.955674436377532e-06, 'epoch': 0.64}
  3%|▎         | 2085/78504 [1:16:12<49:07:34,  2.31s/it]  3%|▎         | 2086/78504 [1:16:14<47:17:19,  2.23s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.6980441808700562, 'learning_rate': 7.95949560565533e-06, 'epoch': 0.64}
  3%|▎         | 2086/78504 [1:16:14<47:17:19,  2.23s/it]  3%|▎         | 2087/78504 [1:16:16<47:06:37,  2.22s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.7395910620689392, 'learning_rate': 7.963316774933131e-06, 'epoch': 0.64}
  3%|▎         | 2087/78504 [1:16:16<47:06:37,  2.22s/it]  3%|▎         | 2088/78504 [1:16:18<44:58:48,  2.12s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.9286815524101257, 'learning_rate': 7.96713794421093e-06, 'epoch': 0.64}
  3%|▎         | 2088/78504 [1:16:18<44:58:48,  2.12s/it]  3%|▎         | 2089/78504 [1:16:20<43:24:01,  2.04s/it]                                                         {'loss': 0.2032, 'grad_norm': 0.7462678551673889, 'learning_rate': 7.970959113488729e-06, 'epoch': 0.64}
  3%|▎         | 2089/78504 [1:16:20<43:24:01,  2.04s/it]  3%|▎         | 2090/78504 [1:16:21<41:35:18,  1.96s/it]                                                         {'loss': 0.2097, 'grad_norm': 1.3060532808303833, 'learning_rate': 7.974780282766527e-06, 'epoch': 0.64}
  3%|▎         | 2090/78504 [1:16:21<41:35:18,  1.96s/it]  3%|▎         | 2091/78504 [1:16:23<39:37:26,  1.87s/it]                                                         {'loss': 0.195, 'grad_norm': 1.0439081192016602, 'learning_rate': 7.978601452044326e-06, 'epoch': 0.64}
  3%|▎         | 2091/78504 [1:16:23<39:37:26,  1.87s/it]  3%|▎         | 2092/78504 [1:16:25<37:33:14,  1.77s/it]                                                         {'loss': 0.2445, 'grad_norm': 4.609252452850342, 'learning_rate': 7.982422621322125e-06, 'epoch': 0.64}
  3%|▎         | 2092/78504 [1:16:25<37:33:14,  1.77s/it]  3%|▎         | 2093/78504 [1:16:26<35:36:20,  1.68s/it]                                                         {'loss': 0.2731, 'grad_norm': 1.3947752714157104, 'learning_rate': 7.986243790599923e-06, 'epoch': 0.64}
  3%|▎         | 2093/78504 [1:16:26<35:36:20,  1.68s/it]  3%|▎         | 2094/78504 [1:16:27<33:45:13,  1.59s/it]                                                         {'loss': 0.3384, 'grad_norm': 1.494159460067749, 'learning_rate': 7.990064959877724e-06, 'epoch': 0.64}
  3%|▎         | 2094/78504 [1:16:27<33:45:13,  1.59s/it]  3%|▎         | 2095/78504 [1:16:29<31:48:50,  1.50s/it]                                                         {'loss': 0.2745, 'grad_norm': 1.5055195093154907, 'learning_rate': 7.993886129155523e-06, 'epoch': 0.64}
  3%|▎         | 2095/78504 [1:16:29<31:48:50,  1.50s/it]  3%|▎         | 2096/78504 [1:16:30<29:38:47,  1.40s/it]                                                         {'loss': 0.3143, 'grad_norm': 1.0835999250411987, 'learning_rate': 7.997707298433321e-06, 'epoch': 0.64}
  3%|▎         | 2096/78504 [1:16:30<29:38:47,  1.40s/it]  3%|▎         | 2097/78504 [1:16:31<27:42:47,  1.31s/it]                                                         {'loss': 0.3008, 'grad_norm': 1.353200078010559, 'learning_rate': 8.00152846771112e-06, 'epoch': 0.64}
  3%|▎         | 2097/78504 [1:16:31<27:42:47,  1.31s/it]  3%|▎         | 2098/78504 [1:16:32<26:05:45,  1.23s/it]                                                         {'loss': 0.2926, 'grad_norm': 1.6830744743347168, 'learning_rate': 8.005349636988919e-06, 'epoch': 0.64}
  3%|▎         | 2098/78504 [1:16:32<26:05:45,  1.23s/it]  3%|▎         | 2099/78504 [1:16:33<24:12:47,  1.14s/it]                                                         {'loss': 0.3375, 'grad_norm': 1.6070001125335693, 'learning_rate': 8.009170806266718e-06, 'epoch': 0.64}
  3%|▎         | 2099/78504 [1:16:33<24:12:47,  1.14s/it]  3%|▎         | 2100/78504 [1:16:34<21:58:07,  1.04s/it]                                                         {'loss': 0.46, 'grad_norm': 2.1234073638916016, 'learning_rate': 8.012991975544516e-06, 'epoch': 0.64}
  3%|▎         | 2100/78504 [1:16:34<21:58:07,  1.04s/it]  3%|▎         | 2101/78504 [1:16:43<73:45:17,  3.48s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.0086764097213745, 'learning_rate': 8.016813144822315e-06, 'epoch': 0.64}
  3%|▎         | 2101/78504 [1:16:43<73:45:17,  3.48s/it]  3%|▎         | 2102/78504 [1:16:46<71:36:33,  3.37s/it]                                                         {'loss': 0.1218, 'grad_norm': 0.4094775915145874, 'learning_rate': 8.020634314100116e-06, 'epoch': 0.64}
  3%|▎         | 2102/78504 [1:16:46<71:36:33,  3.37s/it]  3%|▎         | 2103/78504 [1:16:49<68:56:06,  3.25s/it]                                                         {'loss': 0.1181, 'grad_norm': 0.6444330811500549, 'learning_rate': 8.024455483377914e-06, 'epoch': 0.64}
  3%|▎         | 2103/78504 [1:16:49<68:56:06,  3.25s/it]  3%|▎         | 2104/78504 [1:16:52<64:38:12,  3.05s/it]                                                         {'loss': 0.1169, 'grad_norm': 0.6410729885101318, 'learning_rate': 8.028276652655713e-06, 'epoch': 0.64}
  3%|▎         | 2104/78504 [1:16:52<64:38:12,  3.05s/it]  3%|▎         | 2105/78504 [1:16:54<61:08:45,  2.88s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.4469577968120575, 'learning_rate': 8.032097821933512e-06, 'epoch': 0.64}
  3%|▎         | 2105/78504 [1:16:54<61:08:45,  2.88s/it]  3%|▎         | 2106/78504 [1:16:56<57:29:17,  2.71s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.41036680340766907, 'learning_rate': 8.03591899121131e-06, 'epoch': 0.64}
  3%|▎         | 2106/78504 [1:16:56<57:29:17,  2.71s/it]  3%|▎         | 2107/78504 [1:16:59<55:16:25,  2.60s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.5413553714752197, 'learning_rate': 8.03974016048911e-06, 'epoch': 0.64}
  3%|▎         | 2107/78504 [1:16:59<55:16:25,  2.60s/it]  3%|▎         | 2108/78504 [1:17:01<53:21:08,  2.51s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.6858155131340027, 'learning_rate': 8.043561329766908e-06, 'epoch': 0.64}
  3%|▎         | 2108/78504 [1:17:01<53:21:08,  2.51s/it]  3%|▎         | 2109/78504 [1:17:03<51:19:45,  2.42s/it]                                                         {'loss': 0.1231, 'grad_norm': 0.6070111393928528, 'learning_rate': 8.047382499044707e-06, 'epoch': 0.64}
  3%|▎         | 2109/78504 [1:17:03<51:19:45,  2.42s/it]  3%|▎         | 2110/78504 [1:17:05<49:46:40,  2.35s/it]                                                         {'loss': 0.1265, 'grad_norm': 0.5327774286270142, 'learning_rate': 8.051203668322507e-06, 'epoch': 0.65}
  3%|▎         | 2110/78504 [1:17:05<49:46:40,  2.35s/it]  3%|▎         | 2111/78504 [1:17:07<46:46:24,  2.20s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.5920222997665405, 'learning_rate': 8.055024837600306e-06, 'epoch': 0.65}
  3%|▎         | 2111/78504 [1:17:07<46:46:24,  2.20s/it]  3%|▎         | 2112/78504 [1:17:09<45:24:03,  2.14s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.7388197779655457, 'learning_rate': 8.058846006878105e-06, 'epoch': 0.65}
  3%|▎         | 2112/78504 [1:17:09<45:24:03,  2.14s/it]  3%|▎         | 2113/78504 [1:17:11<44:04:14,  2.08s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.6805545687675476, 'learning_rate': 8.062667176155903e-06, 'epoch': 0.65}
  3%|▎         | 2113/78504 [1:17:11<44:04:14,  2.08s/it]  3%|▎         | 2114/78504 [1:17:13<42:40:18,  2.01s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.6527850031852722, 'learning_rate': 8.066488345433702e-06, 'epoch': 0.65}
  3%|▎         | 2114/78504 [1:17:13<42:40:18,  2.01s/it]  3%|▎         | 2115/78504 [1:17:15<41:07:48,  1.94s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.7970917224884033, 'learning_rate': 8.070309514711501e-06, 'epoch': 0.65}
  3%|▎         | 2115/78504 [1:17:15<41:07:48,  1.94s/it]  3%|▎         | 2116/78504 [1:17:16<39:19:55,  1.85s/it]                                                         {'loss': 0.2045, 'grad_norm': 0.7753785848617554, 'learning_rate': 8.0741306839893e-06, 'epoch': 0.65}
  3%|▎         | 2116/78504 [1:17:16<39:19:55,  1.85s/it]  3%|▎         | 2117/78504 [1:17:18<37:20:08,  1.76s/it]                                                         {'loss': 0.2314, 'grad_norm': 1.6173797845840454, 'learning_rate': 8.0779518532671e-06, 'epoch': 0.65}
  3%|▎         | 2117/78504 [1:17:18<37:20:08,  1.76s/it]  3%|▎         | 2118/78504 [1:17:19<35:28:19,  1.67s/it]                                                         {'loss': 0.2976, 'grad_norm': 0.8957337737083435, 'learning_rate': 8.081773022544899e-06, 'epoch': 0.65}
  3%|▎         | 2118/78504 [1:17:19<35:28:19,  1.67s/it]  3%|▎         | 2119/78504 [1:17:21<33:45:38,  1.59s/it]                                                         {'loss': 0.2499, 'grad_norm': 1.0854274034500122, 'learning_rate': 8.085594191822698e-06, 'epoch': 0.65}
  3%|▎         | 2119/78504 [1:17:21<33:45:38,  1.59s/it]  3%|▎         | 2120/78504 [1:17:22<31:51:47,  1.50s/it]                                                         {'loss': 0.2714, 'grad_norm': 0.9155086874961853, 'learning_rate': 8.089415361100496e-06, 'epoch': 0.65}
  3%|▎         | 2120/78504 [1:17:22<31:51:47,  1.50s/it]  3%|▎         | 2121/78504 [1:17:23<29:37:21,  1.40s/it]                                                         {'loss': 0.3285, 'grad_norm': 1.3727308511734009, 'learning_rate': 8.093236530378295e-06, 'epoch': 0.65}
  3%|▎         | 2121/78504 [1:17:23<29:37:21,  1.40s/it]  3%|▎         | 2122/78504 [1:17:24<27:45:36,  1.31s/it]                                                         {'loss': 0.339, 'grad_norm': 1.3563233613967896, 'learning_rate': 8.097057699656096e-06, 'epoch': 0.65}
  3%|▎         | 2122/78504 [1:17:24<27:45:36,  1.31s/it]  3%|▎         | 2123/78504 [1:17:26<26:23:04,  1.24s/it]                                                         {'loss': 0.2994, 'grad_norm': 2.36318302154541, 'learning_rate': 8.100878868933894e-06, 'epoch': 0.65}
  3%|▎         | 2123/78504 [1:17:26<26:23:04,  1.24s/it]  3%|▎         | 2124/78504 [1:17:26<24:32:42,  1.16s/it]                                                         {'loss': 0.3775, 'grad_norm': 1.8329064846038818, 'learning_rate': 8.104700038211693e-06, 'epoch': 0.65}
  3%|▎         | 2124/78504 [1:17:26<24:32:42,  1.16s/it]  3%|▎         | 2125/78504 [1:17:27<22:10:25,  1.05s/it]                                                         {'loss': 0.5023, 'grad_norm': 2.573214292526245, 'learning_rate': 8.108521207489493e-06, 'epoch': 0.65}
  3%|▎         | 2125/78504 [1:17:27<22:10:25,  1.05s/it]  3%|▎         | 2126/78504 [1:17:33<55:00:08,  2.59s/it]                                                         {'loss': 0.2348, 'grad_norm': 0.49748942255973816, 'learning_rate': 8.112342376767292e-06, 'epoch': 0.65}
  3%|▎         | 2126/78504 [1:17:33<55:00:08,  2.59s/it]  3%|▎         | 2127/78504 [1:17:37<59:52:53,  2.82s/it]                                                         {'loss': 0.1099, 'grad_norm': 0.6136089563369751, 'learning_rate': 8.116163546045091e-06, 'epoch': 0.65}
  3%|▎         | 2127/78504 [1:17:37<59:52:53,  2.82s/it]  3%|▎         | 2128/78504 [1:17:40<60:33:01,  2.85s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.341797411441803, 'learning_rate': 8.11998471532289e-06, 'epoch': 0.65}
  3%|▎         | 2128/78504 [1:17:40<60:33:01,  2.85s/it]  3%|▎         | 2129/78504 [1:17:42<58:49:47,  2.77s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.40247640013694763, 'learning_rate': 8.123805884600688e-06, 'epoch': 0.65}
  3%|▎         | 2129/78504 [1:17:42<58:49:47,  2.77s/it]  3%|▎         | 2130/78504 [1:17:45<56:58:12,  2.69s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.5074516534805298, 'learning_rate': 8.127627053878487e-06, 'epoch': 0.65}
  3%|▎         | 2130/78504 [1:17:45<56:58:12,  2.69s/it]  3%|▎         | 2131/78504 [1:17:47<55:22:10,  2.61s/it]                                                         {'loss': 0.1109, 'grad_norm': 0.43491944670677185, 'learning_rate': 8.131448223156286e-06, 'epoch': 0.65}
  3%|▎         | 2131/78504 [1:17:47<55:22:10,  2.61s/it]  3%|▎         | 2132/78504 [1:17:50<53:31:23,  2.52s/it]                                                         {'loss': 0.0986, 'grad_norm': 0.504197359085083, 'learning_rate': 8.135269392434085e-06, 'epoch': 0.65}
  3%|▎         | 2132/78504 [1:17:50<53:31:23,  2.52s/it]  3%|▎         | 2133/78504 [1:17:52<52:09:13,  2.46s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.8430514931678772, 'learning_rate': 8.139090561711885e-06, 'epoch': 0.65}
  3%|▎         | 2133/78504 [1:17:52<52:09:13,  2.46s/it]  3%|▎         | 2134/78504 [1:17:54<50:26:48,  2.38s/it]                                                         {'loss': 0.1262, 'grad_norm': 0.5364850759506226, 'learning_rate': 8.142911730989684e-06, 'epoch': 0.65}
  3%|▎         | 2134/78504 [1:17:54<50:26:48,  2.38s/it]  3%|▎         | 2135/78504 [1:17:56<48:54:21,  2.31s/it]                                                         {'loss': 0.1221, 'grad_norm': 0.5194720029830933, 'learning_rate': 8.146732900267483e-06, 'epoch': 0.65}
  3%|▎         | 2135/78504 [1:17:56<48:54:21,  2.31s/it]  3%|▎         | 2136/78504 [1:17:58<46:58:11,  2.21s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.6051045060157776, 'learning_rate': 8.150554069545281e-06, 'epoch': 0.65}
  3%|▎         | 2136/78504 [1:17:58<46:58:11,  2.21s/it]  3%|▎         | 2137/78504 [1:18:00<44:22:56,  2.09s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.5159919261932373, 'learning_rate': 8.15437523882308e-06, 'epoch': 0.65}
  3%|▎         | 2137/78504 [1:18:00<44:22:56,  2.09s/it]  3%|▎         | 2138/78504 [1:18:02<43:02:52,  2.03s/it]                                                         {'loss': 0.1678, 'grad_norm': 1.025882363319397, 'learning_rate': 8.158196408100879e-06, 'epoch': 0.65}
  3%|▎         | 2138/78504 [1:18:02<43:02:52,  2.03s/it]  3%|▎         | 2139/78504 [1:18:04<40:50:08,  1.93s/it]                                                         {'loss': 0.14, 'grad_norm': 0.7689366340637207, 'learning_rate': 8.162017577378678e-06, 'epoch': 0.65}
  3%|▎         | 2139/78504 [1:18:04<40:50:08,  1.93s/it]  3%|▎         | 2140/78504 [1:18:05<39:53:43,  1.88s/it]                                                         {'loss': 0.2569, 'grad_norm': 1.2561746835708618, 'learning_rate': 8.165838746656476e-06, 'epoch': 0.65}
  3%|▎         | 2140/78504 [1:18:05<39:53:43,  1.88s/it]  3%|▎         | 2141/78504 [1:18:07<37:49:29,  1.78s/it]                                                         {'loss': 0.2676, 'grad_norm': 0.9622258543968201, 'learning_rate': 8.169659915934277e-06, 'epoch': 0.65}
  3%|▎         | 2141/78504 [1:18:07<37:49:29,  1.78s/it]  3%|▎         | 2142/78504 [1:18:08<36:05:34,  1.70s/it]                                                         {'loss': 0.2549, 'grad_norm': 2.4272615909576416, 'learning_rate': 8.173481085212076e-06, 'epoch': 0.65}
  3%|▎         | 2142/78504 [1:18:08<36:05:34,  1.70s/it]  3%|▎         | 2143/78504 [1:18:10<34:39:17,  1.63s/it]                                                         {'loss': 0.2535, 'grad_norm': 0.980562686920166, 'learning_rate': 8.177302254489874e-06, 'epoch': 0.66}
  3%|▎         | 2143/78504 [1:18:10<34:39:17,  1.63s/it]  3%|▎         | 2144/78504 [1:18:11<33:12:16,  1.57s/it]                                                         {'loss': 0.259, 'grad_norm': 0.8645119667053223, 'learning_rate': 8.181123423767673e-06, 'epoch': 0.66}
  3%|▎         | 2144/78504 [1:18:11<33:12:16,  1.57s/it]  3%|▎         | 2145/78504 [1:18:13<31:02:07,  1.46s/it]                                                         {'loss': 0.2937, 'grad_norm': 1.1742675304412842, 'learning_rate': 8.184944593045472e-06, 'epoch': 0.66}
  3%|▎         | 2145/78504 [1:18:13<31:02:07,  1.46s/it]  3%|▎         | 2146/78504 [1:18:14<29:00:36,  1.37s/it]                                                         {'loss': 0.2869, 'grad_norm': 1.2084094285964966, 'learning_rate': 8.18876576232327e-06, 'epoch': 0.66}
  3%|▎         | 2146/78504 [1:18:14<29:00:36,  1.37s/it]  3%|▎         | 2147/78504 [1:18:15<27:17:40,  1.29s/it]                                                         {'loss': 0.3151, 'grad_norm': 1.8248767852783203, 'learning_rate': 8.19258693160107e-06, 'epoch': 0.66}
  3%|▎         | 2147/78504 [1:18:15<27:17:40,  1.29s/it]  3%|▎         | 2148/78504 [1:18:16<25:30:07,  1.20s/it]                                                         {'loss': 0.3271, 'grad_norm': 1.4562664031982422, 'learning_rate': 8.196408100878868e-06, 'epoch': 0.66}
  3%|▎         | 2148/78504 [1:18:16<25:30:07,  1.20s/it]  3%|▎         | 2149/78504 [1:18:17<23:50:15,  1.12s/it]                                                         {'loss': 0.3811, 'grad_norm': 1.9381396770477295, 'learning_rate': 8.200229270156668e-06, 'epoch': 0.66}
  3%|▎         | 2149/78504 [1:18:17<23:50:15,  1.12s/it]  3%|▎         | 2150/78504 [1:18:17<21:37:58,  1.02s/it]                                                         {'loss': 0.4023, 'grad_norm': 1.9084031581878662, 'learning_rate': 8.204050439434467e-06, 'epoch': 0.66}
  3%|▎         | 2150/78504 [1:18:18<21:37:58,  1.02s/it]  3%|▎         | 2151/78504 [1:18:27<75:31:02,  3.56s/it]                                                         {'loss': 0.2131, 'grad_norm': 0.6166840195655823, 'learning_rate': 8.207871608712266e-06, 'epoch': 0.66}
  3%|▎         | 2151/78504 [1:18:27<75:31:02,  3.56s/it]  3%|▎         | 2152/78504 [1:18:30<72:52:59,  3.44s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.8479235172271729, 'learning_rate': 8.211692777990065e-06, 'epoch': 0.66}
  3%|▎         | 2152/78504 [1:18:30<72:52:59,  3.44s/it]  3%|▎         | 2153/78504 [1:18:33<70:13:27,  3.31s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.8066351413726807, 'learning_rate': 8.215513947267863e-06, 'epoch': 0.66}
  3%|▎         | 2153/78504 [1:18:33<70:13:27,  3.31s/it]  3%|▎         | 2154/78504 [1:18:36<65:41:24,  3.10s/it]                                                         {'loss': 0.1104, 'grad_norm': 0.5315497517585754, 'learning_rate': 8.219335116545662e-06, 'epoch': 0.66}
  3%|▎         | 2154/78504 [1:18:36<65:41:24,  3.10s/it]  3%|▎         | 2155/78504 [1:18:38<61:48:29,  2.91s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.48157474398612976, 'learning_rate': 8.223156285823461e-06, 'epoch': 0.66}
  3%|▎         | 2155/78504 [1:18:38<61:48:29,  2.91s/it]  3%|▎         | 2156/78504 [1:18:40<57:46:34,  2.72s/it]                                                         {'loss': 0.1146, 'grad_norm': 0.5097467303276062, 'learning_rate': 8.226977455101261e-06, 'epoch': 0.66}
  3%|▎         | 2156/78504 [1:18:41<57:46:34,  2.72s/it]  3%|▎         | 2157/78504 [1:18:43<55:16:34,  2.61s/it]                                                         {'loss': 0.0991, 'grad_norm': 1.3486497402191162, 'learning_rate': 8.23079862437906e-06, 'epoch': 0.66}
  3%|▎         | 2157/78504 [1:18:43<55:16:34,  2.61s/it]  3%|▎         | 2158/78504 [1:18:45<52:04:51,  2.46s/it]                                                         {'loss': 0.1133, 'grad_norm': 0.5089870095252991, 'learning_rate': 8.234619793656859e-06, 'epoch': 0.66}
  3%|▎         | 2158/78504 [1:18:45<52:04:51,  2.46s/it]  3%|▎         | 2159/78504 [1:18:47<49:23:25,  2.33s/it]                                                         {'loss': 0.1548, 'grad_norm': 0.5073222517967224, 'learning_rate': 8.238440962934658e-06, 'epoch': 0.66}
  3%|▎         | 2159/78504 [1:18:47<49:23:25,  2.33s/it]  3%|▎         | 2160/78504 [1:18:49<48:12:26,  2.27s/it]                                                         {'loss': 0.118, 'grad_norm': 0.5371313691139221, 'learning_rate': 8.242262132212456e-06, 'epoch': 0.66}
  3%|▎         | 2160/78504 [1:18:49<48:12:26,  2.27s/it]  3%|▎         | 2161/78504 [1:18:51<46:28:43,  2.19s/it]                                                         {'loss': 0.1151, 'grad_norm': 1.0455652475357056, 'learning_rate': 8.246083301490257e-06, 'epoch': 0.66}
  3%|▎         | 2161/78504 [1:18:51<46:28:43,  2.19s/it]  3%|▎         | 2162/78504 [1:18:53<44:01:08,  2.08s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.5314789414405823, 'learning_rate': 8.249904470768055e-06, 'epoch': 0.66}
  3%|▎         | 2162/78504 [1:18:53<44:01:08,  2.08s/it]  3%|▎         | 2163/78504 [1:18:55<42:42:28,  2.01s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.5724758505821228, 'learning_rate': 8.253725640045854e-06, 'epoch': 0.66}
  3%|▎         | 2163/78504 [1:18:55<42:42:28,  2.01s/it]  3%|▎         | 2164/78504 [1:18:56<40:47:24,  1.92s/it]                                                         {'loss': 0.185, 'grad_norm': 0.713639497756958, 'learning_rate': 8.257546809323655e-06, 'epoch': 0.66}
  3%|▎         | 2164/78504 [1:18:57<40:47:24,  1.92s/it]  3%|▎         | 2165/78504 [1:18:58<39:30:54,  1.86s/it]                                                         {'loss': 0.2273, 'grad_norm': 1.4886302947998047, 'learning_rate': 8.261367978601453e-06, 'epoch': 0.66}
  3%|▎         | 2165/78504 [1:18:58<39:30:54,  1.86s/it]  3%|▎         | 2166/78504 [1:19:00<38:07:43,  1.80s/it]                                                         {'loss': 0.2633, 'grad_norm': 0.9653937816619873, 'learning_rate': 8.265189147879252e-06, 'epoch': 0.66}
  3%|▎         | 2166/78504 [1:19:00<38:07:43,  1.80s/it]  3%|▎         | 2167/78504 [1:19:01<36:33:29,  1.72s/it]                                                         {'loss': 0.2132, 'grad_norm': 0.7831928133964539, 'learning_rate': 8.269010317157051e-06, 'epoch': 0.66}
  3%|▎         | 2167/78504 [1:19:01<36:33:29,  1.72s/it]  3%|▎         | 2168/78504 [1:19:03<34:56:22,  1.65s/it]                                                         {'loss': 0.2766, 'grad_norm': 0.9198587536811829, 'learning_rate': 8.27283148643485e-06, 'epoch': 0.66}
  3%|▎         | 2168/78504 [1:19:03<34:56:22,  1.65s/it]  3%|▎         | 2169/78504 [1:19:04<33:15:16,  1.57s/it]                                                         {'loss': 0.3147, 'grad_norm': 1.2338401079177856, 'learning_rate': 8.276652655712648e-06, 'epoch': 0.66}
  3%|▎         | 2169/78504 [1:19:04<33:15:16,  1.57s/it]  3%|▎         | 2170/78504 [1:19:06<31:31:13,  1.49s/it]                                                         {'loss': 0.3205, 'grad_norm': 1.3956259489059448, 'learning_rate': 8.280473824990447e-06, 'epoch': 0.66}
  3%|▎         | 2170/78504 [1:19:06<31:31:13,  1.49s/it]  3%|▎         | 2171/78504 [1:19:07<29:24:14,  1.39s/it]                                                         {'loss': 0.318, 'grad_norm': 1.048843502998352, 'learning_rate': 8.284294994268246e-06, 'epoch': 0.66}
  3%|▎         | 2171/78504 [1:19:07<29:24:14,  1.39s/it]  3%|▎         | 2172/78504 [1:19:08<27:31:57,  1.30s/it]                                                         {'loss': 0.3368, 'grad_norm': 1.5389643907546997, 'learning_rate': 8.288116163546046e-06, 'epoch': 0.66}
  3%|▎         | 2172/78504 [1:19:08<27:31:57,  1.30s/it]  3%|▎         | 2173/78504 [1:19:09<25:55:22,  1.22s/it]                                                         {'loss': 0.3692, 'grad_norm': 1.5854166746139526, 'learning_rate': 8.291937332823845e-06, 'epoch': 0.66}
  3%|▎         | 2173/78504 [1:19:09<25:55:22,  1.22s/it]  3%|▎         | 2174/78504 [1:19:10<24:05:27,  1.14s/it]                                                         {'loss': 0.3815, 'grad_norm': 1.5241695642471313, 'learning_rate': 8.295758502101644e-06, 'epoch': 0.66}
  3%|▎         | 2174/78504 [1:19:10<24:05:27,  1.14s/it]  3%|▎         | 2175/78504 [1:19:11<21:52:04,  1.03s/it]                                                         {'loss': 0.4478, 'grad_norm': 2.4132726192474365, 'learning_rate': 8.299579671379443e-06, 'epoch': 0.66}
  3%|▎         | 2175/78504 [1:19:11<21:52:04,  1.03s/it]  3%|▎         | 2176/78504 [1:19:18<61:34:58,  2.90s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.6744420528411865, 'learning_rate': 8.303400840657241e-06, 'epoch': 0.67}
  3%|▎         | 2176/78504 [1:19:18<61:34:58,  2.90s/it]  3%|▎         | 2177/78504 [1:19:21<64:33:58,  3.05s/it]                                                         {'loss': 0.1166, 'grad_norm': 2.551630973815918, 'learning_rate': 8.30722200993504e-06, 'epoch': 0.67}
  3%|▎         | 2177/78504 [1:19:21<64:33:58,  3.05s/it]  3%|▎         | 2178/78504 [1:19:24<64:12:13,  3.03s/it]                                                         {'loss': 0.1177, 'grad_norm': 0.6490741968154907, 'learning_rate': 8.311043179212839e-06, 'epoch': 0.67}
  3%|▎         | 2178/78504 [1:19:24<64:12:13,  3.03s/it]  3%|▎         | 2179/78504 [1:19:27<61:33:43,  2.90s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.42154601216316223, 'learning_rate': 8.314864348490638e-06, 'epoch': 0.67}
  3%|▎         | 2179/78504 [1:19:27<61:33:43,  2.90s/it]  3%|▎         | 2180/78504 [1:19:29<58:50:56,  2.78s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.48295557498931885, 'learning_rate': 8.318685517768438e-06, 'epoch': 0.67}
  3%|▎         | 2180/78504 [1:19:29<58:50:56,  2.78s/it]  3%|▎         | 2181/78504 [1:19:32<55:37:22,  2.62s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.856315553188324, 'learning_rate': 8.322506687046237e-06, 'epoch': 0.67}
  3%|▎         | 2181/78504 [1:19:32<55:37:22,  2.62s/it]  3%|▎         | 2182/78504 [1:19:34<53:43:22,  2.53s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.642306387424469, 'learning_rate': 8.326327856324035e-06, 'epoch': 0.67}
  3%|▎         | 2182/78504 [1:19:34<53:43:22,  2.53s/it]  3%|▎         | 2183/78504 [1:19:36<50:56:23,  2.40s/it]                                                         {'loss': 0.1021, 'grad_norm': 0.8629612326622009, 'learning_rate': 8.330149025601834e-06, 'epoch': 0.67}
  3%|▎         | 2183/78504 [1:19:36<50:56:23,  2.40s/it]  3%|▎         | 2184/78504 [1:19:38<49:34:39,  2.34s/it]                                                         {'loss': 0.1174, 'grad_norm': 0.5254561901092529, 'learning_rate': 8.333970194879633e-06, 'epoch': 0.67}
  3%|▎         | 2184/78504 [1:19:38<49:34:39,  2.34s/it]  3%|▎         | 2185/78504 [1:19:40<48:20:53,  2.28s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.6319891214370728, 'learning_rate': 8.337791364157432e-06, 'epoch': 0.67}
  3%|▎         | 2185/78504 [1:19:40<48:20:53,  2.28s/it]  3%|▎         | 2186/78504 [1:19:42<46:41:45,  2.20s/it]                                                         {'loss': 0.161, 'grad_norm': 0.6036531925201416, 'learning_rate': 8.34161253343523e-06, 'epoch': 0.67}
  3%|▎         | 2186/78504 [1:19:42<46:41:45,  2.20s/it]  3%|▎         | 2187/78504 [1:19:44<45:17:37,  2.14s/it]                                                         {'loss': 0.1162, 'grad_norm': 0.8825640082359314, 'learning_rate': 8.345433702713031e-06, 'epoch': 0.67}
  3%|▎         | 2187/78504 [1:19:44<45:17:37,  2.14s/it]  3%|▎         | 2188/78504 [1:19:46<43:35:41,  2.06s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.5315311551094055, 'learning_rate': 8.34925487199083e-06, 'epoch': 0.67}
  3%|▎         | 2188/78504 [1:19:46<43:35:41,  2.06s/it]  3%|▎         | 2189/78504 [1:19:48<42:22:58,  2.00s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.8576556444168091, 'learning_rate': 8.353076041268628e-06, 'epoch': 0.67}
  3%|▎         | 2189/78504 [1:19:48<42:22:58,  2.00s/it]  3%|▎         | 2190/78504 [1:19:50<40:55:15,  1.93s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.634548008441925, 'learning_rate': 8.356897210546427e-06, 'epoch': 0.67}
  3%|▎         | 2190/78504 [1:19:50<40:55:15,  1.93s/it]  3%|▎         | 2191/78504 [1:19:51<39:08:56,  1.85s/it]                                                         {'loss': 0.2213, 'grad_norm': 0.795169472694397, 'learning_rate': 8.360718379824226e-06, 'epoch': 0.67}
  3%|▎         | 2191/78504 [1:19:52<39:08:56,  1.85s/it]  3%|▎         | 2192/78504 [1:19:53<37:11:41,  1.75s/it]                                                         {'loss': 0.2721, 'grad_norm': 0.6457976698875427, 'learning_rate': 8.364539549102025e-06, 'epoch': 0.67}
  3%|▎         | 2192/78504 [1:19:53<37:11:41,  1.75s/it]  3%|▎         | 2193/78504 [1:19:54<35:20:35,  1.67s/it]                                                         {'loss': 0.2676, 'grad_norm': 1.2385672330856323, 'learning_rate': 8.368360718379823e-06, 'epoch': 0.67}
  3%|▎         | 2193/78504 [1:19:55<35:20:35,  1.67s/it]  3%|▎         | 2194/78504 [1:19:56<33:49:44,  1.60s/it]                                                         {'loss': 0.3192, 'grad_norm': 1.0434664487838745, 'learning_rate': 8.372181887657622e-06, 'epoch': 0.67}
  3%|▎         | 2194/78504 [1:19:56<33:49:44,  1.60s/it]  3%|▎         | 2195/78504 [1:19:57<31:51:23,  1.50s/it]                                                         {'loss': 0.2644, 'grad_norm': 0.9268093705177307, 'learning_rate': 8.376003056935423e-06, 'epoch': 0.67}
  3%|▎         | 2195/78504 [1:19:57<31:51:23,  1.50s/it]  3%|▎         | 2196/78504 [1:19:58<29:37:17,  1.40s/it]                                                         {'loss': 0.2761, 'grad_norm': 1.313844084739685, 'learning_rate': 8.379824226213221e-06, 'epoch': 0.67}
  3%|▎         | 2196/78504 [1:19:58<29:37:17,  1.40s/it]  3%|▎         | 2197/78504 [1:19:59<27:45:08,  1.31s/it]                                                         {'loss': 0.3271, 'grad_norm': 1.2908694744110107, 'learning_rate': 8.38364539549102e-06, 'epoch': 0.67}
  3%|▎         | 2197/78504 [1:19:59<27:45:08,  1.31s/it]  3%|▎         | 2198/78504 [1:20:01<26:08:41,  1.23s/it]                                                         {'loss': 0.2913, 'grad_norm': 2.1844394207000732, 'learning_rate': 8.387466564768819e-06, 'epoch': 0.67}
  3%|▎         | 2198/78504 [1:20:01<26:08:41,  1.23s/it]  3%|▎         | 2199/78504 [1:20:01<24:12:51,  1.14s/it]                                                         {'loss': 0.3913, 'grad_norm': 2.1975326538085938, 'learning_rate': 8.39128773404662e-06, 'epoch': 0.67}
  3%|▎         | 2199/78504 [1:20:01<24:12:51,  1.14s/it]  3%|▎         | 2200/78504 [1:20:02<21:53:53,  1.03s/it]                                                         {'loss': 0.3891, 'grad_norm': 1.7605775594711304, 'learning_rate': 8.395108903324418e-06, 'epoch': 0.67}
  3%|▎         | 2200/78504 [1:20:02<21:53:53,  1.03s/it]  3%|▎         | 2201/78504 [1:20:11<72:29:08,  3.42s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.5336949825286865, 'learning_rate': 8.398930072602217e-06, 'epoch': 0.67}
  3%|▎         | 2201/78504 [1:20:11<72:29:08,  3.42s/it]  3%|▎         | 2202/78504 [1:20:15<71:44:44,  3.39s/it]                                                         {'loss': 0.1403, 'grad_norm': 0.4739847779273987, 'learning_rate': 8.402751241880015e-06, 'epoch': 0.67}
  3%|▎         | 2202/78504 [1:20:15<71:44:44,  3.39s/it]  3%|▎         | 2203/78504 [1:20:17<66:36:03,  3.14s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.7635122537612915, 'learning_rate': 8.406572411157816e-06, 'epoch': 0.67}
  3%|▎         | 2203/78504 [1:20:17<66:36:03,  3.14s/it]  3%|▎         | 2204/78504 [1:20:20<63:14:34,  2.98s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.5298926830291748, 'learning_rate': 8.410393580435615e-06, 'epoch': 0.67}
  3%|▎         | 2204/78504 [1:20:20<63:14:34,  2.98s/it]  3%|▎         | 2205/78504 [1:20:22<59:59:15,  2.83s/it]                                                         {'loss': 0.1258, 'grad_norm': 0.4208395481109619, 'learning_rate': 8.414214749713413e-06, 'epoch': 0.67}
  3%|▎         | 2205/78504 [1:20:22<59:59:15,  2.83s/it]  3%|▎         | 2206/78504 [1:20:24<56:25:51,  2.66s/it]                                                         {'loss': 0.1015, 'grad_norm': 0.34379327297210693, 'learning_rate': 8.418035918991212e-06, 'epoch': 0.67}
  3%|▎         | 2206/78504 [1:20:24<56:25:51,  2.66s/it]  3%|▎         | 2207/78504 [1:20:27<54:18:09,  2.56s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.6589096784591675, 'learning_rate': 8.421857088269011e-06, 'epoch': 0.67}
  3%|▎         | 2207/78504 [1:20:27<54:18:09,  2.56s/it]  3%|▎         | 2208/78504 [1:20:29<51:22:06,  2.42s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.43147751688957214, 'learning_rate': 8.42567825754681e-06, 'epoch': 0.68}
  3%|▎         | 2208/78504 [1:20:29<51:22:06,  2.42s/it]  3%|▎         | 2209/78504 [1:20:31<49:50:11,  2.35s/it]                                                         {'loss': 0.1208, 'grad_norm': 0.5299631357192993, 'learning_rate': 8.429499426824608e-06, 'epoch': 0.68}
  3%|▎         | 2209/78504 [1:20:31<49:50:11,  2.35s/it]  3%|▎         | 2210/78504 [1:20:33<48:32:06,  2.29s/it]                                                         {'loss': 0.1331, 'grad_norm': 0.5101324915885925, 'learning_rate': 8.433320596102407e-06, 'epoch': 0.68}
  3%|▎         | 2210/78504 [1:20:33<48:32:06,  2.29s/it]  3%|▎         | 2211/78504 [1:20:35<46:52:35,  2.21s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.7721606492996216, 'learning_rate': 8.437141765380208e-06, 'epoch': 0.68}
  3%|▎         | 2211/78504 [1:20:35<46:52:35,  2.21s/it]  3%|▎         | 2212/78504 [1:20:37<45:21:13,  2.14s/it]                                                         {'loss': 0.1107, 'grad_norm': 0.7137681841850281, 'learning_rate': 8.440962934658006e-06, 'epoch': 0.68}
  3%|▎         | 2212/78504 [1:20:37<45:21:13,  2.14s/it]  3%|▎         | 2213/78504 [1:20:39<43:38:47,  2.06s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.598042368888855, 'learning_rate': 8.444784103935805e-06, 'epoch': 0.68}
  3%|▎         | 2213/78504 [1:20:39<43:38:47,  2.06s/it]  3%|▎         | 2214/78504 [1:20:41<42:16:31,  1.99s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.7714128494262695, 'learning_rate': 8.448605273213604e-06, 'epoch': 0.68}
  3%|▎         | 2214/78504 [1:20:41<42:16:31,  1.99s/it]  3%|▎         | 2215/78504 [1:20:43<40:09:17,  1.89s/it]                                                         {'loss': 0.2124, 'grad_norm': 0.7921777367591858, 'learning_rate': 8.452426442491403e-06, 'epoch': 0.68}
  3%|▎         | 2215/78504 [1:20:43<40:09:17,  1.89s/it]  3%|▎         | 2216/78504 [1:20:44<38:34:56,  1.82s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.8288670182228088, 'learning_rate': 8.456247611769201e-06, 'epoch': 0.68}
  3%|▎         | 2216/78504 [1:20:44<38:34:56,  1.82s/it]  3%|▎         | 2217/78504 [1:20:46<36:41:34,  1.73s/it]                                                         {'loss': 0.2786, 'grad_norm': 1.1291987895965576, 'learning_rate': 8.460068781047e-06, 'epoch': 0.68}
  3%|▎         | 2217/78504 [1:20:46<36:41:34,  1.73s/it]  3%|▎         | 2218/78504 [1:20:47<35:05:10,  1.66s/it]                                                         {'loss': 0.2452, 'grad_norm': 0.9784873723983765, 'learning_rate': 8.4638899503248e-06, 'epoch': 0.68}
  3%|▎         | 2218/78504 [1:20:47<35:05:10,  1.66s/it]  3%|▎         | 2219/78504 [1:20:49<33:34:18,  1.58s/it]                                                         {'loss': 0.2942, 'grad_norm': 1.6217217445373535, 'learning_rate': 8.4677111196026e-06, 'epoch': 0.68}
  3%|▎         | 2219/78504 [1:20:49<33:34:18,  1.58s/it]  3%|▎         | 2220/78504 [1:20:50<31:16:57,  1.48s/it]                                                         {'loss': 0.2451, 'grad_norm': 1.0026724338531494, 'learning_rate': 8.471532288880398e-06, 'epoch': 0.68}
  3%|▎         | 2220/78504 [1:20:50<31:16:57,  1.48s/it]  3%|▎         | 2221/78504 [1:20:51<29:04:23,  1.37s/it]                                                         {'loss': 0.3171, 'grad_norm': 1.293858289718628, 'learning_rate': 8.475353458158197e-06, 'epoch': 0.68}
  3%|▎         | 2221/78504 [1:20:51<29:04:23,  1.37s/it]  3%|▎         | 2222/78504 [1:20:52<27:18:32,  1.29s/it]                                                         {'loss': 0.2816, 'grad_norm': 1.7060985565185547, 'learning_rate': 8.479174627435995e-06, 'epoch': 0.68}
  3%|▎         | 2222/78504 [1:20:52<27:18:32,  1.29s/it]  3%|▎         | 2223/78504 [1:20:53<25:25:01,  1.20s/it]                                                         {'loss': 0.3212, 'grad_norm': 2.3749477863311768, 'learning_rate': 8.482995796713794e-06, 'epoch': 0.68}
  3%|▎         | 2223/78504 [1:20:53<25:25:01,  1.20s/it]  3%|▎         | 2224/78504 [1:20:54<23:43:00,  1.12s/it]                                                         {'loss': 0.3755, 'grad_norm': 2.695993423461914, 'learning_rate': 8.486816965991593e-06, 'epoch': 0.68}
  3%|▎         | 2224/78504 [1:20:54<23:43:00,  1.12s/it]  3%|▎         | 2225/78504 [1:20:55<21:34:36,  1.02s/it]                                                         {'loss': 0.4446, 'grad_norm': 2.4149162769317627, 'learning_rate': 8.490638135269392e-06, 'epoch': 0.68}
  3%|▎         | 2225/78504 [1:20:55<21:34:36,  1.02s/it]  3%|▎         | 2226/78504 [1:21:05<79:21:05,  3.75s/it]                                                         {'loss': 0.2236, 'grad_norm': 0.533627450466156, 'learning_rate': 8.494459304547192e-06, 'epoch': 0.68}
  3%|▎         | 2226/78504 [1:21:05<79:21:05,  3.75s/it]  3%|▎         | 2227/78504 [1:21:08<75:32:10,  3.57s/it]                                                         {'loss': 0.1399, 'grad_norm': 0.6192163825035095, 'learning_rate': 8.49828047382499e-06, 'epoch': 0.68}
  3%|▎         | 2227/78504 [1:21:08<75:32:10,  3.57s/it]  3%|▎         | 2228/78504 [1:21:11<72:03:31,  3.40s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.4438275694847107, 'learning_rate': 8.50210164310279e-06, 'epoch': 0.68}
  3%|▎         | 2228/78504 [1:21:11<72:03:31,  3.40s/it]  3%|▎         | 2229/78504 [1:21:14<67:04:39,  3.17s/it]                                                         {'loss': 0.1207, 'grad_norm': 0.5843666195869446, 'learning_rate': 8.505922812380588e-06, 'epoch': 0.68}
  3%|▎         | 2229/78504 [1:21:14<67:04:39,  3.17s/it]  3%|▎         | 2230/78504 [1:21:16<62:40:29,  2.96s/it]                                                         {'loss': 0.1054, 'grad_norm': 0.46538078784942627, 'learning_rate': 8.509743981658387e-06, 'epoch': 0.68}
  3%|▎         | 2230/78504 [1:21:16<62:40:29,  2.96s/it]  3%|▎         | 2231/78504 [1:21:18<58:18:03,  2.75s/it]                                                         {'loss': 0.109, 'grad_norm': 0.40470853447914124, 'learning_rate': 8.513565150936186e-06, 'epoch': 0.68}
  3%|▎         | 2231/78504 [1:21:18<58:18:03,  2.75s/it]  3%|▎         | 2232/78504 [1:21:21<55:31:55,  2.62s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.41524580121040344, 'learning_rate': 8.517386320213985e-06, 'epoch': 0.68}
  3%|▎         | 2232/78504 [1:21:21<55:31:55,  2.62s/it]  3%|▎         | 2233/78504 [1:21:23<52:15:14,  2.47s/it]                                                         {'loss': 0.0955, 'grad_norm': 0.5145371556282043, 'learning_rate': 8.521207489491783e-06, 'epoch': 0.68}
  3%|▎         | 2233/78504 [1:21:23<52:15:14,  2.47s/it]  3%|▎         | 2234/78504 [1:21:25<50:28:55,  2.38s/it]                                                         {'loss': 0.1294, 'grad_norm': 0.554099977016449, 'learning_rate': 8.525028658769584e-06, 'epoch': 0.68}
  3%|▎         | 2234/78504 [1:21:25<50:28:55,  2.38s/it]  3%|▎         | 2235/78504 [1:21:27<48:58:50,  2.31s/it]                                                         {'loss': 0.1289, 'grad_norm': 0.5350748300552368, 'learning_rate': 8.528849828047382e-06, 'epoch': 0.68}
  3%|▎         | 2235/78504 [1:21:27<48:58:50,  2.31s/it]  3%|▎         | 2236/78504 [1:21:29<48:30:39,  2.29s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.4908585250377655, 'learning_rate': 8.532670997325181e-06, 'epoch': 0.68}
  3%|▎         | 2236/78504 [1:21:29<48:30:39,  2.29s/it]  3%|▎         | 2237/78504 [1:21:31<46:30:39,  2.20s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5616809725761414, 'learning_rate': 8.53649216660298e-06, 'epoch': 0.68}
  3%|▎         | 2237/78504 [1:21:31<46:30:39,  2.20s/it]  3%|▎         | 2238/78504 [1:21:33<44:24:05,  2.10s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.6418547034263611, 'learning_rate': 8.54031333588078e-06, 'epoch': 0.68}
  3%|▎         | 2238/78504 [1:21:33<44:24:05,  2.10s/it]  3%|▎         | 2239/78504 [1:21:35<42:50:26,  2.02s/it]                                                         {'loss': 0.221, 'grad_norm': 0.7592685222625732, 'learning_rate': 8.54413450515858e-06, 'epoch': 0.68}
  3%|▎         | 2239/78504 [1:21:35<42:50:26,  2.02s/it]  3%|▎         | 2240/78504 [1:21:37<40:57:01,  1.93s/it]                                                         {'loss': 0.2091, 'grad_norm': 1.158677339553833, 'learning_rate': 8.547955674436378e-06, 'epoch': 0.68}
  3%|▎         | 2240/78504 [1:21:37<40:57:01,  1.93s/it]  3%|▎         | 2241/78504 [1:21:38<39:05:36,  1.85s/it]                                                         {'loss': 0.2106, 'grad_norm': 0.8325470685958862, 'learning_rate': 8.551776843714177e-06, 'epoch': 0.69}
  3%|▎         | 2241/78504 [1:21:39<39:05:36,  1.85s/it]  3%|▎         | 2242/78504 [1:21:40<37:11:03,  1.76s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.8375606536865234, 'learning_rate': 8.555598012991977e-06, 'epoch': 0.69}
  3%|▎         | 2242/78504 [1:21:40<37:11:03,  1.76s/it]  3%|▎         | 2243/78504 [1:21:42<35:22:20,  1.67s/it]                                                         {'loss': 0.3094, 'grad_norm': 0.9773740172386169, 'learning_rate': 8.559419182269776e-06, 'epoch': 0.69}
  3%|▎         | 2243/78504 [1:21:42<35:22:20,  1.67s/it]  3%|▎         | 2244/78504 [1:21:43<33:39:31,  1.59s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.941293478012085, 'learning_rate': 8.563240351547575e-06, 'epoch': 0.69}
  3%|▎         | 2244/78504 [1:21:43<33:39:31,  1.59s/it]  3%|▎         | 2245/78504 [1:21:44<31:45:45,  1.50s/it]                                                         {'loss': 0.254, 'grad_norm': 1.116223692893982, 'learning_rate': 8.567061520825373e-06, 'epoch': 0.69}
  3%|▎         | 2245/78504 [1:21:44<31:45:45,  1.50s/it]  3%|▎         | 2246/78504 [1:21:45<29:33:56,  1.40s/it]                                                         {'loss': 0.3001, 'grad_norm': 3.6116907596588135, 'learning_rate': 8.570882690103172e-06, 'epoch': 0.69}
  3%|▎         | 2246/78504 [1:21:45<29:33:56,  1.40s/it]  3%|▎         | 2247/78504 [1:21:46<27:39:59,  1.31s/it]                                                         {'loss': 0.3178, 'grad_norm': 1.3963475227355957, 'learning_rate': 8.57470385938097e-06, 'epoch': 0.69}
  3%|▎         | 2247/78504 [1:21:46<27:39:59,  1.31s/it]  3%|▎         | 2248/78504 [1:21:47<25:41:58,  1.21s/it]                                                         {'loss': 0.3639, 'grad_norm': 2.333280563354492, 'learning_rate': 8.57852502865877e-06, 'epoch': 0.69}
  3%|▎         | 2248/78504 [1:21:47<25:41:58,  1.21s/it]  3%|▎         | 2249/78504 [1:21:48<24:00:19,  1.13s/it]                                                         {'loss': 0.3951, 'grad_norm': 2.0362138748168945, 'learning_rate': 8.58234619793657e-06, 'epoch': 0.69}
  3%|▎         | 2249/78504 [1:21:48<24:00:19,  1.13s/it]  3%|▎         | 2250/78504 [1:21:49<21:46:14,  1.03s/it]                                                         {'loss': 0.4414, 'grad_norm': 2.4964733123779297, 'learning_rate': 8.586167367214369e-06, 'epoch': 0.69}
  3%|▎         | 2250/78504 [1:21:49<21:46:14,  1.03s/it]  3%|▎         | 2251/78504 [1:21:57<64:07:00,  3.03s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.5067337155342102, 'learning_rate': 8.589988536492167e-06, 'epoch': 0.69}
  3%|▎         | 2251/78504 [1:21:57<64:07:00,  3.03s/it]  3%|▎         | 2252/78504 [1:22:00<64:43:19,  3.06s/it]                                                         {'loss': 0.1451, 'grad_norm': 0.45199164748191833, 'learning_rate': 8.593809705769966e-06, 'epoch': 0.69}
  3%|▎         | 2252/78504 [1:22:00<64:43:19,  3.06s/it]  3%|▎         | 2253/78504 [1:22:03<64:18:48,  3.04s/it]                                                         {'loss': 0.1239, 'grad_norm': 0.5657305121421814, 'learning_rate': 8.597630875047765e-06, 'epoch': 0.69}
  3%|▎         | 2253/78504 [1:22:03<64:18:48,  3.04s/it]  3%|▎         | 2254/78504 [1:22:06<61:29:11,  2.90s/it]                                                         {'loss': 0.106, 'grad_norm': 0.4357755482196808, 'learning_rate': 8.601452044325564e-06, 'epoch': 0.69}
  3%|▎         | 2254/78504 [1:22:06<61:29:11,  2.90s/it]  3%|▎         | 2255/78504 [1:22:08<58:55:03,  2.78s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.38092732429504395, 'learning_rate': 8.605273213603362e-06, 'epoch': 0.69}
  3%|▎         | 2255/78504 [1:22:08<58:55:03,  2.78s/it]  3%|▎         | 2256/78504 [1:22:10<56:13:15,  2.65s/it]                                                         {'loss': 0.109, 'grad_norm': 0.530462920665741, 'learning_rate': 8.609094382881161e-06, 'epoch': 0.69}
  3%|▎         | 2256/78504 [1:22:10<56:13:15,  2.65s/it]  3%|▎         | 2257/78504 [1:22:13<54:13:32,  2.56s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.504198431968689, 'learning_rate': 8.612915552158962e-06, 'epoch': 0.69}
  3%|▎         | 2257/78504 [1:22:13<54:13:32,  2.56s/it]  3%|▎         | 2258/78504 [1:22:15<51:14:38,  2.42s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.7219339609146118, 'learning_rate': 8.61673672143676e-06, 'epoch': 0.69}
  3%|▎         | 2258/78504 [1:22:15<51:14:38,  2.42s/it]  3%|▎         | 2259/78504 [1:22:17<48:47:21,  2.30s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.8413931727409363, 'learning_rate': 8.620557890714559e-06, 'epoch': 0.69}
  3%|▎         | 2259/78504 [1:22:17<48:47:21,  2.30s/it]  3%|▎         | 2260/78504 [1:22:19<47:46:11,  2.26s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.8333097100257874, 'learning_rate': 8.624379059992358e-06, 'epoch': 0.69}
  3%|▎         | 2260/78504 [1:22:19<47:46:11,  2.26s/it]  3%|▎         | 2261/78504 [1:22:21<46:03:46,  2.17s/it]                                                         {'loss': 0.1166, 'grad_norm': 0.4821109175682068, 'learning_rate': 8.628200229270157e-06, 'epoch': 0.69}
  3%|▎         | 2261/78504 [1:22:21<46:03:46,  2.17s/it]  3%|▎         | 2262/78504 [1:22:23<44:29:02,  2.10s/it]                                                         {'loss': 0.1151, 'grad_norm': 0.6278350949287415, 'learning_rate': 8.632021398547955e-06, 'epoch': 0.69}
  3%|▎         | 2262/78504 [1:22:23<44:29:02,  2.10s/it]  3%|▎         | 2263/78504 [1:22:25<43:04:30,  2.03s/it]                                                         {'loss': 0.1578, 'grad_norm': 0.5334621071815491, 'learning_rate': 8.635842567825754e-06, 'epoch': 0.69}
  3%|▎         | 2263/78504 [1:22:25<43:04:30,  2.03s/it]  3%|▎         | 2264/78504 [1:22:27<41:07:53,  1.94s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.5672036409378052, 'learning_rate': 8.639663737103553e-06, 'epoch': 0.69}
  3%|▎         | 2264/78504 [1:22:27<41:07:53,  1.94s/it]  3%|▎         | 2265/78504 [1:22:28<40:03:45,  1.89s/it]                                                         {'loss': 0.1836, 'grad_norm': 0.6677817702293396, 'learning_rate': 8.643484906381353e-06, 'epoch': 0.69}
  3%|▎         | 2265/78504 [1:22:28<40:03:45,  1.89s/it]  3%|▎         | 2266/78504 [1:22:30<38:33:46,  1.82s/it]                                                         {'loss': 0.2437, 'grad_norm': 1.122306227684021, 'learning_rate': 8.647306075659152e-06, 'epoch': 0.69}
  3%|▎         | 2266/78504 [1:22:30<38:33:46,  1.82s/it]  3%|▎         | 2267/78504 [1:22:32<36:40:03,  1.73s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.9394242763519287, 'learning_rate': 8.65112724493695e-06, 'epoch': 0.69}
  3%|▎         | 2267/78504 [1:22:32<36:40:03,  1.73s/it]  3%|▎         | 2268/78504 [1:22:33<34:44:46,  1.64s/it]                                                         {'loss': 0.2573, 'grad_norm': 1.2128372192382812, 'learning_rate': 8.65494841421475e-06, 'epoch': 0.69}
  3%|▎         | 2268/78504 [1:22:33<34:44:46,  1.64s/it]  3%|▎         | 2269/78504 [1:22:34<33:15:56,  1.57s/it]                                                         {'loss': 0.2794, 'grad_norm': 1.23612380027771, 'learning_rate': 8.658769583492548e-06, 'epoch': 0.69}
  3%|▎         | 2269/78504 [1:22:34<33:15:56,  1.57s/it]  3%|▎         | 2270/78504 [1:22:36<31:01:59,  1.47s/it]                                                         {'loss': 0.2802, 'grad_norm': 0.931220531463623, 'learning_rate': 8.662590752770347e-06, 'epoch': 0.69}
  3%|▎         | 2270/78504 [1:22:36<31:01:59,  1.47s/it]  3%|▎         | 2271/78504 [1:22:37<28:52:41,  1.36s/it]                                                         {'loss': 0.2653, 'grad_norm': 1.1379950046539307, 'learning_rate': 8.666411922048146e-06, 'epoch': 0.69}
  3%|▎         | 2271/78504 [1:22:37<28:52:41,  1.36s/it]  3%|▎         | 2272/78504 [1:22:38<27:09:44,  1.28s/it]                                                         {'loss': 0.2762, 'grad_norm': 2.062136173248291, 'learning_rate': 8.670233091325945e-06, 'epoch': 0.69}
  3%|▎         | 2272/78504 [1:22:38<27:09:44,  1.28s/it]  3%|▎         | 2273/78504 [1:22:39<25:20:32,  1.20s/it]                                                         {'loss': 0.331, 'grad_norm': 1.8608852624893188, 'learning_rate': 8.674054260603745e-06, 'epoch': 0.69}
  3%|▎         | 2273/78504 [1:22:39<25:20:32,  1.20s/it]  3%|▎         | 2274/78504 [1:22:40<23:43:02,  1.12s/it]                                                         {'loss': 0.3427, 'grad_norm': 1.8502509593963623, 'learning_rate': 8.677875429881544e-06, 'epoch': 0.7}
  3%|▎         | 2274/78504 [1:22:40<23:43:02,  1.12s/it]  3%|▎         | 2275/78504 [1:22:41<21:34:02,  1.02s/it]                                                         {'loss': 0.4411, 'grad_norm': 1.6292979717254639, 'learning_rate': 8.681696599159342e-06, 'epoch': 0.7}
  3%|▎         | 2275/78504 [1:22:41<21:34:02,  1.02s/it]  3%|▎         | 2276/78504 [1:22:51<81:51:05,  3.87s/it]                                                         {'loss': 0.239, 'grad_norm': 0.7640476226806641, 'learning_rate': 8.685517768437141e-06, 'epoch': 0.7}
  3%|▎         | 2276/78504 [1:22:51<81:51:05,  3.87s/it]  3%|▎         | 2277/78504 [1:22:54<78:41:05,  3.72s/it]                                                         {'loss': 0.1359, 'grad_norm': 0.43284645676612854, 'learning_rate': 8.689338937714942e-06, 'epoch': 0.7}
  3%|▎         | 2277/78504 [1:22:54<78:41:05,  3.72s/it]  3%|▎         | 2278/78504 [1:22:57<71:25:01,  3.37s/it]                                                         {'loss': 0.1246, 'grad_norm': 0.44169285893440247, 'learning_rate': 8.69316010699274e-06, 'epoch': 0.7}
  3%|▎         | 2278/78504 [1:22:57<71:25:01,  3.37s/it]  3%|▎         | 2279/78504 [1:23:00<66:36:51,  3.15s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.4845556318759918, 'learning_rate': 8.696981276270539e-06, 'epoch': 0.7}
  3%|▎         | 2279/78504 [1:23:00<66:36:51,  3.15s/it]  3%|▎         | 2280/78504 [1:23:02<62:19:41,  2.94s/it]                                                         {'loss': 0.1021, 'grad_norm': 0.5113290548324585, 'learning_rate': 8.70080244554834e-06, 'epoch': 0.7}
  3%|▎         | 2280/78504 [1:23:02<62:19:41,  2.94s/it]  3%|▎         | 2281/78504 [1:23:04<59:04:27,  2.79s/it]                                                         {'loss': 0.109, 'grad_norm': 0.4943855106830597, 'learning_rate': 8.704623614826138e-06, 'epoch': 0.7}
  3%|▎         | 2281/78504 [1:23:04<59:04:27,  2.79s/it]  3%|▎         | 2282/78504 [1:23:07<56:13:10,  2.66s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.49679869413375854, 'learning_rate': 8.708444784103937e-06, 'epoch': 0.7}
  3%|▎         | 2282/78504 [1:23:07<56:13:10,  2.66s/it]  3%|▎         | 2283/78504 [1:23:09<52:50:40,  2.50s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.8132513165473938, 'learning_rate': 8.712265953381736e-06, 'epoch': 0.7}
  3%|▎         | 2283/78504 [1:23:09<52:50:40,  2.50s/it]  3%|▎         | 2284/78504 [1:23:11<50:51:53,  2.40s/it]                                                         {'loss': 0.1175, 'grad_norm': 0.4840562045574188, 'learning_rate': 8.716087122659535e-06, 'epoch': 0.7}
  3%|▎         | 2284/78504 [1:23:11<50:51:53,  2.40s/it]  3%|▎         | 2285/78504 [1:23:13<49:18:01,  2.33s/it]                                                         {'loss': 0.1259, 'grad_norm': 0.5090274810791016, 'learning_rate': 8.719908291937333e-06, 'epoch': 0.7}
  3%|▎         | 2285/78504 [1:23:13<49:18:01,  2.33s/it]  3%|▎         | 2286/78504 [1:23:15<46:19:33,  2.19s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.9197195172309875, 'learning_rate': 8.723729461215132e-06, 'epoch': 0.7}
  3%|▎         | 2286/78504 [1:23:15<46:19:33,  2.19s/it]  3%|▎         | 2287/78504 [1:23:17<45:02:03,  2.13s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.5403217673301697, 'learning_rate': 8.72755063049293e-06, 'epoch': 0.7}
  3%|▎         | 2287/78504 [1:23:17<45:02:03,  2.13s/it]  3%|▎         | 2288/78504 [1:23:19<43:23:23,  2.05s/it]                                                         {'loss': 0.1516, 'grad_norm': 0.6682656407356262, 'learning_rate': 8.731371799770731e-06, 'epoch': 0.7}
  3%|▎         | 2288/78504 [1:23:19<43:23:23,  2.05s/it]  3%|▎         | 2289/78504 [1:23:21<42:03:31,  1.99s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.5218607783317566, 'learning_rate': 8.73519296904853e-06, 'epoch': 0.7}
  3%|▎         | 2289/78504 [1:23:21<42:03:31,  1.99s/it]  3%|▎         | 2290/78504 [1:23:23<40:22:43,  1.91s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.5985652804374695, 'learning_rate': 8.739014138326329e-06, 'epoch': 0.7}
  3%|▎         | 2290/78504 [1:23:23<40:22:43,  1.91s/it]  3%|▎         | 2291/78504 [1:23:24<38:44:27,  1.83s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.847692608833313, 'learning_rate': 8.742835307604127e-06, 'epoch': 0.7}
  3%|▎         | 2291/78504 [1:23:24<38:44:27,  1.83s/it]  3%|▎         | 2292/78504 [1:23:26<36:55:25,  1.74s/it]                                                         {'loss': 0.2297, 'grad_norm': 0.8565949201583862, 'learning_rate': 8.746656476881926e-06, 'epoch': 0.7}
  3%|▎         | 2292/78504 [1:23:26<36:55:25,  1.74s/it]  3%|▎         | 2293/78504 [1:23:27<34:55:35,  1.65s/it]                                                         {'loss': 0.2547, 'grad_norm': 1.0674355030059814, 'learning_rate': 8.750477646159725e-06, 'epoch': 0.7}
  3%|▎         | 2293/78504 [1:23:27<34:55:35,  1.65s/it]  3%|▎         | 2294/78504 [1:23:29<33:24:37,  1.58s/it]                                                         {'loss': 0.2686, 'grad_norm': 0.9931284785270691, 'learning_rate': 8.754298815437524e-06, 'epoch': 0.7}
  3%|▎         | 2294/78504 [1:23:29<33:24:37,  1.58s/it]  3%|▎         | 2295/78504 [1:23:30<31:09:42,  1.47s/it]                                                         {'loss': 0.2767, 'grad_norm': 1.1029061079025269, 'learning_rate': 8.758119984715322e-06, 'epoch': 0.7}
  3%|▎         | 2295/78504 [1:23:30<31:09:42,  1.47s/it]  3%|▎         | 2296/78504 [1:23:31<29:08:11,  1.38s/it]                                                         {'loss': 0.3167, 'grad_norm': 1.1337616443634033, 'learning_rate': 8.761941153993123e-06, 'epoch': 0.7}
  3%|▎         | 2296/78504 [1:23:31<29:08:11,  1.38s/it]  3%|▎         | 2297/78504 [1:23:32<27:22:01,  1.29s/it]                                                         {'loss': 0.2728, 'grad_norm': 2.6895012855529785, 'learning_rate': 8.765762323270922e-06, 'epoch': 0.7}
  3%|▎         | 2297/78504 [1:23:32<27:22:01,  1.29s/it]  3%|▎         | 2298/78504 [1:23:33<25:24:11,  1.20s/it]                                                         {'loss': 0.2959, 'grad_norm': 1.9623466730117798, 'learning_rate': 8.76958349254872e-06, 'epoch': 0.7}
  3%|▎         | 2298/78504 [1:23:33<25:24:11,  1.20s/it]  3%|▎         | 2299/78504 [1:23:34<23:42:23,  1.12s/it]                                                         {'loss': 0.3601, 'grad_norm': 1.460923433303833, 'learning_rate': 8.773404661826519e-06, 'epoch': 0.7}
  3%|▎         | 2299/78504 [1:23:34<23:42:23,  1.12s/it]  3%|▎         | 2300/78504 [1:23:35<21:36:41,  1.02s/it]                                                         {'loss': 0.3978, 'grad_norm': 2.394845724105835, 'learning_rate': 8.777225831104318e-06, 'epoch': 0.7}
  3%|▎         | 2300/78504 [1:23:35<21:36:41,  1.02s/it]  3%|▎         | 2301/78504 [1:23:43<67:59:00,  3.21s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.5000455975532532, 'learning_rate': 8.781047000382117e-06, 'epoch': 0.7}
  3%|▎         | 2301/78504 [1:23:43<67:59:00,  3.21s/it]  3%|▎         | 2302/78504 [1:23:46<67:27:00,  3.19s/it]                                                         {'loss': 0.1404, 'grad_norm': 0.6097943782806396, 'learning_rate': 8.784868169659915e-06, 'epoch': 0.7}
  3%|▎         | 2302/78504 [1:23:46<67:27:00,  3.19s/it]  3%|▎         | 2303/78504 [1:23:49<66:24:46,  3.14s/it]                                                         {'loss': 0.1436, 'grad_norm': 0.47218140959739685, 'learning_rate': 8.788689338937714e-06, 'epoch': 0.7}
  3%|▎         | 2303/78504 [1:23:49<66:24:46,  3.14s/it]  3%|▎         | 2304/78504 [1:23:52<62:58:58,  2.98s/it]                                                         {'loss': 0.1068, 'grad_norm': 0.9118728041648865, 'learning_rate': 8.792510508215515e-06, 'epoch': 0.7}
  3%|▎         | 2304/78504 [1:23:52<62:58:58,  2.98s/it]  3%|▎         | 2305/78504 [1:23:54<59:06:52,  2.79s/it]                                                         {'loss': 0.0879, 'grad_norm': 0.4284038245677948, 'learning_rate': 8.796331677493313e-06, 'epoch': 0.7}
  3%|▎         | 2305/78504 [1:23:54<59:06:52,  2.79s/it]  3%|▎         | 2306/78504 [1:23:56<55:46:05,  2.63s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.43854203820228577, 'learning_rate': 8.800152846771112e-06, 'epoch': 0.7}
  3%|▎         | 2306/78504 [1:23:56<55:46:05,  2.63s/it]  3%|▎         | 2307/78504 [1:23:59<53:49:18,  2.54s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.37134239077568054, 'learning_rate': 8.80397401604891e-06, 'epoch': 0.71}
  3%|▎         | 2307/78504 [1:23:59<53:49:18,  2.54s/it]  3%|▎         | 2308/78504 [1:24:01<50:58:51,  2.41s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.3931886851787567, 'learning_rate': 8.80779518532671e-06, 'epoch': 0.71}
  3%|▎         | 2308/78504 [1:24:01<50:58:51,  2.41s/it]  3%|▎         | 2309/78504 [1:24:03<48:41:06,  2.30s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.503882884979248, 'learning_rate': 8.811616354604508e-06, 'epoch': 0.71}
  3%|▎         | 2309/78504 [1:24:03<48:41:06,  2.30s/it]  3%|▎         | 2310/78504 [1:24:05<47:42:03,  2.25s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.5988165140151978, 'learning_rate': 8.815437523882307e-06, 'epoch': 0.71}
  3%|▎         | 2310/78504 [1:24:05<47:42:03,  2.25s/it]  3%|▎         | 2311/78504 [1:24:07<46:03:55,  2.18s/it]                                                         {'loss': 0.169, 'grad_norm': 0.613615095615387, 'learning_rate': 8.819258693160107e-06, 'epoch': 0.71}
  3%|▎         | 2311/78504 [1:24:07<46:03:55,  2.18s/it]  3%|▎         | 2312/78504 [1:24:09<44:30:34,  2.10s/it]                                                         {'loss': 0.149, 'grad_norm': 1.2925477027893066, 'learning_rate': 8.823079862437906e-06, 'epoch': 0.71}
  3%|▎         | 2312/78504 [1:24:09<44:30:34,  2.10s/it]  3%|▎         | 2313/78504 [1:24:11<43:00:20,  2.03s/it]                                                         {'loss': 0.1373, 'grad_norm': 0.6035140156745911, 'learning_rate': 8.826901031715705e-06, 'epoch': 0.71}
  3%|▎         | 2313/78504 [1:24:11<43:00:20,  2.03s/it]  3%|▎         | 2314/78504 [1:24:13<40:59:28,  1.94s/it]                                                         {'loss': 0.1638, 'grad_norm': 3.823395013809204, 'learning_rate': 8.830722200993504e-06, 'epoch': 0.71}
  3%|▎         | 2314/78504 [1:24:13<40:59:28,  1.94s/it]  3%|▎         | 2315/78504 [1:24:14<39:58:04,  1.89s/it]                                                         {'loss': 0.1764, 'grad_norm': 0.7739012837409973, 'learning_rate': 8.834543370271302e-06, 'epoch': 0.71}
  3%|▎         | 2315/78504 [1:24:14<39:58:04,  1.89s/it]  3%|▎         | 2316/78504 [1:24:16<38:23:19,  1.81s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.7637941837310791, 'learning_rate': 8.838364539549103e-06, 'epoch': 0.71}
  3%|▎         | 2316/78504 [1:24:16<38:23:19,  1.81s/it]  3%|▎         | 2317/78504 [1:24:18<36:29:30,  1.72s/it]                                                         {'loss': 0.2168, 'grad_norm': 1.144938588142395, 'learning_rate': 8.842185708826902e-06, 'epoch': 0.71}
  3%|▎         | 2317/78504 [1:24:18<36:29:30,  1.72s/it]  3%|▎         | 2318/78504 [1:24:19<34:38:06,  1.64s/it]                                                         {'loss': 0.251, 'grad_norm': 1.0288162231445312, 'learning_rate': 8.8460068781047e-06, 'epoch': 0.71}
  3%|▎         | 2318/78504 [1:24:19<34:38:06,  1.64s/it]  3%|▎         | 2319/78504 [1:24:20<33:14:42,  1.57s/it]                                                         {'loss': 0.2655, 'grad_norm': 1.2882295846939087, 'learning_rate': 8.8498280473825e-06, 'epoch': 0.71}
  3%|▎         | 2319/78504 [1:24:20<33:14:42,  1.57s/it]  3%|▎         | 2320/78504 [1:24:22<31:04:18,  1.47s/it]                                                         {'loss': 0.257, 'grad_norm': 1.0414283275604248, 'learning_rate': 8.8536492166603e-06, 'epoch': 0.71}
  3%|▎         | 2320/78504 [1:24:22<31:04:18,  1.47s/it]  3%|▎         | 2321/78504 [1:24:23<29:02:37,  1.37s/it]                                                         {'loss': 0.2826, 'grad_norm': 1.8675198554992676, 'learning_rate': 8.857470385938098e-06, 'epoch': 0.71}
  3%|▎         | 2321/78504 [1:24:23<29:02:37,  1.37s/it]  3%|▎         | 2322/78504 [1:24:24<27:28:19,  1.30s/it]                                                         {'loss': 0.3105, 'grad_norm': 1.8178998231887817, 'learning_rate': 8.861291555215897e-06, 'epoch': 0.71}
  3%|▎         | 2322/78504 [1:24:24<27:28:19,  1.30s/it]  3%|▎         | 2323/78504 [1:24:25<25:36:24,  1.21s/it]                                                         {'loss': 0.3021, 'grad_norm': 1.3213679790496826, 'learning_rate': 8.865112724493696e-06, 'epoch': 0.71}
  3%|▎         | 2323/78504 [1:24:25<25:36:24,  1.21s/it]  3%|▎         | 2324/78504 [1:24:26<23:51:48,  1.13s/it]                                                         {'loss': 0.377, 'grad_norm': 1.5043472051620483, 'learning_rate': 8.868933893771494e-06, 'epoch': 0.71}
  3%|▎         | 2324/78504 [1:24:26<23:51:48,  1.13s/it]  3%|▎         | 2325/78504 [1:24:27<21:30:58,  1.02s/it]                                                         {'loss': 0.4413, 'grad_norm': 2.510061025619507, 'learning_rate': 8.872755063049293e-06, 'epoch': 0.71}
  3%|▎         | 2325/78504 [1:24:27<21:30:58,  1.02s/it]  3%|▎         | 2326/78504 [1:24:34<60:49:49,  2.87s/it]                                                         {'loss': 0.2295, 'grad_norm': 0.5274940729141235, 'learning_rate': 8.876576232327092e-06, 'epoch': 0.71}
  3%|▎         | 2326/78504 [1:24:34<60:49:49,  2.87s/it]  3%|▎         | 2327/78504 [1:24:37<61:08:52,  2.89s/it]                                                         {'loss': 0.1554, 'grad_norm': 0.4964894652366638, 'learning_rate': 8.880397401604892e-06, 'epoch': 0.71}
  3%|▎         | 2327/78504 [1:24:37<61:08:52,  2.89s/it]  3%|▎         | 2328/78504 [1:24:40<61:21:16,  2.90s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.6294508576393127, 'learning_rate': 8.884218570882691e-06, 'epoch': 0.71}
  3%|▎         | 2328/78504 [1:24:40<61:21:16,  2.90s/it]  3%|▎         | 2329/78504 [1:24:42<59:25:49,  2.81s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.4254167973995209, 'learning_rate': 8.88803974016049e-06, 'epoch': 0.71}
  3%|▎         | 2329/78504 [1:24:42<59:25:49,  2.81s/it]  3%|▎         | 2330/78504 [1:24:45<57:29:56,  2.72s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.5516884326934814, 'learning_rate': 8.891860909438289e-06, 'epoch': 0.71}
  3%|▎         | 2330/78504 [1:24:45<57:29:56,  2.72s/it]  3%|▎         | 2331/78504 [1:24:47<55:57:05,  2.64s/it]                                                         {'loss': 0.1055, 'grad_norm': 0.4276992678642273, 'learning_rate': 8.895682078716087e-06, 'epoch': 0.71}
  3%|▎         | 2331/78504 [1:24:47<55:57:05,  2.64s/it]  3%|▎         | 2332/78504 [1:24:50<53:59:11,  2.55s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.6422765851020813, 'learning_rate': 8.899503247993886e-06, 'epoch': 0.71}
  3%|▎         | 2332/78504 [1:24:50<53:59:11,  2.55s/it]  3%|▎         | 2333/78504 [1:24:52<52:22:30,  2.48s/it]                                                         {'loss': 0.1007, 'grad_norm': 0.4808218777179718, 'learning_rate': 8.903324417271685e-06, 'epoch': 0.71}
  3%|▎         | 2333/78504 [1:24:52<52:22:30,  2.48s/it]  3%|▎         | 2334/78504 [1:24:54<50:35:33,  2.39s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.45484215021133423, 'learning_rate': 8.907145586549484e-06, 'epoch': 0.71}
  3%|▎         | 2334/78504 [1:24:54<50:35:33,  2.39s/it]  3%|▎         | 2335/78504 [1:24:56<49:05:55,  2.32s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.6082325577735901, 'learning_rate': 8.910966755827284e-06, 'epoch': 0.71}
  3%|▎         | 2335/78504 [1:24:56<49:05:55,  2.32s/it]  3%|▎         | 2336/78504 [1:24:58<47:14:16,  2.23s/it]                                                         {'loss': 0.1191, 'grad_norm': 0.49855417013168335, 'learning_rate': 8.914787925105083e-06, 'epoch': 0.71}
  3%|▎         | 2336/78504 [1:24:58<47:14:16,  2.23s/it]  3%|▎         | 2337/78504 [1:25:00<45:40:02,  2.16s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.655446469783783, 'learning_rate': 8.918609094382882e-06, 'epoch': 0.71}
  3%|▎         | 2337/78504 [1:25:00<45:40:02,  2.16s/it]  3%|▎         | 2338/78504 [1:25:02<43:57:45,  2.08s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.6854950785636902, 'learning_rate': 8.92243026366068e-06, 'epoch': 0.71}
  3%|▎         | 2338/78504 [1:25:02<43:57:45,  2.08s/it]  3%|▎         | 2339/78504 [1:25:04<42:34:53,  2.01s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.9457300901412964, 'learning_rate': 8.926251432938479e-06, 'epoch': 0.72}
  3%|▎         | 2339/78504 [1:25:04<42:34:53,  2.01s/it]  3%|▎         | 2340/78504 [1:25:06<41:01:59,  1.94s/it]                                                         {'loss': 0.2032, 'grad_norm': 0.8044342994689941, 'learning_rate': 8.930072602216278e-06, 'epoch': 0.72}
  3%|▎         | 2340/78504 [1:25:06<41:01:59,  1.94s/it]  3%|▎         | 2341/78504 [1:25:07<39:09:56,  1.85s/it]                                                         {'loss': 0.2201, 'grad_norm': 0.7724645733833313, 'learning_rate': 8.933893771494077e-06, 'epoch': 0.72}
  3%|▎         | 2341/78504 [1:25:07<39:09:56,  1.85s/it]  3%|▎         | 2342/78504 [1:25:09<37:12:48,  1.76s/it]                                                         {'loss': 0.2304, 'grad_norm': 1.1193134784698486, 'learning_rate': 8.937714940771877e-06, 'epoch': 0.72}
  3%|▎         | 2342/78504 [1:25:09<37:12:48,  1.76s/it]  3%|▎         | 2343/78504 [1:25:10<35:23:29,  1.67s/it]                                                         {'loss': 0.2337, 'grad_norm': 0.8979930281639099, 'learning_rate': 8.941536110049676e-06, 'epoch': 0.72}
  3%|▎         | 2343/78504 [1:25:10<35:23:29,  1.67s/it]  3%|▎         | 2344/78504 [1:25:12<33:39:12,  1.59s/it]                                                         {'loss': 0.269, 'grad_norm': 1.0020456314086914, 'learning_rate': 8.945357279327474e-06, 'epoch': 0.72}
  3%|▎         | 2344/78504 [1:25:12<33:39:12,  1.59s/it]  3%|▎         | 2345/78504 [1:25:13<31:41:27,  1.50s/it]                                                         {'loss': 0.2512, 'grad_norm': 1.0708725452423096, 'learning_rate': 8.949178448605273e-06, 'epoch': 0.72}
  3%|▎         | 2345/78504 [1:25:13<31:41:27,  1.50s/it]  3%|▎         | 2346/78504 [1:25:14<29:51:41,  1.41s/it]                                                         {'loss': 0.2635, 'grad_norm': 1.7721545696258545, 'learning_rate': 8.952999617883072e-06, 'epoch': 0.72}
  3%|▎         | 2346/78504 [1:25:14<29:51:41,  1.41s/it]  3%|▎         | 2347/78504 [1:25:15<27:51:49,  1.32s/it]                                                         {'loss': 0.3334, 'grad_norm': 1.427876353263855, 'learning_rate': 8.95682078716087e-06, 'epoch': 0.72}
  3%|▎         | 2347/78504 [1:25:15<27:51:49,  1.32s/it]  3%|▎         | 2348/78504 [1:25:16<26:09:10,  1.24s/it]                                                         {'loss': 0.3112, 'grad_norm': 1.6724989414215088, 'learning_rate': 8.96064195643867e-06, 'epoch': 0.72}
  3%|▎         | 2348/78504 [1:25:16<26:09:10,  1.24s/it]  3%|▎         | 2349/78504 [1:25:17<24:09:37,  1.14s/it]                                                         {'loss': 0.3799, 'grad_norm': 2.3301873207092285, 'learning_rate': 8.964463125716468e-06, 'epoch': 0.72}
  3%|▎         | 2349/78504 [1:25:17<24:09:37,  1.14s/it]  3%|▎         | 2350/78504 [1:25:18<21:59:52,  1.04s/it]                                                         {'loss': 0.399, 'grad_norm': 2.663996696472168, 'learning_rate': 8.968284294994269e-06, 'epoch': 0.72}
  3%|▎         | 2350/78504 [1:25:18<21:59:52,  1.04s/it]  3%|▎         | 2351/78504 [1:25:26<65:22:02,  3.09s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.6381139755249023, 'learning_rate': 8.972105464272067e-06, 'epoch': 0.72}
  3%|▎         | 2351/78504 [1:25:26<65:22:02,  3.09s/it]  3%|▎         | 2352/78504 [1:25:29<67:03:01,  3.17s/it]                                                         {'loss': 0.1363, 'grad_norm': 0.44501152634620667, 'learning_rate': 8.975926633549866e-06, 'epoch': 0.72}
  3%|▎         | 2352/78504 [1:25:29<67:03:01,  3.17s/it]  3%|▎         | 2353/78504 [1:25:32<63:15:35,  2.99s/it]                                                         {'loss': 0.1252, 'grad_norm': 0.9872630834579468, 'learning_rate': 8.979747802827665e-06, 'epoch': 0.72}
  3%|▎         | 2353/78504 [1:25:32<63:15:35,  2.99s/it]  3%|▎         | 2354/78504 [1:25:35<60:51:16,  2.88s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.34286537766456604, 'learning_rate': 8.983568972105464e-06, 'epoch': 0.72}
  3%|▎         | 2354/78504 [1:25:35<60:51:16,  2.88s/it]  3%|▎         | 2355/78504 [1:25:37<58:26:03,  2.76s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.5091730356216431, 'learning_rate': 8.987390141383264e-06, 'epoch': 0.72}
  3%|▎         | 2355/78504 [1:25:37<58:26:03,  2.76s/it]  3%|▎         | 2356/78504 [1:25:39<56:20:02,  2.66s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.5159571170806885, 'learning_rate': 8.991211310661063e-06, 'epoch': 0.72}
  3%|▎         | 2356/78504 [1:25:40<56:20:02,  2.66s/it]  3%|▎         | 2357/78504 [1:25:42<54:10:28,  2.56s/it]                                                         {'loss': 0.1182, 'grad_norm': 0.4927806258201599, 'learning_rate': 8.995032479938862e-06, 'epoch': 0.72}
  3%|▎         | 2357/78504 [1:25:42<54:10:28,  2.56s/it]  3%|▎         | 2358/78504 [1:25:44<51:21:23,  2.43s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.44063276052474976, 'learning_rate': 8.998853649216662e-06, 'epoch': 0.72}
  3%|▎         | 2358/78504 [1:25:44<51:21:23,  2.43s/it]  3%|▎         | 2359/78504 [1:25:46<49:49:19,  2.36s/it]                                                         {'loss': 0.107, 'grad_norm': 0.7033730745315552, 'learning_rate': 9.00267481849446e-06, 'epoch': 0.72}
  3%|▎         | 2359/78504 [1:25:46<49:49:19,  2.36s/it]  3%|▎         | 2360/78504 [1:25:48<48:39:06,  2.30s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.5316545963287354, 'learning_rate': 9.00649598777226e-06, 'epoch': 0.72}
  3%|▎         | 2360/78504 [1:25:48<48:39:06,  2.30s/it]  3%|▎         | 2361/78504 [1:25:50<46:54:42,  2.22s/it]                                                         {'loss': 0.1254, 'grad_norm': 1.0832189321517944, 'learning_rate': 9.010317157050058e-06, 'epoch': 0.72}
  3%|▎         | 2361/78504 [1:25:50<46:54:42,  2.22s/it]  3%|▎         | 2362/78504 [1:25:52<45:24:43,  2.15s/it]                                                         {'loss': 0.1297, 'grad_norm': 0.5308778882026672, 'learning_rate': 9.014138326327857e-06, 'epoch': 0.72}
  3%|▎         | 2362/78504 [1:25:52<45:24:43,  2.15s/it]  3%|▎         | 2363/78504 [1:25:54<43:40:55,  2.07s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.5385238528251648, 'learning_rate': 9.017959495605656e-06, 'epoch': 0.72}
  3%|▎         | 2363/78504 [1:25:54<43:40:55,  2.07s/it]  3%|▎         | 2364/78504 [1:25:56<42:13:41,  2.00s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.9681349992752075, 'learning_rate': 9.021780664883454e-06, 'epoch': 0.72}
  3%|▎         | 2364/78504 [1:25:56<42:13:41,  2.00s/it]  3%|▎         | 2365/78504 [1:25:58<40:06:43,  1.90s/it]                                                         {'loss': 0.2089, 'grad_norm': 0.8247058987617493, 'learning_rate': 9.025601834161253e-06, 'epoch': 0.72}
  3%|▎         | 2365/78504 [1:25:58<40:06:43,  1.90s/it]  3%|▎         | 2366/78504 [1:25:59<38:29:04,  1.82s/it]                                                         {'loss': 0.2221, 'grad_norm': 1.1083128452301025, 'learning_rate': 9.029423003439054e-06, 'epoch': 0.72}
  3%|▎         | 2366/78504 [1:25:59<38:29:04,  1.82s/it]  3%|▎         | 2367/78504 [1:26:01<36:35:37,  1.73s/it]                                                         {'loss': 0.246, 'grad_norm': 1.333994746208191, 'learning_rate': 9.033244172716852e-06, 'epoch': 0.72}
  3%|▎         | 2367/78504 [1:26:01<36:35:37,  1.73s/it]  3%|▎         | 2368/78504 [1:26:02<34:57:37,  1.65s/it]                                                         {'loss': 0.2461, 'grad_norm': 1.5191866159439087, 'learning_rate': 9.037065341994651e-06, 'epoch': 0.72}
  3%|▎         | 2368/78504 [1:26:02<34:57:37,  1.65s/it]  3%|▎         | 2369/78504 [1:26:04<33:29:01,  1.58s/it]                                                         {'loss': 0.2311, 'grad_norm': 1.3066326379776, 'learning_rate': 9.04088651127245e-06, 'epoch': 0.72}
  3%|▎         | 2369/78504 [1:26:04<33:29:01,  1.58s/it]  3%|▎         | 2370/78504 [1:26:05<31:14:05,  1.48s/it]                                                         {'loss': 0.2574, 'grad_norm': 1.1492563486099243, 'learning_rate': 9.044707680550249e-06, 'epoch': 0.72}
  3%|▎         | 2370/78504 [1:26:05<31:14:05,  1.48s/it]  3%|▎         | 2371/78504 [1:26:06<29:01:16,  1.37s/it]                                                         {'loss': 0.2913, 'grad_norm': 1.1902903318405151, 'learning_rate': 9.048528849828047e-06, 'epoch': 0.72}
  3%|▎         | 2371/78504 [1:26:06<29:01:16,  1.37s/it]  3%|▎         | 2372/78504 [1:26:07<27:14:25,  1.29s/it]                                                         {'loss': 0.2678, 'grad_norm': 1.4794169664382935, 'learning_rate': 9.052350019105846e-06, 'epoch': 0.73}
  3%|▎         | 2372/78504 [1:26:07<27:14:25,  1.29s/it]  3%|▎         | 2373/78504 [1:26:08<25:23:35,  1.20s/it]                                                         {'loss': 0.3417, 'grad_norm': 1.6252349615097046, 'learning_rate': 9.056171188383645e-06, 'epoch': 0.73}
  3%|▎         | 2373/78504 [1:26:08<25:23:35,  1.20s/it]  3%|▎         | 2374/78504 [1:26:09<23:42:46,  1.12s/it]                                                         {'loss': 0.3616, 'grad_norm': 2.3861358165740967, 'learning_rate': 9.059992357661445e-06, 'epoch': 0.73}
  3%|▎         | 2374/78504 [1:26:09<23:42:46,  1.12s/it]  3%|▎         | 2375/78504 [1:26:10<21:34:42,  1.02s/it]                                                         {'loss': 0.4314, 'grad_norm': 2.6507456302642822, 'learning_rate': 9.063813526939244e-06, 'epoch': 0.73}
  3%|▎         | 2375/78504 [1:26:10<21:34:42,  1.02s/it]  3%|▎         | 2376/78504 [1:26:18<65:05:39,  3.08s/it]                                                         {'loss': 0.2012, 'grad_norm': 0.6492313146591187, 'learning_rate': 9.067634696217043e-06, 'epoch': 0.73}
  3%|▎         | 2376/78504 [1:26:18<65:05:39,  3.08s/it]  3%|▎         | 2377/78504 [1:26:21<66:19:39,  3.14s/it]                                                         {'loss': 0.1186, 'grad_norm': 0.6160467863082886, 'learning_rate': 9.071455865494841e-06, 'epoch': 0.73}
  3%|▎         | 2377/78504 [1:26:21<66:19:39,  3.14s/it]  3%|▎         | 2378/78504 [1:26:24<65:33:49,  3.10s/it]                                                         {'loss': 0.1174, 'grad_norm': 0.44237270951271057, 'learning_rate': 9.07527703477264e-06, 'epoch': 0.73}
  3%|▎         | 2378/78504 [1:26:24<65:33:49,  3.10s/it]  3%|▎         | 2379/78504 [1:26:27<62:32:41,  2.96s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.4370216727256775, 'learning_rate': 9.079098204050439e-06, 'epoch': 0.73}
  3%|▎         | 2379/78504 [1:26:27<62:32:41,  2.96s/it]  3%|▎         | 2380/78504 [1:26:29<59:27:44,  2.81s/it]                                                         {'loss': 0.0834, 'grad_norm': 0.42271265387535095, 'learning_rate': 9.082919373328238e-06, 'epoch': 0.73}
  3%|▎         | 2380/78504 [1:26:29<59:27:44,  2.81s/it]  3%|▎         | 2381/78504 [1:26:31<56:01:30,  2.65s/it]                                                         {'loss': 0.085, 'grad_norm': 0.34754472970962524, 'learning_rate': 9.086740542606038e-06, 'epoch': 0.73}
  3%|▎         | 2381/78504 [1:26:31<56:01:30,  2.65s/it]  3%|▎         | 2382/78504 [1:26:34<53:56:21,  2.55s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.4635731279850006, 'learning_rate': 9.090561711883837e-06, 'epoch': 0.73}
  3%|▎         | 2382/78504 [1:26:34<53:56:21,  2.55s/it]  3%|▎         | 2383/78504 [1:26:36<51:10:11,  2.42s/it]                                                         {'loss': 0.093, 'grad_norm': 0.6364822387695312, 'learning_rate': 9.094382881161636e-06, 'epoch': 0.73}
  3%|▎         | 2383/78504 [1:26:36<51:10:11,  2.42s/it]  3%|▎         | 2384/78504 [1:26:38<49:42:34,  2.35s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.9228109121322632, 'learning_rate': 9.098204050439434e-06, 'epoch': 0.73}
  3%|▎         | 2384/78504 [1:26:38<49:42:34,  2.35s/it]  3%|▎         | 2385/78504 [1:26:40<48:22:47,  2.29s/it]                                                         {'loss': 0.1198, 'grad_norm': 0.5148409605026245, 'learning_rate': 9.102025219717233e-06, 'epoch': 0.73}
  3%|▎         | 2385/78504 [1:26:40<48:22:47,  2.29s/it]  3%|▎         | 2386/78504 [1:26:42<46:45:06,  2.21s/it]                                                         {'loss': 0.159, 'grad_norm': 0.774448812007904, 'learning_rate': 9.105846388995032e-06, 'epoch': 0.73}
  3%|▎         | 2386/78504 [1:26:42<46:45:06,  2.21s/it]  3%|▎         | 2387/78504 [1:26:44<45:17:51,  2.14s/it]                                                         {'loss': 0.1237, 'grad_norm': 0.5254757404327393, 'learning_rate': 9.10966755827283e-06, 'epoch': 0.73}
  3%|▎         | 2387/78504 [1:26:44<45:17:51,  2.14s/it]  3%|▎         | 2388/78504 [1:26:46<43:31:24,  2.06s/it]                                                         {'loss': 0.1393, 'grad_norm': 1.3450536727905273, 'learning_rate': 9.11348872755063e-06, 'epoch': 0.73}
  3%|▎         | 2388/78504 [1:26:46<43:31:24,  2.06s/it]  3%|▎         | 2389/78504 [1:26:48<42:09:53,  1.99s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.653856635093689, 'learning_rate': 9.11730989682843e-06, 'epoch': 0.73}
  3%|▎         | 2389/78504 [1:26:48<42:09:53,  1.99s/it]  3%|▎         | 2390/78504 [1:26:50<40:48:29,  1.93s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.7850512266159058, 'learning_rate': 9.121131066106229e-06, 'epoch': 0.73}
  3%|▎         | 2390/78504 [1:26:50<40:48:29,  1.93s/it]  3%|▎         | 2391/78504 [1:26:51<39:00:41,  1.85s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.8620153665542603, 'learning_rate': 9.124952235384027e-06, 'epoch': 0.73}
  3%|▎         | 2391/78504 [1:26:51<39:00:41,  1.85s/it]  3%|▎         | 2392/78504 [1:26:53<37:03:50,  1.75s/it]                                                         {'loss': 0.2244, 'grad_norm': 0.9758855104446411, 'learning_rate': 9.128773404661826e-06, 'epoch': 0.73}
  3%|▎         | 2392/78504 [1:26:53<37:03:50,  1.75s/it]  3%|▎         | 2393/78504 [1:26:54<34:58:48,  1.65s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.8017004728317261, 'learning_rate': 9.132594573939625e-06, 'epoch': 0.73}
  3%|▎         | 2393/78504 [1:26:54<34:58:48,  1.65s/it]  3%|▎         | 2394/78504 [1:26:56<33:30:41,  1.59s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.9895491600036621, 'learning_rate': 9.136415743217425e-06, 'epoch': 0.73}
  3%|▎         | 2394/78504 [1:26:56<33:30:41,  1.59s/it]  3%|▎         | 2395/78504 [1:26:57<31:18:35,  1.48s/it]                                                         {'loss': 0.2523, 'grad_norm': 0.9211504459381104, 'learning_rate': 9.140236912495224e-06, 'epoch': 0.73}
  3%|▎         | 2395/78504 [1:26:57<31:18:35,  1.48s/it]  3%|▎         | 2396/78504 [1:26:58<29:07:55,  1.38s/it]                                                         {'loss': 0.2714, 'grad_norm': 1.3325068950653076, 'learning_rate': 9.144058081773023e-06, 'epoch': 0.73}
  3%|▎         | 2396/78504 [1:26:58<29:07:55,  1.38s/it]  3%|▎         | 2397/78504 [1:26:59<27:30:36,  1.30s/it]                                                         {'loss': 0.3217, 'grad_norm': 1.9395289421081543, 'learning_rate': 9.147879251050823e-06, 'epoch': 0.73}
  3%|▎         | 2397/78504 [1:26:59<27:30:36,  1.30s/it]  3%|▎         | 2398/78504 [1:27:00<25:32:11,  1.21s/it]                                                         {'loss': 0.3048, 'grad_norm': 1.7682430744171143, 'learning_rate': 9.151700420328622e-06, 'epoch': 0.73}
  3%|▎         | 2398/78504 [1:27:00<25:32:11,  1.21s/it]  3%|▎         | 2399/78504 [1:27:01<23:47:39,  1.13s/it]                                                         {'loss': 0.3172, 'grad_norm': 1.7665178775787354, 'learning_rate': 9.15552158960642e-06, 'epoch': 0.73}
  3%|▎         | 2399/78504 [1:27:01<23:47:39,  1.13s/it]  3%|▎         | 2400/78504 [1:27:02<21:34:51,  1.02s/it]                                                         {'loss': 0.4002, 'grad_norm': 2.108240842819214, 'learning_rate': 9.15934275888422e-06, 'epoch': 0.73}
  3%|▎         | 2400/78504 [1:27:02<21:34:51,  1.02s/it]  3%|▎         | 2401/78504 [1:27:10<68:34:49,  3.24s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.1000782251358032, 'learning_rate': 9.163163928162018e-06, 'epoch': 0.73}
  3%|▎         | 2401/78504 [1:27:10<68:34:49,  3.24s/it]  3%|▎         | 2402/78504 [1:27:14<69:16:28,  3.28s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.4195878505706787, 'learning_rate': 9.166985097439817e-06, 'epoch': 0.73}
  3%|▎         | 2402/78504 [1:27:14<69:16:28,  3.28s/it]  3%|▎         | 2403/78504 [1:27:17<67:38:10,  3.20s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.5791486501693726, 'learning_rate': 9.170806266717616e-06, 'epoch': 0.73}
  3%|▎         | 2403/78504 [1:27:17<67:38:10,  3.20s/it]  3%|▎         | 2404/78504 [1:27:19<63:55:44,  3.02s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.4480782151222229, 'learning_rate': 9.174627435995414e-06, 'epoch': 0.73}
  3%|▎         | 2404/78504 [1:27:19<63:55:44,  3.02s/it]  3%|▎         | 2405/78504 [1:27:22<60:27:53,  2.86s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.4661538302898407, 'learning_rate': 9.178448605273215e-06, 'epoch': 0.74}
  3%|▎         | 2405/78504 [1:27:22<60:27:53,  2.86s/it]  3%|▎         | 2406/78504 [1:27:24<56:42:53,  2.68s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.4505203664302826, 'learning_rate': 9.182269774551014e-06, 'epoch': 0.74}
  3%|▎         | 2406/78504 [1:27:24<56:42:53,  2.68s/it]  3%|▎         | 2407/78504 [1:27:26<54:26:21,  2.58s/it]                                                         {'loss': 0.0987, 'grad_norm': 0.5235399007797241, 'learning_rate': 9.186090943828812e-06, 'epoch': 0.74}
  3%|▎         | 2407/78504 [1:27:26<54:26:21,  2.58s/it]  3%|▎         | 2408/78504 [1:27:29<51:30:55,  2.44s/it]                                                         {'loss': 0.1223, 'grad_norm': 0.49063459038734436, 'learning_rate': 9.189912113106611e-06, 'epoch': 0.74}
  3%|▎         | 2408/78504 [1:27:29<51:30:55,  2.44s/it]  3%|▎         | 2409/78504 [1:27:31<49:55:31,  2.36s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.388651967048645, 'learning_rate': 9.19373328238441e-06, 'epoch': 0.74}
  3%|▎         | 2409/78504 [1:27:31<49:55:31,  2.36s/it]  3%|▎         | 2410/78504 [1:27:33<48:44:24,  2.31s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.7696850299835205, 'learning_rate': 9.197554451662209e-06, 'epoch': 0.74}
  3%|▎         | 2410/78504 [1:27:33<48:44:24,  2.31s/it]  3%|▎         | 2411/78504 [1:27:35<46:03:03,  2.18s/it]                                                         {'loss': 0.116, 'grad_norm': 0.5919461250305176, 'learning_rate': 9.201375620940007e-06, 'epoch': 0.74}
  3%|▎         | 2411/78504 [1:27:35<46:03:03,  2.18s/it]  3%|▎         | 2412/78504 [1:27:37<44:54:44,  2.12s/it]                                                         {'loss': 0.1168, 'grad_norm': 0.8811898231506348, 'learning_rate': 9.205196790217808e-06, 'epoch': 0.74}
  3%|▎         | 2412/78504 [1:27:37<44:54:44,  2.12s/it]  3%|▎         | 2413/78504 [1:27:39<43:38:25,  2.06s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.6328366994857788, 'learning_rate': 9.209017959495606e-06, 'epoch': 0.74}
  3%|▎         | 2413/78504 [1:27:39<43:38:25,  2.06s/it]  3%|▎         | 2414/78504 [1:27:41<42:17:51,  2.00s/it]                                                         {'loss': 0.175, 'grad_norm': 0.6111212372779846, 'learning_rate': 9.212839128773405e-06, 'epoch': 0.74}
  3%|▎         | 2414/78504 [1:27:41<42:17:51,  2.00s/it]  3%|▎         | 2415/78504 [1:27:42<40:51:19,  1.93s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.896183431148529, 'learning_rate': 9.216660298051204e-06, 'epoch': 0.74}
  3%|▎         | 2415/78504 [1:27:42<40:51:19,  1.93s/it]  3%|▎         | 2416/78504 [1:27:44<38:44:13,  1.83s/it]                                                         {'loss': 0.2025, 'grad_norm': 0.7913030982017517, 'learning_rate': 9.220481467329003e-06, 'epoch': 0.74}
  3%|▎         | 2416/78504 [1:27:44<38:44:13,  1.83s/it]  3%|▎         | 2417/78504 [1:27:45<36:57:42,  1.75s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.7184579372406006, 'learning_rate': 9.224302636606801e-06, 'epoch': 0.74}
  3%|▎         | 2417/78504 [1:27:45<36:57:42,  1.75s/it]  3%|▎         | 2418/78504 [1:27:47<35:24:29,  1.68s/it]                                                         {'loss': 0.2689, 'grad_norm': 1.1730397939682007, 'learning_rate': 9.2281238058846e-06, 'epoch': 0.74}
  3%|▎         | 2418/78504 [1:27:47<35:24:29,  1.68s/it]  3%|▎         | 2419/78504 [1:27:48<33:37:14,  1.59s/it]                                                         {'loss': 0.2636, 'grad_norm': 2.5078048706054688, 'learning_rate': 9.231944975162399e-06, 'epoch': 0.74}
  3%|▎         | 2419/78504 [1:27:48<33:37:14,  1.59s/it]  3%|▎         | 2420/78504 [1:27:50<31:41:49,  1.50s/it]                                                         {'loss': 0.2936, 'grad_norm': 1.3194046020507812, 'learning_rate': 9.2357661444402e-06, 'epoch': 0.74}
  3%|▎         | 2420/78504 [1:27:50<31:41:49,  1.50s/it]  3%|▎         | 2421/78504 [1:27:51<29:27:52,  1.39s/it]                                                         {'loss': 0.3037, 'grad_norm': 1.2152255773544312, 'learning_rate': 9.239587313717998e-06, 'epoch': 0.74}
  3%|▎         | 2421/78504 [1:27:51<29:27:52,  1.39s/it]  3%|▎         | 2422/78504 [1:27:52<27:35:33,  1.31s/it]                                                         {'loss': 0.2717, 'grad_norm': 1.351432204246521, 'learning_rate': 9.243408482995797e-06, 'epoch': 0.74}
  3%|▎         | 2422/78504 [1:27:52<27:35:33,  1.31s/it]  3%|▎         | 2423/78504 [1:27:53<25:56:51,  1.23s/it]                                                         {'loss': 0.3483, 'grad_norm': 1.7026994228363037, 'learning_rate': 9.247229652273596e-06, 'epoch': 0.74}
  3%|▎         | 2423/78504 [1:27:53<25:56:51,  1.23s/it]  3%|▎         | 2424/78504 [1:27:54<25:26:27,  1.20s/it]                                                         {'loss': 0.3087, 'grad_norm': 1.573121428489685, 'learning_rate': 9.251050821551394e-06, 'epoch': 0.74}
  3%|▎         | 2424/78504 [1:27:54<25:26:27,  1.20s/it]  3%|▎         | 2425/78504 [1:27:55<22:37:25,  1.07s/it]                                                         {'loss': 0.4705, 'grad_norm': 2.3626508712768555, 'learning_rate': 9.254871990829193e-06, 'epoch': 0.74}
  3%|▎         | 2425/78504 [1:27:55<22:37:25,  1.07s/it]  3%|▎         | 2426/78504 [1:28:02<62:08:49,  2.94s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.5444228053092957, 'learning_rate': 9.258693160106992e-06, 'epoch': 0.74}
  3%|▎         | 2426/78504 [1:28:02<62:08:49,  2.94s/it]  3%|▎         | 2427/78504 [1:28:05<63:24:24,  3.00s/it]                                                         {'loss': 0.1231, 'grad_norm': 0.6124668717384338, 'learning_rate': 9.26251432938479e-06, 'epoch': 0.74}
  3%|▎         | 2427/78504 [1:28:05<63:24:24,  3.00s/it]  3%|▎         | 2428/78504 [1:28:08<63:31:12,  3.01s/it]                                                         {'loss': 0.157, 'grad_norm': 0.514008641242981, 'learning_rate': 9.266335498662591e-06, 'epoch': 0.74}
  3%|▎         | 2428/78504 [1:28:08<63:31:12,  3.01s/it]  3%|▎         | 2429/78504 [1:28:11<60:50:35,  2.88s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.37836381793022156, 'learning_rate': 9.27015666794039e-06, 'epoch': 0.74}
  3%|▎         | 2429/78504 [1:28:11<60:50:35,  2.88s/it]  3%|▎         | 2430/78504 [1:28:13<58:16:20,  2.76s/it]                                                         {'loss': 0.1055, 'grad_norm': 0.38575801253318787, 'learning_rate': 9.273977837218189e-06, 'epoch': 0.74}
  3%|▎         | 2430/78504 [1:28:13<58:16:20,  2.76s/it]  3%|▎         | 2431/78504 [1:28:16<56:14:46,  2.66s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.4063425660133362, 'learning_rate': 9.277799006495987e-06, 'epoch': 0.74}
  3%|▎         | 2431/78504 [1:28:16<56:14:46,  2.66s/it]  3%|▎         | 2432/78504 [1:28:18<54:04:01,  2.56s/it]                                                         {'loss': 0.1004, 'grad_norm': 0.4100622236728668, 'learning_rate': 9.281620175773786e-06, 'epoch': 0.74}
  3%|▎         | 2432/78504 [1:28:18<54:04:01,  2.56s/it]  3%|▎         | 2433/78504 [1:28:20<51:16:00,  2.43s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.7449556589126587, 'learning_rate': 9.285441345051586e-06, 'epoch': 0.74}
  3%|▎         | 2433/78504 [1:28:20<51:16:00,  2.43s/it]  3%|▎         | 2434/78504 [1:28:22<49:52:10,  2.36s/it]                                                         {'loss': 0.1226, 'grad_norm': 1.0441219806671143, 'learning_rate': 9.289262514329385e-06, 'epoch': 0.74}
  3%|▎         | 2434/78504 [1:28:22<49:52:10,  2.36s/it]  3%|▎         | 2435/78504 [1:28:25<48:27:18,  2.29s/it]                                                         {'loss': 0.133, 'grad_norm': 0.486929327249527, 'learning_rate': 9.293083683607184e-06, 'epoch': 0.74}
  3%|▎         | 2435/78504 [1:28:25<48:27:18,  2.29s/it]  3%|▎         | 2436/78504 [1:28:27<46:34:01,  2.20s/it]                                                         {'loss': 0.113, 'grad_norm': 0.7131247520446777, 'learning_rate': 9.296904852884984e-06, 'epoch': 0.74}
  3%|▎         | 2436/78504 [1:28:27<46:34:01,  2.20s/it]  3%|▎         | 2437/78504 [1:28:29<45:11:33,  2.14s/it]                                                         {'loss': 0.1384, 'grad_norm': 0.6539348363876343, 'learning_rate': 9.300726022162783e-06, 'epoch': 0.75}
  3%|▎         | 2437/78504 [1:28:29<45:11:33,  2.14s/it]  3%|▎         | 2438/78504 [1:28:30<43:27:16,  2.06s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.8282005786895752, 'learning_rate': 9.304547191440582e-06, 'epoch': 0.75}
  3%|▎         | 2438/78504 [1:28:30<43:27:16,  2.06s/it]  3%|▎         | 2439/78504 [1:28:32<41:19:28,  1.96s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.6568138003349304, 'learning_rate': 9.30836836071838e-06, 'epoch': 0.75}
  3%|▎         | 2439/78504 [1:28:32<41:19:28,  1.96s/it]  3%|▎         | 2440/78504 [1:28:34<39:51:50,  1.89s/it]                                                         {'loss': 0.199, 'grad_norm': 0.6615884900093079, 'learning_rate': 9.31218952999618e-06, 'epoch': 0.75}
  3%|▎         | 2440/78504 [1:28:34<39:51:50,  1.89s/it]  3%|▎         | 2441/78504 [1:28:36<38:20:36,  1.81s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.7249413132667542, 'learning_rate': 9.316010699273978e-06, 'epoch': 0.75}
  3%|▎         | 2441/78504 [1:28:36<38:20:36,  1.81s/it]  3%|▎         | 2442/78504 [1:28:37<36:38:40,  1.73s/it]                                                         {'loss': 0.2791, 'grad_norm': 0.8707079291343689, 'learning_rate': 9.319831868551777e-06, 'epoch': 0.75}
  3%|▎         | 2442/78504 [1:28:37<36:38:40,  1.73s/it]  3%|▎         | 2443/78504 [1:28:39<34:44:08,  1.64s/it]                                                         {'loss': 0.2525, 'grad_norm': 1.3782247304916382, 'learning_rate': 9.323653037829577e-06, 'epoch': 0.75}
  3%|▎         | 2443/78504 [1:28:39<34:44:08,  1.64s/it]  3%|▎         | 2444/78504 [1:28:40<33:15:03,  1.57s/it]                                                         {'loss': 0.2578, 'grad_norm': 1.113921046257019, 'learning_rate': 9.327474207107376e-06, 'epoch': 0.75}
  3%|▎         | 2444/78504 [1:28:40<33:15:03,  1.57s/it]  3%|▎         | 2445/78504 [1:28:41<31:00:19,  1.47s/it]                                                         {'loss': 0.2766, 'grad_norm': 1.043644905090332, 'learning_rate': 9.331295376385175e-06, 'epoch': 0.75}
  3%|▎         | 2445/78504 [1:28:41<31:00:19,  1.47s/it]  3%|▎         | 2446/78504 [1:28:42<28:59:23,  1.37s/it]                                                         {'loss': 0.2312, 'grad_norm': 1.070979356765747, 'learning_rate': 9.335116545662974e-06, 'epoch': 0.75}
  3%|▎         | 2446/78504 [1:28:42<28:59:23,  1.37s/it]  3%|▎         | 2447/78504 [1:28:43<27:15:49,  1.29s/it]                                                         {'loss': 0.2739, 'grad_norm': 1.1920804977416992, 'learning_rate': 9.338937714940772e-06, 'epoch': 0.75}
  3%|▎         | 2447/78504 [1:28:43<27:15:49,  1.29s/it]  3%|▎         | 2448/78504 [1:28:44<25:20:56,  1.20s/it]                                                         {'loss': 0.3418, 'grad_norm': 1.5266748666763306, 'learning_rate': 9.342758884218571e-06, 'epoch': 0.75}
  3%|▎         | 2448/78504 [1:28:44<25:20:56,  1.20s/it]  3%|▎         | 2449/78504 [1:28:45<23:42:07,  1.12s/it]                                                         {'loss': 0.3454, 'grad_norm': 1.7952054738998413, 'learning_rate': 9.34658005349637e-06, 'epoch': 0.75}
  3%|▎         | 2449/78504 [1:28:45<23:42:07,  1.12s/it]  3%|▎         | 2450/78504 [1:28:46<21:31:02,  1.02s/it]                                                         {'loss': 0.4205, 'grad_norm': 2.9125685691833496, 'learning_rate': 9.350401222774168e-06, 'epoch': 0.75}
  3%|▎         | 2450/78504 [1:28:46<21:31:02,  1.02s/it]  3%|▎         | 2451/78504 [1:28:54<65:56:07,  3.12s/it]                                                         {'loss': 0.2284, 'grad_norm': 0.7071707248687744, 'learning_rate': 9.354222392051969e-06, 'epoch': 0.75}
  3%|▎         | 2451/78504 [1:28:54<65:56:07,  3.12s/it]  3%|▎         | 2452/78504 [1:28:57<66:05:17,  3.13s/it]                                                         {'loss': 0.1228, 'grad_norm': 0.5182474255561829, 'learning_rate': 9.358043561329768e-06, 'epoch': 0.75}
  3%|▎         | 2452/78504 [1:28:57<66:05:17,  3.13s/it]  3%|▎         | 2453/78504 [1:29:00<62:38:28,  2.97s/it]                                                         {'loss': 0.1117, 'grad_norm': 1.519235372543335, 'learning_rate': 9.361864730607566e-06, 'epoch': 0.75}
  3%|▎         | 2453/78504 [1:29:00<62:38:28,  2.97s/it]  3%|▎         | 2454/78504 [1:29:02<60:11:42,  2.85s/it]                                                         {'loss': 0.1143, 'grad_norm': 0.4408988356590271, 'learning_rate': 9.365685899885365e-06, 'epoch': 0.75}
  3%|▎         | 2454/78504 [1:29:02<60:11:42,  2.85s/it]  3%|▎         | 2455/78504 [1:29:05<57:55:30,  2.74s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.5972708463668823, 'learning_rate': 9.369507069163164e-06, 'epoch': 0.75}
  3%|▎         | 2455/78504 [1:29:05<57:55:30,  2.74s/it]  3%|▎         | 2456/78504 [1:29:07<54:59:55,  2.60s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.48089078068733215, 'learning_rate': 9.373328238440963e-06, 'epoch': 0.75}
  3%|▎         | 2456/78504 [1:29:07<54:59:55,  2.60s/it]  3%|▎         | 2457/78504 [1:29:10<53:17:23,  2.52s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.46935415267944336, 'learning_rate': 9.377149407718761e-06, 'epoch': 0.75}
  3%|▎         | 2457/78504 [1:29:10<53:17:23,  2.52s/it]  3%|▎         | 2458/78504 [1:29:12<50:36:54,  2.40s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.8307324647903442, 'learning_rate': 9.38097057699656e-06, 'epoch': 0.75}
  3%|▎         | 2458/78504 [1:29:12<50:36:54,  2.40s/it]  3%|▎         | 2459/78504 [1:29:14<48:23:54,  2.29s/it]                                                         {'loss': 0.119, 'grad_norm': 0.667719304561615, 'learning_rate': 9.38479174627436e-06, 'epoch': 0.75}
  3%|▎         | 2459/78504 [1:29:14<48:23:54,  2.29s/it]  3%|▎         | 2460/78504 [1:29:16<47:28:54,  2.25s/it]                                                         {'loss': 0.094, 'grad_norm': 0.4444475471973419, 'learning_rate': 9.38861291555216e-06, 'epoch': 0.75}
  3%|▎         | 2460/78504 [1:29:16<47:28:54,  2.25s/it]  3%|▎         | 2461/78504 [1:29:18<46:08:45,  2.18s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.5887052416801453, 'learning_rate': 9.392434084829958e-06, 'epoch': 0.75}
  3%|▎         | 2461/78504 [1:29:18<46:08:45,  2.18s/it]  3%|▎         | 2462/78504 [1:29:20<44:48:44,  2.12s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.573174238204956, 'learning_rate': 9.396255254107757e-06, 'epoch': 0.75}
  3%|▎         | 2462/78504 [1:29:20<44:48:44,  2.12s/it]  3%|▎         | 2463/78504 [1:29:22<43:37:46,  2.07s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.6424505710601807, 'learning_rate': 9.400076423385556e-06, 'epoch': 0.75}
  3%|▎         | 2463/78504 [1:29:22<43:37:46,  2.07s/it]  3%|▎         | 2464/78504 [1:29:24<42:29:15,  2.01s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.9555872082710266, 'learning_rate': 9.403897592663354e-06, 'epoch': 0.75}
  3%|▎         | 2464/78504 [1:29:24<42:29:15,  2.01s/it]  3%|▎         | 2465/78504 [1:29:25<40:57:25,  1.94s/it]                                                         {'loss': 0.1976, 'grad_norm': 0.7887927889823914, 'learning_rate': 9.407718761941153e-06, 'epoch': 0.75}
  3%|▎         | 2465/78504 [1:29:25<40:57:25,  1.94s/it]  3%|▎         | 2466/78504 [1:29:27<39:05:14,  1.85s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.7506389617919922, 'learning_rate': 9.411539931218952e-06, 'epoch': 0.75}
  3%|▎         | 2466/78504 [1:29:27<39:05:14,  1.85s/it]  3%|▎         | 2467/78504 [1:29:29<37:12:15,  1.76s/it]                                                         {'loss': 0.225, 'grad_norm': 0.6936265230178833, 'learning_rate': 9.415361100496752e-06, 'epoch': 0.75}
  3%|▎         | 2467/78504 [1:29:29<37:12:15,  1.76s/it]  3%|▎         | 2468/78504 [1:29:30<35:39:03,  1.69s/it]                                                         {'loss': 0.2408, 'grad_norm': 0.7693415284156799, 'learning_rate': 9.419182269774551e-06, 'epoch': 0.75}
  3%|▎         | 2468/78504 [1:29:30<35:39:03,  1.69s/it]  3%|▎         | 2469/78504 [1:29:32<33:56:02,  1.61s/it]                                                         {'loss': 0.2373, 'grad_norm': 1.0278724431991577, 'learning_rate': 9.42300343905235e-06, 'epoch': 0.75}
  3%|▎         | 2469/78504 [1:29:32<33:56:02,  1.61s/it]  3%|▎         | 2470/78504 [1:29:33<31:57:21,  1.51s/it]                                                         {'loss': 0.241, 'grad_norm': 1.1192102432250977, 'learning_rate': 9.426824608330148e-06, 'epoch': 0.76}
  3%|▎         | 2470/78504 [1:29:33<31:57:21,  1.51s/it]  3%|▎         | 2471/78504 [1:29:34<30:03:01,  1.42s/it]                                                         {'loss': 0.3459, 'grad_norm': 1.360282063484192, 'learning_rate': 9.430645777607947e-06, 'epoch': 0.76}
  3%|▎         | 2471/78504 [1:29:34<30:03:01,  1.42s/it]  3%|▎         | 2472/78504 [1:29:35<27:52:55,  1.32s/it]                                                         {'loss': 0.2947, 'grad_norm': 1.5918654203414917, 'learning_rate': 9.434466946885748e-06, 'epoch': 0.76}
  3%|▎         | 2472/78504 [1:29:35<27:52:55,  1.32s/it]  3%|▎         | 2473/78504 [1:29:36<26:07:26,  1.24s/it]                                                         {'loss': 0.3448, 'grad_norm': 1.684103012084961, 'learning_rate': 9.438288116163546e-06, 'epoch': 0.76}
  3%|▎         | 2473/78504 [1:29:36<26:07:26,  1.24s/it]  3%|▎         | 2474/78504 [1:29:37<24:11:07,  1.15s/it]                                                         {'loss': 0.3109, 'grad_norm': 3.913331985473633, 'learning_rate': 9.442109285441347e-06, 'epoch': 0.76}
  3%|▎         | 2474/78504 [1:29:37<24:11:07,  1.15s/it]  3%|▎         | 2475/78504 [1:29:38<21:55:53,  1.04s/it]                                                         {'loss': 0.4515, 'grad_norm': 4.037960529327393, 'learning_rate': 9.445930454719146e-06, 'epoch': 0.76}
  3%|▎         | 2475/78504 [1:29:38<21:55:53,  1.04s/it]  3%|▎         | 2476/78504 [1:29:47<70:03:26,  3.32s/it]                                                         {'loss': 0.205, 'grad_norm': 0.6110999584197998, 'learning_rate': 9.449751623996944e-06, 'epoch': 0.76}
  3%|▎         | 2476/78504 [1:29:47<70:03:26,  3.32s/it]  3%|▎         | 2477/78504 [1:29:50<68:54:49,  3.26s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.4705647826194763, 'learning_rate': 9.453572793274743e-06, 'epoch': 0.76}
  3%|▎         | 2477/78504 [1:29:50<68:54:49,  3.26s/it]  3%|▎         | 2478/78504 [1:29:53<67:23:06,  3.19s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.42865124344825745, 'learning_rate': 9.457393962552542e-06, 'epoch': 0.76}
  3%|▎         | 2478/78504 [1:29:53<67:23:06,  3.19s/it]  3%|▎         | 2479/78504 [1:29:55<63:44:41,  3.02s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.3670295178890228, 'learning_rate': 9.46121513183034e-06, 'epoch': 0.76}
  3%|▎         | 2479/78504 [1:29:55<63:44:41,  3.02s/it]  3%|▎         | 2480/78504 [1:29:58<60:17:20,  2.85s/it]                                                         {'loss': 0.1128, 'grad_norm': 0.38634631037712097, 'learning_rate': 9.46503630110814e-06, 'epoch': 0.76}
  3%|▎         | 2480/78504 [1:29:58<60:17:20,  2.85s/it]  3%|▎         | 2481/78504 [1:30:00<56:36:00,  2.68s/it]                                                         {'loss': 0.0686, 'grad_norm': 0.3694614768028259, 'learning_rate': 9.468857470385938e-06, 'epoch': 0.76}
  3%|▎         | 2481/78504 [1:30:00<56:36:00,  2.68s/it]  3%|▎         | 2482/78504 [1:30:02<54:21:18,  2.57s/it]                                                         {'loss': 0.108, 'grad_norm': 0.4281258285045624, 'learning_rate': 9.472678639663738e-06, 'epoch': 0.76}
  3%|▎         | 2482/78504 [1:30:02<54:21:18,  2.57s/it]  3%|▎         | 2483/78504 [1:30:05<51:23:32,  2.43s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.4580366313457489, 'learning_rate': 9.476499808941537e-06, 'epoch': 0.76}
  3%|▎         | 2483/78504 [1:30:05<51:23:32,  2.43s/it]  3%|▎         | 2484/78504 [1:30:07<48:53:31,  2.32s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.8265007138252258, 'learning_rate': 9.480320978219336e-06, 'epoch': 0.76}
  3%|▎         | 2484/78504 [1:30:07<48:53:31,  2.32s/it]  3%|▎         | 2485/78504 [1:30:09<47:49:44,  2.27s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.4918110966682434, 'learning_rate': 9.484142147497135e-06, 'epoch': 0.76}
  3%|▎         | 2485/78504 [1:30:09<47:49:44,  2.27s/it]  3%|▎         | 2486/78504 [1:30:11<46:09:11,  2.19s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.6069576740264893, 'learning_rate': 9.487963316774933e-06, 'epoch': 0.76}
  3%|▎         | 2486/78504 [1:30:11<46:09:11,  2.19s/it]  3%|▎         | 2487/78504 [1:30:12<43:42:25,  2.07s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.5939327478408813, 'learning_rate': 9.491784486052732e-06, 'epoch': 0.76}
  3%|▎         | 2487/78504 [1:30:13<43:42:25,  2.07s/it]  3%|▎         | 2488/78504 [1:30:14<42:24:21,  2.01s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.6200658679008484, 'learning_rate': 9.495605655330531e-06, 'epoch': 0.76}
  3%|▎         | 2488/78504 [1:30:14<42:24:21,  2.01s/it]  3%|▎         | 2489/78504 [1:30:16<40:33:55,  1.92s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.6411346197128296, 'learning_rate': 9.49942682460833e-06, 'epoch': 0.76}
  3%|▎         | 2489/78504 [1:30:16<40:33:55,  1.92s/it]  3%|▎         | 2490/78504 [1:30:18<39:18:56,  1.86s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.6577548980712891, 'learning_rate': 9.50324799388613e-06, 'epoch': 0.76}
  3%|▎         | 2490/78504 [1:30:18<39:18:56,  1.86s/it]  3%|▎         | 2491/78504 [1:30:19<38:02:25,  1.80s/it]                                                         {'loss': 0.2228, 'grad_norm': 0.8322537541389465, 'learning_rate': 9.507069163163929e-06, 'epoch': 0.76}
  3%|▎         | 2491/78504 [1:30:19<38:02:25,  1.80s/it]  3%|▎         | 2492/78504 [1:30:21<36:21:04,  1.72s/it]                                                         {'loss': 0.2675, 'grad_norm': 0.8094200491905212, 'learning_rate': 9.510890332441728e-06, 'epoch': 0.76}
  3%|▎         | 2492/78504 [1:30:21<36:21:04,  1.72s/it]  3%|▎         | 2493/78504 [1:30:22<34:44:29,  1.65s/it]                                                         {'loss': 0.2595, 'grad_norm': 0.8478187918663025, 'learning_rate': 9.514711501719526e-06, 'epoch': 0.76}
  3%|▎         | 2493/78504 [1:30:22<34:44:29,  1.65s/it]  3%|▎         | 2494/78504 [1:30:24<33:17:11,  1.58s/it]                                                         {'loss': 0.2899, 'grad_norm': 1.1935769319534302, 'learning_rate': 9.518532670997325e-06, 'epoch': 0.76}
  3%|▎         | 2494/78504 [1:30:24<33:17:11,  1.58s/it]  3%|▎         | 2495/78504 [1:30:25<32:06:04,  1.52s/it]                                                         {'loss': 0.2613, 'grad_norm': 0.97035151720047, 'learning_rate': 9.522353840275124e-06, 'epoch': 0.76}
  3%|▎         | 2495/78504 [1:30:25<32:06:04,  1.52s/it]  3%|▎         | 2496/78504 [1:30:26<29:42:13,  1.41s/it]                                                         {'loss': 0.2722, 'grad_norm': 1.3635863065719604, 'learning_rate': 9.526175009552923e-06, 'epoch': 0.76}
  3%|▎         | 2496/78504 [1:30:26<29:42:13,  1.41s/it]  3%|▎         | 2497/78504 [1:30:28<27:43:01,  1.31s/it]                                                         {'loss': 0.2816, 'grad_norm': 1.350322961807251, 'learning_rate': 9.529996178830721e-06, 'epoch': 0.76}
  3%|▎         | 2497/78504 [1:30:28<27:43:01,  1.31s/it]  3%|▎         | 2498/78504 [1:30:29<26:03:12,  1.23s/it]                                                         {'loss': 0.3127, 'grad_norm': 1.5189380645751953, 'learning_rate': 9.533817348108522e-06, 'epoch': 0.76}
  3%|▎         | 2498/78504 [1:30:29<26:03:12,  1.23s/it]  3%|▎         | 2499/78504 [1:30:29<24:11:19,  1.15s/it]                                                         {'loss': 0.3245, 'grad_norm': 1.605339527130127, 'learning_rate': 9.53763851738632e-06, 'epoch': 0.76}
  3%|▎         | 2499/78504 [1:30:30<24:11:19,  1.15s/it]  3%|▎         | 2500/78504 [1:30:30<21:56:15,  1.04s/it]                                                         {'loss': 0.3879, 'grad_norm': 12.506855964660645, 'learning_rate': 9.54145968666412e-06, 'epoch': 0.76}
  3%|▎         | 2500/78504 [1:30:30<21:56:15,  1.04s/it]  3%|▎         | 2501/78504 [1:30:38<65:06:42,  3.08s/it]                                                         {'loss': 0.211, 'grad_norm': 0.5530233383178711, 'learning_rate': 9.545280855941918e-06, 'epoch': 0.76}
  3%|▎         | 2501/78504 [1:30:38<65:06:42,  3.08s/it]  3%|▎         | 2502/78504 [1:30:41<65:19:09,  3.09s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.5467696785926819, 'learning_rate': 9.549102025219717e-06, 'epoch': 0.76}
  3%|▎         | 2502/78504 [1:30:41<65:19:09,  3.09s/it]  3%|▎         | 2503/78504 [1:30:44<62:56:11,  2.98s/it]                                                         {'loss': 0.1143, 'grad_norm': 0.4578435719013214, 'learning_rate': 9.552923194497516e-06, 'epoch': 0.77}
  3%|▎         | 2503/78504 [1:30:44<62:56:11,  2.98s/it]  3%|▎         | 2504/78504 [1:30:47<60:28:53,  2.86s/it]                                                         {'loss': 0.083, 'grad_norm': 0.3455944359302521, 'learning_rate': 9.556744363775314e-06, 'epoch': 0.77}
  3%|▎         | 2504/78504 [1:30:47<60:28:53,  2.86s/it]  3%|▎         | 2505/78504 [1:30:49<58:04:00,  2.75s/it]                                                         {'loss': 0.0948, 'grad_norm': 0.771053671836853, 'learning_rate': 9.560565533053115e-06, 'epoch': 0.77}
  3%|▎         | 2505/78504 [1:30:49<58:04:00,  2.75s/it]  3%|▎         | 2506/78504 [1:30:51<54:37:34,  2.59s/it]                                                         {'loss': 0.1216, 'grad_norm': 0.3839539885520935, 'learning_rate': 9.564386702330913e-06, 'epoch': 0.77}
  3%|▎         | 2506/78504 [1:30:51<54:37:34,  2.59s/it]  3%|▎         | 2507/78504 [1:30:54<52:57:46,  2.51s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.46379968523979187, 'learning_rate': 9.568207871608712e-06, 'epoch': 0.77}
  3%|▎         | 2507/78504 [1:30:54<52:57:46,  2.51s/it]  3%|▎         | 2508/78504 [1:30:56<50:20:48,  2.38s/it]                                                         {'loss': 0.0903, 'grad_norm': 0.4062173068523407, 'learning_rate': 9.572029040886511e-06, 'epoch': 0.77}
  3%|▎         | 2508/78504 [1:30:56<50:20:48,  2.38s/it]  3%|▎         | 2509/78504 [1:30:58<48:04:51,  2.28s/it]                                                         {'loss': 0.1427, 'grad_norm': 0.6148442625999451, 'learning_rate': 9.57585021016431e-06, 'epoch': 0.77}
  3%|▎         | 2509/78504 [1:30:58<48:04:51,  2.28s/it]  3%|▎         | 2510/78504 [1:31:00<47:10:19,  2.23s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.4554442763328552, 'learning_rate': 9.57967137944211e-06, 'epoch': 0.77}
  3%|▎         | 2510/78504 [1:31:00<47:10:19,  2.23s/it]  3%|▎         | 2511/78504 [1:31:02<45:54:07,  2.17s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.6180024147033691, 'learning_rate': 9.583492548719909e-06, 'epoch': 0.77}
  3%|▎         | 2511/78504 [1:31:02<45:54:07,  2.17s/it]  3%|▎         | 2512/78504 [1:31:04<44:40:42,  2.12s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.4169529676437378, 'learning_rate': 9.587313717997708e-06, 'epoch': 0.77}
  3%|▎         | 2512/78504 [1:31:04<44:40:42,  2.12s/it]  3%|▎         | 2513/78504 [1:31:06<43:04:36,  2.04s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.6711704730987549, 'learning_rate': 9.591134887275508e-06, 'epoch': 0.77}
  3%|▎         | 2513/78504 [1:31:06<43:04:36,  2.04s/it]  3%|▎         | 2514/78504 [1:31:08<41:45:33,  1.98s/it]                                                         {'loss': 0.1873, 'grad_norm': 1.4167042970657349, 'learning_rate': 9.594956056553307e-06, 'epoch': 0.77}
  3%|▎         | 2514/78504 [1:31:08<41:45:33,  1.98s/it]  3%|▎         | 2515/78504 [1:31:09<40:12:03,  1.90s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.7531862854957581, 'learning_rate': 9.598777225831106e-06, 'epoch': 0.77}
  3%|▎         | 2515/78504 [1:31:09<40:12:03,  1.90s/it]  3%|▎         | 2516/78504 [1:31:11<38:31:32,  1.83s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.8953850269317627, 'learning_rate': 9.602598395108904e-06, 'epoch': 0.77}
  3%|▎         | 2516/78504 [1:31:11<38:31:32,  1.83s/it]  3%|▎         | 2517/78504 [1:31:12<36:45:19,  1.74s/it]                                                         {'loss': 0.2175, 'grad_norm': 0.6947640180587769, 'learning_rate': 9.606419564386703e-06, 'epoch': 0.77}
  3%|▎         | 2517/78504 [1:31:12<36:45:19,  1.74s/it]  3%|▎         | 2518/78504 [1:31:14<35:02:36,  1.66s/it]                                                         {'loss': 0.2333, 'grad_norm': 0.733005940914154, 'learning_rate': 9.610240733664502e-06, 'epoch': 0.77}
  3%|▎         | 2518/78504 [1:31:14<35:02:36,  1.66s/it]  3%|▎         | 2519/78504 [1:31:15<33:29:44,  1.59s/it]                                                         {'loss': 0.2934, 'grad_norm': 1.0150882005691528, 'learning_rate': 9.6140619029423e-06, 'epoch': 0.77}
  3%|▎         | 2519/78504 [1:31:15<33:29:44,  1.59s/it]  3%|▎         | 2520/78504 [1:31:17<31:34:31,  1.50s/it]                                                         {'loss': 0.2757, 'grad_norm': 1.1450037956237793, 'learning_rate': 9.6178830722201e-06, 'epoch': 0.77}
  3%|▎         | 2520/78504 [1:31:17<31:34:31,  1.50s/it]  3%|▎         | 2521/78504 [1:31:18<29:21:48,  1.39s/it]                                                         {'loss': 0.3047, 'grad_norm': 1.329506516456604, 'learning_rate': 9.6217042414979e-06, 'epoch': 0.77}
  3%|▎         | 2521/78504 [1:31:18<29:21:48,  1.39s/it]  3%|▎         | 2522/78504 [1:31:19<27:31:35,  1.30s/it]                                                         {'loss': 0.3238, 'grad_norm': 1.2694729566574097, 'learning_rate': 9.625525410775698e-06, 'epoch': 0.77}
  3%|▎         | 2522/78504 [1:31:19<27:31:35,  1.30s/it]  3%|▎         | 2523/78504 [1:31:20<25:30:21,  1.21s/it]                                                         {'loss': 0.2883, 'grad_norm': 1.3297109603881836, 'learning_rate': 9.629346580053497e-06, 'epoch': 0.77}
  3%|▎         | 2523/78504 [1:31:20<25:30:21,  1.21s/it]  3%|▎         | 2524/78504 [1:31:21<23:43:44,  1.12s/it]                                                         {'loss': 0.3045, 'grad_norm': 2.0155794620513916, 'learning_rate': 9.633167749331296e-06, 'epoch': 0.77}
  3%|▎         | 2524/78504 [1:31:21<23:43:44,  1.12s/it]  3%|▎         | 2525/78504 [1:31:22<21:33:11,  1.02s/it]                                                         {'loss': 0.3403, 'grad_norm': 2.4185328483581543, 'learning_rate': 9.636988918609095e-06, 'epoch': 0.77}
  3%|▎         | 2525/78504 [1:31:22<21:33:11,  1.02s/it]  3%|▎         | 2526/78504 [1:31:30<65:25:53,  3.10s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.6235795617103577, 'learning_rate': 9.640810087886893e-06, 'epoch': 0.77}
  3%|▎         | 2526/78504 [1:31:30<65:25:53,  3.10s/it]  3%|▎         | 2527/78504 [1:31:33<65:39:48,  3.11s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.41755738854408264, 'learning_rate': 9.644631257164692e-06, 'epoch': 0.77}
  3%|▎         | 2527/78504 [1:31:33<65:39:48,  3.11s/it]  3%|▎         | 2528/78504 [1:31:36<65:08:07,  3.09s/it]                                                         {'loss': 0.1108, 'grad_norm': 0.41394704580307007, 'learning_rate': 9.648452426442491e-06, 'epoch': 0.77}
  3%|▎         | 2528/78504 [1:31:36<65:08:07,  3.09s/it]  3%|▎         | 2529/78504 [1:31:38<62:10:05,  2.95s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.37285444140434265, 'learning_rate': 9.652273595720291e-06, 'epoch': 0.77}
  3%|▎         | 2529/78504 [1:31:38<62:10:05,  2.95s/it]  3%|▎         | 2530/78504 [1:31:41<59:11:35,  2.80s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.5734539031982422, 'learning_rate': 9.65609476499809e-06, 'epoch': 0.77}
  3%|▎         | 2530/78504 [1:31:41<59:11:35,  2.80s/it]  3%|▎         | 2531/78504 [1:31:43<56:56:44,  2.70s/it]                                                         {'loss': 0.1203, 'grad_norm': 0.46368440985679626, 'learning_rate': 9.659915934275889e-06, 'epoch': 0.77}
  3%|▎         | 2531/78504 [1:31:43<56:56:44,  2.70s/it]  3%|▎         | 2532/78504 [1:31:46<54:35:11,  2.59s/it]                                                         {'loss': 0.0954, 'grad_norm': 0.5953476428985596, 'learning_rate': 9.663737103553688e-06, 'epoch': 0.77}
  3%|▎         | 2532/78504 [1:31:46<54:35:11,  2.59s/it]  3%|▎         | 2533/78504 [1:31:48<51:43:06,  2.45s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.45024529099464417, 'learning_rate': 9.667558272831486e-06, 'epoch': 0.77}
  3%|▎         | 2533/78504 [1:31:48<51:43:06,  2.45s/it]  3%|▎         | 2534/78504 [1:31:50<50:04:37,  2.37s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.5090838074684143, 'learning_rate': 9.671379442109285e-06, 'epoch': 0.77}
  3%|▎         | 2534/78504 [1:31:50<50:04:37,  2.37s/it]  3%|▎         | 2535/78504 [1:31:52<48:45:44,  2.31s/it]                                                         {'loss': 0.0934, 'grad_norm': 0.5019803047180176, 'learning_rate': 9.675200611387084e-06, 'epoch': 0.77}
  3%|▎         | 2535/78504 [1:31:52<48:45:44,  2.31s/it]  3%|▎         | 2536/78504 [1:31:54<45:59:39,  2.18s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.6705944538116455, 'learning_rate': 9.679021780664884e-06, 'epoch': 0.78}
  3%|▎         | 2536/78504 [1:31:54<45:59:39,  2.18s/it]  3%|▎         | 2537/78504 [1:31:56<44:47:42,  2.12s/it]                                                         {'loss': 0.1255, 'grad_norm': 0.5575826168060303, 'learning_rate': 9.682842949942683e-06, 'epoch': 0.78}
  3%|▎         | 2537/78504 [1:31:56<44:47:42,  2.12s/it]  3%|▎         | 2538/78504 [1:31:58<43:30:26,  2.06s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.48000097274780273, 'learning_rate': 9.686664119220482e-06, 'epoch': 0.78}
  3%|▎         | 2538/78504 [1:31:58<43:30:26,  2.06s/it]  3%|▎         | 2539/78504 [1:32:00<42:19:14,  2.01s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.6467621922492981, 'learning_rate': 9.69048528849828e-06, 'epoch': 0.78}
  3%|▎         | 2539/78504 [1:32:00<42:19:14,  2.01s/it]  3%|▎         | 2540/78504 [1:32:01<40:48:19,  1.93s/it]                                                         {'loss': 0.1911, 'grad_norm': 1.0518765449523926, 'learning_rate': 9.69430645777608e-06, 'epoch': 0.78}
  3%|▎         | 2540/78504 [1:32:02<40:48:19,  1.93s/it]  3%|▎         | 2541/78504 [1:32:03<38:35:03,  1.83s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.7542822360992432, 'learning_rate': 9.698127627053878e-06, 'epoch': 0.78}
  3%|▎         | 2541/78504 [1:32:03<38:35:03,  1.83s/it]  3%|▎         | 2542/78504 [1:32:05<36:45:49,  1.74s/it]                                                         {'loss': 0.2367, 'grad_norm': 0.8455517292022705, 'learning_rate': 9.701948796331677e-06, 'epoch': 0.78}
  3%|▎         | 2542/78504 [1:32:05<36:45:49,  1.74s/it]  3%|▎         | 2543/78504 [1:32:06<35:18:20,  1.67s/it]                                                         {'loss': 0.2362, 'grad_norm': 1.0229703187942505, 'learning_rate': 9.705769965609475e-06, 'epoch': 0.78}
  3%|▎         | 2543/78504 [1:32:06<35:18:20,  1.67s/it]  3%|▎         | 2544/78504 [1:32:08<33:33:13,  1.59s/it]                                                         {'loss': 0.2217, 'grad_norm': 0.8846530914306641, 'learning_rate': 9.709591134887276e-06, 'epoch': 0.78}
  3%|▎         | 2544/78504 [1:32:08<33:33:13,  1.59s/it]  3%|▎         | 2545/78504 [1:32:09<31:36:16,  1.50s/it]                                                         {'loss': 0.3024, 'grad_norm': 1.0641655921936035, 'learning_rate': 9.713412304165075e-06, 'epoch': 0.78}
  3%|▎         | 2545/78504 [1:32:09<31:36:16,  1.50s/it]  3%|▎         | 2546/78504 [1:32:10<29:23:21,  1.39s/it]                                                         {'loss': 0.2692, 'grad_norm': 1.3481818437576294, 'learning_rate': 9.717233473442873e-06, 'epoch': 0.78}
  3%|▎         | 2546/78504 [1:32:10<29:23:21,  1.39s/it]  3%|▎         | 2547/78504 [1:32:11<27:27:45,  1.30s/it]                                                         {'loss': 0.303, 'grad_norm': 1.7248295545578003, 'learning_rate': 9.721054642720672e-06, 'epoch': 0.78}
  3%|▎         | 2547/78504 [1:32:11<27:27:45,  1.30s/it]  3%|▎         | 2548/78504 [1:32:12<26:04:07,  1.24s/it]                                                         {'loss': 0.3063, 'grad_norm': 1.4553056955337524, 'learning_rate': 9.724875811998471e-06, 'epoch': 0.78}
  3%|▎         | 2548/78504 [1:32:12<26:04:07,  1.24s/it]  3%|▎         | 2549/78504 [1:32:13<24:07:58,  1.14s/it]                                                         {'loss': 0.3541, 'grad_norm': 1.9896763563156128, 'learning_rate': 9.728696981276271e-06, 'epoch': 0.78}
  3%|▎         | 2549/78504 [1:32:13<24:07:58,  1.14s/it]  3%|▎         | 2550/78504 [1:32:14<21:38:43,  1.03s/it]                                                         {'loss': 0.4237, 'grad_norm': 1.9619395732879639, 'learning_rate': 9.73251815055407e-06, 'epoch': 0.78}
  3%|▎         | 2550/78504 [1:32:14<21:38:43,  1.03s/it]  3%|▎         | 2551/78504 [1:32:22<68:27:59,  3.25s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.590855598449707, 'learning_rate': 9.736339319831869e-06, 'epoch': 0.78}
  3%|▎         | 2551/78504 [1:32:22<68:27:59,  3.25s/it]  3%|▎         | 2552/78504 [1:32:25<67:21:28,  3.19s/it]                                                         {'loss': 0.1227, 'grad_norm': 0.6254149675369263, 'learning_rate': 9.74016048910967e-06, 'epoch': 0.78}
  3%|▎         | 2552/78504 [1:32:25<67:21:28,  3.19s/it]  3%|▎         | 2553/78504 [1:32:28<66:05:29,  3.13s/it]                                                         {'loss': 0.1045, 'grad_norm': 0.457303524017334, 'learning_rate': 9.743981658387468e-06, 'epoch': 0.78}
  3%|▎         | 2553/78504 [1:32:28<66:05:29,  3.13s/it]  3%|▎         | 2554/78504 [1:32:31<62:42:27,  2.97s/it]                                                         {'loss': 0.0861, 'grad_norm': 0.399716854095459, 'learning_rate': 9.747802827665267e-06, 'epoch': 0.78}
  3%|▎         | 2554/78504 [1:32:31<62:42:27,  2.97s/it]  3%|▎         | 2555/78504 [1:32:33<59:39:56,  2.83s/it]                                                         {'loss': 0.1086, 'grad_norm': 0.4164433777332306, 'learning_rate': 9.751623996943065e-06, 'epoch': 0.78}
  3%|▎         | 2555/78504 [1:32:33<59:39:56,  2.83s/it]  3%|▎         | 2556/78504 [1:32:36<56:08:10,  2.66s/it]                                                         {'loss': 0.104, 'grad_norm': 0.4560070037841797, 'learning_rate': 9.755445166220864e-06, 'epoch': 0.78}
  3%|▎         | 2556/78504 [1:32:36<56:08:10,  2.66s/it]  3%|▎         | 2557/78504 [1:32:38<53:57:28,  2.56s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.526213526725769, 'learning_rate': 9.759266335498663e-06, 'epoch': 0.78}
  3%|▎         | 2557/78504 [1:32:38<53:57:28,  2.56s/it]  3%|▎         | 2558/78504 [1:32:40<51:01:34,  2.42s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.4382590055465698, 'learning_rate': 9.763087504776462e-06, 'epoch': 0.78}
  3%|▎         | 2558/78504 [1:32:40<51:01:34,  2.42s/it]  3%|▎         | 2559/78504 [1:32:42<48:31:40,  2.30s/it]                                                         {'loss': 0.1264, 'grad_norm': 0.457150936126709, 'learning_rate': 9.76690867405426e-06, 'epoch': 0.78}
  3%|▎         | 2559/78504 [1:32:42<48:31:40,  2.30s/it]  3%|▎         | 2560/78504 [1:32:44<47:29:04,  2.25s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.45541560649871826, 'learning_rate': 9.770729843332061e-06, 'epoch': 0.78}
  3%|▎         | 2560/78504 [1:32:44<47:29:04,  2.25s/it]  3%|▎         | 2561/78504 [1:32:46<45:51:52,  2.17s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.7914599180221558, 'learning_rate': 9.77455101260986e-06, 'epoch': 0.78}
  3%|▎         | 2561/78504 [1:32:46<45:51:52,  2.17s/it]  3%|▎         | 2562/78504 [1:32:48<44:18:32,  2.10s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.5212724804878235, 'learning_rate': 9.778372181887658e-06, 'epoch': 0.78}
  3%|▎         | 2562/78504 [1:32:48<44:18:32,  2.10s/it]  3%|▎         | 2563/78504 [1:32:50<42:52:31,  2.03s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.504765510559082, 'learning_rate': 9.782193351165457e-06, 'epoch': 0.78}
  3%|▎         | 2563/78504 [1:32:50<42:52:31,  2.03s/it]  3%|▎         | 2564/78504 [1:32:52<40:54:59,  1.94s/it]                                                         {'loss': 0.153, 'grad_norm': 0.9041082859039307, 'learning_rate': 9.786014520443256e-06, 'epoch': 0.78}
  3%|▎         | 2564/78504 [1:32:52<40:54:59,  1.94s/it]  3%|▎         | 2565/78504 [1:32:53<39:08:22,  1.86s/it]                                                         {'loss': 0.2072, 'grad_norm': 2.910095691680908, 'learning_rate': 9.789835689721055e-06, 'epoch': 0.78}
  3%|▎         | 2565/78504 [1:32:53<39:08:22,  1.86s/it]  3%|▎         | 2566/78504 [1:32:55<37:46:01,  1.79s/it]                                                         {'loss': 0.2321, 'grad_norm': 0.8283528685569763, 'learning_rate': 9.793656858998853e-06, 'epoch': 0.78}
  3%|▎         | 2566/78504 [1:32:55<37:46:01,  1.79s/it]  3%|▎         | 2567/78504 [1:32:57<36:04:49,  1.71s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.8201271295547485, 'learning_rate': 9.797478028276654e-06, 'epoch': 0.78}
  3%|▎         | 2567/78504 [1:32:57<36:04:49,  1.71s/it]  3%|▎         | 2568/78504 [1:32:58<34:20:01,  1.63s/it]                                                         {'loss': 0.2109, 'grad_norm': 0.9702547788619995, 'learning_rate': 9.801299197554453e-06, 'epoch': 0.79}
  3%|▎         | 2568/78504 [1:32:58<34:20:01,  1.63s/it]  3%|▎         | 2569/78504 [1:32:59<33:01:43,  1.57s/it]                                                         {'loss': 0.2536, 'grad_norm': 1.6394846439361572, 'learning_rate': 9.805120366832251e-06, 'epoch': 0.79}
  3%|▎         | 2569/78504 [1:32:59<33:01:43,  1.57s/it]  3%|▎         | 2570/78504 [1:33:01<30:52:15,  1.46s/it]                                                         {'loss': 0.2796, 'grad_norm': 0.9593629240989685, 'learning_rate': 9.80894153611005e-06, 'epoch': 0.79}
  3%|▎         | 2570/78504 [1:33:01<30:52:15,  1.46s/it]  3%|▎         | 2571/78504 [1:33:02<28:55:34,  1.37s/it]                                                         {'loss': 0.2743, 'grad_norm': 1.4883129596710205, 'learning_rate': 9.812762705387849e-06, 'epoch': 0.79}
  3%|▎         | 2571/78504 [1:33:02<28:55:34,  1.37s/it]  3%|▎         | 2572/78504 [1:33:03<27:12:04,  1.29s/it]                                                         {'loss': 0.2842, 'grad_norm': 1.2911609411239624, 'learning_rate': 9.816583874665648e-06, 'epoch': 0.79}
  3%|▎         | 2572/78504 [1:33:03<27:12:04,  1.29s/it]  3%|▎         | 2573/78504 [1:33:04<25:20:39,  1.20s/it]                                                         {'loss': 0.299, 'grad_norm': 1.786234974861145, 'learning_rate': 9.820405043943446e-06, 'epoch': 0.79}
  3%|▎         | 2573/78504 [1:33:04<25:20:39,  1.20s/it]  3%|▎         | 2574/78504 [1:33:05<23:37:36,  1.12s/it]                                                         {'loss': 0.3086, 'grad_norm': 1.6575485467910767, 'learning_rate': 9.824226213221245e-06, 'epoch': 0.79}
  3%|▎         | 2574/78504 [1:33:05<23:37:36,  1.12s/it]  3%|▎         | 2575/78504 [1:33:06<21:28:17,  1.02s/it]                                                         {'loss': 0.4506, 'grad_norm': 2.8727316856384277, 'learning_rate': 9.828047382499045e-06, 'epoch': 0.79}
  3%|▎         | 2575/78504 [1:33:06<21:28:17,  1.02s/it]  3%|▎         | 2576/78504 [1:33:15<75:49:02,  3.59s/it]                                                         {'loss': 0.219, 'grad_norm': 0.5621397495269775, 'learning_rate': 9.831868551776844e-06, 'epoch': 0.79}
  3%|▎         | 2576/78504 [1:33:15<75:49:02,  3.59s/it]  3%|▎         | 2577/78504 [1:33:18<72:48:16,  3.45s/it]                                                         {'loss': 0.137, 'grad_norm': 0.4363175928592682, 'learning_rate': 9.835689721054643e-06, 'epoch': 0.79}
  3%|▎         | 2577/78504 [1:33:18<72:48:16,  3.45s/it]  3%|▎         | 2578/78504 [1:33:21<69:50:06,  3.31s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.5141528248786926, 'learning_rate': 9.839510890332442e-06, 'epoch': 0.79}
  3%|▎         | 2578/78504 [1:33:21<69:50:06,  3.31s/it]  3%|▎         | 2579/78504 [1:33:24<65:26:15,  3.10s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.4561907947063446, 'learning_rate': 9.84333205961024e-06, 'epoch': 0.79}
  3%|▎         | 2579/78504 [1:33:24<65:26:15,  3.10s/it]  3%|▎         | 2580/78504 [1:33:26<61:25:47,  2.91s/it]                                                         {'loss': 0.1283, 'grad_norm': 0.7177948951721191, 'learning_rate': 9.84715322888804e-06, 'epoch': 0.79}
  3%|▎         | 2580/78504 [1:33:26<61:25:47,  2.91s/it]  3%|▎         | 2581/78504 [1:33:29<57:21:37,  2.72s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.427041232585907, 'learning_rate': 9.850974398165838e-06, 'epoch': 0.79}
  3%|▎         | 2581/78504 [1:33:29<57:21:37,  2.72s/it]  3%|▎         | 2582/78504 [1:33:31<54:50:46,  2.60s/it]                                                         {'loss': 0.1084, 'grad_norm': 0.41207680106163025, 'learning_rate': 9.854795567443637e-06, 'epoch': 0.79}
  3%|▎         | 2582/78504 [1:33:31<54:50:46,  2.60s/it]  3%|▎         | 2583/78504 [1:33:33<51:44:47,  2.45s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.5212504267692566, 'learning_rate': 9.858616736721437e-06, 'epoch': 0.79}
  3%|▎         | 2583/78504 [1:33:33<51:44:47,  2.45s/it]  3%|▎         | 2584/78504 [1:33:35<50:02:11,  2.37s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.5249597430229187, 'learning_rate': 9.862437905999236e-06, 'epoch': 0.79}
  3%|▎         | 2584/78504 [1:33:35<50:02:11,  2.37s/it]  3%|▎         | 2585/78504 [1:33:37<48:45:48,  2.31s/it]                                                         {'loss': 0.1017, 'grad_norm': 0.4155944585800171, 'learning_rate': 9.866259075277035e-06, 'epoch': 0.79}
  3%|▎         | 2585/78504 [1:33:37<48:45:48,  2.31s/it]  3%|▎         | 2586/78504 [1:33:39<45:51:06,  2.17s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.517004668712616, 'learning_rate': 9.870080244554833e-06, 'epoch': 0.79}
  3%|▎         | 2586/78504 [1:33:39<45:51:06,  2.17s/it]  3%|▎         | 2587/78504 [1:33:41<44:40:56,  2.12s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5294260382652283, 'learning_rate': 9.873901413832632e-06, 'epoch': 0.79}
  3%|▎         | 2587/78504 [1:33:41<44:40:56,  2.12s/it]  3%|▎         | 2588/78504 [1:33:43<43:25:15,  2.06s/it]                                                         {'loss': 0.1752, 'grad_norm': 0.6064632534980774, 'learning_rate': 9.877722583110433e-06, 'epoch': 0.79}
  3%|▎         | 2588/78504 [1:33:43<43:25:15,  2.06s/it]  3%|▎         | 2589/78504 [1:33:45<42:14:21,  2.00s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.5776891708374023, 'learning_rate': 9.881543752388231e-06, 'epoch': 0.79}
  3%|▎         | 2589/78504 [1:33:45<42:14:21,  2.00s/it]  3%|▎         | 2590/78504 [1:33:47<40:44:51,  1.93s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.6576943397521973, 'learning_rate': 9.88536492166603e-06, 'epoch': 0.79}
  3%|▎         | 2590/78504 [1:33:47<40:44:51,  1.93s/it]  3%|▎         | 2591/78504 [1:33:48<38:31:56,  1.83s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.6344665884971619, 'learning_rate': 9.88918609094383e-06, 'epoch': 0.79}
  3%|▎         | 2591/78504 [1:33:48<38:31:56,  1.83s/it]  3%|▎         | 2592/78504 [1:33:50<36:44:49,  1.74s/it]                                                         {'loss': 0.2167, 'grad_norm': 1.1109619140625, 'learning_rate': 9.89300726022163e-06, 'epoch': 0.79}
  3%|▎         | 2592/78504 [1:33:50<36:44:49,  1.74s/it]  3%|▎         | 2593/78504 [1:33:51<34:58:46,  1.66s/it]                                                         {'loss': 0.2563, 'grad_norm': 0.8278517127037048, 'learning_rate': 9.896828429499428e-06, 'epoch': 0.79}
  3%|▎         | 2593/78504 [1:33:51<34:58:46,  1.66s/it]  3%|▎         | 2594/78504 [1:33:53<33:22:27,  1.58s/it]                                                         {'loss': 0.253, 'grad_norm': 0.9473411440849304, 'learning_rate': 9.900649598777227e-06, 'epoch': 0.79}
  3%|▎         | 2594/78504 [1:33:53<33:22:27,  1.58s/it]  3%|▎         | 2595/78504 [1:33:54<31:30:41,  1.49s/it]                                                         {'loss': 0.2832, 'grad_norm': 1.0560479164123535, 'learning_rate': 9.904470768055025e-06, 'epoch': 0.79}
  3%|▎         | 2595/78504 [1:33:54<31:30:41,  1.49s/it]  3%|▎         | 2596/78504 [1:33:55<29:19:53,  1.39s/it]                                                         {'loss': 0.257, 'grad_norm': 1.0989123582839966, 'learning_rate': 9.908291937332824e-06, 'epoch': 0.79}
  3%|▎         | 2596/78504 [1:33:55<29:19:53,  1.39s/it]  3%|▎         | 2597/78504 [1:33:56<27:32:11,  1.31s/it]                                                         {'loss': 0.2421, 'grad_norm': 1.083175539970398, 'learning_rate': 9.912113106610623e-06, 'epoch': 0.79}
  3%|▎         | 2597/78504 [1:33:56<27:32:11,  1.31s/it]  3%|▎         | 2598/78504 [1:33:57<25:33:33,  1.21s/it]                                                         {'loss': 0.3097, 'grad_norm': 1.5604733228683472, 'learning_rate': 9.915934275888422e-06, 'epoch': 0.79}
  3%|▎         | 2598/78504 [1:33:57<25:33:33,  1.21s/it]  3%|▎         | 2599/78504 [1:33:58<23:49:19,  1.13s/it]                                                         {'loss': 0.341, 'grad_norm': 2.1447010040283203, 'learning_rate': 9.919755445166222e-06, 'epoch': 0.79}
  3%|▎         | 2599/78504 [1:33:58<23:49:19,  1.13s/it]  3%|▎         | 2600/78504 [1:33:59<21:39:07,  1.03s/it]                                                         {'loss': 0.4099, 'grad_norm': 2.1557655334472656, 'learning_rate': 9.92357661444402e-06, 'epoch': 0.79}
  3%|▎         | 2600/78504 [1:33:59<21:39:07,  1.03s/it]  3%|▎         | 2601/78504 [1:34:08<69:10:38,  3.28s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.7053086161613464, 'learning_rate': 9.92739778372182e-06, 'epoch': 0.8}
  3%|▎         | 2601/78504 [1:34:08<69:10:38,  3.28s/it]  3%|▎         | 2602/78504 [1:34:11<67:44:25,  3.21s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.4040185213088989, 'learning_rate': 9.931218952999618e-06, 'epoch': 0.8}
  3%|▎         | 2602/78504 [1:34:11<67:44:25,  3.21s/it]  3%|▎         | 2603/78504 [1:34:14<65:56:25,  3.13s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.3607569634914398, 'learning_rate': 9.935040122277417e-06, 'epoch': 0.8}
  3%|▎         | 2603/78504 [1:34:14<65:56:25,  3.13s/it]  3%|▎         | 2604/78504 [1:34:16<62:30:05,  2.96s/it]                                                         {'loss': 0.1301, 'grad_norm': 0.534721851348877, 'learning_rate': 9.938861291555216e-06, 'epoch': 0.8}
  3%|▎         | 2604/78504 [1:34:16<62:30:05,  2.96s/it]  3%|▎         | 2605/78504 [1:34:19<59:33:06,  2.82s/it]                                                         {'loss': 0.0802, 'grad_norm': 0.43297186493873596, 'learning_rate': 9.942682460833015e-06, 'epoch': 0.8}
  3%|▎         | 2605/78504 [1:34:19<59:33:06,  2.82s/it]  3%|▎         | 2606/78504 [1:34:21<57:12:24,  2.71s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.39340656995773315, 'learning_rate': 9.946503630110815e-06, 'epoch': 0.8}
  3%|▎         | 2606/78504 [1:34:21<57:12:24,  2.71s/it]  3%|▎         | 2607/78504 [1:34:24<54:56:51,  2.61s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.4970964789390564, 'learning_rate': 9.950324799388614e-06, 'epoch': 0.8}
  3%|▎         | 2607/78504 [1:34:24<54:56:51,  2.61s/it]  3%|▎         | 2608/78504 [1:34:26<53:02:13,  2.52s/it]                                                         {'loss': 0.1418, 'grad_norm': 0.502224326133728, 'learning_rate': 9.954145968666412e-06, 'epoch': 0.8}
  3%|▎         | 2608/78504 [1:34:26<53:02:13,  2.52s/it]  3%|▎         | 2609/78504 [1:34:28<51:01:35,  2.42s/it]                                                         {'loss': 0.0906, 'grad_norm': 0.4741884469985962, 'learning_rate': 9.957967137944211e-06, 'epoch': 0.8}
  3%|▎         | 2609/78504 [1:34:28<51:01:35,  2.42s/it]  3%|▎         | 2610/78504 [1:34:30<49:26:07,  2.34s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.44710034132003784, 'learning_rate': 9.96178830722201e-06, 'epoch': 0.8}
  3%|▎         | 2610/78504 [1:34:30<49:26:07,  2.34s/it]  3%|▎         | 2611/78504 [1:34:32<47:27:38,  2.25s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.47619882225990295, 'learning_rate': 9.965609476499809e-06, 'epoch': 0.8}
  3%|▎         | 2611/78504 [1:34:32<47:27:38,  2.25s/it]  3%|▎         | 2612/78504 [1:34:34<45:43:05,  2.17s/it]                                                         {'loss': 0.1218, 'grad_norm': 1.610327124595642, 'learning_rate': 9.969430645777607e-06, 'epoch': 0.8}
  3%|▎         | 2612/78504 [1:34:34<45:43:05,  2.17s/it]  3%|▎         | 2613/78504 [1:34:36<44:10:21,  2.10s/it]                                                         {'loss': 0.1881, 'grad_norm': 1.2519185543060303, 'learning_rate': 9.973251815055406e-06, 'epoch': 0.8}
  3%|▎         | 2613/78504 [1:34:36<44:10:21,  2.10s/it]  3%|▎         | 2614/78504 [1:34:38<42:50:27,  2.03s/it]                                                         {'loss': 0.147, 'grad_norm': 0.6737523078918457, 'learning_rate': 9.977072984333207e-06, 'epoch': 0.8}
  3%|▎         | 2614/78504 [1:34:38<42:50:27,  2.03s/it]  3%|▎         | 2615/78504 [1:34:40<41:07:39,  1.95s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.6842924356460571, 'learning_rate': 9.980894153611005e-06, 'epoch': 0.8}
  3%|▎         | 2615/78504 [1:34:40<41:07:39,  1.95s/it]  3%|▎         | 2616/78504 [1:34:41<38:48:09,  1.84s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.6262239813804626, 'learning_rate': 9.984715322888804e-06, 'epoch': 0.8}
  3%|▎         | 2616/78504 [1:34:41<38:48:09,  1.84s/it]  3%|▎         | 2617/78504 [1:34:43<36:54:03,  1.75s/it]                                                         {'loss': 0.2242, 'grad_norm': 0.8770407438278198, 'learning_rate': 9.988536492166603e-06, 'epoch': 0.8}
  3%|▎         | 2617/78504 [1:34:43<36:54:03,  1.75s/it]  3%|▎         | 2618/78504 [1:34:44<35:06:14,  1.67s/it]                                                         {'loss': 0.2589, 'grad_norm': 0.86372309923172, 'learning_rate': 9.992357661444402e-06, 'epoch': 0.8}
  3%|▎         | 2618/78504 [1:34:44<35:06:14,  1.67s/it]  3%|▎         | 2619/78504 [1:34:46<33:17:27,  1.58s/it]                                                         {'loss': 0.2264, 'grad_norm': 0.8047781586647034, 'learning_rate': 9.9961788307222e-06, 'epoch': 0.8}
  3%|▎         | 2619/78504 [1:34:46<33:17:27,  1.58s/it]  3%|▎         | 2620/78504 [1:34:47<31:24:48,  1.49s/it]                                                         {'loss': 0.319, 'grad_norm': 1.4239659309387207, 'learning_rate': 9.999999999999999e-06, 'epoch': 0.8}
  3%|▎         | 2620/78504 [1:34:47<31:24:48,  1.49s/it]  3%|▎         | 2621/78504 [1:34:48<29:14:37,  1.39s/it]                                                         {'loss': 0.3002, 'grad_norm': 1.2684130668640137, 'learning_rate': 1.0003821169277798e-05, 'epoch': 0.8}
  3%|▎         | 2621/78504 [1:34:48<29:14:37,  1.39s/it]  3%|▎         | 2622/78504 [1:34:49<27:25:39,  1.30s/it]                                                         {'loss': 0.287, 'grad_norm': 1.0307118892669678, 'learning_rate': 1.0007642338555598e-05, 'epoch': 0.8}
  3%|▎         | 2622/78504 [1:34:49<27:25:39,  1.30s/it]  3%|▎         | 2623/78504 [1:34:50<25:48:05,  1.22s/it]                                                         {'loss': 0.3261, 'grad_norm': 4.115602493286133, 'learning_rate': 1.0011463507833397e-05, 'epoch': 0.8}
  3%|▎         | 2623/78504 [1:34:50<25:48:05,  1.22s/it]  3%|▎         | 2624/78504 [1:34:51<24:02:42,  1.14s/it]                                                         {'loss': 0.3052, 'grad_norm': 1.338805913925171, 'learning_rate': 1.0015284677111196e-05, 'epoch': 0.8}
  3%|▎         | 2624/78504 [1:34:51<24:02:42,  1.14s/it]  3%|▎         | 2625/78504 [1:34:52<21:45:20,  1.03s/it]                                                         {'loss': 0.3728, 'grad_norm': 1.8015447854995728, 'learning_rate': 1.0019105846388995e-05, 'epoch': 0.8}
  3%|▎         | 2625/78504 [1:34:52<21:45:20,  1.03s/it]  3%|▎         | 2626/78504 [1:34:59<60:51:31,  2.89s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.938104510307312, 'learning_rate': 1.0022927015666793e-05, 'epoch': 0.8}
  3%|▎         | 2626/78504 [1:34:59<60:51:31,  2.89s/it]  3%|▎         | 2627/78504 [1:35:03<63:15:19,  3.00s/it]                                                         {'loss': 0.1138, 'grad_norm': 0.39401668310165405, 'learning_rate': 1.0026748184944594e-05, 'epoch': 0.8}
  3%|▎         | 2627/78504 [1:35:03<63:15:19,  3.00s/it]  3%|▎         | 2628/78504 [1:35:06<63:12:57,  3.00s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.5076119303703308, 'learning_rate': 1.0030569354222392e-05, 'epoch': 0.8}
  3%|▎         | 2628/78504 [1:35:06<63:12:57,  3.00s/it]  3%|▎         | 2629/78504 [1:35:08<60:40:29,  2.88s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.42815831303596497, 'learning_rate': 1.0034390523500191e-05, 'epoch': 0.8}
  3%|▎         | 2629/78504 [1:35:08<60:40:29,  2.88s/it]  3%|▎         | 2630/78504 [1:35:10<57:24:18,  2.72s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.539563000202179, 'learning_rate': 1.0038211692777992e-05, 'epoch': 0.8}
  3%|▎         | 2630/78504 [1:35:11<57:24:18,  2.72s/it]  3%|▎         | 2631/78504 [1:35:13<55:05:10,  2.61s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.4089325964450836, 'learning_rate': 1.004203286205579e-05, 'epoch': 0.8}
  3%|▎         | 2631/78504 [1:35:13<55:05:10,  2.61s/it]  3%|▎         | 2632/78504 [1:35:15<53:20:44,  2.53s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.4188878536224365, 'learning_rate': 1.0045854031333589e-05, 'epoch': 0.8}
  3%|▎         | 2632/78504 [1:35:15<53:20:44,  2.53s/it]  3%|▎         | 2633/78504 [1:35:17<50:33:15,  2.40s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.4448242485523224, 'learning_rate': 1.0049675200611388e-05, 'epoch': 0.8}
  3%|▎         | 2633/78504 [1:35:17<50:33:15,  2.40s/it]  3%|▎         | 2634/78504 [1:35:19<49:16:27,  2.34s/it]                                                         {'loss': 0.1277, 'grad_norm': 0.4662359356880188, 'learning_rate': 1.0053496369889187e-05, 'epoch': 0.81}
  3%|▎         | 2634/78504 [1:35:19<49:16:27,  2.34s/it]  3%|▎         | 2635/78504 [1:35:22<48:01:12,  2.28s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.45505592226982117, 'learning_rate': 1.0057317539166985e-05, 'epoch': 0.81}
  3%|▎         | 2635/78504 [1:35:22<48:01:12,  2.28s/it]  3%|▎         | 2636/78504 [1:35:24<46:15:52,  2.20s/it]                                                         {'loss': 0.1299, 'grad_norm': 0.4483852684497833, 'learning_rate': 1.0061138708444784e-05, 'epoch': 0.81}
  3%|▎         | 2636/78504 [1:35:24<46:15:52,  2.20s/it]  3%|▎         | 2637/78504 [1:35:25<43:47:49,  2.08s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.4546952247619629, 'learning_rate': 1.0064959877722585e-05, 'epoch': 0.81}
  3%|▎         | 2637/78504 [1:35:25<43:47:49,  2.08s/it]  3%|▎         | 2638/78504 [1:35:27<42:27:51,  2.02s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.6013298034667969, 'learning_rate': 1.0068781047000383e-05, 'epoch': 0.81}
  3%|▎         | 2638/78504 [1:35:27<42:27:51,  2.02s/it]  3%|▎         | 2639/78504 [1:35:29<40:32:18,  1.92s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.5092337727546692, 'learning_rate': 1.0072602216278182e-05, 'epoch': 0.81}
  3%|▎         | 2639/78504 [1:35:29<40:32:18,  1.92s/it]  3%|▎         | 2640/78504 [1:35:31<39:19:17,  1.87s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.702775239944458, 'learning_rate': 1.007642338555598e-05, 'epoch': 0.81}
  3%|▎         | 2640/78504 [1:35:31<39:19:17,  1.87s/it]  3%|▎         | 2641/78504 [1:35:32<37:59:26,  1.80s/it]                                                         {'loss': 0.23, 'grad_norm': 0.6225880980491638, 'learning_rate': 1.008024455483378e-05, 'epoch': 0.81}
  3%|▎         | 2641/78504 [1:35:32<37:59:26,  1.80s/it]  3%|▎         | 2642/78504 [1:35:34<36:19:02,  1.72s/it]                                                         {'loss': 0.2239, 'grad_norm': 0.7579215168952942, 'learning_rate': 1.0084065724111578e-05, 'epoch': 0.81}
  3%|▎         | 2642/78504 [1:35:34<36:19:02,  1.72s/it]  3%|▎         | 2643/78504 [1:35:35<34:24:06,  1.63s/it]                                                         {'loss': 0.2476, 'grad_norm': 0.7688767910003662, 'learning_rate': 1.0087886893389377e-05, 'epoch': 0.81}
  3%|▎         | 2643/78504 [1:35:35<34:24:06,  1.63s/it]  3%|▎         | 2644/78504 [1:35:37<33:02:07,  1.57s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.8292747139930725, 'learning_rate': 1.0091708062667176e-05, 'epoch': 0.81}
  3%|▎         | 2644/78504 [1:35:37<33:02:07,  1.57s/it]  3%|▎         | 2645/78504 [1:35:38<30:53:04,  1.47s/it]                                                         {'loss': 0.2576, 'grad_norm': 1.3755688667297363, 'learning_rate': 1.0095529231944976e-05, 'epoch': 0.81}
  3%|▎         | 2645/78504 [1:35:38<30:53:04,  1.47s/it]  3%|▎         | 2646/78504 [1:35:39<28:45:58,  1.37s/it]                                                         {'loss': 0.2639, 'grad_norm': 1.60938560962677, 'learning_rate': 1.0099350401222775e-05, 'epoch': 0.81}
  3%|▎         | 2646/78504 [1:35:39<28:45:58,  1.37s/it]  3%|▎         | 2647/78504 [1:35:40<27:03:59,  1.28s/it]                                                         {'loss': 0.2581, 'grad_norm': 1.2197619676589966, 'learning_rate': 1.0103171570500574e-05, 'epoch': 0.81}
  3%|▎         | 2647/78504 [1:35:40<27:03:59,  1.28s/it]  3%|▎         | 2648/78504 [1:35:41<25:11:45,  1.20s/it]                                                         {'loss': 0.293, 'grad_norm': 1.4927300214767456, 'learning_rate': 1.0106992739778372e-05, 'epoch': 0.81}
  3%|▎         | 2648/78504 [1:35:41<25:11:45,  1.20s/it]  3%|▎         | 2649/78504 [1:35:42<23:33:29,  1.12s/it]                                                         {'loss': 0.3269, 'grad_norm': 1.9834568500518799, 'learning_rate': 1.0110813909056171e-05, 'epoch': 0.81}
  3%|▎         | 2649/78504 [1:35:42<23:33:29,  1.12s/it]  3%|▎         | 2650/78504 [1:35:43<21:28:51,  1.02s/it]                                                         {'loss': 0.4133, 'grad_norm': 2.8334314823150635, 'learning_rate': 1.011463507833397e-05, 'epoch': 0.81}
  3%|▎         | 2650/78504 [1:35:43<21:28:51,  1.02s/it]  3%|▎         | 2651/78504 [1:35:51<69:02:26,  3.28s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.5006808638572693, 'learning_rate': 1.0118456247611769e-05, 'epoch': 0.81}
  3%|▎         | 2651/78504 [1:35:51<69:02:26,  3.28s/it]  3%|▎         | 2652/78504 [1:35:55<68:05:49,  3.23s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.6638453602790833, 'learning_rate': 1.0122277416889567e-05, 'epoch': 0.81}
  3%|▎         | 2652/78504 [1:35:55<68:05:49,  3.23s/it]  3%|▎         | 2653/78504 [1:35:58<66:45:28,  3.17s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.4254145622253418, 'learning_rate': 1.0126098586167368e-05, 'epoch': 0.81}
  3%|▎         | 2653/78504 [1:35:58<66:45:28,  3.17s/it]  3%|▎         | 2654/78504 [1:36:00<63:07:54,  3.00s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.3154521882534027, 'learning_rate': 1.0129919755445167e-05, 'epoch': 0.81}
  3%|▎         | 2654/78504 [1:36:00<63:07:54,  3.00s/it]  3%|▎         | 2655/78504 [1:36:03<59:57:16,  2.85s/it]                                                         {'loss': 0.1039, 'grad_norm': 0.5340317487716675, 'learning_rate': 1.0133740924722965e-05, 'epoch': 0.81}
  3%|▎         | 2655/78504 [1:36:03<59:57:16,  2.85s/it]  3%|▎         | 2656/78504 [1:36:05<56:53:18,  2.70s/it]                                                         {'loss': 0.1046, 'grad_norm': 0.3642619550228119, 'learning_rate': 1.0137562094000764e-05, 'epoch': 0.81}
  3%|▎         | 2656/78504 [1:36:05<56:53:18,  2.70s/it]  3%|▎         | 2657/78504 [1:36:07<54:34:52,  2.59s/it]                                                         {'loss': 0.0984, 'grad_norm': 0.4244588315486908, 'learning_rate': 1.0141383263278563e-05, 'epoch': 0.81}
  3%|▎         | 2657/78504 [1:36:07<54:34:52,  2.59s/it]  3%|▎         | 2658/78504 [1:36:09<51:27:19,  2.44s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.4497390687465668, 'learning_rate': 1.0145204432556362e-05, 'epoch': 0.81}
  3%|▎         | 2658/78504 [1:36:10<51:27:19,  2.44s/it]  3%|▎         | 2659/78504 [1:36:12<48:53:58,  2.32s/it]                                                         {'loss': 0.133, 'grad_norm': 0.47265222668647766, 'learning_rate': 1.014902560183416e-05, 'epoch': 0.81}
  3%|▎         | 2659/78504 [1:36:12<48:53:58,  2.32s/it]  3%|▎         | 2660/78504 [1:36:14<47:43:48,  2.27s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.42886224389076233, 'learning_rate': 1.0152846771111959e-05, 'epoch': 0.81}
  3%|▎         | 2660/78504 [1:36:14<47:43:48,  2.27s/it]  3%|▎         | 2661/78504 [1:36:16<46:12:41,  2.19s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.44536954164505005, 'learning_rate': 1.015666794038976e-05, 'epoch': 0.81}
  3%|▎         | 2661/78504 [1:36:16<46:12:41,  2.19s/it]  3%|▎         | 2662/78504 [1:36:18<44:53:26,  2.13s/it]                                                         {'loss': 0.128, 'grad_norm': 0.7972167730331421, 'learning_rate': 1.0160489109667558e-05, 'epoch': 0.81}
  3%|▎         | 2662/78504 [1:36:18<44:53:26,  2.13s/it]  3%|▎         | 2663/78504 [1:36:20<43:11:48,  2.05s/it]                                                         {'loss': 0.1485, 'grad_norm': 0.5563852787017822, 'learning_rate': 1.0164310278945357e-05, 'epoch': 0.81}
  3%|▎         | 2663/78504 [1:36:20<43:11:48,  2.05s/it]  3%|▎         | 2664/78504 [1:36:21<41:53:50,  1.99s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.5481545329093933, 'learning_rate': 1.0168131448223156e-05, 'epoch': 0.81}
  3%|▎         | 2664/78504 [1:36:21<41:53:50,  1.99s/it]  3%|▎         | 2665/78504 [1:36:23<40:36:30,  1.93s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.6063458323478699, 'learning_rate': 1.0171952617500954e-05, 'epoch': 0.81}
  3%|▎         | 2665/78504 [1:36:23<40:36:30,  1.93s/it]  3%|▎         | 2666/78504 [1:36:25<38:48:14,  1.84s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.6633944511413574, 'learning_rate': 1.0175773786778755e-05, 'epoch': 0.82}
  3%|▎         | 2666/78504 [1:36:25<38:48:14,  1.84s/it]  3%|▎         | 2667/78504 [1:36:26<36:58:05,  1.75s/it]                                                         {'loss': 0.2656, 'grad_norm': 0.9465271234512329, 'learning_rate': 1.0179594956056554e-05, 'epoch': 0.82}
  3%|▎         | 2667/78504 [1:36:26<36:58:05,  1.75s/it]  3%|▎         | 2668/78504 [1:36:28<35:07:40,  1.67s/it]                                                         {'loss': 0.2449, 'grad_norm': 0.9913036823272705, 'learning_rate': 1.0183416125334354e-05, 'epoch': 0.82}
  3%|▎         | 2668/78504 [1:36:28<35:07:40,  1.67s/it]  3%|▎         | 2669/78504 [1:36:29<33:22:46,  1.58s/it]                                                         {'loss': 0.2432, 'grad_norm': 1.0758776664733887, 'learning_rate': 1.0187237294612153e-05, 'epoch': 0.82}
  3%|▎         | 2669/78504 [1:36:29<33:22:46,  1.58s/it]  3%|▎         | 2670/78504 [1:36:31<31:28:29,  1.49s/it]                                                         {'loss': 0.289, 'grad_norm': 0.8601739406585693, 'learning_rate': 1.0191058463889952e-05, 'epoch': 0.82}
  3%|▎         | 2670/78504 [1:36:31<31:28:29,  1.49s/it]  3%|▎         | 2671/78504 [1:36:32<29:38:35,  1.41s/it]                                                         {'loss': 0.2968, 'grad_norm': 1.2025723457336426, 'learning_rate': 1.019487963316775e-05, 'epoch': 0.82}
  3%|▎         | 2671/78504 [1:36:32<29:38:35,  1.41s/it]  3%|▎         | 2672/78504 [1:36:33<27:37:26,  1.31s/it]                                                         {'loss': 0.2708, 'grad_norm': 1.2072973251342773, 'learning_rate': 1.0198700802445549e-05, 'epoch': 0.82}
  3%|▎         | 2672/78504 [1:36:33<27:37:26,  1.31s/it]  3%|▎         | 2673/78504 [1:36:34<26:02:21,  1.24s/it]                                                         {'loss': 0.2731, 'grad_norm': 1.03488028049469, 'learning_rate': 1.0202521971723348e-05, 'epoch': 0.82}
  3%|▎         | 2673/78504 [1:36:34<26:02:21,  1.24s/it]  3%|▎         | 2674/78504 [1:36:35<24:06:10,  1.14s/it]                                                         {'loss': 0.3218, 'grad_norm': 2.353135824203491, 'learning_rate': 1.0206343141001147e-05, 'epoch': 0.82}
  3%|▎         | 2674/78504 [1:36:35<24:06:10,  1.14s/it]  3%|▎         | 2675/78504 [1:36:36<21:48:18,  1.04s/it]                                                         {'loss': 0.392, 'grad_norm': 2.160511016845703, 'learning_rate': 1.0210164310278945e-05, 'epoch': 0.82}
  3%|▎         | 2675/78504 [1:36:36<21:48:18,  1.04s/it]  3%|▎         | 2676/78504 [1:36:43<65:07:18,  3.09s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.49470964074134827, 'learning_rate': 1.0213985479556746e-05, 'epoch': 0.82}
  3%|▎         | 2676/78504 [1:36:43<65:07:18,  3.09s/it]  3%|▎         | 2677/78504 [1:36:47<65:25:49,  3.11s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.4149441421031952, 'learning_rate': 1.0217806648834545e-05, 'epoch': 0.82}
  3%|▎         | 2677/78504 [1:36:47<65:25:49,  3.11s/it]  3%|▎         | 2678/78504 [1:36:49<62:13:11,  2.95s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.36247092485427856, 'learning_rate': 1.0221627818112343e-05, 'epoch': 0.82}
  3%|▎         | 2678/78504 [1:36:49<62:13:11,  2.95s/it]  3%|▎         | 2679/78504 [1:36:52<60:04:21,  2.85s/it]                                                         {'loss': 0.1143, 'grad_norm': 0.4891511797904968, 'learning_rate': 1.0225448987390142e-05, 'epoch': 0.82}
  3%|▎         | 2679/78504 [1:36:52<60:04:21,  2.85s/it]  3%|▎         | 2680/78504 [1:36:54<57:40:06,  2.74s/it]                                                         {'loss': 0.0918, 'grad_norm': 0.4215775728225708, 'learning_rate': 1.022927015666794e-05, 'epoch': 0.82}
  3%|▎         | 2680/78504 [1:36:54<57:40:06,  2.74s/it]  3%|▎         | 2681/78504 [1:36:57<54:44:51,  2.60s/it]                                                         {'loss': 0.1041, 'grad_norm': 0.44632688164711, 'learning_rate': 1.023309132594574e-05, 'epoch': 0.82}
  3%|▎         | 2681/78504 [1:36:57<54:44:51,  2.60s/it]  3%|▎         | 2682/78504 [1:36:59<52:58:34,  2.52s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.39979422092437744, 'learning_rate': 1.0236912495223538e-05, 'epoch': 0.82}
  3%|▎         | 2682/78504 [1:36:59<52:58:34,  2.52s/it]  3%|▎         | 2683/78504 [1:37:01<50:26:53,  2.40s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.4780469834804535, 'learning_rate': 1.0240733664501337e-05, 'epoch': 0.82}
  3%|▎         | 2683/78504 [1:37:01<50:26:53,  2.40s/it]  3%|▎         | 2684/78504 [1:37:03<49:06:38,  2.33s/it]                                                         {'loss': 0.0929, 'grad_norm': 0.5904396772384644, 'learning_rate': 1.0244554833779137e-05, 'epoch': 0.82}
  3%|▎         | 2684/78504 [1:37:03<49:06:38,  2.33s/it]  3%|▎         | 2685/78504 [1:37:05<48:05:18,  2.28s/it]                                                         {'loss': 0.1155, 'grad_norm': 0.6922567486763, 'learning_rate': 1.0248376003056936e-05, 'epoch': 0.82}
  3%|▎         | 2685/78504 [1:37:05<48:05:18,  2.28s/it]  3%|▎         | 2686/78504 [1:37:07<46:28:31,  2.21s/it]                                                         {'loss': 0.1018, 'grad_norm': 0.46451500058174133, 'learning_rate': 1.0252197172334735e-05, 'epoch': 0.82}
  3%|▎         | 2686/78504 [1:37:07<46:28:31,  2.21s/it]  3%|▎         | 2687/78504 [1:37:09<45:03:07,  2.14s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.6084572672843933, 'learning_rate': 1.0256018341612534e-05, 'epoch': 0.82}
  3%|▎         | 2687/78504 [1:37:09<45:03:07,  2.14s/it]  3%|▎         | 2688/78504 [1:37:11<43:19:37,  2.06s/it]                                                         {'loss': 0.1201, 'grad_norm': 0.5727601647377014, 'learning_rate': 1.0259839510890332e-05, 'epoch': 0.82}
  3%|▎         | 2688/78504 [1:37:11<43:19:37,  2.06s/it]  3%|▎         | 2689/78504 [1:37:13<42:05:19,  2.00s/it]                                                         {'loss': 0.181, 'grad_norm': 0.6302147507667542, 'learning_rate': 1.0263660680168131e-05, 'epoch': 0.82}
  3%|▎         | 2689/78504 [1:37:13<42:05:19,  2.00s/it]  3%|▎         | 2690/78504 [1:37:15<40:36:51,  1.93s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.7509560585021973, 'learning_rate': 1.026748184944593e-05, 'epoch': 0.82}
  3%|▎         | 2690/78504 [1:37:15<40:36:51,  1.93s/it]  3%|▎         | 2691/78504 [1:37:17<38:50:11,  1.84s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.5848539471626282, 'learning_rate': 1.0271303018723729e-05, 'epoch': 0.82}
  3%|▎         | 2691/78504 [1:37:17<38:50:11,  1.84s/it]  3%|▎         | 2692/78504 [1:37:18<36:54:44,  1.75s/it]                                                         {'loss': 0.1996, 'grad_norm': 0.7842033505439758, 'learning_rate': 1.0275124188001529e-05, 'epoch': 0.82}
  3%|▎         | 2692/78504 [1:37:18<36:54:44,  1.75s/it]  3%|▎         | 2693/78504 [1:37:20<35:05:14,  1.67s/it]                                                         {'loss': 0.2553, 'grad_norm': 0.8918296098709106, 'learning_rate': 1.0278945357279328e-05, 'epoch': 0.82}
  3%|▎         | 2693/78504 [1:37:20<35:05:14,  1.67s/it]  3%|▎         | 2694/78504 [1:37:21<33:21:43,  1.58s/it]                                                         {'loss': 0.2185, 'grad_norm': 0.8631632328033447, 'learning_rate': 1.0282766526557127e-05, 'epoch': 0.82}
  3%|▎         | 2694/78504 [1:37:21<33:21:43,  1.58s/it]  3%|▎         | 2695/78504 [1:37:22<31:28:50,  1.49s/it]                                                         {'loss': 0.2532, 'grad_norm': 0.894744336605072, 'learning_rate': 1.0286587695834925e-05, 'epoch': 0.82}
  3%|▎         | 2695/78504 [1:37:22<31:28:50,  1.49s/it]  3%|▎         | 2696/78504 [1:37:23<29:15:53,  1.39s/it]                                                         {'loss': 0.2687, 'grad_norm': 0.9335241913795471, 'learning_rate': 1.0290408865112724e-05, 'epoch': 0.82}
  3%|▎         | 2696/78504 [1:37:23<29:15:53,  1.39s/it]  3%|▎         | 2697/78504 [1:37:24<27:23:21,  1.30s/it]                                                         {'loss': 0.2868, 'grad_norm': 1.0624096393585205, 'learning_rate': 1.0294230034390523e-05, 'epoch': 0.82}
  3%|▎         | 2697/78504 [1:37:24<27:23:21,  1.30s/it]  3%|▎         | 2698/78504 [1:37:25<25:28:55,  1.21s/it]                                                         {'loss': 0.2971, 'grad_norm': 2.713038682937622, 'learning_rate': 1.0298051203668322e-05, 'epoch': 0.82}
  3%|▎         | 2698/78504 [1:37:25<25:28:55,  1.21s/it]  3%|▎         | 2699/78504 [1:37:26<23:50:13,  1.13s/it]                                                         {'loss': 0.3233, 'grad_norm': 1.9276816844940186, 'learning_rate': 1.0301872372946122e-05, 'epoch': 0.83}
  3%|▎         | 2699/78504 [1:37:26<23:50:13,  1.13s/it]  3%|▎         | 2700/78504 [1:37:27<21:38:41,  1.03s/it]                                                         {'loss': 0.4258, 'grad_norm': 1.6911698579788208, 'learning_rate': 1.030569354222392e-05, 'epoch': 0.83}
  3%|▎         | 2700/78504 [1:37:27<21:38:41,  1.03s/it]  3%|▎         | 2701/78504 [1:37:35<67:20:37,  3.20s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.43886327743530273, 'learning_rate': 1.030951471150172e-05, 'epoch': 0.83}
  3%|▎         | 2701/78504 [1:37:35<67:20:37,  3.20s/it]  3%|▎         | 2702/78504 [1:37:39<68:22:09,  3.25s/it]                                                         {'loss': 0.112, 'grad_norm': 0.5682336091995239, 'learning_rate': 1.0313335880779518e-05, 'epoch': 0.83}
  3%|▎         | 2702/78504 [1:37:39<68:22:09,  3.25s/it]  3%|▎         | 2703/78504 [1:37:42<66:41:41,  3.17s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.38871726393699646, 'learning_rate': 1.0317157050057317e-05, 'epoch': 0.83}
  3%|▎         | 2703/78504 [1:37:42<66:41:41,  3.17s/it]  3%|▎         | 2704/78504 [1:37:44<63:09:09,  3.00s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.3348056972026825, 'learning_rate': 1.0320978219335116e-05, 'epoch': 0.83}
  3%|▎         | 2704/78504 [1:37:44<63:09:09,  3.00s/it]  3%|▎         | 2705/78504 [1:37:47<59:58:01,  2.85s/it]                                                         {'loss': 0.1327, 'grad_norm': 0.6860211491584778, 'learning_rate': 1.0324799388612916e-05, 'epoch': 0.83}
  3%|▎         | 2705/78504 [1:37:47<59:58:01,  2.85s/it]  3%|▎         | 2706/78504 [1:37:49<55:49:59,  2.65s/it]                                                         {'loss': 0.1054, 'grad_norm': 0.4940170347690582, 'learning_rate': 1.0328620557890715e-05, 'epoch': 0.83}
  3%|▎         | 2706/78504 [1:37:49<55:49:59,  2.65s/it]  3%|▎         | 2707/78504 [1:37:51<53:50:45,  2.56s/it]                                                         {'loss': 0.0948, 'grad_norm': 0.7077764868736267, 'learning_rate': 1.0332441727168515e-05, 'epoch': 0.83}
  3%|▎         | 2707/78504 [1:37:51<53:50:45,  2.56s/it]  3%|▎         | 2708/78504 [1:37:54<51:57:30,  2.47s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.49454790353775024, 'learning_rate': 1.0336262896446314e-05, 'epoch': 0.83}
  3%|▎         | 2708/78504 [1:37:54<51:57:30,  2.47s/it]  3%|▎         | 2709/78504 [1:37:56<50:16:27,  2.39s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.4234122931957245, 'learning_rate': 1.0340084065724113e-05, 'epoch': 0.83}
  3%|▎         | 2709/78504 [1:37:56<50:16:27,  2.39s/it]  3%|▎         | 2710/78504 [1:37:58<48:42:23,  2.31s/it]                                                         {'loss': 0.1195, 'grad_norm': 0.5756216049194336, 'learning_rate': 1.0343905235001912e-05, 'epoch': 0.83}
  3%|▎         | 2710/78504 [1:37:58<48:42:23,  2.31s/it]  3%|▎         | 2711/78504 [1:38:00<46:38:39,  2.22s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5116868019104004, 'learning_rate': 1.034772640427971e-05, 'epoch': 0.83}
  3%|▎         | 2711/78504 [1:38:00<46:38:39,  2.22s/it]  3%|▎         | 2712/78504 [1:38:02<44:06:23,  2.09s/it]                                                         {'loss': 0.1161, 'grad_norm': 0.6026672124862671, 'learning_rate': 1.0351547573557509e-05, 'epoch': 0.83}
  3%|▎         | 2712/78504 [1:38:02<44:06:23,  2.09s/it]  3%|▎         | 2713/78504 [1:38:04<42:39:13,  2.03s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.6034939289093018, 'learning_rate': 1.0355368742835308e-05, 'epoch': 0.83}
  3%|▎         | 2713/78504 [1:38:04<42:39:13,  2.03s/it]  3%|▎         | 2714/78504 [1:38:05<41:28:12,  1.97s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.9179158806800842, 'learning_rate': 1.0359189912113107e-05, 'epoch': 0.83}
  3%|▎         | 2714/78504 [1:38:06<41:28:12,  1.97s/it]  3%|▎         | 2715/78504 [1:38:07<39:57:27,  1.90s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.7176274657249451, 'learning_rate': 1.0363011081390907e-05, 'epoch': 0.83}
  3%|▎         | 2715/78504 [1:38:07<39:57:27,  1.90s/it]  3%|▎         | 2716/78504 [1:38:09<38:20:14,  1.82s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.7101695537567139, 'learning_rate': 1.0366832250668706e-05, 'epoch': 0.83}
  3%|▎         | 2716/78504 [1:38:09<38:20:14,  1.82s/it]  3%|▎         | 2717/78504 [1:38:10<36:26:03,  1.73s/it]                                                         {'loss': 0.1974, 'grad_norm': 0.7133851051330566, 'learning_rate': 1.0370653419946504e-05, 'epoch': 0.83}
  3%|▎         | 2717/78504 [1:38:10<36:26:03,  1.73s/it]  3%|▎         | 2718/78504 [1:38:12<34:32:16,  1.64s/it]                                                         {'loss': 0.2155, 'grad_norm': 0.6162519454956055, 'learning_rate': 1.0374474589224303e-05, 'epoch': 0.83}
  3%|▎         | 2718/78504 [1:38:12<34:32:16,  1.64s/it]  3%|▎         | 2719/78504 [1:38:13<33:04:52,  1.57s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.8116396069526672, 'learning_rate': 1.0378295758502102e-05, 'epoch': 0.83}
  3%|▎         | 2719/78504 [1:38:13<33:04:52,  1.57s/it]  3%|▎         | 2720/78504 [1:38:14<30:52:15,  1.47s/it]                                                         {'loss': 0.2671, 'grad_norm': 1.0192192792892456, 'learning_rate': 1.03821169277799e-05, 'epoch': 0.83}
  3%|▎         | 2720/78504 [1:38:14<30:52:15,  1.47s/it]  3%|▎         | 2721/78504 [1:38:16<28:47:25,  1.37s/it]                                                         {'loss': 0.3028, 'grad_norm': 1.7973120212554932, 'learning_rate': 1.03859380970577e-05, 'epoch': 0.83}
  3%|▎         | 2721/78504 [1:38:16<28:47:25,  1.37s/it]  3%|▎         | 2722/78504 [1:38:17<27:06:43,  1.29s/it]                                                         {'loss': 0.3178, 'grad_norm': 1.197771430015564, 'learning_rate': 1.0389759266335498e-05, 'epoch': 0.83}
  3%|▎         | 2722/78504 [1:38:17<27:06:43,  1.29s/it]  3%|▎         | 2723/78504 [1:38:18<25:14:37,  1.20s/it]                                                         {'loss': 0.2802, 'grad_norm': 1.1727361679077148, 'learning_rate': 1.0393580435613299e-05, 'epoch': 0.83}
  3%|▎         | 2723/78504 [1:38:18<25:14:37,  1.20s/it]  3%|▎         | 2724/78504 [1:38:19<23:35:37,  1.12s/it]                                                         {'loss': 0.3497, 'grad_norm': 1.8272231817245483, 'learning_rate': 1.0397401604891097e-05, 'epoch': 0.83}
  3%|▎         | 2724/78504 [1:38:19<23:35:37,  1.12s/it]  3%|▎         | 2725/78504 [1:38:19<21:27:06,  1.02s/it]                                                         {'loss': 0.4417, 'grad_norm': 9.384324073791504, 'learning_rate': 1.0401222774168896e-05, 'epoch': 0.83}
  3%|▎         | 2725/78504 [1:38:19<21:27:06,  1.02s/it]  3%|▎         | 2726/78504 [1:38:28<66:09:30,  3.14s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.6080257892608643, 'learning_rate': 1.0405043943446695e-05, 'epoch': 0.83}
  3%|▎         | 2726/78504 [1:38:28<66:09:30,  3.14s/it]  3%|▎         | 2727/78504 [1:38:31<66:09:30,  3.14s/it]                                                         {'loss': 0.1159, 'grad_norm': 0.4994317889213562, 'learning_rate': 1.0408865112724494e-05, 'epoch': 0.83}
  3%|▎         | 2727/78504 [1:38:31<66:09:30,  3.14s/it]  3%|▎         | 2728/78504 [1:38:34<65:24:32,  3.11s/it]                                                         {'loss': 0.11, 'grad_norm': 0.436990886926651, 'learning_rate': 1.0412686282002292e-05, 'epoch': 0.83}
  3%|▎         | 2728/78504 [1:38:34<65:24:32,  3.11s/it]  3%|▎         | 2729/78504 [1:38:36<62:18:20,  2.96s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.3655126392841339, 'learning_rate': 1.0416507451280091e-05, 'epoch': 0.83}
  3%|▎         | 2729/78504 [1:38:36<62:18:20,  2.96s/it]  3%|▎         | 2730/78504 [1:38:39<59:15:00,  2.81s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.579567551612854, 'learning_rate': 1.0420328620557892e-05, 'epoch': 0.83}
  3%|▎         | 2730/78504 [1:38:39<59:15:00,  2.81s/it]  3%|▎         | 2731/78504 [1:38:41<55:49:27,  2.65s/it]                                                         {'loss': 0.084, 'grad_norm': 0.36911001801490784, 'learning_rate': 1.042414978983569e-05, 'epoch': 0.83}
  3%|▎         | 2731/78504 [1:38:41<55:49:27,  2.65s/it]  3%|▎         | 2732/78504 [1:38:43<53:45:27,  2.55s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.5375697016716003, 'learning_rate': 1.0427970959113489e-05, 'epoch': 0.84}
  3%|▎         | 2732/78504 [1:38:43<53:45:27,  2.55s/it]  3%|▎         | 2733/78504 [1:38:45<50:59:53,  2.42s/it]                                                         {'loss': 0.1094, 'grad_norm': 0.38624992966651917, 'learning_rate': 1.0431792128391288e-05, 'epoch': 0.84}
  3%|▎         | 2733/78504 [1:38:45<50:59:53,  2.42s/it]  3%|▎         | 2734/78504 [1:38:48<49:29:50,  2.35s/it]                                                         {'loss': 0.1324, 'grad_norm': 0.4918343424797058, 'learning_rate': 1.0435613297669087e-05, 'epoch': 0.84}
  3%|▎         | 2734/78504 [1:38:48<49:29:50,  2.35s/it]  3%|▎         | 2735/78504 [1:38:50<48:12:48,  2.29s/it]                                                         {'loss': 0.1305, 'grad_norm': 0.5002794861793518, 'learning_rate': 1.0439434466946885e-05, 'epoch': 0.84}
  3%|▎         | 2735/78504 [1:38:50<48:12:48,  2.29s/it]  3%|▎         | 2736/78504 [1:38:52<46:30:14,  2.21s/it]                                                         {'loss': 0.1209, 'grad_norm': 0.47890692949295044, 'learning_rate': 1.0443255636224684e-05, 'epoch': 0.84}
  3%|▎         | 2736/78504 [1:38:52<46:30:14,  2.21s/it]  3%|▎         | 2737/78504 [1:38:54<43:54:57,  2.09s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.4349498152732849, 'learning_rate': 1.0447076805502483e-05, 'epoch': 0.84}
  3%|▎         | 2737/78504 [1:38:54<43:54:57,  2.09s/it]  3%|▎         | 2738/78504 [1:38:55<42:32:24,  2.02s/it]                                                         {'loss': 0.1348, 'grad_norm': 0.46539872884750366, 'learning_rate': 1.0450897974780283e-05, 'epoch': 0.84}
  3%|▎         | 2738/78504 [1:38:56<42:32:24,  2.02s/it]  3%|▎         | 2739/78504 [1:38:57<41:27:03,  1.97s/it]                                                         {'loss': 0.1886, 'grad_norm': 0.5796501040458679, 'learning_rate': 1.0454719144058082e-05, 'epoch': 0.84}
  3%|▎         | 2739/78504 [1:38:57<41:27:03,  1.97s/it]  3%|▎         | 2740/78504 [1:38:59<40:11:02,  1.91s/it]                                                         {'loss': 0.1693, 'grad_norm': 0.559927761554718, 'learning_rate': 1.045854031333588e-05, 'epoch': 0.84}
  3%|▎         | 2740/78504 [1:38:59<40:11:02,  1.91s/it]  3%|▎         | 2741/78504 [1:39:01<38:37:19,  1.84s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.6667305827140808, 'learning_rate': 1.046236148261368e-05, 'epoch': 0.84}
  3%|▎         | 2741/78504 [1:39:01<38:37:19,  1.84s/it]  3%|▎         | 2742/78504 [1:39:02<36:38:48,  1.74s/it]                                                         {'loss': 0.2374, 'grad_norm': 0.8264313340187073, 'learning_rate': 1.0466182651891478e-05, 'epoch': 0.84}
  3%|▎         | 2742/78504 [1:39:02<36:38:48,  1.74s/it]  3%|▎         | 2743/78504 [1:39:04<34:55:36,  1.66s/it]                                                         {'loss': 0.2127, 'grad_norm': 0.9184008836746216, 'learning_rate': 1.0470003821169277e-05, 'epoch': 0.84}
  3%|▎         | 2743/78504 [1:39:04<34:55:36,  1.66s/it]  3%|▎         | 2744/78504 [1:39:05<33:12:07,  1.58s/it]                                                         {'loss': 0.2492, 'grad_norm': 1.0119194984436035, 'learning_rate': 1.0473824990447077e-05, 'epoch': 0.84}
  3%|▎         | 2744/78504 [1:39:05<33:12:07,  1.58s/it]  3%|▎         | 2745/78504 [1:39:06<31:21:14,  1.49s/it]                                                         {'loss': 0.2567, 'grad_norm': 1.0189100503921509, 'learning_rate': 1.0477646159724876e-05, 'epoch': 0.84}
  3%|▎         | 2745/78504 [1:39:06<31:21:14,  1.49s/it]  3%|▎         | 2746/78504 [1:39:08<29:14:13,  1.39s/it]                                                         {'loss': 0.2635, 'grad_norm': 1.035668134689331, 'learning_rate': 1.0481467329002677e-05, 'epoch': 0.84}
  3%|▎         | 2746/78504 [1:39:08<29:14:13,  1.39s/it]  3%|▎         | 2747/78504 [1:39:09<27:23:14,  1.30s/it]                                                         {'loss': 0.2671, 'grad_norm': 1.1679913997650146, 'learning_rate': 1.0485288498280475e-05, 'epoch': 0.84}
  3%|▎         | 2747/78504 [1:39:09<27:23:14,  1.30s/it]  4%|▎         | 2748/78504 [1:39:10<25:47:56,  1.23s/it]                                                         {'loss': 0.3012, 'grad_norm': 1.369438648223877, 'learning_rate': 1.0489109667558274e-05, 'epoch': 0.84}
  4%|▎         | 2748/78504 [1:39:10<25:47:56,  1.23s/it]  4%|▎         | 2749/78504 [1:39:11<23:56:31,  1.14s/it]                                                         {'loss': 0.3619, 'grad_norm': 1.5794320106506348, 'learning_rate': 1.0492930836836073e-05, 'epoch': 0.84}
  4%|▎         | 2749/78504 [1:39:11<23:56:31,  1.14s/it]  4%|▎         | 2750/78504 [1:39:11<21:50:14,  1.04s/it]                                                         {'loss': 0.3651, 'grad_norm': 2.450791358947754, 'learning_rate': 1.0496752006113872e-05, 'epoch': 0.84}
  4%|▎         | 2750/78504 [1:39:11<21:50:14,  1.04s/it]  4%|▎         | 2751/78504 [1:39:19<65:22:43,  3.11s/it]                                                         {'loss': 0.1717, 'grad_norm': 0.4541258215904236, 'learning_rate': 1.050057317539167e-05, 'epoch': 0.84}
  4%|▎         | 2751/78504 [1:39:19<65:22:43,  3.11s/it]  4%|▎         | 2752/78504 [1:39:23<66:54:46,  3.18s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.3333888053894043, 'learning_rate': 1.0504394344669469e-05, 'epoch': 0.84}
  4%|▎         | 2752/78504 [1:39:23<66:54:46,  3.18s/it]  4%|▎         | 2753/78504 [1:39:25<63:04:55,  3.00s/it]                                                         {'loss': 0.1147, 'grad_norm': 0.35408729314804077, 'learning_rate': 1.0508215513947268e-05, 'epoch': 0.84}
  4%|▎         | 2753/78504 [1:39:25<63:04:55,  3.00s/it]  4%|▎         | 2754/78504 [1:39:28<60:40:54,  2.88s/it]                                                         {'loss': 0.098, 'grad_norm': 0.4184246361255646, 'learning_rate': 1.0512036683225068e-05, 'epoch': 0.84}
  4%|▎         | 2754/78504 [1:39:28<60:40:54,  2.88s/it]  4%|▎         | 2755/78504 [1:39:30<58:04:09,  2.76s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.36315903067588806, 'learning_rate': 1.0515857852502867e-05, 'epoch': 0.84}
  4%|▎         | 2755/78504 [1:39:30<58:04:09,  2.76s/it]  4%|▎         | 2756/78504 [1:39:33<54:58:22,  2.61s/it]                                                         {'loss': 0.0716, 'grad_norm': 0.3816969096660614, 'learning_rate': 1.0519679021780666e-05, 'epoch': 0.84}
  4%|▎         | 2756/78504 [1:39:33<54:58:22,  2.61s/it]  4%|▎         | 2757/78504 [1:39:35<53:11:33,  2.53s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.48533526062965393, 'learning_rate': 1.0523500191058464e-05, 'epoch': 0.84}
  4%|▎         | 2757/78504 [1:39:35<53:11:33,  2.53s/it]  4%|▎         | 2758/78504 [1:39:37<50:24:37,  2.40s/it]                                                         {'loss': 0.1023, 'grad_norm': 0.7747724652290344, 'learning_rate': 1.0527321360336263e-05, 'epoch': 0.84}
  4%|▎         | 2758/78504 [1:39:37<50:24:37,  2.40s/it]  4%|▎         | 2759/78504 [1:39:39<49:11:48,  2.34s/it]                                                         {'loss': 0.1296, 'grad_norm': 0.5113374590873718, 'learning_rate': 1.0531142529614062e-05, 'epoch': 0.84}
  4%|▎         | 2759/78504 [1:39:39<49:11:48,  2.34s/it]  4%|▎         | 2760/78504 [1:39:41<47:57:40,  2.28s/it]                                                         {'loss': 0.1281, 'grad_norm': 0.5016030073165894, 'learning_rate': 1.053496369889186e-05, 'epoch': 0.84}
  4%|▎         | 2760/78504 [1:39:41<47:57:40,  2.28s/it]  4%|▎         | 2761/78504 [1:39:43<46:08:15,  2.19s/it]                                                         {'loss': 0.1225, 'grad_norm': 0.6011331081390381, 'learning_rate': 1.0538784868169661e-05, 'epoch': 0.84}
  4%|▎         | 2761/78504 [1:39:43<46:08:15,  2.19s/it]  4%|▎         | 2762/78504 [1:39:45<44:49:06,  2.13s/it]                                                         {'loss': 0.1031, 'grad_norm': 0.5902177095413208, 'learning_rate': 1.054260603744746e-05, 'epoch': 0.84}
  4%|▎         | 2762/78504 [1:39:45<44:49:06,  2.13s/it]  4%|▎         | 2763/78504 [1:39:47<43:08:28,  2.05s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.5465698838233948, 'learning_rate': 1.0546427206725259e-05, 'epoch': 0.84}
  4%|▎         | 2763/78504 [1:39:47<43:08:28,  2.05s/it]  4%|▎         | 2764/78504 [1:39:49<41:47:32,  1.99s/it]                                                         {'loss': 0.2009, 'grad_norm': 1.401891827583313, 'learning_rate': 1.0550248376003057e-05, 'epoch': 0.85}
  4%|▎         | 2764/78504 [1:39:49<41:47:32,  1.99s/it]  4%|▎         | 2765/78504 [1:39:51<40:26:25,  1.92s/it]                                                         {'loss': 0.1455, 'grad_norm': 0.7809762358665466, 'learning_rate': 1.0554069545280856e-05, 'epoch': 0.85}
  4%|▎         | 2765/78504 [1:39:51<40:26:25,  1.92s/it]  4%|▎         | 2766/78504 [1:39:53<38:41:45,  1.84s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.748387336730957, 'learning_rate': 1.0557890714558655e-05, 'epoch': 0.85}
  4%|▎         | 2766/78504 [1:39:53<38:41:45,  1.84s/it]  4%|▎         | 2767/78504 [1:39:54<36:48:05,  1.75s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.8908138871192932, 'learning_rate': 1.0561711883836454e-05, 'epoch': 0.85}
  4%|▎         | 2767/78504 [1:39:54<36:48:05,  1.75s/it]  4%|▎         | 2768/78504 [1:39:56<35:00:16,  1.66s/it]                                                         {'loss': 0.2464, 'grad_norm': 1.379197120666504, 'learning_rate': 1.0565533053114252e-05, 'epoch': 0.85}
  4%|▎         | 2768/78504 [1:39:56<35:00:16,  1.66s/it]  4%|▎         | 2769/78504 [1:39:57<33:28:05,  1.59s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.8978850245475769, 'learning_rate': 1.0569354222392053e-05, 'epoch': 0.85}
  4%|▎         | 2769/78504 [1:39:57<33:28:05,  1.59s/it]  4%|▎         | 2770/78504 [1:39:58<31:07:36,  1.48s/it]                                                         {'loss': 0.2791, 'grad_norm': 1.1102849245071411, 'learning_rate': 1.0573175391669851e-05, 'epoch': 0.85}
  4%|▎         | 2770/78504 [1:39:58<31:07:36,  1.48s/it]  4%|▎         | 2771/78504 [1:39:59<28:53:02,  1.37s/it]                                                         {'loss': 0.239, 'grad_norm': 1.2840856313705444, 'learning_rate': 1.057699656094765e-05, 'epoch': 0.85}
  4%|▎         | 2771/78504 [1:39:59<28:53:02,  1.37s/it]  4%|▎         | 2772/78504 [1:40:00<27:09:03,  1.29s/it]                                                         {'loss': 0.2799, 'grad_norm': 1.3378690481185913, 'learning_rate': 1.0580817730225449e-05, 'epoch': 0.85}
  4%|▎         | 2772/78504 [1:40:00<27:09:03,  1.29s/it]  4%|▎         | 2773/78504 [1:40:01<25:19:09,  1.20s/it]                                                         {'loss': 0.242, 'grad_norm': 1.5433465242385864, 'learning_rate': 1.0584638899503248e-05, 'epoch': 0.85}
  4%|▎         | 2773/78504 [1:40:01<25:19:09,  1.20s/it]  4%|▎         | 2774/78504 [1:40:02<23:32:54,  1.12s/it]                                                         {'loss': 0.3581, 'grad_norm': 1.9549063444137573, 'learning_rate': 1.0588460068781046e-05, 'epoch': 0.85}
  4%|▎         | 2774/78504 [1:40:02<23:32:54,  1.12s/it]  4%|▎         | 2775/78504 [1:40:03<21:30:09,  1.02s/it]                                                         {'loss': 0.4089, 'grad_norm': 4.625490188598633, 'learning_rate': 1.0592281238058845e-05, 'epoch': 0.85}
  4%|▎         | 2775/78504 [1:40:03<21:30:09,  1.02s/it]  4%|▎         | 2776/78504 [1:40:14<81:18:35,  3.87s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.604476809501648, 'learning_rate': 1.0596102407336644e-05, 'epoch': 0.85}
  4%|▎         | 2776/78504 [1:40:14<81:18:35,  3.87s/it]  4%|▎         | 2777/78504 [1:40:17<78:11:39,  3.72s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.3805790841579437, 'learning_rate': 1.0599923576614444e-05, 'epoch': 0.85}
  4%|▎         | 2777/78504 [1:40:17<78:11:39,  3.72s/it]  4%|▎         | 2778/78504 [1:40:20<73:48:01,  3.51s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.4730716347694397, 'learning_rate': 1.0603744745892243e-05, 'epoch': 0.85}
  4%|▎         | 2778/78504 [1:40:20<73:48:01,  3.51s/it]  4%|▎         | 2779/78504 [1:40:23<68:01:05,  3.23s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.4074982702732086, 'learning_rate': 1.0607565915170042e-05, 'epoch': 0.85}
  4%|▎         | 2779/78504 [1:40:23<68:01:05,  3.23s/it]  4%|▎         | 2780/78504 [1:40:25<63:21:33,  3.01s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.39510518312454224, 'learning_rate': 1.061138708444784e-05, 'epoch': 0.85}
  4%|▎         | 2780/78504 [1:40:25<63:21:33,  3.01s/it]  4%|▎         | 2781/78504 [1:40:27<58:38:25,  2.79s/it]                                                         {'loss': 0.1004, 'grad_norm': 0.40070030093193054, 'learning_rate': 1.061520825372564e-05, 'epoch': 0.85}
  4%|▎         | 2781/78504 [1:40:27<58:38:25,  2.79s/it]  4%|▎         | 2782/78504 [1:40:30<55:42:38,  2.65s/it]                                                         {'loss': 0.0956, 'grad_norm': 0.4255559742450714, 'learning_rate': 1.061902942300344e-05, 'epoch': 0.85}
  4%|▎         | 2782/78504 [1:40:30<55:42:38,  2.65s/it]  4%|▎         | 2783/78504 [1:40:32<52:13:42,  2.48s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.42108026146888733, 'learning_rate': 1.0622850592281239e-05, 'epoch': 0.85}
  4%|▎         | 2783/78504 [1:40:32<52:13:42,  2.48s/it]  4%|▎         | 2784/78504 [1:40:34<49:26:42,  2.35s/it]                                                         {'loss': 0.148, 'grad_norm': 0.5555685758590698, 'learning_rate': 1.0626671761559037e-05, 'epoch': 0.85}
  4%|▎         | 2784/78504 [1:40:34<49:26:42,  2.35s/it]  4%|▎         | 2785/78504 [1:40:36<48:08:31,  2.29s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.40412527322769165, 'learning_rate': 1.0630492930836838e-05, 'epoch': 0.85}
  4%|▎         | 2785/78504 [1:40:36<48:08:31,  2.29s/it]  4%|▎         | 2786/78504 [1:40:38<46:15:32,  2.20s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.518484890460968, 'learning_rate': 1.0634314100114636e-05, 'epoch': 0.85}
  4%|▎         | 2786/78504 [1:40:38<46:15:32,  2.20s/it]  4%|▎         | 2787/78504 [1:40:40<44:33:53,  2.12s/it]                                                         {'loss': 0.1124, 'grad_norm': 0.5012656450271606, 'learning_rate': 1.0638135269392435e-05, 'epoch': 0.85}
  4%|▎         | 2787/78504 [1:40:40<44:33:53,  2.12s/it]  4%|▎         | 2788/78504 [1:40:42<43:08:37,  2.05s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.5051573514938354, 'learning_rate': 1.0641956438670234e-05, 'epoch': 0.85}
  4%|▎         | 2788/78504 [1:40:42<43:08:37,  2.05s/it]  4%|▎         | 2789/78504 [1:40:43<40:40:21,  1.93s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.6864897012710571, 'learning_rate': 1.0645777607948033e-05, 'epoch': 0.85}
  4%|▎         | 2789/78504 [1:40:43<40:40:21,  1.93s/it]  4%|▎         | 2790/78504 [1:40:45<39:40:57,  1.89s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.9090233445167542, 'learning_rate': 1.0649598777225831e-05, 'epoch': 0.85}
  4%|▎         | 2790/78504 [1:40:45<39:40:57,  1.89s/it]  4%|▎         | 2791/78504 [1:40:47<37:37:43,  1.79s/it]                                                         {'loss': 0.218, 'grad_norm': 1.2784740924835205, 'learning_rate': 1.065341994650363e-05, 'epoch': 0.85}
  4%|▎         | 2791/78504 [1:40:47<37:37:43,  1.79s/it]  4%|▎         | 2792/78504 [1:40:48<35:53:55,  1.71s/it]                                                         {'loss': 0.2131, 'grad_norm': 1.1337172985076904, 'learning_rate': 1.065724111578143e-05, 'epoch': 0.85}
  4%|▎         | 2792/78504 [1:40:48<35:53:55,  1.71s/it]  4%|▎         | 2793/78504 [1:40:50<34:26:13,  1.64s/it]                                                         {'loss': 0.2678, 'grad_norm': 1.0143535137176514, 'learning_rate': 1.066106228505923e-05, 'epoch': 0.85}
  4%|▎         | 2793/78504 [1:40:50<34:26:13,  1.64s/it]  4%|▎         | 2794/78504 [1:40:51<33:01:41,  1.57s/it]                                                         {'loss': 0.2692, 'grad_norm': 1.1509093046188354, 'learning_rate': 1.0664883454337028e-05, 'epoch': 0.85}
  4%|▎         | 2794/78504 [1:40:51<33:01:41,  1.57s/it]  4%|▎         | 2795/78504 [1:40:52<30:49:52,  1.47s/it]                                                         {'loss': 0.264, 'grad_norm': 0.9132645726203918, 'learning_rate': 1.0668704623614827e-05, 'epoch': 0.85}
  4%|▎         | 2795/78504 [1:40:52<30:49:52,  1.47s/it]  4%|▎         | 2796/78504 [1:40:54<28:41:27,  1.36s/it]                                                         {'loss': 0.3112, 'grad_norm': 1.193927526473999, 'learning_rate': 1.0672525792892626e-05, 'epoch': 0.85}
  4%|▎         | 2796/78504 [1:40:54<28:41:27,  1.36s/it]  4%|▎         | 2797/78504 [1:40:55<26:57:41,  1.28s/it]                                                         {'loss': 0.3274, 'grad_norm': 1.2361729145050049, 'learning_rate': 1.0676346962170424e-05, 'epoch': 0.86}
  4%|▎         | 2797/78504 [1:40:55<26:57:41,  1.28s/it]  4%|▎         | 2798/78504 [1:40:56<25:09:01,  1.20s/it]                                                         {'loss': 0.2829, 'grad_norm': 1.2190651893615723, 'learning_rate': 1.0680168131448223e-05, 'epoch': 0.86}
  4%|▎         | 2798/78504 [1:40:56<25:09:01,  1.20s/it]  4%|▎         | 2799/78504 [1:40:57<23:29:57,  1.12s/it]                                                         {'loss': 0.3008, 'grad_norm': 1.6414883136749268, 'learning_rate': 1.0683989300726022e-05, 'epoch': 0.86}
  4%|▎         | 2799/78504 [1:40:57<23:29:57,  1.12s/it]  4%|▎         | 2800/78504 [1:40:57<21:24:31,  1.02s/it]                                                         {'loss': 0.4241, 'grad_norm': 2.0641915798187256, 'learning_rate': 1.0687810470003822e-05, 'epoch': 0.86}
  4%|▎         | 2800/78504 [1:40:57<21:24:31,  1.02s/it]  4%|▎         | 2801/78504 [1:41:04<58:47:00,  2.80s/it]                                                         {'loss': 0.1887, 'grad_norm': 0.5247491002082825, 'learning_rate': 1.0691631639281621e-05, 'epoch': 0.86}
  4%|▎         | 2801/78504 [1:41:04<58:47:00,  2.80s/it]  4%|▎         | 2802/78504 [1:41:08<61:44:07,  2.94s/it]                                                         {'loss': 0.1212, 'grad_norm': 0.3700738251209259, 'learning_rate': 1.069545280855942e-05, 'epoch': 0.86}
  4%|▎         | 2802/78504 [1:41:08<61:44:07,  2.94s/it]  4%|▎         | 2803/78504 [1:41:10<60:27:17,  2.87s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.4272330403327942, 'learning_rate': 1.0699273977837219e-05, 'epoch': 0.86}
  4%|▎         | 2803/78504 [1:41:10<60:27:17,  2.87s/it]  4%|▎         | 2804/78504 [1:41:13<58:44:02,  2.79s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.48416557908058167, 'learning_rate': 1.0703095147115017e-05, 'epoch': 0.86}
  4%|▎         | 2804/78504 [1:41:13<58:44:02,  2.79s/it]  4%|▎         | 2805/78504 [1:41:15<56:49:16,  2.70s/it]                                                         {'loss': 0.0978, 'grad_norm': 0.43716931343078613, 'learning_rate': 1.0706916316392816e-05, 'epoch': 0.86}
  4%|▎         | 2805/78504 [1:41:15<56:49:16,  2.70s/it]  4%|▎         | 2806/78504 [1:41:18<54:37:23,  2.60s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.46379804611206055, 'learning_rate': 1.0710737485670615e-05, 'epoch': 0.86}
  4%|▎         | 2806/78504 [1:41:18<54:37:23,  2.60s/it]  4%|▎         | 2807/78504 [1:41:20<52:57:29,  2.52s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.34742334485054016, 'learning_rate': 1.0714558654948413e-05, 'epoch': 0.86}
  4%|▎         | 2807/78504 [1:41:20<52:57:29,  2.52s/it]  4%|▎         | 2808/78504 [1:41:22<51:18:42,  2.44s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.40452226996421814, 'learning_rate': 1.0718379824226214e-05, 'epoch': 0.86}
  4%|▎         | 2808/78504 [1:41:22<51:18:42,  2.44s/it]  4%|▎         | 2809/78504 [1:41:25<49:47:07,  2.37s/it]                                                         {'loss': 0.1349, 'grad_norm': 0.4609726667404175, 'learning_rate': 1.0722200993504013e-05, 'epoch': 0.86}
  4%|▎         | 2809/78504 [1:41:25<49:47:07,  2.37s/it]  4%|▎         | 2810/78504 [1:41:27<48:20:04,  2.30s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.4643462002277374, 'learning_rate': 1.0726022162781811e-05, 'epoch': 0.86}
  4%|▎         | 2810/78504 [1:41:27<48:20:04,  2.30s/it]  4%|▎         | 2811/78504 [1:41:29<46:23:50,  2.21s/it]                                                         {'loss': 0.168, 'grad_norm': 0.5083468556404114, 'learning_rate': 1.072984333205961e-05, 'epoch': 0.86}
  4%|▎         | 2811/78504 [1:41:29<46:23:50,  2.21s/it]  4%|▎         | 2812/78504 [1:41:31<44:38:29,  2.12s/it]                                                         {'loss': 0.1226, 'grad_norm': 0.49590837955474854, 'learning_rate': 1.0733664501337409e-05, 'epoch': 0.86}
  4%|▎         | 2812/78504 [1:41:31<44:38:29,  2.12s/it]  4%|▎         | 2813/78504 [1:41:32<43:02:33,  2.05s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.4791555106639862, 'learning_rate': 1.0737485670615208e-05, 'epoch': 0.86}
  4%|▎         | 2813/78504 [1:41:32<43:02:33,  2.05s/it]  4%|▎         | 2814/78504 [1:41:34<40:47:57,  1.94s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.5862661004066467, 'learning_rate': 1.0741306839893006e-05, 'epoch': 0.86}
  4%|▎         | 2814/78504 [1:41:34<40:47:57,  1.94s/it]  4%|▎         | 2815/78504 [1:41:36<39:51:45,  1.90s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.621521532535553, 'learning_rate': 1.0745128009170805e-05, 'epoch': 0.86}
  4%|▎         | 2815/78504 [1:41:36<39:51:45,  1.90s/it]  4%|▎         | 2816/78504 [1:41:38<37:48:25,  1.80s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6400212049484253, 'learning_rate': 1.0748949178448606e-05, 'epoch': 0.86}
  4%|▎         | 2816/78504 [1:41:38<37:48:25,  1.80s/it]  4%|▎         | 2817/78504 [1:41:39<36:01:04,  1.71s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.5871902704238892, 'learning_rate': 1.0752770347726404e-05, 'epoch': 0.86}
  4%|▎         | 2817/78504 [1:41:39<36:01:04,  1.71s/it]  4%|▎         | 2818/78504 [1:41:41<34:30:39,  1.64s/it]                                                         {'loss': 0.212, 'grad_norm': 0.7071124911308289, 'learning_rate': 1.0756591517004203e-05, 'epoch': 0.86}
  4%|▎         | 2818/78504 [1:41:41<34:30:39,  1.64s/it]  4%|▎         | 2819/78504 [1:41:42<33:02:56,  1.57s/it]                                                         {'loss': 0.2716, 'grad_norm': 0.9788336753845215, 'learning_rate': 1.0760412686282002e-05, 'epoch': 0.86}
  4%|▎         | 2819/78504 [1:41:42<33:02:56,  1.57s/it]  4%|▎         | 2820/78504 [1:41:43<30:49:06,  1.47s/it]                                                         {'loss': 0.2488, 'grad_norm': 0.8687110543251038, 'learning_rate': 1.07642338555598e-05, 'epoch': 0.86}
  4%|▎         | 2820/78504 [1:41:43<30:49:06,  1.47s/it]  4%|▎         | 2821/78504 [1:41:44<28:42:30,  1.37s/it]                                                         {'loss': 0.2438, 'grad_norm': 1.0162981748580933, 'learning_rate': 1.0768055024837601e-05, 'epoch': 0.86}
  4%|▎         | 2821/78504 [1:41:44<28:42:30,  1.37s/it]  4%|▎         | 2822/78504 [1:41:45<27:00:45,  1.28s/it]                                                         {'loss': 0.2795, 'grad_norm': 2.261063814163208, 'learning_rate': 1.07718761941154e-05, 'epoch': 0.86}
  4%|▎         | 2822/78504 [1:41:45<27:00:45,  1.28s/it]  4%|▎         | 2823/78504 [1:41:46<25:11:45,  1.20s/it]                                                         {'loss': 0.2673, 'grad_norm': 1.3310582637786865, 'learning_rate': 1.0775697363393198e-05, 'epoch': 0.86}
  4%|▎         | 2823/78504 [1:41:46<25:11:45,  1.20s/it]  4%|▎         | 2824/78504 [1:41:47<23:33:17,  1.12s/it]                                                         {'loss': 0.2951, 'grad_norm': 1.8010623455047607, 'learning_rate': 1.0779518532670999e-05, 'epoch': 0.86}
  4%|▎         | 2824/78504 [1:41:47<23:33:17,  1.12s/it]  4%|▎         | 2825/78504 [1:41:48<21:36:14,  1.03s/it]                                                         {'loss': 0.4069, 'grad_norm': 1.8848446607589722, 'learning_rate': 1.0783339701948798e-05, 'epoch': 0.86}
  4%|▎         | 2825/78504 [1:41:48<21:36:14,  1.03s/it]  4%|▎         | 2826/78504 [1:41:58<76:49:49,  3.65s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.4958030581474304, 'learning_rate': 1.0787160871226596e-05, 'epoch': 0.86}
  4%|▎         | 2826/78504 [1:41:58<76:49:49,  3.65s/it]  4%|▎         | 2827/78504 [1:42:01<75:03:07,  3.57s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.560827374458313, 'learning_rate': 1.0790982040504395e-05, 'epoch': 0.86}
  4%|▎         | 2827/78504 [1:42:01<75:03:07,  3.57s/it]  4%|▎         | 2828/78504 [1:42:04<70:58:15,  3.38s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.3952960669994354, 'learning_rate': 1.0794803209782194e-05, 'epoch': 0.86}
  4%|▎         | 2828/78504 [1:42:04<70:58:15,  3.38s/it]  4%|▎         | 2829/78504 [1:42:07<64:58:56,  3.09s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.3796207308769226, 'learning_rate': 1.0798624379059993e-05, 'epoch': 0.86}
  4%|▎         | 2829/78504 [1:42:07<64:58:56,  3.09s/it]  4%|▎         | 2830/78504 [1:42:09<61:08:00,  2.91s/it]                                                         {'loss': 0.1191, 'grad_norm': 0.569622814655304, 'learning_rate': 1.0802445548337791e-05, 'epoch': 0.87}
  4%|▎         | 2830/78504 [1:42:09<61:08:00,  2.91s/it]  4%|▎         | 2831/78504 [1:42:12<58:07:21,  2.77s/it]                                                         {'loss': 0.1195, 'grad_norm': 0.4867333769798279, 'learning_rate': 1.0806266717615592e-05, 'epoch': 0.87}
  4%|▎         | 2831/78504 [1:42:12<58:07:21,  2.77s/it]  4%|▎         | 2832/78504 [1:42:14<55:20:18,  2.63s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.5379158854484558, 'learning_rate': 1.081008788689339e-05, 'epoch': 0.87}
  4%|▎         | 2832/78504 [1:42:14<55:20:18,  2.63s/it]  4%|▎         | 2833/78504 [1:42:16<51:56:03,  2.47s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.47973304986953735, 'learning_rate': 1.081390905617119e-05, 'epoch': 0.87}
  4%|▎         | 2833/78504 [1:42:16<51:56:03,  2.47s/it]  4%|▎         | 2834/78504 [1:42:18<49:11:07,  2.34s/it]                                                         {'loss': 0.1206, 'grad_norm': 0.41333457827568054, 'learning_rate': 1.0817730225448988e-05, 'epoch': 0.87}
  4%|▎         | 2834/78504 [1:42:18<49:11:07,  2.34s/it]  4%|▎         | 2835/78504 [1:42:20<47:56:39,  2.28s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.3723582327365875, 'learning_rate': 1.0821551394726787e-05, 'epoch': 0.87}
  4%|▎         | 2835/78504 [1:42:20<47:56:39,  2.28s/it]  4%|▎         | 2836/78504 [1:42:22<46:12:33,  2.20s/it]                                                         {'loss': 0.1309, 'grad_norm': 0.4610383212566376, 'learning_rate': 1.0825372564004586e-05, 'epoch': 0.87}
  4%|▎         | 2836/78504 [1:42:22<46:12:33,  2.20s/it]  4%|▎         | 2837/78504 [1:42:24<43:44:33,  2.08s/it]                                                         {'loss': 0.1045, 'grad_norm': 0.40014228224754333, 'learning_rate': 1.0829193733282384e-05, 'epoch': 0.87}
  4%|▎         | 2837/78504 [1:42:24<43:44:33,  2.08s/it]  4%|▎         | 2838/78504 [1:42:26<42:25:34,  2.02s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.5419617295265198, 'learning_rate': 1.0833014902560183e-05, 'epoch': 0.87}
  4%|▎         | 2838/78504 [1:42:26<42:25:34,  2.02s/it]  4%|▎         | 2839/78504 [1:42:28<40:27:57,  1.93s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.7410321235656738, 'learning_rate': 1.0836836071837983e-05, 'epoch': 0.87}
  4%|▎         | 2839/78504 [1:42:28<40:27:57,  1.93s/it]  4%|▎         | 2840/78504 [1:42:29<38:50:47,  1.85s/it]                                                         {'loss': 0.165, 'grad_norm': 0.5875413417816162, 'learning_rate': 1.0840657241115782e-05, 'epoch': 0.87}
  4%|▎         | 2840/78504 [1:42:29<38:50:47,  1.85s/it]  4%|▎         | 2841/78504 [1:42:31<37:35:03,  1.79s/it]                                                         {'loss': 0.2122, 'grad_norm': 0.64943927526474, 'learning_rate': 1.0844478410393581e-05, 'epoch': 0.87}
  4%|▎         | 2841/78504 [1:42:31<37:35:03,  1.79s/it]  4%|▎         | 2842/78504 [1:42:32<35:54:49,  1.71s/it]                                                         {'loss': 0.2295, 'grad_norm': 0.8595467209815979, 'learning_rate': 1.084829957967138e-05, 'epoch': 0.87}
  4%|▎         | 2842/78504 [1:42:32<35:54:49,  1.71s/it]  4%|▎         | 2843/78504 [1:42:34<34:07:28,  1.62s/it]                                                         {'loss': 0.2213, 'grad_norm': 0.8279783129692078, 'learning_rate': 1.0852120748949178e-05, 'epoch': 0.87}
  4%|▎         | 2843/78504 [1:42:34<34:07:28,  1.62s/it]  4%|▎         | 2844/78504 [1:42:35<32:49:11,  1.56s/it]                                                         {'loss': 0.2323, 'grad_norm': 0.7356963157653809, 'learning_rate': 1.0855941918226977e-05, 'epoch': 0.87}
  4%|▎         | 2844/78504 [1:42:35<32:49:11,  1.56s/it]  4%|▎         | 2845/78504 [1:42:36<31:04:48,  1.48s/it]                                                         {'loss': 0.2694, 'grad_norm': 0.8933345079421997, 'learning_rate': 1.0859763087504776e-05, 'epoch': 0.87}
  4%|▎         | 2845/78504 [1:42:37<31:04:48,  1.48s/it]  4%|▎         | 2846/78504 [1:42:38<28:58:51,  1.38s/it]                                                         {'loss': 0.2608, 'grad_norm': 0.9495128989219666, 'learning_rate': 1.0863584256782575e-05, 'epoch': 0.87}
  4%|▎         | 2846/78504 [1:42:38<28:58:51,  1.38s/it]  4%|▎         | 2847/78504 [1:42:39<27:05:51,  1.29s/it]                                                         {'loss': 0.277, 'grad_norm': 0.9985908269882202, 'learning_rate': 1.0867405426060375e-05, 'epoch': 0.87}
  4%|▎         | 2847/78504 [1:42:39<27:05:51,  1.29s/it]  4%|▎         | 2848/78504 [1:42:40<25:35:51,  1.22s/it]                                                         {'loss': 0.2626, 'grad_norm': 2.0876870155334473, 'learning_rate': 1.0871226595338174e-05, 'epoch': 0.87}
  4%|▎         | 2848/78504 [1:42:40<25:35:51,  1.22s/it]  4%|▎         | 2849/78504 [1:42:41<23:51:47,  1.14s/it]                                                         {'loss': 0.2951, 'grad_norm': 1.9679478406906128, 'learning_rate': 1.0875047764615973e-05, 'epoch': 0.87}
  4%|▎         | 2849/78504 [1:42:41<23:51:47,  1.14s/it]  4%|▎         | 2850/78504 [1:42:41<21:39:43,  1.03s/it]                                                         {'loss': 0.3994, 'grad_norm': 2.3658885955810547, 'learning_rate': 1.0878868933893771e-05, 'epoch': 0.87}
  4%|▎         | 2850/78504 [1:42:42<21:39:43,  1.03s/it]  4%|▎         | 2851/78504 [1:42:49<64:01:45,  3.05s/it]                                                         {'loss': 0.2047, 'grad_norm': 0.480333536863327, 'learning_rate': 1.088269010317157e-05, 'epoch': 0.87}
  4%|▎         | 2851/78504 [1:42:49<64:01:45,  3.05s/it]  4%|▎         | 2852/78504 [1:42:52<64:05:58,  3.05s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.5793631076812744, 'learning_rate': 1.0886511272449369e-05, 'epoch': 0.87}
  4%|▎         | 2852/78504 [1:42:52<64:05:58,  3.05s/it]  4%|▎         | 2853/78504 [1:42:55<61:03:33,  2.91s/it]                                                         {'loss': 0.1514, 'grad_norm': 0.45580190420150757, 'learning_rate': 1.0890332441727168e-05, 'epoch': 0.87}
  4%|▎         | 2853/78504 [1:42:55<61:03:33,  2.91s/it]  4%|▎         | 2854/78504 [1:42:57<59:01:17,  2.81s/it]                                                         {'loss': 0.0919, 'grad_norm': 0.4165154695510864, 'learning_rate': 1.0894153611004968e-05, 'epoch': 0.87}
  4%|▎         | 2854/78504 [1:42:57<59:01:17,  2.81s/it]  4%|▎         | 2855/78504 [1:43:00<57:05:33,  2.72s/it]                                                         {'loss': 0.071, 'grad_norm': 0.3022501468658447, 'learning_rate': 1.0897974780282767e-05, 'epoch': 0.87}
  4%|▎         | 2855/78504 [1:43:00<57:05:33,  2.72s/it]  4%|▎         | 2856/78504 [1:43:02<55:26:06,  2.64s/it]                                                         {'loss': 0.075, 'grad_norm': 0.39715975522994995, 'learning_rate': 1.0901795949560566e-05, 'epoch': 0.87}
  4%|▎         | 2856/78504 [1:43:02<55:26:06,  2.64s/it]  4%|▎         | 2857/78504 [1:43:05<53:27:02,  2.54s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.35931283235549927, 'learning_rate': 1.0905617118838364e-05, 'epoch': 0.87}
  4%|▎         | 2857/78504 [1:43:05<53:27:02,  2.54s/it]  4%|▎         | 2858/78504 [1:43:07<50:44:02,  2.41s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.7784217596054077, 'learning_rate': 1.0909438288116163e-05, 'epoch': 0.87}
  4%|▎         | 2858/78504 [1:43:07<50:44:02,  2.41s/it]  4%|▎         | 2859/78504 [1:43:09<49:19:09,  2.35s/it]                                                         {'loss': 0.1023, 'grad_norm': 0.5351943969726562, 'learning_rate': 1.0913259457393962e-05, 'epoch': 0.87}
  4%|▎         | 2859/78504 [1:43:09<49:19:09,  2.35s/it]  4%|▎         | 2860/78504 [1:43:11<48:11:10,  2.29s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.4210098385810852, 'learning_rate': 1.0917080626671762e-05, 'epoch': 0.87}
  4%|▎         | 2860/78504 [1:43:11<48:11:10,  2.29s/it]  4%|▎         | 2861/78504 [1:43:13<46:33:36,  2.22s/it]                                                         {'loss': 0.1348, 'grad_norm': 0.6373433470726013, 'learning_rate': 1.0920901795949561e-05, 'epoch': 0.87}
  4%|▎         | 2861/78504 [1:43:13<46:33:36,  2.22s/it]  4%|▎         | 2862/78504 [1:43:15<45:08:39,  2.15s/it]                                                         {'loss': 0.1172, 'grad_norm': 0.41415613889694214, 'learning_rate': 1.0924722965227361e-05, 'epoch': 0.87}
  4%|▎         | 2862/78504 [1:43:15<45:08:39,  2.15s/it]  4%|▎         | 2863/78504 [1:43:17<43:23:53,  2.07s/it]                                                         {'loss': 0.1253, 'grad_norm': 0.4888051748275757, 'learning_rate': 1.092854413450516e-05, 'epoch': 0.88}
  4%|▎         | 2863/78504 [1:43:17<43:23:53,  2.07s/it]  4%|▎         | 2864/78504 [1:43:19<41:59:12,  2.00s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.8585177659988403, 'learning_rate': 1.0932365303782959e-05, 'epoch': 0.88}
  4%|▎         | 2864/78504 [1:43:19<41:59:12,  2.00s/it]  4%|▎         | 2865/78504 [1:43:21<40:37:25,  1.93s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.670505940914154, 'learning_rate': 1.0936186473060758e-05, 'epoch': 0.88}
  4%|▎         | 2865/78504 [1:43:21<40:37:25,  1.93s/it]  4%|▎         | 2866/78504 [1:43:22<38:45:59,  1.85s/it]                                                         {'loss': 0.2485, 'grad_norm': 0.7183477878570557, 'learning_rate': 1.0940007642338556e-05, 'epoch': 0.88}
  4%|▎         | 2866/78504 [1:43:22<38:45:59,  1.85s/it]  4%|▎         | 2867/78504 [1:43:24<36:54:14,  1.76s/it]                                                         {'loss': 0.2537, 'grad_norm': 0.828275203704834, 'learning_rate': 1.0943828811616355e-05, 'epoch': 0.88}
  4%|▎         | 2867/78504 [1:43:24<36:54:14,  1.76s/it]  4%|▎         | 2868/78504 [1:43:25<34:52:08,  1.66s/it]                                                         {'loss': 0.209, 'grad_norm': 0.7440007328987122, 'learning_rate': 1.0947649980894154e-05, 'epoch': 0.88}
  4%|▎         | 2868/78504 [1:43:25<34:52:08,  1.66s/it]  4%|▎         | 2869/78504 [1:43:27<33:21:41,  1.59s/it]                                                         {'loss': 0.2403, 'grad_norm': 0.9077831506729126, 'learning_rate': 1.0951471150171953e-05, 'epoch': 0.88}
  4%|▎         | 2869/78504 [1:43:27<33:21:41,  1.59s/it]  4%|▎         | 2870/78504 [1:43:28<31:34:16,  1.50s/it]                                                         {'loss': 0.2608, 'grad_norm': 0.8311123251914978, 'learning_rate': 1.0955292319449753e-05, 'epoch': 0.88}
  4%|▎         | 2870/78504 [1:43:28<31:34:16,  1.50s/it]  4%|▎         | 2871/78504 [1:43:29<29:19:26,  1.40s/it]                                                         {'loss': 0.2884, 'grad_norm': 1.0120830535888672, 'learning_rate': 1.0959113488727552e-05, 'epoch': 0.88}
  4%|▎         | 2871/78504 [1:43:29<29:19:26,  1.40s/it]  4%|▎         | 2872/78504 [1:43:30<27:25:27,  1.31s/it]                                                         {'loss': 0.2364, 'grad_norm': 0.8847616314888, 'learning_rate': 1.096293465800535e-05, 'epoch': 0.88}
  4%|▎         | 2872/78504 [1:43:30<27:25:27,  1.31s/it]  4%|▎         | 2873/78504 [1:43:31<25:28:44,  1.21s/it]                                                         {'loss': 0.2809, 'grad_norm': 1.1198071241378784, 'learning_rate': 1.096675582728315e-05, 'epoch': 0.88}
  4%|▎         | 2873/78504 [1:43:31<25:28:44,  1.21s/it]  4%|▎         | 2874/78504 [1:43:32<23:42:29,  1.13s/it]                                                         {'loss': 0.3785, 'grad_norm': 1.5499933958053589, 'learning_rate': 1.0970576996560948e-05, 'epoch': 0.88}
  4%|▎         | 2874/78504 [1:43:32<23:42:29,  1.13s/it]  4%|▎         | 2875/78504 [1:43:33<21:34:00,  1.03s/it]                                                         {'loss': 0.4426, 'grad_norm': 2.0456345081329346, 'learning_rate': 1.0974398165838747e-05, 'epoch': 0.88}
  4%|▎         | 2875/78504 [1:43:33<21:34:00,  1.03s/it]  4%|▎         | 2876/78504 [1:43:43<77:41:31,  3.70s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.5315583944320679, 'learning_rate': 1.0978219335116546e-05, 'epoch': 0.88}
  4%|▎         | 2876/78504 [1:43:43<77:41:31,  3.70s/it]  4%|▎         | 2877/78504 [1:43:46<73:53:41,  3.52s/it]                                                         {'loss': 0.1281, 'grad_norm': 0.4477832615375519, 'learning_rate': 1.0982040504394344e-05, 'epoch': 0.88}
  4%|▎         | 2877/78504 [1:43:46<73:53:41,  3.52s/it]  4%|▎         | 2878/78504 [1:43:49<70:10:51,  3.34s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.3798954486846924, 'learning_rate': 1.0985861673672145e-05, 'epoch': 0.88}
  4%|▎         | 2878/78504 [1:43:49<70:10:51,  3.34s/it]  4%|▎         | 2879/78504 [1:43:52<65:24:08,  3.11s/it]                                                         {'loss': 0.0983, 'grad_norm': 0.46957242488861084, 'learning_rate': 1.0989682842949943e-05, 'epoch': 0.88}
  4%|▎         | 2879/78504 [1:43:52<65:24:08,  3.11s/it]  4%|▎         | 2880/78504 [1:43:54<61:34:14,  2.93s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.4097435772418976, 'learning_rate': 1.0993504012227742e-05, 'epoch': 0.88}
  4%|▎         | 2880/78504 [1:43:54<61:34:14,  2.93s/it]  4%|▎         | 2881/78504 [1:43:57<58:34:00,  2.79s/it]                                                         {'loss': 0.0697, 'grad_norm': 0.381367027759552, 'learning_rate': 1.0997325181505541e-05, 'epoch': 0.88}
  4%|▎         | 2881/78504 [1:43:57<58:34:00,  2.79s/it]  4%|▎         | 2882/78504 [1:43:59<55:41:16,  2.65s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.41547784209251404, 'learning_rate': 1.100114635078334e-05, 'epoch': 0.88}
  4%|▎         | 2882/78504 [1:43:59<55:41:16,  2.65s/it]  4%|▎         | 2883/78504 [1:44:01<52:19:19,  2.49s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.4203016757965088, 'learning_rate': 1.1004967520061138e-05, 'epoch': 0.88}
  4%|▎         | 2883/78504 [1:44:01<52:19:19,  2.49s/it]  4%|▎         | 2884/78504 [1:44:03<50:24:08,  2.40s/it]                                                         {'loss': 0.096, 'grad_norm': 0.38584083318710327, 'learning_rate': 1.1008788689338937e-05, 'epoch': 0.88}
  4%|▎         | 2884/78504 [1:44:03<50:24:08,  2.40s/it]  4%|▎         | 2885/78504 [1:44:05<49:07:16,  2.34s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.37973010540008545, 'learning_rate': 1.1012609858616736e-05, 'epoch': 0.88}
  4%|▎         | 2885/78504 [1:44:05<49:07:16,  2.34s/it]  4%|▎         | 2886/78504 [1:44:07<47:06:44,  2.24s/it]                                                         {'loss': 0.1209, 'grad_norm': 0.5457665324211121, 'learning_rate': 1.1016431027894536e-05, 'epoch': 0.88}
  4%|▎         | 2886/78504 [1:44:07<47:06:44,  2.24s/it]  4%|▎         | 2887/78504 [1:44:09<45:33:01,  2.17s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.44151970744132996, 'learning_rate': 1.1020252197172335e-05, 'epoch': 0.88}
  4%|▎         | 2887/78504 [1:44:09<45:33:01,  2.17s/it]  4%|▎         | 2888/78504 [1:44:11<43:39:49,  2.08s/it]                                                         {'loss': 0.1211, 'grad_norm': 0.49243366718292236, 'learning_rate': 1.1024073366450134e-05, 'epoch': 0.88}
  4%|▎         | 2888/78504 [1:44:11<43:39:49,  2.08s/it]  4%|▎         | 2889/78504 [1:44:13<42:18:00,  2.01s/it]                                                         {'loss': 0.1651, 'grad_norm': 3.3297908306121826, 'learning_rate': 1.1027894535727933e-05, 'epoch': 0.88}
  4%|▎         | 2889/78504 [1:44:13<42:18:00,  2.01s/it]  4%|▎         | 2890/78504 [1:44:15<40:47:15,  1.94s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.5512127876281738, 'learning_rate': 1.1031715705005731e-05, 'epoch': 0.88}
  4%|▎         | 2890/78504 [1:44:15<40:47:15,  1.94s/it]  4%|▎         | 2891/78504 [1:44:17<38:58:57,  1.86s/it]                                                         {'loss': 0.1868, 'grad_norm': 1.2579424381256104, 'learning_rate': 1.103553687428353e-05, 'epoch': 0.88}
  4%|▎         | 2891/78504 [1:44:17<38:58:57,  1.86s/it]  4%|▎         | 2892/78504 [1:44:18<36:57:48,  1.76s/it]                                                         {'loss': 0.2225, 'grad_norm': 1.1795662641525269, 'learning_rate': 1.1039358043561329e-05, 'epoch': 0.88}
  4%|▎         | 2892/78504 [1:44:18<36:57:48,  1.76s/it]  4%|▎         | 2893/78504 [1:44:20<35:22:23,  1.68s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.7548216581344604, 'learning_rate': 1.104317921283913e-05, 'epoch': 0.88}
  4%|▎         | 2893/78504 [1:44:20<35:22:23,  1.68s/it]  4%|▎         | 2894/78504 [1:44:21<33:34:45,  1.60s/it]                                                         {'loss': 0.2278, 'grad_norm': 0.8025513887405396, 'learning_rate': 1.1047000382116928e-05, 'epoch': 0.88}
  4%|▎         | 2894/78504 [1:44:21<33:34:45,  1.60s/it]  4%|▎         | 2895/78504 [1:44:22<31:34:25,  1.50s/it]                                                         {'loss': 0.2375, 'grad_norm': 1.0729471445083618, 'learning_rate': 1.1050821551394727e-05, 'epoch': 0.89}
  4%|▎         | 2895/78504 [1:44:22<31:34:25,  1.50s/it]  4%|▎         | 2896/78504 [1:44:23<29:40:02,  1.41s/it]                                                         {'loss': 0.2496, 'grad_norm': 1.343372106552124, 'learning_rate': 1.1054642720672525e-05, 'epoch': 0.89}
  4%|▎         | 2896/78504 [1:44:23<29:40:02,  1.41s/it]  4%|▎         | 2897/78504 [1:44:25<27:36:45,  1.31s/it]                                                         {'loss': 0.2995, 'grad_norm': 1.3263108730316162, 'learning_rate': 1.1058463889950324e-05, 'epoch': 0.89}
  4%|▎         | 2897/78504 [1:44:25<27:36:45,  1.31s/it]  4%|▎         | 2898/78504 [1:44:26<25:58:37,  1.24s/it]                                                         {'loss': 0.3044, 'grad_norm': 1.6302849054336548, 'learning_rate': 1.1062285059228123e-05, 'epoch': 0.89}
  4%|▎         | 2898/78504 [1:44:26<25:58:37,  1.24s/it]  4%|▎         | 2899/78504 [1:44:27<24:04:19,  1.15s/it]                                                         {'loss': 0.3149, 'grad_norm': 1.715701699256897, 'learning_rate': 1.1066106228505923e-05, 'epoch': 0.89}
  4%|▎         | 2899/78504 [1:44:27<24:04:19,  1.15s/it]  4%|▎         | 2900/78504 [1:44:27<21:47:07,  1.04s/it]                                                         {'loss': 0.3638, 'grad_norm': 3.2864584922790527, 'learning_rate': 1.1069927397783722e-05, 'epoch': 0.89}
  4%|▎         | 2900/78504 [1:44:27<21:47:07,  1.04s/it]  4%|▎         | 2901/78504 [1:44:36<71:54:59,  3.42s/it]                                                         {'loss': 0.2357, 'grad_norm': 0.484831303358078, 'learning_rate': 1.1073748567061523e-05, 'epoch': 0.89}
  4%|▎         | 2901/78504 [1:44:36<71:54:59,  3.42s/it]  4%|▎         | 2902/78504 [1:44:39<68:42:17,  3.27s/it]                                                         {'loss': 0.1542, 'grad_norm': 0.49691298604011536, 'learning_rate': 1.1077569736339321e-05, 'epoch': 0.89}
  4%|▎         | 2902/78504 [1:44:39<68:42:17,  3.27s/it]  4%|▎         | 2903/78504 [1:44:42<66:32:12,  3.17s/it]                                                         {'loss': 0.1147, 'grad_norm': 0.4422440230846405, 'learning_rate': 1.108139090561712e-05, 'epoch': 0.89}
  4%|▎         | 2903/78504 [1:44:42<66:32:12,  3.17s/it]  4%|▎         | 2904/78504 [1:44:45<62:49:21,  2.99s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.2951458990573883, 'learning_rate': 1.1085212074894919e-05, 'epoch': 0.89}
  4%|▎         | 2904/78504 [1:44:45<62:49:21,  2.99s/it]  4%|▎         | 2905/78504 [1:44:47<59:43:32,  2.84s/it]                                                         {'loss': 0.068, 'grad_norm': 0.402283251285553, 'learning_rate': 1.1089033244172718e-05, 'epoch': 0.89}
  4%|▎         | 2905/78504 [1:44:47<59:43:32,  2.84s/it]  4%|▎         | 2906/78504 [1:44:50<57:16:33,  2.73s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.3961677551269531, 'learning_rate': 1.1092854413450516e-05, 'epoch': 0.89}
  4%|▎         | 2906/78504 [1:44:50<57:16:33,  2.73s/it]  4%|▎         | 2907/78504 [1:44:52<54:56:36,  2.62s/it]                                                         {'loss': 0.1042, 'grad_norm': 0.44706377387046814, 'learning_rate': 1.1096675582728315e-05, 'epoch': 0.89}
  4%|▎         | 2907/78504 [1:44:52<54:56:36,  2.62s/it]  4%|▎         | 2908/78504 [1:44:54<52:59:04,  2.52s/it]                                                         {'loss': 0.1253, 'grad_norm': 0.520615816116333, 'learning_rate': 1.1100496752006114e-05, 'epoch': 0.89}
  4%|▎         | 2908/78504 [1:44:54<52:59:04,  2.52s/it]  4%|▎         | 2909/78504 [1:44:57<50:55:28,  2.43s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.41290077567100525, 'learning_rate': 1.1104317921283914e-05, 'epoch': 0.89}
  4%|▎         | 2909/78504 [1:44:57<50:55:28,  2.43s/it]  4%|▎         | 2910/78504 [1:44:59<49:20:16,  2.35s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.4618144631385803, 'learning_rate': 1.1108139090561713e-05, 'epoch': 0.89}
  4%|▎         | 2910/78504 [1:44:59<49:20:16,  2.35s/it]  4%|▎         | 2911/78504 [1:45:01<46:22:17,  2.21s/it]                                                         {'loss': 0.1258, 'grad_norm': 0.5702872276306152, 'learning_rate': 1.1111960259839512e-05, 'epoch': 0.89}
  4%|▎         | 2911/78504 [1:45:01<46:22:17,  2.21s/it]  4%|▎         | 2912/78504 [1:45:03<44:57:44,  2.14s/it]                                                         {'loss': 0.1133, 'grad_norm': 0.5685725808143616, 'learning_rate': 1.111578142911731e-05, 'epoch': 0.89}
  4%|▎         | 2912/78504 [1:45:03<44:57:44,  2.14s/it]  4%|▎         | 2913/78504 [1:45:04<43:23:46,  2.07s/it]                                                         {'loss': 0.1378, 'grad_norm': 0.5611013174057007, 'learning_rate': 1.111960259839511e-05, 'epoch': 0.89}
  4%|▎         | 2913/78504 [1:45:05<43:23:46,  2.07s/it]  4%|▎         | 2914/78504 [1:45:06<42:06:44,  2.01s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5937516689300537, 'learning_rate': 1.1123423767672908e-05, 'epoch': 0.89}
  4%|▎         | 2914/78504 [1:45:06<42:06:44,  2.01s/it]  4%|▎         | 2915/78504 [1:45:08<40:34:52,  1.93s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.9624830484390259, 'learning_rate': 1.1127244936950707e-05, 'epoch': 0.89}
  4%|▎         | 2915/78504 [1:45:08<40:34:52,  1.93s/it]  4%|▎         | 2916/78504 [1:45:10<38:22:08,  1.83s/it]                                                         {'loss': 0.2052, 'grad_norm': 0.6981553435325623, 'learning_rate': 1.1131066106228505e-05, 'epoch': 0.89}
  4%|▎         | 2916/78504 [1:45:10<38:22:08,  1.83s/it]  4%|▎         | 2917/78504 [1:45:11<36:34:28,  1.74s/it]                                                         {'loss': 0.2406, 'grad_norm': 0.7801915407180786, 'learning_rate': 1.1134887275506306e-05, 'epoch': 0.89}
  4%|▎         | 2917/78504 [1:45:11<36:34:28,  1.74s/it]  4%|▎         | 2918/78504 [1:45:13<35:04:33,  1.67s/it]                                                         {'loss': 0.2223, 'grad_norm': 0.71563720703125, 'learning_rate': 1.1138708444784105e-05, 'epoch': 0.89}
  4%|▎         | 2918/78504 [1:45:13<35:04:33,  1.67s/it]  4%|▎         | 2919/78504 [1:45:14<33:19:23,  1.59s/it]                                                         {'loss': 0.2638, 'grad_norm': 0.8708023428916931, 'learning_rate': 1.1142529614061903e-05, 'epoch': 0.89}
  4%|▎         | 2919/78504 [1:45:14<33:19:23,  1.59s/it]  4%|▎         | 2920/78504 [1:45:15<31:28:30,  1.50s/it]                                                         {'loss': 0.2308, 'grad_norm': 0.7496792674064636, 'learning_rate': 1.1146350783339702e-05, 'epoch': 0.89}
  4%|▎         | 2920/78504 [1:45:15<31:28:30,  1.50s/it]  4%|▎         | 2921/78504 [1:45:17<29:17:57,  1.40s/it]                                                         {'loss': 0.2589, 'grad_norm': 1.1899067163467407, 'learning_rate': 1.1150171952617501e-05, 'epoch': 0.89}
  4%|▎         | 2921/78504 [1:45:17<29:17:57,  1.40s/it]  4%|▎         | 2922/78504 [1:45:18<27:19:30,  1.30s/it]                                                         {'loss': 0.3205, 'grad_norm': 1.3301211595535278, 'learning_rate': 1.11539931218953e-05, 'epoch': 0.89}
  4%|▎         | 2922/78504 [1:45:18<27:19:30,  1.30s/it]  4%|▎         | 2923/78504 [1:45:19<25:41:20,  1.22s/it]                                                         {'loss': 0.2848, 'grad_norm': 1.1112548112869263, 'learning_rate': 1.1157814291173098e-05, 'epoch': 0.89}
  4%|▎         | 2923/78504 [1:45:19<25:41:20,  1.22s/it]  4%|▎         | 2924/78504 [1:45:20<23:53:42,  1.14s/it]                                                         {'loss': 0.3042, 'grad_norm': 1.2909464836120605, 'learning_rate': 1.1161635460450899e-05, 'epoch': 0.89}
  4%|▎         | 2924/78504 [1:45:20<23:53:42,  1.14s/it]  4%|▎         | 2925/78504 [1:45:20<21:50:54,  1.04s/it]                                                         {'loss': 0.3839, 'grad_norm': 2.5211145877838135, 'learning_rate': 1.1165456629728698e-05, 'epoch': 0.89}
  4%|▎         | 2925/78504 [1:45:20<21:50:54,  1.04s/it]  4%|▎         | 2926/78504 [1:45:30<76:00:33,  3.62s/it]                                                         {'loss': 0.1761, 'grad_norm': 0.6056529879570007, 'learning_rate': 1.1169277799006496e-05, 'epoch': 0.89}
  4%|▎         | 2926/78504 [1:45:30<76:00:33,  3.62s/it]  4%|▎         | 2927/78504 [1:45:33<74:19:03,  3.54s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.3727289140224457, 'learning_rate': 1.1173098968284295e-05, 'epoch': 0.89}
  4%|▎         | 2927/78504 [1:45:33<74:19:03,  3.54s/it]  4%|▎         | 2928/78504 [1:45:36<68:12:54,  3.25s/it]                                                         {'loss': 0.1312, 'grad_norm': 0.452119380235672, 'learning_rate': 1.1176920137562094e-05, 'epoch': 0.9}
  4%|▎         | 2928/78504 [1:45:36<68:12:54,  3.25s/it]  4%|▎         | 2929/78504 [1:45:39<64:16:50,  3.06s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.3365665376186371, 'learning_rate': 1.1180741306839893e-05, 'epoch': 0.9}
  4%|▎         | 2929/78504 [1:45:39<64:16:50,  3.06s/it]  4%|▎         | 2930/78504 [1:45:41<59:51:59,  2.85s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.5192652344703674, 'learning_rate': 1.1184562476117691e-05, 'epoch': 0.9}
  4%|▎         | 2930/78504 [1:45:41<59:51:59,  2.85s/it]  4%|▎         | 2931/78504 [1:45:43<56:11:29,  2.68s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.391388863325119, 'learning_rate': 1.118838364539549e-05, 'epoch': 0.9}
  4%|▎         | 2931/78504 [1:45:43<56:11:29,  2.68s/it]  4%|▎         | 2932/78504 [1:45:46<53:57:23,  2.57s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.3915162682533264, 'learning_rate': 1.119220481467329e-05, 'epoch': 0.9}
  4%|▎         | 2932/78504 [1:45:46<53:57:23,  2.57s/it]  4%|▎         | 2933/78504 [1:45:48<50:59:38,  2.43s/it]                                                         {'loss': 0.1088, 'grad_norm': 0.5019621849060059, 'learning_rate': 1.119602598395109e-05, 'epoch': 0.9}
  4%|▎         | 2933/78504 [1:45:48<50:59:38,  2.43s/it]  4%|▎         | 2934/78504 [1:45:50<49:32:45,  2.36s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.4299291670322418, 'learning_rate': 1.1199847153228888e-05, 'epoch': 0.9}
  4%|▎         | 2934/78504 [1:45:50<49:32:45,  2.36s/it]  4%|▎         | 2935/78504 [1:45:52<48:07:25,  2.29s/it]                                                         {'loss': 0.1314, 'grad_norm': 0.45791012048721313, 'learning_rate': 1.1203668322506687e-05, 'epoch': 0.9}
  4%|▎         | 2935/78504 [1:45:52<48:07:25,  2.29s/it]  4%|▎         | 2936/78504 [1:45:54<46:13:56,  2.20s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.7575715184211731, 'learning_rate': 1.1207489491784485e-05, 'epoch': 0.9}
  4%|▎         | 2936/78504 [1:45:54<46:13:56,  2.20s/it]  4%|▎         | 2937/78504 [1:45:56<44:29:46,  2.12s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.5510888695716858, 'learning_rate': 1.1211310661062284e-05, 'epoch': 0.9}
  4%|▎         | 2937/78504 [1:45:56<44:29:46,  2.12s/it]  4%|▎         | 2938/78504 [1:45:58<42:56:09,  2.05s/it]                                                         {'loss': 0.1452, 'grad_norm': 0.668006181716919, 'learning_rate': 1.1215131830340085e-05, 'epoch': 0.9}
  4%|▎         | 2938/78504 [1:45:58<42:56:09,  2.05s/it]  4%|▎         | 2939/78504 [1:46:00<40:52:59,  1.95s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.6660405993461609, 'learning_rate': 1.1218952999617883e-05, 'epoch': 0.9}
  4%|▎         | 2939/78504 [1:46:00<40:52:59,  1.95s/it]  4%|▎         | 2940/78504 [1:46:01<39:47:55,  1.90s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.8394568562507629, 'learning_rate': 1.1222774168895684e-05, 'epoch': 0.9}
  4%|▎         | 2940/78504 [1:46:01<39:47:55,  1.90s/it]  4%|▎         | 2941/78504 [1:46:03<38:15:13,  1.82s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.7790534496307373, 'learning_rate': 1.1226595338173483e-05, 'epoch': 0.9}
  4%|▎         | 2941/78504 [1:46:03<38:15:13,  1.82s/it]  4%|▎         | 2942/78504 [1:46:04<36:23:18,  1.73s/it]                                                         {'loss': 0.2403, 'grad_norm': 0.8532803058624268, 'learning_rate': 1.1230416507451281e-05, 'epoch': 0.9}
  4%|▎         | 2942/78504 [1:46:05<36:23:18,  1.73s/it]  4%|▎         | 2943/78504 [1:46:06<34:30:27,  1.64s/it]                                                         {'loss': 0.2228, 'grad_norm': 0.7701433897018433, 'learning_rate': 1.123423767672908e-05, 'epoch': 0.9}
  4%|▎         | 2943/78504 [1:46:06<34:30:27,  1.64s/it]  4%|▍         | 2944/78504 [1:46:07<33:02:53,  1.57s/it]                                                         {'loss': 0.227, 'grad_norm': 0.8302480578422546, 'learning_rate': 1.1238058846006879e-05, 'epoch': 0.9}
  4%|▍         | 2944/78504 [1:46:07<33:02:53,  1.57s/it]  4%|▍         | 2945/78504 [1:46:09<30:48:22,  1.47s/it]                                                         {'loss': 0.2288, 'grad_norm': 1.0154753923416138, 'learning_rate': 1.1241880015284678e-05, 'epoch': 0.9}
  4%|▍         | 2945/78504 [1:46:09<30:48:22,  1.47s/it]  4%|▍         | 2946/78504 [1:46:10<28:48:55,  1.37s/it]                                                         {'loss': 0.2863, 'grad_norm': 15.72428035736084, 'learning_rate': 1.1245701184562476e-05, 'epoch': 0.9}
  4%|▍         | 2946/78504 [1:46:10<28:48:55,  1.37s/it]  4%|▍         | 2947/78504 [1:46:11<27:07:10,  1.29s/it]                                                         {'loss': 0.3564, 'grad_norm': 1.3436781167984009, 'learning_rate': 1.1249522353840275e-05, 'epoch': 0.9}
  4%|▍         | 2947/78504 [1:46:11<27:07:10,  1.29s/it]  4%|▍         | 2948/78504 [1:46:12<25:15:03,  1.20s/it]                                                         {'loss': 0.301, 'grad_norm': 2.3462541103363037, 'learning_rate': 1.1253343523118075e-05, 'epoch': 0.9}
  4%|▍         | 2948/78504 [1:46:12<25:15:03,  1.20s/it]  4%|▍         | 2949/78504 [1:46:13<23:39:25,  1.13s/it]                                                         {'loss': 0.286, 'grad_norm': 1.5230966806411743, 'learning_rate': 1.1257164692395874e-05, 'epoch': 0.9}
  4%|▍         | 2949/78504 [1:46:13<23:39:25,  1.13s/it]  4%|▍         | 2950/78504 [1:46:14<21:27:12,  1.02s/it]                                                         {'loss': 0.3676, 'grad_norm': 2.5260510444641113, 'learning_rate': 1.1260985861673673e-05, 'epoch': 0.9}
  4%|▍         | 2950/78504 [1:46:14<21:27:12,  1.02s/it]  4%|▍         | 2951/78504 [1:46:22<71:00:57,  3.38s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.5845708847045898, 'learning_rate': 1.1264807030951472e-05, 'epoch': 0.9}
  4%|▍         | 2951/78504 [1:46:22<71:00:57,  3.38s/it]  4%|▍         | 2952/78504 [1:46:25<68:01:48,  3.24s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.4082469344139099, 'learning_rate': 1.126862820022927e-05, 'epoch': 0.9}
  4%|▍         | 2952/78504 [1:46:25<68:01:48,  3.24s/it]  4%|▍         | 2953/78504 [1:46:28<66:04:45,  3.15s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.37996071577072144, 'learning_rate': 1.127244936950707e-05, 'epoch': 0.9}
  4%|▍         | 2953/78504 [1:46:28<66:04:45,  3.15s/it]  4%|▍         | 2954/78504 [1:46:31<62:31:29,  2.98s/it]                                                         {'loss': 0.0946, 'grad_norm': 0.6788279414176941, 'learning_rate': 1.1276270538784868e-05, 'epoch': 0.9}
  4%|▍         | 2954/78504 [1:46:31<62:31:29,  2.98s/it]  4%|▍         | 2955/78504 [1:46:33<59:31:49,  2.84s/it]                                                         {'loss': 0.0844, 'grad_norm': 0.6417231559753418, 'learning_rate': 1.1280091708062668e-05, 'epoch': 0.9}
  4%|▍         | 2955/78504 [1:46:33<59:31:49,  2.84s/it]  4%|▍         | 2956/78504 [1:46:36<56:59:50,  2.72s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.49676185846328735, 'learning_rate': 1.1283912877340467e-05, 'epoch': 0.9}
  4%|▍         | 2956/78504 [1:46:36<56:59:50,  2.72s/it]  4%|▍         | 2957/78504 [1:46:38<54:32:39,  2.60s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.35339850187301636, 'learning_rate': 1.1287734046618266e-05, 'epoch': 0.9}
  4%|▍         | 2957/78504 [1:46:38<54:32:39,  2.60s/it]  4%|▍         | 2958/78504 [1:46:40<51:28:48,  2.45s/it]                                                         {'loss': 0.1198, 'grad_norm': 0.49410662055015564, 'learning_rate': 1.1291555215896065e-05, 'epoch': 0.9}
  4%|▍         | 2958/78504 [1:46:40<51:28:48,  2.45s/it]  4%|▍         | 2959/78504 [1:46:42<49:49:07,  2.37s/it]                                                         {'loss': 0.0843, 'grad_norm': 0.4157877266407013, 'learning_rate': 1.1295376385173863e-05, 'epoch': 0.9}
  4%|▍         | 2959/78504 [1:46:42<49:49:07,  2.37s/it]  4%|▍         | 2960/78504 [1:46:45<48:30:10,  2.31s/it]                                                         {'loss': 0.0987, 'grad_norm': 0.628097653388977, 'learning_rate': 1.1299197554451662e-05, 'epoch': 0.9}
  4%|▍         | 2960/78504 [1:46:45<48:30:10,  2.31s/it]  4%|▍         | 2961/78504 [1:46:47<46:43:05,  2.23s/it]                                                         {'loss': 0.1327, 'grad_norm': 0.5405787229537964, 'learning_rate': 1.130301872372946e-05, 'epoch': 0.91}
  4%|▍         | 2961/78504 [1:46:47<46:43:05,  2.23s/it]  4%|▍         | 2962/78504 [1:46:49<45:11:16,  2.15s/it]                                                         {'loss': 0.146, 'grad_norm': 0.8043410181999207, 'learning_rate': 1.130683989300726e-05, 'epoch': 0.91}
  4%|▍         | 2962/78504 [1:46:49<45:11:16,  2.15s/it]  4%|▍         | 2963/78504 [1:46:51<43:43:03,  2.08s/it]                                                         {'loss': 0.1263, 'grad_norm': 0.5210809707641602, 'learning_rate': 1.131066106228506e-05, 'epoch': 0.91}
  4%|▍         | 2963/78504 [1:46:51<43:43:03,  2.08s/it]  4%|▍         | 2964/78504 [1:46:52<42:16:27,  2.01s/it]                                                         {'loss': 0.1343, 'grad_norm': 0.8608220219612122, 'learning_rate': 1.1314482231562859e-05, 'epoch': 0.91}
  4%|▍         | 2964/78504 [1:46:52<42:16:27,  2.01s/it]  4%|▍         | 2965/78504 [1:46:54<40:41:03,  1.94s/it]                                                         {'loss': 0.1898, 'grad_norm': 1.181122064590454, 'learning_rate': 1.1318303400840658e-05, 'epoch': 0.91}
  4%|▍         | 2965/78504 [1:46:54<40:41:03,  1.94s/it]  4%|▍         | 2966/78504 [1:46:56<38:25:49,  1.83s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.6273275017738342, 'learning_rate': 1.1322124570118456e-05, 'epoch': 0.91}
  4%|▍         | 2966/78504 [1:46:56<38:25:49,  1.83s/it]  4%|▍         | 2967/78504 [1:46:57<36:37:41,  1.75s/it]                                                         {'loss': 0.2414, 'grad_norm': 0.682072639465332, 'learning_rate': 1.1325945739396255e-05, 'epoch': 0.91}
  4%|▍         | 2967/78504 [1:46:57<36:37:41,  1.75s/it]  4%|▍         | 2968/78504 [1:46:59<34:57:01,  1.67s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.9028895497322083, 'learning_rate': 1.1329766908674054e-05, 'epoch': 0.91}
  4%|▍         | 2968/78504 [1:46:59<34:57:01,  1.67s/it]  4%|▍         | 2969/78504 [1:47:00<33:28:14,  1.60s/it]                                                         {'loss': 0.2651, 'grad_norm': 0.8616337776184082, 'learning_rate': 1.1333588077951852e-05, 'epoch': 0.91}
  4%|▍         | 2969/78504 [1:47:00<33:28:14,  1.60s/it]  4%|▍         | 2970/78504 [1:47:01<31:29:47,  1.50s/it]                                                         {'loss': 0.2476, 'grad_norm': 1.0265978574752808, 'learning_rate': 1.1337409247229651e-05, 'epoch': 0.91}
  4%|▍         | 2970/78504 [1:47:01<31:29:47,  1.50s/it]  4%|▍         | 2971/78504 [1:47:03<29:14:54,  1.39s/it]                                                         {'loss': 0.2602, 'grad_norm': 0.948316752910614, 'learning_rate': 1.1341230416507452e-05, 'epoch': 0.91}
  4%|▍         | 2971/78504 [1:47:03<29:14:54,  1.39s/it]  4%|▍         | 2972/78504 [1:47:04<27:21:51,  1.30s/it]                                                         {'loss': 0.2656, 'grad_norm': 1.1828045845031738, 'learning_rate': 1.134505158578525e-05, 'epoch': 0.91}
  4%|▍         | 2972/78504 [1:47:04<27:21:51,  1.30s/it]  4%|▍         | 2973/78504 [1:47:05<25:48:57,  1.23s/it]                                                         {'loss': 0.3547, 'grad_norm': 1.3427733182907104, 'learning_rate': 1.134887275506305e-05, 'epoch': 0.91}
  4%|▍         | 2973/78504 [1:47:05<25:48:57,  1.23s/it]  4%|▍         | 2974/78504 [1:47:06<23:57:08,  1.14s/it]                                                         {'loss': 0.3522, 'grad_norm': 1.292826533317566, 'learning_rate': 1.1352693924340848e-05, 'epoch': 0.91}
  4%|▍         | 2974/78504 [1:47:06<23:57:08,  1.14s/it]  4%|▍         | 2975/78504 [1:47:06<21:45:47,  1.04s/it]                                                         {'loss': 0.3762, 'grad_norm': 2.0130088329315186, 'learning_rate': 1.1356515093618647e-05, 'epoch': 0.91}
  4%|▍         | 2975/78504 [1:47:07<21:45:47,  1.04s/it]  4%|▍         | 2976/78504 [1:47:17<79:56:13,  3.81s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.5117076635360718, 'learning_rate': 1.1360336262896445e-05, 'epoch': 0.91}
  4%|▍         | 2976/78504 [1:47:17<79:56:13,  3.81s/it]  4%|▍         | 2977/78504 [1:47:20<77:08:24,  3.68s/it]                                                         {'loss': 0.126, 'grad_norm': 0.4219289720058441, 'learning_rate': 1.1364157432174246e-05, 'epoch': 0.91}
  4%|▍         | 2977/78504 [1:47:20<77:08:24,  3.68s/it]  4%|▍         | 2978/78504 [1:47:23<73:00:45,  3.48s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.3744547665119171, 'learning_rate': 1.1367978601452045e-05, 'epoch': 0.91}
  4%|▍         | 2978/78504 [1:47:23<73:00:45,  3.48s/it]  4%|▍         | 2979/78504 [1:47:26<67:35:30,  3.22s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.32564160227775574, 'learning_rate': 1.1371799770729845e-05, 'epoch': 0.91}
  4%|▍         | 2979/78504 [1:47:26<67:35:30,  3.22s/it]  4%|▍         | 2980/78504 [1:47:28<62:12:57,  2.97s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.37200793623924255, 'learning_rate': 1.1375620940007644e-05, 'epoch': 0.91}
  4%|▍         | 2980/78504 [1:47:28<62:12:57,  2.97s/it]  4%|▍         | 2981/78504 [1:47:30<57:46:55,  2.75s/it]                                                         {'loss': 0.0798, 'grad_norm': 0.5111452341079712, 'learning_rate': 1.1379442109285443e-05, 'epoch': 0.91}
  4%|▍         | 2981/78504 [1:47:30<57:46:55,  2.75s/it]  4%|▍         | 2982/78504 [1:47:33<55:04:49,  2.63s/it]                                                         {'loss': 0.0962, 'grad_norm': 0.4212460517883301, 'learning_rate': 1.1383263278563241e-05, 'epoch': 0.91}
  4%|▍         | 2982/78504 [1:47:33<55:04:49,  2.63s/it]  4%|▍         | 2983/78504 [1:47:35<51:56:17,  2.48s/it]                                                         {'loss': 0.11, 'grad_norm': 0.47865596413612366, 'learning_rate': 1.138708444784104e-05, 'epoch': 0.91}
  4%|▍         | 2983/78504 [1:47:35<51:56:17,  2.48s/it]  4%|▍         | 2984/78504 [1:47:37<50:08:52,  2.39s/it]                                                         {'loss': 0.1211, 'grad_norm': 0.4735793471336365, 'learning_rate': 1.1390905617118839e-05, 'epoch': 0.91}
  4%|▍         | 2984/78504 [1:47:37<50:08:52,  2.39s/it]  4%|▍         | 2985/78504 [1:47:39<48:46:50,  2.33s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.4020056426525116, 'learning_rate': 1.1394726786396637e-05, 'epoch': 0.91}
  4%|▍         | 2985/78504 [1:47:39<48:46:50,  2.33s/it]  4%|▍         | 2986/78504 [1:47:41<45:54:46,  2.19s/it]                                                         {'loss': 0.1617, 'grad_norm': 0.6244885325431824, 'learning_rate': 1.1398547955674438e-05, 'epoch': 0.91}
  4%|▍         | 2986/78504 [1:47:41<45:54:46,  2.19s/it]  4%|▍         | 2987/78504 [1:47:43<44:40:20,  2.13s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.4928550720214844, 'learning_rate': 1.1402369124952237e-05, 'epoch': 0.91}
  4%|▍         | 2987/78504 [1:47:43<44:40:20,  2.13s/it]  4%|▍         | 2988/78504 [1:47:45<43:25:28,  2.07s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.5160829424858093, 'learning_rate': 1.1406190294230035e-05, 'epoch': 0.91}
  4%|▍         | 2988/78504 [1:47:45<43:25:28,  2.07s/it]  4%|▍         | 2989/78504 [1:47:47<42:02:56,  2.00s/it]                                                         {'loss': 0.169, 'grad_norm': 0.5230198502540588, 'learning_rate': 1.1410011463507834e-05, 'epoch': 0.91}
  4%|▍         | 2989/78504 [1:47:47<42:02:56,  2.00s/it]  4%|▍         | 2990/78504 [1:47:49<40:32:09,  1.93s/it]                                                         {'loss': 0.1743, 'grad_norm': 0.5168899297714233, 'learning_rate': 1.1413832632785633e-05, 'epoch': 0.91}
  4%|▍         | 2990/78504 [1:47:49<40:32:09,  1.93s/it]  4%|▍         | 2991/78504 [1:47:50<38:49:05,  1.85s/it]                                                         {'loss': 0.1789, 'grad_norm': 0.5790212154388428, 'learning_rate': 1.1417653802063432e-05, 'epoch': 0.91}
  4%|▍         | 2991/78504 [1:47:50<38:49:05,  1.85s/it]  4%|▍         | 2992/78504 [1:47:52<36:51:48,  1.76s/it]                                                         {'loss': 0.2497, 'grad_norm': 0.872795045375824, 'learning_rate': 1.142147497134123e-05, 'epoch': 0.91}
  4%|▍         | 2992/78504 [1:47:52<36:51:48,  1.76s/it]  4%|▍         | 2993/78504 [1:47:53<35:01:22,  1.67s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.8759992122650146, 'learning_rate': 1.1425296140619029e-05, 'epoch': 0.92}
  4%|▍         | 2993/78504 [1:47:53<35:01:22,  1.67s/it]  4%|▍         | 2994/78504 [1:47:55<33:27:20,  1.60s/it]                                                         {'loss': 0.2223, 'grad_norm': 1.6808127164840698, 'learning_rate': 1.142911730989683e-05, 'epoch': 0.92}
  4%|▍         | 2994/78504 [1:47:55<33:27:20,  1.60s/it]  4%|▍         | 2995/78504 [1:47:56<31:37:41,  1.51s/it]                                                         {'loss': 0.2285, 'grad_norm': 0.7747117877006531, 'learning_rate': 1.1432938479174628e-05, 'epoch': 0.92}
  4%|▍         | 2995/78504 [1:47:56<31:37:41,  1.51s/it]  4%|▍         | 2996/78504 [1:47:57<29:19:06,  1.40s/it]                                                         {'loss': 0.2587, 'grad_norm': 1.3400094509124756, 'learning_rate': 1.1436759648452427e-05, 'epoch': 0.92}
  4%|▍         | 2996/78504 [1:47:57<29:19:06,  1.40s/it]  4%|▍         | 2997/78504 [1:47:58<27:21:19,  1.30s/it]                                                         {'loss': 0.2464, 'grad_norm': 0.9564950466156006, 'learning_rate': 1.1440580817730226e-05, 'epoch': 0.92}
  4%|▍         | 2997/78504 [1:47:58<27:21:19,  1.30s/it]  4%|▍         | 2998/78504 [1:47:59<25:46:49,  1.23s/it]                                                         {'loss': 0.3345, 'grad_norm': 1.2289472818374634, 'learning_rate': 1.1444401987008025e-05, 'epoch': 0.92}
  4%|▍         | 2998/78504 [1:47:59<25:46:49,  1.23s/it]  4%|▍         | 2999/78504 [1:48:00<23:54:46,  1.14s/it]                                                         {'loss': 0.2881, 'grad_norm': 1.2521336078643799, 'learning_rate': 1.1448223156285823e-05, 'epoch': 0.92}
  4%|▍         | 2999/78504 [1:48:00<23:54:46,  1.14s/it]  4%|▍         | 3000/78504 [1:48:01<21:41:24,  1.03s/it]                                                         {'loss': 0.3766, 'grad_norm': 2.630722999572754, 'learning_rate': 1.1452044325563622e-05, 'epoch': 0.92}
  4%|▍         | 3000/78504 [1:48:01<21:41:24,  1.03s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.70it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.87it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.18it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.63it/s][A
 53%|█████▎    | 8/15 [00:03<00:04,  1.61it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.80it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.16it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.40it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                         
                                               [A{'eval_loss': 0.29485461115837097, 'eval_wer': 0.35591184603782017, 'eval_cer': 0.19613105953978593, 'eval_runtime': 19.0143, 'eval_samples_per_second': 238.663, 'eval_steps_per_second': 0.789, 'epoch': 0.92}
  4%|▍         | 3000/78504 [1:49:09<21:41:24,  1.03s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-3000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-1000] due to args.save_total_limit
  4%|▍         | 3001/78504 [1:49:34<601:53:13, 28.70s/it]                                                          {'loss': 0.2092, 'grad_norm': 0.6094717979431152, 'learning_rate': 1.145586549484142e-05, 'epoch': 0.92}
  4%|▍         | 3001/78504 [1:49:34<601:53:13, 28.70s/it]  4%|▍         | 3002/78504 [1:49:38<441:57:06, 21.07s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.49538132548332214, 'learning_rate': 1.1459686664119221e-05, 'epoch': 0.92}
  4%|▍         | 3002/78504 [1:49:38<441:57:06, 21.07s/it]  4%|▍         | 3003/78504 [1:49:41<328:14:11, 15.65s/it]                                                          {'loss': 0.1063, 'grad_norm': 0.3630075454711914, 'learning_rate': 1.146350783339702e-05, 'epoch': 0.92}
  4%|▍         | 3003/78504 [1:49:41<328:14:11, 15.65s/it]  4%|▍         | 3004/78504 [1:49:43<246:07:15, 11.74s/it]                                                          {'loss': 0.096, 'grad_norm': 0.3629021942615509, 'learning_rate': 1.1467329002674819e-05, 'epoch': 0.92}
  4%|▍         | 3004/78504 [1:49:43<246:07:15, 11.74s/it]  4%|▍         | 3005/78504 [1:49:46<187:49:10,  8.96s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.31935662031173706, 'learning_rate': 1.1471150171952617e-05, 'epoch': 0.92}
  4%|▍         | 3005/78504 [1:49:46<187:49:10,  8.96s/it]  4%|▍         | 3006/78504 [1:49:48<145:44:20,  6.95s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.5039805769920349, 'learning_rate': 1.1474971341230416e-05, 'epoch': 0.92}
  4%|▍         | 3006/78504 [1:49:48<145:44:20,  6.95s/it]  4%|▍         | 3007/78504 [1:49:50<116:38:19,  5.56s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.41487210988998413, 'learning_rate': 1.1478792510508215e-05, 'epoch': 0.92}
  4%|▍         | 3007/78504 [1:49:50<116:38:19,  5.56s/it]  4%|▍         | 3008/78504 [1:49:52<94:50:21,  4.52s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.5537593960762024, 'learning_rate': 1.1482613679786014e-05, 'epoch': 0.92}
  4%|▍         | 3008/78504 [1:49:52<94:50:21,  4.52s/it]  4%|▍         | 3009/78504 [1:49:54<79:03:06,  3.77s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.46186310052871704, 'learning_rate': 1.1486434849063812e-05, 'epoch': 0.92}
  4%|▍         | 3009/78504 [1:49:54<79:03:06,  3.77s/it]  4%|▍         | 3010/78504 [1:49:56<68:45:51,  3.28s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.5484208464622498, 'learning_rate': 1.1490256018341613e-05, 'epoch': 0.92}
  4%|▍         | 3010/78504 [1:49:56<68:45:51,  3.28s/it]  4%|▍         | 3011/78504 [1:49:58<60:42:14,  2.89s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.40302255749702454, 'learning_rate': 1.1494077187619412e-05, 'epoch': 0.92}
  4%|▍         | 3011/78504 [1:49:58<60:42:14,  2.89s/it]  4%|▍         | 3012/78504 [1:50:00<53:50:10,  2.57s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.5142963528633118, 'learning_rate': 1.149789835689721e-05, 'epoch': 0.92}
  4%|▍         | 3012/78504 [1:50:00<53:50:10,  2.57s/it]  4%|▍         | 3013/78504 [1:50:02<49:29:17,  2.36s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.8219571113586426, 'learning_rate': 1.1501719526175009e-05, 'epoch': 0.92}
  4%|▍         | 3013/78504 [1:50:02<49:29:17,  2.36s/it]  4%|▍         | 3014/78504 [1:50:04<45:25:19,  2.17s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.7314652800559998, 'learning_rate': 1.1505540695452808e-05, 'epoch': 0.92}
  4%|▍         | 3014/78504 [1:50:04<45:25:19,  2.17s/it]  4%|▍         | 3015/78504 [1:50:06<42:49:36,  2.04s/it]                                                         {'loss': 0.1893, 'grad_norm': 0.8546196818351746, 'learning_rate': 1.1509361864730607e-05, 'epoch': 0.92}
  4%|▍         | 3015/78504 [1:50:06<42:49:36,  2.04s/it]  4%|▍         | 3016/78504 [1:50:07<40:14:31,  1.92s/it]                                                         {'loss': 0.1961, 'grad_norm': 0.8051688075065613, 'learning_rate': 1.1513183034008407e-05, 'epoch': 0.92}
  4%|▍         | 3016/78504 [1:50:07<40:14:31,  1.92s/it]  4%|▍         | 3017/78504 [1:50:09<37:42:22,  1.80s/it]                                                         {'loss': 0.2324, 'grad_norm': 0.7583447694778442, 'learning_rate': 1.1517004203286206e-05, 'epoch': 0.92}
  4%|▍         | 3017/78504 [1:50:09<37:42:22,  1.80s/it]  4%|▍         | 3018/78504 [1:50:10<35:22:30,  1.69s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.7158026695251465, 'learning_rate': 1.1520825372564006e-05, 'epoch': 0.92}
  4%|▍         | 3018/78504 [1:50:10<35:22:30,  1.69s/it]  4%|▍         | 3019/78504 [1:50:12<33:36:17,  1.60s/it]                                                         {'loss': 0.2281, 'grad_norm': 0.8084583282470703, 'learning_rate': 1.1524646541841805e-05, 'epoch': 0.92}
  4%|▍         | 3019/78504 [1:50:12<33:36:17,  1.60s/it]  4%|▍         | 3020/78504 [1:50:13<31:15:14,  1.49s/it]                                                         {'loss': 0.2616, 'grad_norm': 1.0293740034103394, 'learning_rate': 1.1528467711119604e-05, 'epoch': 0.92}
  4%|▍         | 3020/78504 [1:50:13<31:15:14,  1.49s/it]  4%|▍         | 3021/78504 [1:50:14<29:04:30,  1.39s/it]                                                         {'loss': 0.2736, 'grad_norm': 1.7498186826705933, 'learning_rate': 1.1532288880397402e-05, 'epoch': 0.92}
  4%|▍         | 3021/78504 [1:50:14<29:04:30,  1.39s/it]  4%|▍         | 3022/78504 [1:50:15<27:10:31,  1.30s/it]                                                         {'loss': 0.2814, 'grad_norm': 1.3752650022506714, 'learning_rate': 1.1536110049675201e-05, 'epoch': 0.92}
  4%|▍         | 3022/78504 [1:50:15<27:10:31,  1.30s/it]  4%|▍         | 3023/78504 [1:50:16<25:17:13,  1.21s/it]                                                         {'loss': 0.2899, 'grad_norm': 2.6834232807159424, 'learning_rate': 1.1539931218953e-05, 'epoch': 0.92}
  4%|▍         | 3023/78504 [1:50:16<25:17:13,  1.21s/it]  4%|▍         | 3024/78504 [1:50:17<23:35:55,  1.13s/it]                                                         {'loss': 0.2859, 'grad_norm': 1.2478841543197632, 'learning_rate': 1.1543752388230799e-05, 'epoch': 0.92}
  4%|▍         | 3024/78504 [1:50:17<23:35:55,  1.13s/it]  4%|▍         | 3025/78504 [1:50:18<21:26:22,  1.02s/it]                                                         {'loss': 0.3407, 'grad_norm': 1.8052457571029663, 'learning_rate': 1.1547573557508599e-05, 'epoch': 0.92}
  4%|▍         | 3025/78504 [1:50:18<21:26:22,  1.02s/it]  4%|▍         | 3026/78504 [1:50:27<73:03:28,  3.48s/it]                                                         {'loss': 0.222, 'grad_norm': 0.5231805443763733, 'learning_rate': 1.1551394726786398e-05, 'epoch': 0.93}
  4%|▍         | 3026/78504 [1:50:27<73:03:28,  3.48s/it]  4%|▍         | 3027/78504 [1:50:30<72:11:29,  3.44s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.5492537617683411, 'learning_rate': 1.1555215896064197e-05, 'epoch': 0.93}
  4%|▍         | 3027/78504 [1:50:30<72:11:29,  3.44s/it]  4%|▍         | 3028/78504 [1:50:33<68:51:13,  3.28s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.43690863251686096, 'learning_rate': 1.1559037065341995e-05, 'epoch': 0.93}
  4%|▍         | 3028/78504 [1:50:33<68:51:13,  3.28s/it]  4%|▍         | 3029/78504 [1:50:36<64:25:12,  3.07s/it]                                                         {'loss': 0.0938, 'grad_norm': 0.4495159387588501, 'learning_rate': 1.1562858234619794e-05, 'epoch': 0.93}
  4%|▍         | 3029/78504 [1:50:36<64:25:12,  3.07s/it]  4%|▍         | 3030/78504 [1:50:38<60:45:48,  2.90s/it]                                                         {'loss': 0.1053, 'grad_norm': 0.5477100014686584, 'learning_rate': 1.1566679403897593e-05, 'epoch': 0.93}
  4%|▍         | 3030/78504 [1:50:38<60:45:48,  2.90s/it]  4%|▍         | 3031/78504 [1:50:41<57:56:42,  2.76s/it]                                                         {'loss': 0.0953, 'grad_norm': 0.5299806594848633, 'learning_rate': 1.1570500573175392e-05, 'epoch': 0.93}
  4%|▍         | 3031/78504 [1:50:41<57:56:42,  2.76s/it]  4%|▍         | 3032/78504 [1:50:43<55:09:48,  2.63s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.47438350319862366, 'learning_rate': 1.157432174245319e-05, 'epoch': 0.93}
  4%|▍         | 3032/78504 [1:50:43<55:09:48,  2.63s/it]  4%|▍         | 3033/78504 [1:50:45<53:04:17,  2.53s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.41983267664909363, 'learning_rate': 1.157814291173099e-05, 'epoch': 0.93}
  4%|▍         | 3033/78504 [1:50:45<53:04:17,  2.53s/it]  4%|▍         | 3034/78504 [1:50:48<50:53:08,  2.43s/it]                                                         {'loss': 0.1169, 'grad_norm': 0.45701727271080017, 'learning_rate': 1.158196408100879e-05, 'epoch': 0.93}
  4%|▍         | 3034/78504 [1:50:48<50:53:08,  2.43s/it]  4%|▍         | 3035/78504 [1:50:50<49:11:39,  2.35s/it]                                                         {'loss': 0.104, 'grad_norm': 0.5443419814109802, 'learning_rate': 1.1585785250286588e-05, 'epoch': 0.93}
  4%|▍         | 3035/78504 [1:50:50<49:11:39,  2.35s/it]  4%|▍         | 3036/78504 [1:50:52<46:06:08,  2.20s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.49870482087135315, 'learning_rate': 1.1589606419564387e-05, 'epoch': 0.93}
  4%|▍         | 3036/78504 [1:50:52<46:06:08,  2.20s/it]  4%|▍         | 3037/78504 [1:50:54<44:47:12,  2.14s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.5707470774650574, 'learning_rate': 1.1593427588842186e-05, 'epoch': 0.93}
  4%|▍         | 3037/78504 [1:50:54<44:47:12,  2.14s/it]  4%|▍         | 3038/78504 [1:50:55<43:07:38,  2.06s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.5046769380569458, 'learning_rate': 1.1597248758119984e-05, 'epoch': 0.93}
  4%|▍         | 3038/78504 [1:50:55<43:07:38,  2.06s/it]  4%|▍         | 3039/78504 [1:50:57<41:47:08,  1.99s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.6744658350944519, 'learning_rate': 1.1601069927397783e-05, 'epoch': 0.93}
  4%|▍         | 3039/78504 [1:50:57<41:47:08,  1.99s/it]  4%|▍         | 3040/78504 [1:50:59<39:38:55,  1.89s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.6707252264022827, 'learning_rate': 1.1604891096675582e-05, 'epoch': 0.93}
  4%|▍         | 3040/78504 [1:50:59<39:38:55,  1.89s/it]  4%|▍         | 3041/78504 [1:51:01<38:00:47,  1.81s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.6023860573768616, 'learning_rate': 1.1608712265953382e-05, 'epoch': 0.93}
  4%|▍         | 3041/78504 [1:51:01<38:00:47,  1.81s/it]  4%|▍         | 3042/78504 [1:51:02<36:19:07,  1.73s/it]                                                         {'loss': 0.2343, 'grad_norm': 0.7500742673873901, 'learning_rate': 1.1612533435231181e-05, 'epoch': 0.93}
  4%|▍         | 3042/78504 [1:51:02<36:19:07,  1.73s/it]  4%|▍         | 3043/78504 [1:51:04<34:21:44,  1.64s/it]                                                         {'loss': 0.2316, 'grad_norm': 1.0655561685562134, 'learning_rate': 1.161635460450898e-05, 'epoch': 0.93}
  4%|▍         | 3043/78504 [1:51:04<34:21:44,  1.64s/it]  4%|▍         | 3044/78504 [1:51:05<32:52:13,  1.57s/it]                                                         {'loss': 0.2501, 'grad_norm': 0.857761025428772, 'learning_rate': 1.1620175773786779e-05, 'epoch': 0.93}
  4%|▍         | 3044/78504 [1:51:05<32:52:13,  1.57s/it]  4%|▍         | 3045/78504 [1:51:06<31:02:19,  1.48s/it]                                                         {'loss': 0.2484, 'grad_norm': 0.9370866417884827, 'learning_rate': 1.1623996943064577e-05, 'epoch': 0.93}
  4%|▍         | 3045/78504 [1:51:06<31:02:19,  1.48s/it]  4%|▍         | 3046/78504 [1:51:07<29:03:16,  1.39s/it]                                                         {'loss': 0.3157, 'grad_norm': 1.0246697664260864, 'learning_rate': 1.1627818112342376e-05, 'epoch': 0.93}
  4%|▍         | 3046/78504 [1:51:07<29:03:16,  1.39s/it]  4%|▍         | 3047/78504 [1:51:08<27:12:18,  1.30s/it]                                                         {'loss': 0.2959, 'grad_norm': 0.9705404043197632, 'learning_rate': 1.1631639281620175e-05, 'epoch': 0.93}
  4%|▍         | 3047/78504 [1:51:08<27:12:18,  1.30s/it]  4%|▍         | 3048/78504 [1:51:09<25:14:49,  1.20s/it]                                                         {'loss': 0.3079, 'grad_norm': 1.425606608390808, 'learning_rate': 1.1635460450897975e-05, 'epoch': 0.93}
  4%|▍         | 3048/78504 [1:51:09<25:14:49,  1.20s/it]  4%|▍         | 3049/78504 [1:51:10<23:28:52,  1.12s/it]                                                         {'loss': 0.3638, 'grad_norm': 1.3221688270568848, 'learning_rate': 1.1639281620175774e-05, 'epoch': 0.93}
  4%|▍         | 3049/78504 [1:51:10<23:28:52,  1.12s/it]  4%|▍         | 3050/78504 [1:51:11<21:21:00,  1.02s/it]                                                         {'loss': 0.395, 'grad_norm': 2.0449726581573486, 'learning_rate': 1.1643102789453573e-05, 'epoch': 0.93}
  4%|▍         | 3050/78504 [1:51:11<21:21:00,  1.02s/it]  4%|▍         | 3051/78504 [1:51:18<60:50:39,  2.90s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.8678000569343567, 'learning_rate': 1.1646923958731372e-05, 'epoch': 0.93}
  4%|▍         | 3051/78504 [1:51:18<60:50:39,  2.90s/it]  4%|▍         | 3052/78504 [1:51:21<60:49:58,  2.90s/it]                                                         {'loss': 0.1138, 'grad_norm': 0.35863080620765686, 'learning_rate': 1.165074512800917e-05, 'epoch': 0.93}
  4%|▍         | 3052/78504 [1:51:21<60:49:58,  2.90s/it]  4%|▍         | 3053/78504 [1:51:24<58:42:04,  2.80s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.5624440312385559, 'learning_rate': 1.1654566297286969e-05, 'epoch': 0.93}
  4%|▍         | 3053/78504 [1:51:24<58:42:04,  2.80s/it]  4%|▍         | 3054/78504 [1:51:27<57:22:37,  2.74s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.49314990639686584, 'learning_rate': 1.1658387466564768e-05, 'epoch': 0.93}
  4%|▍         | 3054/78504 [1:51:27<57:22:37,  2.74s/it]  4%|▍         | 3055/78504 [1:51:29<55:48:25,  2.66s/it]                                                         {'loss': 0.068, 'grad_norm': 0.33078533411026, 'learning_rate': 1.1662208635842568e-05, 'epoch': 0.93}
  4%|▍         | 3055/78504 [1:51:29<55:48:25,  2.66s/it]  4%|▍         | 3056/78504 [1:51:31<53:55:22,  2.57s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.4017584025859833, 'learning_rate': 1.1666029805120369e-05, 'epoch': 0.93}
  4%|▍         | 3056/78504 [1:51:31<53:55:22,  2.57s/it]  4%|▍         | 3057/78504 [1:51:34<52:21:53,  2.50s/it]                                                         {'loss': 0.0746, 'grad_norm': 1.489977478981018, 'learning_rate': 1.1669850974398167e-05, 'epoch': 0.93}
  4%|▍         | 3057/78504 [1:51:34<52:21:53,  2.50s/it]  4%|▍         | 3058/78504 [1:51:36<49:49:03,  2.38s/it]                                                         {'loss': 0.0952, 'grad_norm': 0.5206894874572754, 'learning_rate': 1.1673672143675966e-05, 'epoch': 0.93}
  4%|▍         | 3058/78504 [1:51:36<49:49:03,  2.38s/it]  4%|▍         | 3059/78504 [1:51:38<48:39:26,  2.32s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.5214557647705078, 'learning_rate': 1.1677493312953765e-05, 'epoch': 0.94}
  4%|▍         | 3059/78504 [1:51:38<48:39:26,  2.32s/it]  4%|▍         | 3060/78504 [1:51:40<47:28:59,  2.27s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.793854832649231, 'learning_rate': 1.1681314482231564e-05, 'epoch': 0.94}
  4%|▍         | 3060/78504 [1:51:40<47:28:59,  2.27s/it]  4%|▍         | 3061/78504 [1:51:42<45:51:25,  2.19s/it]                                                         {'loss': 0.1459, 'grad_norm': 0.5364009141921997, 'learning_rate': 1.1685135651509362e-05, 'epoch': 0.94}
  4%|▍         | 3061/78504 [1:51:42<45:51:25,  2.19s/it]  4%|▍         | 3062/78504 [1:51:44<43:23:53,  2.07s/it]                                                         {'loss': 0.0983, 'grad_norm': 0.47780901193618774, 'learning_rate': 1.1688956820787161e-05, 'epoch': 0.94}
  4%|▍         | 3062/78504 [1:51:44<43:23:53,  2.07s/it]  4%|▍         | 3063/78504 [1:51:46<42:05:54,  2.01s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5996263027191162, 'learning_rate': 1.169277799006496e-05, 'epoch': 0.94}
  4%|▍         | 3063/78504 [1:51:46<42:05:54,  2.01s/it]  4%|▍         | 3064/78504 [1:51:48<41:03:49,  1.96s/it]                                                         {'loss': 0.1764, 'grad_norm': 0.8027803301811218, 'learning_rate': 1.169659915934276e-05, 'epoch': 0.94}
  4%|▍         | 3064/78504 [1:51:48<41:03:49,  1.96s/it]  4%|▍         | 3065/78504 [1:51:49<39:35:15,  1.89s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.5228124260902405, 'learning_rate': 1.1700420328620559e-05, 'epoch': 0.94}
  4%|▍         | 3065/78504 [1:51:49<39:35:15,  1.89s/it]  4%|▍         | 3066/78504 [1:51:51<38:02:45,  1.82s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.5994173288345337, 'learning_rate': 1.1704241497898358e-05, 'epoch': 0.94}
  4%|▍         | 3066/78504 [1:51:51<38:02:45,  1.82s/it]  4%|▍         | 3067/78504 [1:51:53<36:13:22,  1.73s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.7207835912704468, 'learning_rate': 1.1708062667176157e-05, 'epoch': 0.94}
  4%|▍         | 3067/78504 [1:51:53<36:13:22,  1.73s/it]  4%|▍         | 3068/78504 [1:51:54<34:35:12,  1.65s/it]                                                         {'loss': 0.2111, 'grad_norm': 0.8848859667778015, 'learning_rate': 1.1711883836453955e-05, 'epoch': 0.94}
  4%|▍         | 3068/78504 [1:51:54<34:35:12,  1.65s/it]  4%|▍         | 3069/78504 [1:51:55<33:04:13,  1.58s/it]                                                         {'loss': 0.2439, 'grad_norm': 0.881862998008728, 'learning_rate': 1.1715705005731754e-05, 'epoch': 0.94}
  4%|▍         | 3069/78504 [1:51:55<33:04:13,  1.58s/it]  4%|▍         | 3070/78504 [1:51:57<31:11:33,  1.49s/it]                                                         {'loss': 0.2739, 'grad_norm': 1.148964762687683, 'learning_rate': 1.1719526175009553e-05, 'epoch': 0.94}
  4%|▍         | 3070/78504 [1:51:57<31:11:33,  1.49s/it]  4%|▍         | 3071/78504 [1:51:58<29:03:18,  1.39s/it]                                                         {'loss': 0.2515, 'grad_norm': 1.2161192893981934, 'learning_rate': 1.1723347344287352e-05, 'epoch': 0.94}
  4%|▍         | 3071/78504 [1:51:58<29:03:18,  1.39s/it]  4%|▍         | 3072/78504 [1:51:59<27:14:51,  1.30s/it]                                                         {'loss': 0.3044, 'grad_norm': 1.1852374076843262, 'learning_rate': 1.1727168513565152e-05, 'epoch': 0.94}
  4%|▍         | 3072/78504 [1:51:59<27:14:51,  1.30s/it]  4%|▍         | 3073/78504 [1:52:00<25:16:42,  1.21s/it]                                                         {'loss': 0.303, 'grad_norm': 2.7221360206604004, 'learning_rate': 1.173098968284295e-05, 'epoch': 0.94}
  4%|▍         | 3073/78504 [1:52:00<25:16:42,  1.21s/it]  4%|▍         | 3074/78504 [1:52:01<23:32:44,  1.12s/it]                                                         {'loss': 0.3428, 'grad_norm': 1.4548758268356323, 'learning_rate': 1.173481085212075e-05, 'epoch': 0.94}
  4%|▍         | 3074/78504 [1:52:01<23:32:44,  1.12s/it]  4%|▍         | 3075/78504 [1:52:02<21:22:05,  1.02s/it]                                                         {'loss': 0.3947, 'grad_norm': 2.009091854095459, 'learning_rate': 1.1738632021398548e-05, 'epoch': 0.94}
  4%|▍         | 3075/78504 [1:52:02<21:22:05,  1.02s/it]  4%|▍         | 3076/78504 [1:52:10<67:34:41,  3.23s/it]                                                         {'loss': 0.2186, 'grad_norm': 0.5045533776283264, 'learning_rate': 1.1742453190676347e-05, 'epoch': 0.94}
  4%|▍         | 3076/78504 [1:52:10<67:34:41,  3.23s/it]  4%|▍         | 3077/78504 [1:52:13<68:07:14,  3.25s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.31606391072273254, 'learning_rate': 1.1746274359954146e-05, 'epoch': 0.94}
  4%|▍         | 3077/78504 [1:52:13<68:07:14,  3.25s/it]  4%|▍         | 3078/78504 [1:52:16<66:24:14,  3.17s/it]                                                         {'loss': 0.1075, 'grad_norm': 0.34255415201187134, 'learning_rate': 1.1750095529231944e-05, 'epoch': 0.94}
  4%|▍         | 3078/78504 [1:52:16<66:24:14,  3.17s/it]  4%|▍         | 3079/78504 [1:52:19<62:46:01,  3.00s/it]                                                         {'loss': 0.0841, 'grad_norm': 0.3365557789802551, 'learning_rate': 1.1753916698509745e-05, 'epoch': 0.94}
  4%|▍         | 3079/78504 [1:52:19<62:46:01,  3.00s/it]  4%|▍         | 3080/78504 [1:52:21<59:36:42,  2.85s/it]                                                         {'loss': 0.0974, 'grad_norm': 0.398433655500412, 'learning_rate': 1.1757737867787544e-05, 'epoch': 0.94}
  4%|▍         | 3080/78504 [1:52:21<59:36:42,  2.85s/it]  4%|▍         | 3081/78504 [1:52:24<56:32:11,  2.70s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.5073704719543457, 'learning_rate': 1.1761559037065342e-05, 'epoch': 0.94}
  4%|▍         | 3081/78504 [1:52:24<56:32:11,  2.70s/it]  4%|▍         | 3082/78504 [1:52:26<54:17:47,  2.59s/it]                                                         {'loss': 0.0929, 'grad_norm': 0.5003860592842102, 'learning_rate': 1.1765380206343141e-05, 'epoch': 0.94}
  4%|▍         | 3082/78504 [1:52:26<54:17:47,  2.59s/it]  4%|▍         | 3083/78504 [1:52:28<51:14:27,  2.45s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.41817784309387207, 'learning_rate': 1.176920137562094e-05, 'epoch': 0.94}
  4%|▍         | 3083/78504 [1:52:28<51:14:27,  2.45s/it]  4%|▍         | 3084/78504 [1:52:30<48:34:34,  2.32s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.7762680649757385, 'learning_rate': 1.1773022544898739e-05, 'epoch': 0.94}
  4%|▍         | 3084/78504 [1:52:30<48:34:34,  2.32s/it]  4%|▍         | 3085/78504 [1:52:32<47:28:34,  2.27s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.488537460565567, 'learning_rate': 1.1776843714176537e-05, 'epoch': 0.94}
  4%|▍         | 3085/78504 [1:52:32<47:28:34,  2.27s/it]  4%|▍         | 3086/78504 [1:52:34<45:42:56,  2.18s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.5260447859764099, 'learning_rate': 1.1780664883454336e-05, 'epoch': 0.94}
  4%|▍         | 3086/78504 [1:52:34<45:42:56,  2.18s/it]  4%|▍         | 3087/78504 [1:52:36<43:23:11,  2.07s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.4259955883026123, 'learning_rate': 1.1784486052732137e-05, 'epoch': 0.94}
  4%|▍         | 3087/78504 [1:52:36<43:23:11,  2.07s/it]  4%|▍         | 3088/78504 [1:52:38<42:07:51,  2.01s/it]                                                         {'loss': 0.1324, 'grad_norm': 0.5980074405670166, 'learning_rate': 1.1788307222009935e-05, 'epoch': 0.94}
  4%|▍         | 3088/78504 [1:52:38<42:07:51,  2.01s/it]  4%|▍         | 3089/78504 [1:52:40<41:02:02,  1.96s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.7142485976219177, 'learning_rate': 1.1792128391287734e-05, 'epoch': 0.94}
  4%|▍         | 3089/78504 [1:52:40<41:02:02,  1.96s/it]  4%|▍         | 3090/78504 [1:52:42<39:36:04,  1.89s/it]                                                         {'loss': 0.1415, 'grad_norm': 0.7556034922599792, 'learning_rate': 1.1795949560565533e-05, 'epoch': 0.94}
  4%|▍         | 3090/78504 [1:52:42<39:36:04,  1.89s/it]  4%|▍         | 3091/78504 [1:52:43<38:05:28,  1.82s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.6711116433143616, 'learning_rate': 1.1799770729843332e-05, 'epoch': 0.94}
  4%|▍         | 3091/78504 [1:52:43<38:05:28,  1.82s/it]  4%|▍         | 3092/78504 [1:52:45<36:18:40,  1.73s/it]                                                         {'loss': 0.198, 'grad_norm': 0.7155359983444214, 'learning_rate': 1.180359189912113e-05, 'epoch': 0.95}
  4%|▍         | 3092/78504 [1:52:45<36:18:40,  1.73s/it]  4%|▍         | 3093/78504 [1:52:46<34:40:27,  1.66s/it]                                                         {'loss': 0.2037, 'grad_norm': 0.9181987047195435, 'learning_rate': 1.180741306839893e-05, 'epoch': 0.95}
  4%|▍         | 3093/78504 [1:52:46<34:40:27,  1.66s/it]  4%|▍         | 3094/78504 [1:52:48<33:11:11,  1.58s/it]                                                         {'loss': 0.2462, 'grad_norm': 1.5561527013778687, 'learning_rate': 1.181123423767673e-05, 'epoch': 0.95}
  4%|▍         | 3094/78504 [1:52:48<33:11:11,  1.58s/it]  4%|▍         | 3095/78504 [1:52:49<31:19:18,  1.50s/it]                                                         {'loss': 0.2188, 'grad_norm': 0.875458836555481, 'learning_rate': 1.181505540695453e-05, 'epoch': 0.95}
  4%|▍         | 3095/78504 [1:52:49<31:19:18,  1.50s/it]  4%|▍         | 3096/78504 [1:52:50<29:07:55,  1.39s/it]                                                         {'loss': 0.2822, 'grad_norm': 0.9724174737930298, 'learning_rate': 1.1818876576232329e-05, 'epoch': 0.95}
  4%|▍         | 3096/78504 [1:52:50<29:07:55,  1.39s/it]  4%|▍         | 3097/78504 [1:52:51<27:16:19,  1.30s/it]                                                         {'loss': 0.2538, 'grad_norm': 1.0716722011566162, 'learning_rate': 1.1822697745510127e-05, 'epoch': 0.95}
  4%|▍         | 3097/78504 [1:52:51<27:16:19,  1.30s/it]  4%|▍         | 3098/78504 [1:52:52<25:22:45,  1.21s/it]                                                         {'loss': 0.2405, 'grad_norm': 1.1079601049423218, 'learning_rate': 1.1826518914787926e-05, 'epoch': 0.95}
  4%|▍         | 3098/78504 [1:52:52<25:22:45,  1.21s/it]  4%|▍         | 3099/78504 [1:52:53<23:36:45,  1.13s/it]                                                         {'loss': 0.2852, 'grad_norm': 2.660752773284912, 'learning_rate': 1.1830340084065725e-05, 'epoch': 0.95}
  4%|▍         | 3099/78504 [1:52:53<23:36:45,  1.13s/it]  4%|▍         | 3100/78504 [1:52:54<21:25:52,  1.02s/it]                                                         {'loss': 0.4113, 'grad_norm': 2.0655689239501953, 'learning_rate': 1.1834161253343524e-05, 'epoch': 0.95}
  4%|▍         | 3100/78504 [1:52:54<21:25:52,  1.02s/it]  4%|▍         | 3101/78504 [1:53:04<77:25:13,  3.70s/it]                                                         {'loss': 0.2306, 'grad_norm': 0.6245551705360413, 'learning_rate': 1.1837982422621322e-05, 'epoch': 0.95}
  4%|▍         | 3101/78504 [1:53:04<77:25:13,  3.70s/it]  4%|▍         | 3102/78504 [1:53:07<75:00:06,  3.58s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.31905221939086914, 'learning_rate': 1.1841803591899121e-05, 'epoch': 0.95}
  4%|▍         | 3102/78504 [1:53:07<75:00:06,  3.58s/it]  4%|▍         | 3103/78504 [1:53:10<71:26:01,  3.41s/it]                                                         {'loss': 0.1061, 'grad_norm': 0.37246620655059814, 'learning_rate': 1.1845624761176922e-05, 'epoch': 0.95}
  4%|▍         | 3103/78504 [1:53:10<71:26:01,  3.41s/it]  4%|▍         | 3104/78504 [1:53:13<66:24:58,  3.17s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.3460008203983307, 'learning_rate': 1.184944593045472e-05, 'epoch': 0.95}
  4%|▍         | 3104/78504 [1:53:13<66:24:58,  3.17s/it]  4%|▍         | 3105/78504 [1:53:15<62:02:16,  2.96s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.47280824184417725, 'learning_rate': 1.1853267099732519e-05, 'epoch': 0.95}
  4%|▍         | 3105/78504 [1:53:15<62:02:16,  2.96s/it]  4%|▍         | 3106/78504 [1:53:18<57:40:24,  2.75s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.3745613992214203, 'learning_rate': 1.1857088269010318e-05, 'epoch': 0.95}
  4%|▍         | 3106/78504 [1:53:18<57:40:24,  2.75s/it]  4%|▍         | 3107/78504 [1:53:20<54:59:15,  2.63s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.4016205370426178, 'learning_rate': 1.1860909438288117e-05, 'epoch': 0.95}
  4%|▍         | 3107/78504 [1:53:20<54:59:15,  2.63s/it]  4%|▍         | 3108/78504 [1:53:22<51:41:08,  2.47s/it]                                                         {'loss': 0.0628, 'grad_norm': 0.35366952419281006, 'learning_rate': 1.1864730607565915e-05, 'epoch': 0.95}
  4%|▍         | 3108/78504 [1:53:22<51:41:08,  2.47s/it]  4%|▍         | 3109/78504 [1:53:24<49:55:35,  2.38s/it]                                                         {'loss': 0.1281, 'grad_norm': 0.4117097556591034, 'learning_rate': 1.1868551776843714e-05, 'epoch': 0.95}
  4%|▍         | 3109/78504 [1:53:24<49:55:35,  2.38s/it]  4%|▍         | 3110/78504 [1:53:26<48:25:26,  2.31s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.37939825654029846, 'learning_rate': 1.1872372946121513e-05, 'epoch': 0.95}
  4%|▍         | 3110/78504 [1:53:26<48:25:26,  2.31s/it]  4%|▍         | 3111/78504 [1:53:28<46:36:14,  2.23s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.5309694409370422, 'learning_rate': 1.1876194115399313e-05, 'epoch': 0.95}
  4%|▍         | 3111/78504 [1:53:28<46:36:14,  2.23s/it]  4%|▍         | 3112/78504 [1:53:30<45:05:22,  2.15s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.5357214212417603, 'learning_rate': 1.1880015284677112e-05, 'epoch': 0.95}
  4%|▍         | 3112/78504 [1:53:30<45:05:22,  2.15s/it]  4%|▍         | 3113/78504 [1:53:32<43:15:55,  2.07s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.4746829569339752, 'learning_rate': 1.188383645395491e-05, 'epoch': 0.95}
  4%|▍         | 3113/78504 [1:53:32<43:15:55,  2.07s/it]  4%|▍         | 3114/78504 [1:53:34<41:08:01,  1.96s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.624019205570221, 'learning_rate': 1.188765762323271e-05, 'epoch': 0.95}
  4%|▍         | 3114/78504 [1:53:34<41:08:01,  1.96s/it]  4%|▍         | 3115/78504 [1:53:36<39:53:47,  1.91s/it]                                                         {'loss': 0.2175, 'grad_norm': 0.6966778039932251, 'learning_rate': 1.1891478792510508e-05, 'epoch': 0.95}
  4%|▍         | 3115/78504 [1:53:36<39:53:47,  1.91s/it]  4%|▍         | 3116/78504 [1:53:37<38:15:15,  1.83s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.6576070189476013, 'learning_rate': 1.1895299961788307e-05, 'epoch': 0.95}
  4%|▍         | 3116/78504 [1:53:37<38:15:15,  1.83s/it]  4%|▍         | 3117/78504 [1:53:39<36:17:15,  1.73s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.9204330444335938, 'learning_rate': 1.1899121131066106e-05, 'epoch': 0.95}
  4%|▍         | 3117/78504 [1:53:39<36:17:15,  1.73s/it]  4%|▍         | 3118/78504 [1:53:40<34:37:28,  1.65s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.9086167812347412, 'learning_rate': 1.1902942300343906e-05, 'epoch': 0.95}
  4%|▍         | 3118/78504 [1:53:40<34:37:28,  1.65s/it]  4%|▍         | 3119/78504 [1:53:42<33:03:12,  1.58s/it]                                                         {'loss': 0.2711, 'grad_norm': 1.1761406660079956, 'learning_rate': 1.1906763469621705e-05, 'epoch': 0.95}
  4%|▍         | 3119/78504 [1:53:42<33:03:12,  1.58s/it]  4%|▍         | 3120/78504 [1:53:43<31:11:12,  1.49s/it]                                                         {'loss': 0.2366, 'grad_norm': 1.2942794561386108, 'learning_rate': 1.1910584638899504e-05, 'epoch': 0.95}
  4%|▍         | 3120/78504 [1:53:43<31:11:12,  1.49s/it]  4%|▍         | 3121/78504 [1:53:44<29:01:49,  1.39s/it]                                                         {'loss': 0.2361, 'grad_norm': 1.6845922470092773, 'learning_rate': 1.1914405808177302e-05, 'epoch': 0.95}
  4%|▍         | 3121/78504 [1:53:44<29:01:49,  1.39s/it]  4%|▍         | 3122/78504 [1:53:45<27:05:58,  1.29s/it]                                                         {'loss': 0.2779, 'grad_norm': 1.0513603687286377, 'learning_rate': 1.1918226977455101e-05, 'epoch': 0.95}
  4%|▍         | 3122/78504 [1:53:45<27:05:58,  1.29s/it]  4%|▍         | 3123/78504 [1:53:46<25:33:19,  1.22s/it]                                                         {'loss': 0.3301, 'grad_norm': 1.58570396900177, 'learning_rate': 1.19220481467329e-05, 'epoch': 0.95}
  4%|▍         | 3123/78504 [1:53:46<25:33:19,  1.22s/it]  4%|▍         | 3124/78504 [1:53:47<23:43:51,  1.13s/it]                                                         {'loss': 0.3356, 'grad_norm': 2.0663018226623535, 'learning_rate': 1.1925869316010699e-05, 'epoch': 0.96}
  4%|▍         | 3124/78504 [1:53:47<23:43:51,  1.13s/it]  4%|▍         | 3125/78504 [1:53:48<21:32:36,  1.03s/it]                                                         {'loss': 0.3918, 'grad_norm': 1.75583815574646, 'learning_rate': 1.1929690485288497e-05, 'epoch': 0.96}
  4%|▍         | 3125/78504 [1:53:48<21:32:36,  1.03s/it]  4%|▍         | 3126/78504 [1:53:56<67:50:18,  3.24s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.6798717379570007, 'learning_rate': 1.1933511654566298e-05, 'epoch': 0.96}
  4%|▍         | 3126/78504 [1:53:56<67:50:18,  3.24s/it]  4%|▍         | 3127/78504 [1:54:00<68:00:48,  3.25s/it]                                                         {'loss': 0.1105, 'grad_norm': 0.5621383190155029, 'learning_rate': 1.1937332823844096e-05, 'epoch': 0.96}
  4%|▍         | 3127/78504 [1:54:00<68:00:48,  3.25s/it]  4%|▍         | 3128/78504 [1:54:03<66:21:09,  3.17s/it]                                                         {'loss': 0.08, 'grad_norm': 0.41356372833251953, 'learning_rate': 1.1941153993121895e-05, 'epoch': 0.96}
  4%|▍         | 3128/78504 [1:54:03<66:21:09,  3.17s/it]  4%|▍         | 3129/78504 [1:54:05<62:55:46,  3.01s/it]                                                         {'loss': 0.0848, 'grad_norm': 0.30644941329956055, 'learning_rate': 1.1944975162399694e-05, 'epoch': 0.96}
  4%|▍         | 3129/78504 [1:54:05<62:55:46,  3.01s/it]  4%|▍         | 3130/78504 [1:54:08<59:31:52,  2.84s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.3746224641799927, 'learning_rate': 1.1948796331677493e-05, 'epoch': 0.96}
  4%|▍         | 3130/78504 [1:54:08<59:31:52,  2.84s/it]  4%|▍         | 3131/78504 [1:54:10<55:56:07,  2.67s/it]                                                         {'loss': 0.116, 'grad_norm': 0.41722801327705383, 'learning_rate': 1.1952617500955291e-05, 'epoch': 0.96}
  4%|▍         | 3131/78504 [1:54:10<55:56:07,  2.67s/it]  4%|▍         | 3132/78504 [1:54:12<53:43:17,  2.57s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.4162527918815613, 'learning_rate': 1.1956438670233092e-05, 'epoch': 0.96}
  4%|▍         | 3132/78504 [1:54:12<53:43:17,  2.57s/it]  4%|▍         | 3133/78504 [1:54:14<50:46:39,  2.43s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.410766065120697, 'learning_rate': 1.196025983951089e-05, 'epoch': 0.96}
  4%|▍         | 3133/78504 [1:54:14<50:46:39,  2.43s/it]  4%|▍         | 3134/78504 [1:54:17<49:18:57,  2.36s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.4054067134857178, 'learning_rate': 1.1964081008788691e-05, 'epoch': 0.96}
  4%|▍         | 3134/78504 [1:54:17<49:18:57,  2.36s/it]  4%|▍         | 3135/78504 [1:54:19<47:58:55,  2.29s/it]                                                         {'loss': 0.0843, 'grad_norm': 0.5224018692970276, 'learning_rate': 1.196790217806649e-05, 'epoch': 0.96}
  4%|▍         | 3135/78504 [1:54:19<47:58:55,  2.29s/it]  4%|▍         | 3136/78504 [1:54:21<45:16:48,  2.16s/it]                                                         {'loss': 0.111, 'grad_norm': 0.41606563329696655, 'learning_rate': 1.1971723347344289e-05, 'epoch': 0.96}
  4%|▍         | 3136/78504 [1:54:21<45:16:48,  2.16s/it]  4%|▍         | 3137/78504 [1:54:23<44:11:22,  2.11s/it]                                                         {'loss': 0.124, 'grad_norm': 0.4582171142101288, 'learning_rate': 1.1975544516622087e-05, 'epoch': 0.96}
  4%|▍         | 3137/78504 [1:54:23<44:11:22,  2.11s/it]  4%|▍         | 3138/78504 [1:54:24<42:47:00,  2.04s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.9061025381088257, 'learning_rate': 1.1979365685899886e-05, 'epoch': 0.96}
  4%|▍         | 3138/78504 [1:54:24<42:47:00,  2.04s/it]  4%|▍         | 3139/78504 [1:54:26<41:42:45,  1.99s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.632064700126648, 'learning_rate': 1.1983186855177685e-05, 'epoch': 0.96}
  4%|▍         | 3139/78504 [1:54:26<41:42:45,  1.99s/it]  4%|▍         | 3140/78504 [1:54:28<40:16:16,  1.92s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.6370052099227905, 'learning_rate': 1.1987008024455484e-05, 'epoch': 0.96}
  4%|▍         | 3140/78504 [1:54:28<40:16:16,  1.92s/it]  4%|▍         | 3141/78504 [1:54:30<38:31:34,  1.84s/it]                                                         {'loss': 0.2, 'grad_norm': 1.1198172569274902, 'learning_rate': 1.1990829193733282e-05, 'epoch': 0.96}
  4%|▍         | 3141/78504 [1:54:30<38:31:34,  1.84s/it]  4%|▍         | 3142/78504 [1:54:31<36:42:32,  1.75s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.6073834300041199, 'learning_rate': 1.1994650363011083e-05, 'epoch': 0.96}
  4%|▍         | 3142/78504 [1:54:31<36:42:32,  1.75s/it]  4%|▍         | 3143/78504 [1:54:33<34:57:02,  1.67s/it]                                                         {'loss': 0.2256, 'grad_norm': 0.7214398980140686, 'learning_rate': 1.1998471532288881e-05, 'epoch': 0.96}
  4%|▍         | 3143/78504 [1:54:33<34:57:02,  1.67s/it]  4%|▍         | 3144/78504 [1:54:34<33:08:53,  1.58s/it]                                                         {'loss': 0.2441, 'grad_norm': 0.7250209450721741, 'learning_rate': 1.200229270156668e-05, 'epoch': 0.96}
  4%|▍         | 3144/78504 [1:54:34<33:08:53,  1.58s/it]  4%|▍         | 3145/78504 [1:54:35<31:13:04,  1.49s/it]                                                         {'loss': 0.2437, 'grad_norm': 0.8051237463951111, 'learning_rate': 1.2006113870844479e-05, 'epoch': 0.96}
  4%|▍         | 3145/78504 [1:54:35<31:13:04,  1.49s/it]  4%|▍         | 3146/78504 [1:54:37<29:05:12,  1.39s/it]                                                         {'loss': 0.2274, 'grad_norm': 0.8781859278678894, 'learning_rate': 1.2009935040122278e-05, 'epoch': 0.96}
  4%|▍         | 3146/78504 [1:54:37<29:05:12,  1.39s/it]  4%|▍         | 3147/78504 [1:54:38<27:11:28,  1.30s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.99129319190979, 'learning_rate': 1.2013756209400076e-05, 'epoch': 0.96}
  4%|▍         | 3147/78504 [1:54:38<27:11:28,  1.30s/it]  4%|▍         | 3148/78504 [1:54:39<25:37:48,  1.22s/it]                                                         {'loss': 0.2688, 'grad_norm': 1.4280776977539062, 'learning_rate': 1.2017577378677875e-05, 'epoch': 0.96}
  4%|▍         | 3148/78504 [1:54:39<25:37:48,  1.22s/it]  4%|▍         | 3149/78504 [1:54:40<23:43:39,  1.13s/it]                                                         {'loss': 0.2625, 'grad_norm': 1.2105438709259033, 'learning_rate': 1.2021398547955676e-05, 'epoch': 0.96}
  4%|▍         | 3149/78504 [1:54:40<23:43:39,  1.13s/it]  4%|▍         | 3150/78504 [1:54:40<21:29:19,  1.03s/it]                                                         {'loss': 0.3571, 'grad_norm': 2.10922908782959, 'learning_rate': 1.2025219717233474e-05, 'epoch': 0.96}
  4%|▍         | 3150/78504 [1:54:40<21:29:19,  1.03s/it]  4%|▍         | 3151/78504 [1:54:49<66:13:18,  3.16s/it]                                                         {'loss': 0.1906, 'grad_norm': 0.6091034412384033, 'learning_rate': 1.2029040886511273e-05, 'epoch': 0.96}
  4%|▍         | 3151/78504 [1:54:49<66:13:18,  3.16s/it]  4%|▍         | 3152/78504 [1:54:52<65:56:54,  3.15s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.4947749376296997, 'learning_rate': 1.2032862055789072e-05, 'epoch': 0.96}
  4%|▍         | 3152/78504 [1:54:52<65:56:54,  3.15s/it]  4%|▍         | 3153/78504 [1:54:55<65:10:53,  3.11s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.33551961183547974, 'learning_rate': 1.203668322506687e-05, 'epoch': 0.96}
  4%|▍         | 3153/78504 [1:54:55<65:10:53,  3.11s/it]  4%|▍         | 3154/78504 [1:54:57<61:52:33,  2.96s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.45636382699012756, 'learning_rate': 1.204050439434467e-05, 'epoch': 0.96}
  4%|▍         | 3154/78504 [1:54:57<61:52:33,  2.96s/it]  4%|▍         | 3155/78504 [1:55:00<58:49:59,  2.81s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.3531264364719391, 'learning_rate': 1.2044325563622468e-05, 'epoch': 0.96}
  4%|▍         | 3155/78504 [1:55:00<58:49:59,  2.81s/it]  4%|▍         | 3156/78504 [1:55:02<55:24:55,  2.65s/it]                                                         {'loss': 0.0753, 'grad_norm': 0.32733070850372314, 'learning_rate': 1.2048146732900267e-05, 'epoch': 0.96}
  4%|▍         | 3156/78504 [1:55:02<55:24:55,  2.65s/it]  4%|▍         | 3157/78504 [1:55:04<53:25:52,  2.55s/it]                                                         {'loss': 0.0804, 'grad_norm': 0.46069976687431335, 'learning_rate': 1.2051967902178067e-05, 'epoch': 0.97}
  4%|▍         | 3157/78504 [1:55:04<53:25:52,  2.55s/it]  4%|▍         | 3158/78504 [1:55:06<50:30:20,  2.41s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.39397838711738586, 'learning_rate': 1.2055789071455866e-05, 'epoch': 0.97}
  4%|▍         | 3158/78504 [1:55:06<50:30:20,  2.41s/it]  4%|▍         | 3159/78504 [1:55:08<48:04:31,  2.30s/it]                                                         {'loss': 0.104, 'grad_norm': 0.44641783833503723, 'learning_rate': 1.2059610240733665e-05, 'epoch': 0.97}
  4%|▍         | 3159/78504 [1:55:08<48:04:31,  2.30s/it]  4%|▍         | 3160/78504 [1:55:11<47:05:44,  2.25s/it]                                                         {'loss': 0.075, 'grad_norm': 0.36873534321784973, 'learning_rate': 1.2063431410011464e-05, 'epoch': 0.97}
  4%|▍         | 3160/78504 [1:55:11<47:05:44,  2.25s/it]  4%|▍         | 3161/78504 [1:55:13<45:42:18,  2.18s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.444614052772522, 'learning_rate': 1.2067252579289262e-05, 'epoch': 0.97}
  4%|▍         | 3161/78504 [1:55:13<45:42:18,  2.18s/it]  4%|▍         | 3162/78504 [1:55:15<44:24:47,  2.12s/it]                                                         {'loss': 0.107, 'grad_norm': 0.8550121784210205, 'learning_rate': 1.2071073748567061e-05, 'epoch': 0.97}
  4%|▍         | 3162/78504 [1:55:15<44:24:47,  2.12s/it]  4%|▍         | 3163/78504 [1:55:16<42:50:54,  2.05s/it]                                                         {'loss': 0.1325, 'grad_norm': 0.5017456412315369, 'learning_rate': 1.207489491784486e-05, 'epoch': 0.97}
  4%|▍         | 3163/78504 [1:55:16<42:50:54,  2.05s/it]  4%|▍         | 3164/78504 [1:55:18<40:44:20,  1.95s/it]                                                         {'loss': 0.1484, 'grad_norm': 1.095397710800171, 'learning_rate': 1.2078716087122659e-05, 'epoch': 0.97}
  4%|▍         | 3164/78504 [1:55:18<40:44:20,  1.95s/it]  4%|▍         | 3165/78504 [1:55:20<39:36:51,  1.89s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.5998310446739197, 'learning_rate': 1.2082537256400459e-05, 'epoch': 0.97}
  4%|▍         | 3165/78504 [1:55:20<39:36:51,  1.89s/it]  4%|▍         | 3166/78504 [1:55:22<38:01:30,  1.82s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.6700792908668518, 'learning_rate': 1.2086358425678258e-05, 'epoch': 0.97}
  4%|▍         | 3166/78504 [1:55:22<38:01:30,  1.82s/it]  4%|▍         | 3167/78504 [1:55:23<36:09:13,  1.73s/it]                                                         {'loss': 0.2066, 'grad_norm': 0.8271272778511047, 'learning_rate': 1.2090179594956056e-05, 'epoch': 0.97}
  4%|▍         | 3167/78504 [1:55:23<36:09:13,  1.73s/it]  4%|▍         | 3168/78504 [1:55:25<34:14:57,  1.64s/it]                                                         {'loss': 0.2974, 'grad_norm': 0.7562806010246277, 'learning_rate': 1.2094000764233855e-05, 'epoch': 0.97}
  4%|▍         | 3168/78504 [1:55:25<34:14:57,  1.64s/it]  4%|▍         | 3169/78504 [1:55:26<32:51:39,  1.57s/it]                                                         {'loss': 0.2755, 'grad_norm': 1.135209321975708, 'learning_rate': 1.2097821933511654e-05, 'epoch': 0.97}
  4%|▍         | 3169/78504 [1:55:26<32:51:39,  1.57s/it]  4%|▍         | 3170/78504 [1:55:27<31:05:19,  1.49s/it]                                                         {'loss': 0.2543, 'grad_norm': 0.9814943075180054, 'learning_rate': 1.2101643102789453e-05, 'epoch': 0.97}
  4%|▍         | 3170/78504 [1:55:27<31:05:19,  1.49s/it]  4%|▍         | 3171/78504 [1:55:28<28:59:30,  1.39s/it]                                                         {'loss': 0.2867, 'grad_norm': 1.0182932615280151, 'learning_rate': 1.2105464272067253e-05, 'epoch': 0.97}
  4%|▍         | 3171/78504 [1:55:28<28:59:30,  1.39s/it]  4%|▍         | 3172/78504 [1:55:29<27:10:17,  1.30s/it]                                                         {'loss': 0.3131, 'grad_norm': 1.0416746139526367, 'learning_rate': 1.2109285441345052e-05, 'epoch': 0.97}
  4%|▍         | 3172/78504 [1:55:30<27:10:17,  1.30s/it]  4%|▍         | 3173/78504 [1:55:30<25:11:43,  1.20s/it]                                                         {'loss': 0.2822, 'grad_norm': 1.4090399742126465, 'learning_rate': 1.2113106610622852e-05, 'epoch': 0.97}
  4%|▍         | 3173/78504 [1:55:30<25:11:43,  1.20s/it]  4%|▍         | 3174/78504 [1:55:31<23:28:28,  1.12s/it]                                                         {'loss': 0.334, 'grad_norm': 1.4564845561981201, 'learning_rate': 1.2116927779900651e-05, 'epoch': 0.97}
  4%|▍         | 3174/78504 [1:55:31<23:28:28,  1.12s/it]  4%|▍         | 3175/78504 [1:55:32<21:28:26,  1.03s/it]                                                         {'loss': 0.3772, 'grad_norm': 2.002826452255249, 'learning_rate': 1.212074894917845e-05, 'epoch': 0.97}
  4%|▍         | 3175/78504 [1:55:32<21:28:26,  1.03s/it]  4%|▍         | 3176/78504 [1:55:42<74:48:26,  3.58s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.40317240357398987, 'learning_rate': 1.2124570118456249e-05, 'epoch': 0.97}
  4%|▍         | 3176/78504 [1:55:42<74:48:26,  3.58s/it]  4%|▍         | 3177/78504 [1:55:45<71:34:35,  3.42s/it]                                                         {'loss': 0.1399, 'grad_norm': 0.46593916416168213, 'learning_rate': 1.2128391287734047e-05, 'epoch': 0.97}
  4%|▍         | 3177/78504 [1:55:45<71:34:35,  3.42s/it]  4%|▍         | 3178/78504 [1:55:47<67:07:19,  3.21s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.39607441425323486, 'learning_rate': 1.2132212457011846e-05, 'epoch': 0.97}
  4%|▍         | 3178/78504 [1:55:48<67:07:19,  3.21s/it]  4%|▍         | 3179/78504 [1:55:50<63:17:54,  3.03s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.40105581283569336, 'learning_rate': 1.2136033626289645e-05, 'epoch': 0.97}
  4%|▍         | 3179/78504 [1:55:50<63:17:54,  3.03s/it]  4%|▍         | 3180/78504 [1:55:53<59:55:14,  2.86s/it]                                                         {'loss': 0.0918, 'grad_norm': 0.4922158122062683, 'learning_rate': 1.2139854795567445e-05, 'epoch': 0.97}
  4%|▍         | 3180/78504 [1:55:53<59:55:14,  2.86s/it]  4%|▍         | 3181/78504 [1:55:55<56:10:55,  2.69s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.383643239736557, 'learning_rate': 1.2143675964845244e-05, 'epoch': 0.97}
  4%|▍         | 3181/78504 [1:55:55<56:10:55,  2.69s/it]  4%|▍         | 3182/78504 [1:55:57<54:09:41,  2.59s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.37614068388938904, 'learning_rate': 1.2147497134123043e-05, 'epoch': 0.97}
  4%|▍         | 3182/78504 [1:55:57<54:09:41,  2.59s/it]  4%|▍         | 3183/78504 [1:55:59<51:03:59,  2.44s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.4367503821849823, 'learning_rate': 1.2151318303400841e-05, 'epoch': 0.97}
  4%|▍         | 3183/78504 [1:55:59<51:03:59,  2.44s/it]  4%|▍         | 3184/78504 [1:56:01<49:28:17,  2.36s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.417643278837204, 'learning_rate': 1.215513947267864e-05, 'epoch': 0.97}
  4%|▍         | 3184/78504 [1:56:02<49:28:17,  2.36s/it]  4%|▍         | 3185/78504 [1:56:04<48:03:34,  2.30s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.46919623017311096, 'learning_rate': 1.2158960641956439e-05, 'epoch': 0.97}
  4%|▍         | 3185/78504 [1:56:04<48:03:34,  2.30s/it]  4%|▍         | 3186/78504 [1:56:06<46:23:08,  2.22s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.5693230032920837, 'learning_rate': 1.2162781811234238e-05, 'epoch': 0.97}
  4%|▍         | 3186/78504 [1:56:06<46:23:08,  2.22s/it]  4%|▍         | 3187/78504 [1:56:07<43:46:03,  2.09s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.6479252576828003, 'learning_rate': 1.2166602980512036e-05, 'epoch': 0.97}
  4%|▍         | 3187/78504 [1:56:07<43:46:03,  2.09s/it]  4%|▍         | 3188/78504 [1:56:09<42:18:03,  2.02s/it]                                                         {'loss': 0.137, 'grad_norm': 0.5202141404151917, 'learning_rate': 1.2170424149789837e-05, 'epoch': 0.97}
  4%|▍         | 3188/78504 [1:56:09<42:18:03,  2.02s/it]  4%|▍         | 3189/78504 [1:56:11<40:17:24,  1.93s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.6304534673690796, 'learning_rate': 1.2174245319067636e-05, 'epoch': 0.97}
  4%|▍         | 3189/78504 [1:56:11<40:17:24,  1.93s/it]  4%|▍         | 3190/78504 [1:56:13<39:15:02,  1.88s/it]                                                         {'loss': 0.175, 'grad_norm': 0.6721799373626709, 'learning_rate': 1.2178066488345434e-05, 'epoch': 0.98}
  4%|▍         | 3190/78504 [1:56:13<39:15:02,  1.88s/it]  4%|▍         | 3191/78504 [1:56:14<37:41:08,  1.80s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.6930961012840271, 'learning_rate': 1.2181887657623233e-05, 'epoch': 0.98}
  4%|▍         | 3191/78504 [1:56:14<37:41:08,  1.80s/it]  4%|▍         | 3192/78504 [1:56:16<35:53:42,  1.72s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.7439306378364563, 'learning_rate': 1.2185708826901032e-05, 'epoch': 0.98}
  4%|▍         | 3192/78504 [1:56:16<35:53:42,  1.72s/it]  4%|▍         | 3193/78504 [1:56:17<34:03:57,  1.63s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.7310979962348938, 'learning_rate': 1.218952999617883e-05, 'epoch': 0.98}
  4%|▍         | 3193/78504 [1:56:17<34:03:57,  1.63s/it]  4%|▍         | 3194/78504 [1:56:19<32:37:48,  1.56s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.7020347118377686, 'learning_rate': 1.219335116545663e-05, 'epoch': 0.98}
  4%|▍         | 3194/78504 [1:56:19<32:37:48,  1.56s/it]  4%|▍         | 3195/78504 [1:56:20<30:49:28,  1.47s/it]                                                         {'loss': 0.2302, 'grad_norm': 0.9674530029296875, 'learning_rate': 1.2197172334734428e-05, 'epoch': 0.98}
  4%|▍         | 3195/78504 [1:56:20<30:49:28,  1.47s/it]  4%|▍         | 3196/78504 [1:56:21<28:46:30,  1.38s/it]                                                         {'loss': 0.274, 'grad_norm': 1.0266170501708984, 'learning_rate': 1.2200993504012229e-05, 'epoch': 0.98}
  4%|▍         | 3196/78504 [1:56:21<28:46:30,  1.38s/it]  4%|▍         | 3197/78504 [1:56:22<26:55:50,  1.29s/it]                                                         {'loss': 0.3055, 'grad_norm': 2.747267723083496, 'learning_rate': 1.2204814673290027e-05, 'epoch': 0.98}
  4%|▍         | 3197/78504 [1:56:22<26:55:50,  1.29s/it]  4%|▍         | 3198/78504 [1:56:23<25:25:26,  1.22s/it]                                                         {'loss': 0.307, 'grad_norm': 1.6522608995437622, 'learning_rate': 1.2208635842567826e-05, 'epoch': 0.98}
  4%|▍         | 3198/78504 [1:56:23<25:25:26,  1.22s/it]  4%|▍         | 3199/78504 [1:56:24<23:33:07,  1.13s/it]                                                         {'loss': 0.3126, 'grad_norm': 3.1230483055114746, 'learning_rate': 1.2212457011845625e-05, 'epoch': 0.98}
  4%|▍         | 3199/78504 [1:56:24<23:33:07,  1.13s/it]  4%|▍         | 3200/78504 [1:56:25<21:18:18,  1.02s/it]                                                         {'loss': 0.3906, 'grad_norm': 2.161052703857422, 'learning_rate': 1.2216278181123423e-05, 'epoch': 0.98}
  4%|▍         | 3200/78504 [1:56:25<21:18:18,  1.02s/it]  4%|▍         | 3201/78504 [1:56:35<78:53:16,  3.77s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.5798832178115845, 'learning_rate': 1.2220099350401222e-05, 'epoch': 0.98}
  4%|▍         | 3201/78504 [1:56:35<78:53:16,  3.77s/it]  4%|▍         | 3202/78504 [1:56:38<74:53:52,  3.58s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.33538737893104553, 'learning_rate': 1.2223920519679021e-05, 'epoch': 0.98}
  4%|▍         | 3202/78504 [1:56:38<74:53:52,  3.58s/it]  4%|▍         | 3203/78504 [1:56:41<68:34:25,  3.28s/it]                                                         {'loss': 0.1387, 'grad_norm': 0.6652705669403076, 'learning_rate': 1.222774168895682e-05, 'epoch': 0.98}
  4%|▍         | 3203/78504 [1:56:41<68:34:25,  3.28s/it]  4%|▍         | 3204/78504 [1:56:44<64:25:16,  3.08s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.4096473753452301, 'learning_rate': 1.223156285823462e-05, 'epoch': 0.98}
  4%|▍         | 3204/78504 [1:56:44<64:25:16,  3.08s/it]  4%|▍         | 3205/78504 [1:56:46<60:41:51,  2.90s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.3002910315990448, 'learning_rate': 1.2235384027512419e-05, 'epoch': 0.98}
  4%|▍         | 3205/78504 [1:56:46<60:41:51,  2.90s/it]  4%|▍         | 3206/78504 [1:56:48<57:51:42,  2.77s/it]                                                         {'loss': 0.0938, 'grad_norm': 0.37400224804878235, 'learning_rate': 1.2239205196790218e-05, 'epoch': 0.98}
  4%|▍         | 3206/78504 [1:56:48<57:51:42,  2.77s/it]  4%|▍         | 3207/78504 [1:56:51<55:04:07,  2.63s/it]                                                         {'loss': 0.09, 'grad_norm': 0.6158922910690308, 'learning_rate': 1.2243026366068016e-05, 'epoch': 0.98}
  4%|▍         | 3207/78504 [1:56:51<55:04:07,  2.63s/it]  4%|▍         | 3208/78504 [1:56:53<51:46:00,  2.48s/it]                                                         {'loss': 0.1045, 'grad_norm': 0.4815502464771271, 'learning_rate': 1.2246847535345815e-05, 'epoch': 0.98}
  4%|▍         | 3208/78504 [1:56:53<51:46:00,  2.48s/it]  4%|▍         | 3209/78504 [1:56:55<49:58:35,  2.39s/it]                                                         {'loss': 0.103, 'grad_norm': 0.3926409184932709, 'learning_rate': 1.2250668704623614e-05, 'epoch': 0.98}
  4%|▍         | 3209/78504 [1:56:55<49:58:35,  2.39s/it]  4%|▍         | 3210/78504 [1:56:57<48:34:26,  2.32s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.36665141582489014, 'learning_rate': 1.2254489873901414e-05, 'epoch': 0.98}
  4%|▍         | 3210/78504 [1:56:57<48:34:26,  2.32s/it]  4%|▍         | 3211/78504 [1:56:59<45:45:23,  2.19s/it]                                                         {'loss': 0.1315, 'grad_norm': 0.49513351917266846, 'learning_rate': 1.2258311043179215e-05, 'epoch': 0.98}
  4%|▍         | 3211/78504 [1:56:59<45:45:23,  2.19s/it]  4%|▍         | 3212/78504 [1:57:01<44:29:53,  2.13s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.5295798778533936, 'learning_rate': 1.2262132212457013e-05, 'epoch': 0.98}
  4%|▍         | 3212/78504 [1:57:01<44:29:53,  2.13s/it]  4%|▍         | 3213/78504 [1:57:03<43:11:05,  2.06s/it]                                                         {'loss': 0.1416, 'grad_norm': 0.8515869379043579, 'learning_rate': 1.2265953381734812e-05, 'epoch': 0.98}
  4%|▍         | 3213/78504 [1:57:03<43:11:05,  2.06s/it]  4%|▍         | 3214/78504 [1:57:05<41:56:35,  2.01s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.563252329826355, 'learning_rate': 1.2269774551012611e-05, 'epoch': 0.98}
  4%|▍         | 3214/78504 [1:57:05<41:56:35,  2.01s/it]  4%|▍         | 3215/78504 [1:57:07<40:22:10,  1.93s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.5980503559112549, 'learning_rate': 1.227359572029041e-05, 'epoch': 0.98}
  4%|▍         | 3215/78504 [1:57:07<40:22:10,  1.93s/it]  4%|▍         | 3216/78504 [1:57:08<38:06:15,  1.82s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.6839807033538818, 'learning_rate': 1.2277416889568208e-05, 'epoch': 0.98}
  4%|▍         | 3216/78504 [1:57:08<38:06:15,  1.82s/it]  4%|▍         | 3217/78504 [1:57:10<36:14:56,  1.73s/it]                                                         {'loss': 0.2268, 'grad_norm': 0.9278534054756165, 'learning_rate': 1.2281238058846007e-05, 'epoch': 0.98}
  4%|▍         | 3217/78504 [1:57:10<36:14:56,  1.73s/it]  4%|▍         | 3218/78504 [1:57:11<34:50:20,  1.67s/it]                                                         {'loss': 0.2272, 'grad_norm': 0.7935358881950378, 'learning_rate': 1.2285059228123806e-05, 'epoch': 0.98}
  4%|▍         | 3218/78504 [1:57:11<34:50:20,  1.67s/it]  4%|▍         | 3219/78504 [1:57:13<33:04:19,  1.58s/it]                                                         {'loss': 0.2184, 'grad_norm': 0.9069288969039917, 'learning_rate': 1.2288880397401606e-05, 'epoch': 0.98}
  4%|▍         | 3219/78504 [1:57:13<33:04:19,  1.58s/it]  4%|▍         | 3220/78504 [1:57:14<31:07:22,  1.49s/it]                                                         {'loss': 0.2977, 'grad_norm': 0.9310320615768433, 'learning_rate': 1.2292701566679405e-05, 'epoch': 0.98}
  4%|▍         | 3220/78504 [1:57:14<31:07:22,  1.49s/it]  4%|▍         | 3221/78504 [1:57:15<28:56:19,  1.38s/it]                                                         {'loss': 0.2621, 'grad_norm': 1.11311936378479, 'learning_rate': 1.2296522735957204e-05, 'epoch': 0.98}
  4%|▍         | 3221/78504 [1:57:15<28:56:19,  1.38s/it]  4%|▍         | 3222/78504 [1:57:16<27:03:15,  1.29s/it]                                                         {'loss': 0.2319, 'grad_norm': 1.0219923257827759, 'learning_rate': 1.2300343905235003e-05, 'epoch': 0.99}
  4%|▍         | 3222/78504 [1:57:16<27:03:15,  1.29s/it]  4%|▍         | 3223/78504 [1:57:17<25:27:20,  1.22s/it]                                                         {'loss': 0.2909, 'grad_norm': 1.911068081855774, 'learning_rate': 1.2304165074512801e-05, 'epoch': 0.99}
  4%|▍         | 3223/78504 [1:57:17<25:27:20,  1.22s/it]  4%|▍         | 3224/78504 [1:57:18<23:36:41,  1.13s/it]                                                         {'loss': 0.3402, 'grad_norm': 1.4470555782318115, 'learning_rate': 1.23079862437906e-05, 'epoch': 0.99}
  4%|▍         | 3224/78504 [1:57:18<23:36:41,  1.13s/it]  4%|▍         | 3225/78504 [1:57:19<21:21:00,  1.02s/it]                                                         {'loss': 0.3238, 'grad_norm': 1.9982942342758179, 'learning_rate': 1.2311807413068399e-05, 'epoch': 0.99}
  4%|▍         | 3225/78504 [1:57:19<21:21:00,  1.02s/it]  4%|▍         | 3226/78504 [1:57:29<76:03:50,  3.64s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.5515090227127075, 'learning_rate': 1.2315628582346198e-05, 'epoch': 0.99}
  4%|▍         | 3226/78504 [1:57:29<76:03:50,  3.64s/it]  4%|▍         | 3227/78504 [1:57:32<74:16:09,  3.55s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.3995044529438019, 'learning_rate': 1.2319449751623998e-05, 'epoch': 0.99}
  4%|▍         | 3227/78504 [1:57:32<74:16:09,  3.55s/it]  4%|▍         | 3228/78504 [1:57:35<70:18:44,  3.36s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.5768081545829773, 'learning_rate': 1.2323270920901797e-05, 'epoch': 0.99}
  4%|▍         | 3228/78504 [1:57:35<70:18:44,  3.36s/it]  4%|▍         | 3229/78504 [1:57:37<64:24:00,  3.08s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.6919368505477905, 'learning_rate': 1.2327092090179596e-05, 'epoch': 0.99}
  4%|▍         | 3229/78504 [1:57:37<64:24:00,  3.08s/it]  4%|▍         | 3230/78504 [1:57:40<60:37:07,  2.90s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.33816269040107727, 'learning_rate': 1.2330913259457394e-05, 'epoch': 0.99}
  4%|▍         | 3230/78504 [1:57:40<60:37:07,  2.90s/it]  4%|▍         | 3231/78504 [1:57:42<57:46:22,  2.76s/it]                                                         {'loss': 0.0859, 'grad_norm': 0.3338421583175659, 'learning_rate': 1.2334734428735193e-05, 'epoch': 0.99}
  4%|▍         | 3231/78504 [1:57:42<57:46:22,  2.76s/it]  4%|▍         | 3232/78504 [1:57:45<55:01:00,  2.63s/it]                                                         {'loss': 0.0729, 'grad_norm': 0.35861867666244507, 'learning_rate': 1.2338555598012992e-05, 'epoch': 0.99}
  4%|▍         | 3232/78504 [1:57:45<55:01:00,  2.63s/it]  4%|▍         | 3233/78504 [1:57:47<52:59:24,  2.53s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.51128751039505, 'learning_rate': 1.234237676729079e-05, 'epoch': 0.99}
  4%|▍         | 3233/78504 [1:57:47<52:59:24,  2.53s/it]  4%|▍         | 3234/78504 [1:57:49<50:46:11,  2.43s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.6037584543228149, 'learning_rate': 1.234619793656859e-05, 'epoch': 0.99}
  4%|▍         | 3234/78504 [1:57:49<50:46:11,  2.43s/it]  4%|▍         | 3235/78504 [1:57:51<49:07:52,  2.35s/it]                                                         {'loss': 0.0934, 'grad_norm': 0.3994084894657135, 'learning_rate': 1.235001910584639e-05, 'epoch': 0.99}
  4%|▍         | 3235/78504 [1:57:51<49:07:52,  2.35s/it]  4%|▍         | 3236/78504 [1:57:53<46:00:04,  2.20s/it]                                                         {'loss': 0.1235, 'grad_norm': 0.4349466860294342, 'learning_rate': 1.2353840275124188e-05, 'epoch': 0.99}
  4%|▍         | 3236/78504 [1:57:53<46:00:04,  2.20s/it]  4%|▍         | 3237/78504 [1:57:55<44:40:42,  2.14s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.4956713318824768, 'learning_rate': 1.2357661444401987e-05, 'epoch': 0.99}
  4%|▍         | 3237/78504 [1:57:55<44:40:42,  2.14s/it]  4%|▍         | 3238/78504 [1:57:57<43:18:56,  2.07s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.6862843632698059, 'learning_rate': 1.2361482613679786e-05, 'epoch': 0.99}
  4%|▍         | 3238/78504 [1:57:57<43:18:56,  2.07s/it]  4%|▍         | 3239/78504 [1:57:59<41:59:55,  2.01s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.6372434496879578, 'learning_rate': 1.2365303782957585e-05, 'epoch': 0.99}
  4%|▍         | 3239/78504 [1:57:59<41:59:55,  2.01s/it]  4%|▍         | 3240/78504 [1:58:01<40:48:07,  1.95s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.6078612208366394, 'learning_rate': 1.2369124952235383e-05, 'epoch': 0.99}
  4%|▍         | 3240/78504 [1:58:01<40:48:07,  1.95s/it]  4%|▍         | 3241/78504 [1:58:02<38:48:27,  1.86s/it]                                                         {'loss': 0.2043, 'grad_norm': 0.7266665697097778, 'learning_rate': 1.2372946121513182e-05, 'epoch': 0.99}
  4%|▍         | 3241/78504 [1:58:02<38:48:27,  1.86s/it]  4%|▍         | 3242/78504 [1:58:04<36:24:12,  1.74s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.7343495488166809, 'learning_rate': 1.2376767290790983e-05, 'epoch': 0.99}
  4%|▍         | 3242/78504 [1:58:04<36:24:12,  1.74s/it]  4%|▍         | 3243/78504 [1:58:05<34:56:18,  1.67s/it]                                                         {'loss': 0.2375, 'grad_norm': 0.8440867066383362, 'learning_rate': 1.2380588460068781e-05, 'epoch': 0.99}
  4%|▍         | 3243/78504 [1:58:05<34:56:18,  1.67s/it]  4%|▍         | 3244/78504 [1:58:07<33:17:05,  1.59s/it]                                                         {'loss': 0.2097, 'grad_norm': 1.1364221572875977, 'learning_rate': 1.238440962934658e-05, 'epoch': 0.99}
  4%|▍         | 3244/78504 [1:58:07<33:17:05,  1.59s/it]  4%|▍         | 3245/78504 [1:58:08<31:20:04,  1.50s/it]                                                         {'loss': 0.2598, 'grad_norm': 4.291292667388916, 'learning_rate': 1.2388230798624379e-05, 'epoch': 0.99}
  4%|▍         | 3245/78504 [1:58:08<31:20:04,  1.50s/it]  4%|▍         | 3246/78504 [1:58:09<29:25:10,  1.41s/it]                                                         {'loss': 0.2552, 'grad_norm': 0.9706876873970032, 'learning_rate': 1.2392051967902178e-05, 'epoch': 0.99}
  4%|▍         | 3246/78504 [1:58:09<29:25:10,  1.41s/it]  4%|▍         | 3247/78504 [1:58:10<27:17:51,  1.31s/it]                                                         {'loss': 0.3023, 'grad_norm': 1.3924599885940552, 'learning_rate': 1.2395873137179976e-05, 'epoch': 0.99}
  4%|▍         | 3247/78504 [1:58:10<27:17:51,  1.31s/it]  4%|▍         | 3248/78504 [1:58:11<25:38:06,  1.23s/it]                                                         {'loss': 0.3091, 'grad_norm': 1.1938780546188354, 'learning_rate': 1.2399694306457775e-05, 'epoch': 0.99}
  4%|▍         | 3248/78504 [1:58:11<25:38:06,  1.23s/it]  4%|▍         | 3249/78504 [1:58:12<23:43:10,  1.13s/it]                                                         {'loss': 0.3085, 'grad_norm': 1.1592086553573608, 'learning_rate': 1.2403515475735576e-05, 'epoch': 0.99}
  4%|▍         | 3249/78504 [1:58:12<23:43:10,  1.13s/it]  4%|▍         | 3250/78504 [1:58:13<21:33:54,  1.03s/it]                                                         {'loss': 0.3165, 'grad_norm': 2.1471781730651855, 'learning_rate': 1.2407336645013376e-05, 'epoch': 0.99}
  4%|▍         | 3250/78504 [1:58:13<21:33:54,  1.03s/it]  4%|▍         | 3251/78504 [1:58:23<78:58:14,  3.78s/it]                                                         {'loss': 0.2148, 'grad_norm': 0.5745124816894531, 'learning_rate': 1.2411157814291175e-05, 'epoch': 0.99}
  4%|▍         | 3251/78504 [1:58:23<78:58:14,  3.78s/it]  4%|▍         | 3252/78504 [1:58:26<75:41:34,  3.62s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.9873051047325134, 'learning_rate': 1.2414978983568973e-05, 'epoch': 0.99}
  4%|▍         | 3252/78504 [1:58:26<75:41:34,  3.62s/it]  4%|▍         | 3253/78504 [1:58:29<71:30:00,  3.42s/it]                                                         {'loss': 0.1312, 'grad_norm': 0.45054352283477783, 'learning_rate': 1.2418800152846772e-05, 'epoch': 0.99}
  4%|▍         | 3253/78504 [1:58:29<71:30:00,  3.42s/it]  4%|▍         | 3254/78504 [1:58:32<65:11:52,  3.12s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.3725685477256775, 'learning_rate': 1.2422621322124571e-05, 'epoch': 0.99}
  4%|▍         | 3254/78504 [1:58:32<65:11:52,  3.12s/it]  4%|▍         | 3255/78504 [1:58:34<60:58:32,  2.92s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.5229989886283875, 'learning_rate': 1.242644249140237e-05, 'epoch': 1.0}
  4%|▍         | 3255/78504 [1:58:34<60:58:32,  2.92s/it]  4%|▍         | 3256/78504 [1:58:37<57:14:09,  2.74s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.3629966080188751, 'learning_rate': 1.2430263660680168e-05, 'epoch': 1.0}
  4%|▍         | 3256/78504 [1:58:37<57:14:09,  2.74s/it]  4%|▍         | 3257/78504 [1:58:39<52:47:10,  2.53s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.38211309909820557, 'learning_rate': 1.2434084829957967e-05, 'epoch': 1.0}
  4%|▍         | 3257/78504 [1:58:39<52:47:10,  2.53s/it]  4%|▍         | 3258/78504 [1:58:41<50:24:03,  2.41s/it]                                                         {'loss': 0.0728, 'grad_norm': 0.37993139028549194, 'learning_rate': 1.2437905999235768e-05, 'epoch': 1.0}
  4%|▍         | 3258/78504 [1:58:41<50:24:03,  2.41s/it]  4%|▍         | 3259/78504 [1:58:43<46:54:32,  2.24s/it]                                                         {'loss': 0.1198, 'grad_norm': 0.4417772591114044, 'learning_rate': 1.2441727168513566e-05, 'epoch': 1.0}
  4%|▍         | 3259/78504 [1:58:43<46:54:32,  2.24s/it]  4%|▍         | 3260/78504 [1:58:45<45:15:57,  2.17s/it]                                                         {'loss': 0.1387, 'grad_norm': 0.5525287389755249, 'learning_rate': 1.2445548337791365e-05, 'epoch': 1.0}
  4%|▍         | 3260/78504 [1:58:45<45:15:57,  2.17s/it]  4%|▍         | 3261/78504 [1:58:46<43:31:38,  2.08s/it]                                                         {'loss': 0.1557, 'grad_norm': 0.5894179344177246, 'learning_rate': 1.2449369507069164e-05, 'epoch': 1.0}
  4%|▍         | 3261/78504 [1:58:46<43:31:38,  2.08s/it]  4%|▍         | 3262/78504 [1:58:48<41:48:49,  2.00s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.6071445941925049, 'learning_rate': 1.2453190676346963e-05, 'epoch': 1.0}
  4%|▍         | 3262/78504 [1:58:48<41:48:49,  2.00s/it]  4%|▍         | 3263/78504 [1:58:50<39:08:36,  1.87s/it]                                                         {'loss': 0.2247, 'grad_norm': 2.4323575496673584, 'learning_rate': 1.2457011845624761e-05, 'epoch': 1.0}
  4%|▍         | 3263/78504 [1:58:50<39:08:36,  1.87s/it]  4%|▍         | 3264/78504 [1:58:51<37:00:20,  1.77s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.631656289100647, 'learning_rate': 1.246083301490256e-05, 'epoch': 1.0}
  4%|▍         | 3264/78504 [1:58:51<37:00:20,  1.77s/it]  4%|▍         | 3265/78504 [1:58:53<34:48:41,  1.67s/it]                                                         {'loss': 0.2107, 'grad_norm': 0.9731677770614624, 'learning_rate': 1.2464654184180359e-05, 'epoch': 1.0}
  4%|▍         | 3265/78504 [1:58:53<34:48:41,  1.67s/it]  4%|▍         | 3266/78504 [1:58:54<31:58:18,  1.53s/it]                                                         {'loss': 0.2523, 'grad_norm': 0.8280726075172424, 'learning_rate': 1.246847535345816e-05, 'epoch': 1.0}
  4%|▍         | 3266/78504 [1:58:54<31:58:18,  1.53s/it]  4%|▍         | 3267/78504 [1:58:55<29:55:59,  1.43s/it]                                                         {'loss': 0.2543, 'grad_norm': 0.7681115865707397, 'learning_rate': 1.2472296522735958e-05, 'epoch': 1.0}
  4%|▍         | 3267/78504 [1:58:55<29:55:59,  1.43s/it]  4%|▍         | 3268/78504 [1:58:56<27:44:46,  1.33s/it]                                                         {'loss': 0.2472, 'grad_norm': 0.9153480529785156, 'learning_rate': 1.2476117692013757e-05, 'epoch': 1.0}
  4%|▍         | 3268/78504 [1:58:56<27:44:46,  1.33s/it]  4%|▍         | 3269/78504 [1:58:57<25:36:53,  1.23s/it]                                                         {'loss': 0.311, 'grad_norm': 1.7340799570083618, 'learning_rate': 1.2479938861291555e-05, 'epoch': 1.0}
  4%|▍         | 3269/78504 [1:58:57<25:36:53,  1.23s/it]  4%|▍         | 3270/78504 [1:58:58<23:20:18,  1.12s/it]                                                         {'loss': 0.3077, 'grad_norm': 1.4459046125411987, 'learning_rate': 1.2483760030569354e-05, 'epoch': 1.0}
  4%|▍         | 3270/78504 [1:58:58<23:20:18,  1.12s/it]  4%|▍         | 3271/78504 [1:59:10<92:27:54,  4.42s/it]                                                         {'loss': 0.3145, 'grad_norm': 1.5900042057037354, 'learning_rate': 1.2487581199847153e-05, 'epoch': 1.0}
  4%|▍         | 3271/78504 [1:59:10<92:27:54,  4.42s/it]  4%|▍         | 3272/78504 [1:59:39<247:03:10, 11.82s/it]                                                          {'loss': 0.1917, 'grad_norm': 0.523026168346405, 'learning_rate': 1.2491402369124952e-05, 'epoch': 1.0}
  4%|▍         | 3272/78504 [1:59:39<247:03:10, 11.82s/it]  4%|▍         | 3273/78504 [1:59:42<191:08:47,  9.15s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.30485799908638, 'learning_rate': 1.2495223538402752e-05, 'epoch': 1.0}
  4%|▍         | 3273/78504 [1:59:42<191:08:47,  9.15s/it]  4%|▍         | 3274/78504 [1:59:45<149:57:08,  7.18s/it]                                                          {'loss': 0.1044, 'grad_norm': 0.4151607155799866, 'learning_rate': 1.2499044707680551e-05, 'epoch': 1.0}
  4%|▍         | 3274/78504 [1:59:45<149:57:08,  7.18s/it]  4%|▍         | 3275/78504 [1:59:47<121:21:06,  5.81s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.35217931866645813, 'learning_rate': 1.250286587695835e-05, 'epoch': 1.0}
  4%|▍         | 3275/78504 [1:59:47<121:21:06,  5.81s/it]  4%|▍         | 3276/78504 [1:59:50<99:42:13,  4.77s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.455073744058609, 'learning_rate': 1.2506687046236148e-05, 'epoch': 1.0}
  4%|▍         | 3276/78504 [1:59:50<99:42:13,  4.77s/it]  4%|▍         | 3277/78504 [1:59:52<83:59:41,  4.02s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.347404420375824, 'learning_rate': 1.2510508215513947e-05, 'epoch': 1.0}
  4%|▍         | 3277/78504 [1:59:52<83:59:41,  4.02s/it]  4%|▍         | 3278/78504 [1:59:54<73:19:18,  3.51s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.3282896876335144, 'learning_rate': 1.2514329384791746e-05, 'epoch': 1.0}
  4%|▍         | 3278/78504 [1:59:54<73:19:18,  3.51s/it]  4%|▍         | 3279/78504 [1:59:56<64:27:53,  3.09s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.4035723805427551, 'learning_rate': 1.2518150554069545e-05, 'epoch': 1.0}
  4%|▍         | 3279/78504 [1:59:56<64:27:53,  3.09s/it]  4%|▍         | 3280/78504 [1:59:59<58:49:23,  2.82s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.44202688336372375, 'learning_rate': 1.2521971723347343e-05, 'epoch': 1.0}
  4%|▍         | 3280/78504 [1:59:59<58:49:23,  2.82s/it]  4%|▍         | 3281/78504 [2:00:01<54:33:55,  2.61s/it]                                                         {'loss': 0.0872, 'grad_norm': 0.4710269868373871, 'learning_rate': 1.2525792892625144e-05, 'epoch': 1.0}
  4%|▍         | 3281/78504 [2:00:01<54:33:55,  2.61s/it]  4%|▍         | 3282/78504 [2:00:03<50:52:37,  2.43s/it]                                                         {'loss': 0.1912, 'grad_norm': 0.739876389503479, 'learning_rate': 1.2529614061902943e-05, 'epoch': 1.0}
  4%|▍         | 3282/78504 [2:00:03<50:52:37,  2.43s/it]  4%|▍         | 3283/78504 [2:00:05<48:01:07,  2.30s/it]                                                         {'loss': 0.094, 'grad_norm': 0.5529804825782776, 'learning_rate': 1.2533435231180741e-05, 'epoch': 1.0}
  4%|▍         | 3283/78504 [2:00:05<48:01:07,  2.30s/it]  4%|▍         | 3284/78504 [2:00:07<45:27:17,  2.18s/it]                                                         {'loss': 0.1261, 'grad_norm': 0.46453428268432617, 'learning_rate': 1.253725640045854e-05, 'epoch': 1.0}
  4%|▍         | 3284/78504 [2:00:07<45:27:17,  2.18s/it]  4%|▍         | 3285/78504 [2:00:09<43:33:10,  2.08s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.6516205072402954, 'learning_rate': 1.2541077569736339e-05, 'epoch': 1.0}
  4%|▍         | 3285/78504 [2:00:09<43:33:10,  2.08s/it]  4%|▍         | 3286/78504 [2:00:10<41:34:28,  1.99s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.6506209373474121, 'learning_rate': 1.2544898739014138e-05, 'epoch': 1.0}
  4%|▍         | 3286/78504 [2:00:10<41:34:28,  1.99s/it]  4%|▍         | 3287/78504 [2:00:12<39:24:35,  1.89s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.6350597143173218, 'learning_rate': 1.2548719908291936e-05, 'epoch': 1.0}
  4%|▍         | 3287/78504 [2:00:12<39:24:35,  1.89s/it]  4%|▍         | 3288/78504 [2:00:14<37:15:54,  1.78s/it]                                                         {'loss': 0.1576, 'grad_norm': 0.7633315920829773, 'learning_rate': 1.2552541077569737e-05, 'epoch': 1.01}
  4%|▍         | 3288/78504 [2:00:14<37:15:54,  1.78s/it]  4%|▍         | 3289/78504 [2:00:15<35:16:24,  1.69s/it]                                                         {'loss': 0.2247, 'grad_norm': 1.5689492225646973, 'learning_rate': 1.2556362246847537e-05, 'epoch': 1.01}
  4%|▍         | 3289/78504 [2:00:15<35:16:24,  1.69s/it]  4%|▍         | 3290/78504 [2:00:16<33:33:27,  1.61s/it]                                                         {'loss': 0.2751, 'grad_norm': 0.9994948506355286, 'learning_rate': 1.2560183416125336e-05, 'epoch': 1.01}
  4%|▍         | 3290/78504 [2:00:16<33:33:27,  1.61s/it]  4%|▍         | 3291/78504 [2:00:18<31:31:49,  1.51s/it]                                                         {'loss': 0.2452, 'grad_norm': 1.3745059967041016, 'learning_rate': 1.2564004585403135e-05, 'epoch': 1.01}
  4%|▍         | 3291/78504 [2:00:18<31:31:49,  1.51s/it]  4%|▍         | 3292/78504 [2:00:19<29:17:59,  1.40s/it]                                                         {'loss': 0.254, 'grad_norm': 4.559655666351318, 'learning_rate': 1.2567825754680933e-05, 'epoch': 1.01}
  4%|▍         | 3292/78504 [2:00:19<29:17:59,  1.40s/it]  4%|▍         | 3293/78504 [2:00:20<27:27:19,  1.31s/it]                                                         {'loss': 0.238, 'grad_norm': 1.9751355648040771, 'learning_rate': 1.2571646923958732e-05, 'epoch': 1.01}
  4%|▍         | 3293/78504 [2:00:20<27:27:19,  1.31s/it]  4%|▍         | 3294/78504 [2:00:21<25:24:55,  1.22s/it]                                                         {'loss': 0.2949, 'grad_norm': 1.304632544517517, 'learning_rate': 1.2575468093236531e-05, 'epoch': 1.01}
  4%|▍         | 3294/78504 [2:00:21<25:24:55,  1.22s/it]  4%|▍         | 3295/78504 [2:00:22<23:36:03,  1.13s/it]                                                         {'loss': 0.3154, 'grad_norm': 1.8364901542663574, 'learning_rate': 1.257928926251433e-05, 'epoch': 1.01}
  4%|▍         | 3295/78504 [2:00:22<23:36:03,  1.13s/it]  4%|▍         | 3296/78504 [2:00:23<21:25:45,  1.03s/it]                                                         {'loss': 0.3772, 'grad_norm': 2.023998975753784, 'learning_rate': 1.2583110431792128e-05, 'epoch': 1.01}
  4%|▍         | 3296/78504 [2:00:23<21:25:45,  1.03s/it]  4%|▍         | 3297/78504 [2:00:31<68:23:07,  3.27s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.6140416264533997, 'learning_rate': 1.2586931601069929e-05, 'epoch': 1.01}
  4%|▍         | 3297/78504 [2:00:31<68:23:07,  3.27s/it]  4%|▍         | 3298/78504 [2:00:34<66:59:26,  3.21s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.39847320318222046, 'learning_rate': 1.2590752770347728e-05, 'epoch': 1.01}
  4%|▍         | 3298/78504 [2:00:34<66:59:26,  3.21s/it]  4%|▍         | 3299/78504 [2:00:37<65:35:58,  3.14s/it]                                                         {'loss': 0.096, 'grad_norm': 0.4859084486961365, 'learning_rate': 1.2594573939625526e-05, 'epoch': 1.01}
  4%|▍         | 3299/78504 [2:00:37<65:35:58,  3.14s/it]  4%|▍         | 3300/78504 [2:00:40<62:09:27,  2.98s/it]                                                         {'loss': 0.1258, 'grad_norm': 0.5891222357749939, 'learning_rate': 1.2598395108903325e-05, 'epoch': 1.01}
  4%|▍         | 3300/78504 [2:00:40<62:09:27,  2.98s/it]  4%|▍         | 3301/78504 [2:00:42<58:58:40,  2.82s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.35238388180732727, 'learning_rate': 1.2602216278181124e-05, 'epoch': 1.01}
  4%|▍         | 3301/78504 [2:00:42<58:58:40,  2.82s/it]  4%|▍         | 3302/78504 [2:00:45<55:27:58,  2.66s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.4741254150867462, 'learning_rate': 1.2606037447458923e-05, 'epoch': 1.01}
  4%|▍         | 3302/78504 [2:00:45<55:27:58,  2.66s/it]  4%|▍         | 3303/78504 [2:00:47<53:22:18,  2.55s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.42375150322914124, 'learning_rate': 1.2609858616736721e-05, 'epoch': 1.01}
  4%|▍         | 3303/78504 [2:00:47<53:22:18,  2.55s/it]  4%|▍         | 3304/78504 [2:00:49<50:27:47,  2.42s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.5618375539779663, 'learning_rate': 1.2613679786014522e-05, 'epoch': 1.01}
  4%|▍         | 3304/78504 [2:00:49<50:27:47,  2.42s/it]  4%|▍         | 3305/78504 [2:00:51<47:59:29,  2.30s/it]                                                         {'loss': 0.1123, 'grad_norm': 0.4147689640522003, 'learning_rate': 1.261750095529232e-05, 'epoch': 1.01}
  4%|▍         | 3305/78504 [2:00:51<47:59:29,  2.30s/it]  4%|▍         | 3306/78504 [2:00:53<46:59:31,  2.25s/it]                                                         {'loss': 0.0751, 'grad_norm': 1.0706758499145508, 'learning_rate': 1.262132212457012e-05, 'epoch': 1.01}
  4%|▍         | 3306/78504 [2:00:53<46:59:31,  2.25s/it]  4%|▍         | 3307/78504 [2:00:55<45:33:20,  2.18s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.4225582182407379, 'learning_rate': 1.2625143293847918e-05, 'epoch': 1.01}
  4%|▍         | 3307/78504 [2:00:55<45:33:20,  2.18s/it]  4%|▍         | 3308/78504 [2:00:57<43:10:47,  2.07s/it]                                                         {'loss': 0.1034, 'grad_norm': 0.4806020259857178, 'learning_rate': 1.2628964463125717e-05, 'epoch': 1.01}
  4%|▍         | 3308/78504 [2:00:57<43:10:47,  2.07s/it]  4%|▍         | 3309/78504 [2:00:59<41:54:48,  2.01s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.5840721130371094, 'learning_rate': 1.2632785632403515e-05, 'epoch': 1.01}
  4%|▍         | 3309/78504 [2:00:59<41:54:48,  2.01s/it]  4%|▍         | 3310/78504 [2:01:01<40:50:41,  1.96s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.6282683610916138, 'learning_rate': 1.2636606801681314e-05, 'epoch': 1.01}
  4%|▍         | 3310/78504 [2:01:01<40:50:41,  1.96s/it]  4%|▍         | 3311/78504 [2:01:02<39:26:29,  1.89s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.6195732355117798, 'learning_rate': 1.2640427970959113e-05, 'epoch': 1.01}
  4%|▍         | 3311/78504 [2:01:02<39:26:29,  1.89s/it]  4%|▍         | 3312/78504 [2:01:04<37:58:33,  1.82s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.603095531463623, 'learning_rate': 1.2644249140236913e-05, 'epoch': 1.01}
  4%|▍         | 3312/78504 [2:01:04<37:58:33,  1.82s/it]  4%|▍         | 3313/78504 [2:01:06<36:13:51,  1.73s/it]                                                         {'loss': 0.2142, 'grad_norm': 1.0286253690719604, 'learning_rate': 1.2648070309514712e-05, 'epoch': 1.01}
  4%|▍         | 3313/78504 [2:01:06<36:13:51,  1.73s/it]  4%|▍         | 3314/78504 [2:01:07<34:31:47,  1.65s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.6956785917282104, 'learning_rate': 1.2651891478792511e-05, 'epoch': 1.01}
  4%|▍         | 3314/78504 [2:01:07<34:31:47,  1.65s/it]  4%|▍         | 3315/78504 [2:01:08<33:04:01,  1.58s/it]                                                         {'loss': 0.2589, 'grad_norm': 1.3510342836380005, 'learning_rate': 1.265571264807031e-05, 'epoch': 1.01}
  4%|▍         | 3315/78504 [2:01:08<33:04:01,  1.58s/it]  4%|▍         | 3316/78504 [2:01:10<31:14:17,  1.50s/it]                                                         {'loss': 0.2197, 'grad_norm': 0.751301109790802, 'learning_rate': 1.2659533817348108e-05, 'epoch': 1.01}
  4%|▍         | 3316/78504 [2:01:10<31:14:17,  1.50s/it]  4%|▍         | 3317/78504 [2:01:11<29:04:07,  1.39s/it]                                                         {'loss': 0.2534, 'grad_norm': 1.0760986804962158, 'learning_rate': 1.2663354986625907e-05, 'epoch': 1.01}
  4%|▍         | 3317/78504 [2:01:11<29:04:07,  1.39s/it]  4%|▍         | 3318/78504 [2:01:12<27:11:38,  1.30s/it]                                                         {'loss': 0.2858, 'grad_norm': 1.7020199298858643, 'learning_rate': 1.2667176155903706e-05, 'epoch': 1.01}
  4%|▍         | 3318/78504 [2:01:12<27:11:38,  1.30s/it]  4%|▍         | 3319/78504 [2:01:13<25:17:13,  1.21s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.1337448358535767, 'learning_rate': 1.2670997325181505e-05, 'epoch': 1.01}
  4%|▍         | 3319/78504 [2:01:13<25:17:13,  1.21s/it]  4%|▍         | 3320/78504 [2:01:14<23:34:59,  1.13s/it]                                                         {'loss': 0.2776, 'grad_norm': 1.952995777130127, 'learning_rate': 1.2674818494459305e-05, 'epoch': 1.01}
  4%|▍         | 3320/78504 [2:01:14<23:34:59,  1.13s/it]  4%|▍         | 3321/78504 [2:01:15<21:27:10,  1.03s/it]                                                         {'loss': 0.3638, 'grad_norm': 4.871084690093994, 'learning_rate': 1.2678639663737104e-05, 'epoch': 1.02}
  4%|▍         | 3321/78504 [2:01:15<21:27:10,  1.03s/it]  4%|▍         | 3322/78504 [2:01:24<75:25:42,  3.61s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.42215588688850403, 'learning_rate': 1.2682460833014903e-05, 'epoch': 1.02}
  4%|▍         | 3322/78504 [2:01:24<75:25:42,  3.61s/it]  4%|▍         | 3323/78504 [2:01:27<71:00:34,  3.40s/it]                                                         {'loss': 0.1144, 'grad_norm': 0.40707629919052124, 'learning_rate': 1.2686282002292701e-05, 'epoch': 1.02}
  4%|▍         | 3323/78504 [2:01:27<71:00:34,  3.40s/it]  4%|▍         | 3324/78504 [2:01:30<68:35:18,  3.28s/it]                                                         {'loss': 0.1122, 'grad_norm': 0.3634437620639801, 'learning_rate': 1.26901031715705e-05, 'epoch': 1.02}
  4%|▍         | 3324/78504 [2:01:30<68:35:18,  3.28s/it]  4%|▍         | 3325/78504 [2:01:33<64:25:48,  3.09s/it]                                                         {'loss': 0.0928, 'grad_norm': 0.3637818992137909, 'learning_rate': 1.2693924340848299e-05, 'epoch': 1.02}
  4%|▍         | 3325/78504 [2:01:33<64:25:48,  3.09s/it]  4%|▍         | 3326/78504 [2:01:35<60:36:13,  2.90s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.453069806098938, 'learning_rate': 1.2697745510126097e-05, 'epoch': 1.02}
  4%|▍         | 3326/78504 [2:01:35<60:36:13,  2.90s/it]  4%|▍         | 3327/78504 [2:01:38<57:41:09,  2.76s/it]                                                         {'loss': 0.105, 'grad_norm': 0.39156538248062134, 'learning_rate': 1.2701566679403898e-05, 'epoch': 1.02}
  4%|▍         | 3327/78504 [2:01:38<57:41:09,  2.76s/it]  4%|▍         | 3328/78504 [2:01:40<54:53:48,  2.63s/it]                                                         {'loss': 0.0718, 'grad_norm': 0.8344194293022156, 'learning_rate': 1.2705387848681698e-05, 'epoch': 1.02}
  4%|▍         | 3328/78504 [2:01:40<54:53:48,  2.63s/it]  4%|▍         | 3329/78504 [2:01:42<52:55:02,  2.53s/it]                                                         {'loss': 0.0963, 'grad_norm': 0.45534253120422363, 'learning_rate': 1.2709209017959497e-05, 'epoch': 1.02}
  4%|▍         | 3329/78504 [2:01:42<52:55:02,  2.53s/it]  4%|▍         | 3330/78504 [2:01:45<50:44:13,  2.43s/it]                                                         {'loss': 0.0984, 'grad_norm': 0.3537411391735077, 'learning_rate': 1.2713030187237296e-05, 'epoch': 1.02}
  4%|▍         | 3330/78504 [2:01:45<50:44:13,  2.43s/it]  4%|▍         | 3331/78504 [2:01:47<48:57:19,  2.34s/it]                                                         {'loss': 0.0794, 'grad_norm': 0.39765554666519165, 'learning_rate': 1.2716851356515095e-05, 'epoch': 1.02}
  4%|▍         | 3331/78504 [2:01:47<48:57:19,  2.34s/it]  4%|▍         | 3332/78504 [2:01:49<45:55:07,  2.20s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.7642285823822021, 'learning_rate': 1.2720672525792893e-05, 'epoch': 1.02}
  4%|▍         | 3332/78504 [2:01:49<45:55:07,  2.20s/it]  4%|▍         | 3333/78504 [2:01:51<44:33:11,  2.13s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.41101911664009094, 'learning_rate': 1.2724493695070692e-05, 'epoch': 1.02}
  4%|▍         | 3333/78504 [2:01:51<44:33:11,  2.13s/it]  4%|▍         | 3334/78504 [2:01:52<43:15:27,  2.07s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.6650947332382202, 'learning_rate': 1.272831486434849e-05, 'epoch': 1.02}
  4%|▍         | 3334/78504 [2:01:53<43:15:27,  2.07s/it]  4%|▍         | 3335/78504 [2:01:54<41:58:17,  2.01s/it]                                                         {'loss': 0.1391, 'grad_norm': 0.806943953037262, 'learning_rate': 1.273213603362629e-05, 'epoch': 1.02}
  4%|▍         | 3335/78504 [2:01:54<41:58:17,  2.01s/it]  4%|▍         | 3336/78504 [2:01:56<40:25:56,  1.94s/it]                                                         {'loss': 0.1446, 'grad_norm': 0.8302177786827087, 'learning_rate': 1.273595720290409e-05, 'epoch': 1.02}
  4%|▍         | 3336/78504 [2:01:56<40:25:56,  1.94s/it]  4%|▍         | 3337/78504 [2:01:58<38:39:04,  1.85s/it]                                                         {'loss': 0.2454, 'grad_norm': 0.8942354917526245, 'learning_rate': 1.2739778372181889e-05, 'epoch': 1.02}
  4%|▍         | 3337/78504 [2:01:58<38:39:04,  1.85s/it]  4%|▍         | 3338/78504 [2:01:59<36:44:01,  1.76s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.7274819016456604, 'learning_rate': 1.2743599541459688e-05, 'epoch': 1.02}
  4%|▍         | 3338/78504 [2:01:59<36:44:01,  1.76s/it]  4%|▍         | 3339/78504 [2:02:01<34:53:00,  1.67s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.9398229122161865, 'learning_rate': 1.2747420710737486e-05, 'epoch': 1.02}
  4%|▍         | 3339/78504 [2:02:01<34:53:00,  1.67s/it]  4%|▍         | 3340/78504 [2:02:02<33:10:37,  1.59s/it]                                                         {'loss': 0.2567, 'grad_norm': 2.4876389503479004, 'learning_rate': 1.2751241880015285e-05, 'epoch': 1.02}
  4%|▍         | 3340/78504 [2:02:02<33:10:37,  1.59s/it]  4%|▍         | 3341/78504 [2:02:03<31:16:06,  1.50s/it]                                                         {'loss': 0.2446, 'grad_norm': 0.8884159922599792, 'learning_rate': 1.2755063049293084e-05, 'epoch': 1.02}
  4%|▍         | 3341/78504 [2:02:03<31:16:06,  1.50s/it]  4%|▍         | 3342/78504 [2:02:05<29:06:41,  1.39s/it]                                                         {'loss': 0.2468, 'grad_norm': 0.8840627074241638, 'learning_rate': 1.2758884218570882e-05, 'epoch': 1.02}
  4%|▍         | 3342/78504 [2:02:05<29:06:41,  1.39s/it]  4%|▍         | 3343/78504 [2:02:06<27:11:17,  1.30s/it]                                                         {'loss': 0.2568, 'grad_norm': 0.9895331263542175, 'learning_rate': 1.2762705387848683e-05, 'epoch': 1.02}
  4%|▍         | 3343/78504 [2:02:06<27:11:17,  1.30s/it]  4%|▍         | 3344/78504 [2:02:07<25:33:36,  1.22s/it]                                                         {'loss': 0.2497, 'grad_norm': 1.737269401550293, 'learning_rate': 1.2766526557126482e-05, 'epoch': 1.02}
  4%|▍         | 3344/78504 [2:02:07<25:33:36,  1.22s/it]  4%|▍         | 3345/78504 [2:02:08<23:45:04,  1.14s/it]                                                         {'loss': 0.2626, 'grad_norm': 1.861284613609314, 'learning_rate': 1.277034772640428e-05, 'epoch': 1.02}
  4%|▍         | 3345/78504 [2:02:08<23:45:04,  1.14s/it]  4%|▍         | 3346/78504 [2:02:08<21:35:06,  1.03s/it]                                                         {'loss': 0.3721, 'grad_norm': 2.4455862045288086, 'learning_rate': 1.277416889568208e-05, 'epoch': 1.02}
  4%|▍         | 3346/78504 [2:02:08<21:35:06,  1.03s/it]  4%|▍         | 3347/78504 [2:02:16<63:47:56,  3.06s/it]                                                         {'loss': 0.1912, 'grad_norm': 0.5176630020141602, 'learning_rate': 1.2777990064959878e-05, 'epoch': 1.02}
  4%|▍         | 3347/78504 [2:02:16<63:47:56,  3.06s/it]  4%|▍         | 3348/78504 [2:02:20<65:39:33,  3.15s/it]                                                         {'loss': 0.1296, 'grad_norm': 0.4056771993637085, 'learning_rate': 1.2781811234237677e-05, 'epoch': 1.02}
  4%|▍         | 3348/78504 [2:02:20<65:39:33,  3.15s/it]  4%|▍         | 3349/78504 [2:02:22<62:04:05,  2.97s/it]                                                         {'loss': 0.1113, 'grad_norm': 0.5795426368713379, 'learning_rate': 1.2785632403515475e-05, 'epoch': 1.02}
  4%|▍         | 3349/78504 [2:02:22<62:04:05,  2.97s/it]  4%|▍         | 3350/78504 [2:02:25<59:34:40,  2.85s/it]                                                         {'loss': 0.0848, 'grad_norm': 0.3605540990829468, 'learning_rate': 1.2789453572793274e-05, 'epoch': 1.02}
  4%|▍         | 3350/78504 [2:02:25<59:34:40,  2.85s/it]  4%|▍         | 3351/78504 [2:02:27<57:14:10,  2.74s/it]                                                         {'loss': 0.088, 'grad_norm': 0.4645642340183258, 'learning_rate': 1.2793274742071075e-05, 'epoch': 1.02}
  4%|▍         | 3351/78504 [2:02:27<57:14:10,  2.74s/it]  4%|▍         | 3352/78504 [2:02:30<55:16:10,  2.65s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.361945241689682, 'learning_rate': 1.2797095911348873e-05, 'epoch': 1.02}
  4%|▍         | 3352/78504 [2:02:30<55:16:10,  2.65s/it]  4%|▍         | 3353/78504 [2:02:32<53:14:46,  2.55s/it]                                                         {'loss': 0.084, 'grad_norm': 0.3510211706161499, 'learning_rate': 1.2800917080626672e-05, 'epoch': 1.03}
  4%|▍         | 3353/78504 [2:02:32<53:14:46,  2.55s/it]  4%|▍         | 3354/78504 [2:02:34<50:29:57,  2.42s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.43100854754447937, 'learning_rate': 1.280473824990447e-05, 'epoch': 1.03}
  4%|▍         | 3354/78504 [2:02:34<50:29:57,  2.42s/it]  4%|▍         | 3355/78504 [2:02:36<49:08:10,  2.35s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.34930944442749023, 'learning_rate': 1.280855941918227e-05, 'epoch': 1.03}
  4%|▍         | 3355/78504 [2:02:36<49:08:10,  2.35s/it]  4%|▍         | 3356/78504 [2:02:38<47:59:17,  2.30s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.37202125787734985, 'learning_rate': 1.2812380588460068e-05, 'epoch': 1.03}
  4%|▍         | 3356/78504 [2:02:38<47:59:17,  2.30s/it]  4%|▍         | 3357/78504 [2:02:40<45:11:48,  2.17s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.4783880412578583, 'learning_rate': 1.2816201757737867e-05, 'epoch': 1.03}
  4%|▍         | 3357/78504 [2:02:40<45:11:48,  2.17s/it]  4%|▍         | 3358/78504 [2:02:42<44:06:38,  2.11s/it]                                                         {'loss': 0.1173, 'grad_norm': 0.8890364170074463, 'learning_rate': 1.2820022927015666e-05, 'epoch': 1.03}
  4%|▍         | 3358/78504 [2:02:42<44:06:38,  2.11s/it]  4%|▍         | 3359/78504 [2:02:44<42:55:46,  2.06s/it]                                                         {'loss': 0.1497, 'grad_norm': 0.5560166239738464, 'learning_rate': 1.2823844096293466e-05, 'epoch': 1.03}
  4%|▍         | 3359/78504 [2:02:44<42:55:46,  2.06s/it]  4%|▍         | 3360/78504 [2:02:46<41:50:56,  2.00s/it]                                                         {'loss': 0.131, 'grad_norm': 0.5804054737091064, 'learning_rate': 1.2827665265571265e-05, 'epoch': 1.03}
  4%|▍         | 3360/78504 [2:02:46<41:50:56,  2.00s/it]  4%|▍         | 3361/78504 [2:02:48<40:24:27,  1.94s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.6091653108596802, 'learning_rate': 1.2831486434849064e-05, 'epoch': 1.03}
  4%|▍         | 3361/78504 [2:02:48<40:24:27,  1.94s/it]  4%|▍         | 3362/78504 [2:02:49<38:12:50,  1.83s/it]                                                         {'loss': 0.229, 'grad_norm': 0.6687932014465332, 'learning_rate': 1.2835307604126862e-05, 'epoch': 1.03}
  4%|▍         | 3362/78504 [2:02:50<38:12:50,  1.83s/it]  4%|▍         | 3363/78504 [2:02:51<36:22:13,  1.74s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.7198684811592102, 'learning_rate': 1.2839128773404661e-05, 'epoch': 1.03}
  4%|▍         | 3363/78504 [2:02:51<36:22:13,  1.74s/it]  4%|▍         | 3364/78504 [2:02:53<35:01:43,  1.68s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.7959886789321899, 'learning_rate': 1.284294994268246e-05, 'epoch': 1.03}
  4%|▍         | 3364/78504 [2:02:53<35:01:43,  1.68s/it]  4%|▍         | 3365/78504 [2:02:54<33:17:34,  1.60s/it]                                                         {'loss': 0.258, 'grad_norm': 1.506231665611267, 'learning_rate': 1.284677111196026e-05, 'epoch': 1.03}
  4%|▍         | 3365/78504 [2:02:54<33:17:34,  1.60s/it]  4%|▍         | 3366/78504 [2:02:55<31:22:19,  1.50s/it]                                                         {'loss': 0.2524, 'grad_norm': 1.1810123920440674, 'learning_rate': 1.2850592281238059e-05, 'epoch': 1.03}
  4%|▍         | 3366/78504 [2:02:55<31:22:19,  1.50s/it]  4%|▍         | 3367/78504 [2:02:56<29:08:36,  1.40s/it]                                                         {'loss': 0.2199, 'grad_norm': 0.967574417591095, 'learning_rate': 1.285441345051586e-05, 'epoch': 1.03}
  4%|▍         | 3367/78504 [2:02:56<29:08:36,  1.40s/it]  4%|▍         | 3368/78504 [2:02:57<27:13:52,  1.30s/it]                                                         {'loss': 0.247, 'grad_norm': 0.9379544258117676, 'learning_rate': 1.2858234619793658e-05, 'epoch': 1.03}
  4%|▍         | 3368/78504 [2:02:57<27:13:52,  1.30s/it]  4%|▍         | 3369/78504 [2:02:59<25:41:16,  1.23s/it]                                                         {'loss': 0.2319, 'grad_norm': 1.4047356843948364, 'learning_rate': 1.2862055789071457e-05, 'epoch': 1.03}
  4%|▍         | 3369/78504 [2:02:59<25:41:16,  1.23s/it]  4%|▍         | 3370/78504 [2:02:59<23:50:16,  1.14s/it]                                                         {'loss': 0.249, 'grad_norm': 1.7224922180175781, 'learning_rate': 1.2865876958349256e-05, 'epoch': 1.03}
  4%|▍         | 3370/78504 [2:02:59<23:50:16,  1.14s/it]  4%|▍         | 3371/78504 [2:03:00<21:34:41,  1.03s/it]                                                         {'loss': 0.3621, 'grad_norm': 2.8266820907592773, 'learning_rate': 1.2869698127627055e-05, 'epoch': 1.03}
  4%|▍         | 3371/78504 [2:03:00<21:34:41,  1.03s/it]  4%|▍         | 3372/78504 [2:03:08<61:13:25,  2.93s/it]                                                         {'loss': 0.183, 'grad_norm': 0.5122179985046387, 'learning_rate': 1.2873519296904853e-05, 'epoch': 1.03}
  4%|▍         | 3372/78504 [2:03:08<61:13:25,  2.93s/it]  4%|▍         | 3373/78504 [2:03:11<62:19:16,  2.99s/it]                                                         {'loss': 0.1258, 'grad_norm': 0.44144532084465027, 'learning_rate': 1.2877340466182652e-05, 'epoch': 1.03}
  4%|▍         | 3373/78504 [2:03:11<62:19:16,  2.99s/it]  4%|▍         | 3374/78504 [2:03:14<61:56:04,  2.97s/it]                                                         {'loss': 0.0954, 'grad_norm': 0.4110734462738037, 'learning_rate': 1.2881161635460452e-05, 'epoch': 1.03}
  4%|▍         | 3374/78504 [2:03:14<61:56:04,  2.97s/it]  4%|▍         | 3375/78504 [2:03:16<59:32:56,  2.85s/it]                                                         {'loss': 0.0663, 'grad_norm': 1.185043454170227, 'learning_rate': 1.2884982804738251e-05, 'epoch': 1.03}
  4%|▍         | 3375/78504 [2:03:16<59:32:56,  2.85s/it]  4%|▍         | 3376/78504 [2:03:19<57:09:48,  2.74s/it]                                                         {'loss': 0.0918, 'grad_norm': 0.382121741771698, 'learning_rate': 1.288880397401605e-05, 'epoch': 1.03}
  4%|▍         | 3376/78504 [2:03:19<57:09:48,  2.74s/it]  4%|▍         | 3377/78504 [2:03:21<55:15:10,  2.65s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.6995230913162231, 'learning_rate': 1.2892625143293849e-05, 'epoch': 1.03}
  4%|▍         | 3377/78504 [2:03:21<55:15:10,  2.65s/it]  4%|▍         | 3378/78504 [2:03:23<53:13:11,  2.55s/it]                                                         {'loss': 0.078, 'grad_norm': 0.38066789507865906, 'learning_rate': 1.2896446312571647e-05, 'epoch': 1.03}
  4%|▍         | 3378/78504 [2:03:23<53:13:11,  2.55s/it]  4%|▍         | 3379/78504 [2:03:26<51:42:45,  2.48s/it]                                                         {'loss': 0.1099, 'grad_norm': 0.43179142475128174, 'learning_rate': 1.2900267481849446e-05, 'epoch': 1.03}
  4%|▍         | 3379/78504 [2:03:26<51:42:45,  2.48s/it]  4%|▍         | 3380/78504 [2:03:28<49:57:26,  2.39s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.4755992889404297, 'learning_rate': 1.2904088651127245e-05, 'epoch': 1.03}
  4%|▍         | 3380/78504 [2:03:28<49:57:26,  2.39s/it]  4%|▍         | 3381/78504 [2:03:30<48:30:34,  2.32s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.7263742685317993, 'learning_rate': 1.2907909820405044e-05, 'epoch': 1.03}
  4%|▍         | 3381/78504 [2:03:30<48:30:34,  2.32s/it]  4%|▍         | 3382/78504 [2:03:32<45:36:30,  2.19s/it]                                                         {'loss': 0.1284, 'grad_norm': 0.45189982652664185, 'learning_rate': 1.2911730989682844e-05, 'epoch': 1.03}
  4%|▍         | 3382/78504 [2:03:32<45:36:30,  2.19s/it]  4%|▍         | 3383/78504 [2:03:34<44:19:07,  2.12s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.36667564511299133, 'learning_rate': 1.2915552158960643e-05, 'epoch': 1.03}
  4%|▍         | 3383/78504 [2:03:34<44:19:07,  2.12s/it]  4%|▍         | 3384/78504 [2:03:36<43:02:17,  2.06s/it]                                                         {'loss': 0.1506, 'grad_norm': 0.6376466155052185, 'learning_rate': 1.2919373328238442e-05, 'epoch': 1.03}
  4%|▍         | 3384/78504 [2:03:36<43:02:17,  2.06s/it]  4%|▍         | 3385/78504 [2:03:38<41:53:47,  2.01s/it]                                                         {'loss': 0.146, 'grad_norm': 0.47949907183647156, 'learning_rate': 1.292319449751624e-05, 'epoch': 1.03}
  4%|▍         | 3385/78504 [2:03:38<41:53:47,  2.01s/it]  4%|▍         | 3386/78504 [2:03:40<40:23:21,  1.94s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.507897675037384, 'learning_rate': 1.2927015666794039e-05, 'epoch': 1.04}
  4%|▍         | 3386/78504 [2:03:40<40:23:21,  1.94s/it]  4%|▍         | 3387/78504 [2:03:41<39:54:37,  1.91s/it]                                                         {'loss': 0.1815, 'grad_norm': 0.6209713816642761, 'learning_rate': 1.2930836836071838e-05, 'epoch': 1.04}
  4%|▍         | 3387/78504 [2:03:41<39:54:37,  1.91s/it]  4%|▍         | 3388/78504 [2:03:43<37:35:36,  1.80s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6755014061927795, 'learning_rate': 1.2934658005349637e-05, 'epoch': 1.04}
  4%|▍         | 3388/78504 [2:03:43<37:35:36,  1.80s/it]  4%|▍         | 3389/78504 [2:03:44<35:47:03,  1.72s/it]                                                         {'loss': 0.2271, 'grad_norm': 0.8212870955467224, 'learning_rate': 1.2938479174627435e-05, 'epoch': 1.04}
  4%|▍         | 3389/78504 [2:03:44<35:47:03,  1.72s/it]  4%|▍         | 3390/78504 [2:03:46<33:44:45,  1.62s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.0722990036010742, 'learning_rate': 1.2942300343905236e-05, 'epoch': 1.04}
  4%|▍         | 3390/78504 [2:03:46<33:44:45,  1.62s/it]  4%|▍         | 3391/78504 [2:03:47<31:38:34,  1.52s/it]                                                         {'loss': 0.2711, 'grad_norm': 2.581890821456909, 'learning_rate': 1.2946121513183035e-05, 'epoch': 1.04}
  4%|▍         | 3391/78504 [2:03:47<31:38:34,  1.52s/it]  4%|▍         | 3392/78504 [2:03:48<29:21:52,  1.41s/it]                                                         {'loss': 0.2552, 'grad_norm': 6.931295871734619, 'learning_rate': 1.2949942682460833e-05, 'epoch': 1.04}
  4%|▍         | 3392/78504 [2:03:48<29:21:52,  1.41s/it]  4%|▍         | 3393/78504 [2:03:49<27:28:13,  1.32s/it]                                                         {'loss': 0.2731, 'grad_norm': 0.9800381660461426, 'learning_rate': 1.2953763851738632e-05, 'epoch': 1.04}
  4%|▍         | 3393/78504 [2:03:49<27:28:13,  1.32s/it]  4%|▍         | 3394/78504 [2:03:50<25:45:41,  1.23s/it]                                                         {'loss': 0.2778, 'grad_norm': 1.0490491390228271, 'learning_rate': 1.295758502101643e-05, 'epoch': 1.04}
  4%|▍         | 3394/78504 [2:03:50<25:45:41,  1.23s/it]  4%|▍         | 3395/78504 [2:03:51<23:48:56,  1.14s/it]                                                         {'loss': 0.3086, 'grad_norm': 1.5706392526626587, 'learning_rate': 1.296140619029423e-05, 'epoch': 1.04}
  4%|▍         | 3395/78504 [2:03:51<23:48:56,  1.14s/it]  4%|▍         | 3396/78504 [2:03:52<21:33:36,  1.03s/it]                                                         {'loss': 0.345, 'grad_norm': 2.4154508113861084, 'learning_rate': 1.2965227359572028e-05, 'epoch': 1.04}
  4%|▍         | 3396/78504 [2:03:52<21:33:36,  1.03s/it]  4%|▍         | 3397/78504 [2:04:01<69:13:29,  3.32s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.5237347483634949, 'learning_rate': 1.2969048528849827e-05, 'epoch': 1.04}
  4%|▍         | 3397/78504 [2:04:01<69:13:29,  3.32s/it]  4%|▍         | 3398/78504 [2:04:04<67:45:32,  3.25s/it]                                                         {'loss': 0.1184, 'grad_norm': 0.37209585309028625, 'learning_rate': 1.2972869698127627e-05, 'epoch': 1.04}
  4%|▍         | 3398/78504 [2:04:04<67:45:32,  3.25s/it]  4%|▍         | 3399/78504 [2:04:07<66:06:38,  3.17s/it]                                                         {'loss': 0.084, 'grad_norm': 0.4081514775753021, 'learning_rate': 1.2976690867405426e-05, 'epoch': 1.04}
  4%|▍         | 3399/78504 [2:04:07<66:06:38,  3.17s/it]  4%|▍         | 3400/78504 [2:04:09<62:29:31,  3.00s/it]                                                         {'loss': 0.078, 'grad_norm': 0.358258455991745, 'learning_rate': 1.2980512036683225e-05, 'epoch': 1.04}
  4%|▍         | 3400/78504 [2:04:09<62:29:31,  3.00s/it]  4%|▍         | 3401/78504 [2:04:12<59:13:19,  2.84s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.8572607636451721, 'learning_rate': 1.2984333205961024e-05, 'epoch': 1.04}
  4%|▍         | 3401/78504 [2:04:12<59:13:19,  2.84s/it]  4%|▍         | 3402/78504 [2:04:14<55:38:10,  2.67s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.35952770709991455, 'learning_rate': 1.2988154375238822e-05, 'epoch': 1.04}
  4%|▍         | 3402/78504 [2:04:14<55:38:10,  2.67s/it]  4%|▍         | 3403/78504 [2:04:17<53:28:51,  2.56s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.39683669805526733, 'learning_rate': 1.2991975544516621e-05, 'epoch': 1.04}
  4%|▍         | 3403/78504 [2:04:17<53:28:51,  2.56s/it]  4%|▍         | 3404/78504 [2:04:19<50:31:40,  2.42s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.38819634914398193, 'learning_rate': 1.2995796713794422e-05, 'epoch': 1.04}
  4%|▍         | 3404/78504 [2:04:19<50:31:40,  2.42s/it]  4%|▍         | 3405/78504 [2:04:21<49:04:18,  2.35s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.5035747289657593, 'learning_rate': 1.2999617883072222e-05, 'epoch': 1.04}
  4%|▍         | 3405/78504 [2:04:21<49:04:18,  2.35s/it]  4%|▍         | 3406/78504 [2:04:23<47:55:11,  2.30s/it]                                                         {'loss': 0.0879, 'grad_norm': 0.49394065141677856, 'learning_rate': 1.300343905235002e-05, 'epoch': 1.04}
  4%|▍         | 3406/78504 [2:04:23<47:55:11,  2.30s/it]  4%|▍         | 3407/78504 [2:04:25<45:09:12,  2.16s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.6078733801841736, 'learning_rate': 1.300726022162782e-05, 'epoch': 1.04}
  4%|▍         | 3407/78504 [2:04:25<45:09:12,  2.16s/it]  4%|▍         | 3408/78504 [2:04:27<44:05:34,  2.11s/it]                                                         {'loss': 0.1156, 'grad_norm': 0.4058288335800171, 'learning_rate': 1.3011081390905618e-05, 'epoch': 1.04}
  4%|▍         | 3408/78504 [2:04:27<44:05:34,  2.11s/it]  4%|▍         | 3409/78504 [2:04:29<42:54:37,  2.06s/it]                                                         {'loss': 0.1444, 'grad_norm': 0.5912354588508606, 'learning_rate': 1.3014902560183417e-05, 'epoch': 1.04}
  4%|▍         | 3409/78504 [2:04:29<42:54:37,  2.06s/it]  4%|▍         | 3410/78504 [2:04:31<41:40:58,  2.00s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.6235601305961609, 'learning_rate': 1.3018723729461216e-05, 'epoch': 1.04}
  4%|▍         | 3410/78504 [2:04:31<41:40:58,  2.00s/it]  4%|▍         | 3411/78504 [2:04:32<39:34:24,  1.90s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.8138360381126404, 'learning_rate': 1.3022544898739015e-05, 'epoch': 1.04}
  4%|▍         | 3411/78504 [2:04:32<39:34:24,  1.90s/it]  4%|▍         | 3412/78504 [2:04:34<37:59:28,  1.82s/it]                                                         {'loss': 0.1567, 'grad_norm': 1.3053557872772217, 'learning_rate': 1.3026366068016813e-05, 'epoch': 1.04}
  4%|▍         | 3412/78504 [2:04:34<37:59:28,  1.82s/it]  4%|▍         | 3413/78504 [2:04:35<36:04:00,  1.73s/it]                                                         {'loss': 0.2073, 'grad_norm': 4.561112403869629, 'learning_rate': 1.3030187237294614e-05, 'epoch': 1.04}
  4%|▍         | 3413/78504 [2:04:35<36:04:00,  1.73s/it]  4%|▍         | 3414/78504 [2:04:37<34:18:11,  1.64s/it]                                                         {'loss': 0.2184, 'grad_norm': 1.0376298427581787, 'learning_rate': 1.3034008406572412e-05, 'epoch': 1.04}
  4%|▍         | 3414/78504 [2:04:37<34:18:11,  1.64s/it]  4%|▍         | 3415/78504 [2:04:38<32:54:08,  1.58s/it]                                                         {'loss': 0.2862, 'grad_norm': 1.1728034019470215, 'learning_rate': 1.3037829575850211e-05, 'epoch': 1.04}
  4%|▍         | 3415/78504 [2:04:38<32:54:08,  1.58s/it]  4%|▍         | 3416/78504 [2:04:40<31:04:14,  1.49s/it]                                                         {'loss': 0.2476, 'grad_norm': 1.718489170074463, 'learning_rate': 1.304165074512801e-05, 'epoch': 1.04}
  4%|▍         | 3416/78504 [2:04:40<31:04:14,  1.49s/it]  4%|▍         | 3417/78504 [2:04:41<28:54:42,  1.39s/it]                                                         {'loss': 0.2642, 'grad_norm': 1.1493741273880005, 'learning_rate': 1.3045471914405809e-05, 'epoch': 1.04}
  4%|▍         | 3417/78504 [2:04:41<28:54:42,  1.39s/it]  4%|▍         | 3418/78504 [2:04:42<27:09:35,  1.30s/it]                                                         {'loss': 0.2363, 'grad_norm': 0.9947616457939148, 'learning_rate': 1.3049293083683607e-05, 'epoch': 1.04}
  4%|▍         | 3418/78504 [2:04:42<27:09:35,  1.30s/it]  4%|▍         | 3419/78504 [2:04:43<25:16:42,  1.21s/it]                                                         {'loss': 0.2488, 'grad_norm': 1.3591034412384033, 'learning_rate': 1.3053114252961406e-05, 'epoch': 1.05}
  4%|▍         | 3419/78504 [2:04:43<25:16:42,  1.21s/it]  4%|▍         | 3420/78504 [2:04:44<23:34:15,  1.13s/it]                                                         {'loss': 0.3302, 'grad_norm': 2.155545949935913, 'learning_rate': 1.3056935422239205e-05, 'epoch': 1.05}
  4%|▍         | 3420/78504 [2:04:44<23:34:15,  1.13s/it]  4%|▍         | 3421/78504 [2:04:45<21:25:28,  1.03s/it]                                                         {'loss': 0.3786, 'grad_norm': 1.560060739517212, 'learning_rate': 1.3060756591517005e-05, 'epoch': 1.05}
  4%|▍         | 3421/78504 [2:04:45<21:25:28,  1.03s/it]  4%|▍         | 3422/78504 [2:04:51<56:54:52,  2.73s/it]                                                         {'loss': 0.1928, 'grad_norm': 2.7209043502807617, 'learning_rate': 1.3064577760794804e-05, 'epoch': 1.05}
  4%|▍         | 3422/78504 [2:04:51<56:54:52,  2.73s/it]  4%|▍         | 3423/78504 [2:04:55<60:32:11,  2.90s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.3877220153808594, 'learning_rate': 1.3068398930072603e-05, 'epoch': 1.05}
  4%|▍         | 3423/78504 [2:04:55<60:32:11,  2.90s/it]  4%|▍         | 3424/78504 [2:04:57<60:40:12,  2.91s/it]                                                         {'loss': 0.079, 'grad_norm': 0.43057548999786377, 'learning_rate': 1.3072220099350402e-05, 'epoch': 1.05}
  4%|▍         | 3424/78504 [2:04:57<60:40:12,  2.91s/it]  4%|▍         | 3425/78504 [2:05:00<57:39:31,  2.76s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.38833531737327576, 'learning_rate': 1.30760412686282e-05, 'epoch': 1.05}
  4%|▍         | 3425/78504 [2:05:00<57:39:31,  2.76s/it]  4%|▍         | 3426/78504 [2:05:02<55:51:23,  2.68s/it]                                                         {'loss': 0.1029, 'grad_norm': 0.4371500313282013, 'learning_rate': 1.3079862437905999e-05, 'epoch': 1.05}
  4%|▍         | 3426/78504 [2:05:02<55:51:23,  2.68s/it]  4%|▍         | 3427/78504 [2:05:05<54:19:02,  2.60s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.3988548517227173, 'learning_rate': 1.3083683607183798e-05, 'epoch': 1.05}
  4%|▍         | 3427/78504 [2:05:05<54:19:02,  2.60s/it]  4%|▍         | 3428/78504 [2:05:07<52:31:55,  2.52s/it]                                                         {'loss': 0.1183, 'grad_norm': 0.5410102009773254, 'learning_rate': 1.3087504776461597e-05, 'epoch': 1.05}
  4%|▍         | 3428/78504 [2:05:07<52:31:55,  2.52s/it]  4%|▍         | 3429/78504 [2:05:09<49:57:39,  2.40s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.39718857407569885, 'learning_rate': 1.3091325945739397e-05, 'epoch': 1.05}
  4%|▍         | 3429/78504 [2:05:09<49:57:39,  2.40s/it]  4%|▍         | 3430/78504 [2:05:11<48:39:46,  2.33s/it]                                                         {'loss': 0.1175, 'grad_norm': 0.7689939141273499, 'learning_rate': 1.3095147115017196e-05, 'epoch': 1.05}
  4%|▍         | 3430/78504 [2:05:11<48:39:46,  2.33s/it]  4%|▍         | 3431/78504 [2:05:14<47:27:29,  2.28s/it]                                                         {'loss': 0.099, 'grad_norm': 0.4761989414691925, 'learning_rate': 1.3098968284294994e-05, 'epoch': 1.05}
  4%|▍         | 3431/78504 [2:05:14<47:27:29,  2.28s/it]  4%|▍         | 3432/78504 [2:05:16<45:55:04,  2.20s/it]                                                         {'loss': 0.1018, 'grad_norm': 0.5723828673362732, 'learning_rate': 1.3102789453572793e-05, 'epoch': 1.05}
  4%|▍         | 3432/78504 [2:05:16<45:55:04,  2.20s/it]  4%|▍         | 3433/78504 [2:05:17<43:25:20,  2.08s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.5243285298347473, 'learning_rate': 1.3106610622850592e-05, 'epoch': 1.05}
  4%|▍         | 3433/78504 [2:05:17<43:25:20,  2.08s/it]  4%|▍         | 3434/78504 [2:05:19<42:01:50,  2.02s/it]                                                         {'loss': 0.1181, 'grad_norm': 0.5096736550331116, 'learning_rate': 1.311043179212839e-05, 'epoch': 1.05}
  4%|▍         | 3434/78504 [2:05:19<42:01:50,  2.02s/it]  4%|▍         | 3435/78504 [2:05:21<40:10:41,  1.93s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.6181472539901733, 'learning_rate': 1.311425296140619e-05, 'epoch': 1.05}
  4%|▍         | 3435/78504 [2:05:21<40:10:41,  1.93s/it]  4%|▍         | 3436/78504 [2:05:23<38:27:55,  1.84s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.716534435749054, 'learning_rate': 1.311807413068399e-05, 'epoch': 1.05}
  4%|▍         | 3436/78504 [2:05:23<38:27:55,  1.84s/it]  4%|▍         | 3437/78504 [2:05:24<36:35:47,  1.76s/it]                                                         {'loss': 0.203, 'grad_norm': 0.7231935858726501, 'learning_rate': 1.3121895299961789e-05, 'epoch': 1.05}
  4%|▍         | 3437/78504 [2:05:24<36:35:47,  1.76s/it]  4%|▍         | 3438/78504 [2:05:26<35:04:50,  1.68s/it]                                                         {'loss': 0.207, 'grad_norm': 0.7654871344566345, 'learning_rate': 1.3125716469239587e-05, 'epoch': 1.05}
  4%|▍         | 3438/78504 [2:05:26<35:04:50,  1.68s/it]  4%|▍         | 3439/78504 [2:05:27<33:32:27,  1.61s/it]                                                         {'loss': 0.2151, 'grad_norm': 0.839260995388031, 'learning_rate': 1.3129537638517386e-05, 'epoch': 1.05}
  4%|▍         | 3439/78504 [2:05:27<33:32:27,  1.61s/it]  4%|▍         | 3440/78504 [2:05:29<32:19:50,  1.55s/it]                                                         {'loss': 0.2675, 'grad_norm': 0.8134298920631409, 'learning_rate': 1.3133358807795185e-05, 'epoch': 1.05}
  4%|▍         | 3440/78504 [2:05:29<32:19:50,  1.55s/it]  4%|▍         | 3441/78504 [2:05:30<30:15:47,  1.45s/it]                                                         {'loss': 0.2217, 'grad_norm': 1.0949217081069946, 'learning_rate': 1.3137179977072984e-05, 'epoch': 1.05}
  4%|▍         | 3441/78504 [2:05:30<30:15:47,  1.45s/it]  4%|▍         | 3442/78504 [2:05:31<28:22:10,  1.36s/it]                                                         {'loss': 0.2431, 'grad_norm': 1.1129297018051147, 'learning_rate': 1.3141001146350782e-05, 'epoch': 1.05}
  4%|▍         | 3442/78504 [2:05:31<28:22:10,  1.36s/it]  4%|▍         | 3443/78504 [2:05:32<26:45:56,  1.28s/it]                                                         {'loss': 0.2302, 'grad_norm': 1.353756070137024, 'learning_rate': 1.3144822315628583e-05, 'epoch': 1.05}
  4%|▍         | 3443/78504 [2:05:32<26:45:56,  1.28s/it]  4%|▍         | 3444/78504 [2:05:33<25:17:36,  1.21s/it]                                                         {'loss': 0.2543, 'grad_norm': 1.0730942487716675, 'learning_rate': 1.3148643484906383e-05, 'epoch': 1.05}
  4%|▍         | 3444/78504 [2:05:33<25:17:36,  1.21s/it]  4%|▍         | 3445/78504 [2:05:34<23:34:57,  1.13s/it]                                                         {'loss': 0.2946, 'grad_norm': 1.47787606716156, 'learning_rate': 1.3152464654184182e-05, 'epoch': 1.05}
  4%|▍         | 3445/78504 [2:05:34<23:34:57,  1.13s/it]  4%|▍         | 3446/78504 [2:05:35<21:27:52,  1.03s/it]                                                         {'loss': 0.3161, 'grad_norm': 2.340786933898926, 'learning_rate': 1.315628582346198e-05, 'epoch': 1.05}
  4%|▍         | 3446/78504 [2:05:35<21:27:52,  1.03s/it]  4%|▍         | 3447/78504 [2:05:43<66:34:49,  3.19s/it]                                                         {'loss': 0.2085, 'grad_norm': 0.5655141472816467, 'learning_rate': 1.316010699273978e-05, 'epoch': 1.05}
  4%|▍         | 3447/78504 [2:05:43<66:34:49,  3.19s/it]  4%|▍         | 3448/78504 [2:05:46<65:43:45,  3.15s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.3198808431625366, 'learning_rate': 1.3163928162017578e-05, 'epoch': 1.05}
  4%|▍         | 3448/78504 [2:05:46<65:43:45,  3.15s/it]  4%|▍         | 3449/78504 [2:05:49<62:59:24,  3.02s/it]                                                         {'loss': 0.0643, 'grad_norm': 0.32286888360977173, 'learning_rate': 1.3167749331295377e-05, 'epoch': 1.05}
  4%|▍         | 3449/78504 [2:05:49<62:59:24,  3.02s/it]  4%|▍         | 3450/78504 [2:05:51<60:20:14,  2.89s/it]                                                         {'loss': 0.0724, 'grad_norm': 0.33292022347450256, 'learning_rate': 1.3171570500573176e-05, 'epoch': 1.05}
  4%|▍         | 3450/78504 [2:05:51<60:20:14,  2.89s/it]  4%|▍         | 3451/78504 [2:05:54<57:48:57,  2.77s/it]                                                         {'loss': 0.0803, 'grad_norm': 0.34757155179977417, 'learning_rate': 1.3175391669850974e-05, 'epoch': 1.06}
  4%|▍         | 3451/78504 [2:05:54<57:48:57,  2.77s/it]  4%|▍         | 3452/78504 [2:05:56<55:13:35,  2.65s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.4292463958263397, 'learning_rate': 1.3179212839128775e-05, 'epoch': 1.06}
  4%|▍         | 3452/78504 [2:05:56<55:13:35,  2.65s/it]  4%|▍         | 3453/78504 [2:05:59<53:13:07,  2.55s/it]                                                         {'loss': 0.0707, 'grad_norm': 0.28325366973876953, 'learning_rate': 1.3183034008406574e-05, 'epoch': 1.06}
  4%|▍         | 3453/78504 [2:05:59<53:13:07,  2.55s/it]  4%|▍         | 3454/78504 [2:06:01<50:20:50,  2.42s/it]                                                         {'loss': 0.0934, 'grad_norm': 0.37486550211906433, 'learning_rate': 1.3186855177684372e-05, 'epoch': 1.06}
  4%|▍         | 3454/78504 [2:06:01<50:20:50,  2.42s/it]  4%|▍         | 3455/78504 [2:06:03<47:57:16,  2.30s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.4844576120376587, 'learning_rate': 1.3190676346962171e-05, 'epoch': 1.06}
  4%|▍         | 3455/78504 [2:06:03<47:57:16,  2.30s/it]  4%|▍         | 3456/78504 [2:06:05<46:55:55,  2.25s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.4804476797580719, 'learning_rate': 1.319449751623997e-05, 'epoch': 1.06}
  4%|▍         | 3456/78504 [2:06:05<46:55:55,  2.25s/it]  4%|▍         | 3457/78504 [2:06:07<45:32:42,  2.18s/it]                                                         {'loss': 0.1122, 'grad_norm': 0.47404345870018005, 'learning_rate': 1.3198318685517769e-05, 'epoch': 1.06}
  4%|▍         | 3457/78504 [2:06:07<45:32:42,  2.18s/it]  4%|▍         | 3458/78504 [2:06:09<44:14:48,  2.12s/it]                                                         {'loss': 0.1099, 'grad_norm': 0.4747203588485718, 'learning_rate': 1.3202139854795567e-05, 'epoch': 1.06}
  4%|▍         | 3458/78504 [2:06:09<44:14:48,  2.12s/it]  4%|▍         | 3459/78504 [2:06:11<42:40:56,  2.05s/it]                                                         {'loss': 0.1193, 'grad_norm': 0.47238969802856445, 'learning_rate': 1.3205961024073366e-05, 'epoch': 1.06}
  4%|▍         | 3459/78504 [2:06:11<42:40:56,  2.05s/it]  4%|▍         | 3460/78504 [2:06:13<41:26:46,  1.99s/it]                                                         {'loss': 0.213, 'grad_norm': 0.6839624643325806, 'learning_rate': 1.3209782193351167e-05, 'epoch': 1.06}
  4%|▍         | 3460/78504 [2:06:13<41:26:46,  1.99s/it]  4%|▍         | 3461/78504 [2:06:14<39:48:46,  1.91s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.6204606890678406, 'learning_rate': 1.3213603362628965e-05, 'epoch': 1.06}
  4%|▍         | 3461/78504 [2:06:14<39:48:46,  1.91s/it]  4%|▍         | 3462/78504 [2:06:16<38:13:00,  1.83s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.6607351303100586, 'learning_rate': 1.3217424531906764e-05, 'epoch': 1.06}
  4%|▍         | 3462/78504 [2:06:16<38:13:00,  1.83s/it]  4%|▍         | 3463/78504 [2:06:18<36:28:22,  1.75s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.9217658638954163, 'learning_rate': 1.3221245701184563e-05, 'epoch': 1.06}
  4%|▍         | 3463/78504 [2:06:18<36:28:22,  1.75s/it]  4%|▍         | 3464/78504 [2:06:19<34:43:54,  1.67s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.2072175741195679, 'learning_rate': 1.3225066870462362e-05, 'epoch': 1.06}
  4%|▍         | 3464/78504 [2:06:19<34:43:54,  1.67s/it]  4%|▍         | 3465/78504 [2:06:20<33:09:32,  1.59s/it]                                                         {'loss': 0.2209, 'grad_norm': 0.9937958717346191, 'learning_rate': 1.322888803974016e-05, 'epoch': 1.06}
  4%|▍         | 3465/78504 [2:06:20<33:09:32,  1.59s/it]  4%|▍         | 3466/78504 [2:06:22<31:14:36,  1.50s/it]                                                         {'loss': 0.2483, 'grad_norm': 0.8885544538497925, 'learning_rate': 1.3232709209017959e-05, 'epoch': 1.06}
  4%|▍         | 3466/78504 [2:06:22<31:14:36,  1.50s/it]  4%|▍         | 3467/78504 [2:06:23<29:04:38,  1.40s/it]                                                         {'loss': 0.2391, 'grad_norm': 1.2025705575942993, 'learning_rate': 1.323653037829576e-05, 'epoch': 1.06}
  4%|▍         | 3467/78504 [2:06:23<29:04:38,  1.40s/it]  4%|▍         | 3468/78504 [2:06:24<27:15:26,  1.31s/it]                                                         {'loss': 0.2433, 'grad_norm': 0.8999363780021667, 'learning_rate': 1.3240351547573558e-05, 'epoch': 1.06}
  4%|▍         | 3468/78504 [2:06:24<27:15:26,  1.31s/it]  4%|▍         | 3469/78504 [2:06:25<25:13:29,  1.21s/it]                                                         {'loss': 0.2587, 'grad_norm': 1.0705933570861816, 'learning_rate': 1.3244172716851357e-05, 'epoch': 1.06}
  4%|▍         | 3469/78504 [2:06:25<25:13:29,  1.21s/it]  4%|▍         | 3470/78504 [2:06:26<23:23:51,  1.12s/it]                                                         {'loss': 0.3116, 'grad_norm': 2.0787360668182373, 'learning_rate': 1.3247993886129156e-05, 'epoch': 1.06}
  4%|▍         | 3470/78504 [2:06:26<23:23:51,  1.12s/it]  4%|▍         | 3471/78504 [2:06:27<21:17:00,  1.02s/it]                                                         {'loss': 0.3851, 'grad_norm': 5.4005560874938965, 'learning_rate': 1.3251815055406954e-05, 'epoch': 1.06}
  4%|▍         | 3471/78504 [2:06:27<21:17:00,  1.02s/it]  4%|▍         | 3472/78504 [2:06:36<75:13:54,  3.61s/it]                                                         {'loss': 0.223, 'grad_norm': 1.0912325382232666, 'learning_rate': 1.3255636224684753e-05, 'epoch': 1.06}
  4%|▍         | 3472/78504 [2:06:36<75:13:54,  3.61s/it]  4%|▍         | 3473/78504 [2:06:39<70:54:08,  3.40s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.40913817286491394, 'learning_rate': 1.3259457393962552e-05, 'epoch': 1.06}
  4%|▍         | 3473/78504 [2:06:39<70:54:08,  3.40s/it]  4%|▍         | 3474/78504 [2:06:42<67:54:55,  3.26s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.3519333302974701, 'learning_rate': 1.326327856324035e-05, 'epoch': 1.06}
  4%|▍         | 3474/78504 [2:06:42<67:54:55,  3.26s/it]  4%|▍         | 3475/78504 [2:06:45<63:42:47,  3.06s/it]                                                         {'loss': 0.1112, 'grad_norm': 0.523308277130127, 'learning_rate': 1.3267099732518151e-05, 'epoch': 1.06}
  4%|▍         | 3475/78504 [2:06:45<63:42:47,  3.06s/it]  4%|▍         | 3476/78504 [2:06:47<60:06:20,  2.88s/it]                                                         {'loss': 0.0713, 'grad_norm': 0.4450378119945526, 'learning_rate': 1.327092090179595e-05, 'epoch': 1.06}
  4%|▍         | 3476/78504 [2:06:47<60:06:20,  2.88s/it]  4%|▍         | 3477/78504 [2:06:49<56:18:52,  2.70s/it]                                                         {'loss': 0.0608, 'grad_norm': 0.36327341198921204, 'learning_rate': 1.3274742071073749e-05, 'epoch': 1.06}
  4%|▍         | 3477/78504 [2:06:49<56:18:52,  2.70s/it]  4%|▍         | 3478/78504 [2:06:52<53:56:43,  2.59s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.44589927792549133, 'learning_rate': 1.3278563240351547e-05, 'epoch': 1.06}
  4%|▍         | 3478/78504 [2:06:52<53:56:43,  2.59s/it]  4%|▍         | 3479/78504 [2:06:54<50:58:11,  2.45s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.5375767946243286, 'learning_rate': 1.3282384409629346e-05, 'epoch': 1.06}
  4%|▍         | 3479/78504 [2:06:54<50:58:11,  2.45s/it]  4%|▍         | 3480/78504 [2:06:56<49:21:55,  2.37s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.5024489164352417, 'learning_rate': 1.3286205578907145e-05, 'epoch': 1.06}
  4%|▍         | 3480/78504 [2:06:56<49:21:55,  2.37s/it]  4%|▍         | 3481/78504 [2:06:58<47:58:15,  2.30s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.3880492150783539, 'learning_rate': 1.3290026748184944e-05, 'epoch': 1.06}
  4%|▍         | 3481/78504 [2:06:58<47:58:15,  2.30s/it]  4%|▍         | 3482/78504 [2:07:00<45:11:28,  2.17s/it]                                                         {'loss': 0.1306, 'grad_norm': 1.1360548734664917, 'learning_rate': 1.3293847917462744e-05, 'epoch': 1.06}
  4%|▍         | 3482/78504 [2:07:00<45:11:28,  2.17s/it]  4%|▍         | 3483/78504 [2:07:02<44:03:52,  2.11s/it]                                                         {'loss': 0.1213, 'grad_norm': 1.0456324815750122, 'learning_rate': 1.3297669086740544e-05, 'epoch': 1.06}
  4%|▍         | 3483/78504 [2:07:02<44:03:52,  2.11s/it]  4%|▍         | 3484/78504 [2:07:04<42:39:19,  2.05s/it]                                                         {'loss': 0.1253, 'grad_norm': 2.4843673706054688, 'learning_rate': 1.3301490256018343e-05, 'epoch': 1.07}
  4%|▍         | 3484/78504 [2:07:04<42:39:19,  2.05s/it]  4%|▍         | 3485/78504 [2:07:06<41:31:23,  1.99s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.6335281729698181, 'learning_rate': 1.3305311425296142e-05, 'epoch': 1.07}
  4%|▍         | 3485/78504 [2:07:06<41:31:23,  1.99s/it]  4%|▍         | 3486/78504 [2:07:08<40:08:25,  1.93s/it]                                                         {'loss': 0.1503, 'grad_norm': 1.0818294286727905, 'learning_rate': 1.330913259457394e-05, 'epoch': 1.07}
  4%|▍         | 3486/78504 [2:07:08<40:08:25,  1.93s/it]  4%|▍         | 3487/78504 [2:07:09<37:55:25,  1.82s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.630302906036377, 'learning_rate': 1.331295376385174e-05, 'epoch': 1.07}
  4%|▍         | 3487/78504 [2:07:09<37:55:25,  1.82s/it]  4%|▍         | 3488/78504 [2:07:11<36:09:07,  1.73s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.7543172240257263, 'learning_rate': 1.3316774933129538e-05, 'epoch': 1.07}
  4%|▍         | 3488/78504 [2:07:11<36:09:07,  1.73s/it]  4%|▍         | 3489/78504 [2:07:12<34:46:50,  1.67s/it]                                                         {'loss': 0.2199, 'grad_norm': 1.0082054138183594, 'learning_rate': 1.3320596102407337e-05, 'epoch': 1.07}
  4%|▍         | 3489/78504 [2:07:12<34:46:50,  1.67s/it]  4%|▍         | 3490/78504 [2:07:14<33:12:56,  1.59s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.7996132969856262, 'learning_rate': 1.3324417271685136e-05, 'epoch': 1.07}
  4%|▍         | 3490/78504 [2:07:14<33:12:56,  1.59s/it]  4%|▍         | 3491/78504 [2:07:15<31:19:10,  1.50s/it]                                                         {'loss': 0.2442, 'grad_norm': 2.2606875896453857, 'learning_rate': 1.3328238440962936e-05, 'epoch': 1.07}
  4%|▍         | 3491/78504 [2:07:15<31:19:10,  1.50s/it]  4%|▍         | 3492/78504 [2:07:16<29:10:10,  1.40s/it]                                                         {'loss': 0.2443, 'grad_norm': 1.4335640668869019, 'learning_rate': 1.3332059610240735e-05, 'epoch': 1.07}
  4%|▍         | 3492/78504 [2:07:16<29:10:10,  1.40s/it]  4%|▍         | 3493/78504 [2:07:17<27:31:14,  1.32s/it]                                                         {'loss': 0.2904, 'grad_norm': 1.2955760955810547, 'learning_rate': 1.3335880779518534e-05, 'epoch': 1.07}
  4%|▍         | 3493/78504 [2:07:17<27:31:14,  1.32s/it]  4%|▍         | 3494/78504 [2:07:18<25:50:51,  1.24s/it]                                                         {'loss': 0.2973, 'grad_norm': 1.5493338108062744, 'learning_rate': 1.3339701948796332e-05, 'epoch': 1.07}
  4%|▍         | 3494/78504 [2:07:18<25:50:51,  1.24s/it]  4%|▍         | 3495/78504 [2:07:19<23:56:45,  1.15s/it]                                                         {'loss': 0.3172, 'grad_norm': 1.4561494588851929, 'learning_rate': 1.3343523118074131e-05, 'epoch': 1.07}
  4%|▍         | 3495/78504 [2:07:19<23:56:45,  1.15s/it]  4%|▍         | 3496/78504 [2:07:20<21:39:44,  1.04s/it]                                                         {'loss': 0.3789, 'grad_norm': 2.662029504776001, 'learning_rate': 1.334734428735193e-05, 'epoch': 1.07}
  4%|▍         | 3496/78504 [2:07:20<21:39:44,  1.04s/it]  4%|▍         | 3497/78504 [2:07:28<65:49:34,  3.16s/it]                                                         {'loss': 0.1854, 'grad_norm': 0.6018199920654297, 'learning_rate': 1.3351165456629729e-05, 'epoch': 1.07}
  4%|▍         | 3497/78504 [2:07:28<65:49:34,  3.16s/it]  4%|▍         | 3498/78504 [2:07:31<66:43:01,  3.20s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.4586171507835388, 'learning_rate': 1.3354986625907529e-05, 'epoch': 1.07}
  4%|▍         | 3498/78504 [2:07:31<66:43:01,  3.20s/it]  4%|▍         | 3499/78504 [2:07:34<65:20:13,  3.14s/it]                                                         {'loss': 0.091, 'grad_norm': 0.42636045813560486, 'learning_rate': 1.3358807795185328e-05, 'epoch': 1.07}
  4%|▍         | 3499/78504 [2:07:34<65:20:13,  3.14s/it]  4%|▍         | 3500/78504 [2:07:37<61:56:50,  2.97s/it]                                                         {'loss': 0.0681, 'grad_norm': 0.37149274349212646, 'learning_rate': 1.3362628964463126e-05, 'epoch': 1.07}
  4%|▍         | 3500/78504 [2:07:37<61:56:50,  2.97s/it]  4%|▍         | 3501/78504 [2:07:39<58:57:40,  2.83s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.25305724143981934, 'learning_rate': 1.3366450133740925e-05, 'epoch': 1.07}
  4%|▍         | 3501/78504 [2:07:40<58:57:40,  2.83s/it]  4%|▍         | 3502/78504 [2:07:42<55:59:22,  2.69s/it]                                                         {'loss': 0.08, 'grad_norm': 0.3333028554916382, 'learning_rate': 1.3370271303018724e-05, 'epoch': 1.07}
  4%|▍         | 3502/78504 [2:07:42<55:59:22,  2.69s/it]  4%|▍         | 3503/78504 [2:07:44<53:45:55,  2.58s/it]                                                         {'loss': 0.0798, 'grad_norm': 0.5960842967033386, 'learning_rate': 1.3374092472296523e-05, 'epoch': 1.07}
  4%|▍         | 3503/78504 [2:07:44<53:45:55,  2.58s/it]  4%|▍         | 3504/78504 [2:07:46<50:45:17,  2.44s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.564896285533905, 'learning_rate': 1.3377913641574321e-05, 'epoch': 1.07}
  4%|▍         | 3504/78504 [2:07:46<50:45:17,  2.44s/it]  4%|▍         | 3505/78504 [2:07:48<48:11:19,  2.31s/it]                                                         {'loss': 0.124, 'grad_norm': 0.877511739730835, 'learning_rate': 1.338173481085212e-05, 'epoch': 1.07}
  4%|▍         | 3505/78504 [2:07:48<48:11:19,  2.31s/it]  4%|▍         | 3506/78504 [2:07:50<47:08:40,  2.26s/it]                                                         {'loss': 0.1007, 'grad_norm': 0.40789899230003357, 'learning_rate': 1.338555598012992e-05, 'epoch': 1.07}
  4%|▍         | 3506/78504 [2:07:50<47:08:40,  2.26s/it]  4%|▍         | 3507/78504 [2:07:52<45:28:04,  2.18s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.5487057566642761, 'learning_rate': 1.338937714940772e-05, 'epoch': 1.07}
  4%|▍         | 3507/78504 [2:07:52<45:28:04,  2.18s/it]  4%|▍         | 3508/78504 [2:07:54<44:13:19,  2.12s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.7463929653167725, 'learning_rate': 1.3393198318685518e-05, 'epoch': 1.07}
  4%|▍         | 3508/78504 [2:07:54<44:13:19,  2.12s/it]  4%|▍         | 3509/78504 [2:07:56<42:37:51,  2.05s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.7275164723396301, 'learning_rate': 1.3397019487963317e-05, 'epoch': 1.07}
  4%|▍         | 3509/78504 [2:07:56<42:37:51,  2.05s/it]  4%|▍         | 3510/78504 [2:07:58<41:21:10,  1.99s/it]                                                         {'loss': 0.1381, 'grad_norm': 0.581189751625061, 'learning_rate': 1.3400840657241116e-05, 'epoch': 1.07}
  4%|▍         | 3510/78504 [2:07:58<41:21:10,  1.99s/it]  4%|▍         | 3511/78504 [2:08:00<39:20:18,  1.89s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.5896050333976746, 'learning_rate': 1.3404661826518914e-05, 'epoch': 1.07}
  4%|▍         | 3511/78504 [2:08:00<39:20:18,  1.89s/it]  4%|▍         | 3512/78504 [2:08:01<37:49:09,  1.82s/it]                                                         {'loss': 0.21, 'grad_norm': 0.8883576989173889, 'learning_rate': 1.3408482995796713e-05, 'epoch': 1.07}
  4%|▍         | 3512/78504 [2:08:01<37:49:09,  1.82s/it]  4%|▍         | 3513/78504 [2:08:03<36:00:12,  1.73s/it]                                                         {'loss': 0.2241, 'grad_norm': 0.7067463994026184, 'learning_rate': 1.3412304165074512e-05, 'epoch': 1.07}
  4%|▍         | 3513/78504 [2:08:03<36:00:12,  1.73s/it]  4%|▍         | 3514/78504 [2:08:04<34:06:57,  1.64s/it]                                                         {'loss': 0.215, 'grad_norm': 1.2545331716537476, 'learning_rate': 1.3416125334352312e-05, 'epoch': 1.07}
  4%|▍         | 3514/78504 [2:08:04<34:06:57,  1.64s/it]  4%|▍         | 3515/78504 [2:08:06<32:42:32,  1.57s/it]                                                         {'loss': 0.2302, 'grad_norm': 1.0058159828186035, 'learning_rate': 1.3419946503630111e-05, 'epoch': 1.07}
  4%|▍         | 3515/78504 [2:08:06<32:42:32,  1.57s/it]  4%|▍         | 3516/78504 [2:08:07<30:31:25,  1.47s/it]                                                         {'loss': 0.2375, 'grad_norm': 1.043565034866333, 'learning_rate': 1.342376767290791e-05, 'epoch': 1.07}
  4%|▍         | 3516/78504 [2:08:07<30:31:25,  1.47s/it]  4%|▍         | 3517/78504 [2:08:08<28:26:35,  1.37s/it]                                                         {'loss': 0.2461, 'grad_norm': 1.8136638402938843, 'learning_rate': 1.3427588842185709e-05, 'epoch': 1.08}
  4%|▍         | 3517/78504 [2:08:08<28:26:35,  1.37s/it]  4%|▍         | 3518/78504 [2:08:09<26:45:28,  1.28s/it]                                                         {'loss': 0.2743, 'grad_norm': 2.325191020965576, 'learning_rate': 1.3431410011463507e-05, 'epoch': 1.08}
  4%|▍         | 3518/78504 [2:08:09<26:45:28,  1.28s/it]  4%|▍         | 3519/78504 [2:08:10<24:53:18,  1.19s/it]                                                         {'loss': 0.2932, 'grad_norm': 1.3558809757232666, 'learning_rate': 1.3435231180741306e-05, 'epoch': 1.08}
  4%|▍         | 3519/78504 [2:08:10<24:53:18,  1.19s/it]  4%|▍         | 3520/78504 [2:08:11<23:16:29,  1.12s/it]                                                         {'loss': 0.264, 'grad_norm': 1.4956409931182861, 'learning_rate': 1.3439052350019105e-05, 'epoch': 1.08}
  4%|▍         | 3520/78504 [2:08:11<23:16:29,  1.12s/it]  4%|▍         | 3521/78504 [2:08:12<21:11:38,  1.02s/it]                                                         {'loss': 0.3538, 'grad_norm': 2.2279374599456787, 'learning_rate': 1.3442873519296905e-05, 'epoch': 1.08}
  4%|▍         | 3521/78504 [2:08:12<21:11:38,  1.02s/it]  4%|▍         | 3522/78504 [2:08:20<66:51:29,  3.21s/it]                                                         {'loss': 0.2116, 'grad_norm': 0.7089594006538391, 'learning_rate': 1.3446694688574706e-05, 'epoch': 1.08}
  4%|▍         | 3522/78504 [2:08:20<66:51:29,  3.21s/it]  4%|▍         | 3523/78504 [2:08:23<66:17:44,  3.18s/it]                                                         {'loss': 0.1163, 'grad_norm': 0.5871909260749817, 'learning_rate': 1.3450515857852504e-05, 'epoch': 1.08}
  4%|▍         | 3523/78504 [2:08:23<66:17:44,  3.18s/it]  4%|▍         | 3524/78504 [2:08:26<65:15:59,  3.13s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.3462996780872345, 'learning_rate': 1.3454337027130303e-05, 'epoch': 1.08}
  4%|▍         | 3524/78504 [2:08:26<65:15:59,  3.13s/it]  4%|▍         | 3525/78504 [2:08:29<62:02:57,  2.98s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.3832639157772064, 'learning_rate': 1.3458158196408102e-05, 'epoch': 1.08}
  4%|▍         | 3525/78504 [2:08:29<62:02:57,  2.98s/it]  4%|▍         | 3526/78504 [2:08:32<58:52:23,  2.83s/it]                                                         {'loss': 0.079, 'grad_norm': 0.3706163465976715, 'learning_rate': 1.34619793656859e-05, 'epoch': 1.08}
  4%|▍         | 3526/78504 [2:08:32<58:52:23,  2.83s/it]  4%|▍         | 3527/78504 [2:08:34<55:22:59,  2.66s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.3760715425014496, 'learning_rate': 1.34658005349637e-05, 'epoch': 1.08}
  4%|▍         | 3527/78504 [2:08:34<55:22:59,  2.66s/it]  4%|▍         | 3528/78504 [2:08:36<53:18:47,  2.56s/it]                                                         {'loss': 0.111, 'grad_norm': 0.416456937789917, 'learning_rate': 1.3469621704241498e-05, 'epoch': 1.08}
  4%|▍         | 3528/78504 [2:08:36<53:18:47,  2.56s/it]  4%|▍         | 3529/78504 [2:08:38<50:21:26,  2.42s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.42599523067474365, 'learning_rate': 1.3473442873519297e-05, 'epoch': 1.08}
  4%|▍         | 3529/78504 [2:08:38<50:21:26,  2.42s/it]  4%|▍         | 3530/78504 [2:08:40<47:54:49,  2.30s/it]                                                         {'loss': 0.1159, 'grad_norm': 0.5888670086860657, 'learning_rate': 1.3477264042797097e-05, 'epoch': 1.08}
  4%|▍         | 3530/78504 [2:08:40<47:54:49,  2.30s/it]  4%|▍         | 3531/78504 [2:08:42<46:54:04,  2.25s/it]                                                         {'loss': 0.0947, 'grad_norm': 0.4852854013442993, 'learning_rate': 1.3481085212074896e-05, 'epoch': 1.08}
  4%|▍         | 3531/78504 [2:08:42<46:54:04,  2.25s/it]  4%|▍         | 3532/78504 [2:08:44<45:20:07,  2.18s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.41799622774124146, 'learning_rate': 1.3484906381352695e-05, 'epoch': 1.08}
  4%|▍         | 3532/78504 [2:08:44<45:20:07,  2.18s/it]  5%|▍         | 3533/78504 [2:08:46<43:00:46,  2.07s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.5467134118080139, 'learning_rate': 1.3488727550630494e-05, 'epoch': 1.08}
  5%|▍         | 3533/78504 [2:08:46<43:00:46,  2.07s/it]  5%|▍         | 3534/78504 [2:08:48<41:45:04,  2.00s/it]                                                         {'loss': 0.1309, 'grad_norm': 0.4486512541770935, 'learning_rate': 1.3492548719908292e-05, 'epoch': 1.08}
  5%|▍         | 3534/78504 [2:08:48<41:45:04,  2.00s/it]  5%|▍         | 3535/78504 [2:08:50<40:46:09,  1.96s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.7100693583488464, 'learning_rate': 1.3496369889186091e-05, 'epoch': 1.08}
  5%|▍         | 3535/78504 [2:08:50<40:46:09,  1.96s/it]  5%|▍         | 3536/78504 [2:08:52<38:59:57,  1.87s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.7605172991752625, 'learning_rate': 1.350019105846389e-05, 'epoch': 1.08}
  5%|▍         | 3536/78504 [2:08:52<38:59:57,  1.87s/it]  5%|▍         | 3537/78504 [2:08:53<37:32:58,  1.80s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.7627620697021484, 'learning_rate': 1.350401222774169e-05, 'epoch': 1.08}
  5%|▍         | 3537/78504 [2:08:53<37:32:58,  1.80s/it]  5%|▍         | 3538/78504 [2:08:55<35:47:09,  1.72s/it]                                                         {'loss': 0.1946, 'grad_norm': 0.7717726230621338, 'learning_rate': 1.3507833397019489e-05, 'epoch': 1.08}
  5%|▍         | 3538/78504 [2:08:55<35:47:09,  1.72s/it]  5%|▍         | 3539/78504 [2:08:56<34:01:53,  1.63s/it]                                                         {'loss': 0.2533, 'grad_norm': 1.3748269081115723, 'learning_rate': 1.3511654566297288e-05, 'epoch': 1.08}
  5%|▍         | 3539/78504 [2:08:56<34:01:53,  1.63s/it]  5%|▍         | 3540/78504 [2:08:58<32:36:59,  1.57s/it]                                                         {'loss': 0.27, 'grad_norm': 1.0728331804275513, 'learning_rate': 1.3515475735575086e-05, 'epoch': 1.08}
  5%|▍         | 3540/78504 [2:08:58<32:36:59,  1.57s/it]  5%|▍         | 3541/78504 [2:08:59<30:28:09,  1.46s/it]                                                         {'loss': 0.24, 'grad_norm': 1.0784944295883179, 'learning_rate': 1.3519296904852885e-05, 'epoch': 1.08}
  5%|▍         | 3541/78504 [2:08:59<30:28:09,  1.46s/it]  5%|▍         | 3542/78504 [2:09:00<28:21:54,  1.36s/it]                                                         {'loss': 0.1833, 'grad_norm': 1.1592758893966675, 'learning_rate': 1.3523118074130684e-05, 'epoch': 1.08}
  5%|▍         | 3542/78504 [2:09:00<28:21:54,  1.36s/it]  5%|▍         | 3543/78504 [2:09:01<26:44:01,  1.28s/it]                                                         {'loss': 0.2211, 'grad_norm': 1.6536858081817627, 'learning_rate': 1.3526939243408483e-05, 'epoch': 1.08}
  5%|▍         | 3543/78504 [2:09:01<26:44:01,  1.28s/it]  5%|▍         | 3544/78504 [2:09:02<24:55:06,  1.20s/it]                                                         {'loss': 0.2851, 'grad_norm': 1.4424371719360352, 'learning_rate': 1.3530760412686281e-05, 'epoch': 1.08}
  5%|▍         | 3544/78504 [2:09:02<24:55:06,  1.20s/it]  5%|▍         | 3545/78504 [2:09:03<23:17:30,  1.12s/it]                                                         {'loss': 0.3547, 'grad_norm': 1.8731298446655273, 'learning_rate': 1.3534581581964082e-05, 'epoch': 1.08}
  5%|▍         | 3545/78504 [2:09:03<23:17:30,  1.12s/it]  5%|▍         | 3546/78504 [2:09:04<21:09:50,  1.02s/it]                                                         {'loss': 0.3443, 'grad_norm': 1.8920941352844238, 'learning_rate': 1.353840275124188e-05, 'epoch': 1.08}
  5%|▍         | 3546/78504 [2:09:04<21:09:50,  1.02s/it]  5%|▍         | 3547/78504 [2:09:12<68:41:29,  3.30s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.4641076326370239, 'learning_rate': 1.354222392051968e-05, 'epoch': 1.08}
  5%|▍         | 3547/78504 [2:09:12<68:41:29,  3.30s/it]  5%|▍         | 3548/78504 [2:09:15<66:17:24,  3.18s/it]                                                         {'loss': 0.1247, 'grad_norm': 0.4040733575820923, 'learning_rate': 1.3546045089797478e-05, 'epoch': 1.08}
  5%|▍         | 3548/78504 [2:09:15<66:17:24,  3.18s/it]  5%|▍         | 3549/78504 [2:09:18<64:41:38,  3.11s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.6070154905319214, 'learning_rate': 1.3549866259075277e-05, 'epoch': 1.08}
  5%|▍         | 3549/78504 [2:09:18<64:41:38,  3.11s/it]  5%|▍         | 3550/78504 [2:09:21<60:27:05,  2.90s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.40338262915611267, 'learning_rate': 1.3553687428353076e-05, 'epoch': 1.09}
  5%|▍         | 3550/78504 [2:09:21<60:27:05,  2.90s/it]  5%|▍         | 3551/78504 [2:09:23<57:47:28,  2.78s/it]                                                         {'loss': 0.0641, 'grad_norm': 0.3081102967262268, 'learning_rate': 1.3557508597630874e-05, 'epoch': 1.09}
  5%|▍         | 3551/78504 [2:09:23<57:47:28,  2.78s/it]  5%|▍         | 3552/78504 [2:09:26<55:46:35,  2.68s/it]                                                         {'loss': 0.1094, 'grad_norm': 0.3776710331439972, 'learning_rate': 1.3561329766908673e-05, 'epoch': 1.09}
  5%|▍         | 3552/78504 [2:09:26<55:46:35,  2.68s/it]  5%|▍         | 3553/78504 [2:09:28<53:31:11,  2.57s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.32527872920036316, 'learning_rate': 1.3565150936186474e-05, 'epoch': 1.09}
  5%|▍         | 3553/78504 [2:09:28<53:31:11,  2.57s/it]  5%|▍         | 3554/78504 [2:09:30<50:40:58,  2.43s/it]                                                         {'loss': 0.088, 'grad_norm': 0.34349459409713745, 'learning_rate': 1.3568972105464272e-05, 'epoch': 1.09}
  5%|▍         | 3554/78504 [2:09:30<50:40:58,  2.43s/it]  5%|▍         | 3555/78504 [2:09:32<49:07:44,  2.36s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.41359972953796387, 'learning_rate': 1.3572793274742071e-05, 'epoch': 1.09}
  5%|▍         | 3555/78504 [2:09:32<49:07:44,  2.36s/it]  5%|▍         | 3556/78504 [2:09:34<47:47:21,  2.30s/it]                                                         {'loss': 0.084, 'grad_norm': 0.32262715697288513, 'learning_rate': 1.357661444401987e-05, 'epoch': 1.09}
  5%|▍         | 3556/78504 [2:09:34<47:47:21,  2.30s/it]  5%|▍         | 3557/78504 [2:09:36<46:07:38,  2.22s/it]                                                         {'loss': 0.1401, 'grad_norm': 1.1770823001861572, 'learning_rate': 1.3580435613297668e-05, 'epoch': 1.09}
  5%|▍         | 3557/78504 [2:09:36<46:07:38,  2.22s/it]  5%|▍         | 3558/78504 [2:09:38<44:36:19,  2.14s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.4841969907283783, 'learning_rate': 1.3584256782575467e-05, 'epoch': 1.09}
  5%|▍         | 3558/78504 [2:09:38<44:36:19,  2.14s/it]  5%|▍         | 3559/78504 [2:09:40<43:00:21,  2.07s/it]                                                         {'loss': 0.1141, 'grad_norm': 0.4191941022872925, 'learning_rate': 1.3588077951853266e-05, 'epoch': 1.09}
  5%|▍         | 3559/78504 [2:09:40<43:00:21,  2.07s/it]  5%|▍         | 3560/78504 [2:09:42<41:48:58,  2.01s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.5742045044898987, 'learning_rate': 1.3591899121131066e-05, 'epoch': 1.09}
  5%|▍         | 3560/78504 [2:09:42<41:48:58,  2.01s/it]  5%|▍         | 3561/78504 [2:09:44<40:16:01,  1.93s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.5907508730888367, 'learning_rate': 1.3595720290408867e-05, 'epoch': 1.09}
  5%|▍         | 3561/78504 [2:09:44<40:16:01,  1.93s/it]  5%|▍         | 3562/78504 [2:09:46<38:32:51,  1.85s/it]                                                         {'loss': 0.171, 'grad_norm': 0.7449549436569214, 'learning_rate': 1.3599541459686666e-05, 'epoch': 1.09}
  5%|▍         | 3562/78504 [2:09:46<38:32:51,  1.85s/it]  5%|▍         | 3563/78504 [2:09:47<36:38:08,  1.76s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.6538222432136536, 'learning_rate': 1.3603362628964464e-05, 'epoch': 1.09}
  5%|▍         | 3563/78504 [2:09:47<36:38:08,  1.76s/it]  5%|▍         | 3564/78504 [2:09:49<34:47:14,  1.67s/it]                                                         {'loss': 0.2041, 'grad_norm': 1.4824936389923096, 'learning_rate': 1.3607183798242263e-05, 'epoch': 1.09}
  5%|▍         | 3564/78504 [2:09:49<34:47:14,  1.67s/it]  5%|▍         | 3565/78504 [2:09:50<33:09:31,  1.59s/it]                                                         {'loss': 0.2329, 'grad_norm': 0.922738254070282, 'learning_rate': 1.3611004967520062e-05, 'epoch': 1.09}
  5%|▍         | 3565/78504 [2:09:50<33:09:31,  1.59s/it]  5%|▍         | 3566/78504 [2:09:51<31:18:18,  1.50s/it]                                                         {'loss': 0.2574, 'grad_norm': 0.9853188395500183, 'learning_rate': 1.361482613679786e-05, 'epoch': 1.09}
  5%|▍         | 3566/78504 [2:09:51<31:18:18,  1.50s/it]  5%|▍         | 3567/78504 [2:09:52<29:06:07,  1.40s/it]                                                         {'loss': 0.229, 'grad_norm': 0.9640428423881531, 'learning_rate': 1.361864730607566e-05, 'epoch': 1.09}
  5%|▍         | 3567/78504 [2:09:52<29:06:07,  1.40s/it]  5%|▍         | 3568/78504 [2:09:53<27:15:00,  1.31s/it]                                                         {'loss': 0.2626, 'grad_norm': 9.24087905883789, 'learning_rate': 1.362246847535346e-05, 'epoch': 1.09}
  5%|▍         | 3568/78504 [2:09:53<27:15:00,  1.31s/it]  5%|▍         | 3569/78504 [2:09:54<25:15:56,  1.21s/it]                                                         {'loss': 0.3055, 'grad_norm': 1.2924261093139648, 'learning_rate': 1.3626289644631259e-05, 'epoch': 1.09}
  5%|▍         | 3569/78504 [2:09:54<25:15:56,  1.21s/it]  5%|▍         | 3570/78504 [2:09:55<23:33:02,  1.13s/it]                                                         {'loss': 0.311, 'grad_norm': 1.6198550462722778, 'learning_rate': 1.3630110813909057e-05, 'epoch': 1.09}
  5%|▍         | 3570/78504 [2:09:55<23:33:02,  1.13s/it]  5%|▍         | 3571/78504 [2:09:56<21:21:44,  1.03s/it]                                                         {'loss': 0.351, 'grad_norm': 2.416065216064453, 'learning_rate': 1.3633931983186856e-05, 'epoch': 1.09}
  5%|▍         | 3571/78504 [2:09:56<21:21:44,  1.03s/it]  5%|▍         | 3572/78504 [2:10:04<63:19:56,  3.04s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.7451707720756531, 'learning_rate': 1.3637753152464655e-05, 'epoch': 1.09}
  5%|▍         | 3572/78504 [2:10:04<63:19:56,  3.04s/it]  5%|▍         | 3573/78504 [2:10:07<62:30:06,  3.00s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.3675883114337921, 'learning_rate': 1.3641574321742453e-05, 'epoch': 1.09}
  5%|▍         | 3573/78504 [2:10:07<62:30:06,  3.00s/it]  5%|▍         | 3574/78504 [2:10:10<62:02:29,  2.98s/it]                                                         {'loss': 0.084, 'grad_norm': 0.6783490180969238, 'learning_rate': 1.3645395491020252e-05, 'epoch': 1.09}
  5%|▍         | 3574/78504 [2:10:10<62:02:29,  2.98s/it]  5%|▍         | 3575/78504 [2:10:12<59:46:53,  2.87s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.5891165137290955, 'learning_rate': 1.3649216660298051e-05, 'epoch': 1.09}
  5%|▍         | 3575/78504 [2:10:12<59:46:53,  2.87s/it]  5%|▍         | 3576/78504 [2:10:15<57:17:09,  2.75s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.3628169298171997, 'learning_rate': 1.3653037829575851e-05, 'epoch': 1.09}
  5%|▍         | 3576/78504 [2:10:15<57:17:09,  2.75s/it]  5%|▍         | 3577/78504 [2:10:17<54:14:24,  2.61s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.6774737238883972, 'learning_rate': 1.365685899885365e-05, 'epoch': 1.09}
  5%|▍         | 3577/78504 [2:10:17<54:14:24,  2.61s/it]  5%|▍         | 3578/78504 [2:10:19<52:29:28,  2.52s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.3621596097946167, 'learning_rate': 1.3660680168131449e-05, 'epoch': 1.09}
  5%|▍         | 3578/78504 [2:10:19<52:29:28,  2.52s/it]  5%|▍         | 3579/78504 [2:10:22<49:57:09,  2.40s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.4963834881782532, 'learning_rate': 1.3664501337409248e-05, 'epoch': 1.09}
  5%|▍         | 3579/78504 [2:10:22<49:57:09,  2.40s/it]  5%|▍         | 3580/78504 [2:10:24<48:38:13,  2.34s/it]                                                         {'loss': 0.0756, 'grad_norm': 1.0009651184082031, 'learning_rate': 1.3668322506687046e-05, 'epoch': 1.09}
  5%|▍         | 3580/78504 [2:10:24<48:38:13,  2.34s/it]  5%|▍         | 3581/78504 [2:10:26<47:33:49,  2.29s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.6557985544204712, 'learning_rate': 1.3672143675964845e-05, 'epoch': 1.09}
  5%|▍         | 3581/78504 [2:10:26<47:33:49,  2.29s/it]  5%|▍         | 3582/78504 [2:10:28<45:54:41,  2.21s/it]                                                         {'loss': 0.1172, 'grad_norm': 0.48790231347084045, 'learning_rate': 1.3675964845242644e-05, 'epoch': 1.1}
  5%|▍         | 3582/78504 [2:10:28<45:54:41,  2.21s/it]  5%|▍         | 3583/78504 [2:10:30<44:29:22,  2.14s/it]                                                         {'loss': 0.0885, 'grad_norm': 0.4715130627155304, 'learning_rate': 1.3679786014520443e-05, 'epoch': 1.1}
  5%|▍         | 3583/78504 [2:10:30<44:29:22,  2.14s/it]  5%|▍         | 3584/78504 [2:10:32<42:51:10,  2.06s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.5325279831886292, 'learning_rate': 1.3683607183798243e-05, 'epoch': 1.1}
  5%|▍         | 3584/78504 [2:10:32<42:51:10,  2.06s/it]  5%|▍         | 3585/78504 [2:10:34<41:38:57,  2.00s/it]                                                         {'loss': 0.201, 'grad_norm': 0.7422232627868652, 'learning_rate': 1.3687428353076042e-05, 'epoch': 1.1}
  5%|▍         | 3585/78504 [2:10:34<41:38:57,  2.00s/it]  5%|▍         | 3586/78504 [2:10:35<40:13:38,  1.93s/it]                                                         {'loss': 0.1779, 'grad_norm': 0.7911832928657532, 'learning_rate': 1.369124952235384e-05, 'epoch': 1.1}
  5%|▍         | 3586/78504 [2:10:35<40:13:38,  1.93s/it]  5%|▍         | 3587/78504 [2:10:37<38:28:18,  1.85s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.6884647607803345, 'learning_rate': 1.369507069163164e-05, 'epoch': 1.1}
  5%|▍         | 3587/78504 [2:10:37<38:28:18,  1.85s/it]  5%|▍         | 3588/78504 [2:10:39<36:31:24,  1.76s/it]                                                         {'loss': 0.209, 'grad_norm': 0.9643663763999939, 'learning_rate': 1.3698891860909438e-05, 'epoch': 1.1}
  5%|▍         | 3588/78504 [2:10:39<36:31:24,  1.76s/it]  5%|▍         | 3589/78504 [2:10:40<34:43:50,  1.67s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.6985158324241638, 'learning_rate': 1.3702713030187237e-05, 'epoch': 1.1}
  5%|▍         | 3589/78504 [2:10:40<34:43:50,  1.67s/it]  5%|▍         | 3590/78504 [2:10:42<33:10:02,  1.59s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.3170199394226074, 'learning_rate': 1.3706534199465036e-05, 'epoch': 1.1}
  5%|▍         | 3590/78504 [2:10:42<33:10:02,  1.59s/it]  5%|▍         | 3591/78504 [2:10:43<31:13:08,  1.50s/it]                                                         {'loss': 0.2435, 'grad_norm': 1.1512011289596558, 'learning_rate': 1.3710355368742836e-05, 'epoch': 1.1}
  5%|▍         | 3591/78504 [2:10:43<31:13:08,  1.50s/it]  5%|▍         | 3592/78504 [2:10:44<29:00:49,  1.39s/it]                                                         {'loss': 0.2183, 'grad_norm': 1.4257317781448364, 'learning_rate': 1.3714176538020635e-05, 'epoch': 1.1}
  5%|▍         | 3592/78504 [2:10:44<29:00:49,  1.39s/it]  5%|▍         | 3593/78504 [2:10:45<27:08:32,  1.30s/it]                                                         {'loss': 0.2465, 'grad_norm': 1.6157718896865845, 'learning_rate': 1.3717997707298433e-05, 'epoch': 1.1}
  5%|▍         | 3593/78504 [2:10:45<27:08:32,  1.30s/it]  5%|▍         | 3594/78504 [2:10:46<25:12:09,  1.21s/it]                                                         {'loss': 0.2306, 'grad_norm': 1.302146077156067, 'learning_rate': 1.3721818876576232e-05, 'epoch': 1.1}
  5%|▍         | 3594/78504 [2:10:46<25:12:09,  1.21s/it]  5%|▍         | 3595/78504 [2:10:47<23:30:35,  1.13s/it]                                                         {'loss': 0.3197, 'grad_norm': 1.887865424156189, 'learning_rate': 1.3725640045854031e-05, 'epoch': 1.1}
  5%|▍         | 3595/78504 [2:10:47<23:30:35,  1.13s/it]  5%|▍         | 3596/78504 [2:10:48<21:22:31,  1.03s/it]                                                         {'loss': 0.3701, 'grad_norm': 2.546576976776123, 'learning_rate': 1.372946121513183e-05, 'epoch': 1.1}
  5%|▍         | 3596/78504 [2:10:48<21:22:31,  1.03s/it]  5%|▍         | 3597/78504 [2:10:54<54:50:31,  2.64s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.48241159319877625, 'learning_rate': 1.3733282384409628e-05, 'epoch': 1.1}
  5%|▍         | 3597/78504 [2:10:54<54:50:31,  2.64s/it]  5%|▍         | 3598/78504 [2:10:57<58:45:54,  2.82s/it]                                                         {'loss': 0.1029, 'grad_norm': 0.41008830070495605, 'learning_rate': 1.3737103553687427e-05, 'epoch': 1.1}
  5%|▍         | 3598/78504 [2:10:57<58:45:54,  2.82s/it]  5%|▍         | 3599/78504 [2:11:00<57:11:11,  2.75s/it]                                                         {'loss': 0.1006, 'grad_norm': 0.8847017884254456, 'learning_rate': 1.374092472296523e-05, 'epoch': 1.1}
  5%|▍         | 3599/78504 [2:11:00<57:11:11,  2.75s/it]  5%|▍         | 3600/78504 [2:11:03<56:21:46,  2.71s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.35807421803474426, 'learning_rate': 1.3744745892243028e-05, 'epoch': 1.1}
  5%|▍         | 3600/78504 [2:11:03<56:21:46,  2.71s/it]  5%|▍         | 3601/78504 [2:11:05<54:54:32,  2.64s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.38815319538116455, 'learning_rate': 1.3748567061520827e-05, 'epoch': 1.1}
  5%|▍         | 3601/78504 [2:11:05<54:54:32,  2.64s/it]  5%|▍         | 3602/78504 [2:11:07<52:35:38,  2.53s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.4144587218761444, 'learning_rate': 1.3752388230798626e-05, 'epoch': 1.1}
  5%|▍         | 3602/78504 [2:11:07<52:35:38,  2.53s/it]  5%|▍         | 3603/78504 [2:11:10<51:19:54,  2.47s/it]                                                         {'loss': 0.0917, 'grad_norm': 0.5315117239952087, 'learning_rate': 1.3756209400076424e-05, 'epoch': 1.1}
  5%|▍         | 3603/78504 [2:11:10<51:19:54,  2.47s/it]  5%|▍         | 3604/78504 [2:11:12<49:01:34,  2.36s/it]                                                         {'loss': 0.103, 'grad_norm': 0.8662590384483337, 'learning_rate': 1.3760030569354223e-05, 'epoch': 1.1}
  5%|▍         | 3604/78504 [2:11:12<49:01:34,  2.36s/it]  5%|▍         | 3605/78504 [2:11:14<47:04:09,  2.26s/it]                                                         {'loss': 0.1116, 'grad_norm': 0.549457311630249, 'learning_rate': 1.3763851738632022e-05, 'epoch': 1.1}
  5%|▍         | 3605/78504 [2:11:14<47:04:09,  2.26s/it]  5%|▍         | 3606/78504 [2:11:16<46:17:43,  2.23s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.5030964612960815, 'learning_rate': 1.376767290790982e-05, 'epoch': 1.1}
  5%|▍         | 3606/78504 [2:11:16<46:17:43,  2.23s/it]  5%|▍         | 3607/78504 [2:11:18<45:02:22,  2.16s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.6444730758666992, 'learning_rate': 1.3771494077187621e-05, 'epoch': 1.1}
  5%|▍         | 3607/78504 [2:11:18<45:02:22,  2.16s/it]  5%|▍         | 3608/78504 [2:11:20<43:54:48,  2.11s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.6001731753349304, 'learning_rate': 1.377531524646542e-05, 'epoch': 1.1}
  5%|▍         | 3608/78504 [2:11:20<43:54:48,  2.11s/it]  5%|▍         | 3609/78504 [2:11:22<42:46:16,  2.06s/it]                                                         {'loss': 0.175, 'grad_norm': 0.533423662185669, 'learning_rate': 1.3779136415743218e-05, 'epoch': 1.1}
  5%|▍         | 3609/78504 [2:11:22<42:46:16,  2.06s/it]  5%|▍         | 3610/78504 [2:11:24<41:42:49,  2.01s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.8740178346633911, 'learning_rate': 1.3782957585021017e-05, 'epoch': 1.1}
  5%|▍         | 3610/78504 [2:11:24<41:42:49,  2.01s/it]  5%|▍         | 3611/78504 [2:11:26<40:13:42,  1.93s/it]                                                         {'loss': 0.1533, 'grad_norm': 0.6171881556510925, 'learning_rate': 1.3786778754298816e-05, 'epoch': 1.1}
  5%|▍         | 3611/78504 [2:11:26<40:13:42,  1.93s/it]  5%|▍         | 3612/78504 [2:11:27<38:27:28,  1.85s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.6815191507339478, 'learning_rate': 1.3790599923576615e-05, 'epoch': 1.1}
  5%|▍         | 3612/78504 [2:11:27<38:27:28,  1.85s/it]  5%|▍         | 3613/78504 [2:11:29<36:24:35,  1.75s/it]                                                         {'loss': 0.1923, 'grad_norm': 0.6901628971099854, 'learning_rate': 1.3794421092854413e-05, 'epoch': 1.1}
  5%|▍         | 3613/78504 [2:11:29<36:24:35,  1.75s/it]  5%|▍         | 3614/78504 [2:11:30<34:25:16,  1.65s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.1416395902633667, 'learning_rate': 1.3798242262132212e-05, 'epoch': 1.1}
  5%|▍         | 3614/78504 [2:11:30<34:25:16,  1.65s/it]  5%|▍         | 3615/78504 [2:11:32<32:54:27,  1.58s/it]                                                         {'loss': 0.2179, 'grad_norm': 1.0246989727020264, 'learning_rate': 1.3802063431410013e-05, 'epoch': 1.11}
  5%|▍         | 3615/78504 [2:11:32<32:54:27,  1.58s/it]  5%|▍         | 3616/78504 [2:11:33<31:00:18,  1.49s/it]                                                         {'loss': 0.2372, 'grad_norm': 1.0003010034561157, 'learning_rate': 1.3805884600687811e-05, 'epoch': 1.11}
  5%|▍         | 3616/78504 [2:11:33<31:00:18,  1.49s/it]  5%|▍         | 3617/78504 [2:11:34<28:50:41,  1.39s/it]                                                         {'loss': 0.2782, 'grad_norm': 1.061488389968872, 'learning_rate': 1.380970576996561e-05, 'epoch': 1.11}
  5%|▍         | 3617/78504 [2:11:34<28:50:41,  1.39s/it]  5%|▍         | 3618/78504 [2:11:35<27:02:10,  1.30s/it]                                                         {'loss': 0.2455, 'grad_norm': 1.0477124452590942, 'learning_rate': 1.3813526939243409e-05, 'epoch': 1.11}
  5%|▍         | 3618/78504 [2:11:35<27:02:10,  1.30s/it]  5%|▍         | 3619/78504 [2:11:36<25:03:27,  1.20s/it]                                                         {'loss': 0.2827, 'grad_norm': 1.3805516958236694, 'learning_rate': 1.3817348108521208e-05, 'epoch': 1.11}
  5%|▍         | 3619/78504 [2:11:36<25:03:27,  1.20s/it]  5%|▍         | 3620/78504 [2:11:37<23:20:18,  1.12s/it]                                                         {'loss': 0.3245, 'grad_norm': 1.802405834197998, 'learning_rate': 1.3821169277799006e-05, 'epoch': 1.11}
  5%|▍         | 3620/78504 [2:11:37<23:20:18,  1.12s/it]  5%|▍         | 3621/78504 [2:11:38<21:12:25,  1.02s/it]                                                         {'loss': 0.3701, 'grad_norm': 3.401224136352539, 'learning_rate': 1.3824990447076805e-05, 'epoch': 1.11}
  5%|▍         | 3621/78504 [2:11:38<21:12:25,  1.02s/it]  5%|▍         | 3622/78504 [2:11:45<61:54:05,  2.98s/it]                                                         {'loss': 0.168, 'grad_norm': 0.5032484531402588, 'learning_rate': 1.3828811616354604e-05, 'epoch': 1.11}
  5%|▍         | 3622/78504 [2:11:45<61:54:05,  2.98s/it]  5%|▍         | 3623/78504 [2:11:49<64:15:43,  3.09s/it]                                                         {'loss': 0.1297, 'grad_norm': 0.41003942489624023, 'learning_rate': 1.3832632785632404e-05, 'epoch': 1.11}
  5%|▍         | 3623/78504 [2:11:49<64:15:43,  3.09s/it]  5%|▍         | 3624/78504 [2:11:51<60:58:41,  2.93s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.36163872480392456, 'learning_rate': 1.3836453954910203e-05, 'epoch': 1.11}
  5%|▍         | 3624/78504 [2:11:51<60:58:41,  2.93s/it]  5%|▍         | 3625/78504 [2:11:54<59:02:06,  2.84s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.28793492913246155, 'learning_rate': 1.3840275124188002e-05, 'epoch': 1.11}
  5%|▍         | 3625/78504 [2:11:54<59:02:06,  2.84s/it]  5%|▍         | 3626/78504 [2:11:56<56:03:24,  2.70s/it]                                                         {'loss': 0.0712, 'grad_norm': 0.2873941659927368, 'learning_rate': 1.38440962934658e-05, 'epoch': 1.11}
  5%|▍         | 3626/78504 [2:11:56<56:03:24,  2.70s/it]  5%|▍         | 3627/78504 [2:11:58<53:23:05,  2.57s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.4013200104236603, 'learning_rate': 1.38479174627436e-05, 'epoch': 1.11}
  5%|▍         | 3627/78504 [2:11:58<53:23:05,  2.57s/it]  5%|▍         | 3628/78504 [2:12:01<51:50:22,  2.49s/it]                                                         {'loss': 0.1039, 'grad_norm': 0.6286357641220093, 'learning_rate': 1.3851738632021398e-05, 'epoch': 1.11}
  5%|▍         | 3628/78504 [2:12:01<51:50:22,  2.49s/it]  5%|▍         | 3629/78504 [2:12:03<49:21:04,  2.37s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.3838531970977783, 'learning_rate': 1.3855559801299197e-05, 'epoch': 1.11}
  5%|▍         | 3629/78504 [2:12:03<49:21:04,  2.37s/it]  5%|▍         | 3630/78504 [2:12:05<48:12:16,  2.32s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.37348291277885437, 'learning_rate': 1.3859380970576997e-05, 'epoch': 1.11}
  5%|▍         | 3630/78504 [2:12:05<48:12:16,  2.32s/it]  5%|▍         | 3631/78504 [2:12:07<47:06:57,  2.27s/it]                                                         {'loss': 0.118, 'grad_norm': 0.46390050649642944, 'learning_rate': 1.3863202139854796e-05, 'epoch': 1.11}
  5%|▍         | 3631/78504 [2:12:07<47:06:57,  2.27s/it]  5%|▍         | 3632/78504 [2:12:09<45:39:15,  2.20s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.6812679767608643, 'learning_rate': 1.3867023309132595e-05, 'epoch': 1.11}
  5%|▍         | 3632/78504 [2:12:09<45:39:15,  2.20s/it]  5%|▍         | 3633/78504 [2:12:11<44:18:39,  2.13s/it]                                                         {'loss': 0.1203, 'grad_norm': 0.39647936820983887, 'learning_rate': 1.3870844478410393e-05, 'epoch': 1.11}
  5%|▍         | 3633/78504 [2:12:11<44:18:39,  2.13s/it]  5%|▍         | 3634/78504 [2:12:13<42:40:22,  2.05s/it]                                                         {'loss': 0.113, 'grad_norm': 0.4959317147731781, 'learning_rate': 1.3874665647688192e-05, 'epoch': 1.11}
  5%|▍         | 3634/78504 [2:12:13<42:40:22,  2.05s/it]  5%|▍         | 3635/78504 [2:12:15<41:35:22,  2.00s/it]                                                         {'loss': 0.15, 'grad_norm': 1.0240930318832397, 'learning_rate': 1.3878486816965991e-05, 'epoch': 1.11}
  5%|▍         | 3635/78504 [2:12:15<41:35:22,  2.00s/it]  5%|▍         | 3636/78504 [2:12:17<39:53:14,  1.92s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.6616315841674805, 'learning_rate': 1.388230798624379e-05, 'epoch': 1.11}
  5%|▍         | 3636/78504 [2:12:17<39:53:14,  1.92s/it]  5%|▍         | 3637/78504 [2:12:18<38:10:39,  1.84s/it]                                                         {'loss': 0.2102, 'grad_norm': 0.7206836342811584, 'learning_rate': 1.3886129155521588e-05, 'epoch': 1.11}
  5%|▍         | 3637/78504 [2:12:18<38:10:39,  1.84s/it]  5%|▍         | 3638/78504 [2:12:20<36:20:56,  1.75s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.680724561214447, 'learning_rate': 1.388995032479939e-05, 'epoch': 1.11}
  5%|▍         | 3638/78504 [2:12:20<36:20:56,  1.75s/it]  5%|▍         | 3639/78504 [2:12:21<34:36:21,  1.66s/it]                                                         {'loss': 0.2645, 'grad_norm': 1.1669903993606567, 'learning_rate': 1.389377149407719e-05, 'epoch': 1.11}
  5%|▍         | 3639/78504 [2:12:21<34:36:21,  1.66s/it]  5%|▍         | 3640/78504 [2:12:23<32:53:09,  1.58s/it]                                                         {'loss': 0.2641, 'grad_norm': 0.904487133026123, 'learning_rate': 1.3897592663354988e-05, 'epoch': 1.11}
  5%|▍         | 3640/78504 [2:12:23<32:53:09,  1.58s/it]  5%|▍         | 3641/78504 [2:12:24<31:00:32,  1.49s/it]                                                         {'loss': 0.2042, 'grad_norm': 2.1362130641937256, 'learning_rate': 1.3901413832632787e-05, 'epoch': 1.11}
  5%|▍         | 3641/78504 [2:12:24<31:00:32,  1.49s/it]  5%|▍         | 3642/78504 [2:12:25<28:52:44,  1.39s/it]                                                         {'loss': 0.2549, 'grad_norm': 1.750469446182251, 'learning_rate': 1.3905235001910586e-05, 'epoch': 1.11}
  5%|▍         | 3642/78504 [2:12:25<28:52:44,  1.39s/it]  5%|▍         | 3643/78504 [2:12:26<27:08:29,  1.31s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.8521108031272888, 'learning_rate': 1.3909056171188384e-05, 'epoch': 1.11}
  5%|▍         | 3643/78504 [2:12:26<27:08:29,  1.31s/it]  5%|▍         | 3644/78504 [2:12:27<25:33:18,  1.23s/it]                                                         {'loss': 0.2374, 'grad_norm': 1.4793767929077148, 'learning_rate': 1.3912877340466183e-05, 'epoch': 1.11}
  5%|▍         | 3644/78504 [2:12:27<25:33:18,  1.23s/it]  5%|▍         | 3645/78504 [2:12:28<23:41:24,  1.14s/it]                                                         {'loss': 0.2933, 'grad_norm': 1.2826224565505981, 'learning_rate': 1.3916698509743982e-05, 'epoch': 1.11}
  5%|▍         | 3645/78504 [2:12:28<23:41:24,  1.14s/it]  5%|▍         | 3646/78504 [2:12:29<21:26:25,  1.03s/it]                                                         {'loss': 0.3919, 'grad_norm': 2.030794620513916, 'learning_rate': 1.3920519679021782e-05, 'epoch': 1.11}
  5%|▍         | 3646/78504 [2:12:29<21:26:25,  1.03s/it]  5%|▍         | 3647/78504 [2:12:37<64:08:24,  3.08s/it]                                                         {'loss': 0.2033, 'grad_norm': 0.6451963186264038, 'learning_rate': 1.3924340848299581e-05, 'epoch': 1.11}
  5%|▍         | 3647/78504 [2:12:37<64:08:24,  3.08s/it]  5%|▍         | 3648/78504 [2:12:40<64:27:30,  3.10s/it]                                                         {'loss': 0.1133, 'grad_norm': 0.3902256488800049, 'learning_rate': 1.392816201757738e-05, 'epoch': 1.12}
  5%|▍         | 3648/78504 [2:12:40<64:27:30,  3.10s/it]  5%|▍         | 3649/78504 [2:12:43<61:12:41,  2.94s/it]                                                         {'loss': 0.092, 'grad_norm': 0.39578482508659363, 'learning_rate': 1.3931983186855178e-05, 'epoch': 1.12}
  5%|▍         | 3649/78504 [2:12:43<61:12:41,  2.94s/it]  5%|▍         | 3650/78504 [2:12:45<59:11:14,  2.85s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.4145074784755707, 'learning_rate': 1.3935804356132977e-05, 'epoch': 1.12}
  5%|▍         | 3650/78504 [2:12:45<59:11:14,  2.85s/it]  5%|▍         | 3651/78504 [2:12:48<56:51:08,  2.73s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.3971862494945526, 'learning_rate': 1.3939625525410776e-05, 'epoch': 1.12}
  5%|▍         | 3651/78504 [2:12:48<56:51:08,  2.73s/it]  5%|▍         | 3652/78504 [2:12:50<53:57:34,  2.60s/it]                                                         {'loss': 0.093, 'grad_norm': 0.32055434584617615, 'learning_rate': 1.3943446694688575e-05, 'epoch': 1.12}
  5%|▍         | 3652/78504 [2:12:50<53:57:34,  2.60s/it]  5%|▍         | 3653/78504 [2:12:52<52:13:51,  2.51s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.3881145417690277, 'learning_rate': 1.3947267863966373e-05, 'epoch': 1.12}
  5%|▍         | 3653/78504 [2:12:52<52:13:51,  2.51s/it]  5%|▍         | 3654/78504 [2:12:54<49:47:12,  2.39s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.39582347869873047, 'learning_rate': 1.3951089033244174e-05, 'epoch': 1.12}
  5%|▍         | 3654/78504 [2:12:54<49:47:12,  2.39s/it]  5%|▍         | 3655/78504 [2:12:57<48:28:25,  2.33s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.44554805755615234, 'learning_rate': 1.3954910202521973e-05, 'epoch': 1.12}
  5%|▍         | 3655/78504 [2:12:57<48:28:25,  2.33s/it]  5%|▍         | 3656/78504 [2:12:59<47:29:04,  2.28s/it]                                                         {'loss': 0.1108, 'grad_norm': 0.3877214193344116, 'learning_rate': 1.3958731371799771e-05, 'epoch': 1.12}
  5%|▍         | 3656/78504 [2:12:59<47:29:04,  2.28s/it]  5%|▍         | 3657/78504 [2:13:01<45:55:38,  2.21s/it]                                                         {'loss': 0.1079, 'grad_norm': 0.40304115414619446, 'learning_rate': 1.396255254107757e-05, 'epoch': 1.12}
  5%|▍         | 3657/78504 [2:13:01<45:55:38,  2.21s/it]  5%|▍         | 3658/78504 [2:13:03<44:27:34,  2.14s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.577410101890564, 'learning_rate': 1.3966373710355369e-05, 'epoch': 1.12}
  5%|▍         | 3658/78504 [2:13:03<44:27:34,  2.14s/it]  5%|▍         | 3659/78504 [2:13:05<42:55:20,  2.06s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.5461241602897644, 'learning_rate': 1.3970194879633168e-05, 'epoch': 1.12}
  5%|▍         | 3659/78504 [2:13:05<42:55:20,  2.06s/it]  5%|▍         | 3660/78504 [2:13:07<41:43:03,  2.01s/it]                                                         {'loss': 0.129, 'grad_norm': 0.6546995043754578, 'learning_rate': 1.3974016048910966e-05, 'epoch': 1.12}
  5%|▍         | 3660/78504 [2:13:07<41:43:03,  2.01s/it]  5%|▍         | 3661/78504 [2:13:08<40:11:22,  1.93s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.6424639225006104, 'learning_rate': 1.3977837218188767e-05, 'epoch': 1.12}
  5%|▍         | 3661/78504 [2:13:08<40:11:22,  1.93s/it]  5%|▍         | 3662/78504 [2:13:10<38:02:00,  1.83s/it]                                                         {'loss': 0.1685, 'grad_norm': 0.5914255380630493, 'learning_rate': 1.3981658387466565e-05, 'epoch': 1.12}
  5%|▍         | 3662/78504 [2:13:10<38:02:00,  1.83s/it]  5%|▍         | 3663/78504 [2:13:11<36:13:11,  1.74s/it]                                                         {'loss': 0.2215, 'grad_norm': 0.8409000039100647, 'learning_rate': 1.3985479556744364e-05, 'epoch': 1.12}
  5%|▍         | 3663/78504 [2:13:11<36:13:11,  1.74s/it]  5%|▍         | 3664/78504 [2:13:13<34:43:04,  1.67s/it]                                                         {'loss': 0.23, 'grad_norm': 1.6313433647155762, 'learning_rate': 1.3989300726022163e-05, 'epoch': 1.12}
  5%|▍         | 3664/78504 [2:13:13<34:43:04,  1.67s/it]  5%|▍         | 3665/78504 [2:13:14<33:01:59,  1.59s/it]                                                         {'loss': 0.2229, 'grad_norm': 1.259299635887146, 'learning_rate': 1.3993121895299962e-05, 'epoch': 1.12}
  5%|▍         | 3665/78504 [2:13:14<33:01:59,  1.59s/it]  5%|▍         | 3666/78504 [2:13:16<31:08:13,  1.50s/it]                                                         {'loss': 0.2353, 'grad_norm': 1.0495622158050537, 'learning_rate': 1.399694306457776e-05, 'epoch': 1.12}
  5%|▍         | 3666/78504 [2:13:16<31:08:13,  1.50s/it]  5%|▍         | 3667/78504 [2:13:17<29:00:01,  1.40s/it]                                                         {'loss': 0.2809, 'grad_norm': 1.0486443042755127, 'learning_rate': 1.400076423385556e-05, 'epoch': 1.12}
  5%|▍         | 3667/78504 [2:13:17<29:00:01,  1.40s/it]  5%|▍         | 3668/78504 [2:13:18<27:05:03,  1.30s/it]                                                         {'loss': 0.2244, 'grad_norm': 1.0372015237808228, 'learning_rate': 1.4004585403133358e-05, 'epoch': 1.12}
  5%|▍         | 3668/78504 [2:13:18<27:05:03,  1.30s/it]  5%|▍         | 3669/78504 [2:13:19<25:28:04,  1.23s/it]                                                         {'loss': 0.2816, 'grad_norm': 1.3866404294967651, 'learning_rate': 1.4008406572411158e-05, 'epoch': 1.12}
  5%|▍         | 3669/78504 [2:13:19<25:28:04,  1.23s/it]  5%|▍         | 3670/78504 [2:13:20<23:36:00,  1.14s/it]                                                         {'loss': 0.2561, 'grad_norm': 1.1129133701324463, 'learning_rate': 1.4012227741688957e-05, 'epoch': 1.12}
  5%|▍         | 3670/78504 [2:13:20<23:36:00,  1.14s/it]  5%|▍         | 3671/78504 [2:13:21<21:23:42,  1.03s/it]                                                         {'loss': 0.337, 'grad_norm': 3.368788719177246, 'learning_rate': 1.4016048910966756e-05, 'epoch': 1.12}
  5%|▍         | 3671/78504 [2:13:21<21:23:42,  1.03s/it]  5%|▍         | 3672/78504 [2:13:30<72:00:32,  3.46s/it]                                                         {'loss': 0.1963, 'grad_norm': 0.5434319972991943, 'learning_rate': 1.4019870080244555e-05, 'epoch': 1.12}
  5%|▍         | 3672/78504 [2:13:30<72:00:32,  3.46s/it]  5%|▍         | 3673/78504 [2:13:33<71:18:27,  3.43s/it]                                                         {'loss': 0.1113, 'grad_norm': 0.37834519147872925, 'learning_rate': 1.4023691249522353e-05, 'epoch': 1.12}
  5%|▍         | 3673/78504 [2:13:33<71:18:27,  3.43s/it]  5%|▍         | 3674/78504 [2:13:36<67:14:58,  3.24s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.2956380248069763, 'learning_rate': 1.4027512418800152e-05, 'epoch': 1.12}
  5%|▍         | 3674/78504 [2:13:36<67:14:58,  3.24s/it]  5%|▍         | 3675/78504 [2:13:38<63:09:33,  3.04s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.3306541442871094, 'learning_rate': 1.4031333588077951e-05, 'epoch': 1.12}
  5%|▍         | 3675/78504 [2:13:39<63:09:33,  3.04s/it]  5%|▍         | 3676/78504 [2:13:41<59:36:53,  2.87s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.33198100328445435, 'learning_rate': 1.4035154757355751e-05, 'epoch': 1.12}
  5%|▍         | 3676/78504 [2:13:41<59:36:53,  2.87s/it]  5%|▍         | 3677/78504 [2:13:43<55:53:50,  2.69s/it]                                                         {'loss': 0.0745, 'grad_norm': 0.4119931757450104, 'learning_rate': 1.4038975926633552e-05, 'epoch': 1.12}
  5%|▍         | 3677/78504 [2:13:43<55:53:50,  2.69s/it]  5%|▍         | 3678/78504 [2:13:46<53:35:47,  2.58s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.3792274594306946, 'learning_rate': 1.404279709591135e-05, 'epoch': 1.12}
  5%|▍         | 3678/78504 [2:13:46<53:35:47,  2.58s/it]  5%|▍         | 3679/78504 [2:13:48<50:41:26,  2.44s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.44131675362586975, 'learning_rate': 1.404661826518915e-05, 'epoch': 1.12}
  5%|▍         | 3679/78504 [2:13:48<50:41:26,  2.44s/it]  5%|▍         | 3680/78504 [2:13:50<49:07:52,  2.36s/it]                                                         {'loss': 0.106, 'grad_norm': 0.5058593153953552, 'learning_rate': 1.4050439434466948e-05, 'epoch': 1.13}
  5%|▍         | 3680/78504 [2:13:50<49:07:52,  2.36s/it]  5%|▍         | 3681/78504 [2:13:52<47:47:05,  2.30s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.3046987056732178, 'learning_rate': 1.4054260603744747e-05, 'epoch': 1.13}
  5%|▍         | 3681/78504 [2:13:52<47:47:05,  2.30s/it]  5%|▍         | 3682/78504 [2:13:54<45:04:27,  2.17s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.5419811010360718, 'learning_rate': 1.4058081773022545e-05, 'epoch': 1.13}
  5%|▍         | 3682/78504 [2:13:54<45:04:27,  2.17s/it]  5%|▍         | 3683/78504 [2:13:56<43:58:27,  2.12s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.5876270532608032, 'learning_rate': 1.4061902942300344e-05, 'epoch': 1.13}
  5%|▍         | 3683/78504 [2:13:56<43:58:27,  2.12s/it]  5%|▍         | 3684/78504 [2:13:58<42:32:46,  2.05s/it]                                                         {'loss': 0.1252, 'grad_norm': 1.0583444833755493, 'learning_rate': 1.4065724111578143e-05, 'epoch': 1.13}
  5%|▍         | 3684/78504 [2:13:58<42:32:46,  2.05s/it]  5%|▍         | 3685/78504 [2:14:00<41:39:31,  2.00s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.5101488828659058, 'learning_rate': 1.4069545280855943e-05, 'epoch': 1.13}
  5%|▍         | 3685/78504 [2:14:00<41:39:31,  2.00s/it]  5%|▍         | 3686/78504 [2:14:01<40:10:30,  1.93s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.6470577716827393, 'learning_rate': 1.4073366450133742e-05, 'epoch': 1.13}
  5%|▍         | 3686/78504 [2:14:01<40:10:30,  1.93s/it]  5%|▍         | 3687/78504 [2:14:03<37:56:17,  1.83s/it]                                                         {'loss': 0.1645, 'grad_norm': 0.5712004899978638, 'learning_rate': 1.4077187619411541e-05, 'epoch': 1.13}
  5%|▍         | 3687/78504 [2:14:03<37:56:17,  1.83s/it]  5%|▍         | 3688/78504 [2:14:05<36:10:15,  1.74s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.6475619673728943, 'learning_rate': 1.408100878868934e-05, 'epoch': 1.13}
  5%|▍         | 3688/78504 [2:14:05<36:10:15,  1.74s/it]  5%|▍         | 3689/78504 [2:14:06<34:29:01,  1.66s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.6398759484291077, 'learning_rate': 1.4084829957967138e-05, 'epoch': 1.13}
  5%|▍         | 3689/78504 [2:14:06<34:29:01,  1.66s/it]  5%|▍         | 3690/78504 [2:14:07<32:57:34,  1.59s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.77228844165802, 'learning_rate': 1.4088651127244937e-05, 'epoch': 1.13}
  5%|▍         | 3690/78504 [2:14:07<32:57:34,  1.59s/it]  5%|▍         | 3691/78504 [2:14:09<31:03:54,  1.49s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.9232661724090576, 'learning_rate': 1.4092472296522736e-05, 'epoch': 1.13}
  5%|▍         | 3691/78504 [2:14:09<31:03:54,  1.49s/it]  5%|▍         | 3692/78504 [2:14:10<28:56:18,  1.39s/it]                                                         {'loss': 0.2534, 'grad_norm': 0.9136829972267151, 'learning_rate': 1.4096293465800536e-05, 'epoch': 1.13}
  5%|▍         | 3692/78504 [2:14:10<28:56:18,  1.39s/it]  5%|▍         | 3693/78504 [2:14:11<27:05:14,  1.30s/it]                                                         {'loss': 0.2161, 'grad_norm': 0.9057154655456543, 'learning_rate': 1.4100114635078335e-05, 'epoch': 1.13}
  5%|▍         | 3693/78504 [2:14:11<27:05:14,  1.30s/it]  5%|▍         | 3694/78504 [2:14:12<25:09:37,  1.21s/it]                                                         {'loss': 0.2473, 'grad_norm': 0.972487211227417, 'learning_rate': 1.4103935804356134e-05, 'epoch': 1.13}
  5%|▍         | 3694/78504 [2:14:12<25:09:37,  1.21s/it]  5%|▍         | 3695/78504 [2:14:13<23:27:26,  1.13s/it]                                                         {'loss': 0.3219, 'grad_norm': 1.4198299646377563, 'learning_rate': 1.4107756973633933e-05, 'epoch': 1.13}
  5%|▍         | 3695/78504 [2:14:13<23:27:26,  1.13s/it]  5%|▍         | 3696/78504 [2:14:14<21:29:40,  1.03s/it]                                                         {'loss': 0.3769, 'grad_norm': 1.7074863910675049, 'learning_rate': 1.4111578142911731e-05, 'epoch': 1.13}
  5%|▍         | 3696/78504 [2:14:14<21:29:40,  1.03s/it]  5%|▍         | 3697/78504 [2:14:22<68:49:36,  3.31s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.6387917995452881, 'learning_rate': 1.411539931218953e-05, 'epoch': 1.13}
  5%|▍         | 3697/78504 [2:14:22<68:49:36,  3.31s/it]  5%|▍         | 3698/78504 [2:14:26<69:11:49,  3.33s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.5965946912765503, 'learning_rate': 1.4119220481467329e-05, 'epoch': 1.13}
  5%|▍         | 3698/78504 [2:14:26<69:11:49,  3.33s/it]  5%|▍         | 3699/78504 [2:14:29<66:43:12,  3.21s/it]                                                         {'loss': 0.0877, 'grad_norm': 1.1823596954345703, 'learning_rate': 1.4123041650745127e-05, 'epoch': 1.13}
  5%|▍         | 3699/78504 [2:14:29<66:43:12,  3.21s/it]  5%|▍         | 3700/78504 [2:14:31<63:01:04,  3.03s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.3112819194793701, 'learning_rate': 1.4126862820022928e-05, 'epoch': 1.13}
  5%|▍         | 3700/78504 [2:14:31<63:01:04,  3.03s/it]  5%|▍         | 3701/78504 [2:14:34<59:33:54,  2.87s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.31130290031433105, 'learning_rate': 1.4130683989300727e-05, 'epoch': 1.13}
  5%|▍         | 3701/78504 [2:14:34<59:33:54,  2.87s/it]  5%|▍         | 3702/78504 [2:14:36<55:50:34,  2.69s/it]                                                         {'loss': 0.062, 'grad_norm': 0.2719098627567291, 'learning_rate': 1.4134505158578525e-05, 'epoch': 1.13}
  5%|▍         | 3702/78504 [2:14:36<55:50:34,  2.69s/it]  5%|▍         | 3703/78504 [2:14:38<53:33:44,  2.58s/it]                                                         {'loss': 0.1237, 'grad_norm': 0.5055156350135803, 'learning_rate': 1.4138326327856324e-05, 'epoch': 1.13}
  5%|▍         | 3703/78504 [2:14:38<53:33:44,  2.58s/it]  5%|▍         | 3704/78504 [2:14:40<50:33:38,  2.43s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.7972448468208313, 'learning_rate': 1.4142147497134123e-05, 'epoch': 1.13}
  5%|▍         | 3704/78504 [2:14:40<50:33:38,  2.43s/it]  5%|▍         | 3705/78504 [2:14:43<49:01:05,  2.36s/it]                                                         {'loss': 0.0997, 'grad_norm': 0.8571481704711914, 'learning_rate': 1.4145968666411922e-05, 'epoch': 1.13}
  5%|▍         | 3705/78504 [2:14:43<49:01:05,  2.36s/it]  5%|▍         | 3706/78504 [2:14:45<47:42:00,  2.30s/it]                                                         {'loss': 0.0862, 'grad_norm': 0.7544311881065369, 'learning_rate': 1.414978983568972e-05, 'epoch': 1.13}
  5%|▍         | 3706/78504 [2:14:45<47:42:00,  2.30s/it]  5%|▍         | 3707/78504 [2:14:47<46:00:22,  2.21s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.4160862863063812, 'learning_rate': 1.4153611004967519e-05, 'epoch': 1.13}
  5%|▍         | 3707/78504 [2:14:47<46:00:22,  2.21s/it]  5%|▍         | 3708/78504 [2:14:49<44:35:31,  2.15s/it]                                                         {'loss': 0.1184, 'grad_norm': 0.9249362945556641, 'learning_rate': 1.415743217424532e-05, 'epoch': 1.13}
  5%|▍         | 3708/78504 [2:14:49<44:35:31,  2.15s/it]  5%|▍         | 3709/78504 [2:14:51<42:50:53,  2.06s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.41892093420028687, 'learning_rate': 1.4161253343523118e-05, 'epoch': 1.13}
  5%|▍         | 3709/78504 [2:14:51<42:50:53,  2.06s/it]  5%|▍         | 3710/78504 [2:14:52<41:28:12,  2.00s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.9017132520675659, 'learning_rate': 1.4165074512800917e-05, 'epoch': 1.13}
  5%|▍         | 3710/78504 [2:14:52<41:28:12,  2.00s/it]  5%|▍         | 3711/78504 [2:14:54<40:06:21,  1.93s/it]                                                         {'loss': 0.1894, 'grad_norm': 0.6710590720176697, 'learning_rate': 1.4168895682078716e-05, 'epoch': 1.13}
  5%|▍         | 3711/78504 [2:14:54<40:06:21,  1.93s/it]  5%|▍         | 3712/78504 [2:14:56<38:21:07,  1.85s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.6322555541992188, 'learning_rate': 1.4172716851356515e-05, 'epoch': 1.13}
  5%|▍         | 3712/78504 [2:14:56<38:21:07,  1.85s/it]  5%|▍         | 3713/78504 [2:14:57<36:28:21,  1.76s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.8428823947906494, 'learning_rate': 1.4176538020634313e-05, 'epoch': 1.14}
  5%|▍         | 3713/78504 [2:14:57<36:28:21,  1.76s/it]  5%|▍         | 3714/78504 [2:14:59<34:39:36,  1.67s/it]                                                         {'loss': 0.2289, 'grad_norm': 0.9170833230018616, 'learning_rate': 1.4180359189912112e-05, 'epoch': 1.14}
  5%|▍         | 3714/78504 [2:14:59<34:39:36,  1.67s/it]  5%|▍         | 3715/78504 [2:15:00<33:08:33,  1.60s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.7728933691978455, 'learning_rate': 1.4184180359189912e-05, 'epoch': 1.14}
  5%|▍         | 3715/78504 [2:15:00<33:08:33,  1.60s/it]  5%|▍         | 3716/78504 [2:15:02<31:11:26,  1.50s/it]                                                         {'loss': 0.227, 'grad_norm': 0.8760802745819092, 'learning_rate': 1.4188001528467713e-05, 'epoch': 1.14}
  5%|▍         | 3716/78504 [2:15:02<31:11:26,  1.50s/it]  5%|▍         | 3717/78504 [2:15:03<28:51:37,  1.39s/it]                                                         {'loss': 0.2419, 'grad_norm': 1.0362374782562256, 'learning_rate': 1.4191822697745512e-05, 'epoch': 1.14}
  5%|▍         | 3717/78504 [2:15:03<28:51:37,  1.39s/it]  5%|▍         | 3718/78504 [2:15:04<27:01:18,  1.30s/it]                                                         {'loss': 0.2445, 'grad_norm': 0.9934778213500977, 'learning_rate': 1.419564386702331e-05, 'epoch': 1.14}
  5%|▍         | 3718/78504 [2:15:04<27:01:18,  1.30s/it]  5%|▍         | 3719/78504 [2:15:05<25:04:51,  1.21s/it]                                                         {'loss': 0.2676, 'grad_norm': 0.9961568713188171, 'learning_rate': 1.419946503630111e-05, 'epoch': 1.14}
  5%|▍         | 3719/78504 [2:15:05<25:04:51,  1.21s/it]  5%|▍         | 3720/78504 [2:15:06<23:20:47,  1.12s/it]                                                         {'loss': 0.2487, 'grad_norm': 1.074027419090271, 'learning_rate': 1.4203286205578908e-05, 'epoch': 1.14}
  5%|▍         | 3720/78504 [2:15:06<23:20:47,  1.12s/it]  5%|▍         | 3721/78504 [2:15:07<21:15:05,  1.02s/it]                                                         {'loss': 0.3258, 'grad_norm': 1.5971406698226929, 'learning_rate': 1.4207107374856707e-05, 'epoch': 1.14}
  5%|▍         | 3721/78504 [2:15:07<21:15:05,  1.02s/it]  5%|▍         | 3722/78504 [2:15:17<77:18:13,  3.72s/it]                                                         {'loss': 0.1699, 'grad_norm': 0.5217958092689514, 'learning_rate': 1.4210928544134505e-05, 'epoch': 1.14}
  5%|▍         | 3722/78504 [2:15:17<77:18:13,  3.72s/it]  5%|▍         | 3723/78504 [2:15:20<73:32:17,  3.54s/it]                                                         {'loss': 0.1048, 'grad_norm': 0.3537219762802124, 'learning_rate': 1.4214749713412306e-05, 'epoch': 1.14}
  5%|▍         | 3723/78504 [2:15:20<73:32:17,  3.54s/it]  5%|▍         | 3724/78504 [2:15:23<70:19:28,  3.39s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.3402404189109802, 'learning_rate': 1.4218570882690105e-05, 'epoch': 1.14}
  5%|▍         | 3724/78504 [2:15:23<70:19:28,  3.39s/it]  5%|▍         | 3725/78504 [2:15:25<64:20:16,  3.10s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.40692827105522156, 'learning_rate': 1.4222392051967903e-05, 'epoch': 1.14}
  5%|▍         | 3725/78504 [2:15:25<64:20:16,  3.10s/it]  5%|▍         | 3726/78504 [2:15:28<60:27:11,  2.91s/it]                                                         {'loss': 0.0859, 'grad_norm': 0.3845665156841278, 'learning_rate': 1.4226213221245702e-05, 'epoch': 1.14}
  5%|▍         | 3726/78504 [2:15:28<60:27:11,  2.91s/it]  5%|▍         | 3727/78504 [2:15:30<56:27:51,  2.72s/it]                                                         {'loss': 0.072, 'grad_norm': 0.3267472982406616, 'learning_rate': 1.42300343905235e-05, 'epoch': 1.14}
  5%|▍         | 3727/78504 [2:15:30<56:27:51,  2.72s/it]  5%|▍         | 3728/78504 [2:15:32<53:58:58,  2.60s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.29019439220428467, 'learning_rate': 1.42338555598013e-05, 'epoch': 1.14}
  5%|▍         | 3728/78504 [2:15:32<53:58:58,  2.60s/it]  5%|▍         | 3729/78504 [2:15:34<50:59:07,  2.45s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.3384203016757965, 'learning_rate': 1.4237676729079098e-05, 'epoch': 1.14}
  5%|▍         | 3729/78504 [2:15:34<50:59:07,  2.45s/it]  5%|▍         | 3730/78504 [2:15:36<49:17:36,  2.37s/it]                                                         {'loss': 0.0686, 'grad_norm': 0.3508310616016388, 'learning_rate': 1.4241497898356897e-05, 'epoch': 1.14}
  5%|▍         | 3730/78504 [2:15:37<49:17:36,  2.37s/it]  5%|▍         | 3731/78504 [2:15:39<47:59:59,  2.31s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.4534098505973816, 'learning_rate': 1.4245319067634697e-05, 'epoch': 1.14}
  5%|▍         | 3731/78504 [2:15:39<47:59:59,  2.31s/it]  5%|▍         | 3732/78504 [2:15:41<45:16:39,  2.18s/it]                                                         {'loss': 0.1244, 'grad_norm': 0.5458396077156067, 'learning_rate': 1.4249140236912496e-05, 'epoch': 1.14}
  5%|▍         | 3732/78504 [2:15:41<45:16:39,  2.18s/it]  5%|▍         | 3733/78504 [2:15:43<44:01:27,  2.12s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.5063936114311218, 'learning_rate': 1.4252961406190295e-05, 'epoch': 1.14}
  5%|▍         | 3733/78504 [2:15:43<44:01:27,  2.12s/it]  5%|▍         | 3734/78504 [2:15:44<42:29:09,  2.05s/it]                                                         {'loss': 0.1058, 'grad_norm': 0.5140089988708496, 'learning_rate': 1.4256782575468094e-05, 'epoch': 1.14}
  5%|▍         | 3734/78504 [2:15:44<42:29:09,  2.05s/it]  5%|▍         | 3735/78504 [2:15:46<41:28:43,  2.00s/it]                                                         {'loss': 0.1545, 'grad_norm': 0.5799130201339722, 'learning_rate': 1.4260603744745892e-05, 'epoch': 1.14}
  5%|▍         | 3735/78504 [2:15:46<41:28:43,  2.00s/it]  5%|▍         | 3736/78504 [2:15:48<39:42:18,  1.91s/it]                                                         {'loss': 0.139, 'grad_norm': 0.5863983035087585, 'learning_rate': 1.4264424914023691e-05, 'epoch': 1.14}
  5%|▍         | 3736/78504 [2:15:48<39:42:18,  1.91s/it]  5%|▍         | 3737/78504 [2:15:50<38:06:55,  1.84s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.8592391014099121, 'learning_rate': 1.426824608330149e-05, 'epoch': 1.14}
  5%|▍         | 3737/78504 [2:15:50<38:06:55,  1.84s/it]  5%|▍         | 3738/78504 [2:15:51<36:18:45,  1.75s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7722941040992737, 'learning_rate': 1.4272067252579289e-05, 'epoch': 1.14}
  5%|▍         | 3738/78504 [2:15:51<36:18:45,  1.75s/it]  5%|▍         | 3739/78504 [2:15:53<34:30:45,  1.66s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.8423188924789429, 'learning_rate': 1.4275888421857089e-05, 'epoch': 1.14}
  5%|▍         | 3739/78504 [2:15:53<34:30:45,  1.66s/it]  5%|▍         | 3740/78504 [2:15:54<32:46:02,  1.58s/it]                                                         {'loss': 0.214, 'grad_norm': 0.7528480887413025, 'learning_rate': 1.4279709591134888e-05, 'epoch': 1.14}
  5%|▍         | 3740/78504 [2:15:54<32:46:02,  1.58s/it]  5%|▍         | 3741/78504 [2:15:55<31:01:09,  1.49s/it]                                                         {'loss': 0.2246, 'grad_norm': 0.904456377029419, 'learning_rate': 1.4283530760412687e-05, 'epoch': 1.14}
  5%|▍         | 3741/78504 [2:15:55<31:01:09,  1.49s/it]  5%|▍         | 3742/78504 [2:15:56<28:52:49,  1.39s/it]                                                         {'loss': 0.2854, 'grad_norm': 0.9289185404777527, 'learning_rate': 1.4287351929690485e-05, 'epoch': 1.14}
  5%|▍         | 3742/78504 [2:15:56<28:52:49,  1.39s/it]  5%|▍         | 3743/78504 [2:15:58<27:05:42,  1.30s/it]                                                         {'loss': 0.2564, 'grad_norm': 1.1075178384780884, 'learning_rate': 1.4291173098968284e-05, 'epoch': 1.14}
  5%|▍         | 3743/78504 [2:15:58<27:05:42,  1.30s/it]  5%|▍         | 3744/78504 [2:15:59<25:08:57,  1.21s/it]                                                         {'loss': 0.261, 'grad_norm': 1.0858914852142334, 'learning_rate': 1.4294994268246083e-05, 'epoch': 1.14}
  5%|▍         | 3744/78504 [2:15:59<25:08:57,  1.21s/it]  5%|▍         | 3745/78504 [2:15:59<23:23:30,  1.13s/it]                                                         {'loss': 0.3014, 'grad_norm': 1.350962519645691, 'learning_rate': 1.4298815437523882e-05, 'epoch': 1.14}
  5%|▍         | 3745/78504 [2:16:00<23:23:30,  1.13s/it]  5%|▍         | 3746/78504 [2:16:00<21:24:41,  1.03s/it]                                                         {'loss': 0.2989, 'grad_norm': 1.9445886611938477, 'learning_rate': 1.430263660680168e-05, 'epoch': 1.15}
  5%|▍         | 3746/78504 [2:16:00<21:24:41,  1.03s/it]  5%|▍         | 3747/78504 [2:16:09<72:02:45,  3.47s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.6232193112373352, 'learning_rate': 1.430645777607948e-05, 'epoch': 1.15}
  5%|▍         | 3747/78504 [2:16:09<72:02:45,  3.47s/it]  5%|▍         | 3748/78504 [2:16:13<69:53:21,  3.37s/it]                                                         {'loss': 0.0993, 'grad_norm': 0.3223530054092407, 'learning_rate': 1.431027894535728e-05, 'epoch': 1.15}
  5%|▍         | 3748/78504 [2:16:13<69:53:21,  3.37s/it]  5%|▍         | 3749/78504 [2:16:16<67:31:33,  3.25s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.4407971203327179, 'learning_rate': 1.4314100114635078e-05, 'epoch': 1.15}
  5%|▍         | 3749/78504 [2:16:16<67:31:33,  3.25s/it]  5%|▍         | 3750/78504 [2:16:18<63:27:44,  3.06s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.47916993498802185, 'learning_rate': 1.4317921283912877e-05, 'epoch': 1.15}
  5%|▍         | 3750/78504 [2:16:18<63:27:44,  3.06s/it]  5%|▍         | 3751/78504 [2:16:21<59:48:38,  2.88s/it]                                                         {'loss': 0.0626, 'grad_norm': 0.37353837490081787, 'learning_rate': 1.4321742453190676e-05, 'epoch': 1.15}
  5%|▍         | 3751/78504 [2:16:21<59:48:38,  2.88s/it]  5%|▍         | 3752/78504 [2:16:23<56:01:52,  2.70s/it]                                                         {'loss': 0.0745, 'grad_norm': 0.3603862524032593, 'learning_rate': 1.4325563622468475e-05, 'epoch': 1.15}
  5%|▍         | 3752/78504 [2:16:23<56:01:52,  2.70s/it]  5%|▍         | 3753/78504 [2:16:25<53:41:52,  2.59s/it]                                                         {'loss': 0.08, 'grad_norm': 0.534824788570404, 'learning_rate': 1.4329384791746273e-05, 'epoch': 1.15}
  5%|▍         | 3753/78504 [2:16:25<53:41:52,  2.59s/it]  5%|▍         | 3754/78504 [2:16:27<50:39:31,  2.44s/it]                                                         {'loss': 0.1288, 'grad_norm': 0.5972107648849487, 'learning_rate': 1.4333205961024074e-05, 'epoch': 1.15}
  5%|▍         | 3754/78504 [2:16:27<50:39:31,  2.44s/it]  5%|▍         | 3755/78504 [2:16:30<49:06:27,  2.37s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.4657822251319885, 'learning_rate': 1.4337027130301874e-05, 'epoch': 1.15}
  5%|▍         | 3755/78504 [2:16:30<49:06:27,  2.37s/it]  5%|▍         | 3756/78504 [2:16:32<47:42:46,  2.30s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.458296537399292, 'learning_rate': 1.4340848299579673e-05, 'epoch': 1.15}
  5%|▍         | 3756/78504 [2:16:32<47:42:46,  2.30s/it]  5%|▍         | 3757/78504 [2:16:34<46:02:26,  2.22s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.4565827250480652, 'learning_rate': 1.4344669468857472e-05, 'epoch': 1.15}
  5%|▍         | 3757/78504 [2:16:34<46:02:26,  2.22s/it]  5%|▍         | 3758/78504 [2:16:36<44:34:52,  2.15s/it]                                                         {'loss': 0.1126, 'grad_norm': 0.4581966698169708, 'learning_rate': 1.434849063813527e-05, 'epoch': 1.15}
  5%|▍         | 3758/78504 [2:16:36<44:34:52,  2.15s/it]  5%|▍         | 3759/78504 [2:16:38<42:49:44,  2.06s/it]                                                         {'loss': 0.131, 'grad_norm': 0.8127873539924622, 'learning_rate': 1.4352311807413069e-05, 'epoch': 1.15}
  5%|▍         | 3759/78504 [2:16:38<42:49:44,  2.06s/it]  5%|▍         | 3760/78504 [2:16:39<41:27:10,  2.00s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.8841579556465149, 'learning_rate': 1.4356132976690868e-05, 'epoch': 1.15}
  5%|▍         | 3760/78504 [2:16:39<41:27:10,  2.00s/it]  5%|▍         | 3761/78504 [2:16:41<39:47:12,  1.92s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.8788304328918457, 'learning_rate': 1.4359954145968667e-05, 'epoch': 1.15}
  5%|▍         | 3761/78504 [2:16:41<39:47:12,  1.92s/it]  5%|▍         | 3762/78504 [2:16:43<38:04:38,  1.83s/it]                                                         {'loss': 0.1716, 'grad_norm': 0.6276860237121582, 'learning_rate': 1.4363775315246467e-05, 'epoch': 1.15}
  5%|▍         | 3762/78504 [2:16:43<38:04:38,  1.83s/it]  5%|▍         | 3763/78504 [2:16:44<36:15:32,  1.75s/it]                                                         {'loss': 0.1931, 'grad_norm': 2.947676658630371, 'learning_rate': 1.4367596484524266e-05, 'epoch': 1.15}
  5%|▍         | 3763/78504 [2:16:44<36:15:32,  1.75s/it]  5%|▍         | 3764/78504 [2:16:46<34:16:41,  1.65s/it]                                                         {'loss': 0.2236, 'grad_norm': 0.9101258516311646, 'learning_rate': 1.4371417653802065e-05, 'epoch': 1.15}
  5%|▍         | 3764/78504 [2:16:46<34:16:41,  1.65s/it]  5%|▍         | 3765/78504 [2:16:47<32:46:07,  1.58s/it]                                                         {'loss': 0.2292, 'grad_norm': 1.435482144355774, 'learning_rate': 1.4375238823079863e-05, 'epoch': 1.15}
  5%|▍         | 3765/78504 [2:16:47<32:46:07,  1.58s/it]  5%|▍         | 3766/78504 [2:16:48<30:53:44,  1.49s/it]                                                         {'loss': 0.2485, 'grad_norm': 1.0214934349060059, 'learning_rate': 1.4379059992357662e-05, 'epoch': 1.15}
  5%|▍         | 3766/78504 [2:16:48<30:53:44,  1.49s/it]  5%|▍         | 3767/78504 [2:16:50<28:46:54,  1.39s/it]                                                         {'loss': 0.2272, 'grad_norm': 1.0099118947982788, 'learning_rate': 1.438288116163546e-05, 'epoch': 1.15}
  5%|▍         | 3767/78504 [2:16:50<28:46:54,  1.39s/it]  5%|▍         | 3768/78504 [2:16:51<26:56:59,  1.30s/it]                                                         {'loss': 0.2511, 'grad_norm': 1.31706702709198, 'learning_rate': 1.438670233091326e-05, 'epoch': 1.15}
  5%|▍         | 3768/78504 [2:16:51<26:56:59,  1.30s/it]  5%|▍         | 3769/78504 [2:16:52<25:23:48,  1.22s/it]                                                         {'loss': 0.2787, 'grad_norm': 2.0377330780029297, 'learning_rate': 1.4390523500191058e-05, 'epoch': 1.15}
  5%|▍         | 3769/78504 [2:16:52<25:23:48,  1.22s/it]  5%|▍         | 3770/78504 [2:16:53<23:39:30,  1.14s/it]                                                         {'loss': 0.2489, 'grad_norm': 1.5653493404388428, 'learning_rate': 1.4394344669468859e-05, 'epoch': 1.15}
  5%|▍         | 3770/78504 [2:16:53<23:39:30,  1.14s/it]  5%|▍         | 3771/78504 [2:16:53<21:21:49,  1.03s/it]                                                         {'loss': 0.3399, 'grad_norm': 1.9279053211212158, 'learning_rate': 1.4398165838746657e-05, 'epoch': 1.15}
  5%|▍         | 3771/78504 [2:16:53<21:21:49,  1.03s/it]  5%|▍         | 3772/78504 [2:17:03<72:26:02,  3.49s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.5721120834350586, 'learning_rate': 1.4401987008024456e-05, 'epoch': 1.15}
  5%|▍         | 3772/78504 [2:17:03<72:26:02,  3.49s/it]  5%|▍         | 3773/78504 [2:17:06<69:53:27,  3.37s/it]                                                         {'loss': 0.0917, 'grad_norm': 0.5852449536323547, 'learning_rate': 1.4405808177302255e-05, 'epoch': 1.15}
  5%|▍         | 3773/78504 [2:17:06<69:53:27,  3.37s/it]  5%|▍         | 3774/78504 [2:17:09<67:08:07,  3.23s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.35119128227233887, 'learning_rate': 1.4409629346580054e-05, 'epoch': 1.15}
  5%|▍         | 3774/78504 [2:17:09<67:08:07,  3.23s/it]  5%|▍         | 3775/78504 [2:17:11<62:06:26,  2.99s/it]                                                         {'loss': 0.0851, 'grad_norm': 0.4686698019504547, 'learning_rate': 1.4413450515857852e-05, 'epoch': 1.15}
  5%|▍         | 3775/78504 [2:17:11<62:06:26,  2.99s/it]  5%|▍         | 3776/78504 [2:17:14<58:55:16,  2.84s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.45871084928512573, 'learning_rate': 1.4417271685135651e-05, 'epoch': 1.15}
  5%|▍         | 3776/78504 [2:17:14<58:55:16,  2.84s/it]  5%|▍         | 3777/78504 [2:17:16<55:23:31,  2.67s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.641860842704773, 'learning_rate': 1.442109285441345e-05, 'epoch': 1.15}
  5%|▍         | 3777/78504 [2:17:16<55:23:31,  2.67s/it]  5%|▍         | 3778/78504 [2:17:18<53:14:38,  2.57s/it]                                                         {'loss': 0.0807, 'grad_norm': 0.407721608877182, 'learning_rate': 1.442491402369125e-05, 'epoch': 1.15}
  5%|▍         | 3778/78504 [2:17:18<53:14:38,  2.57s/it]  5%|▍         | 3779/78504 [2:17:20<50:26:02,  2.43s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.4615117013454437, 'learning_rate': 1.4428735192969049e-05, 'epoch': 1.16}
  5%|▍         | 3779/78504 [2:17:20<50:26:02,  2.43s/it]  5%|▍         | 3780/78504 [2:17:22<48:54:37,  2.36s/it]                                                         {'loss': 0.1313, 'grad_norm': 0.44508621096611023, 'learning_rate': 1.4432556362246848e-05, 'epoch': 1.16}
  5%|▍         | 3780/78504 [2:17:22<48:54:37,  2.36s/it]  5%|▍         | 3781/78504 [2:17:25<47:37:14,  2.29s/it]                                                         {'loss': 0.0917, 'grad_norm': 0.4256969392299652, 'learning_rate': 1.4436377531524647e-05, 'epoch': 1.16}
  5%|▍         | 3781/78504 [2:17:25<47:37:14,  2.29s/it]  5%|▍         | 3782/78504 [2:17:27<45:56:26,  2.21s/it]                                                         {'loss': 0.1023, 'grad_norm': 0.33615049719810486, 'learning_rate': 1.4440198700802445e-05, 'epoch': 1.16}
  5%|▍         | 3782/78504 [2:17:27<45:56:26,  2.21s/it]  5%|▍         | 3783/78504 [2:17:29<44:29:42,  2.14s/it]                                                         {'loss': 0.1143, 'grad_norm': 0.4994864761829376, 'learning_rate': 1.4444019870080244e-05, 'epoch': 1.16}
  5%|▍         | 3783/78504 [2:17:29<44:29:42,  2.14s/it]  5%|▍         | 3784/78504 [2:17:30<42:44:42,  2.06s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5033902525901794, 'learning_rate': 1.4447841039358043e-05, 'epoch': 1.16}
  5%|▍         | 3784/78504 [2:17:31<42:44:42,  2.06s/it]  5%|▍         | 3785/78504 [2:17:32<40:35:02,  1.96s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.65464848279953, 'learning_rate': 1.4451662208635843e-05, 'epoch': 1.16}
  5%|▍         | 3785/78504 [2:17:32<40:35:02,  1.96s/it]  5%|▍         | 3786/78504 [2:17:34<39:29:26,  1.90s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.5628464818000793, 'learning_rate': 1.4455483377913642e-05, 'epoch': 1.16}
  5%|▍         | 3786/78504 [2:17:34<39:29:26,  1.90s/it]  5%|▍         | 3787/78504 [2:17:36<37:51:40,  1.82s/it]                                                         {'loss': 0.167, 'grad_norm': 0.5761443376541138, 'learning_rate': 1.445930454719144e-05, 'epoch': 1.16}
  5%|▍         | 3787/78504 [2:17:36<37:51:40,  1.82s/it]  5%|▍         | 3788/78504 [2:17:37<35:58:12,  1.73s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.5720776915550232, 'learning_rate': 1.446312571646924e-05, 'epoch': 1.16}
  5%|▍         | 3788/78504 [2:17:37<35:58:12,  1.73s/it]  5%|▍         | 3789/78504 [2:17:39<34:03:33,  1.64s/it]                                                         {'loss': 0.2518, 'grad_norm': 1.0978305339813232, 'learning_rate': 1.4466946885747038e-05, 'epoch': 1.16}
  5%|▍         | 3789/78504 [2:17:39<34:03:33,  1.64s/it]  5%|▍         | 3790/78504 [2:17:40<32:37:07,  1.57s/it]                                                         {'loss': 0.2171, 'grad_norm': 0.853173017501831, 'learning_rate': 1.4470768055024837e-05, 'epoch': 1.16}
  5%|▍         | 3790/78504 [2:17:40<32:37:07,  1.57s/it]  5%|▍         | 3791/78504 [2:17:41<30:49:00,  1.48s/it]                                                         {'loss': 0.2391, 'grad_norm': 0.8561983704566956, 'learning_rate': 1.4474589224302636e-05, 'epoch': 1.16}
  5%|▍         | 3791/78504 [2:17:41<30:49:00,  1.48s/it]  5%|▍         | 3792/78504 [2:17:42<28:42:25,  1.38s/it]                                                         {'loss': 0.2579, 'grad_norm': 0.8729215264320374, 'learning_rate': 1.4478410393580434e-05, 'epoch': 1.16}
  5%|▍         | 3792/78504 [2:17:42<28:42:25,  1.38s/it]  5%|▍         | 3793/78504 [2:17:43<26:53:59,  1.30s/it]                                                         {'loss': 0.3093, 'grad_norm': 1.043200969696045, 'learning_rate': 1.4482231562858237e-05, 'epoch': 1.16}
  5%|▍         | 3793/78504 [2:17:44<26:53:59,  1.30s/it]  5%|▍         | 3794/78504 [2:17:44<25:00:45,  1.21s/it]                                                         {'loss': 0.2938, 'grad_norm': 1.1264472007751465, 'learning_rate': 1.4486052732136035e-05, 'epoch': 1.16}
  5%|▍         | 3794/78504 [2:17:45<25:00:45,  1.21s/it]  5%|▍         | 3795/78504 [2:17:45<23:17:49,  1.12s/it]                                                         {'loss': 0.2771, 'grad_norm': 1.2651269435882568, 'learning_rate': 1.4489873901413834e-05, 'epoch': 1.16}
  5%|▍         | 3795/78504 [2:17:45<23:17:49,  1.12s/it]  5%|▍         | 3796/78504 [2:17:46<21:20:08,  1.03s/it]                                                         {'loss': 0.3691, 'grad_norm': 2.69063401222229, 'learning_rate': 1.4493695070691633e-05, 'epoch': 1.16}
  5%|▍         | 3796/78504 [2:17:46<21:20:08,  1.03s/it]  5%|▍         | 3797/78504 [2:17:56<74:56:48,  3.61s/it]                                                         {'loss': 0.158, 'grad_norm': 0.473033607006073, 'learning_rate': 1.4497516239969432e-05, 'epoch': 1.16}
  5%|▍         | 3797/78504 [2:17:56<74:56:48,  3.61s/it]  5%|▍         | 3798/78504 [2:17:59<73:19:16,  3.53s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.4807337522506714, 'learning_rate': 1.450133740924723e-05, 'epoch': 1.16}
  5%|▍         | 3798/78504 [2:17:59<73:19:16,  3.53s/it]  5%|▍         | 3799/78504 [2:18:02<67:19:31,  3.24s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.42810148000717163, 'learning_rate': 1.4505158578525029e-05, 'epoch': 1.16}
  5%|▍         | 3799/78504 [2:18:02<67:19:31,  3.24s/it]  5%|▍         | 3800/78504 [2:18:04<63:10:31,  3.04s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.3413153886795044, 'learning_rate': 1.4508979747802828e-05, 'epoch': 1.16}
  5%|▍         | 3800/78504 [2:18:04<63:10:31,  3.04s/it]  5%|▍         | 3801/78504 [2:18:07<59:37:55,  2.87s/it]                                                         {'loss': 0.075, 'grad_norm': 0.3260716497898102, 'learning_rate': 1.4512800917080628e-05, 'epoch': 1.16}
  5%|▍         | 3801/78504 [2:18:07<59:37:55,  2.87s/it]  5%|▍         | 3802/78504 [2:18:09<56:54:11,  2.74s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.5079697966575623, 'learning_rate': 1.4516622086358427e-05, 'epoch': 1.16}
  5%|▍         | 3802/78504 [2:18:09<56:54:11,  2.74s/it]  5%|▍         | 3803/78504 [2:18:12<54:14:20,  2.61s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.7211304306983948, 'learning_rate': 1.4520443255636226e-05, 'epoch': 1.16}
  5%|▍         | 3803/78504 [2:18:12<54:14:20,  2.61s/it]  5%|▍         | 3804/78504 [2:18:14<51:07:14,  2.46s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.28437793254852295, 'learning_rate': 1.4524264424914024e-05, 'epoch': 1.16}
  5%|▍         | 3804/78504 [2:18:14<51:07:14,  2.46s/it]  5%|▍         | 3805/78504 [2:18:16<49:24:20,  2.38s/it]                                                         {'loss': 0.0857, 'grad_norm': 0.34992438554763794, 'learning_rate': 1.4528085594191823e-05, 'epoch': 1.16}
  5%|▍         | 3805/78504 [2:18:16<49:24:20,  2.38s/it]  5%|▍         | 3806/78504 [2:18:18<47:55:23,  2.31s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.47803762555122375, 'learning_rate': 1.4531906763469622e-05, 'epoch': 1.16}
  5%|▍         | 3806/78504 [2:18:18<47:55:23,  2.31s/it]  5%|▍         | 3807/78504 [2:18:20<46:12:06,  2.23s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.49907350540161133, 'learning_rate': 1.453572793274742e-05, 'epoch': 1.16}
  5%|▍         | 3807/78504 [2:18:20<46:12:06,  2.23s/it]  5%|▍         | 3808/78504 [2:18:22<45:54:21,  2.21s/it]                                                         {'loss': 0.1167, 'grad_norm': 0.5263296365737915, 'learning_rate': 1.453954910202522e-05, 'epoch': 1.16}
  5%|▍         | 3808/78504 [2:18:22<45:54:21,  2.21s/it]  5%|▍         | 3809/78504 [2:18:24<43:47:10,  2.11s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.5875982046127319, 'learning_rate': 1.454337027130302e-05, 'epoch': 1.16}
  5%|▍         | 3809/78504 [2:18:24<43:47:10,  2.11s/it]  5%|▍         | 3810/78504 [2:18:26<42:20:06,  2.04s/it]                                                         {'loss': 0.1504, 'grad_norm': 0.6535350680351257, 'learning_rate': 1.4547191440580819e-05, 'epoch': 1.16}
  5%|▍         | 3810/78504 [2:18:26<42:20:06,  2.04s/it]  5%|▍         | 3811/78504 [2:18:28<40:35:14,  1.96s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.5117608904838562, 'learning_rate': 1.4551012609858617e-05, 'epoch': 1.17}
  5%|▍         | 3811/78504 [2:18:28<40:35:14,  1.96s/it]  5%|▍         | 3812/78504 [2:18:29<38:41:39,  1.86s/it]                                                         {'loss': 0.1943, 'grad_norm': 0.64020174741745, 'learning_rate': 1.4554833779136416e-05, 'epoch': 1.17}
  5%|▍         | 3812/78504 [2:18:29<38:41:39,  1.86s/it]  5%|▍         | 3813/78504 [2:18:31<36:43:07,  1.77s/it]                                                         {'loss': 0.1826, 'grad_norm': 0.6095613241195679, 'learning_rate': 1.4558654948414215e-05, 'epoch': 1.17}
  5%|▍         | 3813/78504 [2:18:31<36:43:07,  1.77s/it]  5%|▍         | 3814/78504 [2:18:32<34:48:46,  1.68s/it]                                                         {'loss': 0.198, 'grad_norm': 1.5526913404464722, 'learning_rate': 1.4562476117692014e-05, 'epoch': 1.17}
  5%|▍         | 3814/78504 [2:18:32<34:48:46,  1.68s/it]  5%|▍         | 3815/78504 [2:18:34<33:09:15,  1.60s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.8464053273200989, 'learning_rate': 1.4566297286969812e-05, 'epoch': 1.17}
  5%|▍         | 3815/78504 [2:18:34<33:09:15,  1.60s/it]  5%|▍         | 3816/78504 [2:18:35<31:16:03,  1.51s/it]                                                         {'loss': 0.2624, 'grad_norm': 0.8184626698493958, 'learning_rate': 1.4570118456247613e-05, 'epoch': 1.17}
  5%|▍         | 3816/78504 [2:18:35<31:16:03,  1.51s/it]  5%|▍         | 3817/78504 [2:18:36<29:02:52,  1.40s/it]                                                         {'loss': 0.2556, 'grad_norm': 1.0747004747390747, 'learning_rate': 1.4573939625525412e-05, 'epoch': 1.17}
  5%|▍         | 3817/78504 [2:18:36<29:02:52,  1.40s/it]  5%|▍         | 3818/78504 [2:18:37<27:08:37,  1.31s/it]                                                         {'loss': 0.2433, 'grad_norm': 2.350855588912964, 'learning_rate': 1.457776079480321e-05, 'epoch': 1.17}
  5%|▍         | 3818/78504 [2:18:37<27:08:37,  1.31s/it]  5%|▍         | 3819/78504 [2:18:38<25:31:41,  1.23s/it]                                                         {'loss': 0.2879, 'grad_norm': 1.127926230430603, 'learning_rate': 1.4581581964081009e-05, 'epoch': 1.17}
  5%|▍         | 3819/78504 [2:18:38<25:31:41,  1.23s/it]  5%|▍         | 3820/78504 [2:18:39<23:41:13,  1.14s/it]                                                         {'loss': 0.2385, 'grad_norm': 2.053006887435913, 'learning_rate': 1.4585403133358808e-05, 'epoch': 1.17}
  5%|▍         | 3820/78504 [2:18:39<23:41:13,  1.14s/it]  5%|▍         | 3821/78504 [2:18:40<21:18:56,  1.03s/it]                                                         {'loss': 0.3923, 'grad_norm': 2.878096103668213, 'learning_rate': 1.4589224302636607e-05, 'epoch': 1.17}
  5%|▍         | 3821/78504 [2:18:40<21:18:56,  1.03s/it]  5%|▍         | 3822/78504 [2:18:50<77:45:33,  3.75s/it]                                                         {'loss': 0.1887, 'grad_norm': 0.433889240026474, 'learning_rate': 1.4593045471914405e-05, 'epoch': 1.17}
  5%|▍         | 3822/78504 [2:18:50<77:45:33,  3.75s/it]  5%|▍         | 3823/78504 [2:18:53<73:36:24,  3.55s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.43005862832069397, 'learning_rate': 1.4596866641192204e-05, 'epoch': 1.17}
  5%|▍         | 3823/78504 [2:18:53<73:36:24,  3.55s/it]  5%|▍         | 3824/78504 [2:18:56<67:32:01,  3.26s/it]                                                         {'loss': 0.1034, 'grad_norm': 0.3559347093105316, 'learning_rate': 1.4600687810470004e-05, 'epoch': 1.17}
  5%|▍         | 3824/78504 [2:18:56<67:32:01,  3.26s/it]  5%|▍         | 3825/78504 [2:18:58<63:35:37,  3.07s/it]                                                         {'loss': 0.07, 'grad_norm': 0.5198719501495361, 'learning_rate': 1.4604508979747803e-05, 'epoch': 1.17}
  5%|▍         | 3825/78504 [2:18:59<63:35:37,  3.07s/it]  5%|▍         | 3826/78504 [2:19:01<59:52:36,  2.89s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.34456461668014526, 'learning_rate': 1.4608330149025602e-05, 'epoch': 1.17}
  5%|▍         | 3826/78504 [2:19:01<59:52:36,  2.89s/it]  5%|▍         | 3827/78504 [2:19:03<56:04:36,  2.70s/it]                                                         {'loss': 0.0542, 'grad_norm': 0.25803354382514954, 'learning_rate': 1.46121513183034e-05, 'epoch': 1.17}
  5%|▍         | 3827/78504 [2:19:03<56:04:36,  2.70s/it]  5%|▍         | 3828/78504 [2:19:06<53:41:31,  2.59s/it]                                                         {'loss': 0.0698, 'grad_norm': 0.4048537611961365, 'learning_rate': 1.46159724875812e-05, 'epoch': 1.17}
  5%|▍         | 3828/78504 [2:19:06<53:41:31,  2.59s/it]  5%|▍         | 3829/78504 [2:19:08<50:45:17,  2.45s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.5077415704727173, 'learning_rate': 1.4619793656858998e-05, 'epoch': 1.17}
  5%|▍         | 3829/78504 [2:19:08<50:45:17,  2.45s/it]  5%|▍         | 3830/78504 [2:19:10<49:07:42,  2.37s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.4358462691307068, 'learning_rate': 1.4623614826136797e-05, 'epoch': 1.17}
  5%|▍         | 3830/78504 [2:19:10<49:07:42,  2.37s/it]  5%|▍         | 3831/78504 [2:19:12<47:51:37,  2.31s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.48541709780693054, 'learning_rate': 1.4627435995414596e-05, 'epoch': 1.17}
  5%|▍         | 3831/78504 [2:19:12<47:51:37,  2.31s/it]  5%|▍         | 3832/78504 [2:19:14<46:07:41,  2.22s/it]                                                         {'loss': 0.1032, 'grad_norm': 0.48510313034057617, 'learning_rate': 1.4631257164692398e-05, 'epoch': 1.17}
  5%|▍         | 3832/78504 [2:19:14<46:07:41,  2.22s/it]  5%|▍         | 3833/78504 [2:19:16<44:36:22,  2.15s/it]                                                         {'loss': 0.1086, 'grad_norm': 0.5200100541114807, 'learning_rate': 1.4635078333970197e-05, 'epoch': 1.17}
  5%|▍         | 3833/78504 [2:19:16<44:36:22,  2.15s/it]  5%|▍         | 3834/78504 [2:19:18<42:48:25,  2.06s/it]                                                         {'loss': 0.1269, 'grad_norm': 0.5826969742774963, 'learning_rate': 1.4638899503247995e-05, 'epoch': 1.17}
  5%|▍         | 3834/78504 [2:19:18<42:48:25,  2.06s/it]  5%|▍         | 3835/78504 [2:19:20<41:29:47,  2.00s/it]                                                         {'loss': 0.1204, 'grad_norm': 0.8807849287986755, 'learning_rate': 1.4642720672525794e-05, 'epoch': 1.17}
  5%|▍         | 3835/78504 [2:19:20<41:29:47,  2.00s/it]  5%|▍         | 3836/78504 [2:19:21<39:47:51,  1.92s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.8566864132881165, 'learning_rate': 1.4646541841803593e-05, 'epoch': 1.17}
  5%|▍         | 3836/78504 [2:19:21<39:47:51,  1.92s/it]  5%|▍         | 3837/78504 [2:19:23<38:05:25,  1.84s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.8132956624031067, 'learning_rate': 1.4650363011081392e-05, 'epoch': 1.17}
  5%|▍         | 3837/78504 [2:19:23<38:05:25,  1.84s/it]  5%|▍         | 3838/78504 [2:19:25<36:16:15,  1.75s/it]                                                         {'loss': 0.2342, 'grad_norm': 1.1463074684143066, 'learning_rate': 1.465418418035919e-05, 'epoch': 1.17}
  5%|▍         | 3838/78504 [2:19:25<36:16:15,  1.75s/it]  5%|▍         | 3839/78504 [2:19:26<34:33:41,  1.67s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.7296339273452759, 'learning_rate': 1.4658005349636989e-05, 'epoch': 1.17}
  5%|▍         | 3839/78504 [2:19:26<34:33:41,  1.67s/it]  5%|▍         | 3840/78504 [2:19:28<32:57:56,  1.59s/it]                                                         {'loss': 0.2044, 'grad_norm': 0.8365247845649719, 'learning_rate': 1.466182651891479e-05, 'epoch': 1.17}
  5%|▍         | 3840/78504 [2:19:28<32:57:56,  1.59s/it]  5%|▍         | 3841/78504 [2:19:29<31:00:45,  1.50s/it]                                                         {'loss': 0.2492, 'grad_norm': 0.917330265045166, 'learning_rate': 1.4665647688192588e-05, 'epoch': 1.17}
  5%|▍         | 3841/78504 [2:19:29<31:00:45,  1.50s/it]  5%|▍         | 3842/78504 [2:19:30<29:16:02,  1.41s/it]                                                         {'loss': 0.2838, 'grad_norm': 1.1642893552780151, 'learning_rate': 1.4669468857470387e-05, 'epoch': 1.17}
  5%|▍         | 3842/78504 [2:19:30<29:16:02,  1.41s/it]  5%|▍         | 3843/78504 [2:19:31<27:18:16,  1.32s/it]                                                         {'loss': 0.2414, 'grad_norm': 1.2833925485610962, 'learning_rate': 1.4673290026748186e-05, 'epoch': 1.17}
  5%|▍         | 3843/78504 [2:19:31<27:18:16,  1.32s/it]  5%|▍         | 3844/78504 [2:19:32<25:40:40,  1.24s/it]                                                         {'loss': 0.2875, 'grad_norm': 1.3854161500930786, 'learning_rate': 1.4677111196025984e-05, 'epoch': 1.18}
  5%|▍         | 3844/78504 [2:19:32<25:40:40,  1.24s/it]  5%|▍         | 3845/78504 [2:19:33<23:41:26,  1.14s/it]                                                         {'loss': 0.3301, 'grad_norm': 3.9037532806396484, 'learning_rate': 1.4680932365303783e-05, 'epoch': 1.18}
  5%|▍         | 3845/78504 [2:19:33<23:41:26,  1.14s/it]  5%|▍         | 3846/78504 [2:19:34<21:32:22,  1.04s/it]                                                         {'loss': 0.3362, 'grad_norm': 1.8634957075119019, 'learning_rate': 1.4684753534581582e-05, 'epoch': 1.18}
  5%|▍         | 3846/78504 [2:19:34<21:32:22,  1.04s/it]  5%|▍         | 3847/78504 [2:19:43<73:36:52,  3.55s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.7142884731292725, 'learning_rate': 1.468857470385938e-05, 'epoch': 1.18}
  5%|▍         | 3847/78504 [2:19:43<73:36:52,  3.55s/it]  5%|▍         | 3848/78504 [2:19:47<72:26:22,  3.49s/it]                                                         {'loss': 0.1261, 'grad_norm': 0.4491424560546875, 'learning_rate': 1.4692395873137181e-05, 'epoch': 1.18}
  5%|▍         | 3848/78504 [2:19:47<72:26:22,  3.49s/it]  5%|▍         | 3849/78504 [2:19:49<66:40:49,  3.22s/it]                                                         {'loss': 0.1277, 'grad_norm': 0.35146498680114746, 'learning_rate': 1.469621704241498e-05, 'epoch': 1.18}
  5%|▍         | 3849/78504 [2:19:49<66:40:49,  3.22s/it]  5%|▍         | 3850/78504 [2:19:52<62:58:03,  3.04s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.48800498247146606, 'learning_rate': 1.4700038211692779e-05, 'epoch': 1.18}
  5%|▍         | 3850/78504 [2:19:52<62:58:03,  3.04s/it]  5%|▍         | 3851/78504 [2:19:54<59:27:20,  2.87s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.3719889521598816, 'learning_rate': 1.4703859380970577e-05, 'epoch': 1.18}
  5%|▍         | 3851/78504 [2:19:54<59:27:20,  2.87s/it]  5%|▍         | 3852/78504 [2:19:57<55:46:54,  2.69s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.36558881402015686, 'learning_rate': 1.4707680550248376e-05, 'epoch': 1.18}
  5%|▍         | 3852/78504 [2:19:57<55:46:54,  2.69s/it]  5%|▍         | 3853/78504 [2:19:59<53:29:58,  2.58s/it]                                                         {'loss': 0.109, 'grad_norm': 0.4011582136154175, 'learning_rate': 1.4711501719526175e-05, 'epoch': 1.18}
  5%|▍         | 3853/78504 [2:19:59<53:29:58,  2.58s/it]  5%|▍         | 3854/78504 [2:20:01<50:36:06,  2.44s/it]                                                         {'loss': 0.0811, 'grad_norm': 0.3286702036857605, 'learning_rate': 1.4715322888803974e-05, 'epoch': 1.18}
  5%|▍         | 3854/78504 [2:20:01<50:36:06,  2.44s/it]  5%|▍         | 3855/78504 [2:20:03<49:01:57,  2.36s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.3633192181587219, 'learning_rate': 1.4719144058081774e-05, 'epoch': 1.18}
  5%|▍         | 3855/78504 [2:20:03<49:01:57,  2.36s/it]  5%|▍         | 3856/78504 [2:20:05<47:40:44,  2.30s/it]                                                         {'loss': 0.095, 'grad_norm': 0.48483335971832275, 'learning_rate': 1.4722965227359573e-05, 'epoch': 1.18}
  5%|▍         | 3856/78504 [2:20:05<47:40:44,  2.30s/it]  5%|▍         | 3857/78504 [2:20:07<45:58:16,  2.22s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.5001037120819092, 'learning_rate': 1.4726786396637372e-05, 'epoch': 1.18}
  5%|▍         | 3857/78504 [2:20:07<45:58:16,  2.22s/it]  5%|▍         | 3858/78504 [2:20:09<44:32:27,  2.15s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.4425494372844696, 'learning_rate': 1.473060756591517e-05, 'epoch': 1.18}
  5%|▍         | 3858/78504 [2:20:09<44:32:27,  2.15s/it]  5%|▍         | 3859/78504 [2:20:11<42:56:09,  2.07s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.594631552696228, 'learning_rate': 1.4734428735192969e-05, 'epoch': 1.18}
  5%|▍         | 3859/78504 [2:20:11<42:56:09,  2.07s/it]  5%|▍         | 3860/78504 [2:20:13<41:39:31,  2.01s/it]                                                         {'loss': 0.1504, 'grad_norm': 0.54784095287323, 'learning_rate': 1.4738249904470768e-05, 'epoch': 1.18}
  5%|▍         | 3860/78504 [2:20:13<41:39:31,  2.01s/it]  5%|▍         | 3861/78504 [2:20:15<40:10:53,  1.94s/it]                                                         {'loss': 0.1424, 'grad_norm': 0.5708235502243042, 'learning_rate': 1.4742071073748566e-05, 'epoch': 1.18}
  5%|▍         | 3861/78504 [2:20:15<40:10:53,  1.94s/it]  5%|▍         | 3862/78504 [2:20:17<38:28:28,  1.86s/it]                                                         {'loss': 0.1527, 'grad_norm': 0.5989855527877808, 'learning_rate': 1.4745892243026365e-05, 'epoch': 1.18}
  5%|▍         | 3862/78504 [2:20:17<38:28:28,  1.86s/it]  5%|▍         | 3863/78504 [2:20:18<36:29:40,  1.76s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.8819751739501953, 'learning_rate': 1.4749713412304166e-05, 'epoch': 1.18}
  5%|▍         | 3863/78504 [2:20:18<36:29:40,  1.76s/it]  5%|▍         | 3864/78504 [2:20:20<34:44:42,  1.68s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.8197996616363525, 'learning_rate': 1.4753534581581964e-05, 'epoch': 1.18}
  5%|▍         | 3864/78504 [2:20:20<34:44:42,  1.68s/it]  5%|▍         | 3865/78504 [2:20:21<32:54:56,  1.59s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.753719687461853, 'learning_rate': 1.4757355750859763e-05, 'epoch': 1.18}
  5%|▍         | 3865/78504 [2:20:21<32:54:56,  1.59s/it]  5%|▍         | 3866/78504 [2:20:22<30:59:53,  1.50s/it]                                                         {'loss': 0.2183, 'grad_norm': 0.8852445483207703, 'learning_rate': 1.4761176920137562e-05, 'epoch': 1.18}
  5%|▍         | 3866/78504 [2:20:22<30:59:53,  1.50s/it]  5%|▍         | 3867/78504 [2:20:23<28:50:14,  1.39s/it]                                                         {'loss': 0.195, 'grad_norm': 0.9368080496788025, 'learning_rate': 1.476499808941536e-05, 'epoch': 1.18}
  5%|▍         | 3867/78504 [2:20:23<28:50:14,  1.39s/it]  5%|▍         | 3868/78504 [2:20:25<27:02:37,  1.30s/it]                                                         {'loss': 0.2121, 'grad_norm': 2.436161518096924, 'learning_rate': 1.476881925869316e-05, 'epoch': 1.18}
  5%|▍         | 3868/78504 [2:20:25<27:02:37,  1.30s/it]  5%|▍         | 3869/78504 [2:20:26<25:07:18,  1.21s/it]                                                         {'loss': 0.285, 'grad_norm': 1.2455928325653076, 'learning_rate': 1.4772640427970958e-05, 'epoch': 1.18}
  5%|▍         | 3869/78504 [2:20:26<25:07:18,  1.21s/it]  5%|▍         | 3870/78504 [2:20:26<23:23:02,  1.13s/it]                                                         {'loss': 0.3043, 'grad_norm': 1.5941458940505981, 'learning_rate': 1.4776461597248757e-05, 'epoch': 1.18}
  5%|▍         | 3870/78504 [2:20:26<23:23:02,  1.13s/it]  5%|▍         | 3871/78504 [2:20:27<21:15:02,  1.03s/it]                                                         {'loss': 0.3612, 'grad_norm': 2.8817880153656006, 'learning_rate': 1.4780282766526559e-05, 'epoch': 1.18}
  5%|▍         | 3871/78504 [2:20:27<21:15:02,  1.03s/it]  5%|▍         | 3872/78504 [2:20:36<71:11:45,  3.43s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.429511159658432, 'learning_rate': 1.4784103935804358e-05, 'epoch': 1.18}
  5%|▍         | 3872/78504 [2:20:36<71:11:45,  3.43s/it]  5%|▍         | 3873/78504 [2:20:39<69:21:42,  3.35s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.43135717511177063, 'learning_rate': 1.4787925105082156e-05, 'epoch': 1.18}
  5%|▍         | 3873/78504 [2:20:39<69:21:42,  3.35s/it]  5%|▍         | 3874/78504 [2:20:42<64:35:09,  3.12s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.31623682379722595, 'learning_rate': 1.4791746274359955e-05, 'epoch': 1.18}
  5%|▍         | 3874/78504 [2:20:42<64:35:09,  3.12s/it]  5%|▍         | 3875/78504 [2:20:45<61:29:53,  2.97s/it]                                                         {'loss': 0.108, 'grad_norm': 0.31817853450775146, 'learning_rate': 1.4795567443637754e-05, 'epoch': 1.18}
  5%|▍         | 3875/78504 [2:20:45<61:29:53,  2.97s/it]  5%|▍         | 3876/78504 [2:20:47<58:25:16,  2.82s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.4093184173107147, 'learning_rate': 1.4799388612915553e-05, 'epoch': 1.18}
  5%|▍         | 3876/78504 [2:20:47<58:25:16,  2.82s/it]  5%|▍         | 3877/78504 [2:20:50<56:02:55,  2.70s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.279117614030838, 'learning_rate': 1.4803209782193351e-05, 'epoch': 1.19}
  5%|▍         | 3877/78504 [2:20:50<56:02:55,  2.70s/it]  5%|▍         | 3878/78504 [2:20:52<53:40:02,  2.59s/it]                                                         {'loss': 0.0682, 'grad_norm': 0.35567447543144226, 'learning_rate': 1.480703095147115e-05, 'epoch': 1.19}
  5%|▍         | 3878/78504 [2:20:52<53:40:02,  2.59s/it]  5%|▍         | 3879/78504 [2:20:54<50:44:52,  2.45s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.38638097047805786, 'learning_rate': 1.481085212074895e-05, 'epoch': 1.19}
  5%|▍         | 3879/78504 [2:20:54<50:44:52,  2.45s/it]  5%|▍         | 3880/78504 [2:20:56<49:05:15,  2.37s/it]                                                         {'loss': 0.0827, 'grad_norm': 0.4357739984989166, 'learning_rate': 1.481467329002675e-05, 'epoch': 1.19}
  5%|▍         | 3880/78504 [2:20:56<49:05:15,  2.37s/it]  5%|▍         | 3881/78504 [2:20:58<47:44:15,  2.30s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.4065502882003784, 'learning_rate': 1.4818494459304548e-05, 'epoch': 1.19}
  5%|▍         | 3881/78504 [2:20:58<47:44:15,  2.30s/it]  5%|▍         | 3882/78504 [2:21:00<45:59:50,  2.22s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.40309083461761475, 'learning_rate': 1.4822315628582347e-05, 'epoch': 1.19}
  5%|▍         | 3882/78504 [2:21:00<45:59:50,  2.22s/it]  5%|▍         | 3883/78504 [2:21:02<44:30:56,  2.15s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.414975106716156, 'learning_rate': 1.4826136797860146e-05, 'epoch': 1.19}
  5%|▍         | 3883/78504 [2:21:02<44:30:56,  2.15s/it]  5%|▍         | 3884/78504 [2:21:04<42:48:03,  2.06s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.6156466007232666, 'learning_rate': 1.4829957967137944e-05, 'epoch': 1.19}
  5%|▍         | 3884/78504 [2:21:04<42:48:03,  2.06s/it]  5%|▍         | 3885/78504 [2:21:06<41:27:13,  2.00s/it]                                                         {'loss': 0.1536, 'grad_norm': 0.7446378469467163, 'learning_rate': 1.4833779136415743e-05, 'epoch': 1.19}
  5%|▍         | 3885/78504 [2:21:06<41:27:13,  2.00s/it]  5%|▍         | 3886/78504 [2:21:08<39:46:21,  1.92s/it]                                                         {'loss': 0.164, 'grad_norm': 0.6793490052223206, 'learning_rate': 1.4837600305693544e-05, 'epoch': 1.19}
  5%|▍         | 3886/78504 [2:21:08<39:46:21,  1.92s/it]  5%|▍         | 3887/78504 [2:21:09<38:06:02,  1.84s/it]                                                         {'loss': 0.1893, 'grad_norm': 0.9227910041809082, 'learning_rate': 1.4841421474971342e-05, 'epoch': 1.19}
  5%|▍         | 3887/78504 [2:21:09<38:06:02,  1.84s/it]  5%|▍         | 3888/78504 [2:21:11<36:15:23,  1.75s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.9192295670509338, 'learning_rate': 1.4845242644249141e-05, 'epoch': 1.19}
  5%|▍         | 3888/78504 [2:21:11<36:15:23,  1.75s/it]  5%|▍         | 3889/78504 [2:21:12<34:28:17,  1.66s/it]                                                         {'loss': 0.1999, 'grad_norm': 0.7123789191246033, 'learning_rate': 1.484906381352694e-05, 'epoch': 1.19}
  5%|▍         | 3889/78504 [2:21:12<34:28:17,  1.66s/it]  5%|▍         | 3890/78504 [2:21:14<32:55:06,  1.59s/it]                                                         {'loss': 0.2388, 'grad_norm': 1.294346570968628, 'learning_rate': 1.4852884982804739e-05, 'epoch': 1.19}
  5%|▍         | 3890/78504 [2:21:14<32:55:06,  1.59s/it]  5%|▍         | 3891/78504 [2:21:15<31:05:29,  1.50s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.9390039443969727, 'learning_rate': 1.4856706152082537e-05, 'epoch': 1.19}
  5%|▍         | 3891/78504 [2:21:15<31:05:29,  1.50s/it]  5%|▍         | 3892/78504 [2:21:16<28:54:14,  1.39s/it]                                                         {'loss': 0.211, 'grad_norm': 0.8346195816993713, 'learning_rate': 1.4860527321360336e-05, 'epoch': 1.19}
  5%|▍         | 3892/78504 [2:21:16<28:54:14,  1.39s/it]  5%|▍         | 3893/78504 [2:21:17<27:03:51,  1.31s/it]                                                         {'loss': 0.2553, 'grad_norm': 1.0495984554290771, 'learning_rate': 1.4864348490638135e-05, 'epoch': 1.19}
  5%|▍         | 3893/78504 [2:21:17<27:03:51,  1.31s/it]  5%|▍         | 3894/78504 [2:21:18<25:08:55,  1.21s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.2860547304153442, 'learning_rate': 1.4868169659915935e-05, 'epoch': 1.19}
  5%|▍         | 3894/78504 [2:21:18<25:08:55,  1.21s/it]  5%|▍         | 3895/78504 [2:21:19<23:26:49,  1.13s/it]                                                         {'loss': 0.2421, 'grad_norm': 1.63395094871521, 'learning_rate': 1.4871990829193734e-05, 'epoch': 1.19}
  5%|▍         | 3895/78504 [2:21:19<23:26:49,  1.13s/it]  5%|▍         | 3896/78504 [2:21:20<21:18:15,  1.03s/it]                                                         {'loss': 0.3648, 'grad_norm': 1.95939302444458, 'learning_rate': 1.4875811998471533e-05, 'epoch': 1.19}
  5%|▍         | 3896/78504 [2:21:20<21:18:15,  1.03s/it]  5%|▍         | 3897/78504 [2:21:28<61:45:22,  2.98s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.3789427578449249, 'learning_rate': 1.4879633167749331e-05, 'epoch': 1.19}
  5%|▍         | 3897/78504 [2:21:28<61:45:22,  2.98s/it]  5%|▍         | 3898/78504 [2:21:31<62:45:35,  3.03s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.5174517035484314, 'learning_rate': 1.488345433702713e-05, 'epoch': 1.19}
  5%|▍         | 3898/78504 [2:21:31<62:45:35,  3.03s/it]  5%|▍         | 3899/78504 [2:21:34<62:42:25,  3.03s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.36335498094558716, 'learning_rate': 1.4887275506304929e-05, 'epoch': 1.19}
  5%|▍         | 3899/78504 [2:21:34<62:42:25,  3.03s/it]  5%|▍         | 3900/78504 [2:21:36<60:10:46,  2.90s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.2955757975578308, 'learning_rate': 1.4891096675582728e-05, 'epoch': 1.19}
  5%|▍         | 3900/78504 [2:21:36<60:10:46,  2.90s/it]  5%|▍         | 3901/78504 [2:21:39<57:29:26,  2.77s/it]                                                         {'loss': 0.085, 'grad_norm': 0.4168683886528015, 'learning_rate': 1.4894917844860526e-05, 'epoch': 1.19}
  5%|▍         | 3901/78504 [2:21:39<57:29:26,  2.77s/it]  5%|▍         | 3902/78504 [2:21:41<55:22:02,  2.67s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.3390093743801117, 'learning_rate': 1.4898739014138327e-05, 'epoch': 1.19}
  5%|▍         | 3902/78504 [2:21:41<55:22:02,  2.67s/it]  5%|▍         | 3903/78504 [2:21:44<53:14:32,  2.57s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.30220770835876465, 'learning_rate': 1.4902560183416126e-05, 'epoch': 1.19}
  5%|▍         | 3903/78504 [2:21:44<53:14:32,  2.57s/it]  5%|▍         | 3904/78504 [2:21:46<51:20:14,  2.48s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.4811137020587921, 'learning_rate': 1.4906381352693924e-05, 'epoch': 1.19}
  5%|▍         | 3904/78504 [2:21:46<51:20:14,  2.48s/it]  5%|▍         | 3905/78504 [2:21:48<49:33:23,  2.39s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.43678879737854004, 'learning_rate': 1.4910202521971723e-05, 'epoch': 1.19}
  5%|▍         | 3905/78504 [2:21:48<49:33:23,  2.39s/it]  5%|▍         | 3906/78504 [2:21:50<48:01:52,  2.32s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.44103744626045227, 'learning_rate': 1.4914023691249522e-05, 'epoch': 1.19}
  5%|▍         | 3906/78504 [2:21:50<48:01:52,  2.32s/it]  5%|▍         | 3907/78504 [2:21:52<46:12:36,  2.23s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.454527348279953, 'learning_rate': 1.491784486052732e-05, 'epoch': 1.19}
  5%|▍         | 3907/78504 [2:21:52<46:12:36,  2.23s/it]  5%|▍         | 3908/78504 [2:21:54<44:40:09,  2.16s/it]                                                         {'loss': 0.1297, 'grad_norm': 0.8479472398757935, 'learning_rate': 1.492166602980512e-05, 'epoch': 1.19}
  5%|▍         | 3908/78504 [2:21:54<44:40:09,  2.16s/it]  5%|▍         | 3909/78504 [2:21:56<42:53:55,  2.07s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.43573981523513794, 'learning_rate': 1.4925487199082918e-05, 'epoch': 1.2}
  5%|▍         | 3909/78504 [2:21:56<42:53:55,  2.07s/it]  5%|▍         | 3910/78504 [2:21:58<41:28:49,  2.00s/it]                                                         {'loss': 0.2167, 'grad_norm': 0.6868088245391846, 'learning_rate': 1.492930836836072e-05, 'epoch': 1.2}
  5%|▍         | 3910/78504 [2:21:58<41:28:49,  2.00s/it]  5%|▍         | 3911/78504 [2:22:00<39:44:59,  1.92s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.6345106363296509, 'learning_rate': 1.4933129537638519e-05, 'epoch': 1.2}
  5%|▍         | 3911/78504 [2:22:00<39:44:59,  1.92s/it]  5%|▍         | 3912/78504 [2:22:01<38:03:03,  1.84s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.6973623037338257, 'learning_rate': 1.4936950706916318e-05, 'epoch': 1.2}
  5%|▍         | 3912/78504 [2:22:01<38:03:03,  1.84s/it]  5%|▍         | 3913/78504 [2:22:03<36:12:52,  1.75s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.7433644533157349, 'learning_rate': 1.4940771876194116e-05, 'epoch': 1.2}
  5%|▍         | 3913/78504 [2:22:03<36:12:52,  1.75s/it]  5%|▍         | 3914/78504 [2:22:04<34:28:11,  1.66s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.6618350744247437, 'learning_rate': 1.4944593045471915e-05, 'epoch': 1.2}
  5%|▍         | 3914/78504 [2:22:04<34:28:11,  1.66s/it]  5%|▍         | 3915/78504 [2:22:06<32:55:11,  1.59s/it]                                                         {'loss': 0.2897, 'grad_norm': 1.1035068035125732, 'learning_rate': 1.4948414214749714e-05, 'epoch': 1.2}
  5%|▍         | 3915/78504 [2:22:06<32:55:11,  1.59s/it]  5%|▍         | 3916/78504 [2:22:07<31:01:58,  1.50s/it]                                                         {'loss': 0.2403, 'grad_norm': 0.9534196853637695, 'learning_rate': 1.4952235384027513e-05, 'epoch': 1.2}
  5%|▍         | 3916/78504 [2:22:07<31:01:58,  1.50s/it]  5%|▍         | 3917/78504 [2:22:08<28:51:40,  1.39s/it]                                                         {'loss': 0.2041, 'grad_norm': 1.2769345045089722, 'learning_rate': 1.4956056553305313e-05, 'epoch': 1.2}
  5%|▍         | 3917/78504 [2:22:08<28:51:40,  1.39s/it]  5%|▍         | 3918/78504 [2:22:09<27:04:00,  1.31s/it]                                                         {'loss': 0.2922, 'grad_norm': 1.3365564346313477, 'learning_rate': 1.4959877722583112e-05, 'epoch': 1.2}
  5%|▍         | 3918/78504 [2:22:09<27:04:00,  1.31s/it]  5%|▍         | 3919/78504 [2:22:10<25:28:34,  1.23s/it]                                                         {'loss': 0.2623, 'grad_norm': 1.6026054620742798, 'learning_rate': 1.496369889186091e-05, 'epoch': 1.2}
  5%|▍         | 3919/78504 [2:22:10<25:28:34,  1.23s/it]  5%|▍         | 3920/78504 [2:22:11<23:36:56,  1.14s/it]                                                         {'loss': 0.3419, 'grad_norm': 1.1769306659698486, 'learning_rate': 1.496752006113871e-05, 'epoch': 1.2}
  5%|▍         | 3920/78504 [2:22:11<23:36:56,  1.14s/it]  5%|▍         | 3921/78504 [2:22:12<21:30:10,  1.04s/it]                                                         {'loss': 0.359, 'grad_norm': 3.755866527557373, 'learning_rate': 1.4971341230416508e-05, 'epoch': 1.2}
  5%|▍         | 3921/78504 [2:22:12<21:30:10,  1.04s/it]  5%|▍         | 3922/78504 [2:22:20<64:31:15,  3.11s/it]                                                         {'loss': 0.1791, 'grad_norm': 0.5003301501274109, 'learning_rate': 1.4975162399694307e-05, 'epoch': 1.2}
  5%|▍         | 3922/78504 [2:22:20<64:31:15,  3.11s/it]  5%|▍         | 3923/78504 [2:22:23<63:18:18,  3.06s/it]                                                         {'loss': 0.101, 'grad_norm': 0.3515225946903229, 'learning_rate': 1.4978983568972106e-05, 'epoch': 1.2}
  5%|▍         | 3923/78504 [2:22:23<63:18:18,  3.06s/it]  5%|▍         | 3924/78504 [2:22:26<60:16:56,  2.91s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.40259671211242676, 'learning_rate': 1.4982804738249904e-05, 'epoch': 1.2}
  5%|▍         | 3924/78504 [2:22:26<60:16:56,  2.91s/it]  5%|▍         | 3925/78504 [2:22:28<58:14:27,  2.81s/it]                                                         {'loss': 0.089, 'grad_norm': 0.5180710554122925, 'learning_rate': 1.4986625907527705e-05, 'epoch': 1.2}
  5%|▍         | 3925/78504 [2:22:28<58:14:27,  2.81s/it]  5%|▌         | 3926/78504 [2:22:31<56:08:20,  2.71s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.3413981795310974, 'learning_rate': 1.4990447076805504e-05, 'epoch': 1.2}
  5%|▌         | 3926/78504 [2:22:31<56:08:20,  2.71s/it]  5%|▌         | 3927/78504 [2:22:33<53:26:37,  2.58s/it]                                                         {'loss': 0.0957, 'grad_norm': 0.5615536570549011, 'learning_rate': 1.4994268246083302e-05, 'epoch': 1.2}
  5%|▌         | 3927/78504 [2:22:33<53:26:37,  2.58s/it]  5%|▌         | 3928/78504 [2:22:35<51:49:48,  2.50s/it]                                                         {'loss': 0.0623, 'grad_norm': 0.32040658593177795, 'learning_rate': 1.4998089415361101e-05, 'epoch': 1.2}
  5%|▌         | 3928/78504 [2:22:35<51:49:48,  2.50s/it]  5%|▌         | 3929/78504 [2:22:37<49:19:22,  2.38s/it]                                                         {'loss': 0.0613, 'grad_norm': 0.2740074098110199, 'learning_rate': 1.5001910584638901e-05, 'epoch': 1.2}
  5%|▌         | 3929/78504 [2:22:37<49:19:22,  2.38s/it]  5%|▌         | 3930/78504 [2:22:39<47:09:29,  2.28s/it]                                                         {'loss': 0.1296, 'grad_norm': 0.3712644875049591, 'learning_rate': 1.50057317539167e-05, 'epoch': 1.2}
  5%|▌         | 3930/78504 [2:22:39<47:09:29,  2.28s/it]  5%|▌         | 3931/78504 [2:22:41<46:17:11,  2.23s/it]                                                         {'loss': 0.117, 'grad_norm': 0.4768141806125641, 'learning_rate': 1.5009552923194499e-05, 'epoch': 1.2}
  5%|▌         | 3931/78504 [2:22:41<46:17:11,  2.23s/it]  5%|▌         | 3932/78504 [2:22:43<45:03:22,  2.18s/it]                                                         {'loss': 0.1212, 'grad_norm': 0.4983595311641693, 'learning_rate': 1.5013374092472298e-05, 'epoch': 1.2}
  5%|▌         | 3932/78504 [2:22:43<45:03:22,  2.18s/it]  5%|▌         | 3933/78504 [2:22:45<43:49:59,  2.12s/it]                                                         {'loss': 0.1003, 'grad_norm': 0.42652633786201477, 'learning_rate': 1.5017195261750098e-05, 'epoch': 1.2}
  5%|▌         | 3933/78504 [2:22:45<43:49:59,  2.12s/it]  5%|▌         | 3934/78504 [2:22:47<42:16:35,  2.04s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.38822975754737854, 'learning_rate': 1.5021016431027897e-05, 'epoch': 1.2}
  5%|▌         | 3934/78504 [2:22:47<42:16:35,  2.04s/it]  5%|▌         | 3935/78504 [2:22:49<41:02:17,  1.98s/it]                                                         {'loss': 0.1946, 'grad_norm': 0.8292178511619568, 'learning_rate': 1.5024837600305696e-05, 'epoch': 1.2}
  5%|▌         | 3935/78504 [2:22:49<41:02:17,  1.98s/it]  5%|▌         | 3936/78504 [2:22:51<39:06:26,  1.89s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.6744150519371033, 'learning_rate': 1.5028658769583494e-05, 'epoch': 1.2}
  5%|▌         | 3936/78504 [2:22:51<39:06:26,  1.89s/it]  5%|▌         | 3937/78504 [2:22:52<37:34:26,  1.81s/it]                                                         {'loss': 0.167, 'grad_norm': 0.592361569404602, 'learning_rate': 1.5032479938861293e-05, 'epoch': 1.2}
  5%|▌         | 3937/78504 [2:22:52<37:34:26,  1.81s/it]  5%|▌         | 3938/78504 [2:22:54<35:48:44,  1.73s/it]                                                         {'loss': 0.2032, 'grad_norm': 1.1129181385040283, 'learning_rate': 1.5036301108139092e-05, 'epoch': 1.2}
  5%|▌         | 3938/78504 [2:22:54<35:48:44,  1.73s/it]  5%|▌         | 3939/78504 [2:22:55<33:57:39,  1.64s/it]                                                         {'loss': 0.2294, 'grad_norm': 0.7228469252586365, 'learning_rate': 1.504012227741689e-05, 'epoch': 1.2}
  5%|▌         | 3939/78504 [2:22:55<33:57:39,  1.64s/it]  5%|▌         | 3940/78504 [2:22:57<32:30:33,  1.57s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.6899764537811279, 'learning_rate': 1.504394344669469e-05, 'epoch': 1.2}
  5%|▌         | 3940/78504 [2:22:57<32:30:33,  1.57s/it]  5%|▌         | 3941/78504 [2:22:58<30:43:04,  1.48s/it]                                                         {'loss': 0.2272, 'grad_norm': 0.8034334778785706, 'learning_rate': 1.504776461597249e-05, 'epoch': 1.2}
  5%|▌         | 3941/78504 [2:22:58<30:43:04,  1.48s/it]  5%|▌         | 3942/78504 [2:22:59<28:41:19,  1.39s/it]                                                         {'loss': 0.2499, 'grad_norm': 2.3221099376678467, 'learning_rate': 1.5051585785250289e-05, 'epoch': 1.21}
  5%|▌         | 3942/78504 [2:22:59<28:41:19,  1.39s/it]  5%|▌         | 3943/78504 [2:23:00<26:50:53,  1.30s/it]                                                         {'loss': 0.2997, 'grad_norm': 0.8679633736610413, 'learning_rate': 1.5055406954528087e-05, 'epoch': 1.21}
  5%|▌         | 3943/78504 [2:23:00<26:50:53,  1.30s/it]  5%|▌         | 3944/78504 [2:23:01<25:19:32,  1.22s/it]                                                         {'loss': 0.2297, 'grad_norm': 3.1355345249176025, 'learning_rate': 1.5059228123805886e-05, 'epoch': 1.21}
  5%|▌         | 3944/78504 [2:23:01<25:19:32,  1.22s/it]  5%|▌         | 3945/78504 [2:23:02<23:27:53,  1.13s/it]                                                         {'loss': 0.3415, 'grad_norm': 1.9035682678222656, 'learning_rate': 1.5063049293083685e-05, 'epoch': 1.21}
  5%|▌         | 3945/78504 [2:23:02<23:27:53,  1.13s/it]  5%|▌         | 3946/78504 [2:23:03<21:23:40,  1.03s/it]                                                         {'loss': 0.378, 'grad_norm': 2.039327621459961, 'learning_rate': 1.5066870462361483e-05, 'epoch': 1.21}
  5%|▌         | 3946/78504 [2:23:03<21:23:40,  1.03s/it]  5%|▌         | 3947/78504 [2:23:13<75:42:46,  3.66s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.5793928503990173, 'learning_rate': 1.5070691631639282e-05, 'epoch': 1.21}
  5%|▌         | 3947/78504 [2:23:13<75:42:46,  3.66s/it]  5%|▌         | 3948/78504 [2:23:16<71:06:05,  3.43s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.33094388246536255, 'learning_rate': 1.5074512800917083e-05, 'epoch': 1.21}
  5%|▌         | 3948/78504 [2:23:16<71:06:05,  3.43s/it]  5%|▌         | 3949/78504 [2:23:19<67:56:30,  3.28s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.3520072400569916, 'learning_rate': 1.5078333970194881e-05, 'epoch': 1.21}
  5%|▌         | 3949/78504 [2:23:19<67:56:30,  3.28s/it]  5%|▌         | 3950/78504 [2:23:21<63:37:43,  3.07s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.3735126554965973, 'learning_rate': 1.508215513947268e-05, 'epoch': 1.21}
  5%|▌         | 3950/78504 [2:23:21<63:37:43,  3.07s/it]  5%|▌         | 3951/78504 [2:23:24<59:56:11,  2.89s/it]                                                         {'loss': 0.0616, 'grad_norm': 0.39761731028556824, 'learning_rate': 1.5085976308750479e-05, 'epoch': 1.21}
  5%|▌         | 3951/78504 [2:23:24<59:56:11,  2.89s/it]  5%|▌         | 3952/78504 [2:23:26<57:04:56,  2.76s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.43507394194602966, 'learning_rate': 1.5089797478028278e-05, 'epoch': 1.21}
  5%|▌         | 3952/78504 [2:23:26<57:04:56,  2.76s/it]  5%|▌         | 3953/78504 [2:23:29<54:23:03,  2.63s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.42752742767333984, 'learning_rate': 1.5093618647306076e-05, 'epoch': 1.21}
  5%|▌         | 3953/78504 [2:23:29<54:23:03,  2.63s/it]  5%|▌         | 3954/78504 [2:23:31<51:11:05,  2.47s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.4609510600566864, 'learning_rate': 1.5097439816583875e-05, 'epoch': 1.21}
  5%|▌         | 3954/78504 [2:23:31<51:11:05,  2.47s/it]  5%|▌         | 3955/78504 [2:23:33<49:26:32,  2.39s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.424041211605072, 'learning_rate': 1.5101260985861674e-05, 'epoch': 1.21}
  5%|▌         | 3955/78504 [2:23:33<49:26:32,  2.39s/it]  5%|▌         | 3956/78504 [2:23:35<48:03:34,  2.32s/it]                                                         {'loss': 0.0903, 'grad_norm': 0.435859739780426, 'learning_rate': 1.5105082155139474e-05, 'epoch': 1.21}
  5%|▌         | 3956/78504 [2:23:35<48:03:34,  2.32s/it]  5%|▌         | 3957/78504 [2:23:37<45:09:39,  2.18s/it]                                                         {'loss': 0.1582, 'grad_norm': 0.5884809494018555, 'learning_rate': 1.5108903324417273e-05, 'epoch': 1.21}
  5%|▌         | 3957/78504 [2:23:37<45:09:39,  2.18s/it]  5%|▌         | 3958/78504 [2:23:39<43:57:39,  2.12s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.44616737961769104, 'learning_rate': 1.5112724493695072e-05, 'epoch': 1.21}
  5%|▌         | 3958/78504 [2:23:39<43:57:39,  2.12s/it]  5%|▌         | 3959/78504 [2:23:41<42:23:15,  2.05s/it]                                                         {'loss': 0.1223, 'grad_norm': 0.4760551452636719, 'learning_rate': 1.511654566297287e-05, 'epoch': 1.21}
  5%|▌         | 3959/78504 [2:23:41<42:23:15,  2.05s/it]  5%|▌         | 3960/78504 [2:23:43<41:03:21,  1.98s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.6164878010749817, 'learning_rate': 1.512036683225067e-05, 'epoch': 1.21}
  5%|▌         | 3960/78504 [2:23:43<41:03:21,  1.98s/it]  5%|▌         | 3961/78504 [2:23:44<39:29:48,  1.91s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.7146462202072144, 'learning_rate': 1.5124188001528468e-05, 'epoch': 1.21}
  5%|▌         | 3961/78504 [2:23:44<39:29:48,  1.91s/it]  5%|▌         | 3962/78504 [2:23:46<37:50:54,  1.83s/it]                                                         {'loss': 0.1787, 'grad_norm': 0.6290848851203918, 'learning_rate': 1.5128009170806267e-05, 'epoch': 1.21}
  5%|▌         | 3962/78504 [2:23:46<37:50:54,  1.83s/it]  5%|▌         | 3963/78504 [2:23:47<36:03:22,  1.74s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.6535750031471252, 'learning_rate': 1.5131830340084066e-05, 'epoch': 1.21}
  5%|▌         | 3963/78504 [2:23:48<36:03:22,  1.74s/it]  5%|▌         | 3964/78504 [2:23:49<34:06:31,  1.65s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.6610704064369202, 'learning_rate': 1.5135651509361866e-05, 'epoch': 1.21}
  5%|▌         | 3964/78504 [2:23:49<34:06:31,  1.65s/it]  5%|▌         | 3965/78504 [2:23:50<32:39:26,  1.58s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.5126785039901733, 'learning_rate': 1.5139472678639665e-05, 'epoch': 1.21}
  5%|▌         | 3965/78504 [2:23:50<32:39:26,  1.58s/it]  5%|▌         | 3966/78504 [2:23:52<30:50:36,  1.49s/it]                                                         {'loss': 0.2765, 'grad_norm': 1.3630045652389526, 'learning_rate': 1.5143293847917463e-05, 'epoch': 1.21}
  5%|▌         | 3966/78504 [2:23:52<30:50:36,  1.49s/it]  5%|▌         | 3967/78504 [2:23:53<28:42:35,  1.39s/it]                                                         {'loss': 0.2796, 'grad_norm': 1.4059979915618896, 'learning_rate': 1.5147115017195262e-05, 'epoch': 1.21}
  5%|▌         | 3967/78504 [2:23:53<28:42:35,  1.39s/it]  5%|▌         | 3968/78504 [2:23:54<26:56:37,  1.30s/it]                                                         {'loss': 0.2452, 'grad_norm': 0.9616859555244446, 'learning_rate': 1.5150936186473061e-05, 'epoch': 1.21}
  5%|▌         | 3968/78504 [2:23:54<26:56:37,  1.30s/it]  5%|▌         | 3969/78504 [2:23:55<25:02:17,  1.21s/it]                                                         {'loss': 0.2574, 'grad_norm': 1.245732307434082, 'learning_rate': 1.515475735575086e-05, 'epoch': 1.21}
  5%|▌         | 3969/78504 [2:23:55<25:02:17,  1.21s/it]  5%|▌         | 3970/78504 [2:23:56<23:19:41,  1.13s/it]                                                         {'loss': 0.382, 'grad_norm': 1.3248755931854248, 'learning_rate': 1.5158578525028658e-05, 'epoch': 1.21}
  5%|▌         | 3970/78504 [2:23:56<23:19:41,  1.13s/it]  5%|▌         | 3971/78504 [2:23:57<21:11:00,  1.02s/it]                                                         {'loss': 0.315, 'grad_norm': 1.7859441041946411, 'learning_rate': 1.5162399694306457e-05, 'epoch': 1.21}
  5%|▌         | 3971/78504 [2:23:57<21:11:00,  1.02s/it]  5%|▌         | 3972/78504 [2:24:07<76:35:16,  3.70s/it]                                                         {'loss': 0.1896, 'grad_norm': 0.46416252851486206, 'learning_rate': 1.5166220863584258e-05, 'epoch': 1.21}
  5%|▌         | 3972/78504 [2:24:07<76:35:16,  3.70s/it]  5%|▌         | 3973/78504 [2:24:10<72:53:16,  3.52s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.4385341703891754, 'learning_rate': 1.5170042032862056e-05, 'epoch': 1.21}
  5%|▌         | 3973/78504 [2:24:10<72:53:16,  3.52s/it]  5%|▌         | 3974/78504 [2:24:12<68:20:13,  3.30s/it]                                                         {'loss': 0.0753, 'grad_norm': 1.4851475954055786, 'learning_rate': 1.5173863202139855e-05, 'epoch': 1.21}
  5%|▌         | 3974/78504 [2:24:12<68:20:13,  3.30s/it]  5%|▌         | 3975/78504 [2:24:15<63:48:08,  3.08s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.4284003973007202, 'learning_rate': 1.5177684371417654e-05, 'epoch': 1.22}
  5%|▌         | 3975/78504 [2:24:15<63:48:08,  3.08s/it]  5%|▌         | 3976/78504 [2:24:17<60:02:51,  2.90s/it]                                                         {'loss': 0.1005, 'grad_norm': 1.792839527130127, 'learning_rate': 1.5181505540695453e-05, 'epoch': 1.22}
  5%|▌         | 3976/78504 [2:24:17<60:02:51,  2.90s/it]  5%|▌         | 3977/78504 [2:24:20<57:07:42,  2.76s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.35479632019996643, 'learning_rate': 1.5185326709973251e-05, 'epoch': 1.22}
  5%|▌         | 3977/78504 [2:24:20<57:07:42,  2.76s/it]  5%|▌         | 3978/78504 [2:24:22<54:24:23,  2.63s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.43435433506965637, 'learning_rate': 1.518914787925105e-05, 'epoch': 1.22}
  5%|▌         | 3978/78504 [2:24:22<54:24:23,  2.63s/it]  5%|▌         | 3979/78504 [2:24:24<51:13:23,  2.47s/it]                                                         {'loss': 0.0632, 'grad_norm': 0.3727359473705292, 'learning_rate': 1.519296904852885e-05, 'epoch': 1.22}
  5%|▌         | 3979/78504 [2:24:24<51:13:23,  2.47s/it]  5%|▌         | 3980/78504 [2:24:26<48:29:07,  2.34s/it]                                                         {'loss': 0.128, 'grad_norm': 0.3907489478588104, 'learning_rate': 1.519679021780665e-05, 'epoch': 1.22}
  5%|▌         | 3980/78504 [2:24:26<48:29:07,  2.34s/it]  5%|▌         | 3981/78504 [2:24:29<47:13:57,  2.28s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.40870562195777893, 'learning_rate': 1.5200611387084448e-05, 'epoch': 1.22}
  5%|▌         | 3981/78504 [2:24:29<47:13:57,  2.28s/it]  5%|▌         | 3982/78504 [2:24:31<45:29:31,  2.20s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.777276337146759, 'learning_rate': 1.5204432556362247e-05, 'epoch': 1.22}
  5%|▌         | 3982/78504 [2:24:31<45:29:31,  2.20s/it]  5%|▌         | 3983/78504 [2:24:32<44:11:00,  2.13s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.6287702322006226, 'learning_rate': 1.5208253725640046e-05, 'epoch': 1.22}
  5%|▌         | 3983/78504 [2:24:33<44:11:00,  2.13s/it]  5%|▌         | 3984/78504 [2:24:34<42:29:51,  2.05s/it]                                                         {'loss': 0.1316, 'grad_norm': 0.8089359998703003, 'learning_rate': 1.5212074894917844e-05, 'epoch': 1.22}
  5%|▌         | 3984/78504 [2:24:34<42:29:51,  2.05s/it]  5%|▌         | 3985/78504 [2:24:36<41:20:45,  2.00s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.861380934715271, 'learning_rate': 1.5215896064195643e-05, 'epoch': 1.22}
  5%|▌         | 3985/78504 [2:24:36<41:20:45,  2.00s/it]  5%|▌         | 3986/78504 [2:24:38<39:53:27,  1.93s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.6139304041862488, 'learning_rate': 1.5219717233473442e-05, 'epoch': 1.22}
  5%|▌         | 3986/78504 [2:24:38<39:53:27,  1.93s/it]  5%|▌         | 3987/78504 [2:24:40<38:11:23,  1.84s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.7399612665176392, 'learning_rate': 1.5223538402751242e-05, 'epoch': 1.22}
  5%|▌         | 3987/78504 [2:24:40<38:11:23,  1.84s/it]  5%|▌         | 3988/78504 [2:24:41<36:18:27,  1.75s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.7141876816749573, 'learning_rate': 1.5227359572029041e-05, 'epoch': 1.22}
  5%|▌         | 3988/78504 [2:24:41<36:18:27,  1.75s/it]  5%|▌         | 3989/78504 [2:24:43<34:30:34,  1.67s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.7473613619804382, 'learning_rate': 1.523118074130684e-05, 'epoch': 1.22}
  5%|▌         | 3989/78504 [2:24:43<34:30:34,  1.67s/it]  5%|▌         | 3990/78504 [2:24:44<32:58:53,  1.59s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.9719789624214172, 'learning_rate': 1.5235001910584638e-05, 'epoch': 1.22}
  5%|▌         | 3990/78504 [2:24:44<32:58:53,  1.59s/it]  5%|▌         | 3991/78504 [2:24:45<31:05:23,  1.50s/it]                                                         {'loss': 0.2128, 'grad_norm': 1.0591119527816772, 'learning_rate': 1.5238823079862437e-05, 'epoch': 1.22}
  5%|▌         | 3991/78504 [2:24:45<31:05:23,  1.50s/it]  5%|▌         | 3992/78504 [2:24:46<28:44:35,  1.39s/it]                                                         {'loss': 0.2129, 'grad_norm': 0.8527912497520447, 'learning_rate': 1.5242644249140236e-05, 'epoch': 1.22}
  5%|▌         | 3992/78504 [2:24:47<28:44:35,  1.39s/it]  5%|▌         | 3993/78504 [2:24:48<26:54:33,  1.30s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.9950820803642273, 'learning_rate': 1.5246465418418035e-05, 'epoch': 1.22}
  5%|▌         | 3993/78504 [2:24:48<26:54:33,  1.30s/it]  5%|▌         | 3994/78504 [2:24:49<25:00:06,  1.21s/it]                                                         {'loss': 0.256, 'grad_norm': 1.467010498046875, 'learning_rate': 1.5250286587695833e-05, 'epoch': 1.22}
  5%|▌         | 3994/78504 [2:24:49<25:00:06,  1.21s/it]  5%|▌         | 3995/78504 [2:24:50<23:18:14,  1.13s/it]                                                         {'loss': 0.2975, 'grad_norm': 2.1705939769744873, 'learning_rate': 1.5254107756973634e-05, 'epoch': 1.22}
  5%|▌         | 3995/78504 [2:24:50<23:18:14,  1.13s/it]  5%|▌         | 3996/78504 [2:24:50<21:10:44,  1.02s/it]                                                         {'loss': 0.3542, 'grad_norm': 2.069234848022461, 'learning_rate': 1.5257928926251433e-05, 'epoch': 1.22}
  5%|▌         | 3996/78504 [2:24:50<21:10:44,  1.02s/it]  5%|▌         | 3997/78504 [2:24:57<59:29:03,  2.87s/it]                                                         {'loss': 0.1996, 'grad_norm': 0.5531324148178101, 'learning_rate': 1.526175009552923e-05, 'epoch': 1.22}
  5%|▌         | 3997/78504 [2:24:58<59:29:03,  2.87s/it]  5%|▌         | 3998/78504 [2:25:01<61:06:34,  2.95s/it]                                                         {'loss': 0.1007, 'grad_norm': 0.5315176248550415, 'learning_rate': 1.526557126480703e-05, 'epoch': 1.22}
  5%|▌         | 3998/78504 [2:25:01<61:06:34,  2.95s/it]  5%|▌         | 3999/78504 [2:25:03<58:45:51,  2.84s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.39715003967285156, 'learning_rate': 1.526939243408483e-05, 'epoch': 1.22}
  5%|▌         | 3999/78504 [2:25:03<58:45:51,  2.84s/it]  5%|▌         | 4000/78504 [2:25:06<57:22:42,  2.77s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.6482269167900085, 'learning_rate': 1.527321360336263e-05, 'epoch': 1.22}
  5%|▌         | 4000/78504 [2:25:06<57:22:42,  2.77s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.55it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.79it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.77it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.87it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.17it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.62it/s][A
 53%|█████▎    | 8/15 [00:03<00:04,  1.58it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.76it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.11it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.39it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.56it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.85it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.26it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                         
                                               [A{'eval_loss': 0.2758716344833374, 'eval_wer': 0.35591184603782017, 'eval_cer': 0.19562371117148375, 'eval_runtime': 18.9572, 'eval_samples_per_second': 239.381, 'eval_steps_per_second': 0.791, 'epoch': 1.22}
  5%|▌         | 4000/78504 [2:26:11<57:22:42,  2.77s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-4000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-2000] due to args.save_total_limit
  5%|▌         | 4001/78504 [2:26:28<550:55:00, 26.62s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.7528416514396667, 'learning_rate': 1.5277034772640428e-05, 'epoch': 1.22}
  5%|▌         | 4001/78504 [2:26:28<550:55:00, 26.62s/it]  5%|▌         | 4002/78504 [2:26:30<399:36:52, 19.31s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.29678186774253845, 'learning_rate': 1.5280855941918227e-05, 'epoch': 1.22}
  5%|▌         | 4002/78504 [2:26:30<399:36:52, 19.31s/it]  5%|▌         | 4003/78504 [2:26:33<294:02:47, 14.21s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.4451054036617279, 'learning_rate': 1.5284677111196025e-05, 'epoch': 1.22}
  5%|▌         | 4003/78504 [2:26:33<294:02:47, 14.21s/it]  5%|▌         | 4004/78504 [2:26:35<218:52:31, 10.58s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.5282634496688843, 'learning_rate': 1.5288498280473824e-05, 'epoch': 1.22}
  5%|▌         | 4004/78504 [2:26:35<218:52:31, 10.58s/it]  5%|▌         | 4005/78504 [2:26:37<166:46:25,  8.06s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.41505691409111023, 'learning_rate': 1.5292319449751623e-05, 'epoch': 1.22}
  5%|▌         | 4005/78504 [2:26:37<166:46:25,  8.06s/it]  5%|▌         | 4006/78504 [2:26:39<130:08:18,  6.29s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.5807064175605774, 'learning_rate': 1.5296140619029422e-05, 'epoch': 1.22}
  5%|▌         | 4006/78504 [2:26:39<130:08:18,  6.29s/it]  5%|▌         | 4007/78504 [2:26:41<102:35:42,  4.96s/it]                                                          {'loss': 0.1611, 'grad_norm': 0.6081426739692688, 'learning_rate': 1.5299961788307224e-05, 'epoch': 1.23}
  5%|▌         | 4007/78504 [2:26:41<102:35:42,  4.96s/it]  5%|▌         | 4008/78504 [2:26:43<84:05:57,  4.06s/it]                                                          {'loss': 0.1411, 'grad_norm': 0.44320955872535706, 'learning_rate': 1.5303782957585023e-05, 'epoch': 1.23}
  5%|▌         | 4008/78504 [2:26:43<84:05:57,  4.06s/it]  5%|▌         | 4009/78504 [2:26:45<70:48:38,  3.42s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.9132999181747437, 'learning_rate': 1.530760412686282e-05, 'epoch': 1.23}
  5%|▌         | 4009/78504 [2:26:45<70:48:38,  3.42s/it]  5%|▌         | 4010/78504 [2:26:47<61:07:20,  2.95s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.6541072726249695, 'learning_rate': 1.531142529614062e-05, 'epoch': 1.23}
  5%|▌         | 4010/78504 [2:26:47<61:07:20,  2.95s/it]  5%|▌         | 4011/78504 [2:26:48<53:40:13,  2.59s/it]                                                         {'loss': 0.164, 'grad_norm': 0.5931136608123779, 'learning_rate': 1.531524646541842e-05, 'epoch': 1.23}
  5%|▌         | 4011/78504 [2:26:48<53:40:13,  2.59s/it]  5%|▌         | 4012/78504 [2:26:50<47:49:50,  2.31s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7697474956512451, 'learning_rate': 1.5319067634696218e-05, 'epoch': 1.23}
  5%|▌         | 4012/78504 [2:26:50<47:49:50,  2.31s/it]  5%|▌         | 4013/78504 [2:26:52<43:03:02,  2.08s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.7937294244766235, 'learning_rate': 1.5322888803974016e-05, 'epoch': 1.23}
  5%|▌         | 4013/78504 [2:26:52<43:03:02,  2.08s/it]  5%|▌         | 4014/78504 [2:26:53<39:12:12,  1.89s/it]                                                         {'loss': 0.2249, 'grad_norm': 0.9031004309654236, 'learning_rate': 1.532670997325182e-05, 'epoch': 1.23}
  5%|▌         | 4014/78504 [2:26:53<39:12:12,  1.89s/it]  5%|▌         | 4015/78504 [2:26:54<36:03:43,  1.74s/it]                                                         {'loss': 0.2198, 'grad_norm': 1.2030225992202759, 'learning_rate': 1.5330531142529617e-05, 'epoch': 1.23}
  5%|▌         | 4015/78504 [2:26:55<36:03:43,  1.74s/it]  5%|▌         | 4016/78504 [2:26:56<33:13:30,  1.61s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.7567319869995117, 'learning_rate': 1.5334352311807416e-05, 'epoch': 1.23}
  5%|▌         | 4016/78504 [2:26:56<33:13:30,  1.61s/it]  5%|▌         | 4017/78504 [2:26:57<30:28:13,  1.47s/it]                                                         {'loss': 0.2407, 'grad_norm': 1.0709590911865234, 'learning_rate': 1.5338173481085215e-05, 'epoch': 1.23}
  5%|▌         | 4017/78504 [2:26:57<30:28:13,  1.47s/it]  5%|▌         | 4018/78504 [2:26:58<28:07:41,  1.36s/it]                                                         {'loss': 0.283, 'grad_norm': 1.7994681596755981, 'learning_rate': 1.5341994650363013e-05, 'epoch': 1.23}
  5%|▌         | 4018/78504 [2:26:58<28:07:41,  1.36s/it]  5%|▌         | 4019/78504 [2:26:59<26:10:15,  1.26s/it]                                                         {'loss': 0.2502, 'grad_norm': 1.8519160747528076, 'learning_rate': 1.5345815819640812e-05, 'epoch': 1.23}
  5%|▌         | 4019/78504 [2:26:59<26:10:15,  1.26s/it]  5%|▌         | 4020/78504 [2:27:00<24:05:38,  1.16s/it]                                                         {'loss': 0.2543, 'grad_norm': 1.7662625312805176, 'learning_rate': 1.534963698891861e-05, 'epoch': 1.23}
  5%|▌         | 4020/78504 [2:27:00<24:05:38,  1.16s/it]  5%|▌         | 4021/78504 [2:27:01<21:45:49,  1.05s/it]                                                         {'loss': 0.3496, 'grad_norm': 3.432734251022339, 'learning_rate': 1.535345815819641e-05, 'epoch': 1.23}
  5%|▌         | 4021/78504 [2:27:01<21:45:49,  1.05s/it]  5%|▌         | 4022/78504 [2:27:10<70:05:43,  3.39s/it]                                                         {'loss': 0.187, 'grad_norm': 0.3942650258541107, 'learning_rate': 1.535727932747421e-05, 'epoch': 1.23}
  5%|▌         | 4022/78504 [2:27:10<70:05:43,  3.39s/it]  5%|▌         | 4023/78504 [2:27:13<68:16:21,  3.30s/it]                                                         {'loss': 0.1201, 'grad_norm': 0.3469155728816986, 'learning_rate': 1.5361100496752007e-05, 'epoch': 1.23}
  5%|▌         | 4023/78504 [2:27:13<68:16:21,  3.30s/it]  5%|▌         | 4024/78504 [2:27:16<65:03:33,  3.14s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.3274579346179962, 'learning_rate': 1.5364921666029806e-05, 'epoch': 1.23}
  5%|▌         | 4024/78504 [2:27:16<65:03:33,  3.14s/it]  5%|▌         | 4025/78504 [2:27:18<61:45:21,  2.99s/it]                                                         {'loss': 0.0984, 'grad_norm': 0.32187432050704956, 'learning_rate': 1.5368742835307605e-05, 'epoch': 1.23}
  5%|▌         | 4025/78504 [2:27:18<61:45:21,  2.99s/it]  5%|▌         | 4026/78504 [2:27:21<58:32:53,  2.83s/it]                                                         {'loss': 0.079, 'grad_norm': 0.3398663103580475, 'learning_rate': 1.5372564004585403e-05, 'epoch': 1.23}
  5%|▌         | 4026/78504 [2:27:21<58:32:53,  2.83s/it]  5%|▌         | 4027/78504 [2:27:23<55:04:29,  2.66s/it]                                                         {'loss': 0.073, 'grad_norm': 0.42567193508148193, 'learning_rate': 1.5376385173863202e-05, 'epoch': 1.23}
  5%|▌         | 4027/78504 [2:27:23<55:04:29,  2.66s/it]  5%|▌         | 4028/78504 [2:27:25<52:53:59,  2.56s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.42081254720687866, 'learning_rate': 1.5380206343141e-05, 'epoch': 1.23}
  5%|▌         | 4028/78504 [2:27:25<52:53:59,  2.56s/it]  5%|▌         | 4029/78504 [2:27:27<50:00:24,  2.42s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.38944512605667114, 'learning_rate': 1.53840275124188e-05, 'epoch': 1.23}
  5%|▌         | 4029/78504 [2:27:27<50:00:24,  2.42s/it]  5%|▌         | 4030/78504 [2:27:29<48:38:02,  2.35s/it]                                                         {'loss': 0.1054, 'grad_norm': 0.4506172835826874, 'learning_rate': 1.5387848681696602e-05, 'epoch': 1.23}
  5%|▌         | 4030/78504 [2:27:29<48:38:02,  2.35s/it]  5%|▌         | 4031/78504 [2:27:32<47:21:14,  2.29s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.33394038677215576, 'learning_rate': 1.53916698509744e-05, 'epoch': 1.23}
  5%|▌         | 4031/78504 [2:27:32<47:21:14,  2.29s/it]  5%|▌         | 4032/78504 [2:27:34<45:44:41,  2.21s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.44463109970092773, 'learning_rate': 1.53954910202522e-05, 'epoch': 1.23}
  5%|▌         | 4032/78504 [2:27:34<45:44:41,  2.21s/it]  5%|▌         | 4033/78504 [2:27:36<44:17:12,  2.14s/it]                                                         {'loss': 0.1049, 'grad_norm': 0.4924067258834839, 'learning_rate': 1.5399312189529998e-05, 'epoch': 1.23}
  5%|▌         | 4033/78504 [2:27:36<44:17:12,  2.14s/it]  5%|▌         | 4034/78504 [2:27:37<42:35:47,  2.06s/it]                                                         {'loss': 0.1222, 'grad_norm': 1.0410585403442383, 'learning_rate': 1.5403133358807797e-05, 'epoch': 1.23}
  5%|▌         | 4034/78504 [2:27:38<42:35:47,  2.06s/it]  5%|▌         | 4035/78504 [2:27:39<41:19:20,  2.00s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.5252612829208374, 'learning_rate': 1.5406954528085595e-05, 'epoch': 1.23}
  5%|▌         | 4035/78504 [2:27:39<41:19:20,  2.00s/it]  5%|▌         | 4036/78504 [2:27:41<39:56:00,  1.93s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.5210179686546326, 'learning_rate': 1.5410775697363394e-05, 'epoch': 1.23}
  5%|▌         | 4036/78504 [2:27:41<39:56:00,  1.93s/it]  5%|▌         | 4037/78504 [2:27:43<38:13:18,  1.85s/it]                                                         {'loss': 0.2038, 'grad_norm': 0.8332182168960571, 'learning_rate': 1.5414596866641193e-05, 'epoch': 1.23}
  5%|▌         | 4037/78504 [2:27:43<38:13:18,  1.85s/it]  5%|▌         | 4038/78504 [2:27:44<36:18:10,  1.76s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.6858619451522827, 'learning_rate': 1.5418418035918992e-05, 'epoch': 1.23}
  5%|▌         | 4038/78504 [2:27:44<36:18:10,  1.76s/it]  5%|▌         | 4039/78504 [2:27:46<34:32:58,  1.67s/it]                                                         {'loss': 0.2189, 'grad_norm': 1.2753064632415771, 'learning_rate': 1.542223920519679e-05, 'epoch': 1.23}
  5%|▌         | 4039/78504 [2:27:46<34:32:58,  1.67s/it]  5%|▌         | 4040/78504 [2:27:47<32:56:45,  1.59s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.0509653091430664, 'learning_rate': 1.542606037447459e-05, 'epoch': 1.24}
  5%|▌         | 4040/78504 [2:27:47<32:56:45,  1.59s/it]  5%|▌         | 4041/78504 [2:27:48<31:03:15,  1.50s/it]                                                         {'loss': 0.2382, 'grad_norm': 1.1994432210922241, 'learning_rate': 1.5429881543752388e-05, 'epoch': 1.24}
  5%|▌         | 4041/78504 [2:27:48<31:03:15,  1.50s/it]  5%|▌         | 4042/78504 [2:27:50<28:51:00,  1.39s/it]                                                         {'loss': 0.2634, 'grad_norm': 1.191679835319519, 'learning_rate': 1.5433702713030187e-05, 'epoch': 1.24}
  5%|▌         | 4042/78504 [2:27:50<28:51:00,  1.39s/it]  5%|▌         | 4043/78504 [2:27:51<26:58:14,  1.30s/it]                                                         {'loss': 0.2127, 'grad_norm': 0.8284063339233398, 'learning_rate': 1.5437523882307985e-05, 'epoch': 1.24}
  5%|▌         | 4043/78504 [2:27:51<26:58:14,  1.30s/it]  5%|▌         | 4044/78504 [2:27:52<25:23:50,  1.23s/it]                                                         {'loss': 0.221, 'grad_norm': 0.9076023697853088, 'learning_rate': 1.5441345051585784e-05, 'epoch': 1.24}
  5%|▌         | 4044/78504 [2:27:52<25:23:50,  1.23s/it]  5%|▌         | 4045/78504 [2:27:53<23:31:41,  1.14s/it]                                                         {'loss': 0.2509, 'grad_norm': 1.3721202611923218, 'learning_rate': 1.5445166220863586e-05, 'epoch': 1.24}
  5%|▌         | 4045/78504 [2:27:53<23:31:41,  1.14s/it]  5%|▌         | 4046/78504 [2:27:53<21:21:48,  1.03s/it]                                                         {'loss': 0.3584, 'grad_norm': 1.7763761281967163, 'learning_rate': 1.5448987390141385e-05, 'epoch': 1.24}
  5%|▌         | 4046/78504 [2:27:54<21:21:48,  1.03s/it]  5%|▌         | 4047/78504 [2:28:03<74:02:17,  3.58s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.5645197033882141, 'learning_rate': 1.5452808559419184e-05, 'epoch': 1.24}
  5%|▌         | 4047/78504 [2:28:03<74:02:17,  3.58s/it]  5%|▌         | 4048/78504 [2:28:06<71:05:02,  3.44s/it]                                                         {'loss': 0.1252, 'grad_norm': 0.4377846419811249, 'learning_rate': 1.5456629728696983e-05, 'epoch': 1.24}
  5%|▌         | 4048/78504 [2:28:06<71:05:02,  3.44s/it]  5%|▌         | 4049/78504 [2:28:09<68:31:17,  3.31s/it]                                                         {'loss': 0.0984, 'grad_norm': 0.3523373305797577, 'learning_rate': 1.546045089797478e-05, 'epoch': 1.24}
  5%|▌         | 4049/78504 [2:28:09<68:31:17,  3.31s/it]  5%|▌         | 4050/78504 [2:28:12<64:11:19,  3.10s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.3800857365131378, 'learning_rate': 1.546427206725258e-05, 'epoch': 1.24}
  5%|▌         | 4050/78504 [2:28:12<64:11:19,  3.10s/it]  5%|▌         | 4051/78504 [2:28:14<60:19:43,  2.92s/it]                                                         {'loss': 0.0708, 'grad_norm': 0.31009718775749207, 'learning_rate': 1.546809323653038e-05, 'epoch': 1.24}
  5%|▌         | 4051/78504 [2:28:14<60:19:43,  2.92s/it]  5%|▌         | 4052/78504 [2:28:16<56:18:51,  2.72s/it]                                                         {'loss': 0.0878, 'grad_norm': 0.36954352259635925, 'learning_rate': 1.5471914405808178e-05, 'epoch': 1.24}
  5%|▌         | 4052/78504 [2:28:17<56:18:51,  2.72s/it]  5%|▌         | 4053/78504 [2:28:19<53:54:21,  2.61s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.24114727973937988, 'learning_rate': 1.5475735575085976e-05, 'epoch': 1.24}
  5%|▌         | 4053/78504 [2:28:19<53:54:21,  2.61s/it]  5%|▌         | 4054/78504 [2:28:21<50:42:48,  2.45s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.4082677364349365, 'learning_rate': 1.5479556744363775e-05, 'epoch': 1.24}
  5%|▌         | 4054/78504 [2:28:21<50:42:48,  2.45s/it]  5%|▌         | 4055/78504 [2:28:23<49:03:41,  2.37s/it]                                                         {'loss': 0.1115, 'grad_norm': 1.1338554620742798, 'learning_rate': 1.5483377913641574e-05, 'epoch': 1.24}
  5%|▌         | 4055/78504 [2:28:23<49:03:41,  2.37s/it]  5%|▌         | 4056/78504 [2:28:25<47:40:05,  2.31s/it]                                                         {'loss': 0.1028, 'grad_norm': 0.3935781717300415, 'learning_rate': 1.5487199082919373e-05, 'epoch': 1.24}
  5%|▌         | 4056/78504 [2:28:25<47:40:05,  2.31s/it]  5%|▌         | 4057/78504 [2:28:27<45:58:03,  2.22s/it]                                                         {'loss': 0.128, 'grad_norm': 0.5365492701530457, 'learning_rate': 1.549102025219717e-05, 'epoch': 1.24}
  5%|▌         | 4057/78504 [2:28:27<45:58:03,  2.22s/it]  5%|▌         | 4058/78504 [2:28:29<44:26:36,  2.15s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.4242883324623108, 'learning_rate': 1.549484142147497e-05, 'epoch': 1.24}
  5%|▌         | 4058/78504 [2:28:29<44:26:36,  2.15s/it]  5%|▌         | 4059/78504 [2:28:31<42:41:43,  2.06s/it]                                                         {'loss': 0.107, 'grad_norm': 0.3777497410774231, 'learning_rate': 1.549866259075277e-05, 'epoch': 1.24}
  5%|▌         | 4059/78504 [2:28:31<42:41:43,  2.06s/it]  5%|▌         | 4060/78504 [2:28:33<41:31:15,  2.01s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.5446922183036804, 'learning_rate': 1.5502483760030567e-05, 'epoch': 1.24}
  5%|▌         | 4060/78504 [2:28:33<41:31:15,  2.01s/it]  5%|▌         | 4061/78504 [2:28:35<39:46:29,  1.92s/it]                                                         {'loss': 0.1333, 'grad_norm': 0.47529181838035583, 'learning_rate': 1.550630492930837e-05, 'epoch': 1.24}
  5%|▌         | 4061/78504 [2:28:35<39:46:29,  1.92s/it]  5%|▌         | 4062/78504 [2:28:36<38:04:13,  1.84s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.59477299451828, 'learning_rate': 1.551012609858617e-05, 'epoch': 1.24}
  5%|▌         | 4062/78504 [2:28:36<38:04:13,  1.84s/it]  5%|▌         | 4063/78504 [2:28:38<36:15:40,  1.75s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.7496638298034668, 'learning_rate': 1.5513947267863967e-05, 'epoch': 1.24}
  5%|▌         | 4063/78504 [2:28:38<36:15:40,  1.75s/it]  5%|▌         | 4064/78504 [2:28:39<34:29:01,  1.67s/it]                                                         {'loss': 0.2263, 'grad_norm': 0.8088547587394714, 'learning_rate': 1.5517768437141766e-05, 'epoch': 1.24}
  5%|▌         | 4064/78504 [2:28:39<34:29:01,  1.67s/it]  5%|▌         | 4065/78504 [2:28:41<32:56:08,  1.59s/it]                                                         {'loss': 0.222, 'grad_norm': 1.2030723094940186, 'learning_rate': 1.5521589606419565e-05, 'epoch': 1.24}
  5%|▌         | 4065/78504 [2:28:41<32:56:08,  1.59s/it]  5%|▌         | 4066/78504 [2:28:42<31:01:10,  1.50s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.6785872578620911, 'learning_rate': 1.5525410775697363e-05, 'epoch': 1.24}
  5%|▌         | 4066/78504 [2:28:42<31:01:10,  1.50s/it]  5%|▌         | 4067/78504 [2:28:43<29:10:35,  1.41s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.8134067058563232, 'learning_rate': 1.5529231944975162e-05, 'epoch': 1.24}
  5%|▌         | 4067/78504 [2:28:43<29:10:35,  1.41s/it]  5%|▌         | 4068/78504 [2:28:44<27:10:26,  1.31s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.767875611782074, 'learning_rate': 1.553305311425296e-05, 'epoch': 1.24}
  5%|▌         | 4068/78504 [2:28:44<27:10:26,  1.31s/it]  5%|▌         | 4069/78504 [2:28:45<25:08:27,  1.22s/it]                                                         {'loss': 0.3178, 'grad_norm': 1.3381571769714355, 'learning_rate': 1.553687428353076e-05, 'epoch': 1.24}
  5%|▌         | 4069/78504 [2:28:45<25:08:27,  1.22s/it]  5%|▌         | 4070/78504 [2:28:46<23:23:39,  1.13s/it]                                                         {'loss': 0.2435, 'grad_norm': 2.2440991401672363, 'learning_rate': 1.554069545280856e-05, 'epoch': 1.24}
  5%|▌         | 4070/78504 [2:28:46<23:23:39,  1.13s/it]  5%|▌         | 4071/78504 [2:28:47<21:24:06,  1.04s/it]                                                         {'loss': 0.3568, 'grad_norm': 2.37255859375, 'learning_rate': 1.5544516622086357e-05, 'epoch': 1.24}
  5%|▌         | 4071/78504 [2:28:47<21:24:06,  1.04s/it]  5%|▌         | 4072/78504 [2:28:56<71:15:11,  3.45s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.6291599869728088, 'learning_rate': 1.5548337791364156e-05, 'epoch': 1.24}
  5%|▌         | 4072/78504 [2:28:56<71:15:11,  3.45s/it]  5%|▌         | 4073/78504 [2:28:59<70:07:50,  3.39s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.41899725794792175, 'learning_rate': 1.5552158960641955e-05, 'epoch': 1.25}
  5%|▌         | 4073/78504 [2:28:59<70:07:50,  3.39s/it]  5%|▌         | 4074/78504 [2:29:02<67:35:35,  3.27s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.32082051038742065, 'learning_rate': 1.5555980129919753e-05, 'epoch': 1.25}
  5%|▌         | 4074/78504 [2:29:02<67:35:35,  3.27s/it]  5%|▌         | 4075/78504 [2:29:05<63:25:18,  3.07s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.4022083282470703, 'learning_rate': 1.5559801299197552e-05, 'epoch': 1.25}
  5%|▌         | 4075/78504 [2:29:05<63:25:18,  3.07s/it]  5%|▌         | 4076/78504 [2:29:08<59:42:59,  2.89s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.6915343403816223, 'learning_rate': 1.5563622468475354e-05, 'epoch': 1.25}
  5%|▌         | 4076/78504 [2:29:08<59:42:59,  2.89s/it]  5%|▌         | 4077/78504 [2:29:10<56:54:51,  2.75s/it]                                                         {'loss': 0.0697, 'grad_norm': 0.38915374875068665, 'learning_rate': 1.5567443637753153e-05, 'epoch': 1.25}
  5%|▌         | 4077/78504 [2:29:10<56:54:51,  2.75s/it]  5%|▌         | 4078/78504 [2:29:12<54:12:47,  2.62s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.4180588126182556, 'learning_rate': 1.557126480703095e-05, 'epoch': 1.25}
  5%|▌         | 4078/78504 [2:29:12<54:12:47,  2.62s/it]  5%|▌         | 4079/78504 [2:29:14<51:06:52,  2.47s/it]                                                         {'loss': 0.1374, 'grad_norm': 0.4475787281990051, 'learning_rate': 1.557508597630875e-05, 'epoch': 1.25}
  5%|▌         | 4079/78504 [2:29:14<51:06:52,  2.47s/it]  5%|▌         | 4080/78504 [2:29:17<49:19:54,  2.39s/it]                                                         {'loss': 0.0857, 'grad_norm': 0.5211975574493408, 'learning_rate': 1.557890714558655e-05, 'epoch': 1.25}
  5%|▌         | 4080/78504 [2:29:17<49:19:54,  2.39s/it]  5%|▌         | 4081/78504 [2:29:19<47:47:46,  2.31s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.43061378598213196, 'learning_rate': 1.5582728314864348e-05, 'epoch': 1.25}
  5%|▌         | 4081/78504 [2:29:19<47:47:46,  2.31s/it]  5%|▌         | 4082/78504 [2:29:21<45:01:08,  2.18s/it]                                                         {'loss': 0.1225, 'grad_norm': 0.4147164821624756, 'learning_rate': 1.5586549484142147e-05, 'epoch': 1.25}
  5%|▌         | 4082/78504 [2:29:21<45:01:08,  2.18s/it]  5%|▌         | 4083/78504 [2:29:23<43:47:19,  2.12s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.8903311491012573, 'learning_rate': 1.5590370653419945e-05, 'epoch': 1.25}
  5%|▌         | 4083/78504 [2:29:23<43:47:19,  2.12s/it]  5%|▌         | 4084/78504 [2:29:24<42:37:24,  2.06s/it]                                                         {'loss': 0.1401, 'grad_norm': 0.5471884608268738, 'learning_rate': 1.5594191822697748e-05, 'epoch': 1.25}
  5%|▌         | 4084/78504 [2:29:25<42:37:24,  2.06s/it]  5%|▌         | 4085/78504 [2:29:26<41:35:01,  2.01s/it]                                                         {'loss': 0.1399, 'grad_norm': 0.9537472128868103, 'learning_rate': 1.5598012991975546e-05, 'epoch': 1.25}
  5%|▌         | 4085/78504 [2:29:26<41:35:01,  2.01s/it]  5%|▌         | 4086/78504 [2:29:28<39:58:24,  1.93s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.54946368932724, 'learning_rate': 1.5601834161253345e-05, 'epoch': 1.25}
  5%|▌         | 4086/78504 [2:29:28<39:58:24,  1.93s/it]  5%|▌         | 4087/78504 [2:29:30<37:49:28,  1.83s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.8691996932029724, 'learning_rate': 1.5605655330531144e-05, 'epoch': 1.25}
  5%|▌         | 4087/78504 [2:29:30<37:49:28,  1.83s/it]  5%|▌         | 4088/78504 [2:29:31<35:52:26,  1.74s/it]                                                         {'loss': 0.2129, 'grad_norm': 1.6303462982177734, 'learning_rate': 1.5609476499808943e-05, 'epoch': 1.25}
  5%|▌         | 4088/78504 [2:29:31<35:52:26,  1.74s/it]  5%|▌         | 4089/78504 [2:29:33<35:54:00,  1.74s/it]                                                         {'loss': 0.184, 'grad_norm': 0.7432484030723572, 'learning_rate': 1.561329766908674e-05, 'epoch': 1.25}
  5%|▌         | 4089/78504 [2:29:33<35:54:00,  1.74s/it]  5%|▌         | 4090/78504 [2:29:34<33:41:54,  1.63s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.9804303646087646, 'learning_rate': 1.561711883836454e-05, 'epoch': 1.25}
  5%|▌         | 4090/78504 [2:29:34<33:41:54,  1.63s/it]  5%|▌         | 4091/78504 [2:29:36<31:32:52,  1.53s/it]                                                         {'loss': 0.2478, 'grad_norm': 0.916713535785675, 'learning_rate': 1.562094000764234e-05, 'epoch': 1.25}
  5%|▌         | 4091/78504 [2:29:36<31:32:52,  1.53s/it]  5%|▌         | 4092/78504 [2:29:37<29:05:49,  1.41s/it]                                                         {'loss': 0.2253, 'grad_norm': 0.9228897094726562, 'learning_rate': 1.562476117692014e-05, 'epoch': 1.25}
  5%|▌         | 4092/78504 [2:29:37<29:05:49,  1.41s/it]  5%|▌         | 4093/78504 [2:29:38<27:12:21,  1.32s/it]                                                         {'loss': 0.2342, 'grad_norm': 1.2800862789154053, 'learning_rate': 1.562858234619794e-05, 'epoch': 1.25}
  5%|▌         | 4093/78504 [2:29:38<27:12:21,  1.32s/it]  5%|▌         | 4094/78504 [2:29:39<25:11:44,  1.22s/it]                                                         {'loss': 0.2258, 'grad_norm': 1.794782042503357, 'learning_rate': 1.563240351547574e-05, 'epoch': 1.25}
  5%|▌         | 4094/78504 [2:29:39<25:11:44,  1.22s/it]  5%|▌         | 4095/78504 [2:29:40<23:23:33,  1.13s/it]                                                         {'loss': 0.2701, 'grad_norm': 2.126619577407837, 'learning_rate': 1.5636224684753537e-05, 'epoch': 1.25}
  5%|▌         | 4095/78504 [2:29:40<23:23:33,  1.13s/it]  5%|▌         | 4096/78504 [2:29:41<21:24:13,  1.04s/it]                                                         {'loss': 0.3891, 'grad_norm': 2.9247608184814453, 'learning_rate': 1.5640045854031336e-05, 'epoch': 1.25}
  5%|▌         | 4096/78504 [2:29:41<21:24:13,  1.04s/it]  5%|▌         | 4097/78504 [2:29:49<64:13:11,  3.11s/it]                                                         {'loss': 0.224, 'grad_norm': 0.6144734025001526, 'learning_rate': 1.5643867023309135e-05, 'epoch': 1.25}
  5%|▌         | 4097/78504 [2:29:49<64:13:11,  3.11s/it]  5%|▌         | 4098/78504 [2:29:52<65:44:30,  3.18s/it]                                                         {'loss': 0.1093, 'grad_norm': 0.2890974283218384, 'learning_rate': 1.5647688192586933e-05, 'epoch': 1.25}
  5%|▌         | 4098/78504 [2:29:52<65:44:30,  3.18s/it]  5%|▌         | 4099/78504 [2:29:55<64:09:44,  3.10s/it]                                                         {'loss': 0.089, 'grad_norm': 0.4625438153743744, 'learning_rate': 1.5651509361864732e-05, 'epoch': 1.25}
  5%|▌         | 4099/78504 [2:29:55<64:09:44,  3.10s/it]  5%|▌         | 4100/78504 [2:29:57<60:53:03,  2.95s/it]                                                         {'loss': 0.0858, 'grad_norm': 0.25873515009880066, 'learning_rate': 1.565533053114253e-05, 'epoch': 1.25}
  5%|▌         | 4100/78504 [2:29:57<60:53:03,  2.95s/it]  5%|▌         | 4101/78504 [2:30:00<58:07:09,  2.81s/it]                                                         {'loss': 0.091, 'grad_norm': 0.3356883227825165, 'learning_rate': 1.565915170042033e-05, 'epoch': 1.25}
  5%|▌         | 4101/78504 [2:30:00<58:07:09,  2.81s/it]  5%|▌         | 4102/78504 [2:30:02<55:45:37,  2.70s/it]                                                         {'loss': 0.081, 'grad_norm': 0.2696295380592346, 'learning_rate': 1.566297286969813e-05, 'epoch': 1.25}
  5%|▌         | 4102/78504 [2:30:02<55:45:37,  2.70s/it]  5%|▌         | 4103/78504 [2:30:05<53:28:06,  2.59s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.34146955609321594, 'learning_rate': 1.5666794038975927e-05, 'epoch': 1.25}
  5%|▌         | 4103/78504 [2:30:05<53:28:06,  2.59s/it]  5%|▌         | 4104/78504 [2:30:07<51:26:59,  2.49s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.5468454957008362, 'learning_rate': 1.5670615208253726e-05, 'epoch': 1.25}
  5%|▌         | 4104/78504 [2:30:07<51:26:59,  2.49s/it]  5%|▌         | 4105/78504 [2:30:09<49:40:32,  2.40s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.37113285064697266, 'learning_rate': 1.5674436377531525e-05, 'epoch': 1.25}
  5%|▌         | 4105/78504 [2:30:09<49:40:32,  2.40s/it]  5%|▌         | 4106/78504 [2:30:11<48:11:55,  2.33s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.3883320987224579, 'learning_rate': 1.5678257546809323e-05, 'epoch': 1.26}
  5%|▌         | 4106/78504 [2:30:11<48:11:55,  2.33s/it]  5%|▌         | 4107/78504 [2:30:13<45:14:48,  2.19s/it]                                                         {'loss': 0.0975, 'grad_norm': 0.3791731894016266, 'learning_rate': 1.5682078716087125e-05, 'epoch': 1.26}
  5%|▌         | 4107/78504 [2:30:13<45:14:48,  2.19s/it]  5%|▌         | 4108/78504 [2:30:15<44:03:31,  2.13s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.37353911995887756, 'learning_rate': 1.5685899885364924e-05, 'epoch': 1.26}
  5%|▌         | 4108/78504 [2:30:15<44:03:31,  2.13s/it]  5%|▌         | 4109/78504 [2:30:17<42:50:07,  2.07s/it]                                                         {'loss': 0.123, 'grad_norm': 0.4966721832752228, 'learning_rate': 1.5689721054642723e-05, 'epoch': 1.26}
  5%|▌         | 4109/78504 [2:30:17<42:50:07,  2.07s/it]  5%|▌         | 4110/78504 [2:30:19<41:39:11,  2.02s/it]                                                         {'loss': 0.1496, 'grad_norm': 0.7007614374160767, 'learning_rate': 1.569354222392052e-05, 'epoch': 1.26}
  5%|▌         | 4110/78504 [2:30:19<41:39:11,  2.02s/it]  5%|▌         | 4111/78504 [2:30:21<40:07:03,  1.94s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.7053175568580627, 'learning_rate': 1.569736339319832e-05, 'epoch': 1.26}
  5%|▌         | 4111/78504 [2:30:21<40:07:03,  1.94s/it]  5%|▌         | 4112/78504 [2:30:22<37:51:07,  1.83s/it]                                                         {'loss': 0.1696, 'grad_norm': 0.6480387449264526, 'learning_rate': 1.570118456247612e-05, 'epoch': 1.26}
  5%|▌         | 4112/78504 [2:30:22<37:51:07,  1.83s/it]  5%|▌         | 4113/78504 [2:30:24<36:01:19,  1.74s/it]                                                         {'loss': 0.1846, 'grad_norm': 0.9772491455078125, 'learning_rate': 1.5705005731753918e-05, 'epoch': 1.26}
  5%|▌         | 4113/78504 [2:30:24<36:01:19,  1.74s/it]  5%|▌         | 4114/78504 [2:30:25<34:21:10,  1.66s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.7127219438552856, 'learning_rate': 1.5708826901031717e-05, 'epoch': 1.26}
  5%|▌         | 4114/78504 [2:30:25<34:21:10,  1.66s/it]  5%|▌         | 4115/78504 [2:30:27<32:43:41,  1.58s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.8794042468070984, 'learning_rate': 1.5712648070309515e-05, 'epoch': 1.26}
  5%|▌         | 4115/78504 [2:30:27<32:43:41,  1.58s/it]  5%|▌         | 4116/78504 [2:30:28<30:55:36,  1.50s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.8075908422470093, 'learning_rate': 1.5716469239587314e-05, 'epoch': 1.26}
  5%|▌         | 4116/78504 [2:30:28<30:55:36,  1.50s/it]  5%|▌         | 4117/78504 [2:30:29<28:44:25,  1.39s/it]                                                         {'loss': 0.2322, 'grad_norm': 1.4756178855895996, 'learning_rate': 1.5720290408865113e-05, 'epoch': 1.26}
  5%|▌         | 4117/78504 [2:30:29<28:44:25,  1.39s/it]  5%|▌         | 4118/78504 [2:30:30<26:51:09,  1.30s/it]                                                         {'loss': 0.3023, 'grad_norm': 1.264198899269104, 'learning_rate': 1.572411157814291e-05, 'epoch': 1.26}
  5%|▌         | 4118/78504 [2:30:30<26:51:09,  1.30s/it]  5%|▌         | 4119/78504 [2:30:31<25:23:56,  1.23s/it]                                                         {'loss': 0.2609, 'grad_norm': 1.5908557176589966, 'learning_rate': 1.572793274742071e-05, 'epoch': 1.26}
  5%|▌         | 4119/78504 [2:30:31<25:23:56,  1.23s/it]  5%|▌         | 4120/78504 [2:30:32<23:32:22,  1.14s/it]                                                         {'loss': 0.2788, 'grad_norm': 2.5790021419525146, 'learning_rate': 1.573175391669851e-05, 'epoch': 1.26}
  5%|▌         | 4120/78504 [2:30:32<23:32:22,  1.14s/it]  5%|▌         | 4121/78504 [2:30:33<21:27:56,  1.04s/it]                                                         {'loss': 0.2699, 'grad_norm': 1.7864441871643066, 'learning_rate': 1.5735575085976308e-05, 'epoch': 1.26}
  5%|▌         | 4121/78504 [2:30:33<21:27:56,  1.04s/it]  5%|▌         | 4122/78504 [2:30:43<74:03:55,  3.58s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.6901083588600159, 'learning_rate': 1.5739396255254107e-05, 'epoch': 1.26}
  5%|▌         | 4122/78504 [2:30:43<74:03:55,  3.58s/it]  5%|▌         | 4123/78504 [2:30:46<71:17:08,  3.45s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.40693119168281555, 'learning_rate': 1.574321742453191e-05, 'epoch': 1.26}
  5%|▌         | 4123/78504 [2:30:46<71:17:08,  3.45s/it]  5%|▌         | 4124/78504 [2:30:48<65:53:27,  3.19s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.35905924439430237, 'learning_rate': 1.5747038593809707e-05, 'epoch': 1.26}
  5%|▌         | 4124/78504 [2:30:48<65:53:27,  3.19s/it]  5%|▌         | 4125/78504 [2:30:51<62:20:20,  3.02s/it]                                                         {'loss': 0.0595, 'grad_norm': 0.45487916469573975, 'learning_rate': 1.5750859763087506e-05, 'epoch': 1.26}
  5%|▌         | 4125/78504 [2:30:51<62:20:20,  3.02s/it]  5%|▌         | 4126/78504 [2:30:53<58:58:55,  2.85s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.32345059514045715, 'learning_rate': 1.5754680932365305e-05, 'epoch': 1.26}
  5%|▌         | 4126/78504 [2:30:53<58:58:55,  2.85s/it]  5%|▌         | 4127/78504 [2:30:56<55:22:18,  2.68s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.5829877257347107, 'learning_rate': 1.5758502101643104e-05, 'epoch': 1.26}
  5%|▌         | 4127/78504 [2:30:56<55:22:18,  2.68s/it]  5%|▌         | 4128/78504 [2:30:58<53:09:27,  2.57s/it]                                                         {'loss': 0.094, 'grad_norm': 0.4490090608596802, 'learning_rate': 1.5762323270920902e-05, 'epoch': 1.26}
  5%|▌         | 4128/78504 [2:30:58<53:09:27,  2.57s/it]  5%|▌         | 4129/78504 [2:31:00<50:12:49,  2.43s/it]                                                         {'loss': 0.0804, 'grad_norm': 0.40385374426841736, 'learning_rate': 1.57661444401987e-05, 'epoch': 1.26}
  5%|▌         | 4129/78504 [2:31:00<50:12:49,  2.43s/it]  5%|▌         | 4130/78504 [2:31:02<47:44:54,  2.31s/it]                                                         {'loss': 0.1037, 'grad_norm': 0.46193644404411316, 'learning_rate': 1.57699656094765e-05, 'epoch': 1.26}
  5%|▌         | 4130/78504 [2:31:02<47:44:54,  2.31s/it]  5%|▌         | 4131/78504 [2:31:04<46:42:28,  2.26s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.584024965763092, 'learning_rate': 1.57737867787543e-05, 'epoch': 1.26}
  5%|▌         | 4131/78504 [2:31:04<46:42:28,  2.26s/it]  5%|▌         | 4132/78504 [2:31:06<45:17:30,  2.19s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.45870113372802734, 'learning_rate': 1.5777607948032097e-05, 'epoch': 1.26}
  5%|▌         | 4132/78504 [2:31:06<45:17:30,  2.19s/it]  5%|▌         | 4133/78504 [2:31:08<43:56:04,  2.13s/it]                                                         {'loss': 0.1128, 'grad_norm': 0.6734806895256042, 'learning_rate': 1.5781429117309896e-05, 'epoch': 1.26}
  5%|▌         | 4133/78504 [2:31:08<43:56:04,  2.13s/it]  5%|▌         | 4134/78504 [2:31:10<42:20:36,  2.05s/it]                                                         {'loss': 0.1104, 'grad_norm': 0.6526630520820618, 'learning_rate': 1.5785250286587695e-05, 'epoch': 1.26}
  5%|▌         | 4134/78504 [2:31:10<42:20:36,  2.05s/it]  5%|▌         | 4135/78504 [2:31:12<41:01:13,  1.99s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.8923491835594177, 'learning_rate': 1.5789071455865494e-05, 'epoch': 1.26}
  5%|▌         | 4135/78504 [2:31:12<41:01:13,  1.99s/it]  5%|▌         | 4136/78504 [2:31:14<39:24:11,  1.91s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.6380122900009155, 'learning_rate': 1.5792892625143292e-05, 'epoch': 1.26}
  5%|▌         | 4136/78504 [2:31:14<39:24:11,  1.91s/it]  5%|▌         | 4137/78504 [2:31:15<37:48:30,  1.83s/it]                                                         {'loss': 0.1569, 'grad_norm': 0.543453574180603, 'learning_rate': 1.579671379442109e-05, 'epoch': 1.26}
  5%|▌         | 4137/78504 [2:31:15<37:48:30,  1.83s/it]  5%|▌         | 4138/78504 [2:31:17<35:57:12,  1.74s/it]                                                         {'loss': 0.2151, 'grad_norm': 1.418705940246582, 'learning_rate': 1.5800534963698893e-05, 'epoch': 1.27}
  5%|▌         | 4138/78504 [2:31:17<35:57:12,  1.74s/it]  5%|▌         | 4139/78504 [2:31:18<34:14:43,  1.66s/it]                                                         {'loss': 0.2634, 'grad_norm': 0.8538497090339661, 'learning_rate': 1.5804356132976692e-05, 'epoch': 1.27}
  5%|▌         | 4139/78504 [2:31:18<34:14:43,  1.66s/it]  5%|▌         | 4140/78504 [2:31:20<32:47:11,  1.59s/it]                                                         {'loss': 0.2539, 'grad_norm': 0.9455171227455139, 'learning_rate': 1.580817730225449e-05, 'epoch': 1.27}
  5%|▌         | 4140/78504 [2:31:20<32:47:11,  1.59s/it]  5%|▌         | 4141/78504 [2:31:21<30:55:48,  1.50s/it]                                                         {'loss': 0.1978, 'grad_norm': 2.373990297317505, 'learning_rate': 1.581199847153229e-05, 'epoch': 1.27}
  5%|▌         | 4141/78504 [2:31:21<30:55:48,  1.50s/it]  5%|▌         | 4142/78504 [2:31:22<28:48:14,  1.39s/it]                                                         {'loss': 0.2261, 'grad_norm': 0.9486874341964722, 'learning_rate': 1.5815819640810088e-05, 'epoch': 1.27}
  5%|▌         | 4142/78504 [2:31:22<28:48:14,  1.39s/it]  5%|▌         | 4143/78504 [2:31:23<26:59:32,  1.31s/it]                                                         {'loss': 0.2286, 'grad_norm': 1.4061384201049805, 'learning_rate': 1.5819640810087887e-05, 'epoch': 1.27}
  5%|▌         | 4143/78504 [2:31:23<26:59:32,  1.31s/it]  5%|▌         | 4144/78504 [2:31:24<25:21:01,  1.23s/it]                                                         {'loss': 0.2719, 'grad_norm': 1.1332674026489258, 'learning_rate': 1.5823461979365686e-05, 'epoch': 1.27}
  5%|▌         | 4144/78504 [2:31:24<25:21:01,  1.23s/it]  5%|▌         | 4145/78504 [2:31:25<23:33:12,  1.14s/it]                                                         {'loss': 0.2721, 'grad_norm': 1.1130053997039795, 'learning_rate': 1.5827283148643484e-05, 'epoch': 1.27}
  5%|▌         | 4145/78504 [2:31:25<23:33:12,  1.14s/it]  5%|▌         | 4146/78504 [2:31:26<21:22:10,  1.03s/it]                                                         {'loss': 0.3066, 'grad_norm': 1.4446762800216675, 'learning_rate': 1.5831104317921283e-05, 'epoch': 1.27}
  5%|▌         | 4146/78504 [2:31:26<21:22:10,  1.03s/it]  5%|▌         | 4147/78504 [2:31:35<68:27:27,  3.31s/it]                                                         {'loss': 0.1651, 'grad_norm': 0.3990901708602905, 'learning_rate': 1.5834925487199082e-05, 'epoch': 1.27}
  5%|▌         | 4147/78504 [2:31:35<68:27:27,  3.31s/it]  5%|▌         | 4148/78504 [2:31:38<67:16:45,  3.26s/it]                                                         {'loss': 0.1195, 'grad_norm': 0.4220849275588989, 'learning_rate': 1.583874665647688e-05, 'epoch': 1.27}
  5%|▌         | 4148/78504 [2:31:38<67:16:45,  3.26s/it]  5%|▌         | 4149/78504 [2:31:41<65:47:54,  3.19s/it]                                                         {'loss': 0.1231, 'grad_norm': 0.4450114965438843, 'learning_rate': 1.584256782575468e-05, 'epoch': 1.27}
  5%|▌         | 4149/78504 [2:31:41<65:47:54,  3.19s/it]  5%|▌         | 4150/78504 [2:31:43<62:17:12,  3.02s/it]                                                         {'loss': 0.0754, 'grad_norm': 0.28868818283081055, 'learning_rate': 1.5846388995032478e-05, 'epoch': 1.27}
  5%|▌         | 4150/78504 [2:31:43<62:17:12,  3.02s/it]  5%|▌         | 4151/78504 [2:31:46<58:53:17,  2.85s/it]                                                         {'loss': 0.0719, 'grad_norm': 0.43125924468040466, 'learning_rate': 1.5850210164310277e-05, 'epoch': 1.27}
  5%|▌         | 4151/78504 [2:31:46<58:53:17,  2.85s/it]  5%|▌         | 4152/78504 [2:31:48<55:16:34,  2.68s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.3544538617134094, 'learning_rate': 1.5854031333588076e-05, 'epoch': 1.27}
  5%|▌         | 4152/78504 [2:31:48<55:16:34,  2.68s/it]  5%|▌         | 4153/78504 [2:31:51<53:06:05,  2.57s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.33841386437416077, 'learning_rate': 1.5857852502865874e-05, 'epoch': 1.27}
  5%|▌         | 4153/78504 [2:31:51<53:06:05,  2.57s/it]  5%|▌         | 4154/78504 [2:31:53<50:08:11,  2.43s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.3981311619281769, 'learning_rate': 1.5861673672143677e-05, 'epoch': 1.27}
  5%|▌         | 4154/78504 [2:31:53<50:08:11,  2.43s/it]  5%|▌         | 4155/78504 [2:31:55<48:40:25,  2.36s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.37528732419013977, 'learning_rate': 1.5865494841421475e-05, 'epoch': 1.27}
  5%|▌         | 4155/78504 [2:31:55<48:40:25,  2.36s/it]  5%|▌         | 4156/78504 [2:31:57<47:29:31,  2.30s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.27345675230026245, 'learning_rate': 1.5869316010699274e-05, 'epoch': 1.27}
  5%|▌         | 4156/78504 [2:31:57<47:29:31,  2.30s/it]  5%|▌         | 4157/78504 [2:31:59<44:46:00,  2.17s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.4272817075252533, 'learning_rate': 1.5873137179977073e-05, 'epoch': 1.27}
  5%|▌         | 4157/78504 [2:31:59<44:46:00,  2.17s/it]  5%|▌         | 4158/78504 [2:32:01<43:39:30,  2.11s/it]                                                         {'loss': 0.118, 'grad_norm': 0.36158037185668945, 'learning_rate': 1.587695834925487e-05, 'epoch': 1.27}
  5%|▌         | 4158/78504 [2:32:01<43:39:30,  2.11s/it]  5%|▌         | 4159/78504 [2:32:03<42:26:13,  2.05s/it]                                                         {'loss': 0.1113, 'grad_norm': 0.5444701313972473, 'learning_rate': 1.588077951853267e-05, 'epoch': 1.27}
  5%|▌         | 4159/78504 [2:32:03<42:26:13,  2.05s/it]  5%|▌         | 4160/78504 [2:32:05<41:14:50,  2.00s/it]                                                         {'loss': 0.1504, 'grad_norm': 0.5106292963027954, 'learning_rate': 1.588460068781047e-05, 'epoch': 1.27}
  5%|▌         | 4160/78504 [2:32:05<41:14:50,  2.00s/it]  5%|▌         | 4161/78504 [2:32:06<39:48:53,  1.93s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.5116832256317139, 'learning_rate': 1.5888421857088268e-05, 'epoch': 1.27}
  5%|▌         | 4161/78504 [2:32:06<39:48:53,  1.93s/it]  5%|▌         | 4162/78504 [2:32:08<38:06:57,  1.85s/it]                                                         {'loss': 0.2132, 'grad_norm': 0.8638631105422974, 'learning_rate': 1.589224302636607e-05, 'epoch': 1.27}
  5%|▌         | 4162/78504 [2:32:08<38:06:57,  1.85s/it]  5%|▌         | 4163/78504 [2:32:10<36:16:58,  1.76s/it]                                                         {'loss': 0.159, 'grad_norm': 0.6956072449684143, 'learning_rate': 1.589606419564387e-05, 'epoch': 1.27}
  5%|▌         | 4163/78504 [2:32:10<36:16:58,  1.76s/it]  5%|▌         | 4164/78504 [2:32:11<34:32:28,  1.67s/it]                                                         {'loss': 0.2295, 'grad_norm': 0.834652841091156, 'learning_rate': 1.5899885364921667e-05, 'epoch': 1.27}
  5%|▌         | 4164/78504 [2:32:11<34:32:28,  1.67s/it]  5%|▌         | 4165/78504 [2:32:12<32:52:02,  1.59s/it]                                                         {'loss': 0.1877, 'grad_norm': 0.6146866083145142, 'learning_rate': 1.5903706534199466e-05, 'epoch': 1.27}
  5%|▌         | 4165/78504 [2:32:12<32:52:02,  1.59s/it]  5%|▌         | 4166/78504 [2:32:14<30:57:21,  1.50s/it]                                                         {'loss': 0.2117, 'grad_norm': 0.7087380290031433, 'learning_rate': 1.5907527703477265e-05, 'epoch': 1.27}
  5%|▌         | 4166/78504 [2:32:14<30:57:21,  1.50s/it]  5%|▌         | 4167/78504 [2:32:15<28:39:00,  1.39s/it]                                                         {'loss': 0.2406, 'grad_norm': 0.887996256351471, 'learning_rate': 1.5911348872755064e-05, 'epoch': 1.27}
  5%|▌         | 4167/78504 [2:32:15<28:39:00,  1.39s/it]  5%|▌         | 4168/78504 [2:32:16<26:51:06,  1.30s/it]                                                         {'loss': 0.2554, 'grad_norm': 1.0135014057159424, 'learning_rate': 1.5915170042032862e-05, 'epoch': 1.27}
  5%|▌         | 4168/78504 [2:32:16<26:51:06,  1.30s/it]  5%|▌         | 4169/78504 [2:32:17<24:58:10,  1.21s/it]                                                         {'loss': 0.2597, 'grad_norm': 1.827491044998169, 'learning_rate': 1.591899121131066e-05, 'epoch': 1.27}
  5%|▌         | 4169/78504 [2:32:17<24:58:10,  1.21s/it]  5%|▌         | 4170/78504 [2:32:18<23:19:03,  1.13s/it]                                                         {'loss': 0.2514, 'grad_norm': 1.2871718406677246, 'learning_rate': 1.5922812380588463e-05, 'epoch': 1.27}
  5%|▌         | 4170/78504 [2:32:18<23:19:03,  1.13s/it]  5%|▌         | 4171/78504 [2:32:19<21:09:17,  1.02s/it]                                                         {'loss': 0.326, 'grad_norm': 1.491492748260498, 'learning_rate': 1.5926633549866262e-05, 'epoch': 1.28}
  5%|▌         | 4171/78504 [2:32:19<21:09:17,  1.02s/it]  5%|▌         | 4172/78504 [2:32:28<70:32:59,  3.42s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.4316195249557495, 'learning_rate': 1.593045471914406e-05, 'epoch': 1.28}
  5%|▌         | 4172/78504 [2:32:28<70:32:59,  3.42s/it]  5%|▌         | 4173/78504 [2:32:31<68:48:08,  3.33s/it]                                                         {'loss': 0.102, 'grad_norm': 0.5131692290306091, 'learning_rate': 1.593427588842186e-05, 'epoch': 1.28}
  5%|▌         | 4173/78504 [2:32:31<68:48:08,  3.33s/it]  5%|▌         | 4174/78504 [2:32:34<66:53:32,  3.24s/it]                                                         {'loss': 0.0741, 'grad_norm': 1.006194829940796, 'learning_rate': 1.5938097057699658e-05, 'epoch': 1.28}
  5%|▌         | 4174/78504 [2:32:34<66:53:32,  3.24s/it]  5%|▌         | 4175/78504 [2:32:36<63:02:13,  3.05s/it]                                                         {'loss': 0.0678, 'grad_norm': 0.37987223267555237, 'learning_rate': 1.5941918226977457e-05, 'epoch': 1.28}
  5%|▌         | 4175/78504 [2:32:36<63:02:13,  3.05s/it]  5%|▌         | 4176/78504 [2:32:39<58:47:48,  2.85s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.37949803471565247, 'learning_rate': 1.5945739396255256e-05, 'epoch': 1.28}
  5%|▌         | 4176/78504 [2:32:39<58:47:48,  2.85s/it]  5%|▌         | 4177/78504 [2:32:41<55:14:30,  2.68s/it]                                                         {'loss': 0.0851, 'grad_norm': 0.36859527230262756, 'learning_rate': 1.5949560565533054e-05, 'epoch': 1.28}
  5%|▌         | 4177/78504 [2:32:41<55:14:30,  2.68s/it]  5%|▌         | 4178/78504 [2:32:43<53:06:54,  2.57s/it]                                                         {'loss': 0.1121, 'grad_norm': 0.38190022110939026, 'learning_rate': 1.5953381734810853e-05, 'epoch': 1.28}
  5%|▌         | 4178/78504 [2:32:43<53:06:54,  2.57s/it]  5%|▌         | 4179/78504 [2:32:46<50:17:53,  2.44s/it]                                                         {'loss': 0.0773, 'grad_norm': 0.3767496943473816, 'learning_rate': 1.5957202904088652e-05, 'epoch': 1.28}
  5%|▌         | 4179/78504 [2:32:46<50:17:53,  2.44s/it]  5%|▌         | 4180/78504 [2:32:48<48:47:45,  2.36s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.6740476489067078, 'learning_rate': 1.596102407336645e-05, 'epoch': 1.28}
  5%|▌         | 4180/78504 [2:32:48<48:47:45,  2.36s/it]  5%|▌         | 4181/78504 [2:32:50<47:29:09,  2.30s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.42833760380744934, 'learning_rate': 1.596484524264425e-05, 'epoch': 1.28}
  5%|▌         | 4181/78504 [2:32:50<47:29:09,  2.30s/it]  5%|▌         | 4182/78504 [2:32:52<45:48:23,  2.22s/it]                                                         {'loss': 0.1213, 'grad_norm': 0.41021302342414856, 'learning_rate': 1.5968666411922048e-05, 'epoch': 1.28}
  5%|▌         | 4182/78504 [2:32:52<45:48:23,  2.22s/it]  5%|▌         | 4183/78504 [2:32:54<44:19:45,  2.15s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.4863133132457733, 'learning_rate': 1.5972487581199847e-05, 'epoch': 1.28}
  5%|▌         | 4183/78504 [2:32:54<44:19:45,  2.15s/it]  5%|▌         | 4184/78504 [2:32:56<42:58:24,  2.08s/it]                                                         {'loss': 0.1116, 'grad_norm': 0.49638915061950684, 'learning_rate': 1.5976308750477646e-05, 'epoch': 1.28}
  5%|▌         | 4184/78504 [2:32:56<42:58:24,  2.08s/it]  5%|▌         | 4185/78504 [2:32:58<41:42:53,  2.02s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.4518325626850128, 'learning_rate': 1.5980129919755448e-05, 'epoch': 1.28}
  5%|▌         | 4185/78504 [2:32:58<41:42:53,  2.02s/it]  5%|▌         | 4186/78504 [2:32:59<40:07:07,  1.94s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.6344385147094727, 'learning_rate': 1.5983951089033247e-05, 'epoch': 1.28}
  5%|▌         | 4186/78504 [2:32:59<40:07:07,  1.94s/it]  5%|▌         | 4187/78504 [2:33:01<37:55:55,  1.84s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.9830924272537231, 'learning_rate': 1.5987772258311045e-05, 'epoch': 1.28}
  5%|▌         | 4187/78504 [2:33:01<37:55:55,  1.84s/it]  5%|▌         | 4188/78504 [2:33:03<36:04:00,  1.75s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.7832651734352112, 'learning_rate': 1.5991593427588844e-05, 'epoch': 1.28}
  5%|▌         | 4188/78504 [2:33:03<36:04:00,  1.75s/it]  5%|▌         | 4189/78504 [2:33:04<34:35:31,  1.68s/it]                                                         {'loss': 0.2329, 'grad_norm': 0.9067022800445557, 'learning_rate': 1.5995414596866643e-05, 'epoch': 1.28}
  5%|▌         | 4189/78504 [2:33:04<34:35:31,  1.68s/it]  5%|▌         | 4190/78504 [2:33:06<32:52:33,  1.59s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.8604720830917358, 'learning_rate': 1.599923576614444e-05, 'epoch': 1.28}
  5%|▌         | 4190/78504 [2:33:06<32:52:33,  1.59s/it]  5%|▌         | 4191/78504 [2:33:07<31:00:28,  1.50s/it]                                                         {'loss': 0.2175, 'grad_norm': 2.857802391052246, 'learning_rate': 1.600305693542224e-05, 'epoch': 1.28}
  5%|▌         | 4191/78504 [2:33:07<31:00:28,  1.50s/it]  5%|▌         | 4192/78504 [2:33:08<28:39:39,  1.39s/it]                                                         {'loss': 0.1946, 'grad_norm': 1.1489886045455933, 'learning_rate': 1.600687810470004e-05, 'epoch': 1.28}
  5%|▌         | 4192/78504 [2:33:08<28:39:39,  1.39s/it]  5%|▌         | 4193/78504 [2:33:09<26:46:24,  1.30s/it]                                                         {'loss': 0.2718, 'grad_norm': 1.3914732933044434, 'learning_rate': 1.6010699273977838e-05, 'epoch': 1.28}
  5%|▌         | 4193/78504 [2:33:09<26:46:24,  1.30s/it]  5%|▌         | 4194/78504 [2:33:10<24:56:17,  1.21s/it]                                                         {'loss': 0.2428, 'grad_norm': 0.9937353730201721, 'learning_rate': 1.6014520443255637e-05, 'epoch': 1.28}
  5%|▌         | 4194/78504 [2:33:10<24:56:17,  1.21s/it]  5%|▌         | 4195/78504 [2:33:11<23:15:28,  1.13s/it]                                                         {'loss': 0.3077, 'grad_norm': 1.3116315603256226, 'learning_rate': 1.6018341612533435e-05, 'epoch': 1.28}
  5%|▌         | 4195/78504 [2:33:11<23:15:28,  1.13s/it]  5%|▌         | 4196/78504 [2:33:12<20:57:50,  1.02s/it]                                                         {'loss': 0.3749, 'grad_norm': 1.6045912504196167, 'learning_rate': 1.6022162781811234e-05, 'epoch': 1.28}
  5%|▌         | 4196/78504 [2:33:12<20:57:50,  1.02s/it]  5%|▌         | 4197/78504 [2:33:21<69:37:08,  3.37s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.5939640998840332, 'learning_rate': 1.6025983951089033e-05, 'epoch': 1.28}
  5%|▌         | 4197/78504 [2:33:21<69:37:08,  3.37s/it]  5%|▌         | 4198/78504 [2:33:24<68:10:59,  3.30s/it]                                                         {'loss': 0.1, 'grad_norm': 0.4478054344654083, 'learning_rate': 1.602980512036683e-05, 'epoch': 1.28}
  5%|▌         | 4198/78504 [2:33:24<68:10:59,  3.30s/it]  5%|▌         | 4199/78504 [2:33:27<66:26:21,  3.22s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.3189269006252289, 'learning_rate': 1.603362628964463e-05, 'epoch': 1.28}
  5%|▌         | 4199/78504 [2:33:27<66:26:21,  3.22s/it]  5%|▌         | 4200/78504 [2:33:29<62:42:22,  3.04s/it]                                                         {'loss': 0.095, 'grad_norm': 0.6877144575119019, 'learning_rate': 1.603744745892243e-05, 'epoch': 1.28}
  5%|▌         | 4200/78504 [2:33:29<62:42:22,  3.04s/it]  5%|▌         | 4201/78504 [2:33:32<59:02:19,  2.86s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.3309599757194519, 'learning_rate': 1.604126862820023e-05, 'epoch': 1.28}
  5%|▌         | 4201/78504 [2:33:32<59:02:19,  2.86s/it]  5%|▌         | 4202/78504 [2:33:34<55:56:27,  2.71s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.3564668297767639, 'learning_rate': 1.604508979747803e-05, 'epoch': 1.28}
  5%|▌         | 4202/78504 [2:33:34<55:56:27,  2.71s/it]  5%|▌         | 4203/78504 [2:33:36<53:35:43,  2.60s/it]                                                         {'loss': 0.086, 'grad_norm': 0.5964449644088745, 'learning_rate': 1.604891096675583e-05, 'epoch': 1.28}
  5%|▌         | 4203/78504 [2:33:37<53:35:43,  2.60s/it]  5%|▌         | 4204/78504 [2:33:39<50:29:40,  2.45s/it]                                                         {'loss': 0.081, 'grad_norm': 0.6139293909072876, 'learning_rate': 1.6052732136033627e-05, 'epoch': 1.29}
  5%|▌         | 4204/78504 [2:33:39<50:29:40,  2.45s/it]  5%|▌         | 4205/78504 [2:33:41<47:54:34,  2.32s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.45233115553855896, 'learning_rate': 1.6056553305311426e-05, 'epoch': 1.29}
  5%|▌         | 4205/78504 [2:33:41<47:54:34,  2.32s/it]  5%|▌         | 4206/78504 [2:33:43<46:46:39,  2.27s/it]                                                         {'loss': 0.1227, 'grad_norm': 0.5634717345237732, 'learning_rate': 1.6060374474589225e-05, 'epoch': 1.29}
  5%|▌         | 4206/78504 [2:33:43<46:46:39,  2.27s/it]  5%|▌         | 4207/78504 [2:33:45<45:05:09,  2.18s/it]                                                         {'loss': 0.0951, 'grad_norm': 1.0095669031143188, 'learning_rate': 1.6064195643867024e-05, 'epoch': 1.29}
  5%|▌         | 4207/78504 [2:33:45<45:05:09,  2.18s/it]  5%|▌         | 4208/78504 [2:33:47<43:29:03,  2.11s/it]                                                         {'loss': 0.1223, 'grad_norm': 0.5161130428314209, 'learning_rate': 1.6068016813144822e-05, 'epoch': 1.29}
  5%|▌         | 4208/78504 [2:33:47<43:29:03,  2.11s/it]  5%|▌         | 4209/78504 [2:33:49<42:01:03,  2.04s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.7067562937736511, 'learning_rate': 1.607183798242262e-05, 'epoch': 1.29}
  5%|▌         | 4209/78504 [2:33:49<42:01:03,  2.04s/it]  5%|▌         | 4210/78504 [2:33:50<40:05:52,  1.94s/it]                                                         {'loss': 0.1107, 'grad_norm': 0.6007308959960938, 'learning_rate': 1.607565915170042e-05, 'epoch': 1.29}
  5%|▌         | 4210/78504 [2:33:50<40:05:52,  1.94s/it]  5%|▌         | 4211/78504 [2:33:52<39:01:42,  1.89s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.6930946707725525, 'learning_rate': 1.607948032097822e-05, 'epoch': 1.29}
  5%|▌         | 4211/78504 [2:33:52<39:01:42,  1.89s/it]  5%|▌         | 4212/78504 [2:33:54<37:30:03,  1.82s/it]                                                         {'loss': 0.1966, 'grad_norm': 0.7180156111717224, 'learning_rate': 1.6083301490256017e-05, 'epoch': 1.29}
  5%|▌         | 4212/78504 [2:33:54<37:30:03,  1.82s/it]  5%|▌         | 4213/78504 [2:33:55<35:42:15,  1.73s/it]                                                         {'loss': 0.2189, 'grad_norm': 0.7618272304534912, 'learning_rate': 1.6087122659533816e-05, 'epoch': 1.29}
  5%|▌         | 4213/78504 [2:33:55<35:42:15,  1.73s/it]  5%|▌         | 4214/78504 [2:33:57<33:49:33,  1.64s/it]                                                         {'loss': 0.2766, 'grad_norm': 1.3145208358764648, 'learning_rate': 1.6090943828811615e-05, 'epoch': 1.29}
  5%|▌         | 4214/78504 [2:33:57<33:49:33,  1.64s/it]  5%|▌         | 4215/78504 [2:33:58<32:23:59,  1.57s/it]                                                         {'loss': 0.2134, 'grad_norm': 0.710412859916687, 'learning_rate': 1.6094764998089414e-05, 'epoch': 1.29}
  5%|▌         | 4215/78504 [2:33:58<32:23:59,  1.57s/it]  5%|▌         | 4216/78504 [2:33:59<30:16:15,  1.47s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.8298164010047913, 'learning_rate': 1.6098586167367216e-05, 'epoch': 1.29}
  5%|▌         | 4216/78504 [2:33:59<30:16:15,  1.47s/it]  5%|▌         | 4217/78504 [2:34:00<28:14:14,  1.37s/it]                                                         {'loss': 0.2483, 'grad_norm': 0.8479624390602112, 'learning_rate': 1.6102407336645014e-05, 'epoch': 1.29}
  5%|▌         | 4217/78504 [2:34:00<28:14:14,  1.37s/it]  5%|▌         | 4218/78504 [2:34:02<26:37:49,  1.29s/it]                                                         {'loss': 0.2475, 'grad_norm': 0.9438287019729614, 'learning_rate': 1.6106228505922813e-05, 'epoch': 1.29}
  5%|▌         | 4218/78504 [2:34:02<26:37:49,  1.29s/it]  5%|▌         | 4219/78504 [2:34:03<24:48:28,  1.20s/it]                                                         {'loss': 0.2648, 'grad_norm': 1.483426809310913, 'learning_rate': 1.6110049675200612e-05, 'epoch': 1.29}
  5%|▌         | 4219/78504 [2:34:03<24:48:28,  1.20s/it]  5%|▌         | 4220/78504 [2:34:03<23:09:21,  1.12s/it]                                                         {'loss': 0.2477, 'grad_norm': 2.221639394760132, 'learning_rate': 1.611387084447841e-05, 'epoch': 1.29}
  5%|▌         | 4220/78504 [2:34:03<23:09:21,  1.12s/it]  5%|▌         | 4221/78504 [2:34:04<21:03:02,  1.02s/it]                                                         {'loss': 0.3383, 'grad_norm': 1.8103686571121216, 'learning_rate': 1.611769201375621e-05, 'epoch': 1.29}
  5%|▌         | 4221/78504 [2:34:04<21:03:02,  1.02s/it]  5%|▌         | 4222/78504 [2:34:13<66:20:08,  3.21s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.4505755305290222, 'learning_rate': 1.6121513183034008e-05, 'epoch': 1.29}
  5%|▌         | 4222/78504 [2:34:13<66:20:08,  3.21s/it]  5%|▌         | 4223/78504 [2:34:16<65:37:22,  3.18s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.3504200875759125, 'learning_rate': 1.6125334352311807e-05, 'epoch': 1.29}
  5%|▌         | 4223/78504 [2:34:16<65:37:22,  3.18s/it]  5%|▌         | 4224/78504 [2:34:19<64:04:07,  3.11s/it]                                                         {'loss': 0.1144, 'grad_norm': 0.5245065689086914, 'learning_rate': 1.6129155521589606e-05, 'epoch': 1.29}
  5%|▌         | 4224/78504 [2:34:19<64:04:07,  3.11s/it]  5%|▌         | 4225/78504 [2:34:21<60:49:00,  2.95s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.4144364297389984, 'learning_rate': 1.6132976690867404e-05, 'epoch': 1.29}
  5%|▌         | 4225/78504 [2:34:21<60:49:00,  2.95s/it]  5%|▌         | 4226/78504 [2:34:24<57:55:18,  2.81s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.342710018157959, 'learning_rate': 1.6136797860145203e-05, 'epoch': 1.29}
  5%|▌         | 4226/78504 [2:34:24<57:55:18,  2.81s/it]  5%|▌         | 4227/78504 [2:34:26<54:34:51,  2.65s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.2826671302318573, 'learning_rate': 1.6140619029423002e-05, 'epoch': 1.29}
  5%|▌         | 4227/78504 [2:34:26<54:34:51,  2.65s/it]  5%|▌         | 4228/78504 [2:34:28<52:33:48,  2.55s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.5440459251403809, 'learning_rate': 1.61444401987008e-05, 'epoch': 1.29}
  5%|▌         | 4228/78504 [2:34:28<52:33:48,  2.55s/it]  5%|▌         | 4229/78504 [2:34:30<49:47:33,  2.41s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.2779577672481537, 'learning_rate': 1.61482613679786e-05, 'epoch': 1.29}
  5%|▌         | 4229/78504 [2:34:30<49:47:33,  2.41s/it]  5%|▌         | 4230/78504 [2:34:32<47:23:10,  2.30s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.48501530289649963, 'learning_rate': 1.6152082537256398e-05, 'epoch': 1.29}
  5%|▌         | 4230/78504 [2:34:32<47:23:10,  2.30s/it]  5%|▌         | 4231/78504 [2:34:35<46:25:35,  2.25s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.3702336251735687, 'learning_rate': 1.61559037065342e-05, 'epoch': 1.29}
  5%|▌         | 4231/78504 [2:34:35<46:25:35,  2.25s/it]  5%|▌         | 4232/78504 [2:34:37<45:02:01,  2.18s/it]                                                         {'loss': 0.1052, 'grad_norm': 0.43722736835479736, 'learning_rate': 1.6159724875812e-05, 'epoch': 1.29}
  5%|▌         | 4232/78504 [2:34:37<45:02:01,  2.18s/it]  5%|▌         | 4233/78504 [2:34:39<43:46:06,  2.12s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.4143064320087433, 'learning_rate': 1.6163546045089798e-05, 'epoch': 1.29}
  5%|▌         | 4233/78504 [2:34:39<43:46:06,  2.12s/it]  5%|▌         | 4234/78504 [2:34:40<42:14:24,  2.05s/it]                                                         {'loss': 0.1343, 'grad_norm': 0.54735267162323, 'learning_rate': 1.6167367214367596e-05, 'epoch': 1.29}
  5%|▌         | 4234/78504 [2:34:40<42:14:24,  2.05s/it]  5%|▌         | 4235/78504 [2:34:42<40:57:05,  1.99s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.6242133378982544, 'learning_rate': 1.6171188383645395e-05, 'epoch': 1.29}
  5%|▌         | 4235/78504 [2:34:42<40:57:05,  1.99s/it]  5%|▌         | 4236/78504 [2:34:44<39:24:16,  1.91s/it]                                                         {'loss': 0.1317, 'grad_norm': 0.45344120264053345, 'learning_rate': 1.6175009552923194e-05, 'epoch': 1.3}
  5%|▌         | 4236/78504 [2:34:44<39:24:16,  1.91s/it]  5%|▌         | 4237/78504 [2:34:46<37:46:20,  1.83s/it]                                                         {'loss': 0.2516, 'grad_norm': 0.6744596362113953, 'learning_rate': 1.6178830722200993e-05, 'epoch': 1.3}
  5%|▌         | 4237/78504 [2:34:46<37:46:20,  1.83s/it]  5%|▌         | 4238/78504 [2:34:47<35:57:49,  1.74s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.665655255317688, 'learning_rate': 1.618265189147879e-05, 'epoch': 1.3}
  5%|▌         | 4238/78504 [2:34:47<35:57:49,  1.74s/it]  5%|▌         | 4239/78504 [2:34:49<34:14:09,  1.66s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.6251403093338013, 'learning_rate': 1.618647306075659e-05, 'epoch': 1.3}
  5%|▌         | 4239/78504 [2:34:49<34:14:09,  1.66s/it]  5%|▌         | 4240/78504 [2:34:50<32:39:40,  1.58s/it]                                                         {'loss': 0.2442, 'grad_norm': 0.7848618030548096, 'learning_rate': 1.6190294230034392e-05, 'epoch': 1.3}
  5%|▌         | 4240/78504 [2:34:50<32:39:40,  1.58s/it]  5%|▌         | 4241/78504 [2:34:51<30:49:19,  1.49s/it]                                                         {'loss': 0.2446, 'grad_norm': 0.872360348701477, 'learning_rate': 1.619411539931219e-05, 'epoch': 1.3}
  5%|▌         | 4241/78504 [2:34:51<30:49:19,  1.49s/it]  5%|▌         | 4242/78504 [2:34:53<29:03:12,  1.41s/it]                                                         {'loss': 0.2339, 'grad_norm': 0.8194075226783752, 'learning_rate': 1.619793656858999e-05, 'epoch': 1.3}
  5%|▌         | 4242/78504 [2:34:53<29:03:12,  1.41s/it]  5%|▌         | 4243/78504 [2:34:54<27:02:14,  1.31s/it]                                                         {'loss': 0.242, 'grad_norm': 0.7862655520439148, 'learning_rate': 1.620175773786779e-05, 'epoch': 1.3}
  5%|▌         | 4243/78504 [2:34:54<27:02:14,  1.31s/it]  5%|▌         | 4244/78504 [2:34:55<25:25:18,  1.23s/it]                                                         {'loss': 0.2816, 'grad_norm': 1.1580733060836792, 'learning_rate': 1.6205578907145587e-05, 'epoch': 1.3}
  5%|▌         | 4244/78504 [2:34:55<25:25:18,  1.23s/it]  5%|▌         | 4245/78504 [2:34:56<23:32:27,  1.14s/it]                                                         {'loss': 0.2388, 'grad_norm': 0.999839723110199, 'learning_rate': 1.6209400076423386e-05, 'epoch': 1.3}
  5%|▌         | 4245/78504 [2:34:56<23:32:27,  1.14s/it]  5%|▌         | 4246/78504 [2:34:56<21:19:31,  1.03s/it]                                                         {'loss': 0.3099, 'grad_norm': 1.636009931564331, 'learning_rate': 1.6213221245701185e-05, 'epoch': 1.3}
  5%|▌         | 4246/78504 [2:34:56<21:19:31,  1.03s/it]  5%|▌         | 4247/78504 [2:35:06<73:10:58,  3.55s/it]                                                         {'loss': 0.1529, 'grad_norm': 0.4082302153110504, 'learning_rate': 1.6217042414978987e-05, 'epoch': 1.3}
  5%|▌         | 4247/78504 [2:35:06<73:10:58,  3.55s/it]  5%|▌         | 4248/78504 [2:35:09<71:41:55,  3.48s/it]                                                         {'loss': 0.1007, 'grad_norm': 0.3818858861923218, 'learning_rate': 1.6220863584256786e-05, 'epoch': 1.3}
  5%|▌         | 4248/78504 [2:35:09<71:41:55,  3.48s/it]  5%|▌         | 4249/78504 [2:35:12<68:27:32,  3.32s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.4326591491699219, 'learning_rate': 1.6224684753534584e-05, 'epoch': 1.3}
  5%|▌         | 4249/78504 [2:35:12<68:27:32,  3.32s/it]  5%|▌         | 4250/78504 [2:35:15<63:57:06,  3.10s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.5648101568222046, 'learning_rate': 1.6228505922812383e-05, 'epoch': 1.3}
  5%|▌         | 4250/78504 [2:35:15<63:57:06,  3.10s/it]  5%|▌         | 4251/78504 [2:35:17<60:11:03,  2.92s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.27544474601745605, 'learning_rate': 1.6232327092090182e-05, 'epoch': 1.3}
  5%|▌         | 4251/78504 [2:35:17<60:11:03,  2.92s/it]  5%|▌         | 4252/78504 [2:35:19<56:44:45,  2.75s/it]                                                         {'loss': 0.1189, 'grad_norm': 0.4549129605293274, 'learning_rate': 1.623614826136798e-05, 'epoch': 1.3}
  5%|▌         | 4252/78504 [2:35:20<56:44:45,  2.75s/it]  5%|▌         | 4253/78504 [2:35:22<54:07:50,  2.62s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.43791383504867554, 'learning_rate': 1.623996943064578e-05, 'epoch': 1.3}
  5%|▌         | 4253/78504 [2:35:22<54:07:50,  2.62s/it]  5%|▌         | 4254/78504 [2:35:24<50:52:57,  2.47s/it]                                                         {'loss': 0.073, 'grad_norm': 0.334665983915329, 'learning_rate': 1.6243790599923578e-05, 'epoch': 1.3}
  5%|▌         | 4254/78504 [2:35:24<50:52:57,  2.47s/it]  5%|▌         | 4255/78504 [2:35:26<48:11:37,  2.34s/it]                                                         {'loss': 0.1478, 'grad_norm': 0.7160771489143372, 'learning_rate': 1.6247611769201377e-05, 'epoch': 1.3}
  5%|▌         | 4255/78504 [2:35:26<48:11:37,  2.34s/it]  5%|▌         | 4256/78504 [2:35:28<46:58:33,  2.28s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.533931314945221, 'learning_rate': 1.6251432938479176e-05, 'epoch': 1.3}
  5%|▌         | 4256/78504 [2:35:28<46:58:33,  2.28s/it]  5%|▌         | 4257/78504 [2:35:30<45:24:54,  2.20s/it]                                                         {'loss': 0.0902, 'grad_norm': 0.42462098598480225, 'learning_rate': 1.6255254107756974e-05, 'epoch': 1.3}
  5%|▌         | 4257/78504 [2:35:30<45:24:54,  2.20s/it]  5%|▌         | 4258/78504 [2:35:32<44:03:32,  2.14s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.5780829191207886, 'learning_rate': 1.6259075277034773e-05, 'epoch': 1.3}
  5%|▌         | 4258/78504 [2:35:32<44:03:32,  2.14s/it]  5%|▌         | 4259/78504 [2:35:34<42:23:27,  2.06s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.47487106919288635, 'learning_rate': 1.6262896446312572e-05, 'epoch': 1.3}
  5%|▌         | 4259/78504 [2:35:34<42:23:27,  2.06s/it]  5%|▌         | 4260/78504 [2:35:36<41:02:24,  1.99s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.6973261833190918, 'learning_rate': 1.626671761559037e-05, 'epoch': 1.3}
  5%|▌         | 4260/78504 [2:35:36<41:02:24,  1.99s/it]  5%|▌         | 4261/78504 [2:35:38<39:25:24,  1.91s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.6700336337089539, 'learning_rate': 1.627053878486817e-05, 'epoch': 1.3}
  5%|▌         | 4261/78504 [2:35:38<39:25:24,  1.91s/it]  5%|▌         | 4262/78504 [2:35:39<37:45:43,  1.83s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.6828939318656921, 'learning_rate': 1.6274359954145968e-05, 'epoch': 1.3}
  5%|▌         | 4262/78504 [2:35:39<37:45:43,  1.83s/it]  5%|▌         | 4263/78504 [2:35:41<36:00:56,  1.75s/it]                                                         {'loss': 0.1807, 'grad_norm': 1.9856464862823486, 'learning_rate': 1.627818112342377e-05, 'epoch': 1.3}
  5%|▌         | 4263/78504 [2:35:41<36:00:56,  1.75s/it]  5%|▌         | 4264/78504 [2:35:42<34:02:23,  1.65s/it]                                                         {'loss': 0.2068, 'grad_norm': 1.7725322246551514, 'learning_rate': 1.628200229270157e-05, 'epoch': 1.3}
  5%|▌         | 4264/78504 [2:35:42<34:02:23,  1.65s/it]  5%|▌         | 4265/78504 [2:35:44<32:31:02,  1.58s/it]                                                         {'loss': 0.2072, 'grad_norm': 1.2852046489715576, 'learning_rate': 1.6285823461979368e-05, 'epoch': 1.3}
  5%|▌         | 4265/78504 [2:35:44<32:31:02,  1.58s/it]  5%|▌         | 4266/78504 [2:35:45<30:19:36,  1.47s/it]                                                         {'loss': 0.24, 'grad_norm': 1.1067461967468262, 'learning_rate': 1.6289644631257166e-05, 'epoch': 1.3}
  5%|▌         | 4266/78504 [2:35:45<30:19:36,  1.47s/it]  5%|▌         | 4267/78504 [2:35:46<28:21:13,  1.37s/it]                                                         {'loss': 0.2586, 'grad_norm': 1.1525146961212158, 'learning_rate': 1.6293465800534965e-05, 'epoch': 1.3}
  5%|▌         | 4267/78504 [2:35:46<28:21:13,  1.37s/it]  5%|▌         | 4268/78504 [2:35:47<26:36:00,  1.29s/it]                                                         {'loss': 0.2685, 'grad_norm': 1.1664133071899414, 'learning_rate': 1.6297286969812764e-05, 'epoch': 1.3}
  5%|▌         | 4268/78504 [2:35:47<26:36:00,  1.29s/it]  5%|▌         | 4269/78504 [2:35:48<25:05:55,  1.22s/it]                                                         {'loss': 0.2769, 'grad_norm': 1.9363532066345215, 'learning_rate': 1.6301108139090563e-05, 'epoch': 1.31}
  5%|▌         | 4269/78504 [2:35:48<25:05:55,  1.22s/it]  5%|▌         | 4270/78504 [2:35:49<23:23:26,  1.13s/it]                                                         {'loss': 0.2736, 'grad_norm': 1.3658287525177002, 'learning_rate': 1.630492930836836e-05, 'epoch': 1.31}
  5%|▌         | 4270/78504 [2:35:49<23:23:26,  1.13s/it]  5%|▌         | 4271/78504 [2:35:50<21:12:52,  1.03s/it]                                                         {'loss': 0.3793, 'grad_norm': 2.9449501037597656, 'learning_rate': 1.630875047764616e-05, 'epoch': 1.31}
  5%|▌         | 4271/78504 [2:35:50<21:12:52,  1.03s/it]  5%|▌         | 4272/78504 [2:35:58<66:21:08,  3.22s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.47758424282073975, 'learning_rate': 1.631257164692396e-05, 'epoch': 1.31}
  5%|▌         | 4272/78504 [2:35:58<66:21:08,  3.22s/it]  5%|▌         | 4273/78504 [2:36:01<65:48:16,  3.19s/it]                                                         {'loss': 0.0978, 'grad_norm': 0.42777350544929504, 'learning_rate': 1.6316392816201758e-05, 'epoch': 1.31}
  5%|▌         | 4273/78504 [2:36:01<65:48:16,  3.19s/it]  5%|▌         | 4274/78504 [2:36:04<64:48:50,  3.14s/it]                                                         {'loss': 0.091, 'grad_norm': 0.3374486565589905, 'learning_rate': 1.6320213985479556e-05, 'epoch': 1.31}
  5%|▌         | 4274/78504 [2:36:04<64:48:50,  3.14s/it]  5%|▌         | 4275/78504 [2:36:07<61:37:49,  2.99s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.5066138505935669, 'learning_rate': 1.6324035154757355e-05, 'epoch': 1.31}
  5%|▌         | 4275/78504 [2:36:07<61:37:49,  2.99s/it]  5%|▌         | 4276/78504 [2:36:09<58:27:36,  2.84s/it]                                                         {'loss': 0.0713, 'grad_norm': 0.3090674579143524, 'learning_rate': 1.6327856324035154e-05, 'epoch': 1.31}
  5%|▌         | 4276/78504 [2:36:09<58:27:36,  2.84s/it]  5%|▌         | 4277/78504 [2:36:12<54:54:38,  2.66s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.429105669260025, 'learning_rate': 1.6331677493312953e-05, 'epoch': 1.31}
  5%|▌         | 4277/78504 [2:36:12<54:54:38,  2.66s/it]  5%|▌         | 4278/78504 [2:36:14<52:48:30,  2.56s/it]                                                         {'loss': 0.0673, 'grad_norm': 0.6032496690750122, 'learning_rate': 1.6335498662590755e-05, 'epoch': 1.31}
  5%|▌         | 4278/78504 [2:36:14<52:48:30,  2.56s/it]  5%|▌         | 4279/78504 [2:36:16<49:55:12,  2.42s/it]                                                         {'loss': 0.0639, 'grad_norm': 0.5613090395927429, 'learning_rate': 1.6339319831868554e-05, 'epoch': 1.31}
  5%|▌         | 4279/78504 [2:36:16<49:55:12,  2.42s/it]  5%|▌         | 4280/78504 [2:36:18<47:33:31,  2.31s/it]                                                         {'loss': 0.1116, 'grad_norm': 0.458722859621048, 'learning_rate': 1.6343141001146352e-05, 'epoch': 1.31}
  5%|▌         | 4280/78504 [2:36:18<47:33:31,  2.31s/it]  5%|▌         | 4281/78504 [2:36:20<46:32:14,  2.26s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.48220011591911316, 'learning_rate': 1.634696217042415e-05, 'epoch': 1.31}
  5%|▌         | 4281/78504 [2:36:20<46:32:14,  2.26s/it]  5%|▌         | 4282/78504 [2:36:22<45:05:25,  2.19s/it]                                                         {'loss': 0.1121, 'grad_norm': 0.4863326847553253, 'learning_rate': 1.635078333970195e-05, 'epoch': 1.31}
  5%|▌         | 4282/78504 [2:36:22<45:05:25,  2.19s/it]  5%|▌         | 4283/78504 [2:36:24<42:44:30,  2.07s/it]                                                         {'loss': 0.1149, 'grad_norm': 0.5389482975006104, 'learning_rate': 1.635460450897975e-05, 'epoch': 1.31}
  5%|▌         | 4283/78504 [2:36:24<42:44:30,  2.07s/it]  5%|▌         | 4284/78504 [2:36:26<41:27:37,  2.01s/it]                                                         {'loss': 0.1156, 'grad_norm': 0.5480302572250366, 'learning_rate': 1.6358425678257547e-05, 'epoch': 1.31}
  5%|▌         | 4284/78504 [2:36:26<41:27:37,  2.01s/it]  5%|▌         | 4285/78504 [2:36:28<40:21:02,  1.96s/it]                                                         {'loss': 0.14, 'grad_norm': 0.7444908022880554, 'learning_rate': 1.6362246847535346e-05, 'epoch': 1.31}
  5%|▌         | 4285/78504 [2:36:28<40:21:02,  1.96s/it]  5%|▌         | 4286/78504 [2:36:29<38:57:21,  1.89s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.5457068085670471, 'learning_rate': 1.6366068016813145e-05, 'epoch': 1.31}
  5%|▌         | 4286/78504 [2:36:30<38:57:21,  1.89s/it]  5%|▌         | 4287/78504 [2:36:31<37:28:03,  1.82s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.7477599382400513, 'learning_rate': 1.6369889186090944e-05, 'epoch': 1.31}
  5%|▌         | 4287/78504 [2:36:31<37:28:03,  1.82s/it]  5%|▌         | 4288/78504 [2:36:33<35:36:51,  1.73s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.7039673328399658, 'learning_rate': 1.6373710355368742e-05, 'epoch': 1.31}
  5%|▌         | 4288/78504 [2:36:33<35:36:51,  1.73s/it]  5%|▌         | 4289/78504 [2:36:34<34:00:54,  1.65s/it]                                                         {'loss': 0.2116, 'grad_norm': 0.8118571639060974, 'learning_rate': 1.637753152464654e-05, 'epoch': 1.31}
  5%|▌         | 4289/78504 [2:36:34<34:00:54,  1.65s/it]  5%|▌         | 4290/78504 [2:36:36<32:35:28,  1.58s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.701614260673523, 'learning_rate': 1.638135269392434e-05, 'epoch': 1.31}
  5%|▌         | 4290/78504 [2:36:36<32:35:28,  1.58s/it]  5%|▌         | 4291/78504 [2:36:37<30:21:48,  1.47s/it]                                                         {'loss': 0.2184, 'grad_norm': 0.6155600547790527, 'learning_rate': 1.638517386320214e-05, 'epoch': 1.31}
  5%|▌         | 4291/78504 [2:36:37<30:21:48,  1.47s/it]  5%|▌         | 4292/78504 [2:36:38<28:12:16,  1.37s/it]                                                         {'loss': 0.1998, 'grad_norm': 1.2075769901275635, 'learning_rate': 1.6388995032479937e-05, 'epoch': 1.31}
  5%|▌         | 4292/78504 [2:36:38<28:12:16,  1.37s/it]  5%|▌         | 4293/78504 [2:36:39<26:28:20,  1.28s/it]                                                         {'loss': 0.2459, 'grad_norm': 0.9551590085029602, 'learning_rate': 1.6392816201757736e-05, 'epoch': 1.31}
  5%|▌         | 4293/78504 [2:36:39<26:28:20,  1.28s/it]  5%|▌         | 4294/78504 [2:36:40<24:41:18,  1.20s/it]                                                         {'loss': 0.2325, 'grad_norm': 0.9131357669830322, 'learning_rate': 1.6396637371035538e-05, 'epoch': 1.31}
  5%|▌         | 4294/78504 [2:36:40<24:41:18,  1.20s/it]  5%|▌         | 4295/78504 [2:36:41<23:05:40,  1.12s/it]                                                         {'loss': 0.2658, 'grad_norm': 2.4984371662139893, 'learning_rate': 1.6400458540313337e-05, 'epoch': 1.31}
  5%|▌         | 4295/78504 [2:36:41<23:05:40,  1.12s/it]  5%|▌         | 4296/78504 [2:36:42<21:00:13,  1.02s/it]                                                         {'loss': 0.3664, 'grad_norm': 2.3338918685913086, 'learning_rate': 1.6404279709591136e-05, 'epoch': 1.31}
  5%|▌         | 4296/78504 [2:36:42<21:00:13,  1.02s/it]  5%|▌         | 4297/78504 [2:36:50<67:35:02,  3.28s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.5880306959152222, 'learning_rate': 1.6408100878868934e-05, 'epoch': 1.31}
  5%|▌         | 4297/78504 [2:36:50<67:35:02,  3.28s/it]  5%|▌         | 4298/78504 [2:36:54<68:09:17,  3.31s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.3588714003562927, 'learning_rate': 1.6411922048146733e-05, 'epoch': 1.31}
  5%|▌         | 4298/78504 [2:36:54<68:09:17,  3.31s/it]  5%|▌         | 4299/78504 [2:36:57<65:48:18,  3.19s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.32108643651008606, 'learning_rate': 1.6415743217424532e-05, 'epoch': 1.31}
  5%|▌         | 4299/78504 [2:36:57<65:48:18,  3.19s/it]  5%|▌         | 4300/78504 [2:36:59<62:04:27,  3.01s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.34557491540908813, 'learning_rate': 1.641956438670233e-05, 'epoch': 1.31}
  5%|▌         | 4300/78504 [2:36:59<62:04:27,  3.01s/it]  5%|▌         | 4301/78504 [2:37:02<58:52:47,  2.86s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.6049674153327942, 'learning_rate': 1.642338555598013e-05, 'epoch': 1.31}
  5%|▌         | 4301/78504 [2:37:02<58:52:47,  2.86s/it]  5%|▌         | 4302/78504 [2:37:04<56:25:11,  2.74s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.32579824328422546, 'learning_rate': 1.6427206725257928e-05, 'epoch': 1.32}
  5%|▌         | 4302/78504 [2:37:04<56:25:11,  2.74s/it]  5%|▌         | 4303/78504 [2:37:06<53:52:59,  2.61s/it]                                                         {'loss': 0.0682, 'grad_norm': 0.36553266644477844, 'learning_rate': 1.6431027894535727e-05, 'epoch': 1.32}
  5%|▌         | 4303/78504 [2:37:06<53:52:59,  2.61s/it]  5%|▌         | 4304/78504 [2:37:09<52:01:52,  2.52s/it]                                                         {'loss': 0.095, 'grad_norm': 0.39298632740974426, 'learning_rate': 1.6434849063813526e-05, 'epoch': 1.32}
  5%|▌         | 4304/78504 [2:37:09<52:01:52,  2.52s/it]  5%|▌         | 4305/78504 [2:37:11<49:59:27,  2.43s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.43242940306663513, 'learning_rate': 1.6438670233091324e-05, 'epoch': 1.32}
  5%|▌         | 4305/78504 [2:37:11<49:59:27,  2.43s/it]  5%|▌         | 4306/78504 [2:37:13<48:16:16,  2.34s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.4386289417743683, 'learning_rate': 1.6442491402369123e-05, 'epoch': 1.32}
  5%|▌         | 4306/78504 [2:37:13<48:16:16,  2.34s/it]  5%|▌         | 4307/78504 [2:37:15<45:49:49,  2.22s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.6126132607460022, 'learning_rate': 1.6446312571646922e-05, 'epoch': 1.32}
  5%|▌         | 4307/78504 [2:37:15<45:49:49,  2.22s/it]  5%|▌         | 4308/78504 [2:37:17<44:24:24,  2.15s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.5504536032676697, 'learning_rate': 1.645013374092472e-05, 'epoch': 1.32}
  5%|▌         | 4308/78504 [2:37:17<44:24:24,  2.15s/it]  5%|▌         | 4309/78504 [2:37:19<42:09:30,  2.05s/it]                                                         {'loss': 0.1596, 'grad_norm': 1.1543693542480469, 'learning_rate': 1.6453954910202523e-05, 'epoch': 1.32}
  5%|▌         | 4309/78504 [2:37:19<42:09:30,  2.05s/it]  5%|▌         | 4310/78504 [2:37:21<41:09:20,  2.00s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.43652305006980896, 'learning_rate': 1.645777607948032e-05, 'epoch': 1.32}
  5%|▌         | 4310/78504 [2:37:21<41:09:20,  2.00s/it]  5%|▌         | 4311/78504 [2:37:23<40:06:31,  1.95s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.5005825161933899, 'learning_rate': 1.646159724875812e-05, 'epoch': 1.32}
  5%|▌         | 4311/78504 [2:37:23<40:06:31,  1.95s/it]  5%|▌         | 4312/78504 [2:37:24<38:13:47,  1.86s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.6188924312591553, 'learning_rate': 1.646541841803592e-05, 'epoch': 1.32}
  5%|▌         | 4312/78504 [2:37:24<38:13:47,  1.86s/it]  5%|▌         | 4313/78504 [2:37:26<35:57:09,  1.74s/it]                                                         {'loss': 0.212, 'grad_norm': 1.5773636102676392, 'learning_rate': 1.6469239587313718e-05, 'epoch': 1.32}
  5%|▌         | 4313/78504 [2:37:26<35:57:09,  1.74s/it]  5%|▌         | 4314/78504 [2:37:27<34:32:21,  1.68s/it]                                                         {'loss': 0.2171, 'grad_norm': 0.8269373774528503, 'learning_rate': 1.6473060756591516e-05, 'epoch': 1.32}
  5%|▌         | 4314/78504 [2:37:27<34:32:21,  1.68s/it]  5%|▌         | 4315/78504 [2:37:29<32:55:25,  1.60s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.9545656442642212, 'learning_rate': 1.6476881925869315e-05, 'epoch': 1.32}
  5%|▌         | 4315/78504 [2:37:29<32:55:25,  1.60s/it]  5%|▌         | 4316/78504 [2:37:30<31:02:56,  1.51s/it]                                                         {'loss': 0.2584, 'grad_norm': 2.165027379989624, 'learning_rate': 1.6480703095147114e-05, 'epoch': 1.32}
  5%|▌         | 4316/78504 [2:37:30<31:02:56,  1.51s/it]  5%|▌         | 4317/78504 [2:37:31<29:14:26,  1.42s/it]                                                         {'loss': 0.2459, 'grad_norm': 1.4532722234725952, 'learning_rate': 1.6484524264424913e-05, 'epoch': 1.32}
  5%|▌         | 4317/78504 [2:37:31<29:14:26,  1.42s/it]  6%|▌         | 4318/78504 [2:37:32<27:17:52,  1.32s/it]                                                         {'loss': 0.2628, 'grad_norm': 1.1318527460098267, 'learning_rate': 1.6488345433702715e-05, 'epoch': 1.32}
  6%|▌         | 4318/78504 [2:37:32<27:17:52,  1.32s/it]  6%|▌         | 4319/78504 [2:37:33<25:33:56,  1.24s/it]                                                         {'loss': 0.2823, 'grad_norm': 1.2358843088150024, 'learning_rate': 1.6492166602980513e-05, 'epoch': 1.32}
  6%|▌         | 4319/78504 [2:37:33<25:33:56,  1.24s/it]  6%|▌         | 4320/78504 [2:37:34<23:38:24,  1.15s/it]                                                         {'loss': 0.2964, 'grad_norm': 2.7148478031158447, 'learning_rate': 1.6495987772258312e-05, 'epoch': 1.32}
  6%|▌         | 4320/78504 [2:37:34<23:38:24,  1.15s/it]  6%|▌         | 4321/78504 [2:37:35<21:31:08,  1.04s/it]                                                         {'loss': 0.3183, 'grad_norm': 2.7043585777282715, 'learning_rate': 1.649980894153611e-05, 'epoch': 1.32}
  6%|▌         | 4321/78504 [2:37:35<21:31:08,  1.04s/it]  6%|▌         | 4322/78504 [2:37:44<70:45:35,  3.43s/it]                                                         {'loss': 0.163, 'grad_norm': 0.750073254108429, 'learning_rate': 1.650363011081391e-05, 'epoch': 1.32}
  6%|▌         | 4322/78504 [2:37:44<70:45:35,  3.43s/it]  6%|▌         | 4323/78504 [2:37:47<68:50:17,  3.34s/it]                                                         {'loss': 0.1128, 'grad_norm': 0.414447158575058, 'learning_rate': 1.650745128009171e-05, 'epoch': 1.32}
  6%|▌         | 4323/78504 [2:37:47<68:50:17,  3.34s/it]  6%|▌         | 4324/78504 [2:37:50<66:39:49,  3.24s/it]                                                         {'loss': 0.082, 'grad_norm': 0.3874996304512024, 'learning_rate': 1.6511272449369507e-05, 'epoch': 1.32}
  6%|▌         | 4324/78504 [2:37:50<66:39:49,  3.24s/it]  6%|▌         | 4325/78504 [2:37:53<62:43:17,  3.04s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.42432349920272827, 'learning_rate': 1.651509361864731e-05, 'epoch': 1.32}
  6%|▌         | 4325/78504 [2:37:53<62:43:17,  3.04s/it]  6%|▌         | 4326/78504 [2:37:55<59:17:03,  2.88s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.6645374894142151, 'learning_rate': 1.6518914787925108e-05, 'epoch': 1.32}
  6%|▌         | 4326/78504 [2:37:55<59:17:03,  2.88s/it]  6%|▌         | 4327/78504 [2:37:58<56:04:13,  2.72s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.4477441906929016, 'learning_rate': 1.6522735957202907e-05, 'epoch': 1.32}
  6%|▌         | 4327/78504 [2:37:58<56:04:13,  2.72s/it]  6%|▌         | 4328/78504 [2:38:00<53:41:08,  2.61s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.30093973875045776, 'learning_rate': 1.6526557126480706e-05, 'epoch': 1.32}
  6%|▌         | 4328/78504 [2:38:00<53:41:08,  2.61s/it]  6%|▌         | 4329/78504 [2:38:02<50:30:16,  2.45s/it]                                                         {'loss': 0.0592, 'grad_norm': 0.4194156527519226, 'learning_rate': 1.6530378295758504e-05, 'epoch': 1.32}
  6%|▌         | 4329/78504 [2:38:02<50:30:16,  2.45s/it]  6%|▌         | 4330/78504 [2:38:04<47:56:04,  2.33s/it]                                                         {'loss': 0.0944, 'grad_norm': 0.3571324944496155, 'learning_rate': 1.6534199465036303e-05, 'epoch': 1.32}
  6%|▌         | 4330/78504 [2:38:04<47:56:04,  2.33s/it]  6%|▌         | 4331/78504 [2:38:06<46:45:53,  2.27s/it]                                                         {'loss': 0.0694, 'grad_norm': 0.4157802164554596, 'learning_rate': 1.6538020634314102e-05, 'epoch': 1.32}
  6%|▌         | 4331/78504 [2:38:06<46:45:53,  2.27s/it]  6%|▌         | 4332/78504 [2:38:08<45:17:23,  2.20s/it]                                                         {'loss': 0.1185, 'grad_norm': 0.466672420501709, 'learning_rate': 1.65418418035919e-05, 'epoch': 1.32}
  6%|▌         | 4332/78504 [2:38:08<45:17:23,  2.20s/it]  6%|▌         | 4333/78504 [2:38:10<43:58:39,  2.13s/it]                                                         {'loss': 0.1162, 'grad_norm': 0.5717076659202576, 'learning_rate': 1.65456629728697e-05, 'epoch': 1.32}
  6%|▌         | 4333/78504 [2:38:10<43:58:39,  2.13s/it]  6%|▌         | 4334/78504 [2:38:12<42:25:15,  2.06s/it]                                                         {'loss': 0.1144, 'grad_norm': 0.40371379256248474, 'learning_rate': 1.6549484142147498e-05, 'epoch': 1.32}
  6%|▌         | 4334/78504 [2:38:12<42:25:15,  2.06s/it]  6%|▌         | 4335/78504 [2:38:14<41:16:19,  2.00s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.6642513275146484, 'learning_rate': 1.6553305311425297e-05, 'epoch': 1.33}
  6%|▌         | 4335/78504 [2:38:14<41:16:19,  2.00s/it]  6%|▌         | 4336/78504 [2:38:16<39:47:57,  1.93s/it]                                                         {'loss': 0.1644, 'grad_norm': 0.6191803812980652, 'learning_rate': 1.6557126480703096e-05, 'epoch': 1.33}
  6%|▌         | 4336/78504 [2:38:16<39:47:57,  1.93s/it]  6%|▌         | 4337/78504 [2:38:17<38:03:04,  1.85s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.49579718708992004, 'learning_rate': 1.6560947649980894e-05, 'epoch': 1.33}
  6%|▌         | 4337/78504 [2:38:17<38:03:04,  1.85s/it]  6%|▌         | 4338/78504 [2:38:19<36:10:46,  1.76s/it]                                                         {'loss': 0.1953, 'grad_norm': 1.1201220750808716, 'learning_rate': 1.6564768819258693e-05, 'epoch': 1.33}
  6%|▌         | 4338/78504 [2:38:19<36:10:46,  1.76s/it]  6%|▌         | 4339/78504 [2:38:20<34:22:29,  1.67s/it]                                                         {'loss': 0.2118, 'grad_norm': 1.1902496814727783, 'learning_rate': 1.6568589988536492e-05, 'epoch': 1.33}
  6%|▌         | 4339/78504 [2:38:20<34:22:29,  1.67s/it]  6%|▌         | 4340/78504 [2:38:22<32:50:57,  1.59s/it]                                                         {'loss': 0.2276, 'grad_norm': 1.1501621007919312, 'learning_rate': 1.6572411157814294e-05, 'epoch': 1.33}
  6%|▌         | 4340/78504 [2:38:22<32:50:57,  1.59s/it]  6%|▌         | 4341/78504 [2:38:23<30:55:12,  1.50s/it]                                                         {'loss': 0.2258, 'grad_norm': 1.1200960874557495, 'learning_rate': 1.6576232327092093e-05, 'epoch': 1.33}
  6%|▌         | 4341/78504 [2:38:23<30:55:12,  1.50s/it]  6%|▌         | 4342/78504 [2:38:24<28:43:14,  1.39s/it]                                                         {'loss': 0.2109, 'grad_norm': 0.8742534518241882, 'learning_rate': 1.658005349636989e-05, 'epoch': 1.33}
  6%|▌         | 4342/78504 [2:38:24<28:43:14,  1.39s/it]  6%|▌         | 4343/78504 [2:38:25<26:56:00,  1.31s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.0558254718780518, 'learning_rate': 1.658387466564769e-05, 'epoch': 1.33}
  6%|▌         | 4343/78504 [2:38:25<26:56:00,  1.31s/it]  6%|▌         | 4344/78504 [2:38:26<25:02:02,  1.22s/it]                                                         {'loss': 0.3144, 'grad_norm': 1.3200479745864868, 'learning_rate': 1.658769583492549e-05, 'epoch': 1.33}
  6%|▌         | 4344/78504 [2:38:26<25:02:02,  1.22s/it]  6%|▌         | 4345/78504 [2:38:27<23:19:40,  1.13s/it]                                                         {'loss': 0.3131, 'grad_norm': 1.8608819246292114, 'learning_rate': 1.6591517004203288e-05, 'epoch': 1.33}
  6%|▌         | 4345/78504 [2:38:27<23:19:40,  1.13s/it]  6%|▌         | 4346/78504 [2:38:28<21:13:44,  1.03s/it]                                                         {'loss': 0.3556, 'grad_norm': 3.8289437294006348, 'learning_rate': 1.6595338173481086e-05, 'epoch': 1.33}
  6%|▌         | 4346/78504 [2:38:28<21:13:44,  1.03s/it]  6%|▌         | 4347/78504 [2:38:36<66:19:01,  3.22s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.4084533452987671, 'learning_rate': 1.6599159342758885e-05, 'epoch': 1.33}
  6%|▌         | 4347/78504 [2:38:36<66:19:01,  3.22s/it]  6%|▌         | 4348/78504 [2:38:40<66:51:22,  3.25s/it]                                                         {'loss': 0.0885, 'grad_norm': 0.4112188518047333, 'learning_rate': 1.6602980512036684e-05, 'epoch': 1.33}
  6%|▌         | 4348/78504 [2:38:40<66:51:22,  3.25s/it]  6%|▌         | 4349/78504 [2:38:43<65:26:40,  3.18s/it]                                                         {'loss': 0.088, 'grad_norm': 0.29666778445243835, 'learning_rate': 1.6606801681314483e-05, 'epoch': 1.33}
  6%|▌         | 4349/78504 [2:38:43<65:26:40,  3.18s/it]  6%|▌         | 4350/78504 [2:38:45<61:51:17,  3.00s/it]                                                         {'loss': 0.0818, 'grad_norm': 0.33214810490608215, 'learning_rate': 1.661062285059228e-05, 'epoch': 1.33}
  6%|▌         | 4350/78504 [2:38:45<61:51:17,  3.00s/it]  6%|▌         | 4351/78504 [2:38:48<58:34:34,  2.84s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.30293792486190796, 'learning_rate': 1.661444401987008e-05, 'epoch': 1.33}
  6%|▌         | 4351/78504 [2:38:48<58:34:34,  2.84s/it]  6%|▌         | 4352/78504 [2:38:50<55:01:00,  2.67s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.29879051446914673, 'learning_rate': 1.661826518914788e-05, 'epoch': 1.33}
  6%|▌         | 4352/78504 [2:38:50<55:01:00,  2.67s/it]  6%|▌         | 4353/78504 [2:38:52<52:55:46,  2.57s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.4633210301399231, 'learning_rate': 1.6622086358425678e-05, 'epoch': 1.33}
  6%|▌         | 4353/78504 [2:38:52<52:55:46,  2.57s/it]  6%|▌         | 4354/78504 [2:38:54<49:59:03,  2.43s/it]                                                         {'loss': 0.0916, 'grad_norm': 0.3009864091873169, 'learning_rate': 1.6625907527703476e-05, 'epoch': 1.33}
  6%|▌         | 4354/78504 [2:38:54<49:59:03,  2.43s/it]  6%|▌         | 4355/78504 [2:38:57<48:27:59,  2.35s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.4621523916721344, 'learning_rate': 1.6629728696981275e-05, 'epoch': 1.33}
  6%|▌         | 4355/78504 [2:38:57<48:27:59,  2.35s/it]  6%|▌         | 4356/78504 [2:38:59<47:11:57,  2.29s/it]                                                         {'loss': 0.097, 'grad_norm': 0.4815397262573242, 'learning_rate': 1.6633549866259077e-05, 'epoch': 1.33}
  6%|▌         | 4356/78504 [2:38:59<47:11:57,  2.29s/it]  6%|▌         | 4357/78504 [2:39:01<45:36:21,  2.21s/it]                                                         {'loss': 0.1043, 'grad_norm': 0.4491938650608063, 'learning_rate': 1.6637371035536876e-05, 'epoch': 1.33}
  6%|▌         | 4357/78504 [2:39:01<45:36:21,  2.21s/it]  6%|▌         | 4358/78504 [2:39:03<44:09:29,  2.14s/it]                                                         {'loss': 0.0859, 'grad_norm': 0.33653590083122253, 'learning_rate': 1.6641192204814675e-05, 'epoch': 1.33}
  6%|▌         | 4358/78504 [2:39:03<44:09:29,  2.14s/it]  6%|▌         | 4359/78504 [2:39:05<42:25:56,  2.06s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.4932832419872284, 'learning_rate': 1.6645013374092473e-05, 'epoch': 1.33}
  6%|▌         | 4359/78504 [2:39:05<42:25:56,  2.06s/it]  6%|▌         | 4360/78504 [2:39:07<41:15:55,  2.00s/it]                                                         {'loss': 0.1714, 'grad_norm': 0.71062833070755, 'learning_rate': 1.6648834543370272e-05, 'epoch': 1.33}
  6%|▌         | 4360/78504 [2:39:07<41:15:55,  2.00s/it]  6%|▌         | 4361/78504 [2:39:08<39:47:19,  1.93s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.6230425238609314, 'learning_rate': 1.665265571264807e-05, 'epoch': 1.33}
  6%|▌         | 4361/78504 [2:39:08<39:47:19,  1.93s/it]  6%|▌         | 4362/78504 [2:39:10<38:06:16,  1.85s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.5210211873054504, 'learning_rate': 1.665647688192587e-05, 'epoch': 1.33}
  6%|▌         | 4362/78504 [2:39:10<38:06:16,  1.85s/it]  6%|▌         | 4363/78504 [2:39:11<36:12:56,  1.76s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.5897666215896606, 'learning_rate': 1.666029805120367e-05, 'epoch': 1.33}
  6%|▌         | 4363/78504 [2:39:12<36:12:56,  1.76s/it]  6%|▌         | 4364/78504 [2:39:13<34:26:44,  1.67s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.6573787927627563, 'learning_rate': 1.6664119220481467e-05, 'epoch': 1.33}
  6%|▌         | 4364/78504 [2:39:13<34:26:44,  1.67s/it]  6%|▌         | 4365/78504 [2:39:14<32:54:11,  1.60s/it]                                                         {'loss': 0.2473, 'grad_norm': 0.6695916056632996, 'learning_rate': 1.6667940389759266e-05, 'epoch': 1.33}
  6%|▌         | 4365/78504 [2:39:14<32:54:11,  1.60s/it]  6%|▌         | 4366/78504 [2:39:16<31:02:15,  1.51s/it]                                                         {'loss': 0.2129, 'grad_norm': 1.2150026559829712, 'learning_rate': 1.6671761559037065e-05, 'epoch': 1.33}
  6%|▌         | 4366/78504 [2:39:16<31:02:15,  1.51s/it]  6%|▌         | 4367/78504 [2:39:17<28:50:58,  1.40s/it]                                                         {'loss': 0.2342, 'grad_norm': 1.2347335815429688, 'learning_rate': 1.6675582728314863e-05, 'epoch': 1.34}
  6%|▌         | 4367/78504 [2:39:17<28:50:58,  1.40s/it]  6%|▌         | 4368/78504 [2:39:18<26:59:02,  1.31s/it]                                                         {'loss': 0.2609, 'grad_norm': 1.306232213973999, 'learning_rate': 1.6679403897592662e-05, 'epoch': 1.34}
  6%|▌         | 4368/78504 [2:39:18<26:59:02,  1.31s/it]  6%|▌         | 4369/78504 [2:39:19<25:02:18,  1.22s/it]                                                         {'loss': 0.2982, 'grad_norm': 1.5707966089248657, 'learning_rate': 1.668322506687046e-05, 'epoch': 1.34}
  6%|▌         | 4369/78504 [2:39:19<25:02:18,  1.22s/it]  6%|▌         | 4370/78504 [2:39:20<23:25:16,  1.14s/it]                                                         {'loss': 0.2753, 'grad_norm': 1.0185120105743408, 'learning_rate': 1.668704623614826e-05, 'epoch': 1.34}
  6%|▌         | 4370/78504 [2:39:20<23:25:16,  1.14s/it]  6%|▌         | 4371/78504 [2:39:21<21:14:27,  1.03s/it]                                                         {'loss': 0.2876, 'grad_norm': 1.165470004081726, 'learning_rate': 1.6690867405426062e-05, 'epoch': 1.34}
  6%|▌         | 4371/78504 [2:39:21<21:14:27,  1.03s/it]  6%|▌         | 4372/78504 [2:39:27<55:51:13,  2.71s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.5372248291969299, 'learning_rate': 1.669468857470386e-05, 'epoch': 1.34}
  6%|▌         | 4372/78504 [2:39:27<55:51:13,  2.71s/it]  6%|▌         | 4373/78504 [2:39:31<59:47:16,  2.90s/it]                                                         {'loss': 0.0963, 'grad_norm': 0.29437947273254395, 'learning_rate': 1.669850974398166e-05, 'epoch': 1.34}
  6%|▌         | 4373/78504 [2:39:31<59:47:16,  2.90s/it]  6%|▌         | 4374/78504 [2:39:33<57:47:37,  2.81s/it]                                                         {'loss': 0.1331, 'grad_norm': 0.43204325437545776, 'learning_rate': 1.6702330913259458e-05, 'epoch': 1.34}
  6%|▌         | 4374/78504 [2:39:33<57:47:37,  2.81s/it]  6%|▌         | 4375/78504 [2:39:36<56:21:57,  2.74s/it]                                                         {'loss': 0.0894, 'grad_norm': 0.38841119408607483, 'learning_rate': 1.6706152082537257e-05, 'epoch': 1.34}
  6%|▌         | 4375/78504 [2:39:36<56:21:57,  2.74s/it]  6%|▌         | 4376/78504 [2:39:38<54:47:22,  2.66s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.28313586115837097, 'learning_rate': 1.6709973251815055e-05, 'epoch': 1.34}
  6%|▌         | 4376/78504 [2:39:38<54:47:22,  2.66s/it]  6%|▌         | 4377/78504 [2:39:41<53:23:06,  2.59s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.2466467022895813, 'learning_rate': 1.6713794421092854e-05, 'epoch': 1.34}
  6%|▌         | 4377/78504 [2:39:41<53:23:06,  2.59s/it]  6%|▌         | 4378/78504 [2:39:43<51:42:41,  2.51s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.2961346507072449, 'learning_rate': 1.6717615590370653e-05, 'epoch': 1.34}
  6%|▌         | 4378/78504 [2:39:43<51:42:41,  2.51s/it]  6%|▌         | 4379/78504 [2:39:45<50:25:14,  2.45s/it]                                                         {'loss': 0.1025, 'grad_norm': 0.5181246995925903, 'learning_rate': 1.6721436759648452e-05, 'epoch': 1.34}
  6%|▌         | 4379/78504 [2:39:45<50:25:14,  2.45s/it]  6%|▌         | 4380/78504 [2:39:48<48:51:03,  2.37s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.32267847657203674, 'learning_rate': 1.672525792892625e-05, 'epoch': 1.34}
  6%|▌         | 4380/78504 [2:39:48<48:51:03,  2.37s/it]  6%|▌         | 4381/78504 [2:39:50<47:36:47,  2.31s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.35200878977775574, 'learning_rate': 1.672907909820405e-05, 'epoch': 1.34}
  6%|▌         | 4381/78504 [2:39:50<47:36:47,  2.31s/it]  6%|▌         | 4382/78504 [2:39:52<44:52:44,  2.18s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.45594683289527893, 'learning_rate': 1.6732900267481848e-05, 'epoch': 1.34}
  6%|▌         | 4382/78504 [2:39:52<44:52:44,  2.18s/it]  6%|▌         | 4383/78504 [2:39:54<43:46:32,  2.13s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.3693373203277588, 'learning_rate': 1.6736721436759647e-05, 'epoch': 1.34}
  6%|▌         | 4383/78504 [2:39:54<43:46:32,  2.13s/it]  6%|▌         | 4384/78504 [2:39:55<41:40:31,  2.02s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.5591658353805542, 'learning_rate': 1.6740542606037445e-05, 'epoch': 1.34}
  6%|▌         | 4384/78504 [2:39:55<41:40:31,  2.02s/it]  6%|▌         | 4385/78504 [2:39:57<40:46:10,  1.98s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.34734728932380676, 'learning_rate': 1.6744363775315244e-05, 'epoch': 1.34}
  6%|▌         | 4385/78504 [2:39:57<40:46:10,  1.98s/it]  6%|▌         | 4386/78504 [2:39:59<39:26:46,  1.92s/it]                                                         {'loss': 0.1251, 'grad_norm': 0.8550172448158264, 'learning_rate': 1.6748184944593043e-05, 'epoch': 1.34}
  6%|▌         | 4386/78504 [2:39:59<39:26:46,  1.92s/it]  6%|▌         | 4387/78504 [2:40:01<37:50:15,  1.84s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.6336030960083008, 'learning_rate': 1.6752006113870845e-05, 'epoch': 1.34}
  6%|▌         | 4387/78504 [2:40:01<37:50:15,  1.84s/it]  6%|▌         | 4388/78504 [2:40:02<35:38:59,  1.73s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.691135823726654, 'learning_rate': 1.6755827283148644e-05, 'epoch': 1.34}
  6%|▌         | 4388/78504 [2:40:02<35:38:59,  1.73s/it]  6%|▌         | 4389/78504 [2:40:04<34:17:57,  1.67s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.5688754320144653, 'learning_rate': 1.6759648452426443e-05, 'epoch': 1.34}
  6%|▌         | 4389/78504 [2:40:04<34:17:57,  1.67s/it]  6%|▌         | 4390/78504 [2:40:05<32:47:10,  1.59s/it]                                                         {'loss': 0.2107, 'grad_norm': 0.7300745844841003, 'learning_rate': 1.676346962170424e-05, 'epoch': 1.34}
  6%|▌         | 4390/78504 [2:40:05<32:47:10,  1.59s/it]  6%|▌         | 4391/78504 [2:40:06<30:55:50,  1.50s/it]                                                         {'loss': 0.2196, 'grad_norm': 1.0066086053848267, 'learning_rate': 1.676729079098204e-05, 'epoch': 1.34}
  6%|▌         | 4391/78504 [2:40:06<30:55:50,  1.50s/it]  6%|▌         | 4392/78504 [2:40:08<29:05:57,  1.41s/it]                                                         {'loss': 0.2135, 'grad_norm': 0.858579158782959, 'learning_rate': 1.677111196025984e-05, 'epoch': 1.34}
  6%|▌         | 4392/78504 [2:40:08<29:05:57,  1.41s/it]  6%|▌         | 4393/78504 [2:40:09<27:06:15,  1.32s/it]                                                         {'loss': 0.227, 'grad_norm': 1.2875819206237793, 'learning_rate': 1.6774933129537638e-05, 'epoch': 1.34}
  6%|▌         | 4393/78504 [2:40:09<27:06:15,  1.32s/it]  6%|▌         | 4394/78504 [2:40:10<25:29:56,  1.24s/it]                                                         {'loss': 0.2381, 'grad_norm': 0.9651837348937988, 'learning_rate': 1.6778754298815436e-05, 'epoch': 1.34}
  6%|▌         | 4394/78504 [2:40:10<25:29:56,  1.24s/it]  6%|▌         | 4395/78504 [2:40:11<23:42:38,  1.15s/it]                                                         {'loss': 0.2323, 'grad_norm': 1.1214548349380493, 'learning_rate': 1.678257546809324e-05, 'epoch': 1.34}
  6%|▌         | 4395/78504 [2:40:11<23:42:38,  1.15s/it]  6%|▌         | 4396/78504 [2:40:11<21:34:38,  1.05s/it]                                                         {'loss': 0.2987, 'grad_norm': 1.9222310781478882, 'learning_rate': 1.6786396637371037e-05, 'epoch': 1.34}
  6%|▌         | 4396/78504 [2:40:11<21:34:38,  1.05s/it]  6%|▌         | 4397/78504 [2:40:20<64:39:33,  3.14s/it]                                                         {'loss': 0.1928, 'grad_norm': 0.6019227504730225, 'learning_rate': 1.6790217806648836e-05, 'epoch': 1.34}
  6%|▌         | 4397/78504 [2:40:20<64:39:33,  3.14s/it]  6%|▌         | 4398/78504 [2:40:23<64:32:48,  3.14s/it]                                                         {'loss': 0.1233, 'grad_norm': 0.391345739364624, 'learning_rate': 1.6794038975926635e-05, 'epoch': 1.34}
  6%|▌         | 4398/78504 [2:40:23<64:32:48,  3.14s/it]  6%|▌         | 4399/78504 [2:40:26<63:36:31,  3.09s/it]                                                         {'loss': 0.1139, 'grad_norm': 0.3544301688671112, 'learning_rate': 1.6797860145204433e-05, 'epoch': 1.34}
  6%|▌         | 4399/78504 [2:40:26<63:36:31,  3.09s/it]  6%|▌         | 4400/78504 [2:40:28<60:40:44,  2.95s/it]                                                         {'loss': 0.078, 'grad_norm': 0.3605884313583374, 'learning_rate': 1.6801681314482232e-05, 'epoch': 1.35}
  6%|▌         | 4400/78504 [2:40:28<60:40:44,  2.95s/it]  6%|▌         | 4401/78504 [2:40:31<57:03:39,  2.77s/it]                                                         {'loss': 0.0518, 'grad_norm': 0.28776389360427856, 'learning_rate': 1.680550248376003e-05, 'epoch': 1.35}
  6%|▌         | 4401/78504 [2:40:31<57:03:39,  2.77s/it]  6%|▌         | 4402/78504 [2:40:33<53:33:15,  2.60s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.35393187403678894, 'learning_rate': 1.6809323653037833e-05, 'epoch': 1.35}
  6%|▌         | 4402/78504 [2:40:33<53:33:15,  2.60s/it]  6%|▌         | 4403/78504 [2:40:35<51:52:57,  2.52s/it]                                                         {'loss': 0.0568, 'grad_norm': 0.3042962849140167, 'learning_rate': 1.6813144822315632e-05, 'epoch': 1.35}
  6%|▌         | 4403/78504 [2:40:35<51:52:57,  2.52s/it]  6%|▌         | 4404/78504 [2:40:37<49:15:24,  2.39s/it]                                                         {'loss': 0.062, 'grad_norm': 0.7327079772949219, 'learning_rate': 1.681696599159343e-05, 'epoch': 1.35}
  6%|▌         | 4404/78504 [2:40:37<49:15:24,  2.39s/it]  6%|▌         | 4405/78504 [2:40:39<48:03:32,  2.33s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.5292685627937317, 'learning_rate': 1.682078716087123e-05, 'epoch': 1.35}
  6%|▌         | 4405/78504 [2:40:39<48:03:32,  2.33s/it]  6%|▌         | 4406/78504 [2:40:41<45:34:46,  2.21s/it]                                                         {'loss': 0.0824, 'grad_norm': 0.36294665932655334, 'learning_rate': 1.6824608330149028e-05, 'epoch': 1.35}
  6%|▌         | 4406/78504 [2:40:41<45:34:46,  2.21s/it]  6%|▌         | 4407/78504 [2:40:43<44:15:49,  2.15s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.58321213722229, 'learning_rate': 1.6828429499426827e-05, 'epoch': 1.35}
  6%|▌         | 4407/78504 [2:40:43<44:15:49,  2.15s/it]  6%|▌         | 4408/78504 [2:40:45<42:51:21,  2.08s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.630562424659729, 'learning_rate': 1.6832250668704625e-05, 'epoch': 1.35}
  6%|▌         | 4408/78504 [2:40:45<42:51:21,  2.08s/it]  6%|▌         | 4409/78504 [2:40:47<41:34:36,  2.02s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.5915533900260925, 'learning_rate': 1.6836071837982424e-05, 'epoch': 1.35}
  6%|▌         | 4409/78504 [2:40:47<41:34:36,  2.02s/it]  6%|▌         | 4410/78504 [2:40:49<39:45:26,  1.93s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.38803166151046753, 'learning_rate': 1.6839893007260223e-05, 'epoch': 1.35}
  6%|▌         | 4410/78504 [2:40:49<39:45:26,  1.93s/it]  6%|▌         | 4411/78504 [2:40:51<38:47:34,  1.88s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.6967632174491882, 'learning_rate': 1.6843714176538022e-05, 'epoch': 1.35}
  6%|▌         | 4411/78504 [2:40:51<38:47:34,  1.88s/it]  6%|▌         | 4412/78504 [2:40:52<37:15:41,  1.81s/it]                                                         {'loss': 0.1448, 'grad_norm': 0.7023932933807373, 'learning_rate': 1.684753534581582e-05, 'epoch': 1.35}
  6%|▌         | 4412/78504 [2:40:52<37:15:41,  1.81s/it]  6%|▌         | 4413/78504 [2:40:54<35:40:12,  1.73s/it]                                                         {'loss': 0.198, 'grad_norm': 0.7361250519752502, 'learning_rate': 1.685135651509362e-05, 'epoch': 1.35}
  6%|▌         | 4413/78504 [2:40:54<35:40:12,  1.73s/it]  6%|▌         | 4414/78504 [2:40:55<34:01:29,  1.65s/it]                                                         {'loss': 0.2229, 'grad_norm': 0.7336496710777283, 'learning_rate': 1.6855177684371418e-05, 'epoch': 1.35}
  6%|▌         | 4414/78504 [2:40:55<34:01:29,  1.65s/it]  6%|▌         | 4415/78504 [2:40:57<32:43:52,  1.59s/it]                                                         {'loss': 0.2462, 'grad_norm': 0.7739676237106323, 'learning_rate': 1.6858998853649217e-05, 'epoch': 1.35}
  6%|▌         | 4415/78504 [2:40:57<32:43:52,  1.59s/it]  6%|▌         | 4416/78504 [2:40:58<30:28:04,  1.48s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.8196535110473633, 'learning_rate': 1.6862820022927015e-05, 'epoch': 1.35}
  6%|▌         | 4416/78504 [2:40:58<30:28:04,  1.48s/it]  6%|▌         | 4417/78504 [2:40:59<28:28:56,  1.38s/it]                                                         {'loss': 0.2262, 'grad_norm': 0.8046455979347229, 'learning_rate': 1.6866641192204814e-05, 'epoch': 1.35}
  6%|▌         | 4417/78504 [2:40:59<28:28:56,  1.38s/it]  6%|▌         | 4418/78504 [2:41:00<26:51:06,  1.30s/it]                                                         {'loss': 0.2133, 'grad_norm': 0.9596796631813049, 'learning_rate': 1.6870462361482616e-05, 'epoch': 1.35}
  6%|▌         | 4418/78504 [2:41:00<26:51:06,  1.30s/it]  6%|▌         | 4419/78504 [2:41:01<25:18:39,  1.23s/it]                                                         {'loss': 0.2344, 'grad_norm': 1.9076273441314697, 'learning_rate': 1.6874283530760415e-05, 'epoch': 1.35}
  6%|▌         | 4419/78504 [2:41:01<25:18:39,  1.23s/it]  6%|▌         | 4420/78504 [2:41:02<23:33:19,  1.14s/it]                                                         {'loss': 0.2739, 'grad_norm': 1.0052157640457153, 'learning_rate': 1.6878104700038214e-05, 'epoch': 1.35}
  6%|▌         | 4420/78504 [2:41:02<23:33:19,  1.14s/it]  6%|▌         | 4421/78504 [2:41:03<21:21:01,  1.04s/it]                                                         {'loss': 0.3777, 'grad_norm': 3.3264660835266113, 'learning_rate': 1.6881925869316013e-05, 'epoch': 1.35}
  6%|▌         | 4421/78504 [2:41:03<21:21:01,  1.04s/it]  6%|▌         | 4422/78504 [2:41:13<73:34:05,  3.58s/it]                                                         {'loss': 0.2261, 'grad_norm': 0.707154393196106, 'learning_rate': 1.688574703859381e-05, 'epoch': 1.35}
  6%|▌         | 4422/78504 [2:41:13<73:34:05,  3.58s/it]  6%|▌         | 4423/78504 [2:41:16<70:31:41,  3.43s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.38915780186653137, 'learning_rate': 1.688956820787161e-05, 'epoch': 1.35}
  6%|▌         | 4423/78504 [2:41:16<70:31:41,  3.43s/it]  6%|▌         | 4424/78504 [2:41:18<65:13:39,  3.17s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.2976902425289154, 'learning_rate': 1.689338937714941e-05, 'epoch': 1.35}
  6%|▌         | 4424/78504 [2:41:18<65:13:39,  3.17s/it]  6%|▌         | 4425/78504 [2:41:21<61:49:36,  3.00s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.3211630582809448, 'learning_rate': 1.6897210546427208e-05, 'epoch': 1.35}
  6%|▌         | 4425/78504 [2:41:21<61:49:36,  3.00s/it]  6%|▌         | 4426/78504 [2:41:23<58:33:39,  2.85s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.29538851976394653, 'learning_rate': 1.6901031715705006e-05, 'epoch': 1.35}
  6%|▌         | 4426/78504 [2:41:23<58:33:39,  2.85s/it]  6%|▌         | 4427/78504 [2:41:26<55:58:55,  2.72s/it]                                                         {'loss': 0.1267, 'grad_norm': 0.4207291901111603, 'learning_rate': 1.6904852884982805e-05, 'epoch': 1.35}
  6%|▌         | 4427/78504 [2:41:26<55:58:55,  2.72s/it]  6%|▌         | 4428/78504 [2:41:28<53:30:09,  2.60s/it]                                                         {'loss': 0.082, 'grad_norm': 0.4401700496673584, 'learning_rate': 1.6908674054260604e-05, 'epoch': 1.35}
  6%|▌         | 4428/78504 [2:41:28<53:30:09,  2.60s/it]  6%|▌         | 4429/78504 [2:41:30<50:29:27,  2.45s/it]                                                         {'loss': 0.1108, 'grad_norm': 0.35835370421409607, 'learning_rate': 1.6912495223538403e-05, 'epoch': 1.35}
  6%|▌         | 4429/78504 [2:41:30<50:29:27,  2.45s/it]  6%|▌         | 4430/78504 [2:41:32<48:50:19,  2.37s/it]                                                         {'loss': 0.0956, 'grad_norm': 0.3787846267223358, 'learning_rate': 1.69163163928162e-05, 'epoch': 1.35}
  6%|▌         | 4430/78504 [2:41:32<48:50:19,  2.37s/it]  6%|▌         | 4431/78504 [2:41:35<47:34:24,  2.31s/it]                                                         {'loss': 0.097, 'grad_norm': 0.43501025438308716, 'learning_rate': 1.6920137562094e-05, 'epoch': 1.35}
  6%|▌         | 4431/78504 [2:41:35<47:34:24,  2.31s/it]  6%|▌         | 4432/78504 [2:41:36<44:51:25,  2.18s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.4480206072330475, 'learning_rate': 1.69239587313718e-05, 'epoch': 1.35}
  6%|▌         | 4432/78504 [2:41:36<44:51:25,  2.18s/it]  6%|▌         | 4433/78504 [2:41:38<43:41:34,  2.12s/it]                                                         {'loss': 0.1042, 'grad_norm': 0.5843552947044373, 'learning_rate': 1.69277799006496e-05, 'epoch': 1.36}
  6%|▌         | 4433/78504 [2:41:38<43:41:34,  2.12s/it]  6%|▌         | 4434/78504 [2:41:40<42:26:02,  2.06s/it]                                                         {'loss': 0.1248, 'grad_norm': 0.6743726134300232, 'learning_rate': 1.69316010699274e-05, 'epoch': 1.36}
  6%|▌         | 4434/78504 [2:41:40<42:26:02,  2.06s/it]  6%|▌         | 4435/78504 [2:41:42<41:20:07,  2.01s/it]                                                         {'loss': 0.1335, 'grad_norm': 0.44126126170158386, 'learning_rate': 1.69354222392052e-05, 'epoch': 1.36}
  6%|▌         | 4435/78504 [2:41:42<41:20:07,  2.01s/it]  6%|▌         | 4436/78504 [2:41:44<39:50:55,  1.94s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.6063469648361206, 'learning_rate': 1.6939243408482997e-05, 'epoch': 1.36}
  6%|▌         | 4436/78504 [2:41:44<39:50:55,  1.94s/it]  6%|▌         | 4437/78504 [2:41:46<37:40:15,  1.83s/it]                                                         {'loss': 0.174, 'grad_norm': 0.9467818140983582, 'learning_rate': 1.6943064577760796e-05, 'epoch': 1.36}
  6%|▌         | 4437/78504 [2:41:46<37:40:15,  1.83s/it]  6%|▌         | 4438/78504 [2:41:47<35:53:25,  1.74s/it]                                                         {'loss': 0.1899, 'grad_norm': 1.2091715335845947, 'learning_rate': 1.6946885747038595e-05, 'epoch': 1.36}
  6%|▌         | 4438/78504 [2:41:47<35:53:25,  1.74s/it]  6%|▌         | 4439/78504 [2:41:49<34:12:50,  1.66s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.9021766781806946, 'learning_rate': 1.6950706916316393e-05, 'epoch': 1.36}
  6%|▌         | 4439/78504 [2:41:49<34:12:50,  1.66s/it]  6%|▌         | 4440/78504 [2:41:50<32:38:50,  1.59s/it]                                                         {'loss': 0.21, 'grad_norm': 0.7419281601905823, 'learning_rate': 1.6954528085594192e-05, 'epoch': 1.36}
  6%|▌         | 4440/78504 [2:41:50<32:38:50,  1.59s/it]  6%|▌         | 4441/78504 [2:41:51<30:45:10,  1.49s/it]                                                         {'loss': 0.2379, 'grad_norm': 0.8600410223007202, 'learning_rate': 1.695834925487199e-05, 'epoch': 1.36}
  6%|▌         | 4441/78504 [2:41:51<30:45:10,  1.49s/it]  6%|▌         | 4442/78504 [2:41:52<28:35:12,  1.39s/it]                                                         {'loss': 0.2445, 'grad_norm': 0.8883064389228821, 'learning_rate': 1.696217042414979e-05, 'epoch': 1.36}
  6%|▌         | 4442/78504 [2:41:52<28:35:12,  1.39s/it]  6%|▌         | 4443/78504 [2:41:53<26:53:26,  1.31s/it]                                                         {'loss': 0.2672, 'grad_norm': 1.5577998161315918, 'learning_rate': 1.696599159342759e-05, 'epoch': 1.36}
  6%|▌         | 4443/78504 [2:41:54<26:53:26,  1.31s/it]  6%|▌         | 4444/78504 [2:41:54<24:56:29,  1.21s/it]                                                         {'loss': 0.2536, 'grad_norm': 1.154030680656433, 'learning_rate': 1.6969812762705387e-05, 'epoch': 1.36}
  6%|▌         | 4444/78504 [2:41:54<24:56:29,  1.21s/it]  6%|▌         | 4445/78504 [2:41:55<23:15:09,  1.13s/it]                                                         {'loss': 0.3003, 'grad_norm': 2.069190263748169, 'learning_rate': 1.6973633931983186e-05, 'epoch': 1.36}
  6%|▌         | 4445/78504 [2:41:55<23:15:09,  1.13s/it]  6%|▌         | 4446/78504 [2:41:56<20:54:12,  1.02s/it]                                                         {'loss': 0.3121, 'grad_norm': 2.6943845748901367, 'learning_rate': 1.6977455101260985e-05, 'epoch': 1.36}
  6%|▌         | 4446/78504 [2:41:56<20:54:12,  1.02s/it]  6%|▌         | 4447/78504 [2:42:03<59:45:01,  2.90s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.5730251669883728, 'learning_rate': 1.6981276270538783e-05, 'epoch': 1.36}
  6%|▌         | 4447/78504 [2:42:03<59:45:01,  2.90s/it]  6%|▌         | 4448/78504 [2:42:07<61:06:08,  2.97s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.322055459022522, 'learning_rate': 1.6985097439816582e-05, 'epoch': 1.36}
  6%|▌         | 4448/78504 [2:42:07<61:06:08,  2.97s/it]  6%|▌         | 4449/78504 [2:42:10<61:23:21,  2.98s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.28359362483024597, 'learning_rate': 1.6988918609094384e-05, 'epoch': 1.36}
  6%|▌         | 4449/78504 [2:42:10<61:23:21,  2.98s/it]  6%|▌         | 4450/78504 [2:42:12<59:08:08,  2.87s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.3983651399612427, 'learning_rate': 1.6992739778372183e-05, 'epoch': 1.36}
  6%|▌         | 4450/78504 [2:42:12<59:08:08,  2.87s/it]  6%|▌         | 4451/78504 [2:42:15<56:44:43,  2.76s/it]                                                         {'loss': 0.0749, 'grad_norm': 0.3422231674194336, 'learning_rate': 1.699656094764998e-05, 'epoch': 1.36}
  6%|▌         | 4451/78504 [2:42:15<56:44:43,  2.76s/it]  6%|▌         | 4452/78504 [2:42:17<53:42:40,  2.61s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.758406937122345, 'learning_rate': 1.700038211692778e-05, 'epoch': 1.36}
  6%|▌         | 4452/78504 [2:42:17<53:42:40,  2.61s/it]  6%|▌         | 4453/78504 [2:42:19<51:54:09,  2.52s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.5961878895759583, 'learning_rate': 1.700420328620558e-05, 'epoch': 1.36}
  6%|▌         | 4453/78504 [2:42:19<51:54:09,  2.52s/it]  6%|▌         | 4454/78504 [2:42:21<49:21:48,  2.40s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.38581210374832153, 'learning_rate': 1.7008024455483378e-05, 'epoch': 1.36}
  6%|▌         | 4454/78504 [2:42:21<49:21:48,  2.40s/it]  6%|▌         | 4455/78504 [2:42:24<48:05:01,  2.34s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.4693896770477295, 'learning_rate': 1.7011845624761177e-05, 'epoch': 1.36}
  6%|▌         | 4455/78504 [2:42:24<48:05:01,  2.34s/it]  6%|▌         | 4456/78504 [2:42:26<46:54:52,  2.28s/it]                                                         {'loss': 0.0855, 'grad_norm': 0.33509013056755066, 'learning_rate': 1.7015666794038975e-05, 'epoch': 1.36}
  6%|▌         | 4456/78504 [2:42:26<46:54:52,  2.28s/it]  6%|▌         | 4457/78504 [2:42:28<45:25:07,  2.21s/it]                                                         {'loss': 0.0997, 'grad_norm': 0.46634557843208313, 'learning_rate': 1.7019487963316774e-05, 'epoch': 1.36}
  6%|▌         | 4457/78504 [2:42:28<45:25:07,  2.21s/it]  6%|▌         | 4458/78504 [2:42:30<44:03:43,  2.14s/it]                                                         {'loss': 0.108, 'grad_norm': 0.5246798396110535, 'learning_rate': 1.7023309132594573e-05, 'epoch': 1.36}
  6%|▌         | 4458/78504 [2:42:30<44:03:43,  2.14s/it]  6%|▌         | 4459/78504 [2:42:32<42:22:20,  2.06s/it]                                                         {'loss': 0.147, 'grad_norm': 0.6033738851547241, 'learning_rate': 1.702713030187237e-05, 'epoch': 1.36}
  6%|▌         | 4459/78504 [2:42:32<42:22:20,  2.06s/it]  6%|▌         | 4460/78504 [2:42:34<41:06:02,  2.00s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.4958706796169281, 'learning_rate': 1.703095147115017e-05, 'epoch': 1.36}
  6%|▌         | 4460/78504 [2:42:34<41:06:02,  2.00s/it]  6%|▌         | 4461/78504 [2:42:35<39:43:14,  1.93s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.5945125222206116, 'learning_rate': 1.703477264042797e-05, 'epoch': 1.36}
  6%|▌         | 4461/78504 [2:42:35<39:43:14,  1.93s/it]  6%|▌         | 4462/78504 [2:42:37<37:57:38,  1.85s/it]                                                         {'loss': 0.1971, 'grad_norm': 0.7092231512069702, 'learning_rate': 1.7038593809705768e-05, 'epoch': 1.36}
  6%|▌         | 4462/78504 [2:42:37<37:57:38,  1.85s/it]  6%|▌         | 4463/78504 [2:42:38<36:06:26,  1.76s/it]                                                         {'loss': 0.2439, 'grad_norm': 0.5800310969352722, 'learning_rate': 1.7042414978983567e-05, 'epoch': 1.36}
  6%|▌         | 4463/78504 [2:42:38<36:06:26,  1.76s/it]  6%|▌         | 4464/78504 [2:42:40<34:19:08,  1.67s/it]                                                         {'loss': 0.2102, 'grad_norm': 0.6585589647293091, 'learning_rate': 1.704623614826137e-05, 'epoch': 1.36}
  6%|▌         | 4464/78504 [2:42:40<34:19:08,  1.67s/it]  6%|▌         | 4465/78504 [2:42:41<32:43:43,  1.59s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.6748008131980896, 'learning_rate': 1.7050057317539167e-05, 'epoch': 1.37}
  6%|▌         | 4465/78504 [2:42:41<32:43:43,  1.59s/it]  6%|▌         | 4466/78504 [2:42:43<30:46:32,  1.50s/it]                                                         {'loss': 0.2378, 'grad_norm': 1.525900959968567, 'learning_rate': 1.7053878486816966e-05, 'epoch': 1.37}
  6%|▌         | 4466/78504 [2:42:43<30:46:32,  1.50s/it]  6%|▌         | 4467/78504 [2:42:44<28:37:45,  1.39s/it]                                                         {'loss': 0.2395, 'grad_norm': 0.6209724545478821, 'learning_rate': 1.7057699656094765e-05, 'epoch': 1.37}
  6%|▌         | 4467/78504 [2:42:44<28:37:45,  1.39s/it]  6%|▌         | 4468/78504 [2:42:45<26:49:26,  1.30s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.8854621648788452, 'learning_rate': 1.7061520825372564e-05, 'epoch': 1.37}
  6%|▌         | 4468/78504 [2:42:45<26:49:26,  1.30s/it]  6%|▌         | 4469/78504 [2:42:46<24:52:22,  1.21s/it]                                                         {'loss': 0.245, 'grad_norm': 1.2644582986831665, 'learning_rate': 1.7065341994650362e-05, 'epoch': 1.37}
  6%|▌         | 4469/78504 [2:42:46<24:52:22,  1.21s/it]  6%|▌         | 4470/78504 [2:42:47<23:10:56,  1.13s/it]                                                         {'loss': 0.264, 'grad_norm': 1.3350932598114014, 'learning_rate': 1.706916316392816e-05, 'epoch': 1.37}
  6%|▌         | 4470/78504 [2:42:47<23:10:56,  1.13s/it]  6%|▌         | 4471/78504 [2:42:48<21:00:18,  1.02s/it]                                                         {'loss': 0.3322, 'grad_norm': 1.8972976207733154, 'learning_rate': 1.707298433320596e-05, 'epoch': 1.37}
  6%|▌         | 4471/78504 [2:42:48<21:00:18,  1.02s/it]  6%|▌         | 4472/78504 [2:42:56<68:00:45,  3.31s/it]                                                         {'loss': 0.1604, 'grad_norm': 0.5126451253890991, 'learning_rate': 1.707680550248376e-05, 'epoch': 1.37}
  6%|▌         | 4472/78504 [2:42:56<68:00:45,  3.31s/it]  6%|▌         | 4473/78504 [2:43:00<68:19:35,  3.32s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.3764224350452423, 'learning_rate': 1.708062667176156e-05, 'epoch': 1.37}
  6%|▌         | 4473/78504 [2:43:00<68:19:35,  3.32s/it]  6%|▌         | 4474/78504 [2:43:02<63:40:49,  3.10s/it]                                                         {'loss': 0.1091, 'grad_norm': 0.6206727027893066, 'learning_rate': 1.708444784103936e-05, 'epoch': 1.37}
  6%|▌         | 4474/78504 [2:43:02<63:40:49,  3.10s/it]  6%|▌         | 4475/78504 [2:43:05<60:42:24,  2.95s/it]                                                         {'loss': 0.1055, 'grad_norm': 0.3296270966529846, 'learning_rate': 1.708826901031716e-05, 'epoch': 1.37}
  6%|▌         | 4475/78504 [2:43:05<60:42:24,  2.95s/it]  6%|▌         | 4476/78504 [2:43:07<57:47:21,  2.81s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.28835615515708923, 'learning_rate': 1.7092090179594957e-05, 'epoch': 1.37}
  6%|▌         | 4476/78504 [2:43:07<57:47:21,  2.81s/it]  6%|▌         | 4477/78504 [2:43:10<55:26:26,  2.70s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.42752593755722046, 'learning_rate': 1.7095911348872756e-05, 'epoch': 1.37}
  6%|▌         | 4477/78504 [2:43:10<55:26:26,  2.70s/it]  6%|▌         | 4478/78504 [2:43:12<53:09:44,  2.59s/it]                                                         {'loss': 0.111, 'grad_norm': 0.326241672039032, 'learning_rate': 1.7099732518150555e-05, 'epoch': 1.37}
  6%|▌         | 4478/78504 [2:43:12<53:09:44,  2.59s/it]  6%|▌         | 4479/78504 [2:43:14<50:16:23,  2.44s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.2647353410720825, 'learning_rate': 1.7103553687428353e-05, 'epoch': 1.37}
  6%|▌         | 4479/78504 [2:43:14<50:16:23,  2.44s/it]  6%|▌         | 4480/78504 [2:43:16<48:38:34,  2.37s/it]                                                         {'loss': 0.075, 'grad_norm': 0.3022434413433075, 'learning_rate': 1.7107374856706155e-05, 'epoch': 1.37}
  6%|▌         | 4480/78504 [2:43:16<48:38:34,  2.37s/it]  6%|▌         | 4481/78504 [2:43:18<47:18:23,  2.30s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.45376309752464294, 'learning_rate': 1.7111196025983954e-05, 'epoch': 1.37}
  6%|▌         | 4481/78504 [2:43:18<47:18:23,  2.30s/it]  6%|▌         | 4482/78504 [2:43:20<45:22:58,  2.21s/it]                                                         {'loss': 0.1352, 'grad_norm': 0.5149494409561157, 'learning_rate': 1.7115017195261753e-05, 'epoch': 1.37}
  6%|▌         | 4482/78504 [2:43:20<45:22:58,  2.21s/it]  6%|▌         | 4483/78504 [2:43:22<42:54:44,  2.09s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.44391411542892456, 'learning_rate': 1.711883836453955e-05, 'epoch': 1.37}
  6%|▌         | 4483/78504 [2:43:22<42:54:44,  2.09s/it]  6%|▌         | 4484/78504 [2:43:24<41:36:35,  2.02s/it]                                                         {'loss': 0.1252, 'grad_norm': 0.4206424057483673, 'learning_rate': 1.712265953381735e-05, 'epoch': 1.37}
  6%|▌         | 4484/78504 [2:43:24<41:36:35,  2.02s/it]  6%|▌         | 4485/78504 [2:43:26<39:42:00,  1.93s/it]                                                         {'loss': 0.156, 'grad_norm': 0.5113542079925537, 'learning_rate': 1.712648070309515e-05, 'epoch': 1.37}
  6%|▌         | 4485/78504 [2:43:26<39:42:00,  1.93s/it]  6%|▌         | 4486/78504 [2:43:28<38:43:15,  1.88s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.6359466314315796, 'learning_rate': 1.7130301872372948e-05, 'epoch': 1.37}
  6%|▌         | 4486/78504 [2:43:28<38:43:15,  1.88s/it]  6%|▌         | 4487/78504 [2:43:29<37:16:55,  1.81s/it]                                                         {'loss': 0.2201, 'grad_norm': 0.6862449049949646, 'learning_rate': 1.7134123041650747e-05, 'epoch': 1.37}
  6%|▌         | 4487/78504 [2:43:29<37:16:55,  1.81s/it]  6%|▌         | 4488/78504 [2:43:31<35:28:41,  1.73s/it]                                                         {'loss': 0.2378, 'grad_norm': 0.7589373588562012, 'learning_rate': 1.7137944210928545e-05, 'epoch': 1.37}
  6%|▌         | 4488/78504 [2:43:31<35:28:41,  1.73s/it]  6%|▌         | 4489/78504 [2:43:32<33:39:07,  1.64s/it]                                                         {'loss': 0.2526, 'grad_norm': 0.9406682848930359, 'learning_rate': 1.7141765380206344e-05, 'epoch': 1.37}
  6%|▌         | 4489/78504 [2:43:32<33:39:07,  1.64s/it]  6%|▌         | 4490/78504 [2:43:34<32:19:56,  1.57s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.7832614779472351, 'learning_rate': 1.7145586549484143e-05, 'epoch': 1.37}
  6%|▌         | 4490/78504 [2:43:34<32:19:56,  1.57s/it]  6%|▌         | 4491/78504 [2:43:35<30:09:27,  1.47s/it]                                                         {'loss': 0.2332, 'grad_norm': 0.6688991785049438, 'learning_rate': 1.714940771876194e-05, 'epoch': 1.37}
  6%|▌         | 4491/78504 [2:43:35<30:09:27,  1.47s/it]  6%|▌         | 4492/78504 [2:43:36<28:49:01,  1.40s/it]                                                         {'loss': 0.2449, 'grad_norm': 1.2780838012695312, 'learning_rate': 1.715322888803974e-05, 'epoch': 1.37}
  6%|▌         | 4492/78504 [2:43:36<28:49:01,  1.40s/it]  6%|▌         | 4493/78504 [2:43:37<26:53:39,  1.31s/it]                                                         {'loss': 0.2598, 'grad_norm': 0.8404556512832642, 'learning_rate': 1.715705005731754e-05, 'epoch': 1.37}
  6%|▌         | 4493/78504 [2:43:37<26:53:39,  1.31s/it]  6%|▌         | 4494/78504 [2:43:38<24:54:10,  1.21s/it]                                                         {'loss': 0.2305, 'grad_norm': 1.8642058372497559, 'learning_rate': 1.7160871226595338e-05, 'epoch': 1.37}
  6%|▌         | 4494/78504 [2:43:38<24:54:10,  1.21s/it]  6%|▌         | 4495/78504 [2:43:39<23:11:24,  1.13s/it]                                                         {'loss': 0.2934, 'grad_norm': 1.3769936561584473, 'learning_rate': 1.716469239587314e-05, 'epoch': 1.37}
  6%|▌         | 4495/78504 [2:43:39<23:11:24,  1.13s/it]  6%|▌         | 4496/78504 [2:43:40<21:03:48,  1.02s/it]                                                         {'loss': 0.4218, 'grad_norm': 3.490083694458008, 'learning_rate': 1.716851356515094e-05, 'epoch': 1.37}
  6%|▌         | 4496/78504 [2:43:40<21:03:48,  1.02s/it]  6%|▌         | 4497/78504 [2:43:48<67:26:33,  3.28s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.505414605140686, 'learning_rate': 1.7172334734428737e-05, 'epoch': 1.37}
  6%|▌         | 4497/78504 [2:43:48<67:26:33,  3.28s/it]  6%|▌         | 4498/78504 [2:43:52<67:52:00,  3.30s/it]                                                         {'loss': 0.1156, 'grad_norm': 0.4749702513217926, 'learning_rate': 1.7176155903706536e-05, 'epoch': 1.38}
  6%|▌         | 4498/78504 [2:43:52<67:52:00,  3.30s/it]  6%|▌         | 4499/78504 [2:43:55<64:39:30,  3.15s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.3771167993545532, 'learning_rate': 1.7179977072984335e-05, 'epoch': 1.38}
  6%|▌         | 4499/78504 [2:43:55<64:39:30,  3.15s/it]  6%|▌         | 4500/78504 [2:43:57<60:13:48,  2.93s/it]                                                         {'loss': 0.0683, 'grad_norm': 0.31737351417541504, 'learning_rate': 1.7183798242262134e-05, 'epoch': 1.38}
  6%|▌         | 4500/78504 [2:43:57<60:13:48,  2.93s/it]  6%|▌         | 4501/78504 [2:43:59<57:24:34,  2.79s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.413178414106369, 'learning_rate': 1.7187619411539932e-05, 'epoch': 1.38}
  6%|▌         | 4501/78504 [2:43:59<57:24:34,  2.79s/it]  6%|▌         | 4502/78504 [2:44:02<55:14:06,  2.69s/it]                                                         {'loss': 0.0648, 'grad_norm': 0.35414883494377136, 'learning_rate': 1.719144058081773e-05, 'epoch': 1.38}
  6%|▌         | 4502/78504 [2:44:02<55:14:06,  2.69s/it]  6%|▌         | 4503/78504 [2:44:04<52:57:30,  2.58s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.29753410816192627, 'learning_rate': 1.719526175009553e-05, 'epoch': 1.38}
  6%|▌         | 4503/78504 [2:44:04<52:57:30,  2.58s/it]  6%|▌         | 4504/78504 [2:44:06<50:06:47,  2.44s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.4777126610279083, 'learning_rate': 1.719908291937333e-05, 'epoch': 1.38}
  6%|▌         | 4504/78504 [2:44:06<50:06:47,  2.44s/it]  6%|▌         | 4505/78504 [2:44:09<48:34:05,  2.36s/it]                                                         {'loss': 0.124, 'grad_norm': 0.6301906108856201, 'learning_rate': 1.7202904088651127e-05, 'epoch': 1.38}
  6%|▌         | 4505/78504 [2:44:09<48:34:05,  2.36s/it]  6%|▌         | 4506/78504 [2:44:11<47:11:43,  2.30s/it]                                                         {'loss': 0.0906, 'grad_norm': 0.4264582395553589, 'learning_rate': 1.7206725257928926e-05, 'epoch': 1.38}
  6%|▌         | 4506/78504 [2:44:11<47:11:43,  2.30s/it]  6%|▌         | 4507/78504 [2:44:13<45:33:28,  2.22s/it]                                                         {'loss': 0.1455, 'grad_norm': 0.46989935636520386, 'learning_rate': 1.7210546427206725e-05, 'epoch': 1.38}
  6%|▌         | 4507/78504 [2:44:13<45:33:28,  2.22s/it]  6%|▌         | 4508/78504 [2:44:14<42:59:22,  2.09s/it]                                                         {'loss': 0.087, 'grad_norm': 0.411588191986084, 'learning_rate': 1.7214367596484524e-05, 'epoch': 1.38}
  6%|▌         | 4508/78504 [2:44:15<42:59:22,  2.09s/it]  6%|▌         | 4509/78504 [2:44:16<41:34:58,  2.02s/it]                                                         {'loss': 0.139, 'grad_norm': 0.4286401569843292, 'learning_rate': 1.7218188765762322e-05, 'epoch': 1.38}
  6%|▌         | 4509/78504 [2:44:16<41:34:58,  2.02s/it]  6%|▌         | 4510/78504 [2:44:18<40:28:06,  1.97s/it]                                                         {'loss': 0.1658, 'grad_norm': 1.1199426651000977, 'learning_rate': 1.722200993504012e-05, 'epoch': 1.38}
  6%|▌         | 4510/78504 [2:44:18<40:28:06,  1.97s/it]  6%|▌         | 4511/78504 [2:44:20<39:15:17,  1.91s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.6612309217453003, 'learning_rate': 1.7225831104317923e-05, 'epoch': 1.38}
  6%|▌         | 4511/78504 [2:44:20<39:15:17,  1.91s/it]  6%|▌         | 4512/78504 [2:44:22<37:49:31,  1.84s/it]                                                         {'loss': 0.175, 'grad_norm': 0.7267336845397949, 'learning_rate': 1.7229652273595722e-05, 'epoch': 1.38}
  6%|▌         | 4512/78504 [2:44:22<37:49:31,  1.84s/it]  6%|▌         | 4513/78504 [2:44:23<35:51:58,  1.75s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.6504543423652649, 'learning_rate': 1.723347344287352e-05, 'epoch': 1.38}
  6%|▌         | 4513/78504 [2:44:23<35:51:58,  1.75s/it]  6%|▌         | 4514/78504 [2:44:25<33:54:56,  1.65s/it]                                                         {'loss': 0.1889, 'grad_norm': 0.7008295059204102, 'learning_rate': 1.723729461215132e-05, 'epoch': 1.38}
  6%|▌         | 4514/78504 [2:44:25<33:54:56,  1.65s/it]  6%|▌         | 4515/78504 [2:44:26<32:23:11,  1.58s/it]                                                         {'loss': 0.2392, 'grad_norm': 0.6969344615936279, 'learning_rate': 1.7241115781429118e-05, 'epoch': 1.38}
  6%|▌         | 4515/78504 [2:44:26<32:23:11,  1.58s/it]  6%|▌         | 4516/78504 [2:44:27<30:33:26,  1.49s/it]                                                         {'loss': 0.2257, 'grad_norm': 1.403977870941162, 'learning_rate': 1.7244936950706917e-05, 'epoch': 1.38}
  6%|▌         | 4516/78504 [2:44:27<30:33:26,  1.49s/it]  6%|▌         | 4517/78504 [2:44:28<28:32:19,  1.39s/it]                                                         {'loss': 0.2507, 'grad_norm': 1.1869144439697266, 'learning_rate': 1.7248758119984716e-05, 'epoch': 1.38}
  6%|▌         | 4517/78504 [2:44:28<28:32:19,  1.39s/it]  6%|▌         | 4518/78504 [2:44:30<26:48:11,  1.30s/it]                                                         {'loss': 0.2478, 'grad_norm': 0.9607073068618774, 'learning_rate': 1.7252579289262515e-05, 'epoch': 1.38}
  6%|▌         | 4518/78504 [2:44:30<26:48:11,  1.30s/it]  6%|▌         | 4519/78504 [2:44:31<24:55:38,  1.21s/it]                                                         {'loss': 0.3048, 'grad_norm': 1.39920175075531, 'learning_rate': 1.7256400458540313e-05, 'epoch': 1.38}
  6%|▌         | 4519/78504 [2:44:31<24:55:38,  1.21s/it]  6%|▌         | 4520/78504 [2:44:31<23:10:16,  1.13s/it]                                                         {'loss': 0.2951, 'grad_norm': 1.5312728881835938, 'learning_rate': 1.7260221627818112e-05, 'epoch': 1.38}
  6%|▌         | 4520/78504 [2:44:31<23:10:16,  1.13s/it]  6%|▌         | 4521/78504 [2:44:32<20:49:52,  1.01s/it]                                                         {'loss': 0.3675, 'grad_norm': 1.5090358257293701, 'learning_rate': 1.726404279709591e-05, 'epoch': 1.38}
  6%|▌         | 4521/78504 [2:44:32<20:49:52,  1.01s/it]  6%|▌         | 4522/78504 [2:44:41<65:53:36,  3.21s/it]                                                         {'loss': 0.1731, 'grad_norm': 0.4131113588809967, 'learning_rate': 1.726786396637371e-05, 'epoch': 1.38}
  6%|▌         | 4522/78504 [2:44:41<65:53:36,  3.21s/it]  6%|▌         | 4523/78504 [2:44:44<66:28:21,  3.23s/it]                                                         {'loss': 0.097, 'grad_norm': 0.3637554347515106, 'learning_rate': 1.7271685135651508e-05, 'epoch': 1.38}
  6%|▌         | 4523/78504 [2:44:44<66:28:21,  3.23s/it]  6%|▌         | 4524/78504 [2:44:47<64:58:56,  3.16s/it]                                                         {'loss': 0.0656, 'grad_norm': 0.295906126499176, 'learning_rate': 1.7275506304929307e-05, 'epoch': 1.38}
  6%|▌         | 4524/78504 [2:44:47<64:58:56,  3.16s/it]  6%|▌         | 4525/78504 [2:44:49<61:36:38,  3.00s/it]                                                         {'loss': 0.074, 'grad_norm': 0.2777252197265625, 'learning_rate': 1.7279327474207106e-05, 'epoch': 1.38}
  6%|▌         | 4525/78504 [2:44:49<61:36:38,  3.00s/it]  6%|▌         | 4526/78504 [2:44:52<58:22:49,  2.84s/it]                                                         {'loss': 0.0579, 'grad_norm': 0.2690560817718506, 'learning_rate': 1.7283148643484908e-05, 'epoch': 1.38}
  6%|▌         | 4526/78504 [2:44:52<58:22:49,  2.84s/it]  6%|▌         | 4527/78504 [2:44:54<54:51:10,  2.67s/it]                                                         {'loss': 0.0861, 'grad_norm': 0.29579734802246094, 'learning_rate': 1.7286969812762707e-05, 'epoch': 1.38}
  6%|▌         | 4527/78504 [2:44:54<54:51:10,  2.67s/it]  6%|▌         | 4528/78504 [2:44:57<52:43:01,  2.57s/it]                                                         {'loss': 0.078, 'grad_norm': 0.3289634585380554, 'learning_rate': 1.7290790982040505e-05, 'epoch': 1.38}
  6%|▌         | 4528/78504 [2:44:57<52:43:01,  2.57s/it]  6%|▌         | 4529/78504 [2:44:59<49:57:23,  2.43s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.5497490167617798, 'learning_rate': 1.7294612151318304e-05, 'epoch': 1.38}
  6%|▌         | 4529/78504 [2:44:59<49:57:23,  2.43s/it]  6%|▌         | 4530/78504 [2:45:01<48:26:47,  2.36s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.4605760872364044, 'learning_rate': 1.7298433320596103e-05, 'epoch': 1.38}
  6%|▌         | 4530/78504 [2:45:01<48:26:47,  2.36s/it]  6%|▌         | 4531/78504 [2:45:03<47:08:04,  2.29s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.36811983585357666, 'learning_rate': 1.73022544898739e-05, 'epoch': 1.39}
  6%|▌         | 4531/78504 [2:45:03<47:08:04,  2.29s/it]  6%|▌         | 4532/78504 [2:45:05<45:27:36,  2.21s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.5983685851097107, 'learning_rate': 1.73060756591517e-05, 'epoch': 1.39}
  6%|▌         | 4532/78504 [2:45:05<45:27:36,  2.21s/it]  6%|▌         | 4533/78504 [2:45:07<42:56:14,  2.09s/it]                                                         {'loss': 0.1, 'grad_norm': 0.3537741005420685, 'learning_rate': 1.73098968284295e-05, 'epoch': 1.39}
  6%|▌         | 4533/78504 [2:45:07<42:56:14,  2.09s/it]  6%|▌         | 4534/78504 [2:45:09<41:34:23,  2.02s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.5785964727401733, 'learning_rate': 1.7313717997707298e-05, 'epoch': 1.39}
  6%|▌         | 4534/78504 [2:45:09<41:34:23,  2.02s/it]  6%|▌         | 4535/78504 [2:45:10<39:40:25,  1.93s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.44191017746925354, 'learning_rate': 1.7317539166985097e-05, 'epoch': 1.39}
  6%|▌         | 4535/78504 [2:45:10<39:40:25,  1.93s/it]  6%|▌         | 4536/78504 [2:45:12<38:41:51,  1.88s/it]                                                         {'loss': 0.1666, 'grad_norm': 1.4841437339782715, 'learning_rate': 1.7321360336262895e-05, 'epoch': 1.39}
  6%|▌         | 4536/78504 [2:45:12<38:41:51,  1.88s/it]  6%|▌         | 4537/78504 [2:45:14<37:15:25,  1.81s/it]                                                         {'loss': 0.13, 'grad_norm': 0.6062614917755127, 'learning_rate': 1.7325181505540694e-05, 'epoch': 1.39}
  6%|▌         | 4537/78504 [2:45:14<37:15:25,  1.81s/it]  6%|▌         | 4538/78504 [2:45:15<35:26:41,  1.73s/it]                                                         {'loss': 0.188, 'grad_norm': 0.6443777680397034, 'learning_rate': 1.7329002674818493e-05, 'epoch': 1.39}
  6%|▌         | 4538/78504 [2:45:15<35:26:41,  1.73s/it]  6%|▌         | 4539/78504 [2:45:17<33:35:48,  1.64s/it]                                                         {'loss': 0.2032, 'grad_norm': 1.0200345516204834, 'learning_rate': 1.733282384409629e-05, 'epoch': 1.39}
  6%|▌         | 4539/78504 [2:45:17<33:35:48,  1.64s/it]  6%|▌         | 4540/78504 [2:45:18<32:15:17,  1.57s/it]                                                         {'loss': 0.2214, 'grad_norm': 0.670369565486908, 'learning_rate': 1.733664501337409e-05, 'epoch': 1.39}
  6%|▌         | 4540/78504 [2:45:18<32:15:17,  1.57s/it]  6%|▌         | 4541/78504 [2:45:19<30:08:37,  1.47s/it]                                                         {'loss': 0.25, 'grad_norm': 0.9262901544570923, 'learning_rate': 1.734046618265189e-05, 'epoch': 1.39}
  6%|▌         | 4541/78504 [2:45:19<30:08:37,  1.47s/it]  6%|▌         | 4542/78504 [2:45:21<28:03:14,  1.37s/it]                                                         {'loss': 0.244, 'grad_norm': 0.8510546088218689, 'learning_rate': 1.734428735192969e-05, 'epoch': 1.39}
  6%|▌         | 4542/78504 [2:45:21<28:03:14,  1.37s/it]  6%|▌         | 4543/78504 [2:45:22<26:21:32,  1.28s/it]                                                         {'loss': 0.2303, 'grad_norm': 0.9853614568710327, 'learning_rate': 1.734810852120749e-05, 'epoch': 1.39}
  6%|▌         | 4543/78504 [2:45:22<26:21:32,  1.28s/it]  6%|▌         | 4544/78504 [2:45:23<24:34:46,  1.20s/it]                                                         {'loss': 0.2233, 'grad_norm': 1.2222201824188232, 'learning_rate': 1.735192969048529e-05, 'epoch': 1.39}
  6%|▌         | 4544/78504 [2:45:23<24:34:46,  1.20s/it]  6%|▌         | 4545/78504 [2:45:24<23:01:05,  1.12s/it]                                                         {'loss': 0.2789, 'grad_norm': 1.5510960817337036, 'learning_rate': 1.7355750859763087e-05, 'epoch': 1.39}
  6%|▌         | 4545/78504 [2:45:24<23:01:05,  1.12s/it]  6%|▌         | 4546/78504 [2:45:24<20:57:11,  1.02s/it]                                                         {'loss': 0.4102, 'grad_norm': 2.976111650466919, 'learning_rate': 1.7359572029040886e-05, 'epoch': 1.39}
  6%|▌         | 4546/78504 [2:45:24<20:57:11,  1.02s/it]  6%|▌         | 4547/78504 [2:45:34<73:53:44,  3.60s/it]                                                         {'loss': 0.1373, 'grad_norm': 0.3839532732963562, 'learning_rate': 1.7363393198318685e-05, 'epoch': 1.39}
  6%|▌         | 4547/78504 [2:45:34<73:53:44,  3.60s/it]  6%|▌         | 4548/78504 [2:45:37<72:29:46,  3.53s/it]                                                         {'loss': 0.1105, 'grad_norm': 0.3455788791179657, 'learning_rate': 1.7367214367596484e-05, 'epoch': 1.39}
  6%|▌         | 4548/78504 [2:45:37<72:29:46,  3.53s/it]  6%|▌         | 4549/78504 [2:45:40<66:33:27,  3.24s/it]                                                         {'loss': 0.0887, 'grad_norm': 0.3032214045524597, 'learning_rate': 1.7371035536874282e-05, 'epoch': 1.39}
  6%|▌         | 4549/78504 [2:45:40<66:33:27,  3.24s/it]  6%|▌         | 4550/78504 [2:45:43<62:46:09,  3.06s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.28879889845848083, 'learning_rate': 1.737485670615208e-05, 'epoch': 1.39}
  6%|▌         | 4550/78504 [2:45:43<62:46:09,  3.06s/it]  6%|▌         | 4551/78504 [2:45:45<59:16:24,  2.89s/it]                                                         {'loss': 0.0697, 'grad_norm': 0.27505236864089966, 'learning_rate': 1.7378677875429883e-05, 'epoch': 1.39}
  6%|▌         | 4551/78504 [2:45:45<59:16:24,  2.89s/it]  6%|▌         | 4552/78504 [2:45:47<56:28:55,  2.75s/it]                                                         {'loss': 0.0607, 'grad_norm': 0.3688119649887085, 'learning_rate': 1.7382499044707682e-05, 'epoch': 1.39}
  6%|▌         | 4552/78504 [2:45:47<56:28:55,  2.75s/it]  6%|▌         | 4553/78504 [2:45:50<53:48:47,  2.62s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.36010128259658813, 'learning_rate': 1.738632021398548e-05, 'epoch': 1.39}
  6%|▌         | 4553/78504 [2:45:50<53:48:47,  2.62s/it]  6%|▌         | 4554/78504 [2:45:52<50:44:01,  2.47s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.2716071903705597, 'learning_rate': 1.739014138326328e-05, 'epoch': 1.39}
  6%|▌         | 4554/78504 [2:45:52<50:44:01,  2.47s/it]  6%|▌         | 4555/78504 [2:45:54<48:59:50,  2.39s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.4262457489967346, 'learning_rate': 1.7393962552541078e-05, 'epoch': 1.39}
  6%|▌         | 4555/78504 [2:45:54<48:59:50,  2.39s/it]  6%|▌         | 4556/78504 [2:45:56<47:32:35,  2.31s/it]                                                         {'loss': 0.0952, 'grad_norm': 0.3398357033729553, 'learning_rate': 1.7397783721818877e-05, 'epoch': 1.39}
  6%|▌         | 4556/78504 [2:45:56<47:32:35,  2.31s/it]  6%|▌         | 4557/78504 [2:45:58<45:33:22,  2.22s/it]                                                         {'loss': 0.1148, 'grad_norm': 0.39480340480804443, 'learning_rate': 1.740160489109668e-05, 'epoch': 1.39}
  6%|▌         | 4557/78504 [2:45:58<45:33:22,  2.22s/it]  6%|▌         | 4558/78504 [2:46:00<43:03:10,  2.10s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.4079437255859375, 'learning_rate': 1.7405426060374478e-05, 'epoch': 1.39}
  6%|▌         | 4558/78504 [2:46:00<43:03:10,  2.10s/it]  6%|▌         | 4559/78504 [2:46:02<41:37:57,  2.03s/it]                                                         {'loss': 0.1584, 'grad_norm': 0.5739957094192505, 'learning_rate': 1.7409247229652277e-05, 'epoch': 1.39}
  6%|▌         | 4559/78504 [2:46:02<41:37:57,  2.03s/it]  6%|▌         | 4560/78504 [2:46:04<40:31:26,  1.97s/it]                                                         {'loss': 0.171, 'grad_norm': 0.7562238574028015, 'learning_rate': 1.7413068398930075e-05, 'epoch': 1.39}
  6%|▌         | 4560/78504 [2:46:04<40:31:26,  1.97s/it]  6%|▌         | 4561/78504 [2:46:05<39:02:02,  1.90s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.7060211300849915, 'learning_rate': 1.7416889568207874e-05, 'epoch': 1.39}
  6%|▌         | 4561/78504 [2:46:05<39:02:02,  1.90s/it]  6%|▌         | 4562/78504 [2:46:07<37:28:22,  1.82s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.5174992680549622, 'learning_rate': 1.7420710737485673e-05, 'epoch': 1.39}
  6%|▌         | 4562/78504 [2:46:07<37:28:22,  1.82s/it]  6%|▌         | 4563/78504 [2:46:09<35:46:11,  1.74s/it]                                                         {'loss': 0.1865, 'grad_norm': 0.6795030832290649, 'learning_rate': 1.742453190676347e-05, 'epoch': 1.39}
  6%|▌         | 4563/78504 [2:46:09<35:46:11,  1.74s/it]  6%|▌         | 4564/78504 [2:46:10<33:58:21,  1.65s/it]                                                         {'loss': 0.2245, 'grad_norm': 0.6605001091957092, 'learning_rate': 1.742835307604127e-05, 'epoch': 1.4}
  6%|▌         | 4564/78504 [2:46:10<33:58:21,  1.65s/it]  6%|▌         | 4565/78504 [2:46:12<32:28:38,  1.58s/it]                                                         {'loss': 0.214, 'grad_norm': 0.7283856868743896, 'learning_rate': 1.743217424531907e-05, 'epoch': 1.4}
  6%|▌         | 4565/78504 [2:46:12<32:28:38,  1.58s/it]  6%|▌         | 4566/78504 [2:46:13<30:42:06,  1.49s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.6759514808654785, 'learning_rate': 1.7435995414596868e-05, 'epoch': 1.4}
  6%|▌         | 4566/78504 [2:46:13<30:42:06,  1.49s/it]  6%|▌         | 4567/78504 [2:46:14<28:40:10,  1.40s/it]                                                         {'loss': 0.2077, 'grad_norm': 0.7059095501899719, 'learning_rate': 1.7439816583874667e-05, 'epoch': 1.4}
  6%|▌         | 4567/78504 [2:46:14<28:40:10,  1.40s/it]  6%|▌         | 4568/78504 [2:46:15<26:53:39,  1.31s/it]                                                         {'loss': 0.2638, 'grad_norm': 1.4016541242599487, 'learning_rate': 1.7443637753152465e-05, 'epoch': 1.4}
  6%|▌         | 4568/78504 [2:46:15<26:53:39,  1.31s/it]  6%|▌         | 4569/78504 [2:46:16<24:57:23,  1.22s/it]                                                         {'loss': 0.2848, 'grad_norm': 2.399240016937256, 'learning_rate': 1.7447458922430264e-05, 'epoch': 1.4}
  6%|▌         | 4569/78504 [2:46:16<24:57:23,  1.22s/it]  6%|▌         | 4570/78504 [2:46:17<23:13:04,  1.13s/it]                                                         {'loss': 0.2999, 'grad_norm': 1.2946960926055908, 'learning_rate': 1.7451280091708063e-05, 'epoch': 1.4}
  6%|▌         | 4570/78504 [2:46:17<23:13:04,  1.13s/it]  6%|▌         | 4571/78504 [2:46:18<21:01:32,  1.02s/it]                                                         {'loss': 0.2943, 'grad_norm': 1.1499744653701782, 'learning_rate': 1.745510126098586e-05, 'epoch': 1.4}
  6%|▌         | 4571/78504 [2:46:18<21:01:32,  1.02s/it]  6%|▌         | 4572/78504 [2:46:27<71:10:27,  3.47s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.5281968712806702, 'learning_rate': 1.745892243026366e-05, 'epoch': 1.4}
  6%|▌         | 4572/78504 [2:46:27<71:10:27,  3.47s/it]  6%|▌         | 4573/78504 [2:46:30<70:36:41,  3.44s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.32196298241615295, 'learning_rate': 1.7462743599541462e-05, 'epoch': 1.4}
  6%|▌         | 4573/78504 [2:46:30<70:36:41,  3.44s/it]  6%|▌         | 4574/78504 [2:46:33<67:59:58,  3.31s/it]                                                         {'loss': 0.0827, 'grad_norm': 0.3691723048686981, 'learning_rate': 1.746656476881926e-05, 'epoch': 1.4}
  6%|▌         | 4574/78504 [2:46:33<67:59:58,  3.31s/it]  6%|▌         | 4575/78504 [2:46:36<63:44:08,  3.10s/it]                                                         {'loss': 0.0702, 'grad_norm': 0.42651528120040894, 'learning_rate': 1.747038593809706e-05, 'epoch': 1.4}
  6%|▌         | 4575/78504 [2:46:36<63:44:08,  3.10s/it]  6%|▌         | 4576/78504 [2:46:38<59:09:40,  2.88s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.26535725593566895, 'learning_rate': 1.747420710737486e-05, 'epoch': 1.4}
  6%|▌         | 4576/78504 [2:46:38<59:09:40,  2.88s/it]  6%|▌         | 4577/78504 [2:46:41<54:58:05,  2.68s/it]                                                         {'loss': 0.0846, 'grad_norm': 0.440723180770874, 'learning_rate': 1.7478028276652657e-05, 'epoch': 1.4}
  6%|▌         | 4577/78504 [2:46:41<54:58:05,  2.68s/it]  6%|▌         | 4578/78504 [2:46:43<52:48:47,  2.57s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.4409097135066986, 'learning_rate': 1.7481849445930456e-05, 'epoch': 1.4}
  6%|▌         | 4578/78504 [2:46:43<52:48:47,  2.57s/it]  6%|▌         | 4579/78504 [2:46:45<49:51:36,  2.43s/it]                                                         {'loss': 0.0622, 'grad_norm': 0.3460056781768799, 'learning_rate': 1.7485670615208255e-05, 'epoch': 1.4}
  6%|▌         | 4579/78504 [2:46:45<49:51:36,  2.43s/it]  6%|▌         | 4580/78504 [2:46:47<47:27:09,  2.31s/it]                                                         {'loss': 0.115, 'grad_norm': 0.4511181712150574, 'learning_rate': 1.7489491784486054e-05, 'epoch': 1.4}
  6%|▌         | 4580/78504 [2:46:47<47:27:09,  2.31s/it]  6%|▌         | 4581/78504 [2:46:49<46:24:58,  2.26s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.43723994493484497, 'learning_rate': 1.7493312953763852e-05, 'epoch': 1.4}
  6%|▌         | 4581/78504 [2:46:49<46:24:58,  2.26s/it]  6%|▌         | 4582/78504 [2:46:51<44:57:57,  2.19s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.457193523645401, 'learning_rate': 1.749713412304165e-05, 'epoch': 1.4}
  6%|▌         | 4582/78504 [2:46:51<44:57:57,  2.19s/it]  6%|▌         | 4583/78504 [2:46:53<43:42:13,  2.13s/it]                                                         {'loss': 0.1121, 'grad_norm': 0.37365850806236267, 'learning_rate': 1.750095529231945e-05, 'epoch': 1.4}
  6%|▌         | 4583/78504 [2:46:53<43:42:13,  2.13s/it]  6%|▌         | 4584/78504 [2:46:55<42:11:51,  2.06s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.4125983715057373, 'learning_rate': 1.750477646159725e-05, 'epoch': 1.4}
  6%|▌         | 4584/78504 [2:46:55<42:11:51,  2.06s/it]  6%|▌         | 4585/78504 [2:46:57<41:02:49,  2.00s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.4373261034488678, 'learning_rate': 1.7508597630875047e-05, 'epoch': 1.4}
  6%|▌         | 4585/78504 [2:46:57<41:02:49,  2.00s/it]  6%|▌         | 4586/78504 [2:46:59<39:37:21,  1.93s/it]                                                         {'loss': 0.1525, 'grad_norm': 0.6425427198410034, 'learning_rate': 1.7512418800152846e-05, 'epoch': 1.4}
  6%|▌         | 4586/78504 [2:46:59<39:37:21,  1.93s/it]  6%|▌         | 4587/78504 [2:47:00<37:27:56,  1.82s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.815712034702301, 'learning_rate': 1.7516239969430645e-05, 'epoch': 1.4}
  6%|▌         | 4587/78504 [2:47:00<37:27:56,  1.82s/it]  6%|▌         | 4588/78504 [2:47:02<35:42:15,  1.74s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.7891057729721069, 'learning_rate': 1.7520061138708447e-05, 'epoch': 1.4}
  6%|▌         | 4588/78504 [2:47:02<35:42:15,  1.74s/it]  6%|▌         | 4589/78504 [2:47:03<34:06:50,  1.66s/it]                                                         {'loss': 0.1885, 'grad_norm': 1.1625258922576904, 'learning_rate': 1.7523882307986246e-05, 'epoch': 1.4}
  6%|▌         | 4589/78504 [2:47:03<34:06:50,  1.66s/it]  6%|▌         | 4590/78504 [2:47:05<32:30:04,  1.58s/it]                                                         {'loss': 0.1996, 'grad_norm': 0.6484590172767639, 'learning_rate': 1.7527703477264044e-05, 'epoch': 1.4}
  6%|▌         | 4590/78504 [2:47:05<32:30:04,  1.58s/it]  6%|▌         | 4591/78504 [2:47:06<30:40:29,  1.49s/it]                                                         {'loss': 0.188, 'grad_norm': 0.6809478998184204, 'learning_rate': 1.7531524646541843e-05, 'epoch': 1.4}
  6%|▌         | 4591/78504 [2:47:06<30:40:29,  1.49s/it]  6%|▌         | 4592/78504 [2:47:07<28:32:56,  1.39s/it]                                                         {'loss': 0.2532, 'grad_norm': 0.7825261950492859, 'learning_rate': 1.7535345815819642e-05, 'epoch': 1.4}
  6%|▌         | 4592/78504 [2:47:07<28:32:56,  1.39s/it]  6%|▌         | 4593/78504 [2:47:08<26:45:18,  1.30s/it]                                                         {'loss': 0.2186, 'grad_norm': 1.576154351234436, 'learning_rate': 1.753916698509744e-05, 'epoch': 1.4}
  6%|▌         | 4593/78504 [2:47:08<26:45:18,  1.30s/it]  6%|▌         | 4594/78504 [2:47:09<25:17:03,  1.23s/it]                                                         {'loss': 0.2221, 'grad_norm': 0.8604038953781128, 'learning_rate': 1.754298815437524e-05, 'epoch': 1.4}
  6%|▌         | 4594/78504 [2:47:09<25:17:03,  1.23s/it]  6%|▌         | 4595/78504 [2:47:10<23:28:29,  1.14s/it]                                                         {'loss': 0.2334, 'grad_norm': 1.469631552696228, 'learning_rate': 1.7546809323653038e-05, 'epoch': 1.4}
  6%|▌         | 4595/78504 [2:47:10<23:28:29,  1.14s/it]  6%|▌         | 4596/78504 [2:47:11<21:23:28,  1.04s/it]                                                         {'loss': 0.3739, 'grad_norm': 8.019762992858887, 'learning_rate': 1.7550630492930837e-05, 'epoch': 1.41}
  6%|▌         | 4596/78504 [2:47:11<21:23:28,  1.04s/it]  6%|▌         | 4597/78504 [2:47:21<73:37:37,  3.59s/it]                                                         {'loss': 0.208, 'grad_norm': 0.9803339838981628, 'learning_rate': 1.7554451662208636e-05, 'epoch': 1.41}
  6%|▌         | 4597/78504 [2:47:21<73:37:37,  3.59s/it]  6%|▌         | 4598/78504 [2:47:24<70:29:50,  3.43s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.3570702373981476, 'learning_rate': 1.7558272831486434e-05, 'epoch': 1.41}
  6%|▌         | 4598/78504 [2:47:24<70:29:50,  3.43s/it]  6%|▌         | 4599/78504 [2:47:27<67:23:09,  3.28s/it]                                                         {'loss': 0.0784, 'grad_norm': 0.35581618547439575, 'learning_rate': 1.7562094000764233e-05, 'epoch': 1.41}
  6%|▌         | 4599/78504 [2:47:27<67:23:09,  3.28s/it]  6%|▌         | 4600/78504 [2:47:29<63:02:54,  3.07s/it]                                                         {'loss': 0.0816, 'grad_norm': 0.4615285396575928, 'learning_rate': 1.7565915170042032e-05, 'epoch': 1.41}
  6%|▌         | 4600/78504 [2:47:29<63:02:54,  3.07s/it]  6%|▌         | 4601/78504 [2:47:32<59:27:32,  2.90s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.398980975151062, 'learning_rate': 1.756973633931983e-05, 'epoch': 1.41}
  6%|▌         | 4601/78504 [2:47:32<59:27:32,  2.90s/it]  6%|▌         | 4602/78504 [2:47:34<56:35:33,  2.76s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.3214224576950073, 'learning_rate': 1.757355750859763e-05, 'epoch': 1.41}
  6%|▌         | 4602/78504 [2:47:34<56:35:33,  2.76s/it]  6%|▌         | 4603/78504 [2:47:36<53:56:22,  2.63s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.3896554410457611, 'learning_rate': 1.7577378677875428e-05, 'epoch': 1.41}
  6%|▌         | 4603/78504 [2:47:36<53:56:22,  2.63s/it]  6%|▌         | 4604/78504 [2:47:38<50:47:34,  2.47s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.3923465311527252, 'learning_rate': 1.758119984715323e-05, 'epoch': 1.41}
  6%|▌         | 4604/78504 [2:47:38<50:47:34,  2.47s/it]  6%|▌         | 4605/78504 [2:47:41<49:00:14,  2.39s/it]                                                         {'loss': 0.0955, 'grad_norm': 0.3423735201358795, 'learning_rate': 1.758502101643103e-05, 'epoch': 1.41}
  6%|▌         | 4605/78504 [2:47:41<49:00:14,  2.39s/it]  6%|▌         | 4606/78504 [2:47:43<47:32:39,  2.32s/it]                                                         {'loss': 0.0956, 'grad_norm': 0.5946043729782104, 'learning_rate': 1.7588842185708828e-05, 'epoch': 1.41}
  6%|▌         | 4606/78504 [2:47:43<47:32:39,  2.32s/it]  6%|▌         | 4607/78504 [2:47:45<45:45:18,  2.23s/it]                                                         {'loss': 0.1307, 'grad_norm': 0.6458670496940613, 'learning_rate': 1.7592663354986626e-05, 'epoch': 1.41}
  6%|▌         | 4607/78504 [2:47:45<45:45:18,  2.23s/it]  6%|▌         | 4608/78504 [2:47:47<44:14:24,  2.16s/it]                                                         {'loss': 0.0964, 'grad_norm': 0.378852516412735, 'learning_rate': 1.7596484524264425e-05, 'epoch': 1.41}
  6%|▌         | 4608/78504 [2:47:47<44:14:24,  2.16s/it]  6%|▌         | 4609/78504 [2:47:49<42:30:14,  2.07s/it]                                                         {'loss': 0.13, 'grad_norm': 0.45373937487602234, 'learning_rate': 1.7600305693542224e-05, 'epoch': 1.41}
  6%|▌         | 4609/78504 [2:47:49<42:30:14,  2.07s/it]  6%|▌         | 4610/78504 [2:47:51<41:04:47,  2.00s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.4395017921924591, 'learning_rate': 1.7604126862820023e-05, 'epoch': 1.41}
  6%|▌         | 4610/78504 [2:47:51<41:04:47,  2.00s/it]  6%|▌         | 4611/78504 [2:47:52<39:28:11,  1.92s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.6549898982048035, 'learning_rate': 1.760794803209782e-05, 'epoch': 1.41}
  6%|▌         | 4611/78504 [2:47:52<39:28:11,  1.92s/it]  6%|▌         | 4612/78504 [2:47:54<37:45:32,  1.84s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.5252149105072021, 'learning_rate': 1.761176920137562e-05, 'epoch': 1.41}
  6%|▌         | 4612/78504 [2:47:54<37:45:32,  1.84s/it]  6%|▌         | 4613/78504 [2:47:55<35:56:52,  1.75s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.6094899773597717, 'learning_rate': 1.761559037065342e-05, 'epoch': 1.41}
  6%|▌         | 4613/78504 [2:47:55<35:56:52,  1.75s/it]  6%|▌         | 4614/78504 [2:47:57<34:09:38,  1.66s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.6282908320426941, 'learning_rate': 1.7619411539931218e-05, 'epoch': 1.41}
  6%|▌         | 4614/78504 [2:47:57<34:09:38,  1.66s/it]  6%|▌         | 4615/78504 [2:47:58<32:33:34,  1.59s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.6267551183700562, 'learning_rate': 1.7623232709209016e-05, 'epoch': 1.41}
  6%|▌         | 4615/78504 [2:47:58<32:33:34,  1.59s/it]  6%|▌         | 4616/78504 [2:48:00<30:44:52,  1.50s/it]                                                         {'loss': 0.2059, 'grad_norm': 1.6510655879974365, 'learning_rate': 1.7627053878486815e-05, 'epoch': 1.41}
  6%|▌         | 4616/78504 [2:48:00<30:44:52,  1.50s/it]  6%|▌         | 4617/78504 [2:48:01<28:36:38,  1.39s/it]                                                         {'loss': 0.2425, 'grad_norm': 2.5590100288391113, 'learning_rate': 1.7630875047764614e-05, 'epoch': 1.41}
  6%|▌         | 4617/78504 [2:48:01<28:36:38,  1.39s/it]  6%|▌         | 4618/78504 [2:48:02<26:40:38,  1.30s/it]                                                         {'loss': 0.2349, 'grad_norm': 1.0575021505355835, 'learning_rate': 1.7634696217042413e-05, 'epoch': 1.41}
  6%|▌         | 4618/78504 [2:48:02<26:40:38,  1.30s/it]  6%|▌         | 4619/78504 [2:48:03<25:11:39,  1.23s/it]                                                         {'loss': 0.2194, 'grad_norm': 1.2519627809524536, 'learning_rate': 1.7638517386320215e-05, 'epoch': 1.41}
  6%|▌         | 4619/78504 [2:48:03<25:11:39,  1.23s/it]  6%|▌         | 4620/78504 [2:48:04<23:23:19,  1.14s/it]                                                         {'loss': 0.2794, 'grad_norm': 1.1152992248535156, 'learning_rate': 1.7642338555598014e-05, 'epoch': 1.41}
  6%|▌         | 4620/78504 [2:48:04<23:23:19,  1.14s/it]  6%|▌         | 4621/78504 [2:48:05<21:12:38,  1.03s/it]                                                         {'loss': 0.3279, 'grad_norm': 1.5955861806869507, 'learning_rate': 1.7646159724875812e-05, 'epoch': 1.41}
  6%|▌         | 4621/78504 [2:48:05<21:12:38,  1.03s/it]  6%|▌         | 4622/78504 [2:48:15<77:36:22,  3.78s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.5006139278411865, 'learning_rate': 1.764998089415361e-05, 'epoch': 1.41}
  6%|▌         | 4622/78504 [2:48:15<77:36:22,  3.78s/it]  6%|▌         | 4623/78504 [2:48:18<75:03:44,  3.66s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.4028668701648712, 'learning_rate': 1.765380206343141e-05, 'epoch': 1.41}
  6%|▌         | 4623/78504 [2:48:18<75:03:44,  3.66s/it]  6%|▌         | 4624/78504 [2:48:21<70:34:04,  3.44s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.31953856348991394, 'learning_rate': 1.765762323270921e-05, 'epoch': 1.41}
  6%|▌         | 4624/78504 [2:48:21<70:34:04,  3.44s/it]  6%|▌         | 4625/78504 [2:48:24<64:45:13,  3.16s/it]                                                         {'loss': 0.1185, 'grad_norm': 1.2448453903198242, 'learning_rate': 1.7661444401987007e-05, 'epoch': 1.41}
  6%|▌         | 4625/78504 [2:48:24<64:45:13,  3.16s/it]  6%|▌         | 4626/78504 [2:48:26<60:33:11,  2.95s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.3105084002017975, 'learning_rate': 1.7665265571264806e-05, 'epoch': 1.41}
  6%|▌         | 4626/78504 [2:48:26<60:33:11,  2.95s/it]  6%|▌         | 4627/78504 [2:48:28<57:22:24,  2.80s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.4628404378890991, 'learning_rate': 1.7669086740542605e-05, 'epoch': 1.41}
  6%|▌         | 4627/78504 [2:48:29<57:22:24,  2.80s/it]  6%|▌         | 4628/78504 [2:48:31<54:27:21,  2.65s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.35880762338638306, 'learning_rate': 1.7672907909820404e-05, 'epoch': 1.41}
  6%|▌         | 4628/78504 [2:48:31<54:27:21,  2.65s/it]  6%|▌         | 4629/78504 [2:48:33<52:19:43,  2.55s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.3016505837440491, 'learning_rate': 1.7676729079098206e-05, 'epoch': 1.42}
  6%|▌         | 4629/78504 [2:48:33<52:19:43,  2.55s/it]  6%|▌         | 4630/78504 [2:48:35<50:08:09,  2.44s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3509964644908905, 'learning_rate': 1.7680550248376004e-05, 'epoch': 1.42}
  6%|▌         | 4630/78504 [2:48:35<50:08:09,  2.44s/it]  6%|▌         | 4631/78504 [2:48:37<48:29:02,  2.36s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.4818178415298462, 'learning_rate': 1.7684371417653803e-05, 'epoch': 1.42}
  6%|▌         | 4631/78504 [2:48:38<48:29:02,  2.36s/it]  6%|▌         | 4632/78504 [2:48:40<46:26:34,  2.26s/it]                                                         {'loss': 0.1358, 'grad_norm': 0.4501022696495056, 'learning_rate': 1.7688192586931602e-05, 'epoch': 1.42}
  6%|▌         | 4632/78504 [2:48:40<46:26:34,  2.26s/it]  6%|▌         | 4633/78504 [2:48:42<44:45:11,  2.18s/it]                                                         {'loss': 0.0906, 'grad_norm': 0.3604118824005127, 'learning_rate': 1.76920137562094e-05, 'epoch': 1.42}
  6%|▌         | 4633/78504 [2:48:42<44:45:11,  2.18s/it]  6%|▌         | 4634/78504 [2:48:43<42:54:44,  2.09s/it]                                                         {'loss': 0.13, 'grad_norm': 0.548575222492218, 'learning_rate': 1.76958349254872e-05, 'epoch': 1.42}
  6%|▌         | 4634/78504 [2:48:43<42:54:44,  2.09s/it]  6%|▌         | 4635/78504 [2:48:45<41:19:10,  2.01s/it]                                                         {'loss': 0.1649, 'grad_norm': 0.48882654309272766, 'learning_rate': 1.7699656094765e-05, 'epoch': 1.42}
  6%|▌         | 4635/78504 [2:48:45<41:19:10,  2.01s/it]  6%|▌         | 4636/78504 [2:48:47<39:08:47,  1.91s/it]                                                         {'loss': 0.1688, 'grad_norm': 0.5676580667495728, 'learning_rate': 1.77034772640428e-05, 'epoch': 1.42}
  6%|▌         | 4636/78504 [2:48:47<39:08:47,  1.91s/it]  6%|▌         | 4637/78504 [2:48:49<37:30:45,  1.83s/it]                                                         {'loss': 0.1708, 'grad_norm': 0.4961376488208771, 'learning_rate': 1.77072984333206e-05, 'epoch': 1.42}
  6%|▌         | 4637/78504 [2:48:49<37:30:45,  1.83s/it]  6%|▌         | 4638/78504 [2:48:50<35:45:48,  1.74s/it]                                                         {'loss': 0.2069, 'grad_norm': 0.663480281829834, 'learning_rate': 1.7711119602598398e-05, 'epoch': 1.42}
  6%|▌         | 4638/78504 [2:48:50<35:45:48,  1.74s/it]  6%|▌         | 4639/78504 [2:48:52<34:01:29,  1.66s/it]                                                         {'loss': 0.2417, 'grad_norm': 2.816117525100708, 'learning_rate': 1.7714940771876196e-05, 'epoch': 1.42}
  6%|▌         | 4639/78504 [2:48:52<34:01:29,  1.66s/it]  6%|▌         | 4640/78504 [2:48:53<32:32:47,  1.59s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.7621625661849976, 'learning_rate': 1.7718761941153995e-05, 'epoch': 1.42}
  6%|▌         | 4640/78504 [2:48:53<32:32:47,  1.59s/it]  6%|▌         | 4641/78504 [2:48:54<30:41:16,  1.50s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.7593342065811157, 'learning_rate': 1.7722583110431794e-05, 'epoch': 1.42}
  6%|▌         | 4641/78504 [2:48:54<30:41:16,  1.50s/it]  6%|▌         | 4642/78504 [2:48:55<28:34:27,  1.39s/it]                                                         {'loss': 0.233, 'grad_norm': 0.9401252865791321, 'learning_rate': 1.7726404279709593e-05, 'epoch': 1.42}
  6%|▌         | 4642/78504 [2:48:55<28:34:27,  1.39s/it]  6%|▌         | 4643/78504 [2:48:56<26:42:21,  1.30s/it]                                                         {'loss': 0.2165, 'grad_norm': 1.0323154926300049, 'learning_rate': 1.773022544898739e-05, 'epoch': 1.42}
  6%|▌         | 4643/78504 [2:48:57<26:42:21,  1.30s/it]  6%|▌         | 4644/78504 [2:48:58<25:11:20,  1.23s/it]                                                         {'loss': 0.2523, 'grad_norm': 1.115531086921692, 'learning_rate': 1.773404661826519e-05, 'epoch': 1.42}
  6%|▌         | 4644/78504 [2:48:58<25:11:20,  1.23s/it]  6%|▌         | 4645/78504 [2:48:58<23:22:56,  1.14s/it]                                                         {'loss': 0.2828, 'grad_norm': 1.3900129795074463, 'learning_rate': 1.773786778754299e-05, 'epoch': 1.42}
  6%|▌         | 4645/78504 [2:48:58<23:22:56,  1.14s/it]  6%|▌         | 4646/78504 [2:48:59<21:10:41,  1.03s/it]                                                         {'loss': 0.3225, 'grad_norm': 2.177528142929077, 'learning_rate': 1.7741688956820788e-05, 'epoch': 1.42}
  6%|▌         | 4646/78504 [2:48:59<21:10:41,  1.03s/it]  6%|▌         | 4647/78504 [2:49:07<62:10:28,  3.03s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.6194936633110046, 'learning_rate': 1.7745510126098586e-05, 'epoch': 1.42}
  6%|▌         | 4647/78504 [2:49:07<62:10:28,  3.03s/it]  6%|▌         | 4648/78504 [2:49:10<62:45:22,  3.06s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.3996970057487488, 'learning_rate': 1.7749331295376385e-05, 'epoch': 1.42}
  6%|▌         | 4648/78504 [2:49:10<62:45:22,  3.06s/it]  6%|▌         | 4649/78504 [2:49:13<62:19:31,  3.04s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.3539332151412964, 'learning_rate': 1.7753152464654184e-05, 'epoch': 1.42}
  6%|▌         | 4649/78504 [2:49:13<62:19:31,  3.04s/it]  6%|▌         | 4650/78504 [2:49:16<59:36:25,  2.91s/it]                                                         {'loss': 0.0654, 'grad_norm': 0.4072423577308655, 'learning_rate': 1.7756973633931983e-05, 'epoch': 1.42}
  6%|▌         | 4650/78504 [2:49:16<59:36:25,  2.91s/it]  6%|▌         | 4651/78504 [2:49:18<57:03:17,  2.78s/it]                                                         {'loss': 0.0741, 'grad_norm': 0.4960806965827942, 'learning_rate': 1.7760794803209785e-05, 'epoch': 1.42}
  6%|▌         | 4651/78504 [2:49:18<57:03:17,  2.78s/it]  6%|▌         | 4652/78504 [2:49:21<54:27:35,  2.65s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.4044349789619446, 'learning_rate': 1.7764615972487584e-05, 'epoch': 1.42}
  6%|▌         | 4652/78504 [2:49:21<54:27:35,  2.65s/it]  6%|▌         | 4653/78504 [2:49:23<52:30:17,  2.56s/it]                                                         {'loss': 0.0707, 'grad_norm': 0.27864620089530945, 'learning_rate': 1.7768437141765382e-05, 'epoch': 1.42}
  6%|▌         | 4653/78504 [2:49:23<52:30:17,  2.56s/it]  6%|▌         | 4654/78504 [2:49:25<49:36:18,  2.42s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.943559467792511, 'learning_rate': 1.777225831104318e-05, 'epoch': 1.42}
  6%|▌         | 4654/78504 [2:49:25<49:36:18,  2.42s/it]  6%|▌         | 4655/78504 [2:49:27<47:15:17,  2.30s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.37523677945137024, 'learning_rate': 1.777607948032098e-05, 'epoch': 1.42}
  6%|▌         | 4655/78504 [2:49:27<47:15:17,  2.30s/it]  6%|▌         | 4656/78504 [2:49:29<46:14:14,  2.25s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.4394600987434387, 'learning_rate': 1.777990064959878e-05, 'epoch': 1.42}
  6%|▌         | 4656/78504 [2:49:29<46:14:14,  2.25s/it]  6%|▌         | 4657/78504 [2:49:31<44:50:09,  2.19s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.5006345510482788, 'learning_rate': 1.7783721818876577e-05, 'epoch': 1.42}
  6%|▌         | 4657/78504 [2:49:31<44:50:09,  2.19s/it]  6%|▌         | 4658/78504 [2:49:33<43:35:46,  2.13s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.5094952583312988, 'learning_rate': 1.7787542988154376e-05, 'epoch': 1.42}
  6%|▌         | 4658/78504 [2:49:33<43:35:46,  2.13s/it]  6%|▌         | 4659/78504 [2:49:35<42:18:19,  2.06s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.5018875598907471, 'learning_rate': 1.7791364157432175e-05, 'epoch': 1.42}
  6%|▌         | 4659/78504 [2:49:35<42:18:19,  2.06s/it]  6%|▌         | 4660/78504 [2:49:37<41:14:40,  2.01s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.5363076329231262, 'learning_rate': 1.7795185326709974e-05, 'epoch': 1.42}
  6%|▌         | 4660/78504 [2:49:37<41:14:40,  2.01s/it]  6%|▌         | 4661/78504 [2:49:39<39:45:05,  1.94s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.5808166265487671, 'learning_rate': 1.7799006495987772e-05, 'epoch': 1.42}
  6%|▌         | 4661/78504 [2:49:39<39:45:05,  1.94s/it]  6%|▌         | 4662/78504 [2:49:40<37:55:23,  1.85s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.5310324430465698, 'learning_rate': 1.780282766526557e-05, 'epoch': 1.43}
  6%|▌         | 4662/78504 [2:49:40<37:55:23,  1.85s/it]  6%|▌         | 4663/78504 [2:49:42<36:04:17,  1.76s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.6702636480331421, 'learning_rate': 1.780664883454337e-05, 'epoch': 1.43}
  6%|▌         | 4663/78504 [2:49:42<36:04:17,  1.76s/it]  6%|▌         | 4664/78504 [2:49:43<34:20:17,  1.67s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.8907561898231506, 'learning_rate': 1.781047000382117e-05, 'epoch': 1.43}
  6%|▌         | 4664/78504 [2:49:43<34:20:17,  1.67s/it]  6%|▌         | 4665/78504 [2:49:45<32:45:26,  1.60s/it]                                                         {'loss': 0.2369, 'grad_norm': 0.7627171277999878, 'learning_rate': 1.7814291173098967e-05, 'epoch': 1.43}
  6%|▌         | 4665/78504 [2:49:45<32:45:26,  1.60s/it]  6%|▌         | 4666/78504 [2:49:46<30:48:54,  1.50s/it]                                                         {'loss': 0.2141, 'grad_norm': 0.9001628160476685, 'learning_rate': 1.781811234237677e-05, 'epoch': 1.43}
  6%|▌         | 4666/78504 [2:49:46<30:48:54,  1.50s/it]  6%|▌         | 4667/78504 [2:49:47<28:39:24,  1.40s/it]                                                         {'loss': 0.2116, 'grad_norm': 0.7132755517959595, 'learning_rate': 1.7821933511654568e-05, 'epoch': 1.43}
  6%|▌         | 4667/78504 [2:49:47<28:39:24,  1.40s/it]  6%|▌         | 4668/78504 [2:49:48<26:52:13,  1.31s/it]                                                         {'loss': 0.2468, 'grad_norm': 1.1921051740646362, 'learning_rate': 1.7825754680932367e-05, 'epoch': 1.43}
  6%|▌         | 4668/78504 [2:49:48<26:52:13,  1.31s/it]  6%|▌         | 4669/78504 [2:49:49<25:18:45,  1.23s/it]                                                         {'loss': 0.2893, 'grad_norm': 1.0621750354766846, 'learning_rate': 1.7829575850210166e-05, 'epoch': 1.43}
  6%|▌         | 4669/78504 [2:49:49<25:18:45,  1.23s/it]  6%|▌         | 4670/78504 [2:49:50<23:28:39,  1.14s/it]                                                         {'loss': 0.3076, 'grad_norm': 1.695202112197876, 'learning_rate': 1.7833397019487964e-05, 'epoch': 1.43}
  6%|▌         | 4670/78504 [2:49:50<23:28:39,  1.14s/it]  6%|▌         | 4671/78504 [2:49:51<21:12:03,  1.03s/it]                                                         {'loss': 0.358, 'grad_norm': 1.5169199705123901, 'learning_rate': 1.7837218188765763e-05, 'epoch': 1.43}
  6%|▌         | 4671/78504 [2:49:51<21:12:03,  1.03s/it]  6%|▌         | 4672/78504 [2:50:00<70:40:37,  3.45s/it]                                                         {'loss': 0.2195, 'grad_norm': 0.8725921511650085, 'learning_rate': 1.7841039358043562e-05, 'epoch': 1.43}
  6%|▌         | 4672/78504 [2:50:00<70:40:37,  3.45s/it]  6%|▌         | 4673/78504 [2:50:04<70:12:53,  3.42s/it]                                                         {'loss': 0.1047, 'grad_norm': 0.6261831521987915, 'learning_rate': 1.784486052732136e-05, 'epoch': 1.43}
  6%|▌         | 4673/78504 [2:50:04<70:12:53,  3.42s/it]  6%|▌         | 4674/78504 [2:50:06<64:58:18,  3.17s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.5940900444984436, 'learning_rate': 1.784868169659916e-05, 'epoch': 1.43}
  6%|▌         | 4674/78504 [2:50:06<64:58:18,  3.17s/it]  6%|▌         | 4675/78504 [2:50:09<61:34:00,  3.00s/it]                                                         {'loss': 0.0964, 'grad_norm': 0.46754786372184753, 'learning_rate': 1.7852502865876958e-05, 'epoch': 1.43}
  6%|▌         | 4675/78504 [2:50:09<61:34:00,  3.00s/it]  6%|▌         | 4676/78504 [2:50:11<58:19:24,  2.84s/it]                                                         {'loss': 0.0727, 'grad_norm': 0.4088723957538605, 'learning_rate': 1.7856324035154757e-05, 'epoch': 1.43}
  6%|▌         | 4676/78504 [2:50:11<58:19:24,  2.84s/it]  6%|▌         | 4677/78504 [2:50:13<54:48:30,  2.67s/it]                                                         {'loss': 0.0583, 'grad_norm': 0.32776710391044617, 'learning_rate': 1.7860145204432556e-05, 'epoch': 1.43}
  6%|▌         | 4677/78504 [2:50:13<54:48:30,  2.67s/it]  6%|▌         | 4678/78504 [2:50:16<52:39:33,  2.57s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.3067162334918976, 'learning_rate': 1.7863966373710354e-05, 'epoch': 1.43}
  6%|▌         | 4678/78504 [2:50:16<52:39:33,  2.57s/it]  6%|▌         | 4679/78504 [2:50:18<49:51:36,  2.43s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.3914501965045929, 'learning_rate': 1.7867787542988153e-05, 'epoch': 1.43}
  6%|▌         | 4679/78504 [2:50:18<49:51:36,  2.43s/it]  6%|▌         | 4680/78504 [2:50:20<48:19:57,  2.36s/it]                                                         {'loss': 0.0916, 'grad_norm': 0.3783588409423828, 'learning_rate': 1.7871608712265952e-05, 'epoch': 1.43}
  6%|▌         | 4680/78504 [2:50:20<48:19:57,  2.36s/it]  6%|▌         | 4681/78504 [2:50:22<47:13:32,  2.30s/it]                                                         {'loss': 0.0917, 'grad_norm': 0.48495280742645264, 'learning_rate': 1.7875429881543754e-05, 'epoch': 1.43}
  6%|▌         | 4681/78504 [2:50:22<47:13:32,  2.30s/it]  6%|▌         | 4682/78504 [2:50:24<44:28:00,  2.17s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.657866895198822, 'learning_rate': 1.7879251050821553e-05, 'epoch': 1.43}
  6%|▌         | 4682/78504 [2:50:24<44:28:00,  2.17s/it]  6%|▌         | 4683/78504 [2:50:26<43:20:02,  2.11s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.4402891993522644, 'learning_rate': 1.788307222009935e-05, 'epoch': 1.43}
  6%|▌         | 4683/78504 [2:50:26<43:20:02,  2.11s/it]  6%|▌         | 4684/78504 [2:50:28<42:09:43,  2.06s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5953347682952881, 'learning_rate': 1.788689338937715e-05, 'epoch': 1.43}
  6%|▌         | 4684/78504 [2:50:28<42:09:43,  2.06s/it]  6%|▌         | 4685/78504 [2:50:30<41:04:18,  2.00s/it]                                                         {'loss': 0.1298, 'grad_norm': 0.5702515840530396, 'learning_rate': 1.789071455865495e-05, 'epoch': 1.43}
  6%|▌         | 4685/78504 [2:50:30<41:04:18,  2.00s/it]  6%|▌         | 4686/78504 [2:50:32<39:35:29,  1.93s/it]                                                         {'loss': 0.1471, 'grad_norm': 0.6593410968780518, 'learning_rate': 1.7894535727932748e-05, 'epoch': 1.43}
  6%|▌         | 4686/78504 [2:50:32<39:35:29,  1.93s/it]  6%|▌         | 4687/78504 [2:50:33<37:53:50,  1.85s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.8355332016944885, 'learning_rate': 1.7898356897210546e-05, 'epoch': 1.43}
  6%|▌         | 4687/78504 [2:50:33<37:53:50,  1.85s/it]  6%|▌         | 4688/78504 [2:50:35<36:01:09,  1.76s/it]                                                         {'loss': 0.1744, 'grad_norm': 0.7185826897621155, 'learning_rate': 1.7902178066488345e-05, 'epoch': 1.43}
  6%|▌         | 4688/78504 [2:50:35<36:01:09,  1.76s/it]  6%|▌         | 4689/78504 [2:50:36<34:12:35,  1.67s/it]                                                         {'loss': 0.1843, 'grad_norm': 1.0748711824417114, 'learning_rate': 1.7905999235766144e-05, 'epoch': 1.43}
  6%|▌         | 4689/78504 [2:50:36<34:12:35,  1.67s/it]  6%|▌         | 4690/78504 [2:50:38<32:40:29,  1.59s/it]                                                         {'loss': 0.2015, 'grad_norm': 1.2485425472259521, 'learning_rate': 1.7909820405043943e-05, 'epoch': 1.43}
  6%|▌         | 4690/78504 [2:50:38<32:40:29,  1.59s/it]  6%|▌         | 4691/78504 [2:50:39<30:45:56,  1.50s/it]                                                         {'loss': 0.2437, 'grad_norm': 0.7532191872596741, 'learning_rate': 1.791364157432174e-05, 'epoch': 1.43}
  6%|▌         | 4691/78504 [2:50:39<30:45:56,  1.50s/it]  6%|▌         | 4692/78504 [2:50:40<28:35:01,  1.39s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.2150012254714966, 'learning_rate': 1.791746274359954e-05, 'epoch': 1.43}
  6%|▌         | 4692/78504 [2:50:40<28:35:01,  1.39s/it]  6%|▌         | 4693/78504 [2:50:41<26:42:35,  1.30s/it]                                                         {'loss': 0.2541, 'grad_norm': 1.4534136056900024, 'learning_rate': 1.792128391287734e-05, 'epoch': 1.43}
  6%|▌         | 4693/78504 [2:50:41<26:42:35,  1.30s/it]  6%|▌         | 4694/78504 [2:50:42<24:52:07,  1.21s/it]                                                         {'loss': 0.2229, 'grad_norm': 1.3246939182281494, 'learning_rate': 1.7925105082155138e-05, 'epoch': 1.44}
  6%|▌         | 4694/78504 [2:50:42<24:52:07,  1.21s/it]  6%|▌         | 4695/78504 [2:50:43<23:11:00,  1.13s/it]                                                         {'loss': 0.2236, 'grad_norm': 1.219861626625061, 'learning_rate': 1.7928926251432936e-05, 'epoch': 1.44}
  6%|▌         | 4695/78504 [2:50:43<23:11:00,  1.13s/it]  6%|▌         | 4696/78504 [2:50:44<20:59:53,  1.02s/it]                                                         {'loss': 0.3318, 'grad_norm': 2.3420095443725586, 'learning_rate': 1.7932747420710735e-05, 'epoch': 1.44}
  6%|▌         | 4696/78504 [2:50:44<20:59:53,  1.02s/it]  6%|▌         | 4697/78504 [2:50:52<66:23:06,  3.24s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.5687587857246399, 'learning_rate': 1.7936568589988537e-05, 'epoch': 1.44}
  6%|▌         | 4697/78504 [2:50:52<66:23:06,  3.24s/it]  6%|▌         | 4698/78504 [2:50:56<67:08:04,  3.27s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.39435166120529175, 'learning_rate': 1.7940389759266336e-05, 'epoch': 1.44}
  6%|▌         | 4698/78504 [2:50:56<67:08:04,  3.27s/it]  6%|▌         | 4699/78504 [2:50:59<64:57:44,  3.17s/it]                                                         {'loss': 0.115, 'grad_norm': 0.3659171462059021, 'learning_rate': 1.7944210928544135e-05, 'epoch': 1.44}
  6%|▌         | 4699/78504 [2:50:59<64:57:44,  3.17s/it]  6%|▌         | 4700/78504 [2:51:01<61:22:30,  2.99s/it]                                                         {'loss': 0.094, 'grad_norm': 0.3536880314350128, 'learning_rate': 1.7948032097821933e-05, 'epoch': 1.44}
  6%|▌         | 4700/78504 [2:51:01<61:22:30,  2.99s/it]  6%|▌         | 4701/78504 [2:51:04<58:18:43,  2.84s/it]                                                         {'loss': 0.08, 'grad_norm': 0.3956393301486969, 'learning_rate': 1.7951853267099732e-05, 'epoch': 1.44}
  6%|▌         | 4701/78504 [2:51:04<58:18:43,  2.84s/it]  6%|▌         | 4702/78504 [2:51:06<55:56:10,  2.73s/it]                                                         {'loss': 0.0918, 'grad_norm': 0.2964639365673065, 'learning_rate': 1.795567443637753e-05, 'epoch': 1.44}
  6%|▌         | 4702/78504 [2:51:06<55:56:10,  2.73s/it]  6%|▌         | 4703/78504 [2:51:09<53:28:33,  2.61s/it]                                                         {'loss': 0.0704, 'grad_norm': 0.31973251700401306, 'learning_rate': 1.795949560565533e-05, 'epoch': 1.44}
  6%|▌         | 4703/78504 [2:51:09<53:28:33,  2.61s/it]  6%|▌         | 4704/78504 [2:51:11<51:37:14,  2.52s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.3275454044342041, 'learning_rate': 1.796331677493313e-05, 'epoch': 1.44}
  6%|▌         | 4704/78504 [2:51:11<51:37:14,  2.52s/it]  6%|▌         | 4705/78504 [2:51:13<48:46:28,  2.38s/it]                                                         {'loss': 0.113, 'grad_norm': 0.3812078535556793, 'learning_rate': 1.7967137944210927e-05, 'epoch': 1.44}
  6%|▌         | 4705/78504 [2:51:13<48:46:28,  2.38s/it]  6%|▌         | 4706/78504 [2:51:15<47:20:40,  2.31s/it]                                                         {'loss': 0.095, 'grad_norm': 0.35720640420913696, 'learning_rate': 1.797095911348873e-05, 'epoch': 1.44}
  6%|▌         | 4706/78504 [2:51:15<47:20:40,  2.31s/it]  6%|▌         | 4707/78504 [2:51:17<45:04:47,  2.20s/it]                                                         {'loss': 0.1391, 'grad_norm': 0.49700450897216797, 'learning_rate': 1.7974780282766528e-05, 'epoch': 1.44}
  6%|▌         | 4707/78504 [2:51:17<45:04:47,  2.20s/it]  6%|▌         | 4708/78504 [2:51:19<43:48:01,  2.14s/it]                                                         {'loss': 0.0969, 'grad_norm': 1.0787618160247803, 'learning_rate': 1.7978601452044327e-05, 'epoch': 1.44}
  6%|▌         | 4708/78504 [2:51:19<43:48:01,  2.14s/it]  6%|▌         | 4709/78504 [2:51:21<41:40:27,  2.03s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.7504636645317078, 'learning_rate': 1.7982422621322126e-05, 'epoch': 1.44}
  6%|▌         | 4709/78504 [2:51:21<41:40:27,  2.03s/it]  6%|▌         | 4710/78504 [2:51:23<40:50:06,  1.99s/it]                                                         {'loss': 0.1291, 'grad_norm': 0.49464157223701477, 'learning_rate': 1.7986243790599924e-05, 'epoch': 1.44}
  6%|▌         | 4710/78504 [2:51:23<40:50:06,  1.99s/it]  6%|▌         | 4711/78504 [2:51:24<39:27:38,  1.93s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.7107617259025574, 'learning_rate': 1.7990064959877723e-05, 'epoch': 1.44}
  6%|▌         | 4711/78504 [2:51:24<39:27:38,  1.93s/it]  6%|▌         | 4712/78504 [2:51:26<37:45:37,  1.84s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.5649733543395996, 'learning_rate': 1.7993886129155522e-05, 'epoch': 1.44}
  6%|▌         | 4712/78504 [2:51:26<37:45:37,  1.84s/it]  6%|▌         | 4713/78504 [2:51:28<35:54:25,  1.75s/it]                                                         {'loss': 0.1592, 'grad_norm': 1.209567666053772, 'learning_rate': 1.7997707298433324e-05, 'epoch': 1.44}
  6%|▌         | 4713/78504 [2:51:28<35:54:25,  1.75s/it]  6%|▌         | 4714/78504 [2:51:29<34:11:26,  1.67s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.6078881621360779, 'learning_rate': 1.8001528467711123e-05, 'epoch': 1.44}
  6%|▌         | 4714/78504 [2:51:29<34:11:26,  1.67s/it]  6%|▌         | 4715/78504 [2:51:30<32:30:33,  1.59s/it]                                                         {'loss': 0.2109, 'grad_norm': 0.8542225360870361, 'learning_rate': 1.800534963698892e-05, 'epoch': 1.44}
  6%|▌         | 4715/78504 [2:51:31<32:30:33,  1.59s/it]  6%|▌         | 4716/78504 [2:51:32<30:38:07,  1.49s/it]                                                         {'loss': 0.217, 'grad_norm': 0.8394019603729248, 'learning_rate': 1.800917080626672e-05, 'epoch': 1.44}
  6%|▌         | 4716/78504 [2:51:32<30:38:07,  1.49s/it]  6%|▌         | 4717/78504 [2:51:33<28:32:08,  1.39s/it]                                                         {'loss': 0.235, 'grad_norm': 0.7614290714263916, 'learning_rate': 1.801299197554452e-05, 'epoch': 1.44}
  6%|▌         | 4717/78504 [2:51:33<28:32:08,  1.39s/it]  6%|▌         | 4718/78504 [2:51:34<26:39:44,  1.30s/it]                                                         {'loss': 0.2569, 'grad_norm': 1.1122053861618042, 'learning_rate': 1.8016813144822318e-05, 'epoch': 1.44}
  6%|▌         | 4718/78504 [2:51:34<26:39:44,  1.30s/it]  6%|▌         | 4719/78504 [2:51:35<24:44:02,  1.21s/it]                                                         {'loss': 0.2441, 'grad_norm': 0.9465113878250122, 'learning_rate': 1.8020634314100116e-05, 'epoch': 1.44}
  6%|▌         | 4719/78504 [2:51:35<24:44:02,  1.21s/it]  6%|▌         | 4720/78504 [2:51:36<22:59:26,  1.12s/it]                                                         {'loss': 0.2438, 'grad_norm': 1.1661317348480225, 'learning_rate': 1.8024455483377915e-05, 'epoch': 1.44}
  6%|▌         | 4720/78504 [2:51:36<22:59:26,  1.12s/it]  6%|▌         | 4721/78504 [2:51:37<20:42:13,  1.01s/it]                                                         {'loss': 0.3453, 'grad_norm': 1.5605053901672363, 'learning_rate': 1.8028276652655714e-05, 'epoch': 1.44}
  6%|▌         | 4721/78504 [2:51:37<20:42:13,  1.01s/it]  6%|▌         | 4722/78504 [2:51:46<74:35:38,  3.64s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.5038012266159058, 'learning_rate': 1.8032097821933513e-05, 'epoch': 1.44}
  6%|▌         | 4722/78504 [2:51:46<74:35:38,  3.64s/it]  6%|▌         | 4723/78504 [2:51:50<72:32:16,  3.54s/it]                                                         {'loss': 0.0934, 'grad_norm': 0.3254985809326172, 'learning_rate': 1.803591899121131e-05, 'epoch': 1.44}
  6%|▌         | 4723/78504 [2:51:50<72:32:16,  3.54s/it]  6%|▌         | 4724/78504 [2:51:53<69:17:58,  3.38s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.7147448062896729, 'learning_rate': 1.803974016048911e-05, 'epoch': 1.44}
  6%|▌         | 4724/78504 [2:51:53<69:17:58,  3.38s/it]  6%|▌         | 4725/78504 [2:51:55<64:36:04,  3.15s/it]                                                         {'loss': 0.0957, 'grad_norm': 0.45063379406929016, 'learning_rate': 1.804356132976691e-05, 'epoch': 1.44}
  6%|▌         | 4725/78504 [2:51:55<64:36:04,  3.15s/it]  6%|▌         | 4726/78504 [2:51:58<60:25:40,  2.95s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.3793570399284363, 'learning_rate': 1.8047382499044708e-05, 'epoch': 1.44}
  6%|▌         | 4726/78504 [2:51:58<60:25:40,  2.95s/it]  6%|▌         | 4727/78504 [2:52:00<57:15:50,  2.79s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.5148293972015381, 'learning_rate': 1.8051203668322506e-05, 'epoch': 1.45}
  6%|▌         | 4727/78504 [2:52:00<57:15:50,  2.79s/it]  6%|▌         | 4728/78504 [2:52:03<54:20:42,  2.65s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.41508421301841736, 'learning_rate': 1.805502483760031e-05, 'epoch': 1.45}
  6%|▌         | 4728/78504 [2:52:03<54:20:42,  2.65s/it]  6%|▌         | 4729/78504 [2:52:05<51:02:18,  2.49s/it]                                                         {'loss': 0.0829, 'grad_norm': 0.38273510336875916, 'learning_rate': 1.8058846006878107e-05, 'epoch': 1.45}
  6%|▌         | 4729/78504 [2:52:05<51:02:18,  2.49s/it]  6%|▌         | 4730/78504 [2:52:07<49:10:39,  2.40s/it]                                                         {'loss': 0.0997, 'grad_norm': 0.43832889199256897, 'learning_rate': 1.8062667176155906e-05, 'epoch': 1.45}
  6%|▌         | 4730/78504 [2:52:07<49:10:39,  2.40s/it]  6%|▌         | 4731/78504 [2:52:09<47:44:08,  2.33s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.412302166223526, 'learning_rate': 1.8066488345433705e-05, 'epoch': 1.45}
  6%|▌         | 4731/78504 [2:52:09<47:44:08,  2.33s/it]  6%|▌         | 4732/78504 [2:52:11<45:53:51,  2.24s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.5135859251022339, 'learning_rate': 1.8070309514711503e-05, 'epoch': 1.45}
  6%|▌         | 4732/78504 [2:52:11<45:53:51,  2.24s/it]  6%|▌         | 4733/78504 [2:52:13<44:21:44,  2.16s/it]                                                         {'loss': 0.1025, 'grad_norm': 0.47645649313926697, 'learning_rate': 1.8074130683989302e-05, 'epoch': 1.45}
  6%|▌         | 4733/78504 [2:52:13<44:21:44,  2.16s/it]  6%|▌         | 4734/78504 [2:52:15<42:37:30,  2.08s/it]                                                         {'loss': 0.1321, 'grad_norm': 0.3564198911190033, 'learning_rate': 1.80779518532671e-05, 'epoch': 1.45}
  6%|▌         | 4734/78504 [2:52:15<42:37:30,  2.08s/it]  6%|▌         | 4735/78504 [2:52:17<41:20:35,  2.02s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.6105384230613708, 'learning_rate': 1.80817730225449e-05, 'epoch': 1.45}
  6%|▌         | 4735/78504 [2:52:17<41:20:35,  2.02s/it]  6%|▌         | 4736/78504 [2:52:19<39:47:53,  1.94s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.7059176564216614, 'learning_rate': 1.80855941918227e-05, 'epoch': 1.45}
  6%|▌         | 4736/78504 [2:52:19<39:47:53,  1.94s/it]  6%|▌         | 4737/78504 [2:52:20<37:33:47,  1.83s/it]                                                         {'loss': 0.1982, 'grad_norm': 0.8438656330108643, 'learning_rate': 1.8089415361100497e-05, 'epoch': 1.45}
  6%|▌         | 4737/78504 [2:52:20<37:33:47,  1.83s/it]  6%|▌         | 4738/78504 [2:52:22<35:46:22,  1.75s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.6564850807189941, 'learning_rate': 1.8093236530378296e-05, 'epoch': 1.45}
  6%|▌         | 4738/78504 [2:52:22<35:46:22,  1.75s/it]  6%|▌         | 4739/78504 [2:52:23<34:05:24,  1.66s/it]                                                         {'loss': 0.2411, 'grad_norm': 0.801173210144043, 'learning_rate': 1.8097057699656095e-05, 'epoch': 1.45}
  6%|▌         | 4739/78504 [2:52:23<34:05:24,  1.66s/it]  6%|▌         | 4740/78504 [2:52:25<32:30:13,  1.59s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.5952441692352295, 'learning_rate': 1.8100878868933893e-05, 'epoch': 1.45}
  6%|▌         | 4740/78504 [2:52:25<32:30:13,  1.59s/it]  6%|▌         | 4741/78504 [2:52:26<30:38:56,  1.50s/it]                                                         {'loss': 0.2441, 'grad_norm': 1.0777703523635864, 'learning_rate': 1.8104700038211692e-05, 'epoch': 1.45}
  6%|▌         | 4741/78504 [2:52:26<30:38:56,  1.50s/it]  6%|▌         | 4742/78504 [2:52:27<28:31:27,  1.39s/it]                                                         {'loss': 0.1968, 'grad_norm': 1.1632254123687744, 'learning_rate': 1.810852120748949e-05, 'epoch': 1.45}
  6%|▌         | 4742/78504 [2:52:27<28:31:27,  1.39s/it]  6%|▌         | 4743/78504 [2:52:28<26:42:27,  1.30s/it]                                                         {'loss': 0.2237, 'grad_norm': 1.1337885856628418, 'learning_rate': 1.811234237676729e-05, 'epoch': 1.45}
  6%|▌         | 4743/78504 [2:52:28<26:42:27,  1.30s/it]  6%|▌         | 4744/78504 [2:52:29<25:23:33,  1.24s/it]                                                         {'loss': 0.2197, 'grad_norm': 0.9987307786941528, 'learning_rate': 1.8116163546045092e-05, 'epoch': 1.45}
  6%|▌         | 4744/78504 [2:52:29<25:23:33,  1.24s/it]  6%|▌         | 4745/78504 [2:52:30<23:29:06,  1.15s/it]                                                         {'loss': 0.2723, 'grad_norm': 1.3166805505752563, 'learning_rate': 1.811998471532289e-05, 'epoch': 1.45}
  6%|▌         | 4745/78504 [2:52:30<23:29:06,  1.15s/it]  6%|▌         | 4746/78504 [2:52:31<21:16:03,  1.04s/it]                                                         {'loss': 0.3209, 'grad_norm': 1.9564414024353027, 'learning_rate': 1.812380588460069e-05, 'epoch': 1.45}
  6%|▌         | 4746/78504 [2:52:31<21:16:03,  1.04s/it]  6%|▌         | 4747/78504 [2:52:41<73:57:02,  3.61s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.4108181297779083, 'learning_rate': 1.8127627053878488e-05, 'epoch': 1.45}
  6%|▌         | 4747/78504 [2:52:41<73:57:02,  3.61s/it]  6%|▌         | 4748/78504 [2:52:44<72:07:02,  3.52s/it]                                                         {'loss': 0.1146, 'grad_norm': 0.3787122070789337, 'learning_rate': 1.8131448223156287e-05, 'epoch': 1.45}
  6%|▌         | 4748/78504 [2:52:44<72:07:02,  3.52s/it]  6%|▌         | 4749/78504 [2:52:47<68:52:05,  3.36s/it]                                                         {'loss': 0.1064, 'grad_norm': 0.5030591487884521, 'learning_rate': 1.8135269392434086e-05, 'epoch': 1.45}
  6%|▌         | 4749/78504 [2:52:47<68:52:05,  3.36s/it]  6%|▌         | 4750/78504 [2:52:49<64:18:37,  3.14s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.31488728523254395, 'learning_rate': 1.8139090561711884e-05, 'epoch': 1.45}
  6%|▌         | 4750/78504 [2:52:50<64:18:37,  3.14s/it]  6%|▌         | 4751/78504 [2:52:52<60:13:26,  2.94s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.9717572331428528, 'learning_rate': 1.8142911730989683e-05, 'epoch': 1.45}
  6%|▌         | 4751/78504 [2:52:52<60:13:26,  2.94s/it]  6%|▌         | 4752/78504 [2:52:54<56:05:51,  2.74s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.3432055711746216, 'learning_rate': 1.8146732900267482e-05, 'epoch': 1.45}
  6%|▌         | 4752/78504 [2:52:54<56:05:51,  2.74s/it]  6%|▌         | 4753/78504 [2:52:57<53:34:12,  2.61s/it]                                                         {'loss': 0.0558, 'grad_norm': 0.2905144989490509, 'learning_rate': 1.815055406954528e-05, 'epoch': 1.45}
  6%|▌         | 4753/78504 [2:52:57<53:34:12,  2.61s/it]  6%|▌         | 4754/78504 [2:52:59<50:23:17,  2.46s/it]                                                         {'loss': 0.0862, 'grad_norm': 0.3459246754646301, 'learning_rate': 1.815437523882308e-05, 'epoch': 1.45}
  6%|▌         | 4754/78504 [2:52:59<50:23:17,  2.46s/it]  6%|▌         | 4755/78504 [2:53:01<48:44:05,  2.38s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.432081013917923, 'learning_rate': 1.8158196408100878e-05, 'epoch': 1.45}
  6%|▌         | 4755/78504 [2:53:01<48:44:05,  2.38s/it]  6%|▌         | 4756/78504 [2:53:03<47:18:00,  2.31s/it]                                                         {'loss': 0.0804, 'grad_norm': 0.4055587649345398, 'learning_rate': 1.8162017577378677e-05, 'epoch': 1.45}
  6%|▌         | 4756/78504 [2:53:03<47:18:00,  2.31s/it]  6%|▌         | 4757/78504 [2:53:05<45:33:54,  2.22s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.5259325504302979, 'learning_rate': 1.8165838746656475e-05, 'epoch': 1.45}
  6%|▌         | 4757/78504 [2:53:05<45:33:54,  2.22s/it]  6%|▌         | 4758/78504 [2:53:07<44:05:32,  2.15s/it]                                                         {'loss': 0.1311, 'grad_norm': 0.5198450684547424, 'learning_rate': 1.8169659915934274e-05, 'epoch': 1.45}
  6%|▌         | 4758/78504 [2:53:07<44:05:32,  2.15s/it]  6%|▌         | 4759/78504 [2:53:09<42:41:38,  2.08s/it]                                                         {'loss': 0.1033, 'grad_norm': 0.5156076550483704, 'learning_rate': 1.8173481085212076e-05, 'epoch': 1.45}
  6%|▌         | 4759/78504 [2:53:09<42:41:38,  2.08s/it]  6%|▌         | 4760/78504 [2:53:11<41:18:35,  2.02s/it]                                                         {'loss': 0.1362, 'grad_norm': 1.8685141801834106, 'learning_rate': 1.8177302254489875e-05, 'epoch': 1.46}
  6%|▌         | 4760/78504 [2:53:11<41:18:35,  2.02s/it]  6%|▌         | 4761/78504 [2:53:13<39:49:37,  1.94s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.7285293936729431, 'learning_rate': 1.8181123423767674e-05, 'epoch': 1.46}
  6%|▌         | 4761/78504 [2:53:13<39:49:37,  1.94s/it]  6%|▌         | 4762/78504 [2:53:14<37:40:25,  1.84s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.6753525137901306, 'learning_rate': 1.8184944593045473e-05, 'epoch': 1.46}
  6%|▌         | 4762/78504 [2:53:14<37:40:25,  1.84s/it]  6%|▌         | 4763/78504 [2:53:16<35:50:45,  1.75s/it]                                                         {'loss': 0.1902, 'grad_norm': 0.7339290380477905, 'learning_rate': 1.818876576232327e-05, 'epoch': 1.46}
  6%|▌         | 4763/78504 [2:53:16<35:50:45,  1.75s/it]  6%|▌         | 4764/78504 [2:53:17<34:23:17,  1.68s/it]                                                         {'loss': 0.2124, 'grad_norm': 0.7651944160461426, 'learning_rate': 1.819258693160107e-05, 'epoch': 1.46}
  6%|▌         | 4764/78504 [2:53:17<34:23:17,  1.68s/it]  6%|▌         | 4765/78504 [2:53:19<32:37:25,  1.59s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.7182425856590271, 'learning_rate': 1.819640810087887e-05, 'epoch': 1.46}
  6%|▌         | 4765/78504 [2:53:19<32:37:25,  1.59s/it]  6%|▌         | 4766/78504 [2:53:20<30:44:16,  1.50s/it]                                                         {'loss': 0.2436, 'grad_norm': 0.9341498017311096, 'learning_rate': 1.8200229270156668e-05, 'epoch': 1.46}
  6%|▌         | 4766/78504 [2:53:20<30:44:16,  1.50s/it]  6%|▌         | 4767/78504 [2:53:21<28:39:27,  1.40s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.0129387378692627, 'learning_rate': 1.8204050439434466e-05, 'epoch': 1.46}
  6%|▌         | 4767/78504 [2:53:21<28:39:27,  1.40s/it]  6%|▌         | 4768/78504 [2:53:22<26:43:26,  1.30s/it]                                                         {'loss': 0.2394, 'grad_norm': 1.851635456085205, 'learning_rate': 1.8207871608712265e-05, 'epoch': 1.46}
  6%|▌         | 4768/78504 [2:53:22<26:43:26,  1.30s/it]  6%|▌         | 4769/78504 [2:53:23<25:16:32,  1.23s/it]                                                         {'loss': 0.2607, 'grad_norm': nan, 'learning_rate': 1.8207871608712265e-05, 'epoch': 1.46}
  6%|▌         | 4769/78504 [2:53:23<25:16:32,  1.23s/it]  6%|▌         | 4770/78504 [2:53:24<23:20:51,  1.14s/it]                                                         {'loss': 0.2412, 'grad_norm': 1.373154878616333, 'learning_rate': 1.8211692777990064e-05, 'epoch': 1.46}
  6%|▌         | 4770/78504 [2:53:24<23:20:51,  1.14s/it]  6%|▌         | 4771/78504 [2:53:25<21:11:28,  1.03s/it]                                                         {'loss': 0.3537, 'grad_norm': 1.4282996654510498, 'learning_rate': 1.8215513947267863e-05, 'epoch': 1.46}
  6%|▌         | 4771/78504 [2:53:25<21:11:28,  1.03s/it]  6%|▌         | 4772/78504 [2:53:35<76:59:37,  3.76s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.5283370018005371, 'learning_rate': 1.821933511654566e-05, 'epoch': 1.46}
  6%|▌         | 4772/78504 [2:53:35<76:59:37,  3.76s/it]  6%|▌         | 4773/78504 [2:53:38<72:38:10,  3.55s/it]                                                         {'loss': 0.1045, 'grad_norm': 0.28918400406837463, 'learning_rate': 1.822315628582346e-05, 'epoch': 1.46}
  6%|▌         | 4773/78504 [2:53:38<72:38:10,  3.55s/it]  6%|▌         | 4774/78504 [2:53:41<69:11:42,  3.38s/it]                                                         {'loss': 0.1091, 'grad_norm': 0.4846096634864807, 'learning_rate': 1.822697745510126e-05, 'epoch': 1.46}
  6%|▌         | 4774/78504 [2:53:41<69:11:42,  3.38s/it]  6%|▌         | 4775/78504 [2:53:44<64:30:05,  3.15s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.45258641242980957, 'learning_rate': 1.8230798624379058e-05, 'epoch': 1.46}
  6%|▌         | 4775/78504 [2:53:44<64:30:05,  3.15s/it]  6%|▌         | 4776/78504 [2:53:46<60:20:11,  2.95s/it]                                                         {'loss': 0.0681, 'grad_norm': 0.2858901619911194, 'learning_rate': 1.823461979365686e-05, 'epoch': 1.46}
  6%|▌         | 4776/78504 [2:53:46<60:20:11,  2.95s/it]  6%|▌         | 4777/78504 [2:53:48<56:09:19,  2.74s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.3028877377510071, 'learning_rate': 1.823844096293466e-05, 'epoch': 1.46}
  6%|▌         | 4777/78504 [2:53:48<56:09:19,  2.74s/it]  6%|▌         | 4778/78504 [2:53:51<53:34:45,  2.62s/it]                                                         {'loss': 0.0814, 'grad_norm': 0.34226107597351074, 'learning_rate': 1.8242262132212457e-05, 'epoch': 1.46}
  6%|▌         | 4778/78504 [2:53:51<53:34:45,  2.62s/it]  6%|▌         | 4779/78504 [2:53:53<50:23:09,  2.46s/it]                                                         {'loss': 0.082, 'grad_norm': 0.31792035698890686, 'learning_rate': 1.8246083301490256e-05, 'epoch': 1.46}
  6%|▌         | 4779/78504 [2:53:53<50:23:09,  2.46s/it]  6%|▌         | 4780/78504 [2:53:55<48:41:18,  2.38s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.2835521996021271, 'learning_rate': 1.8249904470768055e-05, 'epoch': 1.46}
  6%|▌         | 4780/78504 [2:53:55<48:41:18,  2.38s/it]  6%|▌         | 4781/78504 [2:53:57<47:16:41,  2.31s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.38287580013275146, 'learning_rate': 1.8253725640045853e-05, 'epoch': 1.46}
  6%|▌         | 4781/78504 [2:53:57<47:16:41,  2.31s/it]  6%|▌         | 4782/78504 [2:53:59<44:29:13,  2.17s/it]                                                         {'loss': 0.1196, 'grad_norm': 0.8683164715766907, 'learning_rate': 1.8257546809323652e-05, 'epoch': 1.46}
  6%|▌         | 4782/78504 [2:53:59<44:29:13,  2.17s/it]  6%|▌         | 4783/78504 [2:54:01<43:19:21,  2.12s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.4105708599090576, 'learning_rate': 1.826136797860145e-05, 'epoch': 1.46}
  6%|▌         | 4783/78504 [2:54:01<43:19:21,  2.12s/it]  6%|▌         | 4784/78504 [2:54:03<42:11:04,  2.06s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.33246150612831116, 'learning_rate': 1.826518914787925e-05, 'epoch': 1.46}
  6%|▌         | 4784/78504 [2:54:03<42:11:04,  2.06s/it]  6%|▌         | 4785/78504 [2:54:05<41:04:39,  2.01s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.40324217081069946, 'learning_rate': 1.8269010317157052e-05, 'epoch': 1.46}
  6%|▌         | 4785/78504 [2:54:05<41:04:39,  2.01s/it]  6%|▌         | 4786/78504 [2:54:07<39:36:42,  1.93s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.5590804815292358, 'learning_rate': 1.827283148643485e-05, 'epoch': 1.46}
  6%|▌         | 4786/78504 [2:54:07<39:36:42,  1.93s/it]  6%|▌         | 4787/78504 [2:54:08<37:29:59,  1.83s/it]                                                         {'loss': 0.1556, 'grad_norm': 1.5065131187438965, 'learning_rate': 1.827665265571265e-05, 'epoch': 1.46}
  6%|▌         | 4787/78504 [2:54:08<37:29:59,  1.83s/it]  6%|▌         | 4788/78504 [2:54:10<35:46:08,  1.75s/it]                                                         {'loss': 0.2292, 'grad_norm': 0.7673102021217346, 'learning_rate': 1.8280473824990448e-05, 'epoch': 1.46}
  6%|▌         | 4788/78504 [2:54:10<35:46:08,  1.75s/it]  6%|▌         | 4789/78504 [2:54:11<34:00:42,  1.66s/it]                                                         {'loss': 0.2352, 'grad_norm': 0.8140377998352051, 'learning_rate': 1.8284294994268247e-05, 'epoch': 1.46}
  6%|▌         | 4789/78504 [2:54:11<34:00:42,  1.66s/it]  6%|▌         | 4790/78504 [2:54:13<32:24:34,  1.58s/it]                                                         {'loss': 0.2242, 'grad_norm': 0.7831479907035828, 'learning_rate': 1.8288116163546045e-05, 'epoch': 1.46}
  6%|▌         | 4790/78504 [2:54:13<32:24:34,  1.58s/it]  6%|▌         | 4791/78504 [2:54:14<30:33:52,  1.49s/it]                                                         {'loss': 0.216, 'grad_norm': 1.2605187892913818, 'learning_rate': 1.8291937332823848e-05, 'epoch': 1.46}
  6%|▌         | 4791/78504 [2:54:14<30:33:52,  1.49s/it]  6%|▌         | 4792/78504 [2:54:15<28:31:43,  1.39s/it]                                                         {'loss': 0.2336, 'grad_norm': 0.731024980545044, 'learning_rate': 1.8295758502101646e-05, 'epoch': 1.46}
  6%|▌         | 4792/78504 [2:54:15<28:31:43,  1.39s/it]  6%|▌         | 4793/78504 [2:54:16<26:39:46,  1.30s/it]                                                         {'loss': 0.2442, 'grad_norm': 0.991027295589447, 'learning_rate': 1.8299579671379445e-05, 'epoch': 1.47}
  6%|▌         | 4793/78504 [2:54:16<26:39:46,  1.30s/it]  6%|▌         | 4794/78504 [2:54:17<24:45:07,  1.21s/it]                                                         {'loss': 0.277, 'grad_norm': 1.166697382926941, 'learning_rate': 1.8303400840657244e-05, 'epoch': 1.47}
  6%|▌         | 4794/78504 [2:54:17<24:45:07,  1.21s/it]  6%|▌         | 4795/78504 [2:54:18<23:08:25,  1.13s/it]                                                         {'loss': 0.2962, 'grad_norm': 1.496653437614441, 'learning_rate': 1.8307222009935043e-05, 'epoch': 1.47}
  6%|▌         | 4795/78504 [2:54:18<23:08:25,  1.13s/it]  6%|▌         | 4796/78504 [2:54:19<21:01:51,  1.03s/it]                                                         {'loss': 0.3094, 'grad_norm': 1.649477243423462, 'learning_rate': 1.831104317921284e-05, 'epoch': 1.47}
  6%|▌         | 4796/78504 [2:54:19<21:01:51,  1.03s/it]  6%|▌         | 4797/78504 [2:54:26<58:20:48,  2.85s/it]                                                         {'loss': 0.1758, 'grad_norm': 1.0101054906845093, 'learning_rate': 1.831486434849064e-05, 'epoch': 1.47}
  6%|▌         | 4797/78504 [2:54:26<58:20:48,  2.85s/it]  6%|▌         | 4798/78504 [2:54:29<59:58:38,  2.93s/it]                                                         {'loss': 0.1093, 'grad_norm': 0.37762030959129333, 'learning_rate': 1.831868551776844e-05, 'epoch': 1.47}
  6%|▌         | 4798/78504 [2:54:29<59:58:38,  2.93s/it]  6%|▌         | 4799/78504 [2:54:32<60:31:51,  2.96s/it]                                                         {'loss': 0.0825, 'grad_norm': 0.34446755051612854, 'learning_rate': 1.8322506687046238e-05, 'epoch': 1.47}
  6%|▌         | 4799/78504 [2:54:32<60:31:51,  2.96s/it]  6%|▌         | 4800/78504 [2:54:35<58:26:13,  2.85s/it]                                                         {'loss': 0.0668, 'grad_norm': 0.2805548906326294, 'learning_rate': 1.8326327856324036e-05, 'epoch': 1.47}
  6%|▌         | 4800/78504 [2:54:35<58:26:13,  2.85s/it]  6%|▌         | 4801/78504 [2:54:37<56:04:46,  2.74s/it]                                                         {'loss': 0.0824, 'grad_norm': 0.4186827540397644, 'learning_rate': 1.8330149025601835e-05, 'epoch': 1.47}
  6%|▌         | 4801/78504 [2:54:37<56:04:46,  2.74s/it]  6%|▌         | 4802/78504 [2:54:40<54:11:06,  2.65s/it]                                                         {'loss': 0.1105, 'grad_norm': 0.480983704328537, 'learning_rate': 1.8333970194879634e-05, 'epoch': 1.47}
  6%|▌         | 4802/78504 [2:54:40<54:11:06,  2.65s/it]  6%|▌         | 4803/78504 [2:54:42<52:11:42,  2.55s/it]                                                         {'loss': 0.0829, 'grad_norm': 0.36676761507987976, 'learning_rate': 1.8337791364157433e-05, 'epoch': 1.47}
  6%|▌         | 4803/78504 [2:54:42<52:11:42,  2.55s/it]  6%|▌         | 4804/78504 [2:54:44<49:22:53,  2.41s/it]                                                         {'loss': 0.0773, 'grad_norm': 0.34841346740722656, 'learning_rate': 1.834161253343523e-05, 'epoch': 1.47}
  6%|▌         | 4804/78504 [2:54:44<49:22:53,  2.41s/it]  6%|▌         | 4805/78504 [2:54:46<48:00:48,  2.35s/it]                                                         {'loss': 0.1017, 'grad_norm': 0.4758620262145996, 'learning_rate': 1.834543370271303e-05, 'epoch': 1.47}
  6%|▌         | 4805/78504 [2:54:46<48:00:48,  2.35s/it]  6%|▌         | 4806/78504 [2:54:48<46:47:07,  2.29s/it]                                                         {'loss': 0.0639, 'grad_norm': 0.3121950030326843, 'learning_rate': 1.834925487199083e-05, 'epoch': 1.47}
  6%|▌         | 4806/78504 [2:54:48<46:47:07,  2.29s/it]  6%|▌         | 4807/78504 [2:54:50<45:11:02,  2.21s/it]                                                         {'loss': 0.1289, 'grad_norm': 0.7359133362770081, 'learning_rate': 1.835307604126863e-05, 'epoch': 1.47}
  6%|▌         | 4807/78504 [2:54:50<45:11:02,  2.21s/it]  6%|▌         | 4808/78504 [2:54:52<43:48:33,  2.14s/it]                                                         {'loss': 0.132, 'grad_norm': 0.48026543855667114, 'learning_rate': 1.835689721054643e-05, 'epoch': 1.47}
  6%|▌         | 4808/78504 [2:54:52<43:48:33,  2.14s/it]  6%|▌         | 4809/78504 [2:54:54<42:06:13,  2.06s/it]                                                         {'loss': 0.1255, 'grad_norm': 0.49495434761047363, 'learning_rate': 1.836071837982423e-05, 'epoch': 1.47}
  6%|▌         | 4809/78504 [2:54:54<42:06:13,  2.06s/it]  6%|▌         | 4810/78504 [2:54:56<40:48:28,  1.99s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.7765718102455139, 'learning_rate': 1.8364539549102027e-05, 'epoch': 1.47}
  6%|▌         | 4810/78504 [2:54:56<40:48:28,  1.99s/it]  6%|▌         | 4811/78504 [2:54:58<39:16:00,  1.92s/it]                                                         {'loss': 0.1499, 'grad_norm': 0.7124277949333191, 'learning_rate': 1.8368360718379826e-05, 'epoch': 1.47}
  6%|▌         | 4811/78504 [2:54:58<39:16:00,  1.92s/it]  6%|▌         | 4812/78504 [2:54:59<37:38:02,  1.84s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.8905240893363953, 'learning_rate': 1.8372181887657625e-05, 'epoch': 1.47}
  6%|▌         | 4812/78504 [2:54:59<37:38:02,  1.84s/it]  6%|▌         | 4813/78504 [2:55:01<35:50:11,  1.75s/it]                                                         {'loss': 0.167, 'grad_norm': 1.144364833831787, 'learning_rate': 1.8376003056935423e-05, 'epoch': 1.47}
  6%|▌         | 4813/78504 [2:55:01<35:50:11,  1.75s/it]  6%|▌         | 4814/78504 [2:55:02<33:50:55,  1.65s/it]                                                         {'loss': 0.2014, 'grad_norm': 0.9015721082687378, 'learning_rate': 1.8379824226213222e-05, 'epoch': 1.47}
  6%|▌         | 4814/78504 [2:55:02<33:50:55,  1.65s/it]  6%|▌         | 4815/78504 [2:55:04<32:19:51,  1.58s/it]                                                         {'loss': 0.2282, 'grad_norm': 1.0717793703079224, 'learning_rate': 1.838364539549102e-05, 'epoch': 1.47}
  6%|▌         | 4815/78504 [2:55:04<32:19:51,  1.58s/it]  6%|▌         | 4816/78504 [2:55:05<30:07:37,  1.47s/it]                                                         {'loss': 0.226, 'grad_norm': 1.016456127166748, 'learning_rate': 1.838746656476882e-05, 'epoch': 1.47}
  6%|▌         | 4816/78504 [2:55:05<30:07:37,  1.47s/it]  6%|▌         | 4817/78504 [2:55:06<28:13:29,  1.38s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.0589911937713623, 'learning_rate': 1.839128773404662e-05, 'epoch': 1.47}
  6%|▌         | 4817/78504 [2:55:06<28:13:29,  1.38s/it]  6%|▌         | 4818/78504 [2:55:07<26:29:17,  1.29s/it]                                                         {'loss': 0.2789, 'grad_norm': 1.33281409740448, 'learning_rate': 1.8395108903324417e-05, 'epoch': 1.47}
  6%|▌         | 4818/78504 [2:55:07<26:29:17,  1.29s/it]  6%|▌         | 4819/78504 [2:55:08<24:44:22,  1.21s/it]                                                         {'loss': 0.2056, 'grad_norm': 1.4702435731887817, 'learning_rate': 1.8398930072602216e-05, 'epoch': 1.47}
  6%|▌         | 4819/78504 [2:55:08<24:44:22,  1.21s/it]  6%|▌         | 4820/78504 [2:55:09<23:00:52,  1.12s/it]                                                         {'loss': 0.3096, 'grad_norm': 1.7266262769699097, 'learning_rate': 1.8402751241880015e-05, 'epoch': 1.47}
  6%|▌         | 4820/78504 [2:55:09<23:00:52,  1.12s/it]  6%|▌         | 4821/78504 [2:55:10<20:56:40,  1.02s/it]                                                         {'loss': 0.3734, 'grad_norm': 1.950448751449585, 'learning_rate': 1.8406572411157813e-05, 'epoch': 1.47}
  6%|▌         | 4821/78504 [2:55:10<20:56:40,  1.02s/it]  6%|▌         | 4822/78504 [2:55:18<64:20:29,  3.14s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.45004546642303467, 'learning_rate': 1.8410393580435615e-05, 'epoch': 1.47}
  6%|▌         | 4822/78504 [2:55:18<64:20:29,  3.14s/it]  6%|▌         | 4823/78504 [2:55:21<64:20:54,  3.14s/it]                                                         {'loss': 0.1156, 'grad_norm': 0.3101680278778076, 'learning_rate': 1.8414214749713414e-05, 'epoch': 1.47}
  6%|▌         | 4823/78504 [2:55:21<64:20:54,  3.14s/it]  6%|▌         | 4824/78504 [2:55:24<60:52:57,  2.97s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.4812849164009094, 'learning_rate': 1.8418035918991213e-05, 'epoch': 1.47}
  6%|▌         | 4824/78504 [2:55:24<60:52:57,  2.97s/it]  6%|▌         | 4825/78504 [2:55:26<58:43:08,  2.87s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.2626362442970276, 'learning_rate': 1.842185708826901e-05, 'epoch': 1.48}
  6%|▌         | 4825/78504 [2:55:27<58:43:08,  2.87s/it]  6%|▌         | 4826/78504 [2:55:29<56:25:22,  2.76s/it]                                                         {'loss': 0.0842, 'grad_norm': 0.31946036219596863, 'learning_rate': 1.842567825754681e-05, 'epoch': 1.48}
  6%|▌         | 4826/78504 [2:55:29<56:25:22,  2.76s/it]  6%|▌         | 4827/78504 [2:55:31<53:25:52,  2.61s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.44712305068969727, 'learning_rate': 1.842949942682461e-05, 'epoch': 1.48}
  6%|▌         | 4827/78504 [2:55:31<53:25:52,  2.61s/it]  6%|▌         | 4828/78504 [2:55:34<51:42:28,  2.53s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.35728663206100464, 'learning_rate': 1.8433320596102408e-05, 'epoch': 1.48}
  6%|▌         | 4828/78504 [2:55:34<51:42:28,  2.53s/it]  6%|▌         | 4829/78504 [2:55:36<49:04:39,  2.40s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.3156641125679016, 'learning_rate': 1.8437141765380207e-05, 'epoch': 1.48}
  6%|▌         | 4829/78504 [2:55:36<49:04:39,  2.40s/it]  6%|▌         | 4830/78504 [2:55:38<46:52:04,  2.29s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.44164153933525085, 'learning_rate': 1.8440962934658005e-05, 'epoch': 1.48}
  6%|▌         | 4830/78504 [2:55:38<46:52:04,  2.29s/it]  6%|▌         | 4831/78504 [2:55:40<45:58:15,  2.25s/it]                                                         {'loss': 0.0611, 'grad_norm': 0.24689769744873047, 'learning_rate': 1.8444784103935804e-05, 'epoch': 1.48}
  6%|▌         | 4831/78504 [2:55:40<45:58:15,  2.25s/it]  6%|▌         | 4832/78504 [2:55:42<44:36:24,  2.18s/it]                                                         {'loss': 0.1038, 'grad_norm': 0.7551746368408203, 'learning_rate': 1.8448605273213603e-05, 'epoch': 1.48}
  6%|▌         | 4832/78504 [2:55:42<44:36:24,  2.18s/it]  6%|▌         | 4833/78504 [2:55:44<43:25:23,  2.12s/it]                                                         {'loss': 0.1019, 'grad_norm': 0.6952165961265564, 'learning_rate': 1.84524264424914e-05, 'epoch': 1.48}
  6%|▌         | 4833/78504 [2:55:44<43:25:23,  2.12s/it]  6%|▌         | 4834/78504 [2:55:46<41:54:01,  2.05s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.5390605330467224, 'learning_rate': 1.84562476117692e-05, 'epoch': 1.48}
  6%|▌         | 4834/78504 [2:55:46<41:54:01,  2.05s/it]  6%|▌         | 4835/78504 [2:55:47<39:52:42,  1.95s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.5842426419258118, 'learning_rate': 1.8460068781047e-05, 'epoch': 1.48}
  6%|▌         | 4835/78504 [2:55:47<39:52:42,  1.95s/it]  6%|▌         | 4836/78504 [2:55:49<38:05:51,  1.86s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.5541746020317078, 'learning_rate': 1.8463889950324798e-05, 'epoch': 1.48}
  6%|▌         | 4836/78504 [2:55:49<38:05:51,  1.86s/it]  6%|▌         | 4837/78504 [2:55:51<36:45:08,  1.80s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.545012354850769, 'learning_rate': 1.8467711119602597e-05, 'epoch': 1.48}
  6%|▌         | 4837/78504 [2:55:51<36:45:08,  1.80s/it]  6%|▌         | 4838/78504 [2:55:52<35:04:01,  1.71s/it]                                                         {'loss': 0.2117, 'grad_norm': 0.6738123893737793, 'learning_rate': 1.84715322888804e-05, 'epoch': 1.48}
  6%|▌         | 4838/78504 [2:55:52<35:04:01,  1.71s/it]  6%|▌         | 4839/78504 [2:55:54<33:21:41,  1.63s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.83856600522995, 'learning_rate': 1.8475353458158197e-05, 'epoch': 1.48}
  6%|▌         | 4839/78504 [2:55:54<33:21:41,  1.63s/it]  6%|▌         | 4840/78504 [2:55:55<32:01:17,  1.56s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.7526463866233826, 'learning_rate': 1.8479174627435996e-05, 'epoch': 1.48}
  6%|▌         | 4840/78504 [2:55:55<32:01:17,  1.56s/it]  6%|▌         | 4841/78504 [2:55:56<29:57:24,  1.46s/it]                                                         {'loss': 0.2277, 'grad_norm': 0.9721493124961853, 'learning_rate': 1.8482995796713795e-05, 'epoch': 1.48}
  6%|▌         | 4841/78504 [2:55:56<29:57:24,  1.46s/it]  6%|▌         | 4842/78504 [2:55:58<27:58:38,  1.37s/it]                                                         {'loss': 0.2383, 'grad_norm': 1.1178644895553589, 'learning_rate': 1.8486816965991594e-05, 'epoch': 1.48}
  6%|▌         | 4842/78504 [2:55:58<27:58:38,  1.37s/it]  6%|▌         | 4843/78504 [2:55:59<26:19:55,  1.29s/it]                                                         {'loss': 0.2323, 'grad_norm': 0.938744843006134, 'learning_rate': 1.8490638135269392e-05, 'epoch': 1.48}
  6%|▌         | 4843/78504 [2:55:59<26:19:55,  1.29s/it]  6%|▌         | 4844/78504 [2:56:00<24:30:44,  1.20s/it]                                                         {'loss': 0.26, 'grad_norm': 1.1528502702713013, 'learning_rate': 1.849445930454719e-05, 'epoch': 1.48}
  6%|▌         | 4844/78504 [2:56:00<24:30:44,  1.20s/it]  6%|▌         | 4845/78504 [2:56:01<22:51:17,  1.12s/it]                                                         {'loss': 0.2935, 'grad_norm': 1.1671078205108643, 'learning_rate': 1.849828047382499e-05, 'epoch': 1.48}
  6%|▌         | 4845/78504 [2:56:01<22:51:17,  1.12s/it]  6%|▌         | 4846/78504 [2:56:01<20:45:35,  1.01s/it]                                                         {'loss': 0.3417, 'grad_norm': 1.6182255744934082, 'learning_rate': 1.850210164310279e-05, 'epoch': 1.48}
  6%|▌         | 4846/78504 [2:56:01<20:45:35,  1.01s/it]  6%|▌         | 4847/78504 [2:56:11<71:22:38,  3.49s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.9071745872497559, 'learning_rate': 1.8505922812380587e-05, 'epoch': 1.48}
  6%|▌         | 4847/78504 [2:56:11<71:22:38,  3.49s/it]  6%|▌         | 4848/78504 [2:56:14<70:32:10,  3.45s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.3342526853084564, 'learning_rate': 1.8509743981658386e-05, 'epoch': 1.48}
  6%|▌         | 4848/78504 [2:56:14<70:32:10,  3.45s/it]  6%|▌         | 4849/78504 [2:56:16<65:09:30,  3.18s/it]                                                         {'loss': 0.0976, 'grad_norm': 0.6939647197723389, 'learning_rate': 1.8513565150936185e-05, 'epoch': 1.48}
  6%|▌         | 4849/78504 [2:56:17<65:09:30,  3.18s/it]  6%|▌         | 4850/78504 [2:56:19<61:40:24,  3.01s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.2860855162143707, 'learning_rate': 1.8517386320213984e-05, 'epoch': 1.48}
  6%|▌         | 4850/78504 [2:56:19<61:40:24,  3.01s/it]  6%|▌         | 4851/78504 [2:56:22<58:27:40,  2.86s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.29412582516670227, 'learning_rate': 1.8521207489491782e-05, 'epoch': 1.48}
  6%|▌         | 4851/78504 [2:56:22<58:27:40,  2.86s/it]  6%|▌         | 4852/78504 [2:56:24<55:54:35,  2.73s/it]                                                         {'loss': 0.0903, 'grad_norm': 0.6230106949806213, 'learning_rate': 1.852502865876958e-05, 'epoch': 1.48}
  6%|▌         | 4852/78504 [2:56:24<55:54:35,  2.73s/it]  6%|▌         | 4853/78504 [2:56:26<53:26:32,  2.61s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.41926309466362, 'learning_rate': 1.8528849828047383e-05, 'epoch': 1.48}
  6%|▌         | 4853/78504 [2:56:26<53:26:32,  2.61s/it]  6%|▌         | 4854/78504 [2:56:28<50:30:00,  2.47s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.3342480957508087, 'learning_rate': 1.8532670997325182e-05, 'epoch': 1.48}
  6%|▌         | 4854/78504 [2:56:29<50:30:00,  2.47s/it]  6%|▌         | 4855/78504 [2:56:31<48:48:18,  2.39s/it]                                                         {'loss': 0.1146, 'grad_norm': 0.4860488772392273, 'learning_rate': 1.853649216660298e-05, 'epoch': 1.48}
  6%|▌         | 4855/78504 [2:56:31<48:48:18,  2.39s/it]  6%|▌         | 4856/78504 [2:56:33<47:21:58,  2.32s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.3631926476955414, 'learning_rate': 1.854031333588078e-05, 'epoch': 1.48}
  6%|▌         | 4856/78504 [2:56:33<47:21:58,  2.32s/it]  6%|▌         | 4857/78504 [2:56:35<45:36:30,  2.23s/it]                                                         {'loss': 0.1064, 'grad_norm': 0.8193742632865906, 'learning_rate': 1.8544134505158578e-05, 'epoch': 1.48}
  6%|▌         | 4857/78504 [2:56:35<45:36:30,  2.23s/it]  6%|▌         | 4858/78504 [2:56:37<44:06:21,  2.16s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.42979657649993896, 'learning_rate': 1.8547955674436377e-05, 'epoch': 1.49}
  6%|▌         | 4858/78504 [2:56:37<44:06:21,  2.16s/it]  6%|▌         | 4859/78504 [2:56:39<42:19:54,  2.07s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.9498456716537476, 'learning_rate': 1.8551776843714176e-05, 'epoch': 1.49}
  6%|▌         | 4859/78504 [2:56:39<42:19:54,  2.07s/it]  6%|▌         | 4860/78504 [2:56:41<40:56:52,  2.00s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.4821285605430603, 'learning_rate': 1.8555598012991975e-05, 'epoch': 1.49}
  6%|▌         | 4860/78504 [2:56:41<40:56:52,  2.00s/it]  6%|▌         | 4861/78504 [2:56:42<39:35:33,  1.94s/it]                                                         {'loss': 0.1412, 'grad_norm': 0.4794308841228485, 'learning_rate': 1.8559419182269773e-05, 'epoch': 1.49}
  6%|▌         | 4861/78504 [2:56:42<39:35:33,  1.94s/it]  6%|▌         | 4862/78504 [2:56:44<37:54:50,  1.85s/it]                                                         {'loss': 0.1881, 'grad_norm': 1.2683507204055786, 'learning_rate': 1.8563240351547572e-05, 'epoch': 1.49}
  6%|▌         | 4862/78504 [2:56:44<37:54:50,  1.85s/it]  6%|▌         | 4863/78504 [2:56:46<36:00:32,  1.76s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6553133726119995, 'learning_rate': 1.8567061520825374e-05, 'epoch': 1.49}
  6%|▌         | 4863/78504 [2:56:46<36:00:32,  1.76s/it]  6%|▌         | 4864/78504 [2:56:47<34:15:16,  1.67s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.8719310164451599, 'learning_rate': 1.8570882690103173e-05, 'epoch': 1.49}
  6%|▌         | 4864/78504 [2:56:47<34:15:16,  1.67s/it]  6%|▌         | 4865/78504 [2:56:48<32:33:00,  1.59s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.8890965580940247, 'learning_rate': 1.857470385938097e-05, 'epoch': 1.49}
  6%|▌         | 4865/78504 [2:56:48<32:33:00,  1.59s/it]  6%|▌         | 4866/78504 [2:56:50<30:39:12,  1.50s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.6508729457855225, 'learning_rate': 1.857852502865877e-05, 'epoch': 1.49}
  6%|▌         | 4866/78504 [2:56:50<30:39:12,  1.50s/it]  6%|▌         | 4867/78504 [2:56:51<28:27:45,  1.39s/it]                                                         {'loss': 0.2112, 'grad_norm': 0.8981496691703796, 'learning_rate': 1.858234619793657e-05, 'epoch': 1.49}
  6%|▌         | 4867/78504 [2:56:51<28:27:45,  1.39s/it]  6%|▌         | 4868/78504 [2:56:52<26:37:08,  1.30s/it]                                                         {'loss': 0.2379, 'grad_norm': 0.8823046088218689, 'learning_rate': 1.8586167367214368e-05, 'epoch': 1.49}
  6%|▌         | 4868/78504 [2:56:52<26:37:08,  1.30s/it]  6%|▌         | 4869/78504 [2:56:53<25:04:44,  1.23s/it]                                                         {'loss': 0.2357, 'grad_norm': 0.9172952771186829, 'learning_rate': 1.858998853649217e-05, 'epoch': 1.49}
  6%|▌         | 4869/78504 [2:56:53<25:04:44,  1.23s/it]  6%|▌         | 4870/78504 [2:56:54<23:16:55,  1.14s/it]                                                         {'loss': 0.2475, 'grad_norm': 0.9687058329582214, 'learning_rate': 1.859380970576997e-05, 'epoch': 1.49}
  6%|▌         | 4870/78504 [2:56:54<23:16:55,  1.14s/it]  6%|▌         | 4871/78504 [2:56:55<21:04:37,  1.03s/it]                                                         {'loss': 0.3003, 'grad_norm': 2.1104469299316406, 'learning_rate': 1.8597630875047767e-05, 'epoch': 1.49}
  6%|▌         | 4871/78504 [2:56:55<21:04:37,  1.03s/it]  6%|▌         | 4872/78504 [2:57:04<71:23:54,  3.49s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.435661256313324, 'learning_rate': 1.8601452044325566e-05, 'epoch': 1.49}
  6%|▌         | 4872/78504 [2:57:04<71:23:54,  3.49s/it]  6%|▌         | 4873/78504 [2:57:07<69:06:49,  3.38s/it]                                                         {'loss': 0.119, 'grad_norm': 0.44318875670433044, 'learning_rate': 1.8605273213603365e-05, 'epoch': 1.49}
  6%|▌         | 4873/78504 [2:57:07<69:06:49,  3.38s/it]  6%|▌         | 4874/78504 [2:57:10<66:56:23,  3.27s/it]                                                         {'loss': 0.0941, 'grad_norm': 0.3693072497844696, 'learning_rate': 1.8609094382881164e-05, 'epoch': 1.49}
  6%|▌         | 4874/78504 [2:57:10<66:56:23,  3.27s/it]  6%|▌         | 4875/78504 [2:57:13<62:53:27,  3.07s/it]                                                         {'loss': 0.079, 'grad_norm': 0.267522931098938, 'learning_rate': 1.8612915552158962e-05, 'epoch': 1.49}
  6%|▌         | 4875/78504 [2:57:13<62:53:27,  3.07s/it]  6%|▌         | 4876/78504 [2:57:15<59:11:55,  2.89s/it]                                                         {'loss': 0.0745, 'grad_norm': 0.351070761680603, 'learning_rate': 1.861673672143676e-05, 'epoch': 1.49}
  6%|▌         | 4876/78504 [2:57:15<59:11:55,  2.89s/it]  6%|▌         | 4877/78504 [2:57:17<55:21:46,  2.71s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.3657132089138031, 'learning_rate': 1.862055789071456e-05, 'epoch': 1.49}
  6%|▌         | 4877/78504 [2:57:17<55:21:46,  2.71s/it]  6%|▌         | 4878/78504 [2:57:20<53:00:01,  2.59s/it]                                                         {'loss': 0.0625, 'grad_norm': 0.38672521710395813, 'learning_rate': 1.862437905999236e-05, 'epoch': 1.49}
  6%|▌         | 4878/78504 [2:57:20<53:00:01,  2.59s/it]  6%|▌         | 4879/78504 [2:57:22<50:02:40,  2.45s/it]                                                         {'loss': 0.064, 'grad_norm': 0.3551631569862366, 'learning_rate': 1.8628200229270157e-05, 'epoch': 1.49}
  6%|▌         | 4879/78504 [2:57:22<50:02:40,  2.45s/it]  6%|▌         | 4880/78504 [2:57:24<47:31:01,  2.32s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.6282119750976562, 'learning_rate': 1.8632021398547956e-05, 'epoch': 1.49}
  6%|▌         | 4880/78504 [2:57:24<47:31:01,  2.32s/it]  6%|▌         | 4881/78504 [2:57:26<46:25:38,  2.27s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.8504628539085388, 'learning_rate': 1.8635842567825755e-05, 'epoch': 1.49}
  6%|▌         | 4881/78504 [2:57:26<46:25:38,  2.27s/it]  6%|▌         | 4882/78504 [2:57:28<44:55:31,  2.20s/it]                                                         {'loss': 0.0998, 'grad_norm': 0.4439716637134552, 'learning_rate': 1.8639663737103554e-05, 'epoch': 1.49}
  6%|▌         | 4882/78504 [2:57:28<44:55:31,  2.20s/it]  6%|▌         | 4883/78504 [2:57:30<42:27:47,  2.08s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5012518167495728, 'learning_rate': 1.8643484906381352e-05, 'epoch': 1.49}
  6%|▌         | 4883/78504 [2:57:30<42:27:47,  2.08s/it]  6%|▌         | 4884/78504 [2:57:32<41:11:43,  2.01s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5956999659538269, 'learning_rate': 1.8647306075659155e-05, 'epoch': 1.49}
  6%|▌         | 4884/78504 [2:57:32<41:11:43,  2.01s/it]  6%|▌         | 4885/78504 [2:57:33<39:24:31,  1.93s/it]                                                         {'loss': 0.1752, 'grad_norm': 0.6755030155181885, 'learning_rate': 1.8651127244936953e-05, 'epoch': 1.49}
  6%|▌         | 4885/78504 [2:57:33<39:24:31,  1.93s/it]  6%|▌         | 4886/78504 [2:57:35<37:42:58,  1.84s/it]                                                         {'loss': 0.1497, 'grad_norm': 0.8299668431282043, 'learning_rate': 1.8654948414214752e-05, 'epoch': 1.49}
  6%|▌         | 4886/78504 [2:57:35<37:42:58,  1.84s/it]  6%|▌         | 4887/78504 [2:57:37<36:30:35,  1.79s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.592824399471283, 'learning_rate': 1.865876958349255e-05, 'epoch': 1.49}
  6%|▌         | 4887/78504 [2:57:37<36:30:35,  1.79s/it]  6%|▌         | 4888/78504 [2:57:38<34:54:39,  1.71s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.5742682814598083, 'learning_rate': 1.866259075277035e-05, 'epoch': 1.49}
  6%|▌         | 4888/78504 [2:57:38<34:54:39,  1.71s/it]  6%|▌         | 4889/78504 [2:57:40<33:10:47,  1.62s/it]                                                         {'loss': 0.2329, 'grad_norm': 0.9308561086654663, 'learning_rate': 1.8666411922048148e-05, 'epoch': 1.49}
  6%|▌         | 4889/78504 [2:57:40<33:10:47,  1.62s/it]  6%|▌         | 4890/78504 [2:57:41<31:54:05,  1.56s/it]                                                         {'loss': 0.185, 'grad_norm': 0.6772736310958862, 'learning_rate': 1.8670233091325947e-05, 'epoch': 1.49}
  6%|▌         | 4890/78504 [2:57:41<31:54:05,  1.56s/it]  6%|▌         | 4891/78504 [2:57:42<29:50:08,  1.46s/it]                                                         {'loss': 0.2221, 'grad_norm': 1.0678201913833618, 'learning_rate': 1.8674054260603746e-05, 'epoch': 1.5}
  6%|▌         | 4891/78504 [2:57:42<29:50:08,  1.46s/it]  6%|▌         | 4892/78504 [2:57:44<27:58:24,  1.37s/it]                                                         {'loss': 0.2217, 'grad_norm': 1.006230354309082, 'learning_rate': 1.8677875429881545e-05, 'epoch': 1.5}
  6%|▌         | 4892/78504 [2:57:44<27:58:24,  1.37s/it]  6%|▌         | 4893/78504 [2:57:45<26:20:32,  1.29s/it]                                                         {'loss': 0.2458, 'grad_norm': 1.1349449157714844, 'learning_rate': 1.8681696599159343e-05, 'epoch': 1.5}
  6%|▌         | 4893/78504 [2:57:45<26:20:32,  1.29s/it]  6%|▌         | 4894/78504 [2:57:46<24:30:28,  1.20s/it]                                                         {'loss': 0.2171, 'grad_norm': 1.3316899538040161, 'learning_rate': 1.8685517768437142e-05, 'epoch': 1.5}
  6%|▌         | 4894/78504 [2:57:46<24:30:28,  1.20s/it]  6%|▌         | 4895/78504 [2:57:47<22:53:56,  1.12s/it]                                                         {'loss': 0.2427, 'grad_norm': 1.3718008995056152, 'learning_rate': 1.868933893771494e-05, 'epoch': 1.5}
  6%|▌         | 4895/78504 [2:57:47<22:53:56,  1.12s/it]  6%|▌         | 4896/78504 [2:57:47<20:49:29,  1.02s/it]                                                         {'loss': 0.3148, 'grad_norm': 1.9860987663269043, 'learning_rate': 1.869316010699274e-05, 'epoch': 1.5}
  6%|▌         | 4896/78504 [2:57:47<20:49:29,  1.02s/it]  6%|▌         | 4897/78504 [2:57:56<67:33:18,  3.30s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.5136041045188904, 'learning_rate': 1.8696981276270538e-05, 'epoch': 1.5}
  6%|▌         | 4897/78504 [2:57:56<67:33:18,  3.30s/it]  6%|▌         | 4898/78504 [2:57:59<67:49:48,  3.32s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.2837669551372528, 'learning_rate': 1.8700802445548337e-05, 'epoch': 1.5}
  6%|▌         | 4898/78504 [2:57:59<67:49:48,  3.32s/it]  6%|▌         | 4899/78504 [2:58:02<63:13:43,  3.09s/it]                                                         {'loss': 0.1003, 'grad_norm': 0.42063987255096436, 'learning_rate': 1.8704623614826136e-05, 'epoch': 1.5}
  6%|▌         | 4899/78504 [2:58:02<63:13:43,  3.09s/it]  6%|▌         | 4900/78504 [2:58:04<59:13:13,  2.90s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.35481446981430054, 'learning_rate': 1.8708444784103938e-05, 'epoch': 1.5}
  6%|▌         | 4900/78504 [2:58:04<59:13:13,  2.90s/it]  6%|▌         | 4901/78504 [2:58:07<56:36:49,  2.77s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.4224824011325836, 'learning_rate': 1.8712265953381737e-05, 'epoch': 1.5}
  6%|▌         | 4901/78504 [2:58:07<56:36:49,  2.77s/it]  6%|▌         | 4902/78504 [2:58:09<53:33:45,  2.62s/it]                                                         {'loss': 0.0474, 'grad_norm': 0.2965565025806427, 'learning_rate': 1.8716087122659535e-05, 'epoch': 1.5}
  6%|▌         | 4902/78504 [2:58:09<53:33:45,  2.62s/it]  6%|▌         | 4903/78504 [2:58:11<51:44:07,  2.53s/it]                                                         {'loss': 0.0566, 'grad_norm': 0.29887518286705017, 'learning_rate': 1.8719908291937334e-05, 'epoch': 1.5}
  6%|▌         | 4903/78504 [2:58:11<51:44:07,  2.53s/it]  6%|▌         | 4904/78504 [2:58:14<50:21:39,  2.46s/it]                                                         {'loss': 0.0874, 'grad_norm': 0.44939103722572327, 'learning_rate': 1.8723729461215133e-05, 'epoch': 1.5}
  6%|▌         | 4904/78504 [2:58:14<50:21:39,  2.46s/it]  6%|▌         | 4905/78504 [2:58:16<48:44:49,  2.38s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.3187306523323059, 'learning_rate': 1.872755063049293e-05, 'epoch': 1.5}
  6%|▌         | 4905/78504 [2:58:16<48:44:49,  2.38s/it]  6%|▌         | 4906/78504 [2:58:18<47:24:49,  2.32s/it]                                                         {'loss': 0.0955, 'grad_norm': 0.3342761993408203, 'learning_rate': 1.873137179977073e-05, 'epoch': 1.5}
  6%|▌         | 4906/78504 [2:58:18<47:24:49,  2.32s/it]  6%|▋         | 4907/78504 [2:58:20<44:41:47,  2.19s/it]                                                         {'loss': 0.0963, 'grad_norm': 0.7481163144111633, 'learning_rate': 1.873519296904853e-05, 'epoch': 1.5}
  6%|▋         | 4907/78504 [2:58:20<44:41:47,  2.19s/it]  6%|▋         | 4908/78504 [2:58:22<43:29:54,  2.13s/it]                                                         {'loss': 0.1205, 'grad_norm': 0.40372052788734436, 'learning_rate': 1.8739014138326328e-05, 'epoch': 1.5}
  6%|▋         | 4908/78504 [2:58:22<43:29:54,  2.13s/it]  6%|▋         | 4909/78504 [2:58:24<42:13:11,  2.07s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.5347312092781067, 'learning_rate': 1.8742835307604127e-05, 'epoch': 1.5}
  6%|▋         | 4909/78504 [2:58:24<42:13:11,  2.07s/it]  6%|▋         | 4910/78504 [2:58:26<41:07:31,  2.01s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.5675156712532043, 'learning_rate': 1.8746656476881925e-05, 'epoch': 1.5}
  6%|▋         | 4910/78504 [2:58:26<41:07:31,  2.01s/it]  6%|▋         | 4911/78504 [2:58:27<39:39:20,  1.94s/it]                                                         {'loss': 0.1532, 'grad_norm': 0.468757688999176, 'learning_rate': 1.8750477646159724e-05, 'epoch': 1.5}
  6%|▋         | 4911/78504 [2:58:28<39:39:20,  1.94s/it]  6%|▋         | 4912/78504 [2:58:29<37:26:52,  1.83s/it]                                                         {'loss': 0.2075, 'grad_norm': 0.5646935701370239, 'learning_rate': 1.8754298815437523e-05, 'epoch': 1.5}
  6%|▋         | 4912/78504 [2:58:29<37:26:52,  1.83s/it]  6%|▋         | 4913/78504 [2:58:31<35:39:00,  1.74s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.7390662431716919, 'learning_rate': 1.875811998471532e-05, 'epoch': 1.5}
  6%|▋         | 4913/78504 [2:58:31<35:39:00,  1.74s/it]  6%|▋         | 4914/78504 [2:58:32<33:59:57,  1.66s/it]                                                         {'loss': 0.2085, 'grad_norm': 3.3626301288604736, 'learning_rate': 1.876194115399312e-05, 'epoch': 1.5}
  6%|▋         | 4914/78504 [2:58:32<33:59:57,  1.66s/it]  6%|▋         | 4915/78504 [2:58:33<32:23:30,  1.58s/it]                                                         {'loss': 0.233, 'grad_norm': 0.7420992851257324, 'learning_rate': 1.8765762323270922e-05, 'epoch': 1.5}
  6%|▋         | 4915/78504 [2:58:34<32:23:30,  1.58s/it]  6%|▋         | 4916/78504 [2:58:35<30:33:41,  1.50s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.9263088703155518, 'learning_rate': 1.876958349254872e-05, 'epoch': 1.5}
  6%|▋         | 4916/78504 [2:58:35<30:33:41,  1.50s/it]  6%|▋         | 4917/78504 [2:58:36<28:47:01,  1.41s/it]                                                         {'loss': 0.2224, 'grad_norm': 0.7841703295707703, 'learning_rate': 1.877340466182652e-05, 'epoch': 1.5}
  6%|▋         | 4917/78504 [2:58:36<28:47:01,  1.41s/it]  6%|▋         | 4918/78504 [2:58:37<26:55:04,  1.32s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.8830205798149109, 'learning_rate': 1.877722583110432e-05, 'epoch': 1.5}
  6%|▋         | 4918/78504 [2:58:37<26:55:04,  1.32s/it]  6%|▋         | 4919/78504 [2:58:38<25:20:19,  1.24s/it]                                                         {'loss': 0.2277, 'grad_norm': 0.9138540029525757, 'learning_rate': 1.8781047000382117e-05, 'epoch': 1.5}
  6%|▋         | 4919/78504 [2:58:38<25:20:19,  1.24s/it]  6%|▋         | 4920/78504 [2:58:39<23:27:32,  1.15s/it]                                                         {'loss': 0.3039, 'grad_norm': 1.011960506439209, 'learning_rate': 1.8784868169659916e-05, 'epoch': 1.5}
  6%|▋         | 4920/78504 [2:58:39<23:27:32,  1.15s/it]  6%|▋         | 4921/78504 [2:58:40<21:29:11,  1.05s/it]                                                         {'loss': 0.2953, 'grad_norm': 1.372729778289795, 'learning_rate': 1.8788689338937715e-05, 'epoch': 1.5}
  6%|▋         | 4921/78504 [2:58:40<21:29:11,  1.05s/it]  6%|▋         | 4922/78504 [2:58:48<67:20:25,  3.29s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.5363647937774658, 'learning_rate': 1.8792510508215514e-05, 'epoch': 1.5}
  6%|▋         | 4922/78504 [2:58:48<67:20:25,  3.29s/it]  6%|▋         | 4923/78504 [2:58:52<67:44:33,  3.31s/it]                                                         {'loss': 0.1195, 'grad_norm': 0.37383154034614563, 'learning_rate': 1.8796331677493312e-05, 'epoch': 1.51}
  6%|▋         | 4923/78504 [2:58:52<67:44:33,  3.31s/it]  6%|▋         | 4924/78504 [2:58:55<65:58:09,  3.23s/it]                                                         {'loss': 0.0807, 'grad_norm': 0.38161203265190125, 'learning_rate': 1.880015284677111e-05, 'epoch': 1.51}
  6%|▋         | 4924/78504 [2:58:55<65:58:09,  3.23s/it]  6%|▋         | 4925/78504 [2:58:57<62:12:40,  3.04s/it]                                                         {'loss': 0.0811, 'grad_norm': 0.6028904318809509, 'learning_rate': 1.880397401604891e-05, 'epoch': 1.51}
  6%|▋         | 4925/78504 [2:58:57<62:12:40,  3.04s/it]  6%|▋         | 4926/78504 [2:59:00<58:43:23,  2.87s/it]                                                         {'loss': 0.0865, 'grad_norm': 1.5465846061706543, 'learning_rate': 1.880779518532671e-05, 'epoch': 1.51}
  6%|▋         | 4926/78504 [2:59:00<58:43:23,  2.87s/it]  6%|▋         | 4927/78504 [2:59:02<55:00:54,  2.69s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.4263383448123932, 'learning_rate': 1.8811616354604507e-05, 'epoch': 1.51}
  6%|▋         | 4927/78504 [2:59:02<55:00:54,  2.69s/it]  6%|▋         | 4928/78504 [2:59:04<52:45:07,  2.58s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.3597123622894287, 'learning_rate': 1.8815437523882306e-05, 'epoch': 1.51}
  6%|▋         | 4928/78504 [2:59:05<52:45:07,  2.58s/it]  6%|▋         | 4929/78504 [2:59:07<49:47:08,  2.44s/it]                                                         {'loss': 0.0594, 'grad_norm': 0.30315977334976196, 'learning_rate': 1.8819258693160105e-05, 'epoch': 1.51}
  6%|▋         | 4929/78504 [2:59:07<49:47:08,  2.44s/it]  6%|▋         | 4930/78504 [2:59:09<47:18:06,  2.31s/it]                                                         {'loss': 0.1104, 'grad_norm': 0.4478484094142914, 'learning_rate': 1.8823079862437904e-05, 'epoch': 1.51}
  6%|▋         | 4930/78504 [2:59:09<47:18:06,  2.31s/it]  6%|▋         | 4931/78504 [2:59:11<46:15:40,  2.26s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.4360978305339813, 'learning_rate': 1.8826901031715706e-05, 'epoch': 1.51}
  6%|▋         | 4931/78504 [2:59:11<46:15:40,  2.26s/it]  6%|▋         | 4932/78504 [2:59:13<44:39:18,  2.19s/it]                                                         {'loss': 0.084, 'grad_norm': 0.27256324887275696, 'learning_rate': 1.8830722200993504e-05, 'epoch': 1.51}
  6%|▋         | 4932/78504 [2:59:13<44:39:18,  2.19s/it]  6%|▋         | 4933/78504 [2:59:15<43:24:09,  2.12s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.5102108716964722, 'learning_rate': 1.8834543370271303e-05, 'epoch': 1.51}
  6%|▋         | 4933/78504 [2:59:15<43:24:09,  2.12s/it]  6%|▋         | 4934/78504 [2:59:17<41:49:17,  2.05s/it]                                                         {'loss': 0.1217, 'grad_norm': 0.5726320147514343, 'learning_rate': 1.8838364539549102e-05, 'epoch': 1.51}
  6%|▋         | 4934/78504 [2:59:17<41:49:17,  2.05s/it]  6%|▋         | 4935/78504 [2:59:18<40:30:24,  1.98s/it]                                                         {'loss': 0.1888, 'grad_norm': 0.6264142990112305, 'learning_rate': 1.88421857088269e-05, 'epoch': 1.51}
  6%|▋         | 4935/78504 [2:59:18<40:30:24,  1.98s/it]  6%|▋         | 4936/78504 [2:59:20<39:11:50,  1.92s/it]                                                         {'loss': 0.1435, 'grad_norm': 0.4801129996776581, 'learning_rate': 1.88460068781047e-05, 'epoch': 1.51}
  6%|▋         | 4936/78504 [2:59:20<39:11:50,  1.92s/it]  6%|▋         | 4937/78504 [2:59:22<37:34:35,  1.84s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.7151480913162231, 'learning_rate': 1.8849828047382498e-05, 'epoch': 1.51}
  6%|▋         | 4937/78504 [2:59:22<37:34:35,  1.84s/it]  6%|▋         | 4938/78504 [2:59:23<35:46:17,  1.75s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.5343462824821472, 'learning_rate': 1.8853649216660297e-05, 'epoch': 1.51}
  6%|▋         | 4938/78504 [2:59:23<35:46:17,  1.75s/it]  6%|▋         | 4939/78504 [2:59:25<34:01:19,  1.66s/it]                                                         {'loss': 0.2303, 'grad_norm': 1.206960678100586, 'learning_rate': 1.8857470385938096e-05, 'epoch': 1.51}
  6%|▋         | 4939/78504 [2:59:25<34:01:19,  1.66s/it]  6%|▋         | 4940/78504 [2:59:26<32:30:23,  1.59s/it]                                                         {'loss': 0.2104, 'grad_norm': 0.6851158142089844, 'learning_rate': 1.8861291555215894e-05, 'epoch': 1.51}
  6%|▋         | 4940/78504 [2:59:26<32:30:23,  1.59s/it]  6%|▋         | 4941/78504 [2:59:28<30:41:00,  1.50s/it]                                                         {'loss': 0.2295, 'grad_norm': 1.0621110200881958, 'learning_rate': 1.8865112724493697e-05, 'epoch': 1.51}
  6%|▋         | 4941/78504 [2:59:28<30:41:00,  1.50s/it]  6%|▋         | 4942/78504 [2:59:29<28:34:28,  1.40s/it]                                                         {'loss': 0.205, 'grad_norm': 1.4210673570632935, 'learning_rate': 1.8868933893771495e-05, 'epoch': 1.51}
  6%|▋         | 4942/78504 [2:59:29<28:34:28,  1.40s/it]  6%|▋         | 4943/78504 [2:59:30<26:41:16,  1.31s/it]                                                         {'loss': 0.2295, 'grad_norm': 0.76194167137146, 'learning_rate': 1.8872755063049294e-05, 'epoch': 1.51}
  6%|▋         | 4943/78504 [2:59:30<26:41:16,  1.31s/it]  6%|▋         | 4944/78504 [2:59:31<24:44:23,  1.21s/it]                                                         {'loss': 0.2706, 'grad_norm': 1.1102235317230225, 'learning_rate': 1.8876576232327093e-05, 'epoch': 1.51}
  6%|▋         | 4944/78504 [2:59:31<24:44:23,  1.21s/it]  6%|▋         | 4945/78504 [2:59:32<23:12:03,  1.14s/it]                                                         {'loss': 0.2842, 'grad_norm': 1.637995719909668, 'learning_rate': 1.888039740160489e-05, 'epoch': 1.51}
  6%|▋         | 4945/78504 [2:59:32<23:12:03,  1.14s/it]  6%|▋         | 4946/78504 [2:59:33<21:05:13,  1.03s/it]                                                         {'loss': 0.3023, 'grad_norm': 1.5571255683898926, 'learning_rate': 1.8884218570882694e-05, 'epoch': 1.51}
  6%|▋         | 4946/78504 [2:59:33<21:05:13,  1.03s/it]  6%|▋         | 4947/78504 [2:59:43<75:39:55,  3.70s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.38821372389793396, 'learning_rate': 1.8888039740160492e-05, 'epoch': 1.51}
  6%|▋         | 4947/78504 [2:59:43<75:39:55,  3.70s/it]  6%|▋         | 4948/78504 [2:59:46<71:59:32,  3.52s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.36260664463043213, 'learning_rate': 1.889186090943829e-05, 'epoch': 1.51}
  6%|▋         | 4948/78504 [2:59:46<71:59:32,  3.52s/it]  6%|▋         | 4949/78504 [2:59:49<68:52:32,  3.37s/it]                                                         {'loss': 0.0956, 'grad_norm': 0.3587612211704254, 'learning_rate': 1.889568207871609e-05, 'epoch': 1.51}
  6%|▋         | 4949/78504 [2:59:49<68:52:32,  3.37s/it]  6%|▋         | 4950/78504 [2:59:51<64:01:17,  3.13s/it]                                                         {'loss': 0.0933, 'grad_norm': 1.148869514465332, 'learning_rate': 1.889950324799389e-05, 'epoch': 1.51}
  6%|▋         | 4950/78504 [2:59:51<64:01:17,  3.13s/it]  6%|▋         | 4951/78504 [2:59:54<59:59:34,  2.94s/it]                                                         {'loss': 0.075, 'grad_norm': 0.5895735025405884, 'learning_rate': 1.8903324417271687e-05, 'epoch': 1.51}
  6%|▋         | 4951/78504 [2:59:54<59:59:34,  2.94s/it]  6%|▋         | 4952/78504 [2:59:56<55:57:01,  2.74s/it]                                                         {'loss': 0.0557, 'grad_norm': 0.29207852482795715, 'learning_rate': 1.8907145586549486e-05, 'epoch': 1.51}
  6%|▋         | 4952/78504 [2:59:56<55:57:01,  2.74s/it]  6%|▋         | 4953/78504 [2:59:58<54:35:30,  2.67s/it]                                                         {'loss': 0.0748, 'grad_norm': 0.40057939291000366, 'learning_rate': 1.8910966755827285e-05, 'epoch': 1.51}
  6%|▋         | 4953/78504 [2:59:59<54:35:30,  2.67s/it]  6%|▋         | 4954/78504 [3:00:01<51:10:10,  2.50s/it]                                                         {'loss': 0.0806, 'grad_norm': 0.32331568002700806, 'learning_rate': 1.8914787925105084e-05, 'epoch': 1.51}
  6%|▋         | 4954/78504 [3:00:01<51:10:10,  2.50s/it]  6%|▋         | 4955/78504 [3:00:03<49:11:48,  2.41s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.34926503896713257, 'learning_rate': 1.8918609094382882e-05, 'epoch': 1.51}
  6%|▋         | 4955/78504 [3:00:03<49:11:48,  2.41s/it]  6%|▋         | 4956/78504 [3:00:05<47:45:22,  2.34s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.3299182057380676, 'learning_rate': 1.892243026366068e-05, 'epoch': 1.52}
  6%|▋         | 4956/78504 [3:00:05<47:45:22,  2.34s/it]  6%|▋         | 4957/78504 [3:00:07<44:50:50,  2.20s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.5612989068031311, 'learning_rate': 1.892625143293848e-05, 'epoch': 1.52}
  6%|▋         | 4957/78504 [3:00:07<44:50:50,  2.20s/it]  6%|▋         | 4958/78504 [3:00:09<43:33:11,  2.13s/it]                                                         {'loss': 0.1031, 'grad_norm': 0.7178888916969299, 'learning_rate': 1.893007260221628e-05, 'epoch': 1.52}
  6%|▋         | 4958/78504 [3:00:09<43:33:11,  2.13s/it]  6%|▋         | 4959/78504 [3:00:11<41:57:01,  2.05s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.5304023623466492, 'learning_rate': 1.8933893771494077e-05, 'epoch': 1.52}
  6%|▋         | 4959/78504 [3:00:11<41:57:01,  2.05s/it]  6%|▋         | 4960/78504 [3:00:13<40:54:19,  2.00s/it]                                                         {'loss': 0.1415, 'grad_norm': 0.5711047053337097, 'learning_rate': 1.8937714940771876e-05, 'epoch': 1.52}
  6%|▋         | 4960/78504 [3:00:13<40:54:19,  2.00s/it]  6%|▋         | 4961/78504 [3:00:14<39:26:47,  1.93s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.44714391231536865, 'learning_rate': 1.8941536110049675e-05, 'epoch': 1.52}
  6%|▋         | 4961/78504 [3:00:14<39:26:47,  1.93s/it]  6%|▋         | 4962/78504 [3:00:16<37:45:51,  1.85s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.6735883355140686, 'learning_rate': 1.8945357279327477e-05, 'epoch': 1.52}
  6%|▋         | 4962/78504 [3:00:16<37:45:51,  1.85s/it]  6%|▋         | 4963/78504 [3:00:18<35:54:49,  1.76s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.7732380628585815, 'learning_rate': 1.8949178448605276e-05, 'epoch': 1.52}
  6%|▋         | 4963/78504 [3:00:18<35:54:49,  1.76s/it]  6%|▋         | 4964/78504 [3:00:19<34:07:32,  1.67s/it]                                                         {'loss': 0.2603, 'grad_norm': 0.5790312886238098, 'learning_rate': 1.8952999617883074e-05, 'epoch': 1.52}
  6%|▋         | 4964/78504 [3:00:19<34:07:32,  1.67s/it]  6%|▋         | 4965/78504 [3:00:20<32:30:01,  1.59s/it]                                                         {'loss': 0.214, 'grad_norm': 0.7518157958984375, 'learning_rate': 1.8956820787160873e-05, 'epoch': 1.52}
  6%|▋         | 4965/78504 [3:00:20<32:30:01,  1.59s/it]  6%|▋         | 4966/78504 [3:00:22<30:38:45,  1.50s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.8717190027236938, 'learning_rate': 1.8960641956438672e-05, 'epoch': 1.52}
  6%|▋         | 4966/78504 [3:00:22<30:38:45,  1.50s/it]  6%|▋         | 4967/78504 [3:00:23<28:33:17,  1.40s/it]                                                         {'loss': 0.2108, 'grad_norm': 0.7249079346656799, 'learning_rate': 1.896446312571647e-05, 'epoch': 1.52}
  6%|▋         | 4967/78504 [3:00:23<28:33:17,  1.40s/it]  6%|▋         | 4968/78504 [3:00:24<26:42:36,  1.31s/it]                                                         {'loss': 0.2838, 'grad_norm': 0.8577327728271484, 'learning_rate': 1.896828429499427e-05, 'epoch': 1.52}
  6%|▋         | 4968/78504 [3:00:24<26:42:36,  1.31s/it]  6%|▋         | 4969/78504 [3:00:25<25:05:36,  1.23s/it]                                                         {'loss': 0.225, 'grad_norm': 1.3590738773345947, 'learning_rate': 1.8972105464272068e-05, 'epoch': 1.52}
  6%|▋         | 4969/78504 [3:00:25<25:05:36,  1.23s/it]  6%|▋         | 4970/78504 [3:00:26<23:14:46,  1.14s/it]                                                         {'loss': 0.2348, 'grad_norm': 1.5222363471984863, 'learning_rate': 1.8975926633549867e-05, 'epoch': 1.52}
  6%|▋         | 4970/78504 [3:00:26<23:14:46,  1.14s/it]  6%|▋         | 4971/78504 [3:00:27<21:13:51,  1.04s/it]                                                         {'loss': 0.333, 'grad_norm': 3.0668606758117676, 'learning_rate': 1.8979747802827666e-05, 'epoch': 1.52}
  6%|▋         | 4971/78504 [3:00:27<21:13:51,  1.04s/it]  6%|▋         | 4972/78504 [3:00:33<56:22:28,  2.76s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.4727480411529541, 'learning_rate': 1.8983568972105464e-05, 'epoch': 1.52}
  6%|▋         | 4972/78504 [3:00:34<56:22:28,  2.76s/it]  6%|▋         | 4973/78504 [3:00:37<59:24:50,  2.91s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.3431470990180969, 'learning_rate': 1.8987390141383263e-05, 'epoch': 1.52}
  6%|▋         | 4973/78504 [3:00:37<59:24:50,  2.91s/it]  6%|▋         | 4974/78504 [3:00:39<58:13:45,  2.85s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.39911338686943054, 'learning_rate': 1.8991211310661062e-05, 'epoch': 1.52}
  6%|▋         | 4974/78504 [3:00:39<58:13:45,  2.85s/it]  6%|▋         | 4975/78504 [3:00:42<56:37:23,  2.77s/it]                                                         {'loss': 0.0621, 'grad_norm': 0.23813456296920776, 'learning_rate': 1.899503247993886e-05, 'epoch': 1.52}
  6%|▋         | 4975/78504 [3:00:42<56:37:23,  2.77s/it]  6%|▋         | 4976/78504 [3:00:45<54:47:38,  2.68s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.3880382478237152, 'learning_rate': 1.899885364921666e-05, 'epoch': 1.52}
  6%|▋         | 4976/78504 [3:00:45<54:47:38,  2.68s/it]  6%|▋         | 4977/78504 [3:00:47<52:14:37,  2.56s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.3030521273612976, 'learning_rate': 1.900267481849446e-05, 'epoch': 1.52}
  6%|▋         | 4977/78504 [3:00:47<52:14:37,  2.56s/it]  6%|▋         | 4978/78504 [3:00:49<50:51:26,  2.49s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.2954086661338806, 'learning_rate': 1.900649598777226e-05, 'epoch': 1.52}
  6%|▋         | 4978/78504 [3:00:49<50:51:26,  2.49s/it]  6%|▋         | 4979/78504 [3:00:51<48:25:23,  2.37s/it]                                                         {'loss': 0.086, 'grad_norm': 0.35800549387931824, 'learning_rate': 1.901031715705006e-05, 'epoch': 1.52}
  6%|▋         | 4979/78504 [3:00:51<48:25:23,  2.37s/it]  6%|▋         | 4980/78504 [3:00:53<46:17:39,  2.27s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.4349730312824249, 'learning_rate': 1.9014138326327858e-05, 'epoch': 1.52}
  6%|▋         | 4980/78504 [3:00:53<46:17:39,  2.27s/it]  6%|▋         | 4981/78504 [3:00:55<45:31:36,  2.23s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.351866751909256, 'learning_rate': 1.9017959495605657e-05, 'epoch': 1.52}
  6%|▋         | 4981/78504 [3:00:55<45:31:36,  2.23s/it]  6%|▋         | 4982/78504 [3:00:57<44:17:09,  2.17s/it]                                                         {'loss': 0.1181, 'grad_norm': 0.391336053609848, 'learning_rate': 1.9021780664883455e-05, 'epoch': 1.52}
  6%|▋         | 4982/78504 [3:00:57<44:17:09,  2.17s/it]  6%|▋         | 4983/78504 [3:00:59<43:05:06,  2.11s/it]                                                         {'loss': 0.0877, 'grad_norm': 0.43385666608810425, 'learning_rate': 1.9025601834161254e-05, 'epoch': 1.52}
  6%|▋         | 4983/78504 [3:00:59<43:05:06,  2.11s/it]  6%|▋         | 4984/78504 [3:01:01<41:35:46,  2.04s/it]                                                         {'loss': 0.1109, 'grad_norm': 0.7044318318367004, 'learning_rate': 1.9029423003439053e-05, 'epoch': 1.52}
  6%|▋         | 4984/78504 [3:01:01<41:35:46,  2.04s/it]  6%|▋         | 4985/78504 [3:01:03<40:37:10,  1.99s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.489425927400589, 'learning_rate': 1.903324417271685e-05, 'epoch': 1.52}
  6%|▋         | 4985/78504 [3:01:03<40:37:10,  1.99s/it]  6%|▋         | 4986/78504 [3:01:05<39:16:59,  1.92s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.6873739361763, 'learning_rate': 1.903706534199465e-05, 'epoch': 1.52}
  6%|▋         | 4986/78504 [3:01:05<39:16:59,  1.92s/it]  6%|▋         | 4987/78504 [3:01:07<37:43:09,  1.85s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.5043721199035645, 'learning_rate': 1.904088651127245e-05, 'epoch': 1.52}
  6%|▋         | 4987/78504 [3:01:07<37:43:09,  1.85s/it]  6%|▋         | 4988/78504 [3:01:08<35:54:14,  1.76s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.8650913238525391, 'learning_rate': 1.9044707680550248e-05, 'epoch': 1.52}
  6%|▋         | 4988/78504 [3:01:08<35:54:14,  1.76s/it]  6%|▋         | 4989/78504 [3:01:10<34:27:54,  1.69s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.6952762603759766, 'learning_rate': 1.9048528849828046e-05, 'epoch': 1.53}
  6%|▋         | 4989/78504 [3:01:10<34:27:54,  1.69s/it]  6%|▋         | 4990/78504 [3:01:11<32:46:44,  1.61s/it]                                                         {'loss': 0.1945, 'grad_norm': 1.081365942955017, 'learning_rate': 1.9052350019105845e-05, 'epoch': 1.53}
  6%|▋         | 4990/78504 [3:01:11<32:46:44,  1.61s/it]  6%|▋         | 4991/78504 [3:01:12<30:51:23,  1.51s/it]                                                         {'loss': 0.2416, 'grad_norm': 0.7554844617843628, 'learning_rate': 1.9056171188383644e-05, 'epoch': 1.53}
  6%|▋         | 4991/78504 [3:01:12<30:51:23,  1.51s/it]  6%|▋         | 4992/78504 [3:01:13<28:39:10,  1.40s/it]                                                         {'loss': 0.219, 'grad_norm': 1.2621569633483887, 'learning_rate': 1.9059992357661443e-05, 'epoch': 1.53}
  6%|▋         | 4992/78504 [3:01:14<28:39:10,  1.40s/it]  6%|▋         | 4993/78504 [3:01:15<26:43:50,  1.31s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.9922550320625305, 'learning_rate': 1.9063813526939245e-05, 'epoch': 1.53}
  6%|▋         | 4993/78504 [3:01:15<26:43:50,  1.31s/it]  6%|▋         | 4994/78504 [3:01:16<25:07:49,  1.23s/it]                                                         {'loss': 0.2276, 'grad_norm': 1.2834727764129639, 'learning_rate': 1.9067634696217044e-05, 'epoch': 1.53}
  6%|▋         | 4994/78504 [3:01:16<25:07:49,  1.23s/it]  6%|▋         | 4995/78504 [3:01:17<23:17:22,  1.14s/it]                                                         {'loss': 0.2547, 'grad_norm': 1.2329216003417969, 'learning_rate': 1.9071455865494842e-05, 'epoch': 1.53}
  6%|▋         | 4995/78504 [3:01:17<23:17:22,  1.14s/it]  6%|▋         | 4996/78504 [3:01:17<21:18:34,  1.04s/it]                                                         {'loss': 0.327, 'grad_norm': 3.148815631866455, 'learning_rate': 1.907527703477264e-05, 'epoch': 1.53}
  6%|▋         | 4996/78504 [3:01:17<21:18:34,  1.04s/it]  6%|▋         | 4997/78504 [3:01:28<79:51:45,  3.91s/it]                                                         {'loss': 0.165, 'grad_norm': 0.44290104508399963, 'learning_rate': 1.907909820405044e-05, 'epoch': 1.53}
  6%|▋         | 4997/78504 [3:01:28<79:51:45,  3.91s/it]  6%|▋         | 4998/78504 [3:01:31<75:53:49,  3.72s/it]                                                         {'loss': 0.1246, 'grad_norm': 0.38635727763175964, 'learning_rate': 1.908291937332824e-05, 'epoch': 1.53}
  6%|▋         | 4998/78504 [3:01:31<75:53:49,  3.72s/it]  6%|▋         | 4999/78504 [3:01:34<71:35:30,  3.51s/it]                                                         {'loss': 0.091, 'grad_norm': 0.48612073063850403, 'learning_rate': 1.9086740542606037e-05, 'epoch': 1.53}
  6%|▋         | 4999/78504 [3:01:34<71:35:30,  3.51s/it]  6%|▋         | 5000/78504 [3:01:37<65:57:40,  3.23s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.24528491497039795, 'learning_rate': 1.9090561711883836e-05, 'epoch': 1.53}
  6%|▋         | 5000/78504 [3:01:37<65:57:40,  3.23s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.55it/s][A
 20%|██        | 3/15 [00:01<00:04,  2.68it/s][A
 27%|██▋       | 4/15 [00:02<00:07,  1.50it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.71it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.01it/s][A
 47%|████▋     | 7/15 [00:03<00:03,  2.46it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.47it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.70it/s][A
 67%|██████▋   | 10/15 [00:05<00:02,  2.06it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.37it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.51it/s][A
 87%|████████▋ | 13/15 [00:07<00:01,  1.80it/s][A
 93%|█████████▎| 14/15 [00:07<00:00,  2.21it/s][A
100%|██████████| 15/15 [00:09<00:00,  1.19it/s][A                                                         
                                               [A{'eval_loss': 0.2664967179298401, 'eval_wer': 0.3554369989665093, 'eval_cer': 0.19423259467775195, 'eval_runtime': 19.8431, 'eval_samples_per_second': 228.694, 'eval_steps_per_second': 0.756, 'epoch': 1.53}
  6%|▋         | 5000/78504 [3:02:44<65:57:40,  3.23s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-5000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-3000] due to args.save_total_limit
  6%|▋         | 5001/78504 [3:03:03<571:00:53, 27.97s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.26022011041641235, 'learning_rate': 1.9094382881161635e-05, 'epoch': 1.53}
  6%|▋         | 5001/78504 [3:03:03<571:00:53, 27.97s/it]  6%|▋         | 5002/78504 [3:03:05<413:13:01, 20.24s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.33723950386047363, 'learning_rate': 1.9098204050439434e-05, 'epoch': 1.53}
  6%|▋         | 5002/78504 [3:03:05<413:13:01, 20.24s/it]  6%|▋         | 5003/78504 [3:03:07<303:34:41, 14.87s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.6045982241630554, 'learning_rate': 1.9102025219717232e-05, 'epoch': 1.53}
  6%|▋         | 5003/78504 [3:03:07<303:34:41, 14.87s/it]  6%|▋         | 5004/78504 [3:03:09<225:13:51, 11.03s/it]                                                          {'loss': 0.0758, 'grad_norm': 0.371838241815567, 'learning_rate': 1.910584638899503e-05, 'epoch': 1.53}
  6%|▋         | 5004/78504 [3:03:09<225:13:51, 11.03s/it]  6%|▋         | 5005/78504 [3:03:11<171:02:34,  8.38s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.3353448808193207, 'learning_rate': 1.910966755827283e-05, 'epoch': 1.53}
  6%|▋         | 5005/78504 [3:03:11<171:02:34,  8.38s/it]  6%|▋         | 5006/78504 [3:03:13<132:48:59,  6.51s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.33614182472229004, 'learning_rate': 1.911348872755063e-05, 'epoch': 1.53}
  6%|▋         | 5006/78504 [3:03:13<132:48:59,  6.51s/it]  6%|▋         | 5007/78504 [3:03:16<105:21:30,  5.16s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.45001932978630066, 'learning_rate': 1.9117309896828427e-05, 'epoch': 1.53}
  6%|▋         | 5007/78504 [3:03:16<105:21:30,  5.16s/it]  6%|▋         | 5008/78504 [3:03:17<85:50:28,  4.20s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.3648279309272766, 'learning_rate': 1.912113106610623e-05, 'epoch': 1.53}
  6%|▋         | 5008/78504 [3:03:17<85:50:28,  4.20s/it]  6%|▋         | 5009/78504 [3:03:19<71:36:55,  3.51s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.4051543176174164, 'learning_rate': 1.9124952235384028e-05, 'epoch': 1.53}
  6%|▋         | 5009/78504 [3:03:19<71:36:55,  3.51s/it]  6%|▋         | 5010/78504 [3:03:21<61:38:38,  3.02s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.9530391693115234, 'learning_rate': 1.9128773404661827e-05, 'epoch': 1.53}
  6%|▋         | 5010/78504 [3:03:21<61:38:38,  3.02s/it]  6%|▋         | 5011/78504 [3:03:23<53:54:30,  2.64s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.7970960140228271, 'learning_rate': 1.9132594573939626e-05, 'epoch': 1.53}
  6%|▋         | 5011/78504 [3:03:23<53:54:30,  2.64s/it]  6%|▋         | 5012/78504 [3:03:25<47:52:08,  2.34s/it]                                                         {'loss': 0.1531, 'grad_norm': 0.6350681185722351, 'learning_rate': 1.9136415743217424e-05, 'epoch': 1.53}
  6%|▋         | 5012/78504 [3:03:25<47:52:08,  2.34s/it]  6%|▋         | 5013/78504 [3:03:26<42:55:53,  2.10s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.6647037863731384, 'learning_rate': 1.9140236912495223e-05, 'epoch': 1.53}
  6%|▋         | 5013/78504 [3:03:26<42:55:53,  2.10s/it]  6%|▋         | 5014/78504 [3:03:28<39:00:04,  1.91s/it]                                                         {'loss': 0.2006, 'grad_norm': 1.2845869064331055, 'learning_rate': 1.9144058081773022e-05, 'epoch': 1.53}
  6%|▋         | 5014/78504 [3:03:28<39:00:04,  1.91s/it]  6%|▋         | 5015/78504 [3:03:29<35:47:00,  1.75s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.6773020029067993, 'learning_rate': 1.914787925105082e-05, 'epoch': 1.53}
  6%|▋         | 5015/78504 [3:03:29<35:47:00,  1.75s/it]  6%|▋         | 5016/78504 [3:03:30<32:54:46,  1.61s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.7549684047698975, 'learning_rate': 1.915170042032862e-05, 'epoch': 1.53}
  6%|▋         | 5016/78504 [3:03:30<32:54:46,  1.61s/it]  6%|▋         | 5017/78504 [3:03:31<30:04:07,  1.47s/it]                                                         {'loss': 0.251, 'grad_norm': 0.8783038854598999, 'learning_rate': 1.9155521589606418e-05, 'epoch': 1.53}
  6%|▋         | 5017/78504 [3:03:32<30:04:07,  1.47s/it]  6%|▋         | 5018/78504 [3:03:33<27:48:09,  1.36s/it]                                                         {'loss': 0.2361, 'grad_norm': 1.4937266111373901, 'learning_rate': 1.915934275888422e-05, 'epoch': 1.53}
  6%|▋         | 5018/78504 [3:03:33<27:48:09,  1.36s/it]  6%|▋         | 5019/78504 [3:03:34<25:51:58,  1.27s/it]                                                         {'loss': 0.2216, 'grad_norm': 1.2812259197235107, 'learning_rate': 1.916316392816202e-05, 'epoch': 1.53}
  6%|▋         | 5019/78504 [3:03:34<25:51:58,  1.27s/it]  6%|▋         | 5020/78504 [3:03:35<23:57:34,  1.17s/it]                                                         {'loss': 0.266, 'grad_norm': 3.4741451740264893, 'learning_rate': 1.9166985097439818e-05, 'epoch': 1.53}
  6%|▋         | 5020/78504 [3:03:35<23:57:34,  1.17s/it]  6%|▋         | 5021/78504 [3:03:35<21:35:17,  1.06s/it]                                                         {'loss': 0.3542, 'grad_norm': 1.8746196031570435, 'learning_rate': 1.9170806266717616e-05, 'epoch': 1.54}
  6%|▋         | 5021/78504 [3:03:35<21:35:17,  1.06s/it]  6%|▋         | 5022/78504 [3:03:44<66:18:29,  3.25s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.751751720905304, 'learning_rate': 1.9174627435995415e-05, 'epoch': 1.54}
  6%|▋         | 5022/78504 [3:03:44<66:18:29,  3.25s/it]  6%|▋         | 5023/78504 [3:03:47<65:35:56,  3.21s/it]                                                         {'loss': 0.0919, 'grad_norm': 0.47577935457229614, 'learning_rate': 1.9178448605273214e-05, 'epoch': 1.54}
  6%|▋         | 5023/78504 [3:03:47<65:35:56,  3.21s/it]  6%|▋         | 5024/78504 [3:03:49<61:34:53,  3.02s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.33609145879745483, 'learning_rate': 1.9182269774551016e-05, 'epoch': 1.54}
  6%|▋         | 5024/78504 [3:03:49<61:34:53,  3.02s/it]  6%|▋         | 5025/78504 [3:03:52<59:05:09,  2.89s/it]                                                         {'loss': 0.0602, 'grad_norm': 0.3044179379940033, 'learning_rate': 1.9186090943828815e-05, 'epoch': 1.54}
  6%|▋         | 5025/78504 [3:03:52<59:05:09,  2.89s/it]  6%|▋         | 5026/78504 [3:03:54<56:27:29,  2.77s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.3211282193660736, 'learning_rate': 1.9189912113106614e-05, 'epoch': 1.54}
  6%|▋         | 5026/78504 [3:03:55<56:27:29,  2.77s/it]  6%|▋         | 5027/78504 [3:03:57<53:21:54,  2.61s/it]                                                         {'loss': 0.0551, 'grad_norm': 0.27924609184265137, 'learning_rate': 1.9193733282384412e-05, 'epoch': 1.54}
  6%|▋         | 5027/78504 [3:03:57<53:21:54,  2.61s/it]  6%|▋         | 5028/78504 [3:03:59<51:32:21,  2.53s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.36021167039871216, 'learning_rate': 1.919755445166221e-05, 'epoch': 1.54}
  6%|▋         | 5028/78504 [3:03:59<51:32:21,  2.53s/it]  6%|▋         | 5029/78504 [3:04:01<48:56:23,  2.40s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.43041202425956726, 'learning_rate': 1.920137562094001e-05, 'epoch': 1.54}
  6%|▋         | 5029/78504 [3:04:01<48:56:23,  2.40s/it]  6%|▋         | 5030/78504 [3:04:03<47:36:18,  2.33s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.4870952069759369, 'learning_rate': 1.920519679021781e-05, 'epoch': 1.54}
  6%|▋         | 5030/78504 [3:04:03<47:36:18,  2.33s/it]  6%|▋         | 5031/78504 [3:04:05<46:31:40,  2.28s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.45996716618537903, 'learning_rate': 1.9209017959495607e-05, 'epoch': 1.54}
  6%|▋         | 5031/78504 [3:04:06<46:31:40,  2.28s/it]  6%|▋         | 5032/78504 [3:04:07<43:58:05,  2.15s/it]                                                         {'loss': 0.137, 'grad_norm': 0.49633684754371643, 'learning_rate': 1.9212839128773406e-05, 'epoch': 1.54}
  6%|▋         | 5032/78504 [3:04:07<43:58:05,  2.15s/it]  6%|▋         | 5033/78504 [3:04:09<42:53:46,  2.10s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.42615729570388794, 'learning_rate': 1.9216660298051205e-05, 'epoch': 1.54}
  6%|▋         | 5033/78504 [3:04:09<42:53:46,  2.10s/it]  6%|▋         | 5034/78504 [3:04:11<41:43:50,  2.04s/it]                                                         {'loss': 0.1312, 'grad_norm': 0.6506653428077698, 'learning_rate': 1.9220481467329004e-05, 'epoch': 1.54}
  6%|▋         | 5034/78504 [3:04:11<41:43:50,  2.04s/it]  6%|▋         | 5035/78504 [3:04:13<40:47:00,  2.00s/it]                                                         {'loss': 0.1369, 'grad_norm': 0.6678722500801086, 'learning_rate': 1.9224302636606802e-05, 'epoch': 1.54}
  6%|▋         | 5035/78504 [3:04:13<40:47:00,  2.00s/it]  6%|▋         | 5036/78504 [3:04:15<39:19:46,  1.93s/it]                                                         {'loss': 0.128, 'grad_norm': 0.6212034225463867, 'learning_rate': 1.92281238058846e-05, 'epoch': 1.54}
  6%|▋         | 5036/78504 [3:04:15<39:19:46,  1.93s/it]  6%|▋         | 5037/78504 [3:04:17<37:34:47,  1.84s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.5702893733978271, 'learning_rate': 1.92319449751624e-05, 'epoch': 1.54}
  6%|▋         | 5037/78504 [3:04:17<37:34:47,  1.84s/it]  6%|▋         | 5038/78504 [3:04:18<35:42:42,  1.75s/it]                                                         {'loss': 0.213, 'grad_norm': 0.7908552885055542, 'learning_rate': 1.92357661444402e-05, 'epoch': 1.54}
  6%|▋         | 5038/78504 [3:04:18<35:42:42,  1.75s/it]  6%|▋         | 5039/78504 [3:04:20<34:00:03,  1.67s/it]                                                         {'loss': 0.1999, 'grad_norm': 0.8467127680778503, 'learning_rate': 1.9239587313718e-05, 'epoch': 1.54}
  6%|▋         | 5039/78504 [3:04:20<34:00:03,  1.67s/it]  6%|▋         | 5040/78504 [3:04:21<32:18:51,  1.58s/it]                                                         {'loss': 0.205, 'grad_norm': 0.7696900367736816, 'learning_rate': 1.92434084829958e-05, 'epoch': 1.54}
  6%|▋         | 5040/78504 [3:04:21<32:18:51,  1.58s/it]  6%|▋         | 5041/78504 [3:04:22<30:25:34,  1.49s/it]                                                         {'loss': 0.2317, 'grad_norm': 1.2953177690505981, 'learning_rate': 1.9247229652273598e-05, 'epoch': 1.54}
  6%|▋         | 5041/78504 [3:04:22<30:25:34,  1.49s/it]  6%|▋         | 5042/78504 [3:04:23<28:19:28,  1.39s/it]                                                         {'loss': 0.2468, 'grad_norm': 5.688636302947998, 'learning_rate': 1.9251050821551397e-05, 'epoch': 1.54}
  6%|▋         | 5042/78504 [3:04:23<28:19:28,  1.39s/it]  6%|▋         | 5043/78504 [3:04:24<26:30:22,  1.30s/it]                                                         {'loss': 0.2542, 'grad_norm': 0.9428754448890686, 'learning_rate': 1.9254871990829196e-05, 'epoch': 1.54}
  6%|▋         | 5043/78504 [3:04:24<26:30:22,  1.30s/it]  6%|▋         | 5044/78504 [3:04:26<25:02:43,  1.23s/it]                                                         {'loss': 0.2663, 'grad_norm': 1.133868932723999, 'learning_rate': 1.9258693160106994e-05, 'epoch': 1.54}
  6%|▋         | 5044/78504 [3:04:26<25:02:43,  1.23s/it]  6%|▋         | 5045/78504 [3:04:26<23:13:28,  1.14s/it]                                                         {'loss': 0.2101, 'grad_norm': 1.019255518913269, 'learning_rate': 1.9262514329384793e-05, 'epoch': 1.54}
  6%|▋         | 5045/78504 [3:04:26<23:13:28,  1.14s/it]  6%|▋         | 5046/78504 [3:04:27<21:00:25,  1.03s/it]                                                         {'loss': 0.329, 'grad_norm': 5.923823833465576, 'learning_rate': 1.9266335498662592e-05, 'epoch': 1.54}
  6%|▋         | 5046/78504 [3:04:27<21:00:25,  1.03s/it]  6%|▋         | 5047/78504 [3:04:37<73:28:54,  3.60s/it]                                                         {'loss': 0.2207, 'grad_norm': 0.6197856664657593, 'learning_rate': 1.927015666794039e-05, 'epoch': 1.54}
  6%|▋         | 5047/78504 [3:04:37<73:28:54,  3.60s/it]  6%|▋         | 5048/78504 [3:04:40<71:55:02,  3.52s/it]                                                         {'loss': 0.0897, 'grad_norm': 0.34277698397636414, 'learning_rate': 1.927397783721819e-05, 'epoch': 1.54}
  6%|▋         | 5048/78504 [3:04:40<71:55:02,  3.52s/it]  6%|▋         | 5049/78504 [3:04:43<66:05:22,  3.24s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.3203091621398926, 'learning_rate': 1.9277799006495988e-05, 'epoch': 1.54}
  6%|▋         | 5049/78504 [3:04:43<66:05:22,  3.24s/it]  6%|▋         | 5050/78504 [3:04:45<62:15:32,  3.05s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.4086128771305084, 'learning_rate': 1.9281620175773787e-05, 'epoch': 1.54}
  6%|▋         | 5050/78504 [3:04:45<62:15:32,  3.05s/it]  6%|▋         | 5051/78504 [3:04:48<58:42:18,  2.88s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.3898080289363861, 'learning_rate': 1.9285441345051586e-05, 'epoch': 1.54}
  6%|▋         | 5051/78504 [3:04:48<58:42:18,  2.88s/it]  6%|▋         | 5052/78504 [3:04:50<54:56:42,  2.69s/it]                                                         {'loss': 0.0575, 'grad_norm': 0.29863685369491577, 'learning_rate': 1.9289262514329384e-05, 'epoch': 1.54}
  6%|▋         | 5052/78504 [3:04:50<54:56:42,  2.69s/it]  6%|▋         | 5053/78504 [3:04:52<52:43:59,  2.58s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.38095057010650635, 'learning_rate': 1.9293083683607183e-05, 'epoch': 1.54}
  6%|▋         | 5053/78504 [3:04:52<52:43:59,  2.58s/it]  6%|▋         | 5054/78504 [3:04:55<49:44:07,  2.44s/it]                                                         {'loss': 0.055, 'grad_norm': 0.28735846281051636, 'learning_rate': 1.9296904852884982e-05, 'epoch': 1.55}
  6%|▋         | 5054/78504 [3:04:55<49:44:07,  2.44s/it]  6%|▋         | 5055/78504 [3:04:57<48:12:22,  2.36s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.4409816861152649, 'learning_rate': 1.9300726022162784e-05, 'epoch': 1.55}
  6%|▋         | 5055/78504 [3:04:57<48:12:22,  2.36s/it]  6%|▋         | 5056/78504 [3:04:59<46:51:09,  2.30s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.29672375321388245, 'learning_rate': 1.9304547191440583e-05, 'epoch': 1.55}
  6%|▋         | 5056/78504 [3:04:59<46:51:09,  2.30s/it]  6%|▋         | 5057/78504 [3:05:01<45:08:59,  2.21s/it]                                                         {'loss': 0.1148, 'grad_norm': 0.43669456243515015, 'learning_rate': 1.930836836071838e-05, 'epoch': 1.55}
  6%|▋         | 5057/78504 [3:05:01<45:08:59,  2.21s/it]  6%|▋         | 5058/78504 [3:05:03<43:42:30,  2.14s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.43646520376205444, 'learning_rate': 1.931218952999618e-05, 'epoch': 1.55}
  6%|▋         | 5058/78504 [3:05:03<43:42:30,  2.14s/it]  6%|▋         | 5059/78504 [3:05:05<42:11:44,  2.07s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.5107153654098511, 'learning_rate': 1.931601069927398e-05, 'epoch': 1.55}
  6%|▋         | 5059/78504 [3:05:05<42:11:44,  2.07s/it]  6%|▋         | 5060/78504 [3:05:07<40:57:18,  2.01s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.5184035897254944, 'learning_rate': 1.9319831868551778e-05, 'epoch': 1.55}
  6%|▋         | 5060/78504 [3:05:07<40:57:18,  2.01s/it]  6%|▋         | 5061/78504 [3:05:08<39:31:47,  1.94s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.7768357992172241, 'learning_rate': 1.9323653037829576e-05, 'epoch': 1.55}
  6%|▋         | 5061/78504 [3:05:08<39:31:47,  1.94s/it]  6%|▋         | 5062/78504 [3:05:10<37:44:55,  1.85s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.6040539741516113, 'learning_rate': 1.9327474207107375e-05, 'epoch': 1.55}
  6%|▋         | 5062/78504 [3:05:10<37:44:55,  1.85s/it]  6%|▋         | 5063/78504 [3:05:12<35:50:14,  1.76s/it]                                                         {'loss': 0.2084, 'grad_norm': 0.6710765957832336, 'learning_rate': 1.9331295376385174e-05, 'epoch': 1.55}
  6%|▋         | 5063/78504 [3:05:12<35:50:14,  1.76s/it]  6%|▋         | 5064/78504 [3:05:13<34:09:24,  1.67s/it]                                                         {'loss': 0.1961, 'grad_norm': 0.9016476273536682, 'learning_rate': 1.9335116545662973e-05, 'epoch': 1.55}
  6%|▋         | 5064/78504 [3:05:13<34:09:24,  1.67s/it]  6%|▋         | 5065/78504 [3:05:14<32:27:37,  1.59s/it]                                                         {'loss': 0.221, 'grad_norm': 0.9498496651649475, 'learning_rate': 1.933893771494077e-05, 'epoch': 1.55}
  6%|▋         | 5065/78504 [3:05:14<32:27:37,  1.59s/it]  6%|▋         | 5066/78504 [3:05:16<30:34:43,  1.50s/it]                                                         {'loss': 0.2423, 'grad_norm': 1.0945305824279785, 'learning_rate': 1.934275888421857e-05, 'epoch': 1.55}
  6%|▋         | 5066/78504 [3:05:16<30:34:43,  1.50s/it]  6%|▋         | 5067/78504 [3:05:17<28:26:15,  1.39s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.809063732624054, 'learning_rate': 1.934658005349637e-05, 'epoch': 1.55}
  6%|▋         | 5067/78504 [3:05:17<28:26:15,  1.39s/it]  6%|▋         | 5068/78504 [3:05:18<26:40:08,  1.31s/it]                                                         {'loss': 0.2597, 'grad_norm': 1.23871910572052, 'learning_rate': 1.9350401222774168e-05, 'epoch': 1.55}
  6%|▋         | 5068/78504 [3:05:18<26:40:08,  1.31s/it]  6%|▋         | 5069/78504 [3:05:19<24:46:02,  1.21s/it]                                                         {'loss': 0.2353, 'grad_norm': 1.0463440418243408, 'learning_rate': 1.9354222392051966e-05, 'epoch': 1.55}
  6%|▋         | 5069/78504 [3:05:19<24:46:02,  1.21s/it]  6%|▋         | 5070/78504 [3:05:20<23:05:50,  1.13s/it]                                                         {'loss': 0.2968, 'grad_norm': 1.0745391845703125, 'learning_rate': 1.935804356132977e-05, 'epoch': 1.55}
  6%|▋         | 5070/78504 [3:05:20<23:05:50,  1.13s/it]  6%|▋         | 5071/78504 [3:05:21<20:59:22,  1.03s/it]                                                         {'loss': 0.2656, 'grad_norm': 5.404260635375977, 'learning_rate': 1.9361864730607567e-05, 'epoch': 1.55}
  6%|▋         | 5071/78504 [3:05:21<20:59:22,  1.03s/it]  6%|▋         | 5072/78504 [3:05:29<65:42:02,  3.22s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.3206956088542938, 'learning_rate': 1.9365685899885366e-05, 'epoch': 1.55}
  6%|▋         | 5072/78504 [3:05:29<65:42:02,  3.22s/it]  6%|▋         | 5073/78504 [3:05:32<64:49:33,  3.18s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.2982710599899292, 'learning_rate': 1.9369507069163165e-05, 'epoch': 1.55}
  6%|▋         | 5073/78504 [3:05:32<64:49:33,  3.18s/it]  6%|▋         | 5074/78504 [3:05:35<61:05:07,  2.99s/it]                                                         {'loss': 0.0919, 'grad_norm': 0.47494742274284363, 'learning_rate': 1.9373328238440963e-05, 'epoch': 1.55}
  6%|▋         | 5074/78504 [3:05:35<61:05:07,  2.99s/it]  6%|▋         | 5075/78504 [3:05:37<58:47:17,  2.88s/it]                                                         {'loss': 0.096, 'grad_norm': 0.3186666667461395, 'learning_rate': 1.9377149407718762e-05, 'epoch': 1.55}
  6%|▋         | 5075/78504 [3:05:37<58:47:17,  2.88s/it]  6%|▋         | 5076/78504 [3:05:40<56:24:03,  2.77s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.4480159282684326, 'learning_rate': 1.938097057699656e-05, 'epoch': 1.55}
  6%|▋         | 5076/78504 [3:05:40<56:24:03,  2.77s/it]  6%|▋         | 5077/78504 [3:05:42<54:21:56,  2.67s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.33549806475639343, 'learning_rate': 1.938479174627436e-05, 'epoch': 1.55}
  6%|▋         | 5077/78504 [3:05:42<54:21:56,  2.67s/it]  6%|▋         | 5078/78504 [3:05:45<52:13:54,  2.56s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.2994624972343445, 'learning_rate': 1.938861291555216e-05, 'epoch': 1.55}
  6%|▋         | 5078/78504 [3:05:45<52:13:54,  2.56s/it]  6%|▋         | 5079/78504 [3:05:47<49:32:42,  2.43s/it]                                                         {'loss': 0.0867, 'grad_norm': 0.4775316119194031, 'learning_rate': 1.9392434084829957e-05, 'epoch': 1.55}
  6%|▋         | 5079/78504 [3:05:47<49:32:42,  2.43s/it]  6%|▋         | 5080/78504 [3:05:49<48:03:55,  2.36s/it]                                                         {'loss': 0.0651, 'grad_norm': 0.25942039489746094, 'learning_rate': 1.9396255254107756e-05, 'epoch': 1.55}
  6%|▋         | 5080/78504 [3:05:49<48:03:55,  2.36s/it]  6%|▋         | 5081/78504 [3:05:51<46:53:53,  2.30s/it]                                                         {'loss': 0.0862, 'grad_norm': 0.5041511654853821, 'learning_rate': 1.9400076423385555e-05, 'epoch': 1.55}
  6%|▋         | 5081/78504 [3:05:51<46:53:53,  2.30s/it]  6%|▋         | 5082/78504 [3:05:53<45:18:04,  2.22s/it]                                                         {'loss': 0.108, 'grad_norm': 0.4237000346183777, 'learning_rate': 1.9403897592663353e-05, 'epoch': 1.55}
  6%|▋         | 5082/78504 [3:05:53<45:18:04,  2.22s/it]  6%|▋         | 5083/78504 [3:05:55<43:52:22,  2.15s/it]                                                         {'loss': 0.0944, 'grad_norm': 0.3624696135520935, 'learning_rate': 1.9407718761941152e-05, 'epoch': 1.55}
  6%|▋         | 5083/78504 [3:05:55<43:52:22,  2.15s/it]  6%|▋         | 5084/78504 [3:05:57<42:14:32,  2.07s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.7934198379516602, 'learning_rate': 1.941153993121895e-05, 'epoch': 1.55}
  6%|▋         | 5084/78504 [3:05:57<42:14:32,  2.07s/it]  6%|▋         | 5085/78504 [3:05:59<41:06:17,  2.02s/it]                                                         {'loss': 0.156, 'grad_norm': 0.4816489517688751, 'learning_rate': 1.941536110049675e-05, 'epoch': 1.55}
  6%|▋         | 5085/78504 [3:05:59<41:06:17,  2.02s/it]  6%|▋         | 5086/78504 [3:06:01<39:32:59,  1.94s/it]                                                         {'loss': 0.1402, 'grad_norm': 0.6687336564064026, 'learning_rate': 1.9419182269774552e-05, 'epoch': 1.55}
  6%|▋         | 5086/78504 [3:06:01<39:32:59,  1.94s/it]  6%|▋         | 5087/78504 [3:06:02<37:48:00,  1.85s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.9034313559532166, 'learning_rate': 1.942300343905235e-05, 'epoch': 1.56}
  6%|▋         | 5087/78504 [3:06:02<37:48:00,  1.85s/it]  6%|▋         | 5088/78504 [3:06:04<35:55:26,  1.76s/it]                                                         {'loss': 0.2141, 'grad_norm': 1.0727120637893677, 'learning_rate': 1.942682460833015e-05, 'epoch': 1.56}
  6%|▋         | 5088/78504 [3:06:04<35:55:26,  1.76s/it]  6%|▋         | 5089/78504 [3:06:05<33:52:36,  1.66s/it]                                                         {'loss': 0.214, 'grad_norm': 0.6677419543266296, 'learning_rate': 1.9430645777607948e-05, 'epoch': 1.56}
  6%|▋         | 5089/78504 [3:06:05<33:52:36,  1.66s/it]  6%|▋         | 5090/78504 [3:06:07<32:18:29,  1.58s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.734214186668396, 'learning_rate': 1.9434466946885747e-05, 'epoch': 1.56}
  6%|▋         | 5090/78504 [3:06:07<32:18:29,  1.58s/it]  6%|▋         | 5091/78504 [3:06:08<30:06:07,  1.48s/it]                                                         {'loss': 0.2599, 'grad_norm': 1.036514401435852, 'learning_rate': 1.9438288116163546e-05, 'epoch': 1.56}
  6%|▋         | 5091/78504 [3:06:08<30:06:07,  1.48s/it]  6%|▋         | 5092/78504 [3:06:09<28:01:04,  1.37s/it]                                                         {'loss': 0.1832, 'grad_norm': 1.1986281871795654, 'learning_rate': 1.9442109285441344e-05, 'epoch': 1.56}
  6%|▋         | 5092/78504 [3:06:09<28:01:04,  1.37s/it]  6%|▋         | 5093/78504 [3:06:10<26:20:43,  1.29s/it]                                                         {'loss': 0.2721, 'grad_norm': 1.0099387168884277, 'learning_rate': 1.9445930454719143e-05, 'epoch': 1.56}
  6%|▋         | 5093/78504 [3:06:10<26:20:43,  1.29s/it]  6%|▋         | 5094/78504 [3:06:11<24:35:20,  1.21s/it]                                                         {'loss': 0.235, 'grad_norm': 0.8530307412147522, 'learning_rate': 1.9449751623996942e-05, 'epoch': 1.56}
  6%|▋         | 5094/78504 [3:06:11<24:35:20,  1.21s/it]  6%|▋         | 5095/78504 [3:06:12<22:52:48,  1.12s/it]                                                         {'loss': 0.2683, 'grad_norm': 0.9974703788757324, 'learning_rate': 1.945357279327474e-05, 'epoch': 1.56}
  6%|▋         | 5095/78504 [3:06:12<22:52:48,  1.12s/it]  6%|▋         | 5096/78504 [3:06:13<20:48:32,  1.02s/it]                                                         {'loss': 0.3484, 'grad_norm': 2.3149476051330566, 'learning_rate': 1.9457393962552543e-05, 'epoch': 1.56}
  6%|▋         | 5096/78504 [3:06:13<20:48:32,  1.02s/it]  6%|▋         | 5097/78504 [3:06:21<62:00:14,  3.04s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.6527627110481262, 'learning_rate': 1.946121513183034e-05, 'epoch': 1.56}
  6%|▋         | 5097/78504 [3:06:21<62:00:14,  3.04s/it]  6%|▋         | 5098/78504 [3:06:24<62:14:22,  3.05s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.3839696943759918, 'learning_rate': 1.946503630110814e-05, 'epoch': 1.56}
  6%|▋         | 5098/78504 [3:06:24<62:14:22,  3.05s/it]  6%|▋         | 5099/78504 [3:06:26<59:18:53,  2.91s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.4403168261051178, 'learning_rate': 1.946885747038594e-05, 'epoch': 1.56}
  6%|▋         | 5099/78504 [3:06:26<59:18:53,  2.91s/it]  6%|▋         | 5100/78504 [3:06:29<57:33:02,  2.82s/it]                                                         {'loss': 0.073, 'grad_norm': 0.35995373129844666, 'learning_rate': 1.9472678639663738e-05, 'epoch': 1.56}
  6%|▋         | 5100/78504 [3:06:29<57:33:02,  2.82s/it]  6%|▋         | 5101/78504 [3:06:31<55:23:50,  2.72s/it]                                                         {'loss': 0.0985, 'grad_norm': 0.4127315580844879, 'learning_rate': 1.9476499808941536e-05, 'epoch': 1.56}
  6%|▋         | 5101/78504 [3:06:31<55:23:50,  2.72s/it]  6%|▋         | 5102/78504 [3:06:34<52:40:33,  2.58s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.4558067321777344, 'learning_rate': 1.948032097821934e-05, 'epoch': 1.56}
  6%|▋         | 5102/78504 [3:06:34<52:40:33,  2.58s/it]  7%|▋         | 5103/78504 [3:06:36<51:03:30,  2.50s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.4747166335582733, 'learning_rate': 1.9484142147497137e-05, 'epoch': 1.56}
  7%|▋         | 5103/78504 [3:06:36<51:03:30,  2.50s/it]  7%|▋         | 5104/78504 [3:06:38<48:44:11,  2.39s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.39999502897262573, 'learning_rate': 1.9487963316774936e-05, 'epoch': 1.56}
  7%|▋         | 5104/78504 [3:06:38<48:44:11,  2.39s/it]  7%|▋         | 5105/78504 [3:06:40<47:27:33,  2.33s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.7318262457847595, 'learning_rate': 1.9491784486052735e-05, 'epoch': 1.56}
  7%|▋         | 5105/78504 [3:06:40<47:27:33,  2.33s/it]  7%|▋         | 5106/78504 [3:06:42<46:30:55,  2.28s/it]                                                         {'loss': 0.0841, 'grad_norm': 0.5549700856208801, 'learning_rate': 1.9495605655330533e-05, 'epoch': 1.56}
  7%|▋         | 5106/78504 [3:06:42<46:30:55,  2.28s/it]  7%|▋         | 5107/78504 [3:06:44<45:02:18,  2.21s/it]                                                         {'loss': 0.1343, 'grad_norm': 0.7885621190071106, 'learning_rate': 1.9499426824608332e-05, 'epoch': 1.56}
  7%|▋         | 5107/78504 [3:06:44<45:02:18,  2.21s/it]  7%|▋         | 5108/78504 [3:06:46<43:36:07,  2.14s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.5142400860786438, 'learning_rate': 1.950324799388613e-05, 'epoch': 1.56}
  7%|▋         | 5108/78504 [3:06:46<43:36:07,  2.14s/it]  7%|▋         | 5109/78504 [3:06:48<42:01:58,  2.06s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.7923698425292969, 'learning_rate': 1.950706916316393e-05, 'epoch': 1.56}
  7%|▋         | 5109/78504 [3:06:48<42:01:58,  2.06s/it]  7%|▋         | 5110/78504 [3:06:50<39:58:32,  1.96s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.8715043663978577, 'learning_rate': 1.951089033244173e-05, 'epoch': 1.56}
  7%|▋         | 5110/78504 [3:06:50<39:58:32,  1.96s/it]  7%|▋         | 5111/78504 [3:06:52<38:52:18,  1.91s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.9259697794914246, 'learning_rate': 1.9514711501719527e-05, 'epoch': 1.56}
  7%|▋         | 5111/78504 [3:06:52<38:52:18,  1.91s/it]  7%|▋         | 5112/78504 [3:06:53<37:20:13,  1.83s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.9401617646217346, 'learning_rate': 1.9518532670997326e-05, 'epoch': 1.56}
  7%|▋         | 5112/78504 [3:06:53<37:20:13,  1.83s/it]  7%|▋         | 5113/78504 [3:06:55<35:27:41,  1.74s/it]                                                         {'loss': 0.214, 'grad_norm': 1.1270047426223755, 'learning_rate': 1.9522353840275125e-05, 'epoch': 1.56}
  7%|▋         | 5113/78504 [3:06:55<35:27:41,  1.74s/it]  7%|▋         | 5114/78504 [3:06:56<33:38:01,  1.65s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.7003158926963806, 'learning_rate': 1.9526175009552923e-05, 'epoch': 1.56}
  7%|▋         | 5114/78504 [3:06:56<33:38:01,  1.65s/it]  7%|▋         | 5115/78504 [3:06:58<32:11:54,  1.58s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.8065859079360962, 'learning_rate': 1.9529996178830722e-05, 'epoch': 1.56}
  7%|▋         | 5115/78504 [3:06:58<32:11:54,  1.58s/it]  7%|▋         | 5116/78504 [3:06:59<30:00:44,  1.47s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.9945093989372253, 'learning_rate': 1.953381734810852e-05, 'epoch': 1.56}
  7%|▋         | 5116/78504 [3:06:59<30:00:44,  1.47s/it]  7%|▋         | 5117/78504 [3:07:00<28:05:43,  1.38s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.9198736548423767, 'learning_rate': 1.9537638517386323e-05, 'epoch': 1.56}
  7%|▋         | 5117/78504 [3:07:00<28:05:43,  1.38s/it]  7%|▋         | 5118/78504 [3:07:01<26:21:32,  1.29s/it]                                                         {'loss': 0.2154, 'grad_norm': 1.3606183528900146, 'learning_rate': 1.9541459686664122e-05, 'epoch': 1.56}
  7%|▋         | 5118/78504 [3:07:01<26:21:32,  1.29s/it]  7%|▋         | 5119/78504 [3:07:02<24:49:52,  1.22s/it]                                                         {'loss': 0.2259, 'grad_norm': 1.378411054611206, 'learning_rate': 1.954528085594192e-05, 'epoch': 1.56}
  7%|▋         | 5119/78504 [3:07:02<24:49:52,  1.22s/it]  7%|▋         | 5120/78504 [3:07:03<23:03:02,  1.13s/it]                                                         {'loss': 0.2414, 'grad_norm': 1.3437275886535645, 'learning_rate': 1.954910202521972e-05, 'epoch': 1.57}
  7%|▋         | 5120/78504 [3:07:03<23:03:02,  1.13s/it]  7%|▋         | 5121/78504 [3:07:04<20:59:10,  1.03s/it]                                                         {'loss': 0.3065, 'grad_norm': 2.5488944053649902, 'learning_rate': 1.9552923194497518e-05, 'epoch': 1.57}
  7%|▋         | 5121/78504 [3:07:04<20:59:10,  1.03s/it]  7%|▋         | 5122/78504 [3:07:12<63:46:03,  3.13s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.552987277507782, 'learning_rate': 1.9556744363775317e-05, 'epoch': 1.57}
  7%|▋         | 5122/78504 [3:07:12<63:46:03,  3.13s/it]  7%|▋         | 5123/78504 [3:07:15<63:29:20,  3.11s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.4341469407081604, 'learning_rate': 1.9560565533053116e-05, 'epoch': 1.57}
  7%|▋         | 5123/78504 [3:07:15<63:29:20,  3.11s/it]  7%|▋         | 5124/78504 [3:07:18<60:08:11,  2.95s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.33807510137557983, 'learning_rate': 1.9564386702330914e-05, 'epoch': 1.57}
  7%|▋         | 5124/78504 [3:07:18<60:08:11,  2.95s/it]  7%|▋         | 5125/78504 [3:07:20<58:06:29,  2.85s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.34213986992836, 'learning_rate': 1.9568207871608713e-05, 'epoch': 1.57}
  7%|▋         | 5125/78504 [3:07:20<58:06:29,  2.85s/it]  7%|▋         | 5126/78504 [3:07:23<55:54:25,  2.74s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.3848195970058441, 'learning_rate': 1.9572029040886512e-05, 'epoch': 1.57}
  7%|▋         | 5126/78504 [3:07:23<55:54:25,  2.74s/it]  7%|▋         | 5127/78504 [3:07:25<54:06:29,  2.65s/it]                                                         {'loss': 0.1004, 'grad_norm': 0.6637454628944397, 'learning_rate': 1.957585021016431e-05, 'epoch': 1.57}
  7%|▋         | 5127/78504 [3:07:25<54:06:29,  2.65s/it]  7%|▋         | 5128/78504 [3:07:28<52:02:33,  2.55s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.31985658407211304, 'learning_rate': 1.957967137944211e-05, 'epoch': 1.57}
  7%|▋         | 5128/78504 [3:07:28<52:02:33,  2.55s/it]  7%|▋         | 5129/78504 [3:07:30<50:31:17,  2.48s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.414608895778656, 'learning_rate': 1.9583492548719908e-05, 'epoch': 1.57}
  7%|▋         | 5129/78504 [3:07:30<50:31:17,  2.48s/it]  7%|▋         | 5130/78504 [3:07:32<48:48:21,  2.39s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.53715580701828, 'learning_rate': 1.9587313717997707e-05, 'epoch': 1.57}
  7%|▋         | 5130/78504 [3:07:32<48:48:21,  2.39s/it]  7%|▋         | 5131/78504 [3:07:34<47:19:09,  2.32s/it]                                                         {'loss': 0.1084, 'grad_norm': 0.4653162956237793, 'learning_rate': 1.9591134887275505e-05, 'epoch': 1.57}
  7%|▋         | 5131/78504 [3:07:34<47:19:09,  2.32s/it]  7%|▋         | 5132/78504 [3:07:36<44:58:18,  2.21s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.3439481556415558, 'learning_rate': 1.9594956056553308e-05, 'epoch': 1.57}
  7%|▋         | 5132/78504 [3:07:36<44:58:18,  2.21s/it]  7%|▋         | 5133/78504 [3:07:38<43:43:35,  2.15s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.5508539080619812, 'learning_rate': 1.9598777225831106e-05, 'epoch': 1.57}
  7%|▋         | 5133/78504 [3:07:38<43:43:35,  2.15s/it]  7%|▋         | 5134/78504 [3:07:40<42:25:29,  2.08s/it]                                                         {'loss': 0.1374, 'grad_norm': 0.49559256434440613, 'learning_rate': 1.9602598395108905e-05, 'epoch': 1.57}
  7%|▋         | 5134/78504 [3:07:40<42:25:29,  2.08s/it]  7%|▋         | 5135/78504 [3:07:42<41:12:02,  2.02s/it]                                                         {'loss': 0.1091, 'grad_norm': 0.5176662802696228, 'learning_rate': 1.9606419564386704e-05, 'epoch': 1.57}
  7%|▋         | 5135/78504 [3:07:42<41:12:02,  2.02s/it]  7%|▋         | 5136/78504 [3:07:44<39:38:21,  1.95s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.5294964909553528, 'learning_rate': 1.9610240733664503e-05, 'epoch': 1.57}
  7%|▋         | 5136/78504 [3:07:44<39:38:21,  1.95s/it]  7%|▋         | 5137/78504 [3:07:45<37:24:29,  1.84s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.5865715146064758, 'learning_rate': 1.96140619029423e-05, 'epoch': 1.57}
  7%|▋         | 5137/78504 [3:07:45<37:24:29,  1.84s/it]  7%|▋         | 5138/78504 [3:07:47<35:34:24,  1.75s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.8366187214851379, 'learning_rate': 1.96178830722201e-05, 'epoch': 1.57}
  7%|▋         | 5138/78504 [3:07:47<35:34:24,  1.75s/it]  7%|▋         | 5139/78504 [3:07:48<34:09:44,  1.68s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.9046799540519714, 'learning_rate': 1.96217042414979e-05, 'epoch': 1.57}
  7%|▋         | 5139/78504 [3:07:48<34:09:44,  1.68s/it]  7%|▋         | 5140/78504 [3:07:50<32:35:44,  1.60s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.9595535397529602, 'learning_rate': 1.9625525410775698e-05, 'epoch': 1.57}
  7%|▋         | 5140/78504 [3:07:50<32:35:44,  1.60s/it]  7%|▋         | 5141/78504 [3:07:51<30:43:12,  1.51s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.8770933747291565, 'learning_rate': 1.9629346580053496e-05, 'epoch': 1.57}
  7%|▋         | 5141/78504 [3:07:51<30:43:12,  1.51s/it]  7%|▋         | 5142/78504 [3:07:52<28:32:08,  1.40s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.7744597792625427, 'learning_rate': 1.9633167749331295e-05, 'epoch': 1.57}
  7%|▋         | 5142/78504 [3:07:52<28:32:08,  1.40s/it]  7%|▋         | 5143/78504 [3:07:53<26:41:50,  1.31s/it]                                                         {'loss': 0.23, 'grad_norm': 1.4036036729812622, 'learning_rate': 1.9636988918609094e-05, 'epoch': 1.57}
  7%|▋         | 5143/78504 [3:07:53<26:41:50,  1.31s/it]  7%|▋         | 5144/78504 [3:07:54<24:46:31,  1.22s/it]                                                         {'loss': 0.2329, 'grad_norm': 1.0056453943252563, 'learning_rate': 1.9640810087886893e-05, 'epoch': 1.57}
  7%|▋         | 5144/78504 [3:07:54<24:46:31,  1.22s/it]  7%|▋         | 5145/78504 [3:07:55<23:07:16,  1.13s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.9469918012619019, 'learning_rate': 1.964463125716469e-05, 'epoch': 1.57}
  7%|▋         | 5145/78504 [3:07:55<23:07:16,  1.13s/it]  7%|▋         | 5146/78504 [3:07:56<20:59:25,  1.03s/it]                                                         {'loss': 0.3656, 'grad_norm': 11.412364959716797, 'learning_rate': 1.964845242644249e-05, 'epoch': 1.57}
  7%|▋         | 5146/78504 [3:07:56<20:59:25,  1.03s/it]  7%|▋         | 5147/78504 [3:08:05<68:52:23,  3.38s/it]                                                         {'loss': 0.1518, 'grad_norm': 0.4329998791217804, 'learning_rate': 1.965227359572029e-05, 'epoch': 1.57}
  7%|▋         | 5147/78504 [3:08:05<68:52:23,  3.38s/it]  7%|▋         | 5148/78504 [3:08:08<67:24:29,  3.31s/it]                                                         {'loss': 0.0885, 'grad_norm': 0.35677170753479004, 'learning_rate': 1.965609476499809e-05, 'epoch': 1.57}
  7%|▋         | 5148/78504 [3:08:08<67:24:29,  3.31s/it]  7%|▋         | 5149/78504 [3:08:11<62:55:53,  3.09s/it]                                                         {'loss': 0.0946, 'grad_norm': 0.36903485655784607, 'learning_rate': 1.965991593427589e-05, 'epoch': 1.57}
  7%|▋         | 5149/78504 [3:08:11<62:55:53,  3.09s/it]  7%|▋         | 5150/78504 [3:08:13<60:03:08,  2.95s/it]                                                         {'loss': 0.0798, 'grad_norm': 0.34405362606048584, 'learning_rate': 1.966373710355369e-05, 'epoch': 1.57}
  7%|▋         | 5150/78504 [3:08:13<60:03:08,  2.95s/it]  7%|▋         | 5151/78504 [3:08:16<56:28:51,  2.77s/it]                                                         {'loss': 0.0698, 'grad_norm': 0.4204351007938385, 'learning_rate': 1.9667558272831487e-05, 'epoch': 1.57}
  7%|▋         | 5151/78504 [3:08:16<56:28:51,  2.77s/it]  7%|▋         | 5152/78504 [3:08:18<53:24:15,  2.62s/it]                                                         {'loss': 0.0672, 'grad_norm': 0.31410858035087585, 'learning_rate': 1.9671379442109286e-05, 'epoch': 1.58}
  7%|▋         | 5152/78504 [3:08:18<53:24:15,  2.62s/it]  7%|▋         | 5153/78504 [3:08:20<51:34:06,  2.53s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.37890374660491943, 'learning_rate': 1.9675200611387085e-05, 'epoch': 1.58}
  7%|▋         | 5153/78504 [3:08:20<51:34:06,  2.53s/it]  7%|▋         | 5154/78504 [3:08:22<48:56:59,  2.40s/it]                                                         {'loss': 0.0753, 'grad_norm': 0.2670494318008423, 'learning_rate': 1.9679021780664883e-05, 'epoch': 1.58}
  7%|▋         | 5154/78504 [3:08:22<48:56:59,  2.40s/it]  7%|▋         | 5155/78504 [3:08:25<47:40:24,  2.34s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.4318024814128876, 'learning_rate': 1.9682842949942682e-05, 'epoch': 1.58}
  7%|▋         | 5155/78504 [3:08:25<47:40:24,  2.34s/it]  7%|▋         | 5156/78504 [3:08:27<46:27:53,  2.28s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.4576842784881592, 'learning_rate': 1.968666411922048e-05, 'epoch': 1.58}
  7%|▋         | 5156/78504 [3:08:27<46:27:53,  2.28s/it]  7%|▋         | 5157/78504 [3:08:29<44:43:26,  2.20s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.34508785605430603, 'learning_rate': 1.969048528849828e-05, 'epoch': 1.58}
  7%|▋         | 5157/78504 [3:08:29<44:43:26,  2.20s/it]  7%|▋         | 5158/78504 [3:08:30<42:19:27,  2.08s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.38483238220214844, 'learning_rate': 1.969430645777608e-05, 'epoch': 1.58}
  7%|▋         | 5158/78504 [3:08:30<42:19:27,  2.08s/it]  7%|▋         | 5159/78504 [3:08:32<41:01:50,  2.01s/it]                                                         {'loss': 0.1214, 'grad_norm': 0.5354366302490234, 'learning_rate': 1.9698127627053877e-05, 'epoch': 1.58}
  7%|▋         | 5159/78504 [3:08:32<41:01:50,  2.01s/it]  7%|▋         | 5160/78504 [3:08:34<39:59:27,  1.96s/it]                                                         {'loss': 0.1894, 'grad_norm': 0.6502383351325989, 'learning_rate': 1.9701948796331676e-05, 'epoch': 1.58}
  7%|▋         | 5160/78504 [3:08:34<39:59:27,  1.96s/it]  7%|▋         | 5161/78504 [3:08:36<38:30:58,  1.89s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.5885339379310608, 'learning_rate': 1.9705769965609475e-05, 'epoch': 1.58}
  7%|▋         | 5161/78504 [3:08:36<38:30:58,  1.89s/it]  7%|▋         | 5162/78504 [3:08:38<37:03:04,  1.82s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.5468118786811829, 'learning_rate': 1.9709591134887273e-05, 'epoch': 1.58}
  7%|▋         | 5162/78504 [3:08:38<37:03:04,  1.82s/it]  7%|▋         | 5163/78504 [3:08:39<35:23:25,  1.74s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.6816175580024719, 'learning_rate': 1.9713412304165075e-05, 'epoch': 1.58}
  7%|▋         | 5163/78504 [3:08:39<35:23:25,  1.74s/it]  7%|▋         | 5164/78504 [3:08:41<33:57:05,  1.67s/it]                                                         {'loss': 0.1703, 'grad_norm': 0.7627678513526917, 'learning_rate': 1.9717233473442874e-05, 'epoch': 1.58}
  7%|▋         | 5164/78504 [3:08:41<33:57:05,  1.67s/it]  7%|▋         | 5165/78504 [3:08:42<32:14:25,  1.58s/it]                                                         {'loss': 0.1974, 'grad_norm': 0.6883099675178528, 'learning_rate': 1.9721054642720673e-05, 'epoch': 1.58}
  7%|▋         | 5165/78504 [3:08:42<32:14:25,  1.58s/it]  7%|▋         | 5166/78504 [3:08:43<30:27:49,  1.50s/it]                                                         {'loss': 0.2493, 'grad_norm': 1.2252095937728882, 'learning_rate': 1.972487581199847e-05, 'epoch': 1.58}
  7%|▋         | 5166/78504 [3:08:43<30:27:49,  1.50s/it]  7%|▋         | 5167/78504 [3:08:44<28:24:12,  1.39s/it]                                                         {'loss': 0.2356, 'grad_norm': 1.0352284908294678, 'learning_rate': 1.972869698127627e-05, 'epoch': 1.58}
  7%|▋         | 5167/78504 [3:08:44<28:24:12,  1.39s/it]  7%|▋         | 5168/78504 [3:08:46<26:36:20,  1.31s/it]                                                         {'loss': 0.2507, 'grad_norm': 1.2120381593704224, 'learning_rate': 1.973251815055407e-05, 'epoch': 1.58}
  7%|▋         | 5168/78504 [3:08:46<26:36:20,  1.31s/it]  7%|▋         | 5169/78504 [3:08:47<25:01:39,  1.23s/it]                                                         {'loss': 0.216, 'grad_norm': 1.0180649757385254, 'learning_rate': 1.9736339319831868e-05, 'epoch': 1.58}
  7%|▋         | 5169/78504 [3:08:47<25:01:39,  1.23s/it]  7%|▋         | 5170/78504 [3:08:48<23:11:45,  1.14s/it]                                                         {'loss': 0.2783, 'grad_norm': 1.2662690877914429, 'learning_rate': 1.9740160489109667e-05, 'epoch': 1.58}
  7%|▋         | 5170/78504 [3:08:48<23:11:45,  1.14s/it]  7%|▋         | 5171/78504 [3:08:48<21:05:03,  1.04s/it]                                                         {'loss': 0.3091, 'grad_norm': 1.677207589149475, 'learning_rate': 1.9743981658387465e-05, 'epoch': 1.58}
  7%|▋         | 5171/78504 [3:08:48<21:05:03,  1.04s/it]  7%|▋         | 5172/78504 [3:08:56<63:50:25,  3.13s/it]                                                         {'loss': 0.1633, 'grad_norm': 0.4580239951610565, 'learning_rate': 1.9747802827665264e-05, 'epoch': 1.58}
  7%|▋         | 5172/78504 [3:08:56<63:50:25,  3.13s/it]  7%|▋         | 5173/78504 [3:08:59<63:20:54,  3.11s/it]                                                         {'loss': 0.1135, 'grad_norm': 0.529797375202179, 'learning_rate': 1.9751623996943063e-05, 'epoch': 1.58}
  7%|▋         | 5173/78504 [3:08:59<63:20:54,  3.11s/it]  7%|▋         | 5174/78504 [3:09:02<62:34:46,  3.07s/it]                                                         {'loss': 0.1383, 'grad_norm': 0.808387815952301, 'learning_rate': 1.9755445166220865e-05, 'epoch': 1.58}
  7%|▋         | 5174/78504 [3:09:02<62:34:46,  3.07s/it]  7%|▋         | 5175/78504 [3:09:05<59:47:39,  2.94s/it]                                                         {'loss': 0.0811, 'grad_norm': 0.6126211881637573, 'learning_rate': 1.9759266335498664e-05, 'epoch': 1.58}
  7%|▋         | 5175/78504 [3:09:05<59:47:39,  2.94s/it]  7%|▋         | 5176/78504 [3:09:07<57:00:06,  2.80s/it]                                                         {'loss': 0.0681, 'grad_norm': 0.3759809732437134, 'learning_rate': 1.9763087504776463e-05, 'epoch': 1.58}
  7%|▋         | 5176/78504 [3:09:08<57:00:06,  2.80s/it]  7%|▋         | 5177/78504 [3:09:10<53:45:28,  2.64s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.3158976137638092, 'learning_rate': 1.976690867405426e-05, 'epoch': 1.58}
  7%|▋         | 5177/78504 [3:09:10<53:45:28,  2.64s/it]  7%|▋         | 5178/78504 [3:09:12<51:51:25,  2.55s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.3789902329444885, 'learning_rate': 1.977072984333206e-05, 'epoch': 1.58}
  7%|▋         | 5178/78504 [3:09:12<51:51:25,  2.55s/it]  7%|▋         | 5179/78504 [3:09:14<49:05:00,  2.41s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.46442320942878723, 'learning_rate': 1.9774551012609862e-05, 'epoch': 1.58}
  7%|▋         | 5179/78504 [3:09:14<49:05:00,  2.41s/it]  7%|▋         | 5180/78504 [3:09:16<46:47:35,  2.30s/it]                                                         {'loss': 0.0978, 'grad_norm': 0.3315175771713257, 'learning_rate': 1.977837218188766e-05, 'epoch': 1.58}
  7%|▋         | 5180/78504 [3:09:16<46:47:35,  2.30s/it]  7%|▋         | 5181/78504 [3:09:18<45:51:18,  2.25s/it]                                                         {'loss': 0.0727, 'grad_norm': 0.31555598974227905, 'learning_rate': 1.978219335116546e-05, 'epoch': 1.58}
  7%|▋         | 5181/78504 [3:09:18<45:51:18,  2.25s/it]  7%|▋         | 5182/78504 [3:09:20<44:19:36,  2.18s/it]                                                         {'loss': 0.1123, 'grad_norm': 0.7469016313552856, 'learning_rate': 1.978601452044326e-05, 'epoch': 1.58}
  7%|▋         | 5182/78504 [3:09:20<44:19:36,  2.18s/it]  7%|▋         | 5183/78504 [3:09:22<42:06:02,  2.07s/it]                                                         {'loss': 0.1141, 'grad_norm': 0.47336244583129883, 'learning_rate': 1.9789835689721057e-05, 'epoch': 1.58}
  7%|▋         | 5183/78504 [3:09:22<42:06:02,  2.07s/it]  7%|▋         | 5184/78504 [3:09:24<40:51:54,  2.01s/it]                                                         {'loss': 0.1217, 'grad_norm': 0.45940735936164856, 'learning_rate': 1.9793656858998856e-05, 'epoch': 1.58}
  7%|▋         | 5184/78504 [3:09:24<40:51:54,  2.01s/it]  7%|▋         | 5185/78504 [3:09:26<39:07:02,  1.92s/it]                                                         {'loss': 0.1265, 'grad_norm': 0.5958283543586731, 'learning_rate': 1.9797478028276655e-05, 'epoch': 1.59}
  7%|▋         | 5185/78504 [3:09:26<39:07:02,  1.92s/it]  7%|▋         | 5186/78504 [3:09:27<37:57:23,  1.86s/it]                                                         {'loss': 0.1279, 'grad_norm': 0.6028069853782654, 'learning_rate': 1.9801299197554453e-05, 'epoch': 1.59}
  7%|▋         | 5186/78504 [3:09:28<37:57:23,  1.86s/it]  7%|▋         | 5187/78504 [3:09:29<36:40:13,  1.80s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.7923275828361511, 'learning_rate': 1.9805120366832252e-05, 'epoch': 1.59}
  7%|▋         | 5187/78504 [3:09:29<36:40:13,  1.80s/it]  7%|▋         | 5188/78504 [3:09:31<35:04:18,  1.72s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.854086697101593, 'learning_rate': 1.980894153611005e-05, 'epoch': 1.59}
  7%|▋         | 5188/78504 [3:09:31<35:04:18,  1.72s/it]  7%|▋         | 5189/78504 [3:09:32<33:33:00,  1.65s/it]                                                         {'loss': 0.2073, 'grad_norm': 0.8878032565116882, 'learning_rate': 1.981276270538785e-05, 'epoch': 1.59}
  7%|▋         | 5189/78504 [3:09:32<33:33:00,  1.65s/it]  7%|▋         | 5190/78504 [3:09:34<32:00:29,  1.57s/it]                                                         {'loss': 0.2161, 'grad_norm': 1.125856637954712, 'learning_rate': 1.981658387466565e-05, 'epoch': 1.59}
  7%|▋         | 5190/78504 [3:09:34<32:00:29,  1.57s/it]  7%|▋         | 5191/78504 [3:09:35<30:15:03,  1.49s/it]                                                         {'loss': 0.259, 'grad_norm': 0.8809707760810852, 'learning_rate': 1.9820405043943447e-05, 'epoch': 1.59}
  7%|▋         | 5191/78504 [3:09:35<30:15:03,  1.49s/it]  7%|▋         | 5192/78504 [3:09:36<28:09:43,  1.38s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.9908668994903564, 'learning_rate': 1.9824226213221246e-05, 'epoch': 1.59}
  7%|▋         | 5192/78504 [3:09:36<28:09:43,  1.38s/it]  7%|▋         | 5193/78504 [3:09:37<26:23:00,  1.30s/it]                                                         {'loss': 0.2487, 'grad_norm': 1.1273525953292847, 'learning_rate': 1.9828047382499045e-05, 'epoch': 1.59}
  7%|▋         | 5193/78504 [3:09:37<26:23:00,  1.30s/it]  7%|▋         | 5194/78504 [3:09:38<24:32:10,  1.20s/it]                                                         {'loss': 0.22, 'grad_norm': 0.8710575699806213, 'learning_rate': 1.9831868551776843e-05, 'epoch': 1.59}
  7%|▋         | 5194/78504 [3:09:38<24:32:10,  1.20s/it]  7%|▋         | 5195/78504 [3:09:39<22:52:42,  1.12s/it]                                                         {'loss': 0.2807, 'grad_norm': 1.4557217359542847, 'learning_rate': 1.9835689721054645e-05, 'epoch': 1.59}
  7%|▋         | 5195/78504 [3:09:39<22:52:42,  1.12s/it]  7%|▋         | 5196/78504 [3:09:40<20:48:00,  1.02s/it]                                                         {'loss': 0.3127, 'grad_norm': 1.7816076278686523, 'learning_rate': 1.9839510890332444e-05, 'epoch': 1.59}
  7%|▋         | 5196/78504 [3:09:40<20:48:00,  1.02s/it]  7%|▋         | 5197/78504 [3:09:48<64:18:39,  3.16s/it]                                                         {'loss': 0.1431, 'grad_norm': 0.364400178194046, 'learning_rate': 1.9843332059610243e-05, 'epoch': 1.59}
  7%|▋         | 5197/78504 [3:09:48<64:18:39,  3.16s/it]  7%|▋         | 5198/78504 [3:09:51<65:36:23,  3.22s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.35690945386886597, 'learning_rate': 1.984715322888804e-05, 'epoch': 1.59}
  7%|▋         | 5198/78504 [3:09:51<65:36:23,  3.22s/it]  7%|▋         | 5199/78504 [3:09:54<64:19:28,  3.16s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.32802245020866394, 'learning_rate': 1.985097439816584e-05, 'epoch': 1.59}
  7%|▋         | 5199/78504 [3:09:54<64:19:28,  3.16s/it]  7%|▋         | 5200/78504 [3:09:57<61:00:18,  3.00s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.36352214217185974, 'learning_rate': 1.985479556744364e-05, 'epoch': 1.59}
  7%|▋         | 5200/78504 [3:09:57<61:00:18,  3.00s/it]  7%|▋         | 5201/78504 [3:09:59<57:47:14,  2.84s/it]                                                         {'loss': 0.0685, 'grad_norm': 0.2642286717891693, 'learning_rate': 1.9858616736721438e-05, 'epoch': 1.59}
  7%|▋         | 5201/78504 [3:09:59<57:47:14,  2.84s/it]  7%|▋         | 5202/78504 [3:10:02<55:18:07,  2.72s/it]                                                         {'loss': 0.0755, 'grad_norm': 0.26784536242485046, 'learning_rate': 1.9862437905999237e-05, 'epoch': 1.59}
  7%|▋         | 5202/78504 [3:10:02<55:18:07,  2.72s/it]  7%|▋         | 5203/78504 [3:10:04<52:50:25,  2.60s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.25656798481941223, 'learning_rate': 1.9866259075277035e-05, 'epoch': 1.59}
  7%|▋         | 5203/78504 [3:10:04<52:50:25,  2.60s/it]  7%|▋         | 5204/78504 [3:10:06<49:54:15,  2.45s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.4321632385253906, 'learning_rate': 1.9870080244554834e-05, 'epoch': 1.59}
  7%|▋         | 5204/78504 [3:10:06<49:54:15,  2.45s/it]  7%|▋         | 5205/78504 [3:10:08<48:17:09,  2.37s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.31822681427001953, 'learning_rate': 1.9873901413832633e-05, 'epoch': 1.59}
  7%|▋         | 5205/78504 [3:10:08<48:17:09,  2.37s/it]  7%|▋         | 5206/78504 [3:10:11<46:52:40,  2.30s/it]                                                         {'loss': 0.0835, 'grad_norm': 1.6250436305999756, 'learning_rate': 1.987772258311043e-05, 'epoch': 1.59}
  7%|▋         | 5206/78504 [3:10:11<46:52:40,  2.30s/it]  7%|▋         | 5207/78504 [3:10:13<45:11:08,  2.22s/it]                                                         {'loss': 0.1159, 'grad_norm': 0.619614839553833, 'learning_rate': 1.988154375238823e-05, 'epoch': 1.59}
  7%|▋         | 5207/78504 [3:10:13<45:11:08,  2.22s/it]  7%|▋         | 5208/78504 [3:10:15<43:42:31,  2.15s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.31867238879203796, 'learning_rate': 1.988536492166603e-05, 'epoch': 1.59}
  7%|▋         | 5208/78504 [3:10:15<43:42:31,  2.15s/it]  7%|▋         | 5209/78504 [3:10:16<42:02:14,  2.06s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.43935397267341614, 'learning_rate': 1.9889186090943828e-05, 'epoch': 1.59}
  7%|▋         | 5209/78504 [3:10:16<42:02:14,  2.06s/it]  7%|▋         | 5210/78504 [3:10:18<40:41:20,  2.00s/it]                                                         {'loss': 0.159, 'grad_norm': 0.4024848937988281, 'learning_rate': 1.989300726022163e-05, 'epoch': 1.59}
  7%|▋         | 5210/78504 [3:10:18<40:41:20,  2.00s/it]  7%|▋         | 5211/78504 [3:10:20<39:18:36,  1.93s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.620707631111145, 'learning_rate': 1.989682842949943e-05, 'epoch': 1.59}
  7%|▋         | 5211/78504 [3:10:20<39:18:36,  1.93s/it]  7%|▋         | 5212/78504 [3:10:22<37:41:10,  1.85s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.5763331055641174, 'learning_rate': 1.9900649598777227e-05, 'epoch': 1.59}
  7%|▋         | 5212/78504 [3:10:22<37:41:10,  1.85s/it]  7%|▋         | 5213/78504 [3:10:23<35:51:12,  1.76s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.548140287399292, 'learning_rate': 1.9904470768055026e-05, 'epoch': 1.59}
  7%|▋         | 5213/78504 [3:10:23<35:51:12,  1.76s/it]  7%|▋         | 5214/78504 [3:10:25<34:01:18,  1.67s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.7360578179359436, 'learning_rate': 1.9908291937332825e-05, 'epoch': 1.59}
  7%|▋         | 5214/78504 [3:10:25<34:01:18,  1.67s/it]  7%|▋         | 5215/78504 [3:10:26<32:26:40,  1.59s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.6497951745986938, 'learning_rate': 1.9912113106610624e-05, 'epoch': 1.59}
  7%|▋         | 5215/78504 [3:10:26<32:26:40,  1.59s/it]  7%|▋         | 5216/78504 [3:10:27<30:35:31,  1.50s/it]                                                         {'loss': 0.2735, 'grad_norm': 1.0631632804870605, 'learning_rate': 1.9915934275888422e-05, 'epoch': 1.59}
  7%|▋         | 5216/78504 [3:10:27<30:35:31,  1.50s/it]  7%|▋         | 5217/78504 [3:10:29<28:25:54,  1.40s/it]                                                         {'loss': 0.252, 'grad_norm': 0.7492690682411194, 'learning_rate': 1.991975544516622e-05, 'epoch': 1.59}
  7%|▋         | 5217/78504 [3:10:29<28:25:54,  1.40s/it]  7%|▋         | 5218/78504 [3:10:30<26:40:06,  1.31s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.8418283462524414, 'learning_rate': 1.992357661444402e-05, 'epoch': 1.6}
  7%|▋         | 5218/78504 [3:10:30<26:40:06,  1.31s/it]  7%|▋         | 5219/78504 [3:10:31<24:42:07,  1.21s/it]                                                         {'loss': 0.2792, 'grad_norm': 1.3622785806655884, 'learning_rate': 1.992739778372182e-05, 'epoch': 1.6}
  7%|▋         | 5219/78504 [3:10:31<24:42:07,  1.21s/it]  7%|▋         | 5220/78504 [3:10:32<22:58:20,  1.13s/it]                                                         {'loss': 0.2552, 'grad_norm': 1.240796685218811, 'learning_rate': 1.9931218952999617e-05, 'epoch': 1.6}
  7%|▋         | 5220/78504 [3:10:32<22:58:20,  1.13s/it]  7%|▋         | 5221/78504 [3:10:32<20:51:55,  1.03s/it]                                                         {'loss': 0.3475, 'grad_norm': 1.7607814073562622, 'learning_rate': 1.9935040122277416e-05, 'epoch': 1.6}
  7%|▋         | 5221/78504 [3:10:32<20:51:55,  1.03s/it]  7%|▋         | 5222/78504 [3:10:41<65:27:38,  3.22s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.3743898272514343, 'learning_rate': 1.9938861291555215e-05, 'epoch': 1.6}
  7%|▋         | 5222/78504 [3:10:41<65:27:38,  3.22s/it]  7%|▋         | 5223/78504 [3:10:44<66:22:02,  3.26s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.6053632497787476, 'learning_rate': 1.9942682460833014e-05, 'epoch': 1.6}
  7%|▋         | 5223/78504 [3:10:44<66:22:02,  3.26s/it]  7%|▋         | 5224/78504 [3:10:47<64:51:05,  3.19s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.43107256293296814, 'learning_rate': 1.9946503630110812e-05, 'epoch': 1.6}
  7%|▋         | 5224/78504 [3:10:47<64:51:05,  3.19s/it]  7%|▋         | 5225/78504 [3:10:50<61:22:49,  3.02s/it]                                                         {'loss': 0.1168, 'grad_norm': 0.45823168754577637, 'learning_rate': 1.995032479938861e-05, 'epoch': 1.6}
  7%|▋         | 5225/78504 [3:10:50<61:22:49,  3.02s/it]  7%|▋         | 5226/78504 [3:10:52<58:03:14,  2.85s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.3061533570289612, 'learning_rate': 1.9954145968666413e-05, 'epoch': 1.6}
  7%|▋         | 5226/78504 [3:10:52<58:03:14,  2.85s/it]  7%|▋         | 5227/78504 [3:10:55<55:27:30,  2.72s/it]                                                         {'loss': 0.0449, 'grad_norm': 0.23541688919067383, 'learning_rate': 1.9957967137944212e-05, 'epoch': 1.6}
  7%|▋         | 5227/78504 [3:10:55<55:27:30,  2.72s/it]  7%|▋         | 5228/78504 [3:10:57<53:00:03,  2.60s/it]                                                         {'loss': 0.0675, 'grad_norm': 0.4210800230503082, 'learning_rate': 1.996178830722201e-05, 'epoch': 1.6}
  7%|▋         | 5228/78504 [3:10:57<53:00:03,  2.60s/it]  7%|▋         | 5229/78504 [3:10:59<49:58:38,  2.46s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.29302600026130676, 'learning_rate': 1.996560947649981e-05, 'epoch': 1.6}
  7%|▋         | 5229/78504 [3:10:59<49:58:38,  2.46s/it]  7%|▋         | 5230/78504 [3:11:01<48:20:39,  2.38s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.31581175327301025, 'learning_rate': 1.9969430645777608e-05, 'epoch': 1.6}
  7%|▋         | 5230/78504 [3:11:01<48:20:39,  2.38s/it]  7%|▋         | 5231/78504 [3:11:03<47:05:26,  2.31s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.31966260075569153, 'learning_rate': 1.9973251815055407e-05, 'epoch': 1.6}
  7%|▋         | 5231/78504 [3:11:03<47:05:26,  2.31s/it]  7%|▋         | 5232/78504 [3:11:05<45:20:54,  2.23s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.34516486525535583, 'learning_rate': 1.9977072984333206e-05, 'epoch': 1.6}
  7%|▋         | 5232/78504 [3:11:05<45:20:54,  2.23s/it]  7%|▋         | 5233/78504 [3:11:07<43:32:01,  2.14s/it]                                                         {'loss': 0.1096, 'grad_norm': 0.35250529646873474, 'learning_rate': 1.9980894153611005e-05, 'epoch': 1.6}
  7%|▋         | 5233/78504 [3:11:07<43:32:01,  2.14s/it]  7%|▋         | 5234/78504 [3:11:09<41:53:03,  2.06s/it]                                                         {'loss': 0.1201, 'grad_norm': 0.41582608222961426, 'learning_rate': 1.9984715322888803e-05, 'epoch': 1.6}
  7%|▋         | 5234/78504 [3:11:09<41:53:03,  2.06s/it]  7%|▋         | 5235/78504 [3:11:11<39:50:09,  1.96s/it]                                                         {'loss': 0.1217, 'grad_norm': 0.6054863333702087, 'learning_rate': 1.9988536492166602e-05, 'epoch': 1.6}
  7%|▋         | 5235/78504 [3:11:11<39:50:09,  1.96s/it]  7%|▋         | 5236/78504 [3:11:13<38:40:48,  1.90s/it]                                                         {'loss': 0.149, 'grad_norm': 0.4615755081176758, 'learning_rate': 1.99923576614444e-05, 'epoch': 1.6}
  7%|▋         | 5236/78504 [3:11:13<38:40:48,  1.90s/it]  7%|▋         | 5237/78504 [3:11:14<37:06:56,  1.82s/it]                                                         {'loss': 0.1419, 'grad_norm': 0.4937666058540344, 'learning_rate': 1.99961788307222e-05, 'epoch': 1.6}
  7%|▋         | 5237/78504 [3:11:14<37:06:56,  1.82s/it]  7%|▋         | 5238/78504 [3:11:16<35:13:17,  1.73s/it]                                                         {'loss': 0.1719, 'grad_norm': 0.7876324653625488, 'learning_rate': 1.9999999999999998e-05, 'epoch': 1.6}
  7%|▋         | 5238/78504 [3:11:16<35:13:17,  1.73s/it]  7%|▋         | 5239/78504 [3:11:17<33:28:11,  1.64s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.8609725832939148, 'learning_rate': 2.0003821169277797e-05, 'epoch': 1.6}
  7%|▋         | 5239/78504 [3:11:17<33:28:11,  1.64s/it]  7%|▋         | 5240/78504 [3:11:19<32:04:24,  1.58s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.9229646921157837, 'learning_rate': 2.0007642338555596e-05, 'epoch': 1.6}
  7%|▋         | 5240/78504 [3:11:19<32:04:24,  1.58s/it]  7%|▋         | 5241/78504 [3:11:20<30:17:42,  1.49s/it]                                                         {'loss': 0.2143, 'grad_norm': 1.6613225936889648, 'learning_rate': 2.0011463507833398e-05, 'epoch': 1.6}
  7%|▋         | 5241/78504 [3:11:20<30:17:42,  1.49s/it]  7%|▋         | 5242/78504 [3:11:21<28:11:58,  1.39s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.6843658089637756, 'learning_rate': 2.0015284677111197e-05, 'epoch': 1.6}
  7%|▋         | 5242/78504 [3:11:21<28:11:58,  1.39s/it]  7%|▋         | 5243/78504 [3:11:22<26:26:15,  1.30s/it]                                                         {'loss': 0.2314, 'grad_norm': 0.7946720719337463, 'learning_rate': 2.0019105846388995e-05, 'epoch': 1.6}
  7%|▋         | 5243/78504 [3:11:22<26:26:15,  1.30s/it]  7%|▋         | 5244/78504 [3:11:23<24:38:34,  1.21s/it]                                                         {'loss': 0.3187, 'grad_norm': 1.1567304134368896, 'learning_rate': 2.0022927015666794e-05, 'epoch': 1.6}
  7%|▋         | 5244/78504 [3:11:23<24:38:34,  1.21s/it]  7%|▋         | 5245/78504 [3:11:24<22:56:57,  1.13s/it]                                                         {'loss': 0.2895, 'grad_norm': 0.9488333463668823, 'learning_rate': 2.0026748184944593e-05, 'epoch': 1.6}
  7%|▋         | 5245/78504 [3:11:24<22:56:57,  1.13s/it]  7%|▋         | 5246/78504 [3:11:25<20:47:36,  1.02s/it]                                                         {'loss': 0.3405, 'grad_norm': 1.824425458908081, 'learning_rate': 2.003056935422239e-05, 'epoch': 1.6}
  7%|▋         | 5246/78504 [3:11:25<20:47:36,  1.02s/it]  7%|▋         | 5247/78504 [3:11:32<58:25:46,  2.87s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.4891558289527893, 'learning_rate': 2.003439052350019e-05, 'epoch': 1.6}
  7%|▋         | 5247/78504 [3:11:32<58:25:46,  2.87s/it]  7%|▋         | 5248/78504 [3:11:35<60:02:37,  2.95s/it]                                                         {'loss': 0.1052, 'grad_norm': 0.3794075846672058, 'learning_rate': 2.003821169277799e-05, 'epoch': 1.6}
  7%|▋         | 5248/78504 [3:11:35<60:02:37,  2.95s/it]  7%|▋         | 5249/78504 [3:11:38<60:27:41,  2.97s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.28803837299346924, 'learning_rate': 2.0042032862055788e-05, 'epoch': 1.6}
  7%|▋         | 5249/78504 [3:11:38<60:27:41,  2.97s/it]  7%|▋         | 5250/78504 [3:11:41<58:18:52,  2.87s/it]                                                         {'loss': 0.1039, 'grad_norm': 0.37349218130111694, 'learning_rate': 2.0045854031333587e-05, 'epoch': 1.61}
  7%|▋         | 5250/78504 [3:11:41<58:18:52,  2.87s/it]  7%|▋         | 5251/78504 [3:11:43<55:52:59,  2.75s/it]                                                         {'loss': 0.0539, 'grad_norm': 0.2517586648464203, 'learning_rate': 2.004967520061139e-05, 'epoch': 1.61}
  7%|▋         | 5251/78504 [3:11:43<55:52:59,  2.75s/it]  7%|▋         | 5252/78504 [3:11:46<53:58:40,  2.65s/it]                                                         {'loss': 0.0708, 'grad_norm': 0.33480945229530334, 'learning_rate': 2.0053496369889187e-05, 'epoch': 1.61}
  7%|▋         | 5252/78504 [3:11:46<53:58:40,  2.65s/it]  7%|▋         | 5253/78504 [3:11:48<51:54:42,  2.55s/it]                                                         {'loss': 0.0848, 'grad_norm': 0.34712570905685425, 'learning_rate': 2.0057317539166986e-05, 'epoch': 1.61}
  7%|▋         | 5253/78504 [3:11:48<51:54:42,  2.55s/it]  7%|▋         | 5254/78504 [3:11:50<49:14:28,  2.42s/it]                                                         {'loss': 0.0887, 'grad_norm': 0.6146636605262756, 'learning_rate': 2.0061138708444785e-05, 'epoch': 1.61}
  7%|▋         | 5254/78504 [3:11:50<49:14:28,  2.42s/it]  7%|▋         | 5255/78504 [3:11:52<47:49:24,  2.35s/it]                                                         {'loss': 0.1173, 'grad_norm': 0.426160603761673, 'learning_rate': 2.0064959877722584e-05, 'epoch': 1.61}
  7%|▋         | 5255/78504 [3:11:52<47:49:24,  2.35s/it]  7%|▋         | 5256/78504 [3:11:55<46:40:09,  2.29s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.4997640550136566, 'learning_rate': 2.0068781047000382e-05, 'epoch': 1.61}
  7%|▋         | 5256/78504 [3:11:55<46:40:09,  2.29s/it]  7%|▋         | 5257/78504 [3:11:56<44:02:07,  2.16s/it]                                                         {'loss': 0.1205, 'grad_norm': 0.3988439738750458, 'learning_rate': 2.0072602216278185e-05, 'epoch': 1.61}
  7%|▋         | 5257/78504 [3:11:57<44:02:07,  2.16s/it]  7%|▋         | 5258/78504 [3:11:58<42:54:53,  2.11s/it]                                                         {'loss': 0.109, 'grad_norm': 0.43986204266548157, 'learning_rate': 2.0076423385555983e-05, 'epoch': 1.61}
  7%|▋         | 5258/78504 [3:11:58<42:54:53,  2.11s/it]  7%|▋         | 5259/78504 [3:12:00<41:43:57,  2.05s/it]                                                         {'loss': 0.1286, 'grad_norm': 0.481719046831131, 'learning_rate': 2.0080244554833782e-05, 'epoch': 1.61}
  7%|▋         | 5259/78504 [3:12:00<41:43:57,  2.05s/it]  7%|▋         | 5260/78504 [3:12:02<40:36:07,  2.00s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.6460108160972595, 'learning_rate': 2.008406572411158e-05, 'epoch': 1.61}
  7%|▋         | 5260/78504 [3:12:02<40:36:07,  2.00s/it]  7%|▋         | 5261/78504 [3:12:04<39:12:35,  1.93s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.7487947940826416, 'learning_rate': 2.008788689338938e-05, 'epoch': 1.61}
  7%|▋         | 5261/78504 [3:12:04<39:12:35,  1.93s/it]  7%|▋         | 5262/78504 [3:12:06<37:03:12,  1.82s/it]                                                         {'loss': 0.1658, 'grad_norm': 0.5517814755439758, 'learning_rate': 2.0091708062667178e-05, 'epoch': 1.61}
  7%|▋         | 5262/78504 [3:12:06<37:03:12,  1.82s/it]  7%|▋         | 5263/78504 [3:12:07<35:19:49,  1.74s/it]                                                         {'loss': 0.1912, 'grad_norm': 0.5011700987815857, 'learning_rate': 2.0095529231944977e-05, 'epoch': 1.61}
  7%|▋         | 5263/78504 [3:12:07<35:19:49,  1.74s/it]  7%|▋         | 5264/78504 [3:12:09<33:42:56,  1.66s/it]                                                         {'loss': 0.2058, 'grad_norm': 1.1970725059509277, 'learning_rate': 2.0099350401222776e-05, 'epoch': 1.61}
  7%|▋         | 5264/78504 [3:12:09<33:42:56,  1.66s/it]  7%|▋         | 5265/78504 [3:12:10<32:03:46,  1.58s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.752602219581604, 'learning_rate': 2.0103171570500575e-05, 'epoch': 1.61}
  7%|▋         | 5265/78504 [3:12:10<32:03:46,  1.58s/it]  7%|▋         | 5266/78504 [3:12:11<30:14:53,  1.49s/it]                                                         {'loss': 0.2364, 'grad_norm': 1.7644014358520508, 'learning_rate': 2.0106992739778373e-05, 'epoch': 1.61}
  7%|▋         | 5266/78504 [3:12:11<30:14:53,  1.49s/it]  7%|▋         | 5267/78504 [3:12:12<28:13:30,  1.39s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.065018653869629, 'learning_rate': 2.0110813909056172e-05, 'epoch': 1.61}
  7%|▋         | 5267/78504 [3:12:12<28:13:30,  1.39s/it]  7%|▋         | 5268/78504 [3:12:14<26:25:25,  1.30s/it]                                                         {'loss': 0.2642, 'grad_norm': 2.0660953521728516, 'learning_rate': 2.011463507833397e-05, 'epoch': 1.61}
  7%|▋         | 5268/78504 [3:12:14<26:25:25,  1.30s/it]  7%|▋         | 5269/78504 [3:12:15<24:54:11,  1.22s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.8333101868629456, 'learning_rate': 2.011845624761177e-05, 'epoch': 1.61}
  7%|▋         | 5269/78504 [3:12:15<24:54:11,  1.22s/it]  7%|▋         | 5270/78504 [3:12:15<23:03:28,  1.13s/it]                                                         {'loss': 0.2608, 'grad_norm': 1.8377692699432373, 'learning_rate': 2.0122277416889568e-05, 'epoch': 1.61}
  7%|▋         | 5270/78504 [3:12:16<23:03:28,  1.13s/it]  7%|▋         | 5271/78504 [3:12:16<20:53:02,  1.03s/it]                                                         {'loss': 0.354, 'grad_norm': 1.609156608581543, 'learning_rate': 2.0126098586167367e-05, 'epoch': 1.61}
  7%|▋         | 5271/78504 [3:12:16<20:53:02,  1.03s/it]  7%|▋         | 5272/78504 [3:12:27<77:19:34,  3.80s/it]                                                         {'loss': 0.2275, 'grad_norm': 0.45084241032600403, 'learning_rate': 2.012991975544517e-05, 'epoch': 1.61}
  7%|▋         | 5272/78504 [3:12:27<77:19:34,  3.80s/it]  7%|▋         | 5273/78504 [3:12:30<73:17:55,  3.60s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.3653039336204529, 'learning_rate': 2.0133740924722968e-05, 'epoch': 1.61}
  7%|▋         | 5273/78504 [3:12:30<73:17:55,  3.60s/it]  7%|▋         | 5274/78504 [3:12:33<69:43:04,  3.43s/it]                                                         {'loss': 0.1037, 'grad_norm': 0.4420746862888336, 'learning_rate': 2.0137562094000767e-05, 'epoch': 1.61}
  7%|▋         | 5274/78504 [3:12:33<69:43:04,  3.43s/it]  7%|▋         | 5275/78504 [3:12:35<64:46:35,  3.18s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.42616599798202515, 'learning_rate': 2.0141383263278565e-05, 'epoch': 1.61}
  7%|▋         | 5275/78504 [3:12:35<64:46:35,  3.18s/it]  7%|▋         | 5276/78504 [3:12:38<60:23:22,  2.97s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.28830140829086304, 'learning_rate': 2.0145204432556364e-05, 'epoch': 1.61}
  7%|▋         | 5276/78504 [3:12:38<60:23:22,  2.97s/it]  7%|▋         | 5277/78504 [3:12:40<56:07:20,  2.76s/it]                                                         {'loss': 0.0497, 'grad_norm': 0.2918660640716553, 'learning_rate': 2.0149025601834163e-05, 'epoch': 1.61}
  7%|▋         | 5277/78504 [3:12:40<56:07:20,  2.76s/it]  7%|▋         | 5278/78504 [3:12:42<53:26:09,  2.63s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.3946269452571869, 'learning_rate': 2.015284677111196e-05, 'epoch': 1.61}
  7%|▋         | 5278/78504 [3:12:42<53:26:09,  2.63s/it]  7%|▋         | 5279/78504 [3:12:44<50:18:42,  2.47s/it]                                                         {'loss': 0.0979, 'grad_norm': 0.45897507667541504, 'learning_rate': 2.015666794038976e-05, 'epoch': 1.61}
  7%|▋         | 5279/78504 [3:12:45<50:18:42,  2.47s/it]  7%|▋         | 5280/78504 [3:12:47<48:36:06,  2.39s/it]                                                         {'loss': 0.1081, 'grad_norm': 0.4528775215148926, 'learning_rate': 2.016048910966756e-05, 'epoch': 1.61}
  7%|▋         | 5280/78504 [3:12:47<48:36:06,  2.39s/it]  7%|▋         | 5281/78504 [3:12:49<47:07:51,  2.32s/it]                                                         {'loss': 0.1344, 'grad_norm': 0.6288054585456848, 'learning_rate': 2.0164310278945358e-05, 'epoch': 1.61}
  7%|▋         | 5281/78504 [3:12:49<47:07:51,  2.32s/it]  7%|▋         | 5282/78504 [3:12:51<45:23:11,  2.23s/it]                                                         {'loss': 0.135, 'grad_norm': 0.7428374290466309, 'learning_rate': 2.0168131448223157e-05, 'epoch': 1.61}
  7%|▋         | 5282/78504 [3:12:51<45:23:11,  2.23s/it]  7%|▋         | 5283/78504 [3:12:53<43:56:51,  2.16s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.38430655002593994, 'learning_rate': 2.0171952617500955e-05, 'epoch': 1.62}
  7%|▋         | 5283/78504 [3:12:53<43:56:51,  2.16s/it]  7%|▋         | 5284/78504 [3:12:55<42:09:32,  2.07s/it]                                                         {'loss': 0.1394, 'grad_norm': 0.5850895047187805, 'learning_rate': 2.0175773786778754e-05, 'epoch': 1.62}
  7%|▋         | 5284/78504 [3:12:55<42:09:32,  2.07s/it]  7%|▋         | 5285/78504 [3:12:56<40:04:37,  1.97s/it]                                                         {'loss': 0.1231, 'grad_norm': 1.0047225952148438, 'learning_rate': 2.0179594956056553e-05, 'epoch': 1.62}
  7%|▋         | 5285/78504 [3:12:56<40:04:37,  1.97s/it]  7%|▋         | 5286/78504 [3:12:58<38:51:28,  1.91s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.6850611567497253, 'learning_rate': 2.018341612533435e-05, 'epoch': 1.62}
  7%|▋         | 5286/78504 [3:12:58<38:51:28,  1.91s/it]  7%|▋         | 5287/78504 [3:13:00<37:12:26,  1.83s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.6260771751403809, 'learning_rate': 2.018723729461215e-05, 'epoch': 1.62}
  7%|▋         | 5287/78504 [3:13:00<37:12:26,  1.83s/it]  7%|▋         | 5288/78504 [3:13:01<35:22:08,  1.74s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.6523432731628418, 'learning_rate': 2.0191058463889952e-05, 'epoch': 1.62}
  7%|▋         | 5288/78504 [3:13:01<35:22:08,  1.74s/it]  7%|▋         | 5289/78504 [3:13:03<33:45:36,  1.66s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.8058981895446777, 'learning_rate': 2.019487963316775e-05, 'epoch': 1.62}
  7%|▋         | 5289/78504 [3:13:03<33:45:36,  1.66s/it]  7%|▋         | 5290/78504 [3:13:04<32:14:42,  1.59s/it]                                                         {'loss': 0.2255, 'grad_norm': 0.8539188504219055, 'learning_rate': 2.019870080244555e-05, 'epoch': 1.62}
  7%|▋         | 5290/78504 [3:13:04<32:14:42,  1.59s/it]  7%|▋         | 5291/78504 [3:13:06<30:24:34,  1.50s/it]                                                         {'loss': 0.208, 'grad_norm': 0.9974493384361267, 'learning_rate': 2.020252197172335e-05, 'epoch': 1.62}
  7%|▋         | 5291/78504 [3:13:06<30:24:34,  1.50s/it]  7%|▋         | 5292/78504 [3:13:07<28:18:21,  1.39s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.9780563712120056, 'learning_rate': 2.0206343141001147e-05, 'epoch': 1.62}
  7%|▋         | 5292/78504 [3:13:07<28:18:21,  1.39s/it]  7%|▋         | 5293/78504 [3:13:08<26:31:10,  1.30s/it]                                                         {'loss': 0.2296, 'grad_norm': 0.8859644532203674, 'learning_rate': 2.0210164310278946e-05, 'epoch': 1.62}
  7%|▋         | 5293/78504 [3:13:08<26:31:10,  1.30s/it]  7%|▋         | 5294/78504 [3:13:09<24:39:33,  1.21s/it]                                                         {'loss': 0.2726, 'grad_norm': 1.2698109149932861, 'learning_rate': 2.0213985479556745e-05, 'epoch': 1.62}
  7%|▋         | 5294/78504 [3:13:09<24:39:33,  1.21s/it]  7%|▋         | 5295/78504 [3:13:10<22:59:54,  1.13s/it]                                                         {'loss': 0.2841, 'grad_norm': 1.4103728532791138, 'learning_rate': 2.0217806648834544e-05, 'epoch': 1.62}
  7%|▋         | 5295/78504 [3:13:10<22:59:54,  1.13s/it]  7%|▋         | 5296/78504 [3:13:11<20:40:55,  1.02s/it]                                                         {'loss': 0.2942, 'grad_norm': 6.3820953369140625, 'learning_rate': 2.0221627818112342e-05, 'epoch': 1.62}
  7%|▋         | 5296/78504 [3:13:11<20:40:55,  1.02s/it]  7%|▋         | 5297/78504 [3:13:21<78:33:26,  3.86s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.4586271345615387, 'learning_rate': 2.022544898739014e-05, 'epoch': 1.62}
  7%|▋         | 5297/78504 [3:13:21<78:33:26,  3.86s/it]  7%|▋         | 5298/78504 [3:13:24<72:44:17,  3.58s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.3701017498970032, 'learning_rate': 2.022927015666794e-05, 'epoch': 1.62}
  7%|▋         | 5298/78504 [3:13:24<72:44:17,  3.58s/it]  7%|▋         | 5299/78504 [3:13:27<68:47:06,  3.38s/it]                                                         {'loss': 0.076, 'grad_norm': 0.5781363844871521, 'learning_rate': 2.023309132594574e-05, 'epoch': 1.62}
  7%|▋         | 5299/78504 [3:13:27<68:47:06,  3.38s/it]  7%|▋         | 5300/78504 [3:13:29<63:52:15,  3.14s/it]                                                         {'loss': 0.088, 'grad_norm': 0.7937321662902832, 'learning_rate': 2.0236912495223537e-05, 'epoch': 1.62}
  7%|▋         | 5300/78504 [3:13:29<63:52:15,  3.14s/it]  7%|▋         | 5301/78504 [3:13:32<59:57:00,  2.95s/it]                                                         {'loss': 0.091, 'grad_norm': 0.31188735365867615, 'learning_rate': 2.0240733664501336e-05, 'epoch': 1.62}
  7%|▋         | 5301/78504 [3:13:32<59:57:00,  2.95s/it]  7%|▋         | 5302/78504 [3:13:34<56:48:00,  2.79s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.34442949295043945, 'learning_rate': 2.0244554833779135e-05, 'epoch': 1.62}
  7%|▋         | 5302/78504 [3:13:34<56:48:00,  2.79s/it]  7%|▋         | 5303/78504 [3:13:37<53:58:29,  2.65s/it]                                                         {'loss': 0.0794, 'grad_norm': 0.37690988183021545, 'learning_rate': 2.0248376003056937e-05, 'epoch': 1.62}
  7%|▋         | 5303/78504 [3:13:37<53:58:29,  2.65s/it]  7%|▋         | 5304/78504 [3:13:39<51:49:18,  2.55s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.4447815418243408, 'learning_rate': 2.0252197172334736e-05, 'epoch': 1.62}
  7%|▋         | 5304/78504 [3:13:39<51:49:18,  2.55s/it]  7%|▋         | 5305/78504 [3:13:41<49:42:18,  2.44s/it]                                                         {'loss': 0.0708, 'grad_norm': 0.36255747079849243, 'learning_rate': 2.0256018341612534e-05, 'epoch': 1.62}
  7%|▋         | 5305/78504 [3:13:41<49:42:18,  2.44s/it]  7%|▋         | 5306/78504 [3:13:43<47:59:03,  2.36s/it]                                                         {'loss': 0.092, 'grad_norm': 0.3918481767177582, 'learning_rate': 2.0259839510890333e-05, 'epoch': 1.62}
  7%|▋         | 5306/78504 [3:13:43<47:59:03,  2.36s/it]  7%|▋         | 5307/78504 [3:13:45<45:00:59,  2.21s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.6528555750846863, 'learning_rate': 2.0263660680168132e-05, 'epoch': 1.62}
  7%|▋         | 5307/78504 [3:13:45<45:00:59,  2.21s/it]  7%|▋         | 5308/78504 [3:13:47<43:41:26,  2.15s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.6857051253318787, 'learning_rate': 2.026748184944593e-05, 'epoch': 1.62}
  7%|▋         | 5308/78504 [3:13:47<43:41:26,  2.15s/it]  7%|▋         | 5309/78504 [3:13:49<42:18:17,  2.08s/it]                                                         {'loss': 0.1183, 'grad_norm': 0.39859020709991455, 'learning_rate': 2.027130301872373e-05, 'epoch': 1.62}
  7%|▋         | 5309/78504 [3:13:49<42:18:17,  2.08s/it]  7%|▋         | 5310/78504 [3:13:51<41:06:43,  2.02s/it]                                                         {'loss': 0.1177, 'grad_norm': 0.5416128039360046, 'learning_rate': 2.0275124188001528e-05, 'epoch': 1.62}
  7%|▋         | 5310/78504 [3:13:51<41:06:43,  2.02s/it]  7%|▋         | 5311/78504 [3:13:53<39:31:57,  1.94s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.5974514484405518, 'learning_rate': 2.0278945357279327e-05, 'epoch': 1.62}
  7%|▋         | 5311/78504 [3:13:53<39:31:57,  1.94s/it]  7%|▋         | 5312/78504 [3:13:54<37:42:19,  1.85s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.6418554782867432, 'learning_rate': 2.0282766526557126e-05, 'epoch': 1.62}
  7%|▋         | 5312/78504 [3:13:54<37:42:19,  1.85s/it]  7%|▋         | 5313/78504 [3:13:56<35:50:02,  1.76s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.6404048204421997, 'learning_rate': 2.0286587695834924e-05, 'epoch': 1.62}
  7%|▋         | 5313/78504 [3:13:56<35:50:02,  1.76s/it]  7%|▋         | 5314/78504 [3:13:57<34:19:53,  1.69s/it]                                                         {'loss': 0.2102, 'grad_norm': 1.212524175643921, 'learning_rate': 2.0290408865112723e-05, 'epoch': 1.62}
  7%|▋         | 5314/78504 [3:13:58<34:19:53,  1.69s/it]  7%|▋         | 5315/78504 [3:13:59<32:34:02,  1.60s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.8442663550376892, 'learning_rate': 2.0294230034390522e-05, 'epoch': 1.62}
  7%|▋         | 5315/78504 [3:13:59<32:34:02,  1.60s/it]  7%|▋         | 5316/78504 [3:14:00<30:38:09,  1.51s/it]                                                         {'loss': 0.2263, 'grad_norm': 0.820777177810669, 'learning_rate': 2.029805120366832e-05, 'epoch': 1.63}
  7%|▋         | 5316/78504 [3:14:00<30:38:09,  1.51s/it]  7%|▋         | 5317/78504 [3:14:01<28:25:51,  1.40s/it]                                                         {'loss': 0.2041, 'grad_norm': 1.1918904781341553, 'learning_rate': 2.030187237294612e-05, 'epoch': 1.63}
  7%|▋         | 5317/78504 [3:14:01<28:25:51,  1.40s/it]  7%|▋         | 5318/78504 [3:14:02<26:36:23,  1.31s/it]                                                         {'loss': 0.3095, 'grad_norm': 3.9953386783599854, 'learning_rate': 2.0305693542223918e-05, 'epoch': 1.63}
  7%|▋         | 5318/78504 [3:14:02<26:36:23,  1.31s/it]  7%|▋         | 5319/78504 [3:14:03<25:03:33,  1.23s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.9583189487457275, 'learning_rate': 2.030951471150172e-05, 'epoch': 1.63}
  7%|▋         | 5319/78504 [3:14:04<25:03:33,  1.23s/it]  7%|▋         | 5320/78504 [3:14:04<23:13:32,  1.14s/it]                                                         {'loss': 0.2619, 'grad_norm': 1.4874742031097412, 'learning_rate': 2.031333588077952e-05, 'epoch': 1.63}
  7%|▋         | 5320/78504 [3:14:04<23:13:32,  1.14s/it]  7%|▋         | 5321/78504 [3:14:05<21:01:40,  1.03s/it]                                                         {'loss': 0.3819, 'grad_norm': 2.098086357116699, 'learning_rate': 2.0317157050057318e-05, 'epoch': 1.63}
  7%|▋         | 5321/78504 [3:14:05<21:01:40,  1.03s/it]  7%|▋         | 5322/78504 [3:14:14<65:45:41,  3.23s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.39551234245300293, 'learning_rate': 2.0320978219335117e-05, 'epoch': 1.63}
  7%|▋         | 5322/78504 [3:14:14<65:45:41,  3.23s/it]  7%|▋         | 5323/78504 [3:14:17<65:11:40,  3.21s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.4185939431190491, 'learning_rate': 2.0324799388612915e-05, 'epoch': 1.63}
  7%|▋         | 5323/78504 [3:14:17<65:11:40,  3.21s/it]  7%|▋         | 5324/78504 [3:14:20<63:29:44,  3.12s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.3405463397502899, 'learning_rate': 2.0328620557890714e-05, 'epoch': 1.63}
  7%|▋         | 5324/78504 [3:14:20<63:29:44,  3.12s/it]  7%|▋         | 5325/78504 [3:14:22<60:09:53,  2.96s/it]                                                         {'loss': 0.068, 'grad_norm': 0.2569710612297058, 'learning_rate': 2.0332441727168513e-05, 'epoch': 1.63}
  7%|▋         | 5325/78504 [3:14:22<60:09:53,  2.96s/it]  7%|▋         | 5326/78504 [3:14:25<57:20:00,  2.82s/it]                                                         {'loss': 0.1053, 'grad_norm': 0.419137567281723, 'learning_rate': 2.033626289644631e-05, 'epoch': 1.63}
  7%|▋         | 5326/78504 [3:14:25<57:20:00,  2.82s/it]  7%|▋         | 5327/78504 [3:14:27<55:05:34,  2.71s/it]                                                         {'loss': 0.0803, 'grad_norm': 0.394603431224823, 'learning_rate': 2.034008406572411e-05, 'epoch': 1.63}
  7%|▋         | 5327/78504 [3:14:27<55:05:34,  2.71s/it]  7%|▋         | 5328/78504 [3:14:29<52:40:25,  2.59s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.38011008501052856, 'learning_rate': 2.034390523500191e-05, 'epoch': 1.63}
  7%|▋         | 5328/78504 [3:14:30<52:40:25,  2.59s/it]  7%|▋         | 5329/78504 [3:14:32<49:47:41,  2.45s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.6186875104904175, 'learning_rate': 2.034772640427971e-05, 'epoch': 1.63}
  7%|▋         | 5329/78504 [3:14:32<49:47:41,  2.45s/it]  7%|▋         | 5330/78504 [3:14:34<48:08:36,  2.37s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.3915429711341858, 'learning_rate': 2.035154757355751e-05, 'epoch': 1.63}
  7%|▋         | 5330/78504 [3:14:34<48:08:36,  2.37s/it]  7%|▋         | 5331/78504 [3:14:36<46:55:19,  2.31s/it]                                                         {'loss': 0.0984, 'grad_norm': 0.38885176181793213, 'learning_rate': 2.035536874283531e-05, 'epoch': 1.63}
  7%|▋         | 5331/78504 [3:14:36<46:55:19,  2.31s/it]  7%|▋         | 5332/78504 [3:14:38<45:11:18,  2.22s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.3859536051750183, 'learning_rate': 2.0359189912113107e-05, 'epoch': 1.63}
  7%|▋         | 5332/78504 [3:14:38<45:11:18,  2.22s/it]  7%|▋         | 5333/78504 [3:14:40<43:40:35,  2.15s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.343504399061203, 'learning_rate': 2.0363011081390906e-05, 'epoch': 1.63}
  7%|▋         | 5333/78504 [3:14:40<43:40:35,  2.15s/it]  7%|▋         | 5334/78504 [3:14:42<41:59:26,  2.07s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.42285847663879395, 'learning_rate': 2.0366832250668708e-05, 'epoch': 1.63}
  7%|▋         | 5334/78504 [3:14:42<41:59:26,  2.07s/it]  7%|▋         | 5335/78504 [3:14:44<40:34:33,  2.00s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.9083321690559387, 'learning_rate': 2.0370653419946507e-05, 'epoch': 1.63}
  7%|▋         | 5335/78504 [3:14:44<40:34:33,  2.00s/it]  7%|▋         | 5336/78504 [3:14:45<38:55:05,  1.91s/it]                                                         {'loss': 0.1148, 'grad_norm': 0.5310477018356323, 'learning_rate': 2.0374474589224306e-05, 'epoch': 1.63}
  7%|▋         | 5336/78504 [3:14:45<38:55:05,  1.91s/it]  7%|▋         | 5337/78504 [3:14:47<37:18:47,  1.84s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.5695691704750061, 'learning_rate': 2.0378295758502104e-05, 'epoch': 1.63}
  7%|▋         | 5337/78504 [3:14:47<37:18:47,  1.84s/it]  7%|▋         | 5338/78504 [3:14:49<35:32:50,  1.75s/it]                                                         {'loss': 0.2478, 'grad_norm': 1.0928691625595093, 'learning_rate': 2.0382116927779903e-05, 'epoch': 1.63}
  7%|▋         | 5338/78504 [3:14:49<35:32:50,  1.75s/it]  7%|▋         | 5339/78504 [3:14:50<33:48:09,  1.66s/it]                                                         {'loss': 0.2354, 'grad_norm': 0.8885790109634399, 'learning_rate': 2.0385938097057702e-05, 'epoch': 1.63}
  7%|▋         | 5339/78504 [3:14:50<33:48:09,  1.66s/it]  7%|▋         | 5340/78504 [3:14:51<32:20:51,  1.59s/it]                                                         {'loss': 0.1918, 'grad_norm': 0.8072815537452698, 'learning_rate': 2.03897592663355e-05, 'epoch': 1.63}
  7%|▋         | 5340/78504 [3:14:51<32:20:51,  1.59s/it]  7%|▋         | 5341/78504 [3:14:53<30:34:12,  1.50s/it]                                                         {'loss': 0.2147, 'grad_norm': 0.7128298878669739, 'learning_rate': 2.03935804356133e-05, 'epoch': 1.63}
  7%|▋         | 5341/78504 [3:14:53<30:34:12,  1.50s/it]  7%|▋         | 5342/78504 [3:14:54<28:28:39,  1.40s/it]                                                         {'loss': 0.209, 'grad_norm': 1.444611668586731, 'learning_rate': 2.0397401604891098e-05, 'epoch': 1.63}
  7%|▋         | 5342/78504 [3:14:54<28:28:39,  1.40s/it]  7%|▋         | 5343/78504 [3:14:55<26:34:39,  1.31s/it]                                                         {'loss': 0.2456, 'grad_norm': 1.2936323881149292, 'learning_rate': 2.0401222774168897e-05, 'epoch': 1.63}
  7%|▋         | 5343/78504 [3:14:55<26:34:39,  1.31s/it]  7%|▋         | 5344/78504 [3:14:56<24:58:13,  1.23s/it]                                                         {'loss': 0.2726, 'grad_norm': 1.4360908269882202, 'learning_rate': 2.0405043943446696e-05, 'epoch': 1.63}
  7%|▋         | 5344/78504 [3:14:56<24:58:13,  1.23s/it]  7%|▋         | 5345/78504 [3:14:57<23:09:36,  1.14s/it]                                                         {'loss': 0.2407, 'grad_norm': 1.1086095571517944, 'learning_rate': 2.0408865112724494e-05, 'epoch': 1.63}
  7%|▋         | 5345/78504 [3:14:57<23:09:36,  1.14s/it]  7%|▋         | 5346/78504 [3:14:58<21:00:54,  1.03s/it]                                                         {'loss': 0.2774, 'grad_norm': 2.0891036987304688, 'learning_rate': 2.0412686282002293e-05, 'epoch': 1.63}
  7%|▋         | 5346/78504 [3:14:58<21:00:54,  1.03s/it]  7%|▋         | 5347/78504 [3:15:07<69:33:42,  3.42s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.5246413946151733, 'learning_rate': 2.0416507451280092e-05, 'epoch': 1.63}
  7%|▋         | 5347/78504 [3:15:07<69:33:42,  3.42s/it]  7%|▋         | 5348/78504 [3:15:10<67:19:11,  3.31s/it]                                                         {'loss': 0.0959, 'grad_norm': 0.2873307764530182, 'learning_rate': 2.042032862055789e-05, 'epoch': 1.63}
  7%|▋         | 5348/78504 [3:15:10<67:19:11,  3.31s/it]  7%|▋         | 5349/78504 [3:15:12<62:45:42,  3.09s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.27856960892677307, 'learning_rate': 2.042414978983569e-05, 'epoch': 1.64}
  7%|▋         | 5349/78504 [3:15:12<62:45:42,  3.09s/it]  7%|▋         | 5350/78504 [3:15:15<58:43:11,  2.89s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.5445376634597778, 'learning_rate': 2.042797095911349e-05, 'epoch': 1.64}
  7%|▋         | 5350/78504 [3:15:15<58:43:11,  2.89s/it]  7%|▋         | 5351/78504 [3:15:17<56:13:06,  2.77s/it]                                                         {'loss': 0.0542, 'grad_norm': 0.3045123517513275, 'learning_rate': 2.043179212839129e-05, 'epoch': 1.64}
  7%|▋         | 5351/78504 [3:15:17<56:13:06,  2.77s/it]  7%|▋         | 5352/78504 [3:15:20<53:10:56,  2.62s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3198130130767822, 'learning_rate': 2.043561329766909e-05, 'epoch': 1.64}
  7%|▋         | 5352/78504 [3:15:20<53:10:56,  2.62s/it]  7%|▋         | 5353/78504 [3:15:22<51:26:20,  2.53s/it]                                                         {'loss': 0.0533, 'grad_norm': 0.3053734004497528, 'learning_rate': 2.0439434466946888e-05, 'epoch': 1.64}
  7%|▋         | 5353/78504 [3:15:22<51:26:20,  2.53s/it]  7%|▋         | 5354/78504 [3:15:24<48:43:55,  2.40s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.2832387685775757, 'learning_rate': 2.0443255636224687e-05, 'epoch': 1.64}
  7%|▋         | 5354/78504 [3:15:24<48:43:55,  2.40s/it]  7%|▋         | 5355/78504 [3:15:26<47:30:22,  2.34s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.5886026620864868, 'learning_rate': 2.0447076805502485e-05, 'epoch': 1.64}
  7%|▋         | 5355/78504 [3:15:26<47:30:22,  2.34s/it]  7%|▋         | 5356/78504 [3:15:28<46:18:13,  2.28s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.30623868107795715, 'learning_rate': 2.0450897974780284e-05, 'epoch': 1.64}
  7%|▋         | 5356/78504 [3:15:28<46:18:13,  2.28s/it]  7%|▋         | 5357/78504 [3:15:30<44:36:14,  2.20s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.40032801032066345, 'learning_rate': 2.0454719144058083e-05, 'epoch': 1.64}
  7%|▋         | 5357/78504 [3:15:30<44:36:14,  2.20s/it]  7%|▋         | 5358/78504 [3:15:32<42:58:09,  2.11s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.3147734999656677, 'learning_rate': 2.045854031333588e-05, 'epoch': 1.64}
  7%|▋         | 5358/78504 [3:15:32<42:58:09,  2.11s/it]  7%|▋         | 5359/78504 [3:15:34<41:28:50,  2.04s/it]                                                         {'loss': 0.1349, 'grad_norm': 0.5662768483161926, 'learning_rate': 2.046236148261368e-05, 'epoch': 1.64}
  7%|▋         | 5359/78504 [3:15:34<41:28:50,  2.04s/it]  7%|▋         | 5360/78504 [3:15:36<39:27:38,  1.94s/it]                                                         {'loss': 0.1387, 'grad_norm': 0.41652557253837585, 'learning_rate': 2.046618265189148e-05, 'epoch': 1.64}
  7%|▋         | 5360/78504 [3:15:36<39:27:38,  1.94s/it]  7%|▋         | 5361/78504 [3:15:38<38:24:51,  1.89s/it]                                                         {'loss': 0.156, 'grad_norm': 0.6944168210029602, 'learning_rate': 2.0470003821169278e-05, 'epoch': 1.64}
  7%|▋         | 5361/78504 [3:15:38<38:24:51,  1.89s/it]  7%|▋         | 5362/78504 [3:15:39<36:52:42,  1.82s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.6260215640068054, 'learning_rate': 2.0473824990447076e-05, 'epoch': 1.64}
  7%|▋         | 5362/78504 [3:15:39<36:52:42,  1.82s/it]  7%|▋         | 5363/78504 [3:15:41<35:03:44,  1.73s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.7955819368362427, 'learning_rate': 2.0477646159724875e-05, 'epoch': 1.64}
  7%|▋         | 5363/78504 [3:15:41<35:03:44,  1.73s/it]  7%|▋         | 5364/78504 [3:15:42<33:16:45,  1.64s/it]                                                         {'loss': 0.1888, 'grad_norm': 0.6979178786277771, 'learning_rate': 2.0481467329002674e-05, 'epoch': 1.64}
  7%|▋         | 5364/78504 [3:15:42<33:16:45,  1.64s/it]  7%|▋         | 5365/78504 [3:15:44<31:53:50,  1.57s/it]                                                         {'loss': 0.2133, 'grad_norm': 0.9750168323516846, 'learning_rate': 2.0485288498280476e-05, 'epoch': 1.64}
  7%|▋         | 5365/78504 [3:15:44<31:53:50,  1.57s/it]  7%|▋         | 5366/78504 [3:15:45<29:44:44,  1.46s/it]                                                         {'loss': 0.192, 'grad_norm': 0.8336147665977478, 'learning_rate': 2.0489109667558275e-05, 'epoch': 1.64}
  7%|▋         | 5366/78504 [3:15:45<29:44:44,  1.46s/it]  7%|▋         | 5367/78504 [3:15:46<27:47:25,  1.37s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.9059227705001831, 'learning_rate': 2.0492930836836074e-05, 'epoch': 1.64}
  7%|▋         | 5367/78504 [3:15:46<27:47:25,  1.37s/it]  7%|▋         | 5368/78504 [3:15:47<26:09:31,  1.29s/it]                                                         {'loss': 0.2143, 'grad_norm': 1.005125880241394, 'learning_rate': 2.0496752006113872e-05, 'epoch': 1.64}
  7%|▋         | 5368/78504 [3:15:47<26:09:31,  1.29s/it]  7%|▋         | 5369/78504 [3:15:48<24:42:23,  1.22s/it]                                                         {'loss': 0.2826, 'grad_norm': 1.4279593229293823, 'learning_rate': 2.050057317539167e-05, 'epoch': 1.64}
  7%|▋         | 5369/78504 [3:15:48<24:42:23,  1.22s/it]  7%|▋         | 5370/78504 [3:15:49<22:58:04,  1.13s/it]                                                         {'loss': 0.2389, 'grad_norm': 1.2369734048843384, 'learning_rate': 2.050439434466947e-05, 'epoch': 1.64}
  7%|▋         | 5370/78504 [3:15:49<22:58:04,  1.13s/it]  7%|▋         | 5371/78504 [3:15:50<20:50:33,  1.03s/it]                                                         {'loss': 0.2762, 'grad_norm': 1.9718960523605347, 'learning_rate': 2.050821551394727e-05, 'epoch': 1.64}
  7%|▋         | 5371/78504 [3:15:50<20:50:33,  1.03s/it]  7%|▋         | 5372/78504 [3:15:57<60:02:02,  2.96s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.5783370733261108, 'learning_rate': 2.0512036683225067e-05, 'epoch': 1.64}
  7%|▋         | 5372/78504 [3:15:57<60:02:02,  2.96s/it]  7%|▋         | 5373/78504 [3:16:01<62:10:48,  3.06s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.24725298583507538, 'learning_rate': 2.0515857852502866e-05, 'epoch': 1.64}
  7%|▋         | 5373/78504 [3:16:01<62:10:48,  3.06s/it]  7%|▋         | 5374/78504 [3:16:04<61:53:32,  3.05s/it]                                                         {'loss': 0.1124, 'grad_norm': 0.44749024510383606, 'learning_rate': 2.0519679021780665e-05, 'epoch': 1.64}
  7%|▋         | 5374/78504 [3:16:04<61:53:32,  3.05s/it]  7%|▋         | 5375/78504 [3:16:06<59:16:45,  2.92s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.2913813292980194, 'learning_rate': 2.0523500191058464e-05, 'epoch': 1.64}
  7%|▋         | 5375/78504 [3:16:06<59:16:45,  2.92s/it]  7%|▋         | 5376/78504 [3:16:09<56:30:55,  2.78s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.3672531843185425, 'learning_rate': 2.0527321360336262e-05, 'epoch': 1.64}
  7%|▋         | 5376/78504 [3:16:09<56:30:55,  2.78s/it]  7%|▋         | 5377/78504 [3:16:11<54:24:11,  2.68s/it]                                                         {'loss': 0.0559, 'grad_norm': 0.3594619929790497, 'learning_rate': 2.053114252961406e-05, 'epoch': 1.64}
  7%|▋         | 5377/78504 [3:16:11<54:24:11,  2.68s/it]  7%|▋         | 5378/78504 [3:16:13<52:13:14,  2.57s/it]                                                         {'loss': 0.0884, 'grad_norm': 0.33547985553741455, 'learning_rate': 2.053496369889186e-05, 'epoch': 1.64}
  7%|▋         | 5378/78504 [3:16:13<52:13:14,  2.57s/it]  7%|▋         | 5379/78504 [3:16:16<49:19:59,  2.43s/it]                                                         {'loss': 0.0715, 'grad_norm': 0.3057751953601837, 'learning_rate': 2.053878486816966e-05, 'epoch': 1.64}
  7%|▋         | 5379/78504 [3:16:16<49:19:59,  2.43s/it]  7%|▋         | 5380/78504 [3:16:18<47:51:36,  2.36s/it]                                                         {'loss': 0.0919, 'grad_norm': 0.4512922465801239, 'learning_rate': 2.0542606037447457e-05, 'epoch': 1.64}
  7%|▋         | 5380/78504 [3:16:18<47:51:36,  2.36s/it]  7%|▋         | 5381/78504 [3:16:20<46:33:52,  2.29s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.4260003864765167, 'learning_rate': 2.054642720672526e-05, 'epoch': 1.65}
  7%|▋         | 5381/78504 [3:16:20<46:33:52,  2.29s/it]  7%|▋         | 5382/78504 [3:16:22<44:56:48,  2.21s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.5418351888656616, 'learning_rate': 2.0550248376003058e-05, 'epoch': 1.65}
  7%|▋         | 5382/78504 [3:16:22<44:56:48,  2.21s/it]  7%|▋         | 5383/78504 [3:16:24<43:29:11,  2.14s/it]                                                         {'loss': 0.092, 'grad_norm': 0.525894820690155, 'learning_rate': 2.0554069545280857e-05, 'epoch': 1.65}
  7%|▋         | 5383/78504 [3:16:24<43:29:11,  2.14s/it]  7%|▋         | 5384/78504 [3:16:26<42:10:04,  2.08s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.40811723470687866, 'learning_rate': 2.0557890714558656e-05, 'epoch': 1.65}
  7%|▋         | 5384/78504 [3:16:26<42:10:04,  2.08s/it]  7%|▋         | 5385/78504 [3:16:28<40:50:22,  2.01s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.5967738628387451, 'learning_rate': 2.0561711883836454e-05, 'epoch': 1.65}
  7%|▋         | 5385/78504 [3:16:28<40:50:22,  2.01s/it]  7%|▋         | 5386/78504 [3:16:29<39:19:58,  1.94s/it]                                                         {'loss': 0.1301, 'grad_norm': 0.4653361737728119, 'learning_rate': 2.0565533053114253e-05, 'epoch': 1.65}
  7%|▋         | 5386/78504 [3:16:29<39:19:58,  1.94s/it]  7%|▋         | 5387/78504 [3:16:31<37:37:11,  1.85s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.6400185227394104, 'learning_rate': 2.0569354222392052e-05, 'epoch': 1.65}
  7%|▋         | 5387/78504 [3:16:31<37:37:11,  1.85s/it]  7%|▋         | 5388/78504 [3:16:33<35:46:51,  1.76s/it]                                                         {'loss': 0.1631, 'grad_norm': 0.865928053855896, 'learning_rate': 2.057317539166985e-05, 'epoch': 1.65}
  7%|▋         | 5388/78504 [3:16:33<35:46:51,  1.76s/it]  7%|▋         | 5389/78504 [3:16:34<34:11:02,  1.68s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.7920725345611572, 'learning_rate': 2.057699656094765e-05, 'epoch': 1.65}
  7%|▋         | 5389/78504 [3:16:34<34:11:02,  1.68s/it]  7%|▋         | 5390/78504 [3:16:36<32:22:13,  1.59s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.8040024638175964, 'learning_rate': 2.0580817730225448e-05, 'epoch': 1.65}
  7%|▋         | 5390/78504 [3:16:36<32:22:13,  1.59s/it]  7%|▋         | 5391/78504 [3:16:37<30:30:00,  1.50s/it]                                                         {'loss': 0.2409, 'grad_norm': 0.8519954681396484, 'learning_rate': 2.0584638899503247e-05, 'epoch': 1.65}
  7%|▋         | 5391/78504 [3:16:37<30:30:00,  1.50s/it]  7%|▋         | 5392/78504 [3:16:38<28:21:31,  1.40s/it]                                                         {'loss': 0.2836, 'grad_norm': 1.2151710987091064, 'learning_rate': 2.0588460068781046e-05, 'epoch': 1.65}
  7%|▋         | 5392/78504 [3:16:38<28:21:31,  1.40s/it]  7%|▋         | 5393/78504 [3:16:39<26:33:38,  1.31s/it]                                                         {'loss': 0.2209, 'grad_norm': 2.7472524642944336, 'learning_rate': 2.0592281238058844e-05, 'epoch': 1.65}
  7%|▋         | 5393/78504 [3:16:39<26:33:38,  1.31s/it]  7%|▋         | 5394/78504 [3:16:40<24:55:55,  1.23s/it]                                                         {'loss': 0.2383, 'grad_norm': 2.394906759262085, 'learning_rate': 2.0596102407336643e-05, 'epoch': 1.65}
  7%|▋         | 5394/78504 [3:16:40<24:55:55,  1.23s/it]  7%|▋         | 5395/78504 [3:16:41<23:06:08,  1.14s/it]                                                         {'loss': 0.2331, 'grad_norm': 2.673557758331299, 'learning_rate': 2.0599923576614442e-05, 'epoch': 1.65}
  7%|▋         | 5395/78504 [3:16:41<23:06:08,  1.14s/it]  7%|▋         | 5396/78504 [3:16:42<20:44:08,  1.02s/it]                                                         {'loss': 0.3149, 'grad_norm': 1.990767240524292, 'learning_rate': 2.0603744745892244e-05, 'epoch': 1.65}
  7%|▋         | 5396/78504 [3:16:42<20:44:08,  1.02s/it]  7%|▋         | 5397/78504 [3:16:52<73:51:28,  3.64s/it]                                                         {'loss': 0.1792, 'grad_norm': 0.5727019906044006, 'learning_rate': 2.0607565915170043e-05, 'epoch': 1.65}
  7%|▋         | 5397/78504 [3:16:52<73:51:28,  3.64s/it]  7%|▋         | 5398/78504 [3:16:55<72:11:02,  3.55s/it]                                                         {'loss': 0.1383, 'grad_norm': 0.4215615391731262, 'learning_rate': 2.061138708444784e-05, 'epoch': 1.65}
  7%|▋         | 5398/78504 [3:16:55<72:11:02,  3.55s/it]  7%|▋         | 5399/78504 [3:16:58<68:40:50,  3.38s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.3177843689918518, 'learning_rate': 2.061520825372564e-05, 'epoch': 1.65}
  7%|▋         | 5399/78504 [3:16:58<68:40:50,  3.38s/it]  7%|▋         | 5400/78504 [3:17:00<63:53:15,  3.15s/it]                                                         {'loss': 0.0571, 'grad_norm': 0.23223517835140228, 'learning_rate': 2.061902942300344e-05, 'epoch': 1.65}
  7%|▋         | 5400/78504 [3:17:00<63:53:15,  3.15s/it]  7%|▋         | 5401/78504 [3:17:03<59:04:23,  2.91s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.42246267199516296, 'learning_rate': 2.0622850592281238e-05, 'epoch': 1.65}
  7%|▋         | 5401/78504 [3:17:03<59:04:23,  2.91s/it]  7%|▋         | 5402/78504 [3:17:05<55:09:05,  2.72s/it]                                                         {'loss': 0.0642, 'grad_norm': 0.41453075408935547, 'learning_rate': 2.0626671761559036e-05, 'epoch': 1.65}
  7%|▋         | 5402/78504 [3:17:05<55:09:05,  2.72s/it]  7%|▋         | 5403/78504 [3:17:07<52:44:34,  2.60s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.3711669147014618, 'learning_rate': 2.0630492930836835e-05, 'epoch': 1.65}
  7%|▋         | 5403/78504 [3:17:07<52:44:34,  2.60s/it]  7%|▋         | 5404/78504 [3:17:09<49:40:12,  2.45s/it]                                                         {'loss': 0.0576, 'grad_norm': 0.32094141840934753, 'learning_rate': 2.0634314100114634e-05, 'epoch': 1.65}
  7%|▋         | 5404/78504 [3:17:10<49:40:12,  2.45s/it]  7%|▋         | 5405/78504 [3:17:12<47:09:52,  2.32s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.5986273288726807, 'learning_rate': 2.0638135269392433e-05, 'epoch': 1.65}
  7%|▋         | 5405/78504 [3:17:12<47:09:52,  2.32s/it]  7%|▋         | 5406/78504 [3:17:14<46:02:35,  2.27s/it]                                                         {'loss': 0.0743, 'grad_norm': 1.0251927375793457, 'learning_rate': 2.064195643867023e-05, 'epoch': 1.65}
  7%|▋         | 5406/78504 [3:17:14<46:02:35,  2.27s/it]  7%|▋         | 5407/78504 [3:17:16<44:34:17,  2.20s/it]                                                         {'loss': 0.119, 'grad_norm': 0.44772300124168396, 'learning_rate': 2.0645777607948034e-05, 'epoch': 1.65}
  7%|▋         | 5407/78504 [3:17:16<44:34:17,  2.20s/it]  7%|▋         | 5408/78504 [3:17:18<43:16:40,  2.13s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.399240106344223, 'learning_rate': 2.0649598777225832e-05, 'epoch': 1.65}
  7%|▋         | 5408/78504 [3:17:18<43:16:40,  2.13s/it]  7%|▋         | 5409/78504 [3:17:20<41:44:45,  2.06s/it]                                                         {'loss': 0.0936, 'grad_norm': 0.408916175365448, 'learning_rate': 2.065341994650363e-05, 'epoch': 1.65}
  7%|▋         | 5409/78504 [3:17:20<41:44:45,  2.06s/it]  7%|▋         | 5410/78504 [3:17:21<40:27:19,  1.99s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.5156513452529907, 'learning_rate': 2.065724111578143e-05, 'epoch': 1.65}
  7%|▋         | 5410/78504 [3:17:21<40:27:19,  1.99s/it]  7%|▋         | 5411/78504 [3:17:23<38:50:08,  1.91s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.8524584770202637, 'learning_rate': 2.066106228505923e-05, 'epoch': 1.65}
  7%|▋         | 5411/78504 [3:17:23<38:50:08,  1.91s/it]  7%|▋         | 5412/78504 [3:17:25<37:13:49,  1.83s/it]                                                         {'loss': 0.1974, 'grad_norm': 1.0220321416854858, 'learning_rate': 2.066488345433703e-05, 'epoch': 1.65}
  7%|▋         | 5412/78504 [3:17:25<37:13:49,  1.83s/it]  7%|▋         | 5413/78504 [3:17:26<35:28:49,  1.75s/it]                                                         {'loss': 0.2174, 'grad_norm': 1.0437049865722656, 'learning_rate': 2.066870462361483e-05, 'epoch': 1.65}
  7%|▋         | 5413/78504 [3:17:26<35:28:49,  1.75s/it]  7%|▋         | 5414/78504 [3:17:28<33:31:43,  1.65s/it]                                                         {'loss': 0.2247, 'grad_norm': 0.6667874455451965, 'learning_rate': 2.0672525792892628e-05, 'epoch': 1.66}
  7%|▋         | 5414/78504 [3:17:28<33:31:43,  1.65s/it]  7%|▋         | 5415/78504 [3:17:29<32:04:32,  1.58s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.665537416934967, 'learning_rate': 2.0676346962170427e-05, 'epoch': 1.66}
  7%|▋         | 5415/78504 [3:17:29<32:04:32,  1.58s/it]  7%|▋         | 5416/78504 [3:17:30<29:53:47,  1.47s/it]                                                         {'loss': 0.2196, 'grad_norm': 0.9752854108810425, 'learning_rate': 2.0680168131448226e-05, 'epoch': 1.66}
  7%|▋         | 5416/78504 [3:17:30<29:53:47,  1.47s/it]  7%|▋         | 5417/78504 [3:17:32<27:56:40,  1.38s/it]                                                         {'loss': 0.2762, 'grad_norm': 1.0499892234802246, 'learning_rate': 2.0683989300726024e-05, 'epoch': 1.66}
  7%|▋         | 5417/78504 [3:17:32<27:56:40,  1.38s/it]  7%|▋         | 5418/78504 [3:17:33<26:14:16,  1.29s/it]                                                         {'loss': 0.2605, 'grad_norm': 0.8499460816383362, 'learning_rate': 2.0687810470003823e-05, 'epoch': 1.66}
  7%|▋         | 5418/78504 [3:17:33<26:14:16,  1.29s/it]  7%|▋         | 5419/78504 [3:17:34<24:23:45,  1.20s/it]                                                         {'loss': 0.2668, 'grad_norm': 0.7770063877105713, 'learning_rate': 2.0691631639281622e-05, 'epoch': 1.66}
  7%|▋         | 5419/78504 [3:17:34<24:23:45,  1.20s/it]  7%|▋         | 5420/78504 [3:17:35<22:45:04,  1.12s/it]                                                         {'loss': 0.2702, 'grad_norm': 1.0846312046051025, 'learning_rate': 2.069545280855942e-05, 'epoch': 1.66}
  7%|▋         | 5420/78504 [3:17:35<22:45:04,  1.12s/it]  7%|▋         | 5421/78504 [3:17:35<20:45:22,  1.02s/it]                                                         {'loss': 0.3677, 'grad_norm': 1.7249999046325684, 'learning_rate': 2.069927397783722e-05, 'epoch': 1.66}
  7%|▋         | 5421/78504 [3:17:35<20:45:22,  1.02s/it]  7%|▋         | 5422/78504 [3:17:45<70:45:40,  3.49s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.6421895623207092, 'learning_rate': 2.0703095147115018e-05, 'epoch': 1.66}
  7%|▋         | 5422/78504 [3:17:45<70:45:40,  3.49s/it]  7%|▋         | 5423/78504 [3:17:48<69:38:54,  3.43s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.32055971026420593, 'learning_rate': 2.0706916316392817e-05, 'epoch': 1.66}
  7%|▋         | 5423/78504 [3:17:48<69:38:54,  3.43s/it]  7%|▋         | 5424/78504 [3:17:50<64:26:02,  3.17s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.46219709515571594, 'learning_rate': 2.0710737485670616e-05, 'epoch': 1.66}
  7%|▋         | 5424/78504 [3:17:50<64:26:02,  3.17s/it]  7%|▋         | 5425/78504 [3:17:53<61:00:51,  3.01s/it]                                                         {'loss': 0.0808, 'grad_norm': 0.39012303948402405, 'learning_rate': 2.0714558654948414e-05, 'epoch': 1.66}
  7%|▋         | 5425/78504 [3:17:53<61:00:51,  3.01s/it]  7%|▋         | 5426/78504 [3:17:56<57:49:04,  2.85s/it]                                                         {'loss': 0.0634, 'grad_norm': 0.33020925521850586, 'learning_rate': 2.0718379824226213e-05, 'epoch': 1.66}
  7%|▋         | 5426/78504 [3:17:56<57:49:04,  2.85s/it]  7%|▋         | 5427/78504 [3:17:58<54:15:17,  2.67s/it]                                                         {'loss': 0.0627, 'grad_norm': 0.2851020395755768, 'learning_rate': 2.0722200993504015e-05, 'epoch': 1.66}
  7%|▋         | 5427/78504 [3:17:58<54:15:17,  2.67s/it]  7%|▋         | 5428/78504 [3:18:00<52:08:08,  2.57s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.2929774224758148, 'learning_rate': 2.0726022162781814e-05, 'epoch': 1.66}
  7%|▋         | 5428/78504 [3:18:00<52:08:08,  2.57s/it]  7%|▋         | 5429/78504 [3:18:02<50:33:27,  2.49s/it]                                                         {'loss': 0.1099, 'grad_norm': 0.5521993041038513, 'learning_rate': 2.0729843332059613e-05, 'epoch': 1.66}
  7%|▋         | 5429/78504 [3:18:02<50:33:27,  2.49s/it]  7%|▋         | 5430/78504 [3:18:05<48:41:00,  2.40s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.5974448919296265, 'learning_rate': 2.073366450133741e-05, 'epoch': 1.66}
  7%|▋         | 5430/78504 [3:18:05<48:41:00,  2.40s/it]  7%|▋         | 5431/78504 [3:18:07<47:18:55,  2.33s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.29131758213043213, 'learning_rate': 2.073748567061521e-05, 'epoch': 1.66}
  7%|▋         | 5431/78504 [3:18:07<47:18:55,  2.33s/it]  7%|▋         | 5432/78504 [3:18:09<45:25:11,  2.24s/it]                                                         {'loss': 0.1123, 'grad_norm': 0.4510475695133209, 'learning_rate': 2.074130683989301e-05, 'epoch': 1.66}
  7%|▋         | 5432/78504 [3:18:09<45:25:11,  2.24s/it]  7%|▋         | 5433/78504 [3:18:11<43:54:53,  2.16s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.5876105427742004, 'learning_rate': 2.0745128009170808e-05, 'epoch': 1.66}
  7%|▋         | 5433/78504 [3:18:11<43:54:53,  2.16s/it]  7%|▋         | 5434/78504 [3:18:13<42:07:58,  2.08s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.853573739528656, 'learning_rate': 2.0748949178448606e-05, 'epoch': 1.66}
  7%|▋         | 5434/78504 [3:18:13<42:07:58,  2.08s/it]  7%|▋         | 5435/78504 [3:18:15<40:37:56,  2.00s/it]                                                         {'loss': 0.159, 'grad_norm': 0.5302228331565857, 'learning_rate': 2.0752770347726405e-05, 'epoch': 1.66}
  7%|▋         | 5435/78504 [3:18:15<40:37:56,  2.00s/it]  7%|▋         | 5436/78504 [3:18:16<38:58:25,  1.92s/it]                                                         {'loss': 0.139, 'grad_norm': 0.998449981212616, 'learning_rate': 2.0756591517004204e-05, 'epoch': 1.66}
  7%|▋         | 5436/78504 [3:18:16<38:58:25,  1.92s/it]  7%|▋         | 5437/78504 [3:18:18<37:18:29,  1.84s/it]                                                         {'loss': 0.162, 'grad_norm': 0.7153952121734619, 'learning_rate': 2.0760412686282003e-05, 'epoch': 1.66}
  7%|▋         | 5437/78504 [3:18:18<37:18:29,  1.84s/it]  7%|▋         | 5438/78504 [3:18:19<35:20:23,  1.74s/it]                                                         {'loss': 0.1999, 'grad_norm': 0.5309622287750244, 'learning_rate': 2.07642338555598e-05, 'epoch': 1.66}
  7%|▋         | 5438/78504 [3:18:19<35:20:23,  1.74s/it]  7%|▋         | 5439/78504 [3:18:21<33:42:23,  1.66s/it]                                                         {'loss': 0.2264, 'grad_norm': 1.0210449695587158, 'learning_rate': 2.07680550248376e-05, 'epoch': 1.66}
  7%|▋         | 5439/78504 [3:18:21<33:42:23,  1.66s/it]  7%|▋         | 5440/78504 [3:18:22<32:16:42,  1.59s/it]                                                         {'loss': 0.2123, 'grad_norm': 0.7759552001953125, 'learning_rate': 2.07718761941154e-05, 'epoch': 1.66}
  7%|▋         | 5440/78504 [3:18:22<32:16:42,  1.59s/it]  7%|▋         | 5441/78504 [3:18:24<30:23:02,  1.50s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.6714988350868225, 'learning_rate': 2.0775697363393198e-05, 'epoch': 1.66}
  7%|▋         | 5441/78504 [3:18:24<30:23:02,  1.50s/it]  7%|▋         | 5442/78504 [3:18:25<28:12:38,  1.39s/it]                                                         {'loss': 0.271, 'grad_norm': 1.0095198154449463, 'learning_rate': 2.0779518532670996e-05, 'epoch': 1.66}
  7%|▋         | 5442/78504 [3:18:25<28:12:38,  1.39s/it]  7%|▋         | 5443/78504 [3:18:26<26:23:17,  1.30s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.9101609587669373, 'learning_rate': 2.07833397019488e-05, 'epoch': 1.66}
  7%|▋         | 5443/78504 [3:18:26<26:23:17,  1.30s/it]  7%|▋         | 5444/78504 [3:18:27<24:52:43,  1.23s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.52555513381958, 'learning_rate': 2.0787160871226597e-05, 'epoch': 1.66}
  7%|▋         | 5444/78504 [3:18:27<24:52:43,  1.23s/it]  7%|▋         | 5445/78504 [3:18:28<23:04:35,  1.14s/it]                                                         {'loss': 0.2228, 'grad_norm': 3.0977015495300293, 'learning_rate': 2.0790982040504396e-05, 'epoch': 1.66}
  7%|▋         | 5445/78504 [3:18:28<23:04:35,  1.14s/it]  7%|▋         | 5446/78504 [3:18:29<20:54:00,  1.03s/it]                                                         {'loss': 0.3116, 'grad_norm': 1.514047622680664, 'learning_rate': 2.0794803209782195e-05, 'epoch': 1.66}
  7%|▋         | 5446/78504 [3:18:29<20:54:00,  1.03s/it]  7%|▋         | 5447/78504 [3:18:38<71:56:54,  3.55s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.5746108889579773, 'learning_rate': 2.0798624379059993e-05, 'epoch': 1.67}
  7%|▋         | 5447/78504 [3:18:38<71:56:54,  3.55s/it]  7%|▋         | 5448/78504 [3:18:41<70:52:48,  3.49s/it]                                                         {'loss': 0.0829, 'grad_norm': 0.35507890582084656, 'learning_rate': 2.0802445548337792e-05, 'epoch': 1.67}
  7%|▋         | 5448/78504 [3:18:41<70:52:48,  3.49s/it]  7%|▋         | 5449/78504 [3:18:44<67:57:47,  3.35s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.26868048310279846, 'learning_rate': 2.080626671761559e-05, 'epoch': 1.67}
  7%|▋         | 5449/78504 [3:18:44<67:57:47,  3.35s/it]  7%|▋         | 5450/78504 [3:18:47<63:29:50,  3.13s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.3212776482105255, 'learning_rate': 2.081008788689339e-05, 'epoch': 1.67}
  7%|▋         | 5450/78504 [3:18:47<63:29:50,  3.13s/it]  7%|▋         | 5451/78504 [3:18:49<59:29:38,  2.93s/it]                                                         {'loss': 0.0842, 'grad_norm': 0.3473459780216217, 'learning_rate': 2.081390905617119e-05, 'epoch': 1.67}
  7%|▋         | 5451/78504 [3:18:49<59:29:38,  2.93s/it]  7%|▋         | 5452/78504 [3:18:52<55:28:37,  2.73s/it]                                                         {'loss': 0.0535, 'grad_norm': 0.2726270854473114, 'learning_rate': 2.0817730225448987e-05, 'epoch': 1.67}
  7%|▋         | 5452/78504 [3:18:52<55:28:37,  2.73s/it]  7%|▋         | 5453/78504 [3:18:54<52:56:47,  2.61s/it]                                                         {'loss': 0.0802, 'grad_norm': 0.3071592450141907, 'learning_rate': 2.0821551394726786e-05, 'epoch': 1.67}
  7%|▋         | 5453/78504 [3:18:54<52:56:47,  2.61s/it]  7%|▋         | 5454/78504 [3:18:56<49:59:57,  2.46s/it]                                                         {'loss': 0.076, 'grad_norm': 0.5885387659072876, 'learning_rate': 2.0825372564004585e-05, 'epoch': 1.67}
  7%|▋         | 5454/78504 [3:18:56<49:59:57,  2.46s/it]  7%|▋         | 5455/78504 [3:18:58<48:15:51,  2.38s/it]                                                         {'loss': 0.092, 'grad_norm': 0.5084386467933655, 'learning_rate': 2.0829193733282383e-05, 'epoch': 1.67}
  7%|▋         | 5455/78504 [3:18:58<48:15:51,  2.38s/it]  7%|▋         | 5456/78504 [3:19:01<46:59:38,  2.32s/it]                                                         {'loss': 0.072, 'grad_norm': 0.2853013873100281, 'learning_rate': 2.0833014902560182e-05, 'epoch': 1.67}
  7%|▋         | 5456/78504 [3:19:01<46:59:38,  2.32s/it]  7%|▋         | 5457/78504 [3:19:02<44:12:21,  2.18s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.7523764371871948, 'learning_rate': 2.083683607183798e-05, 'epoch': 1.67}
  7%|▋         | 5457/78504 [3:19:02<44:12:21,  2.18s/it]  7%|▋         | 5458/78504 [3:19:04<42:59:48,  2.12s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.6618975400924683, 'learning_rate': 2.0840657241115783e-05, 'epoch': 1.67}
  7%|▋         | 5458/78504 [3:19:04<42:59:48,  2.12s/it]  7%|▋         | 5459/78504 [3:19:06<41:49:02,  2.06s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.38830938935279846, 'learning_rate': 2.0844478410393582e-05, 'epoch': 1.67}
  7%|▋         | 5459/78504 [3:19:06<41:49:02,  2.06s/it]  7%|▋         | 5460/78504 [3:19:08<40:37:52,  2.00s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.8017683029174805, 'learning_rate': 2.084829957967138e-05, 'epoch': 1.67}
  7%|▋         | 5460/78504 [3:19:08<40:37:52,  2.00s/it]  7%|▋         | 5461/78504 [3:19:10<39:09:14,  1.93s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.43316248059272766, 'learning_rate': 2.085212074894918e-05, 'epoch': 1.67}
  7%|▋         | 5461/78504 [3:19:10<39:09:14,  1.93s/it]  7%|▋         | 5462/78504 [3:19:11<37:00:50,  1.82s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.7467924356460571, 'learning_rate': 2.0855941918226978e-05, 'epoch': 1.67}
  7%|▋         | 5462/78504 [3:19:12<37:00:50,  1.82s/it]  7%|▋         | 5463/78504 [3:19:13<35:16:29,  1.74s/it]                                                         {'loss': 0.1608, 'grad_norm': 1.0791795253753662, 'learning_rate': 2.0859763087504777e-05, 'epoch': 1.67}
  7%|▋         | 5463/78504 [3:19:13<35:16:29,  1.74s/it]  7%|▋         | 5464/78504 [3:19:15<33:40:26,  1.66s/it]                                                         {'loss': 0.2139, 'grad_norm': 0.6235798597335815, 'learning_rate': 2.0863584256782576e-05, 'epoch': 1.67}
  7%|▋         | 5464/78504 [3:19:15<33:40:26,  1.66s/it]  7%|▋         | 5465/78504 [3:19:16<32:08:05,  1.58s/it]                                                         {'loss': 0.188, 'grad_norm': 0.9633647203445435, 'learning_rate': 2.0867405426060374e-05, 'epoch': 1.67}
  7%|▋         | 5465/78504 [3:19:16<32:08:05,  1.58s/it]  7%|▋         | 5466/78504 [3:19:17<30:22:22,  1.50s/it]                                                         {'loss': 0.2225, 'grad_norm': 2.708256959915161, 'learning_rate': 2.0871226595338173e-05, 'epoch': 1.67}
  7%|▋         | 5466/78504 [3:19:17<30:22:22,  1.50s/it]  7%|▋         | 5467/78504 [3:19:18<28:18:51,  1.40s/it]                                                         {'loss': 0.2431, 'grad_norm': 1.0581326484680176, 'learning_rate': 2.0875047764615972e-05, 'epoch': 1.67}
  7%|▋         | 5467/78504 [3:19:18<28:18:51,  1.40s/it]  7%|▋         | 5468/78504 [3:19:19<26:32:34,  1.31s/it]                                                         {'loss': 0.2143, 'grad_norm': 0.9014422297477722, 'learning_rate': 2.087886893389377e-05, 'epoch': 1.67}
  7%|▋         | 5468/78504 [3:19:19<26:32:34,  1.31s/it]  7%|▋         | 5469/78504 [3:19:20<24:40:31,  1.22s/it]                                                         {'loss': 0.2213, 'grad_norm': 2.645918369293213, 'learning_rate': 2.088269010317157e-05, 'epoch': 1.67}
  7%|▋         | 5469/78504 [3:19:20<24:40:31,  1.22s/it]  7%|▋         | 5470/78504 [3:19:21<22:59:07,  1.13s/it]                                                         {'loss': 0.2576, 'grad_norm': 1.5184452533721924, 'learning_rate': 2.0886511272449368e-05, 'epoch': 1.67}
  7%|▋         | 5470/78504 [3:19:21<22:59:07,  1.13s/it]  7%|▋         | 5471/78504 [3:19:22<20:49:32,  1.03s/it]                                                         {'loss': 0.3575, 'grad_norm': 1.8510912656784058, 'learning_rate': 2.0890332441727167e-05, 'epoch': 1.67}
  7%|▋         | 5471/78504 [3:19:22<20:49:32,  1.03s/it]  7%|▋         | 5472/78504 [3:19:30<62:54:26,  3.10s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.5531582236289978, 'learning_rate': 2.0894153611004965e-05, 'epoch': 1.67}
  7%|▋         | 5472/78504 [3:19:30<62:54:26,  3.10s/it]  7%|▋         | 5473/78504 [3:19:33<61:40:23,  3.04s/it]                                                         {'loss': 0.0802, 'grad_norm': 0.3425605595111847, 'learning_rate': 2.0897974780282764e-05, 'epoch': 1.67}
  7%|▋         | 5473/78504 [3:19:33<61:40:23,  3.04s/it]  7%|▋         | 5474/78504 [3:19:36<60:58:50,  3.01s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.3631783127784729, 'learning_rate': 2.0901795949560566e-05, 'epoch': 1.67}
  7%|▋         | 5474/78504 [3:19:36<60:58:50,  3.01s/it]  7%|▋         | 5475/78504 [3:19:39<58:22:41,  2.88s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.31759434938430786, 'learning_rate': 2.0905617118838365e-05, 'epoch': 1.67}
  7%|▋         | 5475/78504 [3:19:39<58:22:41,  2.88s/it]  7%|▋         | 5476/78504 [3:19:41<56:03:37,  2.76s/it]                                                         {'loss': 0.0975, 'grad_norm': 0.3954648971557617, 'learning_rate': 2.0909438288116164e-05, 'epoch': 1.67}
  7%|▋         | 5476/78504 [3:19:41<56:03:37,  2.76s/it]  7%|▋         | 5477/78504 [3:19:43<54:02:11,  2.66s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.22085098922252655, 'learning_rate': 2.0913259457393963e-05, 'epoch': 1.67}
  7%|▋         | 5477/78504 [3:19:43<54:02:11,  2.66s/it]  7%|▋         | 5478/78504 [3:19:46<51:56:48,  2.56s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.39137157797813416, 'learning_rate': 2.091708062667176e-05, 'epoch': 1.67}
  7%|▋         | 5478/78504 [3:19:46<51:56:48,  2.56s/it]  7%|▋         | 5479/78504 [3:19:48<49:05:15,  2.42s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.24013039469718933, 'learning_rate': 2.092090179594956e-05, 'epoch': 1.68}
  7%|▋         | 5479/78504 [3:19:48<49:05:15,  2.42s/it]  7%|▋         | 5480/78504 [3:19:50<46:44:55,  2.30s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.5696359276771545, 'learning_rate': 2.092472296522736e-05, 'epoch': 1.68}
  7%|▋         | 5480/78504 [3:19:50<46:44:55,  2.30s/it]  7%|▋         | 5481/78504 [3:19:52<45:45:36,  2.26s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.33158230781555176, 'learning_rate': 2.0928544134505158e-05, 'epoch': 1.68}
  7%|▋         | 5481/78504 [3:19:52<45:45:36,  2.26s/it]  7%|▋         | 5482/78504 [3:19:54<44:19:34,  2.19s/it]                                                         {'loss': 0.118, 'grad_norm': 0.8852296471595764, 'learning_rate': 2.0932365303782956e-05, 'epoch': 1.68}
  7%|▋         | 5482/78504 [3:19:54<44:19:34,  2.19s/it]  7%|▋         | 5483/78504 [3:19:56<43:08:14,  2.13s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.36237555742263794, 'learning_rate': 2.0936186473060755e-05, 'epoch': 1.68}
  7%|▋         | 5483/78504 [3:19:56<43:08:14,  2.13s/it]  7%|▋         | 5484/78504 [3:19:58<41:34:44,  2.05s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.3034752607345581, 'learning_rate': 2.0940007642338554e-05, 'epoch': 1.68}
  7%|▋         | 5484/78504 [3:19:58<41:34:44,  2.05s/it]  7%|▋         | 5485/78504 [3:20:00<39:34:45,  1.95s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.4531189799308777, 'learning_rate': 2.0943828811616356e-05, 'epoch': 1.68}
  7%|▋         | 5485/78504 [3:20:00<39:34:45,  1.95s/it]  7%|▋         | 5486/78504 [3:20:01<38:28:11,  1.90s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.4736090898513794, 'learning_rate': 2.0947649980894155e-05, 'epoch': 1.68}
  7%|▋         | 5486/78504 [3:20:01<38:28:11,  1.90s/it]  7%|▋         | 5487/78504 [3:20:03<36:56:22,  1.82s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.8298685550689697, 'learning_rate': 2.0951471150171953e-05, 'epoch': 1.68}
  7%|▋         | 5487/78504 [3:20:03<36:56:22,  1.82s/it]  7%|▋         | 5488/78504 [3:20:05<35:05:59,  1.73s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.48166024684906006, 'learning_rate': 2.0955292319449752e-05, 'epoch': 1.68}
  7%|▋         | 5488/78504 [3:20:05<35:05:59,  1.73s/it]  7%|▋         | 5489/78504 [3:20:06<33:30:16,  1.65s/it]                                                         {'loss': 0.2046, 'grad_norm': 0.8239328861236572, 'learning_rate': 2.0959113488727554e-05, 'epoch': 1.68}
  7%|▋         | 5489/78504 [3:20:06<33:30:16,  1.65s/it]  7%|▋         | 5490/78504 [3:20:08<32:43:25,  1.61s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.619482159614563, 'learning_rate': 2.0962934658005353e-05, 'epoch': 1.68}
  7%|▋         | 5490/78504 [3:20:08<32:43:25,  1.61s/it]  7%|▋         | 5491/78504 [3:20:09<30:40:15,  1.51s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.9169145226478577, 'learning_rate': 2.0966755827283152e-05, 'epoch': 1.68}
  7%|▋         | 5491/78504 [3:20:09<30:40:15,  1.51s/it]  7%|▋         | 5492/78504 [3:20:10<28:18:27,  1.40s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.6089756488800049, 'learning_rate': 2.097057699656095e-05, 'epoch': 1.68}
  7%|▋         | 5492/78504 [3:20:10<28:18:27,  1.40s/it]  7%|▋         | 5493/78504 [3:20:11<26:28:42,  1.31s/it]                                                         {'loss': 0.252, 'grad_norm': 0.8691756129264832, 'learning_rate': 2.097439816583875e-05, 'epoch': 1.68}
  7%|▋         | 5493/78504 [3:20:11<26:28:42,  1.31s/it]  7%|▋         | 5494/78504 [3:20:12<24:33:35,  1.21s/it]                                                         {'loss': 0.2684, 'grad_norm': 0.8952469825744629, 'learning_rate': 2.0978219335116548e-05, 'epoch': 1.68}
  7%|▋         | 5494/78504 [3:20:12<24:33:35,  1.21s/it]  7%|▋         | 5495/78504 [3:20:13<22:53:09,  1.13s/it]                                                         {'loss': 0.2409, 'grad_norm': 0.9534359574317932, 'learning_rate': 2.0982040504394347e-05, 'epoch': 1.68}
  7%|▋         | 5495/78504 [3:20:13<22:53:09,  1.13s/it]  7%|▋         | 5496/78504 [3:20:14<20:46:14,  1.02s/it]                                                         {'loss': 0.3426, 'grad_norm': 2.0033771991729736, 'learning_rate': 2.0985861673672146e-05, 'epoch': 1.68}
  7%|▋         | 5496/78504 [3:20:14<20:46:14,  1.02s/it]  7%|▋         | 5497/78504 [3:20:22<65:20:26,  3.22s/it]                                                         {'loss': 0.1683, 'grad_norm': 0.3552451729774475, 'learning_rate': 2.0989682842949944e-05, 'epoch': 1.68}
  7%|▋         | 5497/78504 [3:20:22<65:20:26,  3.22s/it]  7%|▋         | 5498/78504 [3:20:25<64:50:45,  3.20s/it]                                                         {'loss': 0.107, 'grad_norm': 0.45043712854385376, 'learning_rate': 2.0993504012227743e-05, 'epoch': 1.68}
  7%|▋         | 5498/78504 [3:20:25<64:50:45,  3.20s/it]  7%|▋         | 5499/78504 [3:20:28<63:44:55,  3.14s/it]                                                         {'loss': 0.0974, 'grad_norm': 0.31540483236312866, 'learning_rate': 2.0997325181505542e-05, 'epoch': 1.68}
  7%|▋         | 5499/78504 [3:20:28<63:44:55,  3.14s/it]  7%|▋         | 5500/78504 [3:20:31<60:32:12,  2.99s/it]                                                         {'loss': 0.1127, 'grad_norm': 0.5143747329711914, 'learning_rate': 2.100114635078334e-05, 'epoch': 1.68}
  7%|▋         | 5500/78504 [3:20:31<60:32:12,  2.99s/it]  7%|▋         | 5501/78504 [3:20:33<57:22:58,  2.83s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.30648231506347656, 'learning_rate': 2.100496752006114e-05, 'epoch': 1.68}
  7%|▋         | 5501/78504 [3:20:33<57:22:58,  2.83s/it]  7%|▋         | 5502/78504 [3:20:36<53:58:46,  2.66s/it]                                                         {'loss': 0.0985, 'grad_norm': 0.2634066045284271, 'learning_rate': 2.1008788689338938e-05, 'epoch': 1.68}
  7%|▋         | 5502/78504 [3:20:36<53:58:46,  2.66s/it]  7%|▋         | 5503/78504 [3:20:38<51:55:13,  2.56s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.3244017958641052, 'learning_rate': 2.1012609858616737e-05, 'epoch': 1.68}
  7%|▋         | 5503/78504 [3:20:38<51:55:13,  2.56s/it]  7%|▋         | 5504/78504 [3:20:40<49:05:03,  2.42s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.4545248746871948, 'learning_rate': 2.1016431027894535e-05, 'epoch': 1.68}
  7%|▋         | 5504/78504 [3:20:40<49:05:03,  2.42s/it]  7%|▋         | 5505/78504 [3:20:42<47:43:04,  2.35s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.8149879574775696, 'learning_rate': 2.1020252197172338e-05, 'epoch': 1.68}
  7%|▋         | 5505/78504 [3:20:42<47:43:04,  2.35s/it]  7%|▋         | 5506/78504 [3:20:44<46:24:38,  2.29s/it]                                                         {'loss': 0.0834, 'grad_norm': 0.5142156481742859, 'learning_rate': 2.1024073366450136e-05, 'epoch': 1.68}
  7%|▋         | 5506/78504 [3:20:44<46:24:38,  2.29s/it]  7%|▋         | 5507/78504 [3:20:46<44:36:50,  2.20s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.41197118163108826, 'learning_rate': 2.1027894535727935e-05, 'epoch': 1.68}
  7%|▋         | 5507/78504 [3:20:46<44:36:50,  2.20s/it]  7%|▋         | 5508/78504 [3:20:48<42:55:44,  2.12s/it]                                                         {'loss': 0.1223, 'grad_norm': 0.46664318442344666, 'learning_rate': 2.1031715705005734e-05, 'epoch': 1.68}
  7%|▋         | 5508/78504 [3:20:48<42:55:44,  2.12s/it]  7%|▋         | 5509/78504 [3:20:50<41:27:20,  2.04s/it]                                                         {'loss': 0.1119, 'grad_norm': 0.450512170791626, 'learning_rate': 2.1035536874283533e-05, 'epoch': 1.68}
  7%|▋         | 5509/78504 [3:20:50<41:27:20,  2.04s/it]  7%|▋         | 5510/78504 [3:20:52<39:29:05,  1.95s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.6240183711051941, 'learning_rate': 2.103935804356133e-05, 'epoch': 1.68}
  7%|▋         | 5510/78504 [3:20:52<39:29:05,  1.95s/it]  7%|▋         | 5511/78504 [3:20:54<38:23:44,  1.89s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.8740485310554504, 'learning_rate': 2.104317921283913e-05, 'epoch': 1.68}
  7%|▋         | 5511/78504 [3:20:54<38:23:44,  1.89s/it]  7%|▋         | 5512/78504 [3:20:55<36:50:57,  1.82s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.5594334006309509, 'learning_rate': 2.104700038211693e-05, 'epoch': 1.69}
  7%|▋         | 5512/78504 [3:20:55<36:50:57,  1.82s/it]  7%|▋         | 5513/78504 [3:20:57<35:07:06,  1.73s/it]                                                         {'loss': 0.19, 'grad_norm': 0.7083232998847961, 'learning_rate': 2.1050821551394728e-05, 'epoch': 1.69}
  7%|▋         | 5513/78504 [3:20:57<35:07:06,  1.73s/it]  7%|▋         | 5514/78504 [3:20:58<33:16:39,  1.64s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.96764075756073, 'learning_rate': 2.1054642720672526e-05, 'epoch': 1.69}
  7%|▋         | 5514/78504 [3:20:58<33:16:39,  1.64s/it]  7%|▋         | 5515/78504 [3:21:00<31:51:57,  1.57s/it]                                                         {'loss': 0.2284, 'grad_norm': 0.8555235266685486, 'learning_rate': 2.1058463889950325e-05, 'epoch': 1.69}
  7%|▋         | 5515/78504 [3:21:00<31:51:57,  1.57s/it]  7%|▋         | 5516/78504 [3:21:01<30:06:13,  1.48s/it]                                                         {'loss': 0.2063, 'grad_norm': 0.7857459783554077, 'learning_rate': 2.1062285059228124e-05, 'epoch': 1.69}
  7%|▋         | 5516/78504 [3:21:01<30:06:13,  1.48s/it]  7%|▋         | 5517/78504 [3:21:02<28:03:03,  1.38s/it]                                                         {'loss': 0.2185, 'grad_norm': 0.6772654056549072, 'learning_rate': 2.1066106228505923e-05, 'epoch': 1.69}
  7%|▋         | 5517/78504 [3:21:02<28:03:03,  1.38s/it]  7%|▋         | 5518/78504 [3:21:03<26:20:17,  1.30s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.848495364189148, 'learning_rate': 2.106992739778372e-05, 'epoch': 1.69}
  7%|▋         | 5518/78504 [3:21:03<26:20:17,  1.30s/it]  7%|▋         | 5519/78504 [3:21:04<24:47:57,  1.22s/it]                                                         {'loss': 0.2426, 'grad_norm': 1.2560343742370605, 'learning_rate': 2.107374856706152e-05, 'epoch': 1.69}
  7%|▋         | 5519/78504 [3:21:04<24:47:57,  1.22s/it]  7%|▋         | 5520/78504 [3:21:05<22:58:43,  1.13s/it]                                                         {'loss': 0.255, 'grad_norm': 1.8744415044784546, 'learning_rate': 2.1077569736339322e-05, 'epoch': 1.69}
  7%|▋         | 5520/78504 [3:21:05<22:58:43,  1.13s/it]  7%|▋         | 5521/78504 [3:21:06<20:49:50,  1.03s/it]                                                         {'loss': 0.316, 'grad_norm': 1.7080767154693604, 'learning_rate': 2.108139090561712e-05, 'epoch': 1.69}
  7%|▋         | 5521/78504 [3:21:06<20:49:50,  1.03s/it]  7%|▋         | 5522/78504 [3:21:13<58:52:11,  2.90s/it]                                                         {'loss': 0.1401, 'grad_norm': 0.4344256520271301, 'learning_rate': 2.108521207489492e-05, 'epoch': 1.69}
  7%|▋         | 5522/78504 [3:21:13<58:52:11,  2.90s/it]  7%|▋         | 5523/78504 [3:21:16<60:12:09,  2.97s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.32798057794570923, 'learning_rate': 2.108903324417272e-05, 'epoch': 1.69}
  7%|▋         | 5523/78504 [3:21:16<60:12:09,  2.97s/it]  7%|▋         | 5524/78504 [3:21:19<58:44:45,  2.90s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.4523467719554901, 'learning_rate': 2.1092854413450517e-05, 'epoch': 1.69}
  7%|▋         | 5524/78504 [3:21:19<58:44:45,  2.90s/it]  7%|▋         | 5525/78504 [3:21:22<56:52:58,  2.81s/it]                                                         {'loss': 0.0548, 'grad_norm': 0.49572813510894775, 'learning_rate': 2.1096675582728316e-05, 'epoch': 1.69}
  7%|▋         | 5525/78504 [3:21:22<56:52:58,  2.81s/it]  7%|▋         | 5526/78504 [3:21:24<54:59:52,  2.71s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.36275923252105713, 'learning_rate': 2.1100496752006115e-05, 'epoch': 1.69}
  7%|▋         | 5526/78504 [3:21:24<54:59:52,  2.71s/it]  7%|▋         | 5527/78504 [3:21:26<52:17:04,  2.58s/it]                                                         {'loss': 0.0876, 'grad_norm': 0.7452584505081177, 'learning_rate': 2.1104317921283913e-05, 'epoch': 1.69}
  7%|▋         | 5527/78504 [3:21:26<52:17:04,  2.58s/it]  7%|▋         | 5528/78504 [3:21:29<50:46:55,  2.51s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.37326139211654663, 'learning_rate': 2.1108139090561712e-05, 'epoch': 1.69}
  7%|▋         | 5528/78504 [3:21:29<50:46:55,  2.51s/it]  7%|▋         | 5529/78504 [3:21:31<48:17:37,  2.38s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.46251073479652405, 'learning_rate': 2.111196025983951e-05, 'epoch': 1.69}
  7%|▋         | 5529/78504 [3:21:31<48:17:37,  2.38s/it]  7%|▋         | 5530/78504 [3:21:33<46:09:08,  2.28s/it]                                                         {'loss': 0.1058, 'grad_norm': 0.38829073309898376, 'learning_rate': 2.111578142911731e-05, 'epoch': 1.69}
  7%|▋         | 5530/78504 [3:21:33<46:09:08,  2.28s/it]  7%|▋         | 5531/78504 [3:21:35<45:20:49,  2.24s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.35976317524909973, 'learning_rate': 2.111960259839511e-05, 'epoch': 1.69}
  7%|▋         | 5531/78504 [3:21:35<45:20:49,  2.24s/it]  7%|▋         | 5532/78504 [3:21:37<43:57:57,  2.17s/it]                                                         {'loss': 0.1237, 'grad_norm': 0.5438142418861389, 'learning_rate': 2.1123423767672907e-05, 'epoch': 1.69}
  7%|▋         | 5532/78504 [3:21:37<43:57:57,  2.17s/it]  7%|▋         | 5533/78504 [3:21:39<42:48:49,  2.11s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.30121952295303345, 'learning_rate': 2.1127244936950706e-05, 'epoch': 1.69}
  7%|▋         | 5533/78504 [3:21:39<42:48:49,  2.11s/it]  7%|▋         | 5534/78504 [3:21:41<41:19:53,  2.04s/it]                                                         {'loss': 0.137, 'grad_norm': 0.666731059551239, 'learning_rate': 2.1131066106228505e-05, 'epoch': 1.69}
  7%|▋         | 5534/78504 [3:21:41<41:19:53,  2.04s/it]  7%|▋         | 5535/78504 [3:21:43<40:06:59,  1.98s/it]                                                         {'loss': 0.1444, 'grad_norm': 0.690792977809906, 'learning_rate': 2.1134887275506303e-05, 'epoch': 1.69}
  7%|▋         | 5535/78504 [3:21:43<40:06:59,  1.98s/it]  7%|▋         | 5536/78504 [3:21:44<38:32:59,  1.90s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.5410357713699341, 'learning_rate': 2.1138708444784105e-05, 'epoch': 1.69}
  7%|▋         | 5536/78504 [3:21:45<38:32:59,  1.90s/it]  7%|▋         | 5537/78504 [3:21:46<37:06:47,  1.83s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.7982252836227417, 'learning_rate': 2.1142529614061904e-05, 'epoch': 1.69}
  7%|▋         | 5537/78504 [3:21:46<37:06:47,  1.83s/it]  7%|▋         | 5538/78504 [3:21:48<35:20:13,  1.74s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.5118891596794128, 'learning_rate': 2.1146350783339703e-05, 'epoch': 1.69}
  7%|▋         | 5538/78504 [3:21:48<35:20:13,  1.74s/it]  7%|▋         | 5539/78504 [3:21:49<33:38:50,  1.66s/it]                                                         {'loss': 0.1818, 'grad_norm': 0.8464818596839905, 'learning_rate': 2.1150171952617502e-05, 'epoch': 1.69}
  7%|▋         | 5539/78504 [3:21:49<33:38:50,  1.66s/it]  7%|▋         | 5540/78504 [3:21:51<32:11:13,  1.59s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.898289144039154, 'learning_rate': 2.11539931218953e-05, 'epoch': 1.69}
  7%|▋         | 5540/78504 [3:21:51<32:11:13,  1.59s/it]  7%|▋         | 5541/78504 [3:21:52<29:58:48,  1.48s/it]                                                         {'loss': 0.2452, 'grad_norm': 1.0735888481140137, 'learning_rate': 2.11578142911731e-05, 'epoch': 1.69}
  7%|▋         | 5541/78504 [3:21:52<29:58:48,  1.48s/it]  7%|▋         | 5542/78504 [3:21:53<27:57:58,  1.38s/it]                                                         {'loss': 0.2168, 'grad_norm': 1.1051886081695557, 'learning_rate': 2.1161635460450898e-05, 'epoch': 1.69}
  7%|▋         | 5542/78504 [3:21:53<27:57:58,  1.38s/it]  7%|▋         | 5543/78504 [3:21:54<26:13:17,  1.29s/it]                                                         {'loss': 0.2631, 'grad_norm': 2.4751670360565186, 'learning_rate': 2.1165456629728697e-05, 'epoch': 1.69}
  7%|▋         | 5543/78504 [3:21:54<26:13:17,  1.29s/it]  7%|▋         | 5544/78504 [3:21:55<24:23:18,  1.20s/it]                                                         {'loss': 0.2276, 'grad_norm': 1.0150935649871826, 'learning_rate': 2.1169277799006495e-05, 'epoch': 1.69}
  7%|▋         | 5544/78504 [3:21:55<24:23:18,  1.20s/it]  7%|▋         | 5545/78504 [3:21:56<22:43:32,  1.12s/it]                                                         {'loss': 0.2681, 'grad_norm': 1.3351691961288452, 'learning_rate': 2.1173098968284294e-05, 'epoch': 1.7}
  7%|▋         | 5545/78504 [3:21:56<22:43:32,  1.12s/it]  7%|▋         | 5546/78504 [3:21:57<20:39:40,  1.02s/it]                                                         {'loss': 0.3093, 'grad_norm': 1.2458231449127197, 'learning_rate': 2.1176920137562093e-05, 'epoch': 1.7}
  7%|▋         | 5546/78504 [3:21:57<20:39:40,  1.02s/it]  7%|▋         | 5547/78504 [3:22:04<61:33:26,  3.04s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.48589229583740234, 'learning_rate': 2.118074130683989e-05, 'epoch': 1.7}
  7%|▋         | 5547/78504 [3:22:05<61:33:26,  3.04s/it]  7%|▋         | 5548/78504 [3:22:08<62:55:05,  3.10s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.3470019996166229, 'learning_rate': 2.118456247611769e-05, 'epoch': 1.7}
  7%|▋         | 5548/78504 [3:22:08<62:55:05,  3.10s/it]  7%|▋         | 5549/78504 [3:22:11<62:10:18,  3.07s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.3930821716785431, 'learning_rate': 2.118838364539549e-05, 'epoch': 1.7}
  7%|▋         | 5549/78504 [3:22:11<62:10:18,  3.07s/it]  7%|▋         | 5550/78504 [3:22:13<59:16:37,  2.93s/it]                                                         {'loss': 0.0561, 'grad_norm': 0.23035676777362823, 'learning_rate': 2.1192204814673288e-05, 'epoch': 1.7}
  7%|▋         | 5550/78504 [3:22:13<59:16:37,  2.93s/it]  7%|▋         | 5551/78504 [3:22:16<56:37:52,  2.79s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.2744598686695099, 'learning_rate': 2.119602598395109e-05, 'epoch': 1.7}
  7%|▋         | 5551/78504 [3:22:16<56:37:52,  2.79s/it]  7%|▋         | 5552/78504 [3:22:18<53:01:05,  2.62s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.33996573090553284, 'learning_rate': 2.119984715322889e-05, 'epoch': 1.7}
  7%|▋         | 5552/78504 [3:22:18<53:01:05,  2.62s/it]  7%|▋         | 5553/78504 [3:22:20<51:19:53,  2.53s/it]                                                         {'loss': 0.055, 'grad_norm': 0.4470658302307129, 'learning_rate': 2.1203668322506688e-05, 'epoch': 1.7}
  7%|▋         | 5553/78504 [3:22:20<51:19:53,  2.53s/it]  7%|▋         | 5554/78504 [3:22:23<49:38:28,  2.45s/it]                                                         {'loss': 0.0575, 'grad_norm': 0.3949526846408844, 'learning_rate': 2.1207489491784486e-05, 'epoch': 1.7}
  7%|▋         | 5554/78504 [3:22:23<49:38:28,  2.45s/it]  7%|▋         | 5555/78504 [3:22:25<48:06:30,  2.37s/it]                                                         {'loss': 0.1168, 'grad_norm': 0.4201253056526184, 'learning_rate': 2.1211310661062285e-05, 'epoch': 1.7}
  7%|▋         | 5555/78504 [3:22:25<48:06:30,  2.37s/it]  7%|▋         | 5556/78504 [3:22:27<46:40:32,  2.30s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.4633316993713379, 'learning_rate': 2.1215131830340084e-05, 'epoch': 1.7}
  7%|▋         | 5556/78504 [3:22:27<46:40:32,  2.30s/it]  7%|▋         | 5557/78504 [3:22:29<44:44:56,  2.21s/it]                                                         {'loss': 0.1253, 'grad_norm': 0.6479843854904175, 'learning_rate': 2.1218952999617882e-05, 'epoch': 1.7}
  7%|▋         | 5557/78504 [3:22:29<44:44:56,  2.21s/it]  7%|▋         | 5558/78504 [3:22:31<43:03:04,  2.12s/it]                                                         {'loss': 0.082, 'grad_norm': 0.6085544228553772, 'learning_rate': 2.122277416889568e-05, 'epoch': 1.7}
  7%|▋         | 5558/78504 [3:22:31<43:03:04,  2.12s/it]  7%|▋         | 5559/78504 [3:22:33<41:30:35,  2.05s/it]                                                         {'loss': 0.12, 'grad_norm': 0.4898277819156647, 'learning_rate': 2.122659533817348e-05, 'epoch': 1.7}
  7%|▋         | 5559/78504 [3:22:33<41:30:35,  2.05s/it]  7%|▋         | 5560/78504 [3:22:34<39:14:19,  1.94s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.47607114911079407, 'learning_rate': 2.123041650745128e-05, 'epoch': 1.7}
  7%|▋         | 5560/78504 [3:22:34<39:14:19,  1.94s/it]  7%|▋         | 5561/78504 [3:22:36<38:13:50,  1.89s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.6986544728279114, 'learning_rate': 2.1234237676729077e-05, 'epoch': 1.7}
  7%|▋         | 5561/78504 [3:22:36<38:13:50,  1.89s/it]  7%|▋         | 5562/78504 [3:22:38<36:43:24,  1.81s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.591979444026947, 'learning_rate': 2.123805884600688e-05, 'epoch': 1.7}
  7%|▋         | 5562/78504 [3:22:38<36:43:24,  1.81s/it]  7%|▋         | 5563/78504 [3:22:39<34:54:46,  1.72s/it]                                                         {'loss': 0.1831, 'grad_norm': 0.8471728563308716, 'learning_rate': 2.124188001528468e-05, 'epoch': 1.7}
  7%|▋         | 5563/78504 [3:22:39<34:54:46,  1.72s/it]  7%|▋         | 5564/78504 [3:22:41<33:23:46,  1.65s/it]                                                         {'loss': 0.1972, 'grad_norm': 1.0042495727539062, 'learning_rate': 2.1245701184562477e-05, 'epoch': 1.7}
  7%|▋         | 5564/78504 [3:22:41<33:23:46,  1.65s/it]  7%|▋         | 5565/78504 [3:22:42<31:49:21,  1.57s/it]                                                         {'loss': 0.2098, 'grad_norm': 0.9070826768875122, 'learning_rate': 2.1249522353840276e-05, 'epoch': 1.7}
  7%|▋         | 5565/78504 [3:22:42<31:49:21,  1.57s/it]  7%|▋         | 5566/78504 [3:22:43<30:04:47,  1.48s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.5602749586105347, 'learning_rate': 2.1253343523118075e-05, 'epoch': 1.7}
  7%|▋         | 5566/78504 [3:22:43<30:04:47,  1.48s/it]  7%|▋         | 5567/78504 [3:22:45<27:56:59,  1.38s/it]                                                         {'loss': 0.236, 'grad_norm': 0.9293088316917419, 'learning_rate': 2.1257164692395877e-05, 'epoch': 1.7}
  7%|▋         | 5567/78504 [3:22:45<27:56:59,  1.38s/it]  7%|▋         | 5568/78504 [3:22:46<26:14:17,  1.30s/it]                                                         {'loss': 0.2311, 'grad_norm': 0.7002514004707336, 'learning_rate': 2.1260985861673675e-05, 'epoch': 1.7}
  7%|▋         | 5568/78504 [3:22:46<26:14:17,  1.30s/it]  7%|▋         | 5569/78504 [3:22:47<24:24:01,  1.20s/it]                                                         {'loss': 0.2649, 'grad_norm': 1.164824366569519, 'learning_rate': 2.1264807030951474e-05, 'epoch': 1.7}
  7%|▋         | 5569/78504 [3:22:47<24:24:01,  1.20s/it]  7%|▋         | 5570/78504 [3:22:48<22:45:16,  1.12s/it]                                                         {'loss': 0.2524, 'grad_norm': 1.0753871202468872, 'learning_rate': 2.1268628200229273e-05, 'epoch': 1.7}
  7%|▋         | 5570/78504 [3:22:48<22:45:16,  1.12s/it]  7%|▋         | 5571/78504 [3:22:48<20:40:20,  1.02s/it]                                                         {'loss': 0.3471, 'grad_norm': 1.4242374897003174, 'learning_rate': 2.127244936950707e-05, 'epoch': 1.7}
  7%|▋         | 5571/78504 [3:22:48<20:40:20,  1.02s/it]  7%|▋         | 5572/78504 [3:22:56<61:46:48,  3.05s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.39294883608818054, 'learning_rate': 2.127627053878487e-05, 'epoch': 1.7}
  7%|▋         | 5572/78504 [3:22:56<61:46:48,  3.05s/it]  7%|▋         | 5573/78504 [3:23:00<63:43:16,  3.15s/it]                                                         {'loss': 0.0936, 'grad_norm': 0.40431079268455505, 'learning_rate': 2.128009170806267e-05, 'epoch': 1.7}
  7%|▋         | 5573/78504 [3:23:00<63:43:16,  3.15s/it]  7%|▋         | 5574/78504 [3:23:03<62:43:31,  3.10s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.317741721868515, 'learning_rate': 2.1283912877340468e-05, 'epoch': 1.7}
  7%|▋         | 5574/78504 [3:23:03<62:43:31,  3.10s/it]  7%|▋         | 5575/78504 [3:23:05<59:48:37,  2.95s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.4278109073638916, 'learning_rate': 2.1287734046618267e-05, 'epoch': 1.7}
  7%|▋         | 5575/78504 [3:23:05<59:48:37,  2.95s/it]  7%|▋         | 5576/78504 [3:23:08<56:53:16,  2.81s/it]                                                         {'loss': 0.0807, 'grad_norm': 0.35720837116241455, 'learning_rate': 2.1291555215896065e-05, 'epoch': 1.7}
  7%|▋         | 5576/78504 [3:23:08<56:53:16,  2.81s/it]  7%|▋         | 5577/78504 [3:23:10<54:37:56,  2.70s/it]                                                         {'loss': 0.0413, 'grad_norm': 0.2665511667728424, 'learning_rate': 2.1295376385173864e-05, 'epoch': 1.7}
  7%|▋         | 5577/78504 [3:23:10<54:37:56,  2.70s/it]  7%|▋         | 5578/78504 [3:23:12<52:19:46,  2.58s/it]                                                         {'loss': 0.0807, 'grad_norm': 0.3836120367050171, 'learning_rate': 2.1299197554451663e-05, 'epoch': 1.71}
  7%|▋         | 5578/78504 [3:23:12<52:19:46,  2.58s/it]  7%|▋         | 5579/78504 [3:23:15<49:31:38,  2.44s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.3452036380767822, 'learning_rate': 2.130301872372946e-05, 'epoch': 1.71}
  7%|▋         | 5579/78504 [3:23:15<49:31:38,  2.44s/it]  7%|▋         | 5580/78504 [3:23:17<47:55:01,  2.37s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.34173569083213806, 'learning_rate': 2.130683989300726e-05, 'epoch': 1.71}
  7%|▋         | 5580/78504 [3:23:17<47:55:01,  2.37s/it]  7%|▋         | 5581/78504 [3:23:19<46:33:41,  2.30s/it]                                                         {'loss': 0.0861, 'grad_norm': 0.33171045780181885, 'learning_rate': 2.131066106228506e-05, 'epoch': 1.71}
  7%|▋         | 5581/78504 [3:23:19<46:33:41,  2.30s/it]  7%|▋         | 5582/78504 [3:23:21<44:54:48,  2.22s/it]                                                         {'loss': 0.0936, 'grad_norm': 0.35060253739356995, 'learning_rate': 2.131448223156286e-05, 'epoch': 1.71}
  7%|▋         | 5582/78504 [3:23:21<44:54:48,  2.22s/it]  7%|▋         | 5583/78504 [3:23:23<43:27:11,  2.15s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.5109509229660034, 'learning_rate': 2.131830340084066e-05, 'epoch': 1.71}
  7%|▋         | 5583/78504 [3:23:23<43:27:11,  2.15s/it]  7%|▋         | 5584/78504 [3:23:25<41:44:57,  2.06s/it]                                                         {'loss': 0.1181, 'grad_norm': 0.6761054992675781, 'learning_rate': 2.132212457011846e-05, 'epoch': 1.71}
  7%|▋         | 5584/78504 [3:23:25<41:44:57,  2.06s/it]  7%|▋         | 5585/78504 [3:23:27<40:24:36,  2.00s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.5414308309555054, 'learning_rate': 2.1325945739396258e-05, 'epoch': 1.71}
  7%|▋         | 5585/78504 [3:23:27<40:24:36,  2.00s/it]  7%|▋         | 5586/78504 [3:23:28<38:20:17,  1.89s/it]                                                         {'loss': 0.1445, 'grad_norm': 0.5457049608230591, 'learning_rate': 2.1329766908674056e-05, 'epoch': 1.71}
  7%|▋         | 5586/78504 [3:23:28<38:20:17,  1.89s/it]  7%|▋         | 5587/78504 [3:23:30<36:48:20,  1.82s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.5657439827919006, 'learning_rate': 2.1333588077951855e-05, 'epoch': 1.71}
  7%|▋         | 5587/78504 [3:23:30<36:48:20,  1.82s/it]  7%|▋         | 5588/78504 [3:23:31<34:59:08,  1.73s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.9322499632835388, 'learning_rate': 2.1337409247229654e-05, 'epoch': 1.71}
  7%|▋         | 5588/78504 [3:23:31<34:59:08,  1.73s/it]  7%|▋         | 5589/78504 [3:23:33<33:28:05,  1.65s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.9393545389175415, 'learning_rate': 2.1341230416507452e-05, 'epoch': 1.71}
  7%|▋         | 5589/78504 [3:23:33<33:28:05,  1.65s/it]  7%|▋         | 5590/78504 [3:23:34<31:57:48,  1.58s/it]                                                         {'loss': 0.1749, 'grad_norm': 0.8745341300964355, 'learning_rate': 2.134505158578525e-05, 'epoch': 1.71}
  7%|▋         | 5590/78504 [3:23:34<31:57:48,  1.58s/it]  7%|▋         | 5591/78504 [3:23:36<30:13:33,  1.49s/it]                                                         {'loss': 0.2152, 'grad_norm': 1.1631219387054443, 'learning_rate': 2.134887275506305e-05, 'epoch': 1.71}
  7%|▋         | 5591/78504 [3:23:36<30:13:33,  1.49s/it]  7%|▋         | 5592/78504 [3:23:37<28:08:20,  1.39s/it]                                                         {'loss': 0.2513, 'grad_norm': 1.4014629125595093, 'learning_rate': 2.135269392434085e-05, 'epoch': 1.71}
  7%|▋         | 5592/78504 [3:23:37<28:08:20,  1.39s/it]  7%|▋         | 5593/78504 [3:23:38<26:18:44,  1.30s/it]                                                         {'loss': 0.1914, 'grad_norm': 2.447058916091919, 'learning_rate': 2.1356515093618647e-05, 'epoch': 1.71}
  7%|▋         | 5593/78504 [3:23:38<26:18:44,  1.30s/it]  7%|▋         | 5594/78504 [3:23:39<24:44:22,  1.22s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.263744831085205, 'learning_rate': 2.1360336262896446e-05, 'epoch': 1.71}
  7%|▋         | 5594/78504 [3:23:39<24:44:22,  1.22s/it]  7%|▋         | 5595/78504 [3:23:40<22:58:31,  1.13s/it]                                                         {'loss': 0.2544, 'grad_norm': 1.2904667854309082, 'learning_rate': 2.1364157432174245e-05, 'epoch': 1.71}
  7%|▋         | 5595/78504 [3:23:40<22:58:31,  1.13s/it]  7%|▋         | 5596/78504 [3:23:41<20:50:54,  1.03s/it]                                                         {'loss': 0.2832, 'grad_norm': 2.1790578365325928, 'learning_rate': 2.1367978601452044e-05, 'epoch': 1.71}
  7%|▋         | 5596/78504 [3:23:41<20:50:54,  1.03s/it]  7%|▋         | 5597/78504 [3:23:50<70:48:56,  3.50s/it]                                                         {'loss': 0.138, 'grad_norm': 0.5585746765136719, 'learning_rate': 2.1371799770729842e-05, 'epoch': 1.71}
  7%|▋         | 5597/78504 [3:23:50<70:48:56,  3.50s/it]  7%|▋         | 5598/78504 [3:23:53<69:23:56,  3.43s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.4854622781276703, 'learning_rate': 2.1375620940007645e-05, 'epoch': 1.71}
  7%|▋         | 5598/78504 [3:23:53<69:23:56,  3.43s/it]  7%|▋         | 5599/78504 [3:23:56<66:53:04,  3.30s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.3170180916786194, 'learning_rate': 2.1379442109285443e-05, 'epoch': 1.71}
  7%|▋         | 5599/78504 [3:23:56<66:53:04,  3.30s/it]  7%|▋         | 5600/78504 [3:23:59<62:30:10,  3.09s/it]                                                         {'loss': 0.0608, 'grad_norm': 0.2891576588153839, 'learning_rate': 2.1383263278563242e-05, 'epoch': 1.71}
  7%|▋         | 5600/78504 [3:23:59<62:30:10,  3.09s/it]  7%|▋         | 5601/78504 [3:24:01<58:54:03,  2.91s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.28927767276763916, 'learning_rate': 2.138708444784104e-05, 'epoch': 1.71}
  7%|▋         | 5601/78504 [3:24:01<58:54:03,  2.91s/it]  7%|▋         | 5602/78504 [3:24:04<56:02:19,  2.77s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.4725033938884735, 'learning_rate': 2.139090561711884e-05, 'epoch': 1.71}
  7%|▋         | 5602/78504 [3:24:04<56:02:19,  2.77s/it]  7%|▋         | 5603/78504 [3:24:06<53:19:10,  2.63s/it]                                                         {'loss': 0.092, 'grad_norm': 0.4101293683052063, 'learning_rate': 2.1394726786396638e-05, 'epoch': 1.71}
  7%|▋         | 5603/78504 [3:24:06<53:19:10,  2.63s/it]  7%|▋         | 5604/78504 [3:24:08<50:10:16,  2.48s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.39536014199256897, 'learning_rate': 2.1398547955674437e-05, 'epoch': 1.71}
  7%|▋         | 5604/78504 [3:24:08<50:10:16,  2.48s/it]  7%|▋         | 5605/78504 [3:24:10<48:24:01,  2.39s/it]                                                         {'loss': 0.0731, 'grad_norm': 0.3696434497833252, 'learning_rate': 2.1402369124952236e-05, 'epoch': 1.71}
  7%|▋         | 5605/78504 [3:24:10<48:24:01,  2.39s/it]  7%|▋         | 5606/78504 [3:24:12<46:53:54,  2.32s/it]                                                         {'loss': 0.0806, 'grad_norm': 1.0323359966278076, 'learning_rate': 2.1406190294230035e-05, 'epoch': 1.71}
  7%|▋         | 5606/78504 [3:24:12<46:53:54,  2.32s/it]  7%|▋         | 5607/78504 [3:24:14<45:08:33,  2.23s/it]                                                         {'loss': 0.1151, 'grad_norm': 0.362203449010849, 'learning_rate': 2.1410011463507833e-05, 'epoch': 1.71}
  7%|▋         | 5607/78504 [3:24:14<45:08:33,  2.23s/it]  7%|▋         | 5608/78504 [3:24:16<43:37:16,  2.15s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.3702980875968933, 'learning_rate': 2.1413832632785632e-05, 'epoch': 1.71}
  7%|▋         | 5608/78504 [3:24:16<43:37:16,  2.15s/it]  7%|▋         | 5609/78504 [3:24:18<41:51:19,  2.07s/it]                                                         {'loss': 0.1441, 'grad_norm': 0.4963300824165344, 'learning_rate': 2.141765380206343e-05, 'epoch': 1.71}
  7%|▋         | 5609/78504 [3:24:18<41:51:19,  2.07s/it]  7%|▋         | 5610/78504 [3:24:20<40:26:18,  2.00s/it]                                                         {'loss': 0.14, 'grad_norm': 0.5163498520851135, 'learning_rate': 2.142147497134123e-05, 'epoch': 1.72}
  7%|▋         | 5610/78504 [3:24:20<40:26:18,  2.00s/it]  7%|▋         | 5611/78504 [3:24:22<38:26:48,  1.90s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.6304136514663696, 'learning_rate': 2.1425296140619028e-05, 'epoch': 1.72}
  7%|▋         | 5611/78504 [3:24:22<38:26:48,  1.90s/it]  7%|▋         | 5612/78504 [3:24:23<36:52:20,  1.82s/it]                                                         {'loss': 0.1858, 'grad_norm': 0.927107572555542, 'learning_rate': 2.1429117309896827e-05, 'epoch': 1.72}
  7%|▋         | 5612/78504 [3:24:23<36:52:20,  1.82s/it]  7%|▋         | 5613/78504 [3:24:25<35:11:33,  1.74s/it]                                                         {'loss': 0.1921, 'grad_norm': 0.8758786916732788, 'learning_rate': 2.143293847917463e-05, 'epoch': 1.72}
  7%|▋         | 5613/78504 [3:24:25<35:11:33,  1.74s/it]  7%|▋         | 5614/78504 [3:24:26<33:19:15,  1.65s/it]                                                         {'loss': 0.1782, 'grad_norm': 1.3945125341415405, 'learning_rate': 2.1436759648452428e-05, 'epoch': 1.72}
  7%|▋         | 5614/78504 [3:24:26<33:19:15,  1.65s/it]  7%|▋         | 5615/78504 [3:24:28<31:54:55,  1.58s/it]                                                         {'loss': 0.2314, 'grad_norm': 0.6937887072563171, 'learning_rate': 2.1440580817730227e-05, 'epoch': 1.72}
  7%|▋         | 5615/78504 [3:24:28<31:54:55,  1.58s/it]  7%|▋         | 5616/78504 [3:24:29<29:44:35,  1.47s/it]                                                         {'loss': 0.2203, 'grad_norm': 1.185513973236084, 'learning_rate': 2.1444401987008025e-05, 'epoch': 1.72}
  7%|▋         | 5616/78504 [3:24:29<29:44:35,  1.47s/it]  7%|▋         | 5617/78504 [3:24:30<27:41:49,  1.37s/it]                                                         {'loss': 0.2312, 'grad_norm': 1.1801124811172485, 'learning_rate': 2.1448223156285824e-05, 'epoch': 1.72}
  7%|▋         | 5617/78504 [3:24:30<27:41:49,  1.37s/it]  7%|▋         | 5618/78504 [3:24:31<26:07:15,  1.29s/it]                                                         {'loss': 0.2275, 'grad_norm': 1.0294996500015259, 'learning_rate': 2.1452044325563623e-05, 'epoch': 1.72}
  7%|▋         | 5618/78504 [3:24:31<26:07:15,  1.29s/it]  7%|▋         | 5619/78504 [3:24:32<24:21:00,  1.20s/it]                                                         {'loss': 0.2711, 'grad_norm': 0.9014450311660767, 'learning_rate': 2.145586549484142e-05, 'epoch': 1.72}
  7%|▋         | 5619/78504 [3:24:32<24:21:00,  1.20s/it]  7%|▋         | 5620/78504 [3:24:33<22:42:15,  1.12s/it]                                                         {'loss': 0.2439, 'grad_norm': 1.2333005666732788, 'learning_rate': 2.145968666411922e-05, 'epoch': 1.72}
  7%|▋         | 5620/78504 [3:24:33<22:42:15,  1.12s/it]  7%|▋         | 5621/78504 [3:24:34<20:37:08,  1.02s/it]                                                         {'loss': 0.2807, 'grad_norm': 1.5229058265686035, 'learning_rate': 2.146350783339702e-05, 'epoch': 1.72}
  7%|▋         | 5621/78504 [3:24:34<20:37:08,  1.02s/it]  7%|▋         | 5622/78504 [3:24:44<75:49:34,  3.75s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5060397982597351, 'learning_rate': 2.1467329002674818e-05, 'epoch': 1.72}
  7%|▋         | 5622/78504 [3:24:44<75:49:34,  3.75s/it]  7%|▋         | 5623/78504 [3:24:47<73:27:36,  3.63s/it]                                                         {'loss': 0.0975, 'grad_norm': 0.3251456022262573, 'learning_rate': 2.1471150171952617e-05, 'epoch': 1.72}
  7%|▋         | 5623/78504 [3:24:47<73:27:36,  3.63s/it]  7%|▋         | 5624/78504 [3:24:50<69:09:56,  3.42s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.37979257106781006, 'learning_rate': 2.1474971341230415e-05, 'epoch': 1.72}
  7%|▋         | 5624/78504 [3:24:50<69:09:56,  3.42s/it]  7%|▋         | 5625/78504 [3:24:53<64:05:18,  3.17s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.2888834774494171, 'learning_rate': 2.1478792510508214e-05, 'epoch': 1.72}
  7%|▋         | 5625/78504 [3:24:53<64:05:18,  3.17s/it]  7%|▋         | 5626/78504 [3:24:56<61:17:50,  3.03s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.26076197624206543, 'learning_rate': 2.1482613679786013e-05, 'epoch': 1.72}
  7%|▋         | 5626/78504 [3:24:56<61:17:50,  3.03s/it]  7%|▋         | 5627/78504 [3:24:58<57:39:58,  2.85s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.31250864267349243, 'learning_rate': 2.148643484906381e-05, 'epoch': 1.72}
  7%|▋         | 5627/78504 [3:24:58<57:39:58,  2.85s/it]  7%|▋         | 5628/78504 [3:25:00<54:26:55,  2.69s/it]                                                         {'loss': 0.0513, 'grad_norm': 0.2783905267715454, 'learning_rate': 2.149025601834161e-05, 'epoch': 1.72}
  7%|▋         | 5628/78504 [3:25:00<54:26:55,  2.69s/it]  7%|▋         | 5629/78504 [3:25:03<52:05:24,  2.57s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.3287924826145172, 'learning_rate': 2.1494077187619412e-05, 'epoch': 1.72}
  7%|▋         | 5629/78504 [3:25:03<52:05:24,  2.57s/it]  7%|▋         | 5630/78504 [3:25:05<49:46:08,  2.46s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.5134536623954773, 'learning_rate': 2.149789835689721e-05, 'epoch': 1.72}
  7%|▋         | 5630/78504 [3:25:05<49:46:08,  2.46s/it]  7%|▋         | 5631/78504 [3:25:07<47:59:12,  2.37s/it]                                                         {'loss': 0.0968, 'grad_norm': 0.3100675940513611, 'learning_rate': 2.150171952617501e-05, 'epoch': 1.72}
  7%|▋         | 5631/78504 [3:25:07<47:59:12,  2.37s/it]  7%|▋         | 5632/78504 [3:25:09<44:50:57,  2.22s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.8241308331489563, 'learning_rate': 2.150554069545281e-05, 'epoch': 1.72}
  7%|▋         | 5632/78504 [3:25:09<44:50:57,  2.22s/it]  7%|▋         | 5633/78504 [3:25:11<43:29:19,  2.15s/it]                                                         {'loss': 0.0921, 'grad_norm': 0.3246043026447296, 'learning_rate': 2.1509361864730607e-05, 'epoch': 1.72}
  7%|▋         | 5633/78504 [3:25:11<43:29:19,  2.15s/it]  7%|▋         | 5634/78504 [3:25:13<42:08:30,  2.08s/it]                                                         {'loss': 0.0884, 'grad_norm': 0.5367054343223572, 'learning_rate': 2.1513183034008406e-05, 'epoch': 1.72}
  7%|▋         | 5634/78504 [3:25:13<42:08:30,  2.08s/it]  7%|▋         | 5635/78504 [3:25:15<40:59:23,  2.03s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.4897212088108063, 'learning_rate': 2.1517004203286205e-05, 'epoch': 1.72}
  7%|▋         | 5635/78504 [3:25:15<40:59:23,  2.03s/it]  7%|▋         | 5636/78504 [3:25:16<39:25:50,  1.95s/it]                                                         {'loss': 0.1297, 'grad_norm': 0.548246443271637, 'learning_rate': 2.1520825372564004e-05, 'epoch': 1.72}
  7%|▋         | 5636/78504 [3:25:16<39:25:50,  1.95s/it]  7%|▋         | 5637/78504 [3:25:18<37:38:34,  1.86s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.5265418291091919, 'learning_rate': 2.1524646541841802e-05, 'epoch': 1.72}
  7%|▋         | 5637/78504 [3:25:18<37:38:34,  1.86s/it]  7%|▋         | 5638/78504 [3:25:20<35:43:34,  1.77s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.7853013277053833, 'learning_rate': 2.15284677111196e-05, 'epoch': 1.72}
  7%|▋         | 5638/78504 [3:25:20<35:43:34,  1.77s/it]  7%|▋         | 5639/78504 [3:25:21<33:59:52,  1.68s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.5049507021903992, 'learning_rate': 2.15322888803974e-05, 'epoch': 1.72}
  7%|▋         | 5639/78504 [3:25:21<33:59:52,  1.68s/it]  7%|▋         | 5640/78504 [3:25:22<32:14:23,  1.59s/it]                                                         {'loss': 0.1985, 'grad_norm': 0.7875084280967712, 'learning_rate': 2.1536110049675202e-05, 'epoch': 1.72}
  7%|▋         | 5640/78504 [3:25:23<32:14:23,  1.59s/it]  7%|▋         | 5641/78504 [3:25:24<30:23:43,  1.50s/it]                                                         {'loss': 0.2188, 'grad_norm': 1.3204009532928467, 'learning_rate': 2.1539931218953e-05, 'epoch': 1.72}
  7%|▋         | 5641/78504 [3:25:24<30:23:43,  1.50s/it]  7%|▋         | 5642/78504 [3:25:25<28:19:01,  1.40s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.6860550045967102, 'learning_rate': 2.15437523882308e-05, 'epoch': 1.72}
  7%|▋         | 5642/78504 [3:25:25<28:19:01,  1.40s/it]  7%|▋         | 5643/78504 [3:25:26<26:28:00,  1.31s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.7932855486869812, 'learning_rate': 2.1547573557508598e-05, 'epoch': 1.73}
  7%|▋         | 5643/78504 [3:25:26<26:28:00,  1.31s/it]  7%|▋         | 5644/78504 [3:25:27<24:33:52,  1.21s/it]                                                         {'loss': 0.2481, 'grad_norm': 1.0030012130737305, 'learning_rate': 2.1551394726786397e-05, 'epoch': 1.73}
  7%|▋         | 5644/78504 [3:25:27<24:33:52,  1.21s/it]  7%|▋         | 5645/78504 [3:25:28<22:50:27,  1.13s/it]                                                         {'loss': 0.2314, 'grad_norm': 1.0500574111938477, 'learning_rate': 2.15552158960642e-05, 'epoch': 1.73}
  7%|▋         | 5645/78504 [3:25:28<22:50:27,  1.13s/it]  7%|▋         | 5646/78504 [3:25:29<20:43:09,  1.02s/it]                                                         {'loss': 0.3486, 'grad_norm': 2.762281656265259, 'learning_rate': 2.1559037065341998e-05, 'epoch': 1.73}
  7%|▋         | 5646/78504 [3:25:29<20:43:09,  1.02s/it]  7%|▋         | 5647/78504 [3:25:38<68:16:26,  3.37s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.4745698869228363, 'learning_rate': 2.1562858234619797e-05, 'epoch': 1.73}
  7%|▋         | 5647/78504 [3:25:38<68:16:26,  3.37s/it]  7%|▋         | 5648/78504 [3:25:41<68:12:22,  3.37s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.3307827413082123, 'learning_rate': 2.1566679403897595e-05, 'epoch': 1.73}
  7%|▋         | 5648/78504 [3:25:41<68:12:22,  3.37s/it]  7%|▋         | 5649/78504 [3:25:44<66:03:49,  3.26s/it]                                                         {'loss': 0.1318, 'grad_norm': 0.5351890325546265, 'learning_rate': 2.1570500573175394e-05, 'epoch': 1.73}
  7%|▋         | 5649/78504 [3:25:44<66:03:49,  3.26s/it]  7%|▋         | 5650/78504 [3:25:47<61:57:03,  3.06s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.2855494022369385, 'learning_rate': 2.1574321742453193e-05, 'epoch': 1.73}
  7%|▋         | 5650/78504 [3:25:47<61:57:03,  3.06s/it]  7%|▋         | 5651/78504 [3:25:49<57:43:58,  2.85s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.3247462511062622, 'learning_rate': 2.157814291173099e-05, 'epoch': 1.73}
  7%|▋         | 5651/78504 [3:25:49<57:43:58,  2.85s/it]  7%|▋         | 5652/78504 [3:25:51<54:10:58,  2.68s/it]                                                         {'loss': 0.0526, 'grad_norm': 0.5176777243614197, 'learning_rate': 2.158196408100879e-05, 'epoch': 1.73}
  7%|▋         | 5652/78504 [3:25:51<54:10:58,  2.68s/it]  7%|▋         | 5653/78504 [3:25:54<52:01:59,  2.57s/it]                                                         {'loss': 0.065, 'grad_norm': 0.387445867061615, 'learning_rate': 2.158578525028659e-05, 'epoch': 1.73}
  7%|▋         | 5653/78504 [3:25:54<52:01:59,  2.57s/it]  7%|▋         | 5654/78504 [3:25:56<49:09:23,  2.43s/it]                                                         {'loss': 0.0785, 'grad_norm': 0.5060367584228516, 'learning_rate': 2.1589606419564388e-05, 'epoch': 1.73}
  7%|▋         | 5654/78504 [3:25:56<49:09:23,  2.43s/it]  7%|▋         | 5655/78504 [3:25:58<47:38:25,  2.35s/it]                                                         {'loss': 0.087, 'grad_norm': 0.6130343079566956, 'learning_rate': 2.1593427588842187e-05, 'epoch': 1.73}
  7%|▋         | 5655/78504 [3:25:58<47:38:25,  2.35s/it]  7%|▋         | 5656/78504 [3:26:00<46:23:43,  2.29s/it]                                                         {'loss': 0.0991, 'grad_norm': 1.5518805980682373, 'learning_rate': 2.1597248758119985e-05, 'epoch': 1.73}
  7%|▋         | 5656/78504 [3:26:00<46:23:43,  2.29s/it]  7%|▋         | 5657/78504 [3:26:02<44:49:17,  2.22s/it]                                                         {'loss': 0.1221, 'grad_norm': 0.3673887252807617, 'learning_rate': 2.1601069927397784e-05, 'epoch': 1.73}
  7%|▋         | 5657/78504 [3:26:02<44:49:17,  2.22s/it]  7%|▋         | 5658/78504 [3:26:04<43:24:40,  2.15s/it]                                                         {'loss': 0.0998, 'grad_norm': 0.6009191274642944, 'learning_rate': 2.1604891096675583e-05, 'epoch': 1.73}
  7%|▋         | 5658/78504 [3:26:04<43:24:40,  2.15s/it]  7%|▋         | 5659/78504 [3:26:06<42:07:37,  2.08s/it]                                                         {'loss': 0.1054, 'grad_norm': 0.4554536044597626, 'learning_rate': 2.160871226595338e-05, 'epoch': 1.73}
  7%|▋         | 5659/78504 [3:26:06<42:07:37,  2.08s/it]  7%|▋         | 5660/78504 [3:26:08<40:55:22,  2.02s/it]                                                         {'loss': 0.1162, 'grad_norm': 0.533351480960846, 'learning_rate': 2.1612533435231184e-05, 'epoch': 1.73}
  7%|▋         | 5660/78504 [3:26:08<40:55:22,  2.02s/it]  7%|▋         | 5661/78504 [3:26:10<39:20:21,  1.94s/it]                                                         {'loss': 0.1181, 'grad_norm': 0.5623989701271057, 'learning_rate': 2.1616354604508982e-05, 'epoch': 1.73}
  7%|▋         | 5661/78504 [3:26:10<39:20:21,  1.94s/it]  7%|▋         | 5662/78504 [3:26:11<37:32:46,  1.86s/it]                                                         {'loss': 0.1605, 'grad_norm': 1.0945971012115479, 'learning_rate': 2.162017577378678e-05, 'epoch': 1.73}
  7%|▋         | 5662/78504 [3:26:11<37:32:46,  1.86s/it]  7%|▋         | 5663/78504 [3:26:13<35:16:21,  1.74s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.6717748641967773, 'learning_rate': 2.162399694306458e-05, 'epoch': 1.73}
  7%|▋         | 5663/78504 [3:26:13<35:16:21,  1.74s/it]  7%|▋         | 5664/78504 [3:26:14<33:51:02,  1.67s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.7039706110954285, 'learning_rate': 2.162781811234238e-05, 'epoch': 1.73}
  7%|▋         | 5664/78504 [3:26:14<33:51:02,  1.67s/it]  7%|▋         | 5665/78504 [3:26:16<32:18:14,  1.60s/it]                                                         {'loss': 0.2047, 'grad_norm': 1.0255331993103027, 'learning_rate': 2.1631639281620177e-05, 'epoch': 1.73}
  7%|▋         | 5665/78504 [3:26:16<32:18:14,  1.60s/it]  7%|▋         | 5666/78504 [3:26:17<30:29:09,  1.51s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.7662827968597412, 'learning_rate': 2.1635460450897976e-05, 'epoch': 1.73}
  7%|▋         | 5666/78504 [3:26:17<30:29:09,  1.51s/it]  7%|▋         | 5667/78504 [3:26:18<28:17:57,  1.40s/it]                                                         {'loss': 0.2207, 'grad_norm': 1.2615309953689575, 'learning_rate': 2.1639281620175775e-05, 'epoch': 1.73}
  7%|▋         | 5667/78504 [3:26:18<28:17:57,  1.40s/it]  7%|▋         | 5668/78504 [3:26:19<26:24:25,  1.31s/it]                                                         {'loss': 0.2143, 'grad_norm': 1.223204255104065, 'learning_rate': 2.1643102789453574e-05, 'epoch': 1.73}
  7%|▋         | 5668/78504 [3:26:19<26:24:25,  1.31s/it]  7%|▋         | 5669/78504 [3:26:20<24:51:45,  1.23s/it]                                                         {'loss': 0.2508, 'grad_norm': 2.278918981552124, 'learning_rate': 2.1646923958731372e-05, 'epoch': 1.73}
  7%|▋         | 5669/78504 [3:26:20<24:51:45,  1.23s/it]  7%|▋         | 5670/78504 [3:26:21<23:02:56,  1.14s/it]                                                         {'loss': 0.195, 'grad_norm': 0.8716095089912415, 'learning_rate': 2.165074512800917e-05, 'epoch': 1.73}
  7%|▋         | 5670/78504 [3:26:21<23:02:56,  1.14s/it]  7%|▋         | 5671/78504 [3:26:22<20:52:52,  1.03s/it]                                                         {'loss': 0.3409, 'grad_norm': 2.7689759731292725, 'learning_rate': 2.165456629728697e-05, 'epoch': 1.73}
  7%|▋         | 5671/78504 [3:26:22<20:52:52,  1.03s/it]  7%|▋         | 5672/78504 [3:26:32<74:56:58,  3.70s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.40993455052375793, 'learning_rate': 2.165838746656477e-05, 'epoch': 1.73}
  7%|▋         | 5672/78504 [3:26:32<74:56:58,  3.70s/it]  7%|▋         | 5673/78504 [3:26:35<71:17:41,  3.52s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.8662793040275574, 'learning_rate': 2.1662208635842567e-05, 'epoch': 1.73}
  7%|▋         | 5673/78504 [3:26:35<71:17:41,  3.52s/it]  7%|▋         | 5674/78504 [3:26:38<67:41:56,  3.35s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.303072065114975, 'learning_rate': 2.1666029805120366e-05, 'epoch': 1.73}
  7%|▋         | 5674/78504 [3:26:38<67:41:56,  3.35s/it]  7%|▋         | 5675/78504 [3:26:40<62:35:49,  3.09s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.34591323137283325, 'learning_rate': 2.1669850974398165e-05, 'epoch': 1.73}
  7%|▋         | 5675/78504 [3:26:40<62:35:49,  3.09s/it]  7%|▋         | 5676/78504 [3:26:43<58:50:41,  2.91s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.25517743825912476, 'learning_rate': 2.1673672143675967e-05, 'epoch': 1.74}
  7%|▋         | 5676/78504 [3:26:43<58:50:41,  2.91s/it]  7%|▋         | 5677/78504 [3:26:45<54:59:09,  2.72s/it]                                                         {'loss': 0.0504, 'grad_norm': 0.25950026512145996, 'learning_rate': 2.1677493312953766e-05, 'epoch': 1.74}
  7%|▋         | 5677/78504 [3:26:45<54:59:09,  2.72s/it]  7%|▋         | 5678/78504 [3:26:47<52:33:34,  2.60s/it]                                                         {'loss': 0.0743, 'grad_norm': 0.28562745451927185, 'learning_rate': 2.1681314482231564e-05, 'epoch': 1.74}
  7%|▋         | 5678/78504 [3:26:47<52:33:34,  2.60s/it]  7%|▋         | 5679/78504 [3:26:50<49:38:25,  2.45s/it]                                                         {'loss': 0.0513, 'grad_norm': 0.2792230546474457, 'learning_rate': 2.1685135651509363e-05, 'epoch': 1.74}
  7%|▋         | 5679/78504 [3:26:50<49:38:25,  2.45s/it]  7%|▋         | 5680/78504 [3:26:52<48:01:21,  2.37s/it]                                                         {'loss': 0.1033, 'grad_norm': 0.373216450214386, 'learning_rate': 2.1688956820787162e-05, 'epoch': 1.74}
  7%|▋         | 5680/78504 [3:26:52<48:01:21,  2.37s/it]  7%|▋         | 5681/78504 [3:26:54<46:36:32,  2.30s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.3384038209915161, 'learning_rate': 2.169277799006496e-05, 'epoch': 1.74}
  7%|▋         | 5681/78504 [3:26:54<46:36:32,  2.30s/it]  7%|▋         | 5682/78504 [3:26:56<44:58:12,  2.22s/it]                                                         {'loss': 0.1074, 'grad_norm': 0.5056743621826172, 'learning_rate': 2.169659915934276e-05, 'epoch': 1.74}
  7%|▋         | 5682/78504 [3:26:56<44:58:12,  2.22s/it]  7%|▋         | 5683/78504 [3:26:58<43:28:56,  2.15s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.6662783026695251, 'learning_rate': 2.1700420328620558e-05, 'epoch': 1.74}
  7%|▋         | 5683/78504 [3:26:58<43:28:56,  2.15s/it]  7%|▋         | 5684/78504 [3:27:00<41:49:42,  2.07s/it]                                                         {'loss': 0.1034, 'grad_norm': 0.36440980434417725, 'learning_rate': 2.1704241497898357e-05, 'epoch': 1.74}
  7%|▋         | 5684/78504 [3:27:00<41:49:42,  2.07s/it]  7%|▋         | 5685/78504 [3:27:02<40:28:20,  2.00s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.7505896687507629, 'learning_rate': 2.1708062667176156e-05, 'epoch': 1.74}
  7%|▋         | 5685/78504 [3:27:02<40:28:20,  2.00s/it]  7%|▋         | 5686/78504 [3:27:03<38:47:14,  1.92s/it]                                                         {'loss': 0.1484, 'grad_norm': 0.5804044008255005, 'learning_rate': 2.1711883836453954e-05, 'epoch': 1.74}
  7%|▋         | 5686/78504 [3:27:03<38:47:14,  1.92s/it]  7%|▋         | 5687/78504 [3:27:05<37:13:20,  1.84s/it]                                                         {'loss': 0.158, 'grad_norm': 0.8451066017150879, 'learning_rate': 2.1715705005731753e-05, 'epoch': 1.74}
  7%|▋         | 5687/78504 [3:27:05<37:13:20,  1.84s/it]  7%|▋         | 5688/78504 [3:27:07<35:27:47,  1.75s/it]                                                         {'loss': 0.1864, 'grad_norm': 0.8569531440734863, 'learning_rate': 2.1719526175009552e-05, 'epoch': 1.74}
  7%|▋         | 5688/78504 [3:27:07<35:27:47,  1.75s/it]  7%|▋         | 5689/78504 [3:27:08<33:45:26,  1.67s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.5921459794044495, 'learning_rate': 2.172334734428735e-05, 'epoch': 1.74}
  7%|▋         | 5689/78504 [3:27:08<33:45:26,  1.67s/it]  7%|▋         | 5690/78504 [3:27:09<32:00:21,  1.58s/it]                                                         {'loss': 0.2242, 'grad_norm': 1.682094693183899, 'learning_rate': 2.172716851356515e-05, 'epoch': 1.74}
  7%|▋         | 5690/78504 [3:27:09<32:00:21,  1.58s/it]  7%|▋         | 5691/78504 [3:27:11<30:10:46,  1.49s/it]                                                         {'loss': 0.2167, 'grad_norm': 1.0114341974258423, 'learning_rate': 2.173098968284295e-05, 'epoch': 1.74}
  7%|▋         | 5691/78504 [3:27:11<30:10:46,  1.49s/it]  7%|▋         | 5692/78504 [3:27:12<28:08:08,  1.39s/it]                                                         {'loss': 0.1983, 'grad_norm': 1.3110108375549316, 'learning_rate': 2.173481085212075e-05, 'epoch': 1.74}
  7%|▋         | 5692/78504 [3:27:12<28:08:08,  1.39s/it]  7%|▋         | 5693/78504 [3:27:13<26:17:20,  1.30s/it]                                                         {'loss': 0.2313, 'grad_norm': 1.1317652463912964, 'learning_rate': 2.173863202139855e-05, 'epoch': 1.74}
  7%|▋         | 5693/78504 [3:27:13<26:17:20,  1.30s/it]  7%|▋         | 5694/78504 [3:27:14<24:50:18,  1.23s/it]                                                         {'loss': 0.2364, 'grad_norm': 1.1687287092208862, 'learning_rate': 2.1742453190676348e-05, 'epoch': 1.74}
  7%|▋         | 5694/78504 [3:27:14<24:50:18,  1.23s/it]  7%|▋         | 5695/78504 [3:27:15<23:03:04,  1.14s/it]                                                         {'loss': 0.2572, 'grad_norm': 0.9792826175689697, 'learning_rate': 2.1746274359954147e-05, 'epoch': 1.74}
  7%|▋         | 5695/78504 [3:27:15<23:03:04,  1.14s/it]  7%|▋         | 5696/78504 [3:27:16<21:04:18,  1.04s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.7653956413269043, 'learning_rate': 2.1750095529231945e-05, 'epoch': 1.74}
  7%|▋         | 5696/78504 [3:27:16<21:04:18,  1.04s/it]  7%|▋         | 5697/78504 [3:27:26<77:04:28,  3.81s/it]                                                         {'loss': 0.1944, 'grad_norm': 0.39695286750793457, 'learning_rate': 2.1753916698509744e-05, 'epoch': 1.74}
  7%|▋         | 5697/78504 [3:27:26<77:04:28,  3.81s/it]  7%|▋         | 5698/78504 [3:27:29<72:59:43,  3.61s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.2974017262458801, 'learning_rate': 2.1757737867787543e-05, 'epoch': 1.74}
  7%|▋         | 5698/78504 [3:27:29<72:59:43,  3.61s/it]  7%|▋         | 5699/78504 [3:27:32<66:41:26,  3.30s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.6425020694732666, 'learning_rate': 2.176155903706534e-05, 'epoch': 1.74}
  7%|▋         | 5699/78504 [3:27:32<66:41:26,  3.30s/it]  7%|▋         | 5700/78504 [3:27:34<62:33:30,  3.09s/it]                                                         {'loss': 0.0555, 'grad_norm': 0.29942378401756287, 'learning_rate': 2.176538020634314e-05, 'epoch': 1.74}
  7%|▋         | 5700/78504 [3:27:34<62:33:30,  3.09s/it]  7%|▋         | 5701/78504 [3:27:37<58:46:19,  2.91s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.3879173994064331, 'learning_rate': 2.176920137562094e-05, 'epoch': 1.74}
  7%|▋         | 5701/78504 [3:27:37<58:46:19,  2.91s/it]  7%|▋         | 5702/78504 [3:27:39<55:55:10,  2.77s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.2753501236438751, 'learning_rate': 2.1773022544898738e-05, 'epoch': 1.74}
  7%|▋         | 5702/78504 [3:27:39<55:55:10,  2.77s/it]  7%|▋         | 5703/78504 [3:27:42<53:12:11,  2.63s/it]                                                         {'loss': 0.092, 'grad_norm': 0.5660889744758606, 'learning_rate': 2.1776843714176536e-05, 'epoch': 1.74}
  7%|▋         | 5703/78504 [3:27:42<53:12:11,  2.63s/it]  7%|▋         | 5704/78504 [3:27:44<50:03:47,  2.48s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.4409513771533966, 'learning_rate': 2.1780664883454335e-05, 'epoch': 1.74}
  7%|▋         | 5704/78504 [3:27:44<50:03:47,  2.48s/it]  7%|▋         | 5705/78504 [3:27:46<48:17:52,  2.39s/it]                                                         {'loss': 0.1103, 'grad_norm': 0.5306555032730103, 'learning_rate': 2.1784486052732134e-05, 'epoch': 1.74}
  7%|▋         | 5705/78504 [3:27:46<48:17:52,  2.39s/it]  7%|▋         | 5706/78504 [3:27:48<46:48:10,  2.31s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.6961706280708313, 'learning_rate': 2.1788307222009936e-05, 'epoch': 1.74}
  7%|▋         | 5706/78504 [3:27:48<46:48:10,  2.31s/it]  7%|▋         | 5707/78504 [3:27:50<45:05:16,  2.23s/it]                                                         {'loss': 0.1114, 'grad_norm': 0.3978375494480133, 'learning_rate': 2.1792128391287735e-05, 'epoch': 1.74}
  7%|▋         | 5707/78504 [3:27:50<45:05:16,  2.23s/it]  7%|▋         | 5708/78504 [3:27:52<43:36:01,  2.16s/it]                                                         {'loss': 0.0825, 'grad_norm': 0.3658231496810913, 'learning_rate': 2.1795949560565534e-05, 'epoch': 1.75}
  7%|▋         | 5708/78504 [3:27:52<43:36:01,  2.16s/it]  7%|▋         | 5709/78504 [3:27:54<41:56:57,  2.07s/it]                                                         {'loss': 0.1046, 'grad_norm': 0.43397724628448486, 'learning_rate': 2.1799770729843332e-05, 'epoch': 1.75}
  7%|▋         | 5709/78504 [3:27:54<41:56:57,  2.07s/it]  7%|▋         | 5710/78504 [3:27:56<40:45:06,  2.02s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.7690596580505371, 'learning_rate': 2.180359189912113e-05, 'epoch': 1.75}
  7%|▋         | 5710/78504 [3:27:56<40:45:06,  2.02s/it]  7%|▋         | 5711/78504 [3:27:58<39:14:58,  1.94s/it]                                                         {'loss': 0.1699, 'grad_norm': 0.6958594918251038, 'learning_rate': 2.180741306839893e-05, 'epoch': 1.75}
  7%|▋         | 5711/78504 [3:27:58<39:14:58,  1.94s/it]  7%|▋         | 5712/78504 [3:27:59<37:00:44,  1.83s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.7851148247718811, 'learning_rate': 2.181123423767673e-05, 'epoch': 1.75}
  7%|▋         | 5712/78504 [3:27:59<37:00:44,  1.83s/it]  7%|▋         | 5713/78504 [3:28:01<35:18:47,  1.75s/it]                                                         {'loss': 0.201, 'grad_norm': 0.8404000997543335, 'learning_rate': 2.1815055406954527e-05, 'epoch': 1.75}
  7%|▋         | 5713/78504 [3:28:01<35:18:47,  1.75s/it]  7%|▋         | 5714/78504 [3:28:02<33:50:42,  1.67s/it]                                                         {'loss': 0.1762, 'grad_norm': 1.160452961921692, 'learning_rate': 2.1818876576232326e-05, 'epoch': 1.75}
  7%|▋         | 5714/78504 [3:28:02<33:50:42,  1.67s/it]  7%|▋         | 5715/78504 [3:28:04<32:13:43,  1.59s/it]                                                         {'loss': 0.2142, 'grad_norm': 1.048768401145935, 'learning_rate': 2.1822697745510125e-05, 'epoch': 1.75}
  7%|▋         | 5715/78504 [3:28:04<32:13:43,  1.59s/it]  7%|▋         | 5716/78504 [3:28:05<30:23:49,  1.50s/it]                                                         {'loss': 0.2307, 'grad_norm': 1.0011056661605835, 'learning_rate': 2.1826518914787924e-05, 'epoch': 1.75}
  7%|▋         | 5716/78504 [3:28:05<30:23:49,  1.50s/it]  7%|▋         | 5717/78504 [3:28:06<28:18:17,  1.40s/it]                                                         {'loss': 0.2222, 'grad_norm': 0.9738185405731201, 'learning_rate': 2.1830340084065722e-05, 'epoch': 1.75}
  7%|▋         | 5717/78504 [3:28:06<28:18:17,  1.40s/it]  7%|▋         | 5718/78504 [3:28:07<26:27:41,  1.31s/it]                                                         {'loss': 0.2588, 'grad_norm': 1.4707037210464478, 'learning_rate': 2.1834161253343524e-05, 'epoch': 1.75}
  7%|▋         | 5718/78504 [3:28:07<26:27:41,  1.31s/it]  7%|▋         | 5719/78504 [3:28:08<24:55:35,  1.23s/it]                                                         {'loss': 0.209, 'grad_norm': 1.1459094285964966, 'learning_rate': 2.1837982422621323e-05, 'epoch': 1.75}
  7%|▋         | 5719/78504 [3:28:08<24:55:35,  1.23s/it]  7%|▋         | 5720/78504 [3:28:09<23:03:41,  1.14s/it]                                                         {'loss': 0.2898, 'grad_norm': 1.1123753786087036, 'learning_rate': 2.1841803591899122e-05, 'epoch': 1.75}
  7%|▋         | 5720/78504 [3:28:09<23:03:41,  1.14s/it]  7%|▋         | 5721/78504 [3:28:10<21:00:20,  1.04s/it]                                                         {'loss': 0.2686, 'grad_norm': 1.8321588039398193, 'learning_rate': 2.184562476117692e-05, 'epoch': 1.75}
  7%|▋         | 5721/78504 [3:28:10<21:00:20,  1.04s/it]  7%|▋         | 5722/78504 [3:28:19<67:02:42,  3.32s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.3907623291015625, 'learning_rate': 2.1849445930454723e-05, 'epoch': 1.75}
  7%|▋         | 5722/78504 [3:28:19<67:02:42,  3.32s/it]  7%|▋         | 5723/78504 [3:28:22<67:16:27,  3.33s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.2748531103134155, 'learning_rate': 2.185326709973252e-05, 'epoch': 1.75}
  7%|▋         | 5723/78504 [3:28:22<67:16:27,  3.33s/it]  7%|▋         | 5724/78504 [3:28:25<65:22:56,  3.23s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.6297683119773865, 'learning_rate': 2.185708826901032e-05, 'epoch': 1.75}
  7%|▋         | 5724/78504 [3:28:25<65:22:56,  3.23s/it]  7%|▋         | 5725/78504 [3:28:28<61:36:57,  3.05s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.3354841470718384, 'learning_rate': 2.186090943828812e-05, 'epoch': 1.75}
  7%|▋         | 5725/78504 [3:28:28<61:36:57,  3.05s/it]  7%|▋         | 5726/78504 [3:28:30<58:06:48,  2.87s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.2792954444885254, 'learning_rate': 2.1864730607565918e-05, 'epoch': 1.75}
  7%|▋         | 5726/78504 [3:28:30<58:06:48,  2.87s/it]  7%|▋         | 5727/78504 [3:28:32<54:25:13,  2.69s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.4237620234489441, 'learning_rate': 2.1868551776843717e-05, 'epoch': 1.75}
  7%|▋         | 5727/78504 [3:28:32<54:25:13,  2.69s/it]  7%|▋         | 5728/78504 [3:28:35<52:09:52,  2.58s/it]                                                         {'loss': 0.0553, 'grad_norm': 0.3057308793067932, 'learning_rate': 2.1872372946121515e-05, 'epoch': 1.75}
  7%|▋         | 5728/78504 [3:28:35<52:09:52,  2.58s/it]  7%|▋         | 5729/78504 [3:28:37<49:12:18,  2.43s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.3477180004119873, 'learning_rate': 2.1876194115399314e-05, 'epoch': 1.75}
  7%|▋         | 5729/78504 [3:28:37<49:12:18,  2.43s/it]  7%|▋         | 5730/78504 [3:28:39<46:46:23,  2.31s/it]                                                         {'loss': 0.0923, 'grad_norm': 1.0016857385635376, 'learning_rate': 2.1880015284677113e-05, 'epoch': 1.75}
  7%|▋         | 5730/78504 [3:28:39<46:46:23,  2.31s/it]  7%|▋         | 5731/78504 [3:28:41<45:42:19,  2.26s/it]                                                         {'loss': 0.0791, 'grad_norm': 1.3033428192138672, 'learning_rate': 2.188383645395491e-05, 'epoch': 1.75}
  7%|▋         | 5731/78504 [3:28:41<45:42:19,  2.26s/it]  7%|▋         | 5732/78504 [3:28:43<44:17:40,  2.19s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.5236884951591492, 'learning_rate': 2.188765762323271e-05, 'epoch': 1.75}
  7%|▋         | 5732/78504 [3:28:43<44:17:40,  2.19s/it]  7%|▋         | 5733/78504 [3:28:45<43:08:32,  2.13s/it]                                                         {'loss': 0.1158, 'grad_norm': 0.5087285041809082, 'learning_rate': 2.189147879251051e-05, 'epoch': 1.75}
  7%|▋         | 5733/78504 [3:28:45<43:08:32,  2.13s/it]  7%|▋         | 5734/78504 [3:28:47<41:34:04,  2.06s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.5178178548812866, 'learning_rate': 2.1895299961788308e-05, 'epoch': 1.75}
  7%|▋         | 5734/78504 [3:28:47<41:34:04,  2.06s/it]  7%|▋         | 5735/78504 [3:28:49<40:20:41,  2.00s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.5082042813301086, 'learning_rate': 2.1899121131066106e-05, 'epoch': 1.75}
  7%|▋         | 5735/78504 [3:28:49<40:20:41,  2.00s/it]  7%|▋         | 5736/78504 [3:28:50<38:43:40,  1.92s/it]                                                         {'loss': 0.1242, 'grad_norm': 0.5361162424087524, 'learning_rate': 2.1902942300343905e-05, 'epoch': 1.75}
  7%|▋         | 5736/78504 [3:28:50<38:43:40,  1.92s/it]  7%|▋         | 5737/78504 [3:28:52<37:11:06,  1.84s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.6213585734367371, 'learning_rate': 2.1906763469621704e-05, 'epoch': 1.75}
  7%|▋         | 5737/78504 [3:28:52<37:11:06,  1.84s/it]  7%|▋         | 5738/78504 [3:28:54<35:15:58,  1.74s/it]                                                         {'loss': 0.204, 'grad_norm': 0.8464465737342834, 'learning_rate': 2.1910584638899506e-05, 'epoch': 1.75}
  7%|▋         | 5738/78504 [3:28:54<35:15:58,  1.74s/it]  7%|▋         | 5739/78504 [3:28:55<33:37:41,  1.66s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.5493717193603516, 'learning_rate': 2.1914405808177305e-05, 'epoch': 1.75}
  7%|▋         | 5739/78504 [3:28:55<33:37:41,  1.66s/it]  7%|▋         | 5740/78504 [3:28:56<32:13:16,  1.59s/it]                                                         {'loss': 0.202, 'grad_norm': 0.7009583115577698, 'learning_rate': 2.1918226977455104e-05, 'epoch': 1.75}
  7%|▋         | 5740/78504 [3:28:56<32:13:16,  1.59s/it]  7%|▋         | 5741/78504 [3:28:58<30:23:31,  1.50s/it]                                                         {'loss': 0.2096, 'grad_norm': 1.103044867515564, 'learning_rate': 2.1922048146732902e-05, 'epoch': 1.76}
  7%|▋         | 5741/78504 [3:28:58<30:23:31,  1.50s/it]  7%|▋         | 5742/78504 [3:28:59<28:14:22,  1.40s/it]                                                         {'loss': 0.2726, 'grad_norm': 1.4629658460617065, 'learning_rate': 2.19258693160107e-05, 'epoch': 1.76}
  7%|▋         | 5742/78504 [3:28:59<28:14:22,  1.40s/it]  7%|▋         | 5743/78504 [3:29:00<26:27:47,  1.31s/it]                                                         {'loss': 0.2527, 'grad_norm': 1.0703415870666504, 'learning_rate': 2.19296904852885e-05, 'epoch': 1.76}
  7%|▋         | 5743/78504 [3:29:00<26:27:47,  1.31s/it]  7%|▋         | 5744/78504 [3:29:01<24:53:59,  1.23s/it]                                                         {'loss': 0.2207, 'grad_norm': 0.8744505047798157, 'learning_rate': 2.19335116545663e-05, 'epoch': 1.76}
  7%|▋         | 5744/78504 [3:29:01<24:53:59,  1.23s/it]  7%|▋         | 5745/78504 [3:29:02<23:06:27,  1.14s/it]                                                         {'loss': 0.2744, 'grad_norm': 1.093031883239746, 'learning_rate': 2.1937332823844097e-05, 'epoch': 1.76}
  7%|▋         | 5745/78504 [3:29:02<23:06:27,  1.14s/it]  7%|▋         | 5746/78504 [3:29:03<21:08:47,  1.05s/it]                                                         {'loss': 0.2899, 'grad_norm': 3.1259727478027344, 'learning_rate': 2.1941153993121896e-05, 'epoch': 1.76}
  7%|▋         | 5746/78504 [3:29:03<21:08:47,  1.05s/it]  7%|▋         | 5747/78504 [3:29:11<67:12:41,  3.33s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.3849698305130005, 'learning_rate': 2.1944975162399695e-05, 'epoch': 1.76}
  7%|▋         | 5747/78504 [3:29:11<67:12:41,  3.33s/it]  7%|▋         | 5748/78504 [3:29:15<65:58:01,  3.26s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.4546962380409241, 'learning_rate': 2.1948796331677494e-05, 'epoch': 1.76}
  7%|▋         | 5748/78504 [3:29:15<65:58:01,  3.26s/it]  7%|▋         | 5749/78504 [3:29:18<64:28:50,  3.19s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.33535438776016235, 'learning_rate': 2.1952617500955292e-05, 'epoch': 1.76}
  7%|▋         | 5749/78504 [3:29:18<64:28:50,  3.19s/it]  7%|▋         | 5750/78504 [3:29:20<60:59:59,  3.02s/it]                                                         {'loss': 0.0856, 'grad_norm': 0.23353707790374756, 'learning_rate': 2.195643867023309e-05, 'epoch': 1.76}
  7%|▋         | 5750/78504 [3:29:20<60:59:59,  3.02s/it]  7%|▋         | 5751/78504 [3:29:23<57:39:50,  2.85s/it]                                                         {'loss': 0.0528, 'grad_norm': 0.350478857755661, 'learning_rate': 2.196025983951089e-05, 'epoch': 1.76}
  7%|▋         | 5751/78504 [3:29:23<57:39:50,  2.85s/it]  7%|▋         | 5752/78504 [3:29:25<55:07:55,  2.73s/it]                                                         {'loss': 0.0579, 'grad_norm': 0.3675864338874817, 'learning_rate': 2.196408100878869e-05, 'epoch': 1.76}
  7%|▋         | 5752/78504 [3:29:25<55:07:55,  2.73s/it]  7%|▋         | 5753/78504 [3:29:27<52:38:46,  2.61s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.34734463691711426, 'learning_rate': 2.196790217806649e-05, 'epoch': 1.76}
  7%|▋         | 5753/78504 [3:29:27<52:38:46,  2.61s/it]  7%|▋         | 5754/78504 [3:29:30<49:41:26,  2.46s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.39533767104148865, 'learning_rate': 2.197172334734429e-05, 'epoch': 1.76}
  7%|▋         | 5754/78504 [3:29:30<49:41:26,  2.46s/it]  7%|▋         | 5755/78504 [3:29:32<48:06:25,  2.38s/it]                                                         {'loss': 0.077, 'grad_norm': 0.331017404794693, 'learning_rate': 2.1975544516622088e-05, 'epoch': 1.76}
  7%|▋         | 5755/78504 [3:29:32<48:06:25,  2.38s/it]  7%|▋         | 5756/78504 [3:29:34<46:51:03,  2.32s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.4384509325027466, 'learning_rate': 2.1979365685899887e-05, 'epoch': 1.76}
  7%|▋         | 5756/78504 [3:29:34<46:51:03,  2.32s/it]  7%|▋         | 5757/78504 [3:29:36<44:06:11,  2.18s/it]                                                         {'loss': 0.1133, 'grad_norm': 0.41984060406684875, 'learning_rate': 2.1983186855177686e-05, 'epoch': 1.76}
  7%|▋         | 5757/78504 [3:29:36<44:06:11,  2.18s/it]  7%|▋         | 5758/78504 [3:29:38<42:56:01,  2.12s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.39927464723587036, 'learning_rate': 2.1987008024455484e-05, 'epoch': 1.76}
  7%|▋         | 5758/78504 [3:29:38<42:56:01,  2.12s/it]  7%|▋         | 5759/78504 [3:29:40<41:46:20,  2.07s/it]                                                         {'loss': 0.1327, 'grad_norm': 0.6045545935630798, 'learning_rate': 2.1990829193733283e-05, 'epoch': 1.76}
  7%|▋         | 5759/78504 [3:29:40<41:46:20,  2.07s/it]  7%|▋         | 5760/78504 [3:29:42<40:32:43,  2.01s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.528374969959259, 'learning_rate': 2.1994650363011082e-05, 'epoch': 1.76}
  7%|▋         | 5760/78504 [3:29:42<40:32:43,  2.01s/it]  7%|▋         | 5761/78504 [3:29:43<39:03:55,  1.93s/it]                                                         {'loss': 0.1303, 'grad_norm': 0.6691190600395203, 'learning_rate': 2.199847153228888e-05, 'epoch': 1.76}
  7%|▋         | 5761/78504 [3:29:43<39:03:55,  1.93s/it]  7%|▋         | 5762/78504 [3:29:45<37:23:59,  1.85s/it]                                                         {'loss': 0.1452, 'grad_norm': 0.5270003080368042, 'learning_rate': 2.200229270156668e-05, 'epoch': 1.76}
  7%|▋         | 5762/78504 [3:29:45<37:23:59,  1.85s/it]  7%|▋         | 5763/78504 [3:29:47<35:34:56,  1.76s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.6498697996139526, 'learning_rate': 2.2006113870844478e-05, 'epoch': 1.76}
  7%|▋         | 5763/78504 [3:29:47<35:34:56,  1.76s/it]  7%|▋         | 5764/78504 [3:29:48<33:47:28,  1.67s/it]                                                         {'loss': 0.2353, 'grad_norm': 0.8281863331794739, 'learning_rate': 2.2009935040122277e-05, 'epoch': 1.76}
  7%|▋         | 5764/78504 [3:29:48<33:47:28,  1.67s/it]  7%|▋         | 5765/78504 [3:29:49<32:09:47,  1.59s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.5852746367454529, 'learning_rate': 2.2013756209400076e-05, 'epoch': 1.76}
  7%|▋         | 5765/78504 [3:29:49<32:09:47,  1.59s/it]  7%|▋         | 5766/78504 [3:29:51<30:26:56,  1.51s/it]                                                         {'loss': 0.2208, 'grad_norm': 1.44893479347229, 'learning_rate': 2.2017577378677874e-05, 'epoch': 1.76}
  7%|▋         | 5766/78504 [3:29:51<30:26:56,  1.51s/it]  7%|▋         | 5767/78504 [3:29:52<28:20:15,  1.40s/it]                                                         {'loss': 0.2384, 'grad_norm': 1.574366807937622, 'learning_rate': 2.2021398547955673e-05, 'epoch': 1.76}
  7%|▋         | 5767/78504 [3:29:52<28:20:15,  1.40s/it]  7%|▋         | 5768/78504 [3:29:53<26:27:35,  1.31s/it]                                                         {'loss': 0.2221, 'grad_norm': 1.0876821279525757, 'learning_rate': 2.2025219717233472e-05, 'epoch': 1.76}
  7%|▋         | 5768/78504 [3:29:53<26:27:35,  1.31s/it]  7%|▋         | 5769/78504 [3:29:54<24:50:57,  1.23s/it]                                                         {'loss': 0.2529, 'grad_norm': 1.5580813884735107, 'learning_rate': 2.2029040886511274e-05, 'epoch': 1.76}
  7%|▋         | 5769/78504 [3:29:54<24:50:57,  1.23s/it]  7%|▋         | 5770/78504 [3:29:55<23:04:16,  1.14s/it]                                                         {'loss': 0.2962, 'grad_norm': 2.756408214569092, 'learning_rate': 2.2032862055789073e-05, 'epoch': 1.76}
  7%|▋         | 5770/78504 [3:29:55<23:04:16,  1.14s/it]  7%|▋         | 5771/78504 [3:29:56<20:54:48,  1.04s/it]                                                         {'loss': 0.2944, 'grad_norm': 16.54250144958496, 'learning_rate': 2.203668322506687e-05, 'epoch': 1.76}
  7%|▋         | 5771/78504 [3:29:56<20:54:48,  1.04s/it]  7%|▋         | 5772/78504 [3:30:03<59:02:16,  2.92s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.5081109404563904, 'learning_rate': 2.204050439434467e-05, 'epoch': 1.76}
  7%|▋         | 5772/78504 [3:30:03<59:02:16,  2.92s/it]  7%|▋         | 5773/78504 [3:30:06<60:16:41,  2.98s/it]                                                         {'loss': 0.105, 'grad_norm': 0.33686140179634094, 'learning_rate': 2.204432556362247e-05, 'epoch': 1.76}
  7%|▋         | 5773/78504 [3:30:06<60:16:41,  2.98s/it]  7%|▋         | 5774/78504 [3:30:09<60:18:51,  2.99s/it]                                                         {'loss': 0.0877, 'grad_norm': 0.3446650803089142, 'learning_rate': 2.2048146732900268e-05, 'epoch': 1.77}
  7%|▋         | 5774/78504 [3:30:09<60:18:51,  2.99s/it]  7%|▋         | 5775/78504 [3:30:12<56:53:36,  2.82s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.9472780227661133, 'learning_rate': 2.2051967902178066e-05, 'epoch': 1.77}
  7%|▋         | 5775/78504 [3:30:12<56:53:36,  2.82s/it]  7%|▋         | 5776/78504 [3:30:14<54:50:08,  2.71s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.25679129362106323, 'learning_rate': 2.2055789071455865e-05, 'epoch': 1.77}
  7%|▋         | 5776/78504 [3:30:14<54:50:08,  2.71s/it]  7%|▋         | 5777/78504 [3:30:16<53:05:46,  2.63s/it]                                                         {'loss': 0.0673, 'grad_norm': 0.2900333106517792, 'learning_rate': 2.2059610240733664e-05, 'epoch': 1.77}
  7%|▋         | 5777/78504 [3:30:16<53:05:46,  2.63s/it]  7%|▋         | 5778/78504 [3:30:19<51:14:03,  2.54s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.3807234466075897, 'learning_rate': 2.2063431410011463e-05, 'epoch': 1.77}
  7%|▋         | 5778/78504 [3:30:19<51:14:03,  2.54s/it]  7%|▋         | 5779/78504 [3:30:21<49:50:13,  2.47s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.49225151538848877, 'learning_rate': 2.206725257928926e-05, 'epoch': 1.77}
  7%|▋         | 5779/78504 [3:30:21<49:50:13,  2.47s/it]  7%|▋         | 5780/78504 [3:30:23<48:14:45,  2.39s/it]                                                         {'loss': 0.0915, 'grad_norm': 0.361872136592865, 'learning_rate': 2.207107374856706e-05, 'epoch': 1.77}
  7%|▋         | 5780/78504 [3:30:23<48:14:45,  2.39s/it]  7%|▋         | 5781/78504 [3:30:25<46:54:22,  2.32s/it]                                                         {'loss': 0.0712, 'grad_norm': 0.24563533067703247, 'learning_rate': 2.207489491784486e-05, 'epoch': 1.77}
  7%|▋         | 5781/78504 [3:30:25<46:54:22,  2.32s/it]  7%|▋         | 5782/78504 [3:30:27<44:10:49,  2.19s/it]                                                         {'loss': 0.1155, 'grad_norm': 0.4747968912124634, 'learning_rate': 2.2078716087122658e-05, 'epoch': 1.77}
  7%|▋         | 5782/78504 [3:30:27<44:10:49,  2.19s/it]  7%|▋         | 5783/78504 [3:30:29<43:03:37,  2.13s/it]                                                         {'loss': 0.1425, 'grad_norm': 0.5836007595062256, 'learning_rate': 2.2082537256400456e-05, 'epoch': 1.77}
  7%|▋         | 5783/78504 [3:30:29<43:03:37,  2.13s/it]  7%|▋         | 5784/78504 [3:30:31<41:52:09,  2.07s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.4401434063911438, 'learning_rate': 2.208635842567826e-05, 'epoch': 1.77}
  7%|▋         | 5784/78504 [3:30:31<41:52:09,  2.07s/it]  7%|▋         | 5785/78504 [3:30:33<40:40:47,  2.01s/it]                                                         {'loss': 0.1186, 'grad_norm': 0.7328463196754456, 'learning_rate': 2.2090179594956057e-05, 'epoch': 1.77}
  7%|▋         | 5785/78504 [3:30:33<40:40:47,  2.01s/it]  7%|▋         | 5786/78504 [3:30:35<39:15:08,  1.94s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.6518155336380005, 'learning_rate': 2.2094000764233856e-05, 'epoch': 1.77}
  7%|▋         | 5786/78504 [3:30:35<39:15:08,  1.94s/it]  7%|▋         | 5787/78504 [3:30:37<37:04:23,  1.84s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.5142185091972351, 'learning_rate': 2.2097821933511655e-05, 'epoch': 1.77}
  7%|▋         | 5787/78504 [3:30:37<37:04:23,  1.84s/it]  7%|▋         | 5788/78504 [3:30:38<35:18:39,  1.75s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.8337002396583557, 'learning_rate': 2.2101643102789453e-05, 'epoch': 1.77}
  7%|▋         | 5788/78504 [3:30:38<35:18:39,  1.75s/it]  7%|▋         | 5789/78504 [3:30:40<33:50:55,  1.68s/it]                                                         {'loss': 0.186, 'grad_norm': 0.6420124173164368, 'learning_rate': 2.2105464272067252e-05, 'epoch': 1.77}
  7%|▋         | 5789/78504 [3:30:40<33:50:55,  1.68s/it]  7%|▋         | 5790/78504 [3:30:41<32:15:38,  1.60s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.5537239909172058, 'learning_rate': 2.210928544134505e-05, 'epoch': 1.77}
  7%|▋         | 5790/78504 [3:30:41<32:15:38,  1.60s/it]  7%|▋         | 5791/78504 [3:30:42<30:22:10,  1.50s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.6893072724342346, 'learning_rate': 2.211310661062285e-05, 'epoch': 1.77}
  7%|▋         | 5791/78504 [3:30:42<30:22:10,  1.50s/it]  7%|▋         | 5792/78504 [3:30:43<28:33:39,  1.41s/it]                                                         {'loss': 0.2657, 'grad_norm': 1.0649255514144897, 'learning_rate': 2.211692777990065e-05, 'epoch': 1.77}
  7%|▋         | 5792/78504 [3:30:44<28:33:39,  1.41s/it]  7%|▋         | 5793/78504 [3:30:45<26:33:24,  1.31s/it]                                                         {'loss': 0.2051, 'grad_norm': 1.7234448194503784, 'learning_rate': 2.2120748949178447e-05, 'epoch': 1.77}
  7%|▋         | 5793/78504 [3:30:45<26:33:24,  1.31s/it]  7%|▋         | 5794/78504 [3:30:46<24:38:29,  1.22s/it]                                                         {'loss': 0.2326, 'grad_norm': 0.9869505763053894, 'learning_rate': 2.2124570118456246e-05, 'epoch': 1.77}
  7%|▋         | 5794/78504 [3:30:46<24:38:29,  1.22s/it]  7%|▋         | 5795/78504 [3:30:46<22:54:41,  1.13s/it]                                                         {'loss': 0.2881, 'grad_norm': 1.4931960105895996, 'learning_rate': 2.2128391287734045e-05, 'epoch': 1.77}
  7%|▋         | 5795/78504 [3:30:47<22:54:41,  1.13s/it]  7%|▋         | 5796/78504 [3:30:47<20:52:16,  1.03s/it]                                                         {'loss': 0.3849, 'grad_norm': 2.2789371013641357, 'learning_rate': 2.2132212457011847e-05, 'epoch': 1.77}
  7%|▋         | 5796/78504 [3:30:47<20:52:16,  1.03s/it]  7%|▋         | 5797/78504 [3:30:55<61:30:51,  3.05s/it]                                                         {'loss': 0.164, 'grad_norm': 0.5379346609115601, 'learning_rate': 2.2136033626289646e-05, 'epoch': 1.77}
  7%|▋         | 5797/78504 [3:30:55<61:30:51,  3.05s/it]  7%|▋         | 5798/78504 [3:30:58<62:51:30,  3.11s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.415505051612854, 'learning_rate': 2.2139854795567444e-05, 'epoch': 1.77}
  7%|▋         | 5798/78504 [3:30:58<62:51:30,  3.11s/it]  7%|▋         | 5799/78504 [3:31:01<62:07:31,  3.08s/it]                                                         {'loss': 0.079, 'grad_norm': 0.30465567111968994, 'learning_rate': 2.2143675964845243e-05, 'epoch': 1.77}
  7%|▋         | 5799/78504 [3:31:01<62:07:31,  3.08s/it]  7%|▋         | 5800/78504 [3:31:04<59:22:58,  2.94s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.33706241846084595, 'learning_rate': 2.2147497134123045e-05, 'epoch': 1.77}
  7%|▋         | 5800/78504 [3:31:04<59:22:58,  2.94s/it]  7%|▋         | 5801/78504 [3:31:06<55:52:09,  2.77s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.3500748872756958, 'learning_rate': 2.2151318303400844e-05, 'epoch': 1.77}
  7%|▋         | 5801/78504 [3:31:06<55:52:09,  2.77s/it]  7%|▋         | 5802/78504 [3:31:08<52:28:42,  2.60s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.3958848714828491, 'learning_rate': 2.2155139472678643e-05, 'epoch': 1.77}
  7%|▋         | 5802/78504 [3:31:09<52:28:42,  2.60s/it]  7%|▋         | 5803/78504 [3:31:11<50:56:38,  2.52s/it]                                                         {'loss': 0.0618, 'grad_norm': 0.3024647533893585, 'learning_rate': 2.215896064195644e-05, 'epoch': 1.77}
  7%|▋         | 5803/78504 [3:31:11<50:56:38,  2.52s/it]  7%|▋         | 5804/78504 [3:31:13<48:21:10,  2.39s/it]                                                         {'loss': 0.0649, 'grad_norm': 0.4242079555988312, 'learning_rate': 2.216278181123424e-05, 'epoch': 1.77}
  7%|▋         | 5804/78504 [3:31:13<48:21:10,  2.39s/it]  7%|▋         | 5805/78504 [3:31:15<46:09:02,  2.29s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.5025117993354797, 'learning_rate': 2.216660298051204e-05, 'epoch': 1.77}
  7%|▋         | 5805/78504 [3:31:15<46:09:02,  2.29s/it]  7%|▋         | 5806/78504 [3:31:17<45:15:46,  2.24s/it]                                                         {'loss': 0.076, 'grad_norm': 0.3082609176635742, 'learning_rate': 2.2170424149789838e-05, 'epoch': 1.77}
  7%|▋         | 5806/78504 [3:31:17<45:15:46,  2.24s/it]  7%|▋         | 5807/78504 [3:31:19<43:46:20,  2.17s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.3318847119808197, 'learning_rate': 2.2174245319067636e-05, 'epoch': 1.78}
  7%|▋         | 5807/78504 [3:31:19<43:46:20,  2.17s/it]  7%|▋         | 5808/78504 [3:31:21<41:36:47,  2.06s/it]                                                         {'loss': 0.095, 'grad_norm': 0.30241677165031433, 'learning_rate': 2.2178066488345435e-05, 'epoch': 1.78}
  7%|▋         | 5808/78504 [3:31:21<41:36:47,  2.06s/it]  7%|▋         | 5809/78504 [3:31:23<40:24:21,  2.00s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.6339489817619324, 'learning_rate': 2.2181887657623234e-05, 'epoch': 1.78}
  7%|▋         | 5809/78504 [3:31:23<40:24:21,  2.00s/it]  7%|▋         | 5810/78504 [3:31:25<39:30:05,  1.96s/it]                                                         {'loss': 0.1354, 'grad_norm': 1.7381994724273682, 'learning_rate': 2.2185708826901033e-05, 'epoch': 1.78}
  7%|▋         | 5810/78504 [3:31:25<39:30:05,  1.96s/it]  7%|▋         | 5811/78504 [3:31:26<38:05:16,  1.89s/it]                                                         {'loss': 0.1557, 'grad_norm': 1.2239830493927002, 'learning_rate': 2.218952999617883e-05, 'epoch': 1.78}
  7%|▋         | 5811/78504 [3:31:26<38:05:16,  1.89s/it]  7%|▋         | 5812/78504 [3:31:28<36:40:15,  1.82s/it]                                                         {'loss': 0.1998, 'grad_norm': 0.649924635887146, 'learning_rate': 2.219335116545663e-05, 'epoch': 1.78}
  7%|▋         | 5812/78504 [3:31:28<36:40:15,  1.82s/it]  7%|▋         | 5813/78504 [3:31:30<34:53:41,  1.73s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.9315193891525269, 'learning_rate': 2.219717233473443e-05, 'epoch': 1.78}
  7%|▋         | 5813/78504 [3:31:30<34:53:41,  1.73s/it]  7%|▋         | 5814/78504 [3:31:31<33:23:11,  1.65s/it]                                                         {'loss': 0.2205, 'grad_norm': 1.1722546815872192, 'learning_rate': 2.2200993504012228e-05, 'epoch': 1.78}
  7%|▋         | 5814/78504 [3:31:31<33:23:11,  1.65s/it]  7%|▋         | 5815/78504 [3:31:32<31:50:00,  1.58s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.967088520526886, 'learning_rate': 2.220481467329003e-05, 'epoch': 1.78}
  7%|▋         | 5815/78504 [3:31:32<31:50:00,  1.58s/it]  7%|▋         | 5816/78504 [3:31:34<29:59:58,  1.49s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.7863870859146118, 'learning_rate': 2.220863584256783e-05, 'epoch': 1.78}
  7%|▋         | 5816/78504 [3:31:34<29:59:58,  1.49s/it]  7%|▋         | 5817/78504 [3:31:35<27:58:35,  1.39s/it]                                                         {'loss': 0.1953, 'grad_norm': 0.978602945804596, 'learning_rate': 2.2212457011845627e-05, 'epoch': 1.78}
  7%|▋         | 5817/78504 [3:31:35<27:58:35,  1.39s/it]  7%|▋         | 5818/78504 [3:31:36<26:11:59,  1.30s/it]                                                         {'loss': 0.2641, 'grad_norm': 1.6236393451690674, 'learning_rate': 2.2216278181123426e-05, 'epoch': 1.78}
  7%|▋         | 5818/78504 [3:31:36<26:11:59,  1.30s/it]  7%|▋         | 5819/78504 [3:31:37<24:42:19,  1.22s/it]                                                         {'loss': 0.1778, 'grad_norm': 0.9734055995941162, 'learning_rate': 2.2220099350401225e-05, 'epoch': 1.78}
  7%|▋         | 5819/78504 [3:31:37<24:42:19,  1.22s/it]  7%|▋         | 5820/78504 [3:31:38<22:56:49,  1.14s/it]                                                         {'loss': 0.2647, 'grad_norm': 1.7033063173294067, 'learning_rate': 2.2223920519679023e-05, 'epoch': 1.78}
  7%|▋         | 5820/78504 [3:31:38<22:56:49,  1.14s/it]  7%|▋         | 5821/78504 [3:31:39<20:47:21,  1.03s/it]                                                         {'loss': 0.2854, 'grad_norm': 5.2076640129089355, 'learning_rate': 2.2227741688956822e-05, 'epoch': 1.78}
  7%|▋         | 5821/78504 [3:31:39<20:47:21,  1.03s/it]  7%|▋         | 5822/78504 [3:31:47<65:36:29,  3.25s/it]                                                         {'loss': 0.164, 'grad_norm': 0.6002863049507141, 'learning_rate': 2.223156285823462e-05, 'epoch': 1.78}
  7%|▋         | 5822/78504 [3:31:47<65:36:29,  3.25s/it]  7%|▋         | 5823/78504 [3:31:50<66:19:18,  3.29s/it]                                                         {'loss': 0.109, 'grad_norm': 0.35652729868888855, 'learning_rate': 2.223538402751242e-05, 'epoch': 1.78}
  7%|▋         | 5823/78504 [3:31:50<66:19:18,  3.29s/it]  7%|▋         | 5824/78504 [3:31:53<62:02:18,  3.07s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.2575831115245819, 'learning_rate': 2.223920519679022e-05, 'epoch': 1.78}
  7%|▋         | 5824/78504 [3:31:53<62:02:18,  3.07s/it]  7%|▋         | 5825/78504 [3:31:56<59:15:01,  2.93s/it]                                                         {'loss': 0.1046, 'grad_norm': 0.267812579870224, 'learning_rate': 2.2243026366068017e-05, 'epoch': 1.78}
  7%|▋         | 5825/78504 [3:31:56<59:15:01,  2.93s/it]  7%|▋         | 5826/78504 [3:31:58<55:48:11,  2.76s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.2703970968723297, 'learning_rate': 2.2246847535345816e-05, 'epoch': 1.78}
  7%|▋         | 5826/78504 [3:31:58<55:48:11,  2.76s/it]  7%|▋         | 5827/78504 [3:32:00<52:45:00,  2.61s/it]                                                         {'loss': 0.0769, 'grad_norm': 0.4692670702934265, 'learning_rate': 2.2250668704623615e-05, 'epoch': 1.78}
  7%|▋         | 5827/78504 [3:32:00<52:45:00,  2.61s/it]  7%|▋         | 5828/78504 [3:32:03<51:02:14,  2.53s/it]                                                         {'loss': 0.0622, 'grad_norm': 0.48072925209999084, 'learning_rate': 2.2254489873901413e-05, 'epoch': 1.78}
  7%|▋         | 5828/78504 [3:32:03<51:02:14,  2.53s/it]  7%|▋         | 5829/78504 [3:32:05<48:24:28,  2.40s/it]                                                         {'loss': 0.0941, 'grad_norm': 0.3060126304626465, 'learning_rate': 2.2258311043179212e-05, 'epoch': 1.78}
  7%|▋         | 5829/78504 [3:32:05<48:24:28,  2.40s/it]  7%|▋         | 5830/78504 [3:32:07<47:09:42,  2.34s/it]                                                         {'loss': 0.1383, 'grad_norm': 0.3701476752758026, 'learning_rate': 2.226213221245701e-05, 'epoch': 1.78}
  7%|▋         | 5830/78504 [3:32:07<47:09:42,  2.34s/it]  7%|▋         | 5831/78504 [3:32:09<46:01:33,  2.28s/it]                                                         {'loss': 0.0938, 'grad_norm': 0.31028029322624207, 'learning_rate': 2.2265953381734813e-05, 'epoch': 1.78}
  7%|▋         | 5831/78504 [3:32:09<46:01:33,  2.28s/it]  7%|▋         | 5832/78504 [3:32:11<44:16:05,  2.19s/it]                                                         {'loss': 0.096, 'grad_norm': 0.5716168880462646, 'learning_rate': 2.2269774551012612e-05, 'epoch': 1.78}
  7%|▋         | 5832/78504 [3:32:11<44:16:05,  2.19s/it]  7%|▋         | 5833/78504 [3:32:13<41:54:51,  2.08s/it]                                                         {'loss': 0.1052, 'grad_norm': 2.1408395767211914, 'learning_rate': 2.227359572029041e-05, 'epoch': 1.78}
  7%|▋         | 5833/78504 [3:32:13<41:54:51,  2.08s/it]  7%|▋         | 5834/78504 [3:32:15<40:39:13,  2.01s/it]                                                         {'loss': 0.1141, 'grad_norm': 0.5453529953956604, 'learning_rate': 2.227741688956821e-05, 'epoch': 1.78}
  7%|▋         | 5834/78504 [3:32:15<40:39:13,  2.01s/it]  7%|▋         | 5835/78504 [3:32:17<39:34:05,  1.96s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.6052824854850769, 'learning_rate': 2.2281238058846008e-05, 'epoch': 1.78}
  7%|▋         | 5835/78504 [3:32:17<39:34:05,  1.96s/it]  7%|▋         | 5836/78504 [3:32:18<38:07:36,  1.89s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.6152344942092896, 'learning_rate': 2.2285059228123807e-05, 'epoch': 1.78}
  7%|▋         | 5836/78504 [3:32:18<38:07:36,  1.89s/it]  7%|▋         | 5837/78504 [3:32:20<36:41:34,  1.82s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.6694599390029907, 'learning_rate': 2.2288880397401606e-05, 'epoch': 1.78}
  7%|▋         | 5837/78504 [3:32:20<36:41:34,  1.82s/it]  7%|▋         | 5838/78504 [3:32:21<35:00:51,  1.73s/it]                                                         {'loss': 0.1773, 'grad_norm': 0.894462525844574, 'learning_rate': 2.2292701566679404e-05, 'epoch': 1.78}
  7%|▋         | 5838/78504 [3:32:21<35:00:51,  1.73s/it]  7%|▋         | 5839/78504 [3:32:23<33:23:17,  1.65s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.8183159828186035, 'learning_rate': 2.2296522735957203e-05, 'epoch': 1.79}
  7%|▋         | 5839/78504 [3:32:23<33:23:17,  1.65s/it]  7%|▋         | 5840/78504 [3:32:24<31:44:33,  1.57s/it]                                                         {'loss': 0.2192, 'grad_norm': 0.9135761260986328, 'learning_rate': 2.2300343905235002e-05, 'epoch': 1.79}
  7%|▋         | 5840/78504 [3:32:24<31:44:33,  1.57s/it]  7%|▋         | 5841/78504 [3:32:26<30:00:38,  1.49s/it]                                                         {'loss': 0.2034, 'grad_norm': 0.7747254371643066, 'learning_rate': 2.23041650745128e-05, 'epoch': 1.79}
  7%|▋         | 5841/78504 [3:32:26<30:00:38,  1.49s/it]  7%|▋         | 5842/78504 [3:32:27<27:56:51,  1.38s/it]                                                         {'loss': 0.2417, 'grad_norm': 1.0594807863235474, 'learning_rate': 2.23079862437906e-05, 'epoch': 1.79}
  7%|▋         | 5842/78504 [3:32:27<27:56:51,  1.38s/it]  7%|▋         | 5843/78504 [3:32:28<26:09:18,  1.30s/it]                                                         {'loss': 0.2252, 'grad_norm': 0.990418016910553, 'learning_rate': 2.2311807413068398e-05, 'epoch': 1.79}
  7%|▋         | 5843/78504 [3:32:28<26:09:18,  1.30s/it]  7%|▋         | 5844/78504 [3:32:29<24:38:09,  1.22s/it]                                                         {'loss': 0.2766, 'grad_norm': 1.3138294219970703, 'learning_rate': 2.2315628582346197e-05, 'epoch': 1.79}
  7%|▋         | 5844/78504 [3:32:29<24:38:09,  1.22s/it]  7%|▋         | 5845/78504 [3:32:30<22:52:43,  1.13s/it]                                                         {'loss': 0.3141, 'grad_norm': 1.2702687978744507, 'learning_rate': 2.2319449751623995e-05, 'epoch': 1.79}
  7%|▋         | 5845/78504 [3:32:30<22:52:43,  1.13s/it]  7%|▋         | 5846/78504 [3:32:31<20:50:06,  1.03s/it]                                                         {'loss': 0.3074, 'grad_norm': 2.0702455043792725, 'learning_rate': 2.2323270920901798e-05, 'epoch': 1.79}
  7%|▋         | 5846/78504 [3:32:31<20:50:06,  1.03s/it]  7%|▋         | 5847/78504 [3:32:40<69:26:23,  3.44s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.5697043538093567, 'learning_rate': 2.2327092090179596e-05, 'epoch': 1.79}
  7%|▋         | 5847/78504 [3:32:40<69:26:23,  3.44s/it]  7%|▋         | 5848/78504 [3:32:43<68:57:18,  3.42s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.35456329584121704, 'learning_rate': 2.2330913259457395e-05, 'epoch': 1.79}
  7%|▋         | 5848/78504 [3:32:43<68:57:18,  3.42s/it]  7%|▋         | 5849/78504 [3:32:46<66:31:35,  3.30s/it]                                                         {'loss': 0.1043, 'grad_norm': 0.5906016826629639, 'learning_rate': 2.2334734428735194e-05, 'epoch': 1.79}
  7%|▋         | 5849/78504 [3:32:46<66:31:35,  3.30s/it]  7%|▋         | 5850/78504 [3:32:48<61:14:49,  3.03s/it]                                                         {'loss': 0.065, 'grad_norm': 0.3309856057167053, 'learning_rate': 2.2338555598012993e-05, 'epoch': 1.79}
  7%|▋         | 5850/78504 [3:32:48<61:14:49,  3.03s/it]  7%|▋         | 5851/78504 [3:32:51<57:50:30,  2.87s/it]                                                         {'loss': 0.0515, 'grad_norm': 0.2765483856201172, 'learning_rate': 2.234237676729079e-05, 'epoch': 1.79}
  7%|▋         | 5851/78504 [3:32:51<57:50:30,  2.87s/it]  7%|▋         | 5852/78504 [3:32:53<55:14:20,  2.74s/it]                                                         {'loss': 0.0834, 'grad_norm': 0.5722607970237732, 'learning_rate': 2.234619793656859e-05, 'epoch': 1.79}
  7%|▋         | 5852/78504 [3:32:53<55:14:20,  2.74s/it]  7%|▋         | 5853/78504 [3:32:56<52:40:14,  2.61s/it]                                                         {'loss': 0.063, 'grad_norm': 1.8791929483413696, 'learning_rate': 2.235001910584639e-05, 'epoch': 1.79}
  7%|▋         | 5853/78504 [3:32:56<52:40:14,  2.61s/it]  7%|▋         | 5854/78504 [3:32:58<49:40:06,  2.46s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.43426334857940674, 'learning_rate': 2.2353840275124188e-05, 'epoch': 1.79}
  7%|▋         | 5854/78504 [3:32:58<49:40:06,  2.46s/it]  7%|▋         | 5855/78504 [3:33:00<47:59:08,  2.38s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.359157532453537, 'learning_rate': 2.2357661444401986e-05, 'epoch': 1.79}
  7%|▋         | 5855/78504 [3:33:00<47:59:08,  2.38s/it]  7%|▋         | 5856/78504 [3:33:02<46:35:15,  2.31s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.45966804027557373, 'learning_rate': 2.2361482613679785e-05, 'epoch': 1.79}
  7%|▋         | 5856/78504 [3:33:02<46:35:15,  2.31s/it]  7%|▋         | 5857/78504 [3:33:04<44:53:00,  2.22s/it]                                                         {'loss': 0.1062, 'grad_norm': 0.7142115831375122, 'learning_rate': 2.2365303782957584e-05, 'epoch': 1.79}
  7%|▋         | 5857/78504 [3:33:04<44:53:00,  2.22s/it]  7%|▋         | 5858/78504 [3:33:06<43:25:33,  2.15s/it]                                                         {'loss': 0.1236, 'grad_norm': 0.4482080042362213, 'learning_rate': 2.2369124952235383e-05, 'epoch': 1.79}
  7%|▋         | 5858/78504 [3:33:06<43:25:33,  2.15s/it]  7%|▋         | 5859/78504 [3:33:08<41:40:55,  2.07s/it]                                                         {'loss': 0.124, 'grad_norm': 0.6693216562271118, 'learning_rate': 2.237294612151318e-05, 'epoch': 1.79}
  7%|▋         | 5859/78504 [3:33:08<41:40:55,  2.07s/it]  7%|▋         | 5860/78504 [3:33:10<40:21:18,  2.00s/it]                                                         {'loss': 0.1477, 'grad_norm': 0.49907010793685913, 'learning_rate': 2.237676729079098e-05, 'epoch': 1.79}
  7%|▋         | 5860/78504 [3:33:10<40:21:18,  2.00s/it]  7%|▋         | 5861/78504 [3:33:12<38:59:42,  1.93s/it]                                                         {'loss': 0.1233, 'grad_norm': 0.7414682507514954, 'learning_rate': 2.238058846006878e-05, 'epoch': 1.79}
  7%|▋         | 5861/78504 [3:33:12<38:59:42,  1.93s/it]  7%|▋         | 5862/78504 [3:33:13<37:17:50,  1.85s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.588272213935852, 'learning_rate': 2.238440962934658e-05, 'epoch': 1.79}
  7%|▋         | 5862/78504 [3:33:13<37:17:50,  1.85s/it]  7%|▋         | 5863/78504 [3:33:15<35:55:11,  1.78s/it]                                                         {'loss': 0.2174, 'grad_norm': 1.088295340538025, 'learning_rate': 2.238823079862438e-05, 'epoch': 1.79}
  7%|▋         | 5863/78504 [3:33:15<35:55:11,  1.78s/it]  7%|▋         | 5864/78504 [3:33:16<34:05:15,  1.69s/it]                                                         {'loss': 0.17, 'grad_norm': 0.6777440309524536, 'learning_rate': 2.239205196790218e-05, 'epoch': 1.79}
  7%|▋         | 5864/78504 [3:33:16<34:05:15,  1.69s/it]  7%|▋         | 5865/78504 [3:33:18<32:14:52,  1.60s/it]                                                         {'loss': 0.2203, 'grad_norm': 1.035912036895752, 'learning_rate': 2.2395873137179977e-05, 'epoch': 1.79}
  7%|▋         | 5865/78504 [3:33:18<32:14:52,  1.60s/it]  7%|▋         | 5866/78504 [3:33:19<30:24:34,  1.51s/it]                                                         {'loss': 0.2382, 'grad_norm': 1.0097694396972656, 'learning_rate': 2.2399694306457776e-05, 'epoch': 1.79}
  7%|▋         | 5866/78504 [3:33:19<30:24:34,  1.51s/it]  7%|▋         | 5867/78504 [3:33:20<28:22:25,  1.41s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.8431397676467896, 'learning_rate': 2.2403515475735575e-05, 'epoch': 1.79}
  7%|▋         | 5867/78504 [3:33:20<28:22:25,  1.41s/it]  7%|▋         | 5868/78504 [3:33:21<26:32:24,  1.32s/it]                                                         {'loss': 0.1995, 'grad_norm': 1.335750937461853, 'learning_rate': 2.2407336645013373e-05, 'epoch': 1.79}
  7%|▋         | 5868/78504 [3:33:21<26:32:24,  1.32s/it]  7%|▋         | 5869/78504 [3:33:22<24:38:50,  1.22s/it]                                                         {'loss': 0.2231, 'grad_norm': 1.3541984558105469, 'learning_rate': 2.2411157814291172e-05, 'epoch': 1.79}
  7%|▋         | 5869/78504 [3:33:22<24:38:50,  1.22s/it]  7%|▋         | 5870/78504 [3:33:23<22:54:53,  1.14s/it]                                                         {'loss': 0.2235, 'grad_norm': 1.721065878868103, 'learning_rate': 2.241497898356897e-05, 'epoch': 1.79}
  7%|▋         | 5870/78504 [3:33:23<22:54:53,  1.14s/it]  7%|▋         | 5871/78504 [3:33:24<20:36:45,  1.02s/it]                                                         {'loss': 0.3167, 'grad_norm': 1.5981593132019043, 'learning_rate': 2.241880015284677e-05, 'epoch': 1.79}
  7%|▋         | 5871/78504 [3:33:24<20:36:45,  1.02s/it]  7%|▋         | 5872/78504 [3:33:32<64:51:58,  3.22s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.6422430872917175, 'learning_rate': 2.242262132212457e-05, 'epoch': 1.8}
  7%|▋         | 5872/78504 [3:33:32<64:51:58,  3.22s/it]  7%|▋         | 5873/78504 [3:33:35<64:17:34,  3.19s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.3531329333782196, 'learning_rate': 2.242644249140237e-05, 'epoch': 1.8}
  7%|▋         | 5873/78504 [3:33:36<64:17:34,  3.19s/it]  7%|▋         | 5874/78504 [3:33:39<63:17:35,  3.14s/it]                                                         {'loss': 0.1041, 'grad_norm': 0.4634765088558197, 'learning_rate': 2.243026366068017e-05, 'epoch': 1.8}
  7%|▋         | 5874/78504 [3:33:39<63:17:35,  3.14s/it]  7%|▋         | 5875/78504 [3:33:41<60:07:58,  2.98s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.4391295313835144, 'learning_rate': 2.2434084829957968e-05, 'epoch': 1.8}
  7%|▋         | 5875/78504 [3:33:41<60:07:58,  2.98s/it]  7%|▋         | 5876/78504 [3:33:44<57:02:17,  2.83s/it]                                                         {'loss': 0.0704, 'grad_norm': 0.9989938735961914, 'learning_rate': 2.2437905999235767e-05, 'epoch': 1.8}
  7%|▋         | 5876/78504 [3:33:44<57:02:17,  2.83s/it]  7%|▋         | 5877/78504 [3:33:46<54:37:45,  2.71s/it]                                                         {'loss': 0.0574, 'grad_norm': 0.42166298627853394, 'learning_rate': 2.244172716851357e-05, 'epoch': 1.8}
  7%|▋         | 5877/78504 [3:33:46<54:37:45,  2.71s/it]  7%|▋         | 5878/78504 [3:33:48<52:17:50,  2.59s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.4236437678337097, 'learning_rate': 2.2445548337791368e-05, 'epoch': 1.8}
  7%|▋         | 5878/78504 [3:33:48<52:17:50,  2.59s/it]  7%|▋         | 5879/78504 [3:33:50<49:23:30,  2.45s/it]                                                         {'loss': 0.093, 'grad_norm': 0.4987923800945282, 'learning_rate': 2.2449369507069166e-05, 'epoch': 1.8}
  7%|▋         | 5879/78504 [3:33:50<49:23:30,  2.45s/it]  7%|▋         | 5880/78504 [3:33:53<47:47:28,  2.37s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.44421297311782837, 'learning_rate': 2.2453190676346965e-05, 'epoch': 1.8}
  7%|▋         | 5880/78504 [3:33:53<47:47:28,  2.37s/it]  7%|▋         | 5881/78504 [3:33:55<46:27:10,  2.30s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.5402381420135498, 'learning_rate': 2.2457011845624764e-05, 'epoch': 1.8}
  7%|▋         | 5881/78504 [3:33:55<46:27:10,  2.30s/it]  7%|▋         | 5882/78504 [3:33:57<44:44:54,  2.22s/it]                                                         {'loss': 0.1192, 'grad_norm': 0.5198651552200317, 'learning_rate': 2.2460833014902563e-05, 'epoch': 1.8}
  7%|▋         | 5882/78504 [3:33:57<44:44:54,  2.22s/it]  7%|▋         | 5883/78504 [3:33:59<43:19:47,  2.15s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.5478948354721069, 'learning_rate': 2.246465418418036e-05, 'epoch': 1.8}
  7%|▋         | 5883/78504 [3:33:59<43:19:47,  2.15s/it]  7%|▋         | 5884/78504 [3:34:01<41:58:29,  2.08s/it]                                                         {'loss': 0.1031, 'grad_norm': 0.5815957188606262, 'learning_rate': 2.246847535345816e-05, 'epoch': 1.8}
  7%|▋         | 5884/78504 [3:34:01<41:58:29,  2.08s/it]  7%|▋         | 5885/78504 [3:34:03<40:39:52,  2.02s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.556894063949585, 'learning_rate': 2.247229652273596e-05, 'epoch': 1.8}
  7%|▋         | 5885/78504 [3:34:03<40:39:52,  2.02s/it]  7%|▋         | 5886/78504 [3:34:04<39:11:48,  1.94s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.5779536366462708, 'learning_rate': 2.2476117692013758e-05, 'epoch': 1.8}
  7%|▋         | 5886/78504 [3:34:04<39:11:48,  1.94s/it]  7%|▋         | 5887/78504 [3:34:06<37:26:40,  1.86s/it]                                                         {'loss': 0.2056, 'grad_norm': 0.9166035056114197, 'learning_rate': 2.2479938861291556e-05, 'epoch': 1.8}
  7%|▋         | 5887/78504 [3:34:06<37:26:40,  1.86s/it]  8%|▊         | 5888/78504 [3:34:08<35:29:42,  1.76s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.6454905867576599, 'learning_rate': 2.2483760030569355e-05, 'epoch': 1.8}
  8%|▊         | 5888/78504 [3:34:08<35:29:42,  1.76s/it]  8%|▊         | 5889/78504 [3:34:09<33:48:10,  1.68s/it]                                                         {'loss': 0.2064, 'grad_norm': 0.6041117310523987, 'learning_rate': 2.2487581199847154e-05, 'epoch': 1.8}
  8%|▊         | 5889/78504 [3:34:09<33:48:10,  1.68s/it]  8%|▊         | 5890/78504 [3:34:10<32:13:49,  1.60s/it]                                                         {'loss': 0.1977, 'grad_norm': 1.2116774320602417, 'learning_rate': 2.2491402369124953e-05, 'epoch': 1.8}
  8%|▊         | 5890/78504 [3:34:10<32:13:49,  1.60s/it]  8%|▊         | 5891/78504 [3:34:12<29:58:28,  1.49s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.7441605925559998, 'learning_rate': 2.249522353840275e-05, 'epoch': 1.8}
  8%|▊         | 5891/78504 [3:34:12<29:58:28,  1.49s/it]  8%|▊         | 5892/78504 [3:34:13<27:53:27,  1.38s/it]                                                         {'loss': 0.1922, 'grad_norm': 1.3444339036941528, 'learning_rate': 2.249904470768055e-05, 'epoch': 1.8}
  8%|▊         | 5892/78504 [3:34:13<27:53:27,  1.38s/it]  8%|▊         | 5893/78504 [3:34:14<26:13:43,  1.30s/it]                                                         {'loss': 0.246, 'grad_norm': 1.5300246477127075, 'learning_rate': 2.2502865876958352e-05, 'epoch': 1.8}
  8%|▊         | 5893/78504 [3:34:14<26:13:43,  1.30s/it]  8%|▊         | 5894/78504 [3:34:15<24:55:09,  1.24s/it]                                                         {'loss': 0.2171, 'grad_norm': 1.8901561498641968, 'learning_rate': 2.250668704623615e-05, 'epoch': 1.8}
  8%|▊         | 5894/78504 [3:34:15<24:55:09,  1.24s/it]  8%|▊         | 5895/78504 [3:34:16<23:07:13,  1.15s/it]                                                         {'loss': 0.2142, 'grad_norm': 1.2577672004699707, 'learning_rate': 2.251050821551395e-05, 'epoch': 1.8}
  8%|▊         | 5895/78504 [3:34:16<23:07:13,  1.15s/it]  8%|▊         | 5896/78504 [3:34:17<20:58:51,  1.04s/it]                                                         {'loss': 0.288, 'grad_norm': 1.3615971803665161, 'learning_rate': 2.251432938479175e-05, 'epoch': 1.8}
  8%|▊         | 5896/78504 [3:34:17<20:58:51,  1.04s/it]  8%|▊         | 5897/78504 [3:34:27<75:49:51,  3.76s/it]                                                         {'loss': 0.1497, 'grad_norm': 0.4944442808628082, 'learning_rate': 2.2518150554069547e-05, 'epoch': 1.8}
  8%|▊         | 5897/78504 [3:34:27<75:49:51,  3.76s/it]  8%|▊         | 5898/78504 [3:34:30<73:29:00,  3.64s/it]                                                         {'loss': 0.0862, 'grad_norm': 0.7004675269126892, 'learning_rate': 2.2521971723347346e-05, 'epoch': 1.8}
  8%|▊         | 5898/78504 [3:34:30<73:29:00,  3.64s/it]  8%|▊         | 5899/78504 [3:34:33<66:59:07,  3.32s/it]                                                         {'loss': 0.0885, 'grad_norm': 0.5106249451637268, 'learning_rate': 2.2525792892625145e-05, 'epoch': 1.8}
  8%|▊         | 5899/78504 [3:34:33<66:59:07,  3.32s/it]  8%|▊         | 5900/78504 [3:34:35<61:33:25,  3.05s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.4771416485309601, 'learning_rate': 2.2529614061902943e-05, 'epoch': 1.8}
  8%|▊         | 5900/78504 [3:34:35<61:33:25,  3.05s/it]  8%|▊         | 5901/78504 [3:34:38<58:05:04,  2.88s/it]                                                         {'loss': 0.0606, 'grad_norm': 0.25663328170776367, 'learning_rate': 2.2533435231180742e-05, 'epoch': 1.8}
  8%|▊         | 5901/78504 [3:34:38<58:05:04,  2.88s/it]  8%|▊         | 5902/78504 [3:34:40<55:22:00,  2.75s/it]                                                         {'loss': 0.0654, 'grad_norm': 0.44941478967666626, 'learning_rate': 2.253725640045854e-05, 'epoch': 1.8}
  8%|▊         | 5902/78504 [3:34:40<55:22:00,  2.75s/it]  8%|▊         | 5903/78504 [3:34:42<52:47:59,  2.62s/it]                                                         {'loss': 0.0538, 'grad_norm': 0.5870100259780884, 'learning_rate': 2.254107756973634e-05, 'epoch': 1.8}
  8%|▊         | 5903/78504 [3:34:42<52:47:59,  2.62s/it]  8%|▊         | 5904/78504 [3:34:45<50:55:49,  2.53s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.3680556118488312, 'learning_rate': 2.254489873901414e-05, 'epoch': 1.8}
  8%|▊         | 5904/78504 [3:34:45<50:55:49,  2.53s/it]  8%|▊         | 5905/78504 [3:34:47<48:51:45,  2.42s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.2977650463581085, 'learning_rate': 2.2548719908291937e-05, 'epoch': 1.81}
  8%|▊         | 5905/78504 [3:34:47<48:51:45,  2.42s/it]  8%|▊         | 5906/78504 [3:34:49<47:12:48,  2.34s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.39700815081596375, 'learning_rate': 2.2552541077569736e-05, 'epoch': 1.81}
  8%|▊         | 5906/78504 [3:34:49<47:12:48,  2.34s/it]  8%|▊         | 5907/78504 [3:34:51<45:19:43,  2.25s/it]                                                         {'loss': 0.1178, 'grad_norm': 5.255709648132324, 'learning_rate': 2.2556362246847535e-05, 'epoch': 1.81}
  8%|▊         | 5907/78504 [3:34:51<45:19:43,  2.25s/it]  8%|▊         | 5908/78504 [3:34:53<42:36:38,  2.11s/it]                                                         {'loss': 0.0936, 'grad_norm': 0.5550448894500732, 'learning_rate': 2.2560183416125337e-05, 'epoch': 1.81}
  8%|▊         | 5908/78504 [3:34:53<42:36:38,  2.11s/it]  8%|▊         | 5909/78504 [3:34:55<41:07:02,  2.04s/it]                                                         {'loss': 0.1046, 'grad_norm': 0.3751942813396454, 'learning_rate': 2.2564004585403135e-05, 'epoch': 1.81}
  8%|▊         | 5909/78504 [3:34:55<41:07:02,  2.04s/it]  8%|▊         | 5910/78504 [3:34:57<39:54:48,  1.98s/it]                                                         {'loss': 0.1599, 'grad_norm': 0.75841224193573, 'learning_rate': 2.2567825754680934e-05, 'epoch': 1.81}
  8%|▊         | 5910/78504 [3:34:57<39:54:48,  1.98s/it]  8%|▊         | 5911/78504 [3:34:58<38:25:39,  1.91s/it]                                                         {'loss': 0.1706, 'grad_norm': 1.12236750125885, 'learning_rate': 2.2571646923958733e-05, 'epoch': 1.81}
  8%|▊         | 5911/78504 [3:34:58<38:25:39,  1.91s/it]  8%|▊         | 5912/78504 [3:35:00<36:56:41,  1.83s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.6064581274986267, 'learning_rate': 2.2575468093236532e-05, 'epoch': 1.81}
  8%|▊         | 5912/78504 [3:35:00<36:56:41,  1.83s/it]  8%|▊         | 5913/78504 [3:35:02<35:12:32,  1.75s/it]                                                         {'loss': 0.1773, 'grad_norm': 0.7133928537368774, 'learning_rate': 2.257928926251433e-05, 'epoch': 1.81}
  8%|▊         | 5913/78504 [3:35:02<35:12:32,  1.75s/it]  8%|▊         | 5914/78504 [3:35:03<33:16:09,  1.65s/it]                                                         {'loss': 0.1883, 'grad_norm': 1.464132308959961, 'learning_rate': 2.258311043179213e-05, 'epoch': 1.81}
  8%|▊         | 5914/78504 [3:35:03<33:16:09,  1.65s/it]  8%|▊         | 5915/78504 [3:35:04<31:54:43,  1.58s/it]                                                         {'loss': 0.246, 'grad_norm': 1.0504883527755737, 'learning_rate': 2.2586931601069928e-05, 'epoch': 1.81}
  8%|▊         | 5915/78504 [3:35:04<31:54:43,  1.58s/it]  8%|▊         | 5916/78504 [3:35:06<29:48:46,  1.48s/it]                                                         {'loss': 0.2557, 'grad_norm': 0.9956822991371155, 'learning_rate': 2.2590752770347727e-05, 'epoch': 1.81}
  8%|▊         | 5916/78504 [3:35:06<29:48:46,  1.48s/it]  8%|▊         | 5917/78504 [3:35:07<27:39:47,  1.37s/it]                                                         {'loss': 0.2368, 'grad_norm': 2.7273988723754883, 'learning_rate': 2.2594573939625525e-05, 'epoch': 1.81}
  8%|▊         | 5917/78504 [3:35:07<27:39:47,  1.37s/it]  8%|▊         | 5918/78504 [3:35:08<25:57:36,  1.29s/it]                                                         {'loss': 0.2188, 'grad_norm': 1.6115093231201172, 'learning_rate': 2.2598395108903324e-05, 'epoch': 1.81}
  8%|▊         | 5918/78504 [3:35:08<25:57:36,  1.29s/it]  8%|▊         | 5919/78504 [3:35:09<24:10:31,  1.20s/it]                                                         {'loss': 0.2826, 'grad_norm': 1.6936719417572021, 'learning_rate': 2.2602216278181123e-05, 'epoch': 1.81}
  8%|▊         | 5919/78504 [3:35:09<24:10:31,  1.20s/it]  8%|▊         | 5920/78504 [3:35:10<22:36:46,  1.12s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.1447290182113647, 'learning_rate': 2.260603744745892e-05, 'epoch': 1.81}
  8%|▊         | 5920/78504 [3:35:10<22:36:46,  1.12s/it]  8%|▊         | 5921/78504 [3:35:11<20:35:32,  1.02s/it]                                                         {'loss': 0.3239, 'grad_norm': 1.4659391641616821, 'learning_rate': 2.260985861673672e-05, 'epoch': 1.81}
  8%|▊         | 5921/78504 [3:35:11<20:35:32,  1.02s/it]  8%|▊         | 5922/78504 [3:35:18<61:18:05,  3.04s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.5760611295700073, 'learning_rate': 2.261367978601452e-05, 'epoch': 1.81}
  8%|▊         | 5922/78504 [3:35:18<61:18:05,  3.04s/it]  8%|▊         | 5923/78504 [3:35:21<61:55:17,  3.07s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.44105264544487, 'learning_rate': 2.2617500955292318e-05, 'epoch': 1.81}
  8%|▊         | 5923/78504 [3:35:21<61:55:17,  3.07s/it]  8%|▊         | 5924/78504 [3:35:24<58:53:51,  2.92s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.5981799364089966, 'learning_rate': 2.262132212457012e-05, 'epoch': 1.81}
  8%|▊         | 5924/78504 [3:35:24<58:53:51,  2.92s/it]  8%|▊         | 5925/78504 [3:35:27<57:02:56,  2.83s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.26397836208343506, 'learning_rate': 2.262514329384792e-05, 'epoch': 1.81}
  8%|▊         | 5925/78504 [3:35:27<57:02:56,  2.83s/it]  8%|▊         | 5926/78504 [3:35:29<54:51:26,  2.72s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.32751360535621643, 'learning_rate': 2.2628964463125718e-05, 'epoch': 1.81}
  8%|▊         | 5926/78504 [3:35:29<54:51:26,  2.72s/it]  8%|▊         | 5927/78504 [3:35:31<52:05:57,  2.58s/it]                                                         {'loss': 0.0855, 'grad_norm': 0.31205564737319946, 'learning_rate': 2.2632785632403516e-05, 'epoch': 1.81}
  8%|▊         | 5927/78504 [3:35:31<52:05:57,  2.58s/it]  8%|▊         | 5928/78504 [3:35:34<50:35:00,  2.51s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.3058909475803375, 'learning_rate': 2.2636606801681315e-05, 'epoch': 1.81}
  8%|▊         | 5928/78504 [3:35:34<50:35:00,  2.51s/it]  8%|▊         | 5929/78504 [3:35:36<48:02:22,  2.38s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.27767452597618103, 'learning_rate': 2.2640427970959114e-05, 'epoch': 1.81}
  8%|▊         | 5929/78504 [3:35:36<48:02:22,  2.38s/it]  8%|▊         | 5930/78504 [3:35:38<46:55:01,  2.33s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.5123608708381653, 'learning_rate': 2.2644249140236912e-05, 'epoch': 1.81}
  8%|▊         | 5930/78504 [3:35:38<46:55:01,  2.33s/it]  8%|▊         | 5931/78504 [3:35:40<45:45:37,  2.27s/it]                                                         {'loss': 0.0708, 'grad_norm': 0.3540153205394745, 'learning_rate': 2.264807030951471e-05, 'epoch': 1.81}
  8%|▊         | 5931/78504 [3:35:40<45:45:37,  2.27s/it]  8%|▊         | 5932/78504 [3:35:42<44:04:52,  2.19s/it]                                                         {'loss': 0.127, 'grad_norm': 0.521935224533081, 'learning_rate': 2.265189147879251e-05, 'epoch': 1.81}
  8%|▊         | 5932/78504 [3:35:42<44:04:52,  2.19s/it]  8%|▊         | 5933/78504 [3:35:44<42:30:43,  2.11s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.6086746454238892, 'learning_rate': 2.265571264807031e-05, 'epoch': 1.81}
  8%|▊         | 5933/78504 [3:35:44<42:30:43,  2.11s/it]  8%|▊         | 5934/78504 [3:35:46<41:04:23,  2.04s/it]                                                         {'loss': 0.1215, 'grad_norm': 0.5610914826393127, 'learning_rate': 2.2659533817348107e-05, 'epoch': 1.81}
  8%|▊         | 5934/78504 [3:35:46<41:04:23,  2.04s/it]  8%|▊         | 5935/78504 [3:35:48<39:01:40,  1.94s/it]                                                         {'loss': 0.1313, 'grad_norm': 0.4456064999103546, 'learning_rate': 2.2663354986625906e-05, 'epoch': 1.81}
  8%|▊         | 5935/78504 [3:35:48<39:01:40,  1.94s/it]  8%|▊         | 5936/78504 [3:35:49<37:23:01,  1.85s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.5292341709136963, 'learning_rate': 2.2667176155903705e-05, 'epoch': 1.81}
  8%|▊         | 5936/78504 [3:35:49<37:23:01,  1.85s/it]  8%|▊         | 5937/78504 [3:35:51<36:10:23,  1.79s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.8701665997505188, 'learning_rate': 2.2670997325181504e-05, 'epoch': 1.82}
  8%|▊         | 5937/78504 [3:35:51<36:10:23,  1.79s/it]  8%|▊         | 5938/78504 [3:35:52<34:29:35,  1.71s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.8343828916549683, 'learning_rate': 2.2674818494459302e-05, 'epoch': 1.82}
  8%|▊         | 5938/78504 [3:35:52<34:29:35,  1.71s/it]  8%|▊         | 5939/78504 [3:35:54<33:07:15,  1.64s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.7170079946517944, 'learning_rate': 2.2678639663737105e-05, 'epoch': 1.82}
  8%|▊         | 5939/78504 [3:35:54<33:07:15,  1.64s/it]  8%|▊         | 5940/78504 [3:35:55<31:44:45,  1.57s/it]                                                         {'loss': 0.1764, 'grad_norm': 2.637075185775757, 'learning_rate': 2.2682460833014903e-05, 'epoch': 1.82}
  8%|▊         | 5940/78504 [3:35:55<31:44:45,  1.57s/it]  8%|▊         | 5941/78504 [3:35:57<29:39:38,  1.47s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.7747604846954346, 'learning_rate': 2.2686282002292702e-05, 'epoch': 1.82}
  8%|▊         | 5941/78504 [3:35:57<29:39:38,  1.47s/it]  8%|▊         | 5942/78504 [3:35:58<27:34:16,  1.37s/it]                                                         {'loss': 0.2352, 'grad_norm': 1.8888065814971924, 'learning_rate': 2.26901031715705e-05, 'epoch': 1.82}
  8%|▊         | 5942/78504 [3:35:58<27:34:16,  1.37s/it]  8%|▊         | 5943/78504 [3:35:59<25:57:19,  1.29s/it]                                                         {'loss': 0.2423, 'grad_norm': 2.3458054065704346, 'learning_rate': 2.26939243408483e-05, 'epoch': 1.82}
  8%|▊         | 5943/78504 [3:35:59<25:57:19,  1.29s/it]  8%|▊         | 5944/78504 [3:36:00<24:16:50,  1.20s/it]                                                         {'loss': 0.2696, 'grad_norm': 1.152510404586792, 'learning_rate': 2.26977455101261e-05, 'epoch': 1.82}
  8%|▊         | 5944/78504 [3:36:00<24:16:50,  1.20s/it]  8%|▊         | 5945/78504 [3:36:01<22:40:16,  1.12s/it]                                                         {'loss': 0.2321, 'grad_norm': 2.3650569915771484, 'learning_rate': 2.2701566679403897e-05, 'epoch': 1.82}
  8%|▊         | 5945/78504 [3:36:01<22:40:16,  1.12s/it]  8%|▊         | 5946/78504 [3:36:02<20:37:39,  1.02s/it]                                                         {'loss': 0.3359, 'grad_norm': 2.6973440647125244, 'learning_rate': 2.2705387848681696e-05, 'epoch': 1.82}
  8%|▊         | 5946/78504 [3:36:02<20:37:39,  1.02s/it]  8%|▊         | 5947/78504 [3:36:10<64:49:23,  3.22s/it]                                                         {'loss': 0.1755, 'grad_norm': 0.5127320885658264, 'learning_rate': 2.2709209017959495e-05, 'epoch': 1.82}
  8%|▊         | 5947/78504 [3:36:10<64:49:23,  3.22s/it]  8%|▊         | 5948/78504 [3:36:13<65:41:28,  3.26s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.5036792755126953, 'learning_rate': 2.2713030187237293e-05, 'epoch': 1.82}
  8%|▊         | 5948/78504 [3:36:13<65:41:28,  3.26s/it]  8%|▊         | 5949/78504 [3:36:16<63:40:08,  3.16s/it]                                                         {'loss': 0.0816, 'grad_norm': 0.4437064528465271, 'learning_rate': 2.2716851356515092e-05, 'epoch': 1.82}
  8%|▊         | 5949/78504 [3:36:16<63:40:08,  3.16s/it]  8%|▊         | 5950/78504 [3:36:19<60:09:23,  2.98s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.29185858368873596, 'learning_rate': 2.272067252579289e-05, 'epoch': 1.82}
  8%|▊         | 5950/78504 [3:36:19<60:09:23,  2.98s/it]  8%|▊         | 5951/78504 [3:36:21<57:12:33,  2.84s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.4918385446071625, 'learning_rate': 2.2724493695070693e-05, 'epoch': 1.82}
  8%|▊         | 5951/78504 [3:36:21<57:12:33,  2.84s/it]  8%|▊         | 5952/78504 [3:36:24<54:46:15,  2.72s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.34700602293014526, 'learning_rate': 2.272831486434849e-05, 'epoch': 1.82}
  8%|▊         | 5952/78504 [3:36:24<54:46:15,  2.72s/it]  8%|▊         | 5953/78504 [3:36:26<52:19:31,  2.60s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.3347308337688446, 'learning_rate': 2.273213603362629e-05, 'epoch': 1.82}
  8%|▊         | 5953/78504 [3:36:26<52:19:31,  2.60s/it]  8%|▊         | 5954/78504 [3:36:28<49:18:00,  2.45s/it]                                                         {'loss': 0.066, 'grad_norm': 0.2590063512325287, 'learning_rate': 2.273595720290409e-05, 'epoch': 1.82}
  8%|▊         | 5954/78504 [3:36:28<49:18:00,  2.45s/it]  8%|▊         | 5955/78504 [3:36:30<46:44:44,  2.32s/it]                                                         {'loss': 0.1036, 'grad_norm': 0.764342725276947, 'learning_rate': 2.273977837218189e-05, 'epoch': 1.82}
  8%|▊         | 5955/78504 [3:36:30<46:44:44,  2.32s/it]  8%|▊         | 5956/78504 [3:36:32<45:39:16,  2.27s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.507537305355072, 'learning_rate': 2.274359954145969e-05, 'epoch': 1.82}
  8%|▊         | 5956/78504 [3:36:32<45:39:16,  2.27s/it]  8%|▊         | 5957/78504 [3:36:34<44:01:48,  2.18s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.3078964650630951, 'learning_rate': 2.274742071073749e-05, 'epoch': 1.82}
  8%|▊         | 5957/78504 [3:36:34<44:01:48,  2.18s/it]  8%|▊         | 5958/78504 [3:36:36<42:48:54,  2.12s/it]                                                         {'loss': 0.0916, 'grad_norm': 0.34287068247795105, 'learning_rate': 2.2751241880015288e-05, 'epoch': 1.82}
  8%|▊         | 5958/78504 [3:36:36<42:48:54,  2.12s/it]  8%|▊         | 5959/78504 [3:36:38<41:15:25,  2.05s/it]                                                         {'loss': 0.1319, 'grad_norm': 0.5799626111984253, 'learning_rate': 2.2755063049293086e-05, 'epoch': 1.82}
  8%|▊         | 5959/78504 [3:36:38<41:15:25,  2.05s/it]  8%|▊         | 5960/78504 [3:36:40<40:11:40,  1.99s/it]                                                         {'loss': 0.134, 'grad_norm': 0.4959411323070526, 'learning_rate': 2.2758884218570885e-05, 'epoch': 1.82}
  8%|▊         | 5960/78504 [3:36:40<40:11:40,  1.99s/it]  8%|▊         | 5961/78504 [3:36:42<38:52:34,  1.93s/it]                                                         {'loss': 0.1388, 'grad_norm': 0.621892511844635, 'learning_rate': 2.2762705387848684e-05, 'epoch': 1.82}
  8%|▊         | 5961/78504 [3:36:42<38:52:34,  1.93s/it]  8%|▊         | 5962/78504 [3:36:43<37:13:28,  1.85s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.5363364219665527, 'learning_rate': 2.2766526557126482e-05, 'epoch': 1.82}
  8%|▊         | 5962/78504 [3:36:43<37:13:28,  1.85s/it]  8%|▊         | 5963/78504 [3:36:45<35:31:09,  1.76s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.9225705862045288, 'learning_rate': 2.277034772640428e-05, 'epoch': 1.82}
  8%|▊         | 5963/78504 [3:36:45<35:31:09,  1.76s/it]  8%|▊         | 5964/78504 [3:36:46<33:43:35,  1.67s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.6279116272926331, 'learning_rate': 2.277416889568208e-05, 'epoch': 1.82}
  8%|▊         | 5964/78504 [3:36:46<33:43:35,  1.67s/it]  8%|▊         | 5965/78504 [3:36:48<32:05:03,  1.59s/it]                                                         {'loss': 0.1961, 'grad_norm': 0.9207148551940918, 'learning_rate': 2.277799006495988e-05, 'epoch': 1.82}
  8%|▊         | 5965/78504 [3:36:48<32:05:03,  1.59s/it]  8%|▊         | 5966/78504 [3:36:49<30:13:44,  1.50s/it]                                                         {'loss': 0.2054, 'grad_norm': 0.8382583856582642, 'learning_rate': 2.2781811234237677e-05, 'epoch': 1.82}
  8%|▊         | 5966/78504 [3:36:49<30:13:44,  1.50s/it]  8%|▊         | 5967/78504 [3:36:50<28:08:27,  1.40s/it]                                                         {'loss': 0.1841, 'grad_norm': 0.8043766617774963, 'learning_rate': 2.2785632403515476e-05, 'epoch': 1.82}
  8%|▊         | 5967/78504 [3:36:50<28:08:27,  1.40s/it]  8%|▊         | 5968/78504 [3:36:51<26:18:53,  1.31s/it]                                                         {'loss': 0.232, 'grad_norm': 1.0227431058883667, 'learning_rate': 2.2789453572793275e-05, 'epoch': 1.82}
  8%|▊         | 5968/78504 [3:36:51<26:18:53,  1.31s/it]  8%|▊         | 5969/78504 [3:36:52<24:23:29,  1.21s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.9342317581176758, 'learning_rate': 2.2793274742071074e-05, 'epoch': 1.82}
  8%|▊         | 5969/78504 [3:36:52<24:23:29,  1.21s/it]  8%|▊         | 5970/78504 [3:36:53<22:42:48,  1.13s/it]                                                         {'loss': 0.2864, 'grad_norm': 1.569667935371399, 'learning_rate': 2.2797095911348876e-05, 'epoch': 1.83}
  8%|▊         | 5970/78504 [3:36:53<22:42:48,  1.13s/it]  8%|▊         | 5971/78504 [3:36:54<20:37:44,  1.02s/it]                                                         {'loss': 0.3317, 'grad_norm': 2.5787160396575928, 'learning_rate': 2.2800917080626675e-05, 'epoch': 1.83}
  8%|▊         | 5971/78504 [3:36:54<20:37:44,  1.02s/it]  8%|▊         | 5972/78504 [3:37:03<70:25:02,  3.50s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.9043715596199036, 'learning_rate': 2.2804738249904473e-05, 'epoch': 1.83}
  8%|▊         | 5972/78504 [3:37:03<70:25:02,  3.50s/it]  8%|▊         | 5973/78504 [3:37:06<66:51:42,  3.32s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.3552992045879364, 'learning_rate': 2.2808559419182272e-05, 'epoch': 1.83}
  8%|▊         | 5973/78504 [3:37:06<66:51:42,  3.32s/it]  8%|▊         | 5974/78504 [3:37:09<65:02:11,  3.23s/it]                                                         {'loss': 0.1186, 'grad_norm': 0.3904891610145569, 'learning_rate': 2.281238058846007e-05, 'epoch': 1.83}
  8%|▊         | 5974/78504 [3:37:09<65:02:11,  3.23s/it]  8%|▊         | 5975/78504 [3:37:12<61:13:06,  3.04s/it]                                                         {'loss': 0.0628, 'grad_norm': 0.5919166207313538, 'learning_rate': 2.281620175773787e-05, 'epoch': 1.83}
  8%|▊         | 5975/78504 [3:37:12<61:13:06,  3.04s/it]  8%|▊         | 5976/78504 [3:37:14<57:47:44,  2.87s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.3259316384792328, 'learning_rate': 2.2820022927015668e-05, 'epoch': 1.83}
  8%|▊         | 5976/78504 [3:37:14<57:47:44,  2.87s/it]  8%|▊         | 5977/78504 [3:37:17<54:10:55,  2.69s/it]                                                         {'loss': 0.0611, 'grad_norm': 0.3797752857208252, 'learning_rate': 2.2823844096293467e-05, 'epoch': 1.83}
  8%|▊         | 5977/78504 [3:37:17<54:10:55,  2.69s/it]  8%|▊         | 5978/78504 [3:37:19<51:56:21,  2.58s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.32800665497779846, 'learning_rate': 2.2827665265571266e-05, 'epoch': 1.83}
  8%|▊         | 5978/78504 [3:37:19<51:56:21,  2.58s/it]  8%|▊         | 5979/78504 [3:37:21<49:07:01,  2.44s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.5499637722969055, 'learning_rate': 2.2831486434849065e-05, 'epoch': 1.83}
  8%|▊         | 5979/78504 [3:37:21<49:07:01,  2.44s/it]  8%|▊         | 5980/78504 [3:37:23<47:36:41,  2.36s/it]                                                         {'loss': 0.1028, 'grad_norm': 0.3848051130771637, 'learning_rate': 2.2835307604126863e-05, 'epoch': 1.83}
  8%|▊         | 5980/78504 [3:37:23<47:36:41,  2.36s/it]  8%|▊         | 5981/78504 [3:37:25<46:16:29,  2.30s/it]                                                         {'loss': 0.0623, 'grad_norm': 0.3856937289237976, 'learning_rate': 2.2839128773404662e-05, 'epoch': 1.83}
  8%|▊         | 5981/78504 [3:37:25<46:16:29,  2.30s/it]  8%|▊         | 5982/78504 [3:37:27<44:42:52,  2.22s/it]                                                         {'loss': 0.1235, 'grad_norm': 0.4583621025085449, 'learning_rate': 2.284294994268246e-05, 'epoch': 1.83}
  8%|▊         | 5982/78504 [3:37:27<44:42:52,  2.22s/it]  8%|▊         | 5983/78504 [3:37:29<43:15:05,  2.15s/it]                                                         {'loss': 0.074, 'grad_norm': 0.39856624603271484, 'learning_rate': 2.284677111196026e-05, 'epoch': 1.83}
  8%|▊         | 5983/78504 [3:37:29<43:15:05,  2.15s/it]  8%|▊         | 5984/78504 [3:37:31<41:41:08,  2.07s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.577545702457428, 'learning_rate': 2.2850592281238058e-05, 'epoch': 1.83}
  8%|▊         | 5984/78504 [3:37:31<41:41:08,  2.07s/it]  8%|▊         | 5985/78504 [3:37:33<40:30:22,  2.01s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.44580528140068054, 'learning_rate': 2.2854413450515857e-05, 'epoch': 1.83}
  8%|▊         | 5985/78504 [3:37:33<40:30:22,  2.01s/it]  8%|▊         | 5986/78504 [3:37:35<39:00:12,  1.94s/it]                                                         {'loss': 0.1853, 'grad_norm': 0.7754372358322144, 'learning_rate': 2.285823461979366e-05, 'epoch': 1.83}
  8%|▊         | 5986/78504 [3:37:35<39:00:12,  1.94s/it]  8%|▊         | 5987/78504 [3:37:37<37:19:00,  1.85s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.46062400937080383, 'learning_rate': 2.2862055789071458e-05, 'epoch': 1.83}
  8%|▊         | 5987/78504 [3:37:37<37:19:00,  1.85s/it]  8%|▊         | 5988/78504 [3:37:38<35:27:52,  1.76s/it]                                                         {'loss': 0.2191, 'grad_norm': 0.6113187074661255, 'learning_rate': 2.2865876958349257e-05, 'epoch': 1.83}
  8%|▊         | 5988/78504 [3:37:38<35:27:52,  1.76s/it]  8%|▊         | 5989/78504 [3:37:40<34:03:15,  1.69s/it]                                                         {'loss': 0.1737, 'grad_norm': 0.4782533049583435, 'learning_rate': 2.2869698127627055e-05, 'epoch': 1.83}
  8%|▊         | 5989/78504 [3:37:40<34:03:15,  1.69s/it]  8%|▊         | 5990/78504 [3:37:41<32:27:21,  1.61s/it]                                                         {'loss': 0.187, 'grad_norm': 0.7474223375320435, 'learning_rate': 2.2873519296904854e-05, 'epoch': 1.83}
  8%|▊         | 5990/78504 [3:37:41<32:27:21,  1.61s/it]  8%|▊         | 5991/78504 [3:37:42<30:28:13,  1.51s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.7757048606872559, 'learning_rate': 2.2877340466182653e-05, 'epoch': 1.83}
  8%|▊         | 5991/78504 [3:37:42<30:28:13,  1.51s/it]  8%|▊         | 5992/78504 [3:37:44<28:41:23,  1.42s/it]                                                         {'loss': 0.2466, 'grad_norm': 4.167563438415527, 'learning_rate': 2.288116163546045e-05, 'epoch': 1.83}
  8%|▊         | 5992/78504 [3:37:44<28:41:23,  1.42s/it]  8%|▊         | 5993/78504 [3:37:45<26:38:21,  1.32s/it]                                                         {'loss': 0.187, 'grad_norm': 0.8352805972099304, 'learning_rate': 2.288498280473825e-05, 'epoch': 1.83}
  8%|▊         | 5993/78504 [3:37:45<26:38:21,  1.32s/it]  8%|▊         | 5994/78504 [3:37:46<25:05:39,  1.25s/it]                                                         {'loss': 0.2033, 'grad_norm': 1.2836756706237793, 'learning_rate': 2.288880397401605e-05, 'epoch': 1.83}
  8%|▊         | 5994/78504 [3:37:46<25:05:39,  1.25s/it]  8%|▊         | 5995/78504 [3:37:47<23:12:47,  1.15s/it]                                                         {'loss': 0.2163, 'grad_norm': 1.5363075733184814, 'learning_rate': 2.2892625143293848e-05, 'epoch': 1.83}
  8%|▊         | 5995/78504 [3:37:47<23:12:47,  1.15s/it]  8%|▊         | 5996/78504 [3:37:47<20:57:30,  1.04s/it]                                                         {'loss': 0.2948, 'grad_norm': 1.9450304508209229, 'learning_rate': 2.2896446312571647e-05, 'epoch': 1.83}
  8%|▊         | 5996/78504 [3:37:47<20:57:30,  1.04s/it]  8%|▊         | 5997/78504 [3:37:57<73:29:01,  3.65s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.5917288661003113, 'learning_rate': 2.2900267481849445e-05, 'epoch': 1.83}
  8%|▊         | 5997/78504 [3:37:57<73:29:01,  3.65s/it]  8%|▊         | 5998/78504 [3:38:01<71:48:09,  3.57s/it]                                                         {'loss': 0.114, 'grad_norm': 0.39563238620758057, 'learning_rate': 2.2904088651127244e-05, 'epoch': 1.83}
  8%|▊         | 5998/78504 [3:38:01<71:48:09,  3.57s/it]  8%|▊         | 5999/78504 [3:38:03<67:53:54,  3.37s/it]                                                         {'loss': 0.0755, 'grad_norm': 0.38310977816581726, 'learning_rate': 2.2907909820405043e-05, 'epoch': 1.83}
  8%|▊         | 5999/78504 [3:38:03<67:53:54,  3.37s/it]  8%|▊         | 6000/78504 [3:38:06<63:06:40,  3.13s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.485666960477829, 'learning_rate': 2.291173098968284e-05, 'epoch': 1.83}
  8%|▊         | 6000/78504 [3:38:06<63:06:40,  3.13s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.89it/s][A
 20%|██        | 3/15 [00:04<00:21,  1.82s/it][A
 27%|██▋       | 4/15 [00:05<00:17,  1.62s/it][A
 33%|███▎      | 5/15 [00:06<00:12,  1.21s/it][A
 40%|████      | 6/15 [00:06<00:08,  1.09it/s][A
 47%|████▋     | 7/15 [00:06<00:05,  1.45it/s][A
 53%|█████▎    | 8/15 [00:08<00:06,  1.15it/s][A
 60%|██████    | 9/15 [00:08<00:04,  1.39it/s][A
 67%|██████▋   | 10/15 [00:08<00:02,  1.73it/s][A
 73%|███████▎  | 11/15 [00:09<00:03,  1.32it/s][A
 80%|████████  | 12/15 [00:10<00:02,  1.46it/s][A
 87%|████████▋ | 13/15 [00:10<00:01,  1.75it/s][A
 93%|█████████▎| 14/15 [00:10<00:00,  2.14it/s][A
100%|██████████| 15/15 [00:12<00:00,  1.18it/s][A                                                         
                                               [A{'eval_loss': 0.26742246747016907, 'eval_wer': 0.3433144325577498, 'eval_cer': 0.19195771005859055, 'eval_runtime': 23.282, 'eval_samples_per_second': 194.914, 'eval_steps_per_second': 0.644, 'epoch': 1.83}
  8%|▊         | 6000/78504 [3:39:16<63:06:40,  3.13s/it]
100%|██████████| 15/15 [00:15<00:00,  1.18it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-6000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-4000] due to args.save_total_limit
  8%|▊         | 6001/78504 [3:39:33<569:30:37, 28.28s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.24815250933170319, 'learning_rate': 2.2915552158960644e-05, 'epoch': 1.83}
  8%|▊         | 6001/78504 [3:39:33<569:30:37, 28.28s/it]  8%|▊         | 6002/78504 [3:39:35<413:21:14, 20.52s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.23052364587783813, 'learning_rate': 2.2919373328238442e-05, 'epoch': 1.83}
  8%|▊         | 6002/78504 [3:39:35<413:21:14, 20.52s/it]  8%|▊         | 6003/78504 [3:39:38<303:21:01, 15.06s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.7028427124023438, 'learning_rate': 2.292319449751624e-05, 'epoch': 1.84}
  8%|▊         | 6003/78504 [3:39:38<303:21:01, 15.06s/it]  8%|▊         | 6004/78504 [3:39:40<226:02:44, 11.22s/it]                                                          {'loss': 0.109, 'grad_norm': 0.4023300111293793, 'learning_rate': 2.292701566679404e-05, 'epoch': 1.84}
  8%|▊         | 6004/78504 [3:39:40<226:02:44, 11.22s/it]  8%|▊         | 6005/78504 [3:39:42<171:27:20,  8.51s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.27435094118118286, 'learning_rate': 2.293083683607184e-05, 'epoch': 1.84}
  8%|▊         | 6005/78504 [3:39:42<171:27:20,  8.51s/it]  8%|▊         | 6006/78504 [3:39:44<133:00:39,  6.60s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.36521270871162415, 'learning_rate': 2.2934658005349637e-05, 'epoch': 1.84}
  8%|▊         | 6006/78504 [3:39:44<133:00:39,  6.60s/it]  8%|▊         | 6007/78504 [3:39:46<105:21:02,  5.23s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.4195084869861603, 'learning_rate': 2.2938479174627436e-05, 'epoch': 1.84}
  8%|▊         | 6007/78504 [3:39:46<105:21:02,  5.23s/it]  8%|▊         | 6008/78504 [3:39:48<85:37:29,  4.25s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.4386534094810486, 'learning_rate': 2.2942300343905235e-05, 'epoch': 1.84}
  8%|▊         | 6008/78504 [3:39:48<85:37:29,  4.25s/it]  8%|▊         | 6009/78504 [3:39:50<71:20:09,  3.54s/it]                                                         {'loss': 0.1191, 'grad_norm': 0.42417171597480774, 'learning_rate': 2.2946121513183034e-05, 'epoch': 1.84}
  8%|▊         | 6009/78504 [3:39:50<71:20:09,  3.54s/it]  8%|▊         | 6010/78504 [3:39:52<61:09:41,  3.04s/it]                                                         {'loss': 0.1416, 'grad_norm': 0.4365463852882385, 'learning_rate': 2.2949942682460832e-05, 'epoch': 1.84}
  8%|▊         | 6010/78504 [3:39:52<61:09:41,  3.04s/it]  8%|▊         | 6011/78504 [3:39:54<53:24:58,  2.65s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.4597840905189514, 'learning_rate': 2.295376385173863e-05, 'epoch': 1.84}
  8%|▊         | 6011/78504 [3:39:54<53:24:58,  2.65s/it]  8%|▊         | 6012/78504 [3:39:55<47:20:28,  2.35s/it]                                                         {'loss': 0.1796, 'grad_norm': 0.5031896233558655, 'learning_rate': 2.295758502101643e-05, 'epoch': 1.84}
  8%|▊         | 6012/78504 [3:39:56<47:20:28,  2.35s/it]  8%|▊         | 6013/78504 [3:39:57<42:29:01,  2.11s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.5469785928726196, 'learning_rate': 2.296140619029423e-05, 'epoch': 1.84}
  8%|▊         | 6013/78504 [3:39:57<42:29:01,  2.11s/it]  8%|▊         | 6014/78504 [3:39:58<38:34:50,  1.92s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5878551602363586, 'learning_rate': 2.2965227359572027e-05, 'epoch': 1.84}
  8%|▊         | 6014/78504 [3:39:59<38:34:50,  1.92s/it]  8%|▊         | 6015/78504 [3:40:00<35:29:18,  1.76s/it]                                                         {'loss': 0.1957, 'grad_norm': 2.122934579849243, 'learning_rate': 2.2969048528849826e-05, 'epoch': 1.84}
  8%|▊         | 6015/78504 [3:40:00<35:29:18,  1.76s/it]  8%|▊         | 6016/78504 [3:40:01<32:11:51,  1.60s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.706180214881897, 'learning_rate': 2.2972869698127625e-05, 'epoch': 1.84}
  8%|▊         | 6016/78504 [3:40:01<32:11:51,  1.60s/it]  8%|▊         | 6017/78504 [3:40:02<29:18:11,  1.46s/it]                                                         {'loss': 0.1964, 'grad_norm': 0.7046698927879333, 'learning_rate': 2.2976690867405427e-05, 'epoch': 1.84}
  8%|▊         | 6017/78504 [3:40:02<29:18:11,  1.46s/it]  8%|▊         | 6018/78504 [3:40:03<27:09:18,  1.35s/it]                                                         {'loss': 0.2078, 'grad_norm': 1.353708267211914, 'learning_rate': 2.2980512036683226e-05, 'epoch': 1.84}
  8%|▊         | 6018/78504 [3:40:03<27:09:18,  1.35s/it]  8%|▊         | 6019/78504 [3:40:04<25:00:03,  1.24s/it]                                                         {'loss': 0.2496, 'grad_norm': 0.9611049890518188, 'learning_rate': 2.2984333205961024e-05, 'epoch': 1.84}
  8%|▊         | 6019/78504 [3:40:04<25:00:03,  1.24s/it]  8%|▊         | 6020/78504 [3:40:05<23:04:16,  1.15s/it]                                                         {'loss': 0.2861, 'grad_norm': 1.2422980070114136, 'learning_rate': 2.2988154375238823e-05, 'epoch': 1.84}
  8%|▊         | 6020/78504 [3:40:05<23:04:16,  1.15s/it]  8%|▊         | 6021/78504 [3:40:06<20:50:43,  1.04s/it]                                                         {'loss': 0.3464, 'grad_norm': 1.5035769939422607, 'learning_rate': 2.2991975544516622e-05, 'epoch': 1.84}
  8%|▊         | 6021/78504 [3:40:06<20:50:43,  1.04s/it]  8%|▊         | 6022/78504 [3:40:15<66:40:44,  3.31s/it]                                                         {'loss': 0.215, 'grad_norm': 0.4039274752140045, 'learning_rate': 2.299579671379442e-05, 'epoch': 1.84}
  8%|▊         | 6022/78504 [3:40:15<66:40:44,  3.31s/it]  8%|▊         | 6023/78504 [3:40:18<65:14:56,  3.24s/it]                                                         {'loss': 0.1068, 'grad_norm': 0.2809755504131317, 'learning_rate': 2.299961788307222e-05, 'epoch': 1.84}
  8%|▊         | 6023/78504 [3:40:18<65:14:56,  3.24s/it]  8%|▊         | 6024/78504 [3:40:21<62:28:02,  3.10s/it]                                                         {'loss': 0.0941, 'grad_norm': 0.29740795493125916, 'learning_rate': 2.3003439052350018e-05, 'epoch': 1.84}
  8%|▊         | 6024/78504 [3:40:21<62:28:02,  3.10s/it]  8%|▊         | 6025/78504 [3:40:23<59:32:59,  2.96s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.3050239384174347, 'learning_rate': 2.3007260221627817e-05, 'epoch': 1.84}
  8%|▊         | 6025/78504 [3:40:23<59:32:59,  2.96s/it]  8%|▊         | 6026/78504 [3:40:26<56:34:59,  2.81s/it]                                                         {'loss': 0.0725, 'grad_norm': 0.26606670022010803, 'learning_rate': 2.3011081390905616e-05, 'epoch': 1.84}
  8%|▊         | 6026/78504 [3:40:26<56:34:59,  2.81s/it]  8%|▊         | 6027/78504 [3:40:28<53:16:34,  2.65s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.3418686091899872, 'learning_rate': 2.3014902560183414e-05, 'epoch': 1.84}
  8%|▊         | 6027/78504 [3:40:28<53:16:34,  2.65s/it]  8%|▊         | 6028/78504 [3:40:30<51:23:25,  2.55s/it]                                                         {'loss': 0.0606, 'grad_norm': 0.4112890958786011, 'learning_rate': 2.3018723729461213e-05, 'epoch': 1.84}
  8%|▊         | 6028/78504 [3:40:30<51:23:25,  2.55s/it]  8%|▊         | 6029/78504 [3:40:32<48:34:05,  2.41s/it]                                                         {'loss': 0.0633, 'grad_norm': 0.27151647210121155, 'learning_rate': 2.3022544898739015e-05, 'epoch': 1.84}
  8%|▊         | 6029/78504 [3:40:32<48:34:05,  2.41s/it]  8%|▊         | 6030/78504 [3:40:34<47:11:00,  2.34s/it]                                                         {'loss': 0.1206, 'grad_norm': 0.5808164477348328, 'learning_rate': 2.3026366068016814e-05, 'epoch': 1.84}
  8%|▊         | 6030/78504 [3:40:34<47:11:00,  2.34s/it]  8%|▊         | 6031/78504 [3:40:37<45:58:54,  2.28s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.49281537532806396, 'learning_rate': 2.3030187237294613e-05, 'epoch': 1.84}
  8%|▊         | 6031/78504 [3:40:37<45:58:54,  2.28s/it]  8%|▊         | 6032/78504 [3:40:39<44:11:37,  2.20s/it]                                                         {'loss': 0.1091, 'grad_norm': 0.5526334047317505, 'learning_rate': 2.303400840657241e-05, 'epoch': 1.84}
  8%|▊         | 6032/78504 [3:40:39<44:11:37,  2.20s/it]  8%|▊         | 6033/78504 [3:40:41<42:32:22,  2.11s/it]                                                         {'loss': 0.1074, 'grad_norm': 0.40409213304519653, 'learning_rate': 2.3037829575850214e-05, 'epoch': 1.84}
  8%|▊         | 6033/78504 [3:40:41<42:32:22,  2.11s/it]  8%|▊         | 6034/78504 [3:40:42<41:04:51,  2.04s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.4875679314136505, 'learning_rate': 2.3041650745128012e-05, 'epoch': 1.84}
  8%|▊         | 6034/78504 [3:40:42<41:04:51,  2.04s/it]  8%|▊         | 6035/78504 [3:40:44<38:52:20,  1.93s/it]                                                         {'loss': 0.1225, 'grad_norm': 0.5249391794204712, 'learning_rate': 2.304547191440581e-05, 'epoch': 1.85}
  8%|▊         | 6035/78504 [3:40:44<38:52:20,  1.93s/it]  8%|▊         | 6036/78504 [3:40:46<37:54:16,  1.88s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.8566056489944458, 'learning_rate': 2.304929308368361e-05, 'epoch': 1.85}
  8%|▊         | 6036/78504 [3:40:46<37:54:16,  1.88s/it]  8%|▊         | 6037/78504 [3:40:47<35:55:34,  1.78s/it]                                                         {'loss': 0.144, 'grad_norm': 0.5085504651069641, 'learning_rate': 2.305311425296141e-05, 'epoch': 1.85}
  8%|▊         | 6037/78504 [3:40:47<35:55:34,  1.78s/it]  8%|▊         | 6038/78504 [3:40:49<34:16:09,  1.70s/it]                                                         {'loss': 0.2, 'grad_norm': 0.8800804018974304, 'learning_rate': 2.3056935422239207e-05, 'epoch': 1.85}
  8%|▊         | 6038/78504 [3:40:49<34:16:09,  1.70s/it]  8%|▊         | 6039/78504 [3:40:50<32:36:14,  1.62s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.4566508531570435, 'learning_rate': 2.3060756591517006e-05, 'epoch': 1.85}
  8%|▊         | 6039/78504 [3:40:50<32:36:14,  1.62s/it]  8%|▊         | 6040/78504 [3:40:52<31:21:12,  1.56s/it]                                                         {'loss': 0.2142, 'grad_norm': 1.6660709381103516, 'learning_rate': 2.3064577760794805e-05, 'epoch': 1.85}
  8%|▊         | 6040/78504 [3:40:52<31:21:12,  1.56s/it]  8%|▊         | 6041/78504 [3:40:53<29:41:44,  1.48s/it]                                                         {'loss': 0.235, 'grad_norm': 0.7256160974502563, 'learning_rate': 2.3068398930072604e-05, 'epoch': 1.85}
  8%|▊         | 6041/78504 [3:40:53<29:41:44,  1.48s/it]  8%|▊         | 6042/78504 [3:40:54<27:34:49,  1.37s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.6429780721664429, 'learning_rate': 2.3072220099350402e-05, 'epoch': 1.85}
  8%|▊         | 6042/78504 [3:40:54<27:34:49,  1.37s/it]  8%|▊         | 6043/78504 [3:40:55<25:52:20,  1.29s/it]                                                         {'loss': 0.2534, 'grad_norm': 0.8803927302360535, 'learning_rate': 2.30760412686282e-05, 'epoch': 1.85}
  8%|▊         | 6043/78504 [3:40:55<25:52:20,  1.29s/it]  8%|▊         | 6044/78504 [3:40:56<24:04:55,  1.20s/it]                                                         {'loss': 0.4107, 'grad_norm': 2.4318559169769287, 'learning_rate': 2.3079862437906e-05, 'epoch': 1.85}
  8%|▊         | 6044/78504 [3:40:56<24:04:55,  1.20s/it]  8%|▊         | 6045/78504 [3:40:57<22:34:26,  1.12s/it]                                                         {'loss': 0.265, 'grad_norm': 1.1700897216796875, 'learning_rate': 2.30836836071838e-05, 'epoch': 1.85}
  8%|▊         | 6045/78504 [3:40:57<22:34:26,  1.12s/it]  8%|▊         | 6046/78504 [3:40:58<20:30:24,  1.02s/it]                                                         {'loss': 0.3109, 'grad_norm': 1.6476821899414062, 'learning_rate': 2.3087504776461597e-05, 'epoch': 1.85}
  8%|▊         | 6046/78504 [3:40:58<20:30:24,  1.02s/it]  8%|▊         | 6047/78504 [3:41:06<65:01:55,  3.23s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.5167468786239624, 'learning_rate': 2.3091325945739396e-05, 'epoch': 1.85}
  8%|▊         | 6047/78504 [3:41:06<65:01:55,  3.23s/it]  8%|▊         | 6048/78504 [3:41:09<63:57:38,  3.18s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.3587963283061981, 'learning_rate': 2.3095147115017198e-05, 'epoch': 1.85}
  8%|▊         | 6048/78504 [3:41:09<63:57:38,  3.18s/it]  8%|▊         | 6049/78504 [3:41:12<60:14:49,  2.99s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.7049528956413269, 'learning_rate': 2.3098968284294997e-05, 'epoch': 1.85}
  8%|▊         | 6049/78504 [3:41:12<60:14:49,  2.99s/it]  8%|▊         | 6050/78504 [3:41:15<58:00:23,  2.88s/it]                                                         {'loss': 0.08, 'grad_norm': 0.3398105502128601, 'learning_rate': 2.3102789453572796e-05, 'epoch': 1.85}
  8%|▊         | 6050/78504 [3:41:15<58:00:23,  2.88s/it]  8%|▊         | 6051/78504 [3:41:17<55:30:33,  2.76s/it]                                                         {'loss': 0.0531, 'grad_norm': 0.29673492908477783, 'learning_rate': 2.3106610622850594e-05, 'epoch': 1.85}
  8%|▊         | 6051/78504 [3:41:17<55:30:33,  2.76s/it]  8%|▊         | 6052/78504 [3:41:19<52:33:52,  2.61s/it]                                                         {'loss': 0.0685, 'grad_norm': 0.3619558811187744, 'learning_rate': 2.3110431792128393e-05, 'epoch': 1.85}
  8%|▊         | 6052/78504 [3:41:19<52:33:52,  2.61s/it]  8%|▊         | 6053/78504 [3:41:22<50:47:38,  2.52s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.5296640992164612, 'learning_rate': 2.3114252961406192e-05, 'epoch': 1.85}
  8%|▊         | 6053/78504 [3:41:22<50:47:38,  2.52s/it]  8%|▊         | 6054/78504 [3:41:24<48:18:08,  2.40s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.2668273150920868, 'learning_rate': 2.311807413068399e-05, 'epoch': 1.85}
  8%|▊         | 6054/78504 [3:41:24<48:18:08,  2.40s/it]  8%|▊         | 6055/78504 [3:41:26<47:01:38,  2.34s/it]                                                         {'loss': 0.0613, 'grad_norm': 0.29522639513015747, 'learning_rate': 2.312189529996179e-05, 'epoch': 1.85}
  8%|▊         | 6055/78504 [3:41:26<47:01:38,  2.34s/it]  8%|▊         | 6056/78504 [3:41:28<45:59:02,  2.28s/it]                                                         {'loss': 0.1064, 'grad_norm': 0.45995473861694336, 'learning_rate': 2.3125716469239588e-05, 'epoch': 1.85}
  8%|▊         | 6056/78504 [3:41:28<45:59:02,  2.28s/it]  8%|▊         | 6057/78504 [3:41:30<43:23:31,  2.16s/it]                                                         {'loss': 0.118, 'grad_norm': 0.4181731641292572, 'learning_rate': 2.3129537638517387e-05, 'epoch': 1.85}
  8%|▊         | 6057/78504 [3:41:30<43:23:31,  2.16s/it]  8%|▊         | 6058/78504 [3:41:32<42:23:04,  2.11s/it]                                                         {'loss': 0.1249, 'grad_norm': 0.3703547418117523, 'learning_rate': 2.3133358807795186e-05, 'epoch': 1.85}
  8%|▊         | 6058/78504 [3:41:32<42:23:04,  2.11s/it]  8%|▊         | 6059/78504 [3:41:34<41:16:16,  2.05s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.5266970992088318, 'learning_rate': 2.3137179977072984e-05, 'epoch': 1.85}
  8%|▊         | 6059/78504 [3:41:34<41:16:16,  2.05s/it]  8%|▊         | 6060/78504 [3:41:36<40:09:18,  2.00s/it]                                                         {'loss': 0.1509, 'grad_norm': 0.42795971035957336, 'learning_rate': 2.3141001146350783e-05, 'epoch': 1.85}
  8%|▊         | 6060/78504 [3:41:36<40:09:18,  2.00s/it]  8%|▊         | 6061/78504 [3:41:38<38:45:53,  1.93s/it]                                                         {'loss': 0.1405, 'grad_norm': 0.573658287525177, 'learning_rate': 2.3144822315628582e-05, 'epoch': 1.85}
  8%|▊         | 6061/78504 [3:41:38<38:45:53,  1.93s/it]  8%|▊         | 6062/78504 [3:41:39<37:05:17,  1.84s/it]                                                         {'loss': 0.2056, 'grad_norm': 1.063928484916687, 'learning_rate': 2.314864348490638e-05, 'epoch': 1.85}
  8%|▊         | 6062/78504 [3:41:39<37:05:17,  1.84s/it]  8%|▊         | 6063/78504 [3:41:41<35:16:28,  1.75s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.6591883897781372, 'learning_rate': 2.3152464654184183e-05, 'epoch': 1.85}
  8%|▊         | 6063/78504 [3:41:41<35:16:28,  1.75s/it]  8%|▊         | 6064/78504 [3:41:42<33:34:41,  1.67s/it]                                                         {'loss': 0.17, 'grad_norm': 0.8760790228843689, 'learning_rate': 2.315628582346198e-05, 'epoch': 1.85}
  8%|▊         | 6064/78504 [3:41:42<33:34:41,  1.67s/it]  8%|▊         | 6065/78504 [3:41:44<32:04:48,  1.59s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.2016613483428955, 'learning_rate': 2.316010699273978e-05, 'epoch': 1.85}
  8%|▊         | 6065/78504 [3:41:44<32:04:48,  1.59s/it]  8%|▊         | 6066/78504 [3:41:45<30:11:09,  1.50s/it]                                                         {'loss': 0.2445, 'grad_norm': 0.7233198881149292, 'learning_rate': 2.316392816201758e-05, 'epoch': 1.85}
  8%|▊         | 6066/78504 [3:41:45<30:11:09,  1.50s/it]  8%|▊         | 6067/78504 [3:41:46<28:05:44,  1.40s/it]                                                         {'loss': 0.2908, 'grad_norm': 0.807338535785675, 'learning_rate': 2.3167749331295378e-05, 'epoch': 1.85}
  8%|▊         | 6067/78504 [3:41:46<28:05:44,  1.40s/it]  8%|▊         | 6068/78504 [3:41:47<26:18:40,  1.31s/it]                                                         {'loss': 0.1878, 'grad_norm': 3.3646016120910645, 'learning_rate': 2.3171570500573177e-05, 'epoch': 1.86}
  8%|▊         | 6068/78504 [3:41:47<26:18:40,  1.31s/it]  8%|▊         | 6069/78504 [3:41:48<24:45:15,  1.23s/it]                                                         {'loss': 0.2505, 'grad_norm': 0.8479036092758179, 'learning_rate': 2.3175391669850975e-05, 'epoch': 1.86}
  8%|▊         | 6069/78504 [3:41:48<24:45:15,  1.23s/it]  8%|▊         | 6070/78504 [3:41:49<22:59:04,  1.14s/it]                                                         {'loss': 0.2684, 'grad_norm': 1.3307287693023682, 'learning_rate': 2.3179212839128774e-05, 'epoch': 1.86}
  8%|▊         | 6070/78504 [3:41:49<22:59:04,  1.14s/it]  8%|▊         | 6071/78504 [3:41:50<20:49:46,  1.04s/it]                                                         {'loss': 0.3179, 'grad_norm': 2.7427031993865967, 'learning_rate': 2.3183034008406573e-05, 'epoch': 1.86}
  8%|▊         | 6071/78504 [3:41:50<20:49:46,  1.04s/it]  8%|▊         | 6072/78504 [3:42:00<73:14:43,  3.64s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.6609840989112854, 'learning_rate': 2.318685517768437e-05, 'epoch': 1.86}
  8%|▊         | 6072/78504 [3:42:00<73:14:43,  3.64s/it]  8%|▊         | 6073/78504 [3:42:03<70:56:40,  3.53s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.45634782314300537, 'learning_rate': 2.319067634696217e-05, 'epoch': 1.86}
  8%|▊         | 6073/78504 [3:42:03<70:56:40,  3.53s/it]  8%|▊         | 6074/78504 [3:42:06<67:40:37,  3.36s/it]                                                         {'loss': 0.0698, 'grad_norm': 0.41551628708839417, 'learning_rate': 2.319449751623997e-05, 'epoch': 1.86}
  8%|▊         | 6074/78504 [3:42:06<67:40:37,  3.36s/it]  8%|▊         | 6075/78504 [3:42:08<63:09:07,  3.14s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.26502111554145813, 'learning_rate': 2.3198318685517768e-05, 'epoch': 1.86}
  8%|▊         | 6075/78504 [3:42:08<63:09:07,  3.14s/it]  8%|▊         | 6076/78504 [3:42:11<59:05:46,  2.94s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.3476191461086273, 'learning_rate': 2.3202139854795566e-05, 'epoch': 1.86}
  8%|▊         | 6076/78504 [3:42:11<59:05:46,  2.94s/it]  8%|▊         | 6077/78504 [3:42:13<55:02:20,  2.74s/it]                                                         {'loss': 0.0567, 'grad_norm': 0.35617342591285706, 'learning_rate': 2.3205961024073365e-05, 'epoch': 1.86}
  8%|▊         | 6077/78504 [3:42:13<55:02:20,  2.74s/it]  8%|▊         | 6078/78504 [3:42:16<52:32:31,  2.61s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.38514530658721924, 'learning_rate': 2.3209782193351164e-05, 'epoch': 1.86}
  8%|▊         | 6078/78504 [3:42:16<52:32:31,  2.61s/it]  8%|▊         | 6079/78504 [3:42:18<49:31:59,  2.46s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.5151987075805664, 'learning_rate': 2.3213603362628966e-05, 'epoch': 1.86}
  8%|▊         | 6079/78504 [3:42:18<49:31:59,  2.46s/it]  8%|▊         | 6080/78504 [3:42:20<47:51:16,  2.38s/it]                                                         {'loss': 0.083, 'grad_norm': 0.33939510583877563, 'learning_rate': 2.3217424531906765e-05, 'epoch': 1.86}
  8%|▊         | 6080/78504 [3:42:20<47:51:16,  2.38s/it]  8%|▊         | 6081/78504 [3:42:22<46:34:10,  2.31s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.32553890347480774, 'learning_rate': 2.3221245701184564e-05, 'epoch': 1.86}
  8%|▊         | 6081/78504 [3:42:22<46:34:10,  2.31s/it]  8%|▊         | 6082/78504 [3:42:24<44:48:45,  2.23s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.47049781680107117, 'learning_rate': 2.3225066870462362e-05, 'epoch': 1.86}
  8%|▊         | 6082/78504 [3:42:24<44:48:45,  2.23s/it]  8%|▊         | 6083/78504 [3:42:26<43:21:18,  2.16s/it]                                                         {'loss': 0.1032, 'grad_norm': 0.5272727608680725, 'learning_rate': 2.322888803974016e-05, 'epoch': 1.86}
  8%|▊         | 6083/78504 [3:42:26<43:21:18,  2.16s/it]  8%|▊         | 6084/78504 [3:42:28<41:35:40,  2.07s/it]                                                         {'loss': 0.159, 'grad_norm': 0.45727282762527466, 'learning_rate': 2.323270920901796e-05, 'epoch': 1.86}
  8%|▊         | 6084/78504 [3:42:28<41:35:40,  2.07s/it]  8%|▊         | 6085/78504 [3:42:30<40:09:06,  2.00s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.5480346083641052, 'learning_rate': 2.323653037829576e-05, 'epoch': 1.86}
  8%|▊         | 6085/78504 [3:42:30<40:09:06,  2.00s/it]  8%|▊         | 6086/78504 [3:42:31<38:48:26,  1.93s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.9625860452651978, 'learning_rate': 2.3240351547573557e-05, 'epoch': 1.86}
  8%|▊         | 6086/78504 [3:42:31<38:48:26,  1.93s/it]  8%|▊         | 6087/78504 [3:42:33<37:04:30,  1.84s/it]                                                         {'loss': 0.145, 'grad_norm': 0.5417125821113586, 'learning_rate': 2.3244172716851356e-05, 'epoch': 1.86}
  8%|▊         | 6087/78504 [3:42:33<37:04:30,  1.84s/it]  8%|▊         | 6088/78504 [3:42:35<35:05:27,  1.74s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.5978454351425171, 'learning_rate': 2.3247993886129155e-05, 'epoch': 1.86}
  8%|▊         | 6088/78504 [3:42:35<35:05:27,  1.74s/it]  8%|▊         | 6089/78504 [3:42:36<33:11:42,  1.65s/it]                                                         {'loss': 0.1916, 'grad_norm': 2.2526772022247314, 'learning_rate': 2.3251815055406954e-05, 'epoch': 1.86}
  8%|▊         | 6089/78504 [3:42:36<33:11:42,  1.65s/it]  8%|▊         | 6090/78504 [3:42:37<31:47:44,  1.58s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.6484524607658386, 'learning_rate': 2.3255636224684752e-05, 'epoch': 1.86}
  8%|▊         | 6090/78504 [3:42:37<31:47:44,  1.58s/it]  8%|▊         | 6091/78504 [3:42:39<29:38:24,  1.47s/it]                                                         {'loss': 0.235, 'grad_norm': 0.770784318447113, 'learning_rate': 2.325945739396255e-05, 'epoch': 1.86}
  8%|▊         | 6091/78504 [3:42:39<29:38:24,  1.47s/it]  8%|▊         | 6092/78504 [3:42:40<27:32:26,  1.37s/it]                                                         {'loss': 0.231, 'grad_norm': 0.9086342453956604, 'learning_rate': 2.326327856324035e-05, 'epoch': 1.86}
  8%|▊         | 6092/78504 [3:42:40<27:32:26,  1.37s/it]  8%|▊         | 6093/78504 [3:42:41<25:55:30,  1.29s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.508226990699768, 'learning_rate': 2.326709973251815e-05, 'epoch': 1.86}
  8%|▊         | 6093/78504 [3:42:41<25:55:30,  1.29s/it]  8%|▊         | 6094/78504 [3:42:42<24:07:44,  1.20s/it]                                                         {'loss': 0.2446, 'grad_norm': 1.518229365348816, 'learning_rate': 2.327092090179595e-05, 'epoch': 1.86}
  8%|▊         | 6094/78504 [3:42:42<24:07:44,  1.20s/it]  8%|▊         | 6095/78504 [3:42:43<22:32:22,  1.12s/it]                                                         {'loss': 0.2975, 'grad_norm': 1.253859281539917, 'learning_rate': 2.327474207107375e-05, 'epoch': 1.86}
  8%|▊         | 6095/78504 [3:42:43<22:32:22,  1.12s/it]  8%|▊         | 6096/78504 [3:42:44<20:30:17,  1.02s/it]                                                         {'loss': 0.3051, 'grad_norm': 2.4373972415924072, 'learning_rate': 2.3278563240351548e-05, 'epoch': 1.86}
  8%|▊         | 6096/78504 [3:42:44<20:30:17,  1.02s/it]  8%|▊         | 6097/78504 [3:42:51<59:19:45,  2.95s/it]                                                         {'loss': 0.1652, 'grad_norm': 1.1029483079910278, 'learning_rate': 2.3282384409629347e-05, 'epoch': 1.86}
  8%|▊         | 6097/78504 [3:42:51<59:19:45,  2.95s/it]  8%|▊         | 6098/78504 [3:42:54<61:52:24,  3.08s/it]                                                         {'loss': 0.1189, 'grad_norm': 0.5927751660346985, 'learning_rate': 2.3286205578907146e-05, 'epoch': 1.86}
  8%|▊         | 6098/78504 [3:42:54<61:52:24,  3.08s/it]  8%|▊         | 6099/78504 [3:42:57<61:29:15,  3.06s/it]                                                         {'loss': 0.0811, 'grad_norm': 0.25625884532928467, 'learning_rate': 2.3290026748184944e-05, 'epoch': 1.86}
  8%|▊         | 6099/78504 [3:42:57<61:29:15,  3.06s/it]  8%|▊         | 6100/78504 [3:43:00<58:35:17,  2.91s/it]                                                         {'loss': 0.0791, 'grad_norm': 0.381960928440094, 'learning_rate': 2.3293847917462743e-05, 'epoch': 1.86}
  8%|▊         | 6100/78504 [3:43:00<58:35:17,  2.91s/it]  8%|▊         | 6101/78504 [3:43:03<56:02:21,  2.79s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.9638153314590454, 'learning_rate': 2.3297669086740542e-05, 'epoch': 1.87}
  8%|▊         | 6101/78504 [3:43:03<56:02:21,  2.79s/it]  8%|▊         | 6102/78504 [3:43:05<54:02:44,  2.69s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.37526464462280273, 'learning_rate': 2.330149025601834e-05, 'epoch': 1.87}
  8%|▊         | 6102/78504 [3:43:05<54:02:44,  2.69s/it]  8%|▊         | 6103/78504 [3:43:07<51:47:18,  2.58s/it]                                                         {'loss': 0.094, 'grad_norm': 0.379272997379303, 'learning_rate': 2.330531142529614e-05, 'epoch': 1.87}
  8%|▊         | 6103/78504 [3:43:07<51:47:18,  2.58s/it]  8%|▊         | 6104/78504 [3:43:10<50:11:31,  2.50s/it]                                                         {'loss': 0.1185, 'grad_norm': 0.4647672772407532, 'learning_rate': 2.3309132594573938e-05, 'epoch': 1.87}
  8%|▊         | 6104/78504 [3:43:10<50:11:31,  2.50s/it]  8%|▊         | 6105/78504 [3:43:12<47:29:39,  2.36s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.4536495506763458, 'learning_rate': 2.3312953763851737e-05, 'epoch': 1.87}
  8%|▊         | 6105/78504 [3:43:12<47:29:39,  2.36s/it]  8%|▊         | 6106/78504 [3:43:14<46:07:54,  2.29s/it]                                                         {'loss': 0.088, 'grad_norm': 0.39094820618629456, 'learning_rate': 2.3316774933129536e-05, 'epoch': 1.87}
  8%|▊         | 6106/78504 [3:43:14<46:07:54,  2.29s/it]  8%|▊         | 6107/78504 [3:43:16<44:00:02,  2.19s/it]                                                         {'loss': 0.0863, 'grad_norm': 0.4619564712047577, 'learning_rate': 2.3320596102407338e-05, 'epoch': 1.87}
  8%|▊         | 6107/78504 [3:43:16<44:00:02,  2.19s/it]  8%|▊         | 6108/78504 [3:43:18<42:49:45,  2.13s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.4612670838832855, 'learning_rate': 2.3324417271685136e-05, 'epoch': 1.87}
  8%|▊         | 6108/78504 [3:43:18<42:49:45,  2.13s/it]  8%|▊         | 6109/78504 [3:43:20<40:45:15,  2.03s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.6628933548927307, 'learning_rate': 2.3328238440962935e-05, 'epoch': 1.87}
  8%|▊         | 6109/78504 [3:43:20<40:45:15,  2.03s/it]  8%|▊         | 6110/78504 [3:43:21<39:54:57,  1.98s/it]                                                         {'loss': 0.1169, 'grad_norm': 0.41032546758651733, 'learning_rate': 2.3332059610240737e-05, 'epoch': 1.87}
  8%|▊         | 6110/78504 [3:43:21<39:54:57,  1.98s/it]  8%|▊         | 6111/78504 [3:43:23<38:35:57,  1.92s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.7370903491973877, 'learning_rate': 2.3335880779518536e-05, 'epoch': 1.87}
  8%|▊         | 6111/78504 [3:43:23<38:35:57,  1.92s/it]  8%|▊         | 6112/78504 [3:43:25<36:56:36,  1.84s/it]                                                         {'loss': 0.1432, 'grad_norm': 1.0438936948776245, 'learning_rate': 2.3339701948796335e-05, 'epoch': 1.87}
  8%|▊         | 6112/78504 [3:43:25<36:56:36,  1.84s/it]  8%|▊         | 6113/78504 [3:43:26<34:54:41,  1.74s/it]                                                         {'loss': 0.2095, 'grad_norm': 0.9412246346473694, 'learning_rate': 2.3343523118074134e-05, 'epoch': 1.87}
  8%|▊         | 6113/78504 [3:43:26<34:54:41,  1.74s/it]  8%|▊         | 6114/78504 [3:43:28<33:34:55,  1.67s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.7576168775558472, 'learning_rate': 2.3347344287351932e-05, 'epoch': 1.87}
  8%|▊         | 6114/78504 [3:43:28<33:34:55,  1.67s/it]  8%|▊         | 6115/78504 [3:43:29<32:01:40,  1.59s/it]                                                         {'loss': 0.2253, 'grad_norm': 1.3182241916656494, 'learning_rate': 2.335116545662973e-05, 'epoch': 1.87}
  8%|▊         | 6115/78504 [3:43:29<32:01:40,  1.59s/it]  8%|▊         | 6116/78504 [3:43:30<29:51:14,  1.48s/it]                                                         {'loss': 0.2287, 'grad_norm': 0.7830142974853516, 'learning_rate': 2.335498662590753e-05, 'epoch': 1.87}
  8%|▊         | 6116/78504 [3:43:31<29:51:14,  1.48s/it]  8%|▊         | 6117/78504 [3:43:32<28:14:21,  1.40s/it]                                                         {'loss': 0.215, 'grad_norm': 0.783761203289032, 'learning_rate': 2.335880779518533e-05, 'epoch': 1.87}
  8%|▊         | 6117/78504 [3:43:32<28:14:21,  1.40s/it]  8%|▊         | 6118/78504 [3:43:33<26:20:26,  1.31s/it]                                                         {'loss': 0.2454, 'grad_norm': 1.917513132095337, 'learning_rate': 2.3362628964463127e-05, 'epoch': 1.87}
  8%|▊         | 6118/78504 [3:43:33<26:20:26,  1.31s/it]  8%|▊         | 6119/78504 [3:43:34<24:47:26,  1.23s/it]                                                         {'loss': 0.2317, 'grad_norm': 1.1069287061691284, 'learning_rate': 2.3366450133740926e-05, 'epoch': 1.87}
  8%|▊         | 6119/78504 [3:43:34<24:47:26,  1.23s/it]  8%|▊         | 6120/78504 [3:43:35<23:00:31,  1.14s/it]                                                         {'loss': 0.2438, 'grad_norm': 1.1889102458953857, 'learning_rate': 2.3370271303018725e-05, 'epoch': 1.87}
  8%|▊         | 6120/78504 [3:43:35<23:00:31,  1.14s/it]  8%|▊         | 6121/78504 [3:43:36<20:57:12,  1.04s/it]                                                         {'loss': 0.2763, 'grad_norm': 1.2921924591064453, 'learning_rate': 2.3374092472296524e-05, 'epoch': 1.87}
  8%|▊         | 6121/78504 [3:43:36<20:57:12,  1.04s/it]  8%|▊         | 6122/78504 [3:43:45<73:24:14,  3.65s/it]                                                         {'loss': 0.1839, 'grad_norm': 1.2166037559509277, 'learning_rate': 2.3377913641574322e-05, 'epoch': 1.87}
  8%|▊         | 6122/78504 [3:43:45<73:24:14,  3.65s/it]  8%|▊         | 6123/78504 [3:43:49<71:18:29,  3.55s/it]                                                         {'loss': 0.092, 'grad_norm': 0.3166516125202179, 'learning_rate': 2.338173481085212e-05, 'epoch': 1.87}
  8%|▊         | 6123/78504 [3:43:49<71:18:29,  3.55s/it]  8%|▊         | 6124/78504 [3:43:52<67:54:25,  3.38s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.2885296642780304, 'learning_rate': 2.338555598012992e-05, 'epoch': 1.87}
  8%|▊         | 6124/78504 [3:43:52<67:54:25,  3.38s/it]  8%|▊         | 6125/78504 [3:43:54<63:20:02,  3.15s/it]                                                         {'loss': 0.087, 'grad_norm': 0.27729353308677673, 'learning_rate': 2.338937714940772e-05, 'epoch': 1.87}
  8%|▊         | 6125/78504 [3:43:54<63:20:02,  3.15s/it]  8%|▊         | 6126/78504 [3:43:57<58:33:04,  2.91s/it]                                                         {'loss': 0.0613, 'grad_norm': 0.3377351760864258, 'learning_rate': 2.339319831868552e-05, 'epoch': 1.87}
  8%|▊         | 6126/78504 [3:43:57<58:33:04,  2.91s/it]  8%|▊         | 6127/78504 [3:43:59<54:39:22,  2.72s/it]                                                         {'loss': 0.0694, 'grad_norm': 0.4633639454841614, 'learning_rate': 2.339701948796332e-05, 'epoch': 1.87}
  8%|▊         | 6127/78504 [3:43:59<54:39:22,  2.72s/it]  8%|▊         | 6128/78504 [3:44:01<52:15:51,  2.60s/it]                                                         {'loss': 0.0552, 'grad_norm': 0.5172451734542847, 'learning_rate': 2.3400840657241118e-05, 'epoch': 1.87}
  8%|▊         | 6128/78504 [3:44:01<52:15:51,  2.60s/it]  8%|▊         | 6129/78504 [3:44:03<49:13:18,  2.45s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.3487568199634552, 'learning_rate': 2.3404661826518917e-05, 'epoch': 1.87}
  8%|▊         | 6129/78504 [3:44:03<49:13:18,  2.45s/it]  8%|▊         | 6130/78504 [3:44:05<47:38:45,  2.37s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.43810248374938965, 'learning_rate': 2.3408482995796716e-05, 'epoch': 1.87}
  8%|▊         | 6130/78504 [3:44:05<47:38:45,  2.37s/it]  8%|▊         | 6131/78504 [3:44:08<46:24:15,  2.31s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.34903597831726074, 'learning_rate': 2.3412304165074514e-05, 'epoch': 1.87}
  8%|▊         | 6131/78504 [3:44:08<46:24:15,  2.31s/it]  8%|▊         | 6132/78504 [3:44:09<43:41:33,  2.17s/it]                                                         {'loss': 0.1144, 'grad_norm': 0.43768954277038574, 'learning_rate': 2.3416125334352313e-05, 'epoch': 1.87}
  8%|▊         | 6132/78504 [3:44:10<43:41:33,  2.17s/it]  8%|▊         | 6133/78504 [3:44:11<42:37:10,  2.12s/it]                                                         {'loss': 0.0894, 'grad_norm': 0.5261037945747375, 'learning_rate': 2.3419946503630112e-05, 'epoch': 1.87}
  8%|▊         | 6133/78504 [3:44:11<42:37:10,  2.12s/it]  8%|▊         | 6134/78504 [3:44:13<41:03:52,  2.04s/it]                                                         {'loss': 0.1307, 'grad_norm': 0.40334412455558777, 'learning_rate': 2.342376767290791e-05, 'epoch': 1.88}
  8%|▊         | 6134/78504 [3:44:13<41:03:52,  2.04s/it]  8%|▊         | 6135/78504 [3:44:15<39:52:06,  1.98s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.45711272954940796, 'learning_rate': 2.342758884218571e-05, 'epoch': 1.88}
  8%|▊         | 6135/78504 [3:44:15<39:52:06,  1.98s/it]  8%|▊         | 6136/78504 [3:44:17<38:21:51,  1.91s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.37845832109451294, 'learning_rate': 2.3431410011463508e-05, 'epoch': 1.88}
  8%|▊         | 6136/78504 [3:44:17<38:21:51,  1.91s/it]  8%|▊         | 6137/78504 [3:44:19<36:46:47,  1.83s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.7684354186058044, 'learning_rate': 2.3435231180741307e-05, 'epoch': 1.88}
  8%|▊         | 6137/78504 [3:44:19<36:46:47,  1.83s/it]  8%|▊         | 6138/78504 [3:44:20<35:03:23,  1.74s/it]                                                         {'loss': 0.2181, 'grad_norm': 0.7282891869544983, 'learning_rate': 2.3439052350019106e-05, 'epoch': 1.88}
  8%|▊         | 6138/78504 [3:44:20<35:03:23,  1.74s/it]  8%|▊         | 6139/78504 [3:44:22<33:09:43,  1.65s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.5908802151679993, 'learning_rate': 2.3442873519296904e-05, 'epoch': 1.88}
  8%|▊         | 6139/78504 [3:44:22<33:09:43,  1.65s/it]  8%|▊         | 6140/78504 [3:44:23<31:43:08,  1.58s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.5911440849304199, 'learning_rate': 2.3446694688574703e-05, 'epoch': 1.88}
  8%|▊         | 6140/78504 [3:44:23<31:43:08,  1.58s/it]  8%|▊         | 6141/78504 [3:44:24<29:31:47,  1.47s/it]                                                         {'loss': 0.2511, 'grad_norm': 0.9210339188575745, 'learning_rate': 2.3450515857852505e-05, 'epoch': 1.88}
  8%|▊         | 6141/78504 [3:44:24<29:31:47,  1.47s/it]  8%|▊         | 6142/78504 [3:44:25<27:38:15,  1.37s/it]                                                         {'loss': 0.2502, 'grad_norm': 0.9261724948883057, 'learning_rate': 2.3454337027130304e-05, 'epoch': 1.88}
  8%|▊         | 6142/78504 [3:44:25<27:38:15,  1.37s/it]  8%|▊         | 6143/78504 [3:44:26<25:58:34,  1.29s/it]                                                         {'loss': 0.3018, 'grad_norm': 0.9901486039161682, 'learning_rate': 2.3458158196408103e-05, 'epoch': 1.88}
  8%|▊         | 6143/78504 [3:44:26<25:58:34,  1.29s/it]  8%|▊         | 6144/78504 [3:44:27<24:11:41,  1.20s/it]                                                         {'loss': 0.3194, 'grad_norm': 1.091254711151123, 'learning_rate': 2.34619793656859e-05, 'epoch': 1.88}
  8%|▊         | 6144/78504 [3:44:27<24:11:41,  1.20s/it]  8%|▊         | 6145/78504 [3:44:28<22:32:19,  1.12s/it]                                                         {'loss': 0.2874, 'grad_norm': 1.0374457836151123, 'learning_rate': 2.34658005349637e-05, 'epoch': 1.88}
  8%|▊         | 6145/78504 [3:44:28<22:32:19,  1.12s/it]  8%|▊         | 6146/78504 [3:44:29<20:29:42,  1.02s/it]                                                         {'loss': 0.2943, 'grad_norm': 1.9189966917037964, 'learning_rate': 2.34696217042415e-05, 'epoch': 1.88}
  8%|▊         | 6146/78504 [3:44:29<20:29:42,  1.02s/it]  8%|▊         | 6147/78504 [3:44:39<72:17:35,  3.60s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.33431798219680786, 'learning_rate': 2.3473442873519298e-05, 'epoch': 1.88}
  8%|▊         | 6147/78504 [3:44:39<72:17:35,  3.60s/it]  8%|▊         | 6148/78504 [3:44:42<69:23:38,  3.45s/it]                                                         {'loss': 0.0879, 'grad_norm': 0.2523156404495239, 'learning_rate': 2.3477264042797096e-05, 'epoch': 1.88}
  8%|▊         | 6148/78504 [3:44:42<69:23:38,  3.45s/it]  8%|▊         | 6149/78504 [3:44:45<66:49:14,  3.32s/it]                                                         {'loss': 0.0855, 'grad_norm': 0.4419257342815399, 'learning_rate': 2.3481085212074895e-05, 'epoch': 1.88}
  8%|▊         | 6149/78504 [3:44:45<66:49:14,  3.32s/it]  8%|▊         | 6150/78504 [3:44:47<62:32:16,  3.11s/it]                                                         {'loss': 0.0988, 'grad_norm': 2.228261709213257, 'learning_rate': 2.3484906381352694e-05, 'epoch': 1.88}
  8%|▊         | 6150/78504 [3:44:48<62:32:16,  3.11s/it]  8%|▊         | 6151/78504 [3:44:50<58:41:52,  2.92s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3143896758556366, 'learning_rate': 2.3488727550630493e-05, 'epoch': 1.88}
  8%|▊         | 6151/78504 [3:44:50<58:41:52,  2.92s/it]  8%|▊         | 6152/78504 [3:44:52<54:44:57,  2.72s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.2719569206237793, 'learning_rate': 2.349254871990829e-05, 'epoch': 1.88}
  8%|▊         | 6152/78504 [3:44:52<54:44:57,  2.72s/it]  8%|▊         | 6153/78504 [3:44:55<52:20:30,  2.60s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.39686620235443115, 'learning_rate': 2.349636988918609e-05, 'epoch': 1.88}
  8%|▊         | 6153/78504 [3:44:55<52:20:30,  2.60s/it]  8%|▊         | 6154/78504 [3:44:57<49:15:33,  2.45s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.5021384358406067, 'learning_rate': 2.350019105846389e-05, 'epoch': 1.88}
  8%|▊         | 6154/78504 [3:44:57<49:15:33,  2.45s/it]  8%|▊         | 6155/78504 [3:44:59<47:38:45,  2.37s/it]                                                         {'loss': 0.1012, 'grad_norm': 0.36900368332862854, 'learning_rate': 2.3504012227741688e-05, 'epoch': 1.88}
  8%|▊         | 6155/78504 [3:44:59<47:38:45,  2.37s/it]  8%|▊         | 6156/78504 [3:45:01<46:17:14,  2.30s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.4269985258579254, 'learning_rate': 2.350783339701949e-05, 'epoch': 1.88}
  8%|▊         | 6156/78504 [3:45:01<46:17:14,  2.30s/it]  8%|▊         | 6157/78504 [3:45:03<44:37:16,  2.22s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.3077365458011627, 'learning_rate': 2.351165456629729e-05, 'epoch': 1.88}
  8%|▊         | 6157/78504 [3:45:03<44:37:16,  2.22s/it]  8%|▊         | 6158/78504 [3:45:05<42:06:08,  2.10s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.36300331354141235, 'learning_rate': 2.3515475735575087e-05, 'epoch': 1.88}
  8%|▊         | 6158/78504 [3:45:05<42:06:08,  2.10s/it]  8%|▊         | 6159/78504 [3:45:07<40:43:37,  2.03s/it]                                                         {'loss': 0.1116, 'grad_norm': 0.44892674684524536, 'learning_rate': 2.3519296904852886e-05, 'epoch': 1.88}
  8%|▊         | 6159/78504 [3:45:07<40:43:37,  2.03s/it]  8%|▊         | 6160/78504 [3:45:09<39:34:49,  1.97s/it]                                                         {'loss': 0.1652, 'grad_norm': 0.5969120264053345, 'learning_rate': 2.3523118074130685e-05, 'epoch': 1.88}
  8%|▊         | 6160/78504 [3:45:09<39:34:49,  1.97s/it]  8%|▊         | 6161/78504 [3:45:10<38:09:00,  1.90s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.4726010859012604, 'learning_rate': 2.3526939243408483e-05, 'epoch': 1.88}
  8%|▊         | 6161/78504 [3:45:10<38:09:00,  1.90s/it]  8%|▊         | 6162/78504 [3:45:12<36:39:46,  1.82s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.47112664580345154, 'learning_rate': 2.3530760412686282e-05, 'epoch': 1.88}
  8%|▊         | 6162/78504 [3:45:12<36:39:46,  1.82s/it]  8%|▊         | 6163/78504 [3:45:13<34:48:32,  1.73s/it]                                                         {'loss': 0.2177, 'grad_norm': 0.7262343168258667, 'learning_rate': 2.353458158196408e-05, 'epoch': 1.88}
  8%|▊         | 6163/78504 [3:45:13<34:48:32,  1.73s/it]  8%|▊         | 6164/78504 [3:45:15<33:12:39,  1.65s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.9395480155944824, 'learning_rate': 2.353840275124188e-05, 'epoch': 1.88}
  8%|▊         | 6164/78504 [3:45:15<33:12:39,  1.65s/it]  8%|▊         | 6165/78504 [3:45:16<31:47:15,  1.58s/it]                                                         {'loss': 0.2113, 'grad_norm': 1.0403962135314941, 'learning_rate': 2.354222392051968e-05, 'epoch': 1.88}
  8%|▊         | 6165/78504 [3:45:16<31:47:15,  1.58s/it]  8%|▊         | 6166/78504 [3:45:18<30:02:25,  1.50s/it]                                                         {'loss': 0.2346, 'grad_norm': 0.7155374884605408, 'learning_rate': 2.3546045089797477e-05, 'epoch': 1.89}
  8%|▊         | 6166/78504 [3:45:18<30:02:25,  1.50s/it]  8%|▊         | 6167/78504 [3:45:19<27:54:37,  1.39s/it]                                                         {'loss': 0.2144, 'grad_norm': 0.7361756563186646, 'learning_rate': 2.3549866259075276e-05, 'epoch': 1.89}
  8%|▊         | 6167/78504 [3:45:19<27:54:37,  1.39s/it]  8%|▊         | 6168/78504 [3:45:20<26:07:45,  1.30s/it]                                                         {'loss': 0.2183, 'grad_norm': 1.117415428161621, 'learning_rate': 2.3553687428353075e-05, 'epoch': 1.89}
  8%|▊         | 6168/78504 [3:45:20<26:07:45,  1.30s/it]  8%|▊         | 6169/78504 [3:45:21<24:20:46,  1.21s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.2156795263290405, 'learning_rate': 2.3557508597630873e-05, 'epoch': 1.89}
  8%|▊         | 6169/78504 [3:45:21<24:20:46,  1.21s/it]  8%|▊         | 6170/78504 [3:45:22<22:40:07,  1.13s/it]                                                         {'loss': 0.2496, 'grad_norm': 1.8567301034927368, 'learning_rate': 2.3561329766908672e-05, 'epoch': 1.89}
  8%|▊         | 6170/78504 [3:45:22<22:40:07,  1.13s/it]  8%|▊         | 6171/78504 [3:45:23<20:36:03,  1.03s/it]                                                         {'loss': 0.3091, 'grad_norm': 2.3072304725646973, 'learning_rate': 2.356515093618647e-05, 'epoch': 1.89}
  8%|▊         | 6171/78504 [3:45:23<20:36:03,  1.03s/it]  8%|▊         | 6172/78504 [3:45:32<71:51:14,  3.58s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.4018270969390869, 'learning_rate': 2.3568972105464273e-05, 'epoch': 1.89}
  8%|▊         | 6172/78504 [3:45:32<71:51:14,  3.58s/it]  8%|▊         | 6173/78504 [3:45:35<68:52:18,  3.43s/it]                                                         {'loss': 0.098, 'grad_norm': 0.2849985659122467, 'learning_rate': 2.3572793274742072e-05, 'epoch': 1.89}
  8%|▊         | 6173/78504 [3:45:35<68:52:18,  3.43s/it]  8%|▊         | 6174/78504 [3:45:38<63:41:11,  3.17s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.5963870286941528, 'learning_rate': 2.357661444401987e-05, 'epoch': 1.89}
  8%|▊         | 6174/78504 [3:45:38<63:41:11,  3.17s/it]  8%|▊         | 6175/78504 [3:45:40<60:22:28,  3.00s/it]                                                         {'loss': 0.092, 'grad_norm': 0.6906450390815735, 'learning_rate': 2.358043561329767e-05, 'epoch': 1.89}
  8%|▊         | 6175/78504 [3:45:40<60:22:28,  3.00s/it]  8%|▊         | 6176/78504 [3:45:43<57:07:43,  2.84s/it]                                                         {'loss': 0.062, 'grad_norm': 0.4033399820327759, 'learning_rate': 2.3584256782575468e-05, 'epoch': 1.89}
  8%|▊         | 6176/78504 [3:45:43<57:07:43,  2.84s/it]  8%|▊         | 6177/78504 [3:45:45<53:43:21,  2.67s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.4160445034503937, 'learning_rate': 2.3588077951853267e-05, 'epoch': 1.89}
  8%|▊         | 6177/78504 [3:45:45<53:43:21,  2.67s/it]  8%|▊         | 6178/78504 [3:45:47<51:32:56,  2.57s/it]                                                         {'loss': 0.054, 'grad_norm': 0.9556686878204346, 'learning_rate': 2.3591899121131066e-05, 'epoch': 1.89}
  8%|▊         | 6178/78504 [3:45:47<51:32:56,  2.57s/it]  8%|▊         | 6179/78504 [3:45:50<48:51:07,  2.43s/it]                                                         {'loss': 0.091, 'grad_norm': 0.7496342658996582, 'learning_rate': 2.3595720290408864e-05, 'epoch': 1.89}
  8%|▊         | 6179/78504 [3:45:50<48:51:07,  2.43s/it]  8%|▊         | 6180/78504 [3:45:52<47:22:09,  2.36s/it]                                                         {'loss': 0.0722, 'grad_norm': 0.34428226947784424, 'learning_rate': 2.3599541459686663e-05, 'epoch': 1.89}
  8%|▊         | 6180/78504 [3:45:52<47:22:09,  2.36s/it]  8%|▊         | 6181/78504 [3:45:54<46:05:06,  2.29s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.28131604194641113, 'learning_rate': 2.3603362628964462e-05, 'epoch': 1.89}
  8%|▊         | 6181/78504 [3:45:54<46:05:06,  2.29s/it]  8%|▊         | 6182/78504 [3:45:56<44:32:05,  2.22s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.4007118344306946, 'learning_rate': 2.360718379824226e-05, 'epoch': 1.89}
  8%|▊         | 6182/78504 [3:45:56<44:32:05,  2.22s/it]  8%|▊         | 6183/78504 [3:45:58<43:03:33,  2.14s/it]                                                         {'loss': 0.114, 'grad_norm': 0.5233922004699707, 'learning_rate': 2.361100496752006e-05, 'epoch': 1.89}
  8%|▊         | 6183/78504 [3:45:58<43:03:33,  2.14s/it]  8%|▊         | 6184/78504 [3:46:00<41:23:34,  2.06s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.4069688022136688, 'learning_rate': 2.361482613679786e-05, 'epoch': 1.89}
  8%|▊         | 6184/78504 [3:46:00<41:23:34,  2.06s/it]  8%|▊         | 6185/78504 [3:46:02<40:04:10,  1.99s/it]                                                         {'loss': 0.1501, 'grad_norm': 0.5490656495094299, 'learning_rate': 2.361864730607566e-05, 'epoch': 1.89}
  8%|▊         | 6185/78504 [3:46:02<40:04:10,  1.99s/it]  8%|▊         | 6186/78504 [3:46:03<38:25:53,  1.91s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.9077187776565552, 'learning_rate': 2.362246847535346e-05, 'epoch': 1.89}
  8%|▊         | 6186/78504 [3:46:03<38:25:53,  1.91s/it]  8%|▊         | 6187/78504 [3:46:05<36:53:27,  1.84s/it]                                                         {'loss': 0.1523, 'grad_norm': 0.5418707728385925, 'learning_rate': 2.3626289644631258e-05, 'epoch': 1.89}
  8%|▊         | 6187/78504 [3:46:05<36:53:27,  1.84s/it]  8%|▊         | 6188/78504 [3:46:07<35:08:12,  1.75s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.731663167476654, 'learning_rate': 2.363011081390906e-05, 'epoch': 1.89}
  8%|▊         | 6188/78504 [3:46:07<35:08:12,  1.75s/it]  8%|▊         | 6189/78504 [3:46:08<33:26:46,  1.67s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.7320930361747742, 'learning_rate': 2.363393198318686e-05, 'epoch': 1.89}
  8%|▊         | 6189/78504 [3:46:08<33:26:46,  1.67s/it]  8%|▊         | 6190/78504 [3:46:09<31:49:29,  1.58s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.5933003425598145, 'learning_rate': 2.3637753152464657e-05, 'epoch': 1.89}
  8%|▊         | 6190/78504 [3:46:09<31:49:29,  1.58s/it]  8%|▊         | 6191/78504 [3:46:11<30:02:32,  1.50s/it]                                                         {'loss': 0.1923, 'grad_norm': 0.7650347948074341, 'learning_rate': 2.3641574321742456e-05, 'epoch': 1.89}
  8%|▊         | 6191/78504 [3:46:11<30:02:32,  1.50s/it]  8%|▊         | 6192/78504 [3:46:12<28:03:58,  1.40s/it]                                                         {'loss': 0.2141, 'grad_norm': 1.1398084163665771, 'learning_rate': 2.3645395491020255e-05, 'epoch': 1.89}
  8%|▊         | 6192/78504 [3:46:12<28:03:58,  1.40s/it]  8%|▊         | 6193/78504 [3:46:13<26:12:21,  1.30s/it]                                                         {'loss': 0.2085, 'grad_norm': 1.6113300323486328, 'learning_rate': 2.3649216660298053e-05, 'epoch': 1.89}
  8%|▊         | 6193/78504 [3:46:13<26:12:21,  1.30s/it]  8%|▊         | 6194/78504 [3:46:14<24:38:49,  1.23s/it]                                                         {'loss': 0.2288, 'grad_norm': 1.4514436721801758, 'learning_rate': 2.3653037829575852e-05, 'epoch': 1.89}
  8%|▊         | 6194/78504 [3:46:14<24:38:49,  1.23s/it]  8%|▊         | 6195/78504 [3:46:15<22:51:47,  1.14s/it]                                                         {'loss': 0.2611, 'grad_norm': 1.7324949502944946, 'learning_rate': 2.365685899885365e-05, 'epoch': 1.89}
  8%|▊         | 6195/78504 [3:46:15<22:51:47,  1.14s/it]  8%|▊         | 6196/78504 [3:46:16<20:45:34,  1.03s/it]                                                         {'loss': 0.3028, 'grad_norm': 2.5099546909332275, 'learning_rate': 2.366068016813145e-05, 'epoch': 1.89}
  8%|▊         | 6196/78504 [3:46:16<20:45:34,  1.03s/it]  8%|▊         | 6197/78504 [3:46:26<76:00:48,  3.78s/it]                                                         {'loss': 0.2024, 'grad_norm': 0.8243921399116516, 'learning_rate': 2.366450133740925e-05, 'epoch': 1.89}
  8%|▊         | 6197/78504 [3:46:26<76:00:48,  3.78s/it]  8%|▊         | 6198/78504 [3:46:29<73:31:34,  3.66s/it]                                                         {'loss': 0.085, 'grad_norm': 0.36367306113243103, 'learning_rate': 2.3668322506687047e-05, 'epoch': 1.89}
  8%|▊         | 6198/78504 [3:46:29<73:31:34,  3.66s/it]  8%|▊         | 6199/78504 [3:46:32<69:39:57,  3.47s/it]                                                         {'loss': 0.089, 'grad_norm': 0.36767446994781494, 'learning_rate': 2.3672143675964846e-05, 'epoch': 1.9}
  8%|▊         | 6199/78504 [3:46:32<69:39:57,  3.47s/it]  8%|▊         | 6200/78504 [3:46:35<64:18:04,  3.20s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.28965142369270325, 'learning_rate': 2.3675964845242645e-05, 'epoch': 1.9}
  8%|▊         | 6200/78504 [3:46:35<64:18:04,  3.20s/it]  8%|▊         | 6201/78504 [3:46:37<59:54:50,  2.98s/it]                                                         {'loss': 0.0567, 'grad_norm': 0.2355983555316925, 'learning_rate': 2.3679786014520443e-05, 'epoch': 1.9}
  8%|▊         | 6201/78504 [3:46:37<59:54:50,  2.98s/it]  8%|▊         | 6202/78504 [3:46:40<55:38:08,  2.77s/it]                                                         {'loss': 0.0822, 'grad_norm': 0.3679572641849518, 'learning_rate': 2.3683607183798242e-05, 'epoch': 1.9}
  8%|▊         | 6202/78504 [3:46:40<55:38:08,  2.77s/it]  8%|▊         | 6203/78504 [3:46:42<52:54:03,  2.63s/it]                                                         {'loss': 0.0554, 'grad_norm': 0.3021470904350281, 'learning_rate': 2.3687428353076044e-05, 'epoch': 1.9}
  8%|▊         | 6203/78504 [3:46:42<52:54:03,  2.63s/it]  8%|▊         | 6204/78504 [3:46:44<49:41:06,  2.47s/it]                                                         {'loss': 0.095, 'grad_norm': 0.5227674841880798, 'learning_rate': 2.3691249522353843e-05, 'epoch': 1.9}
  8%|▊         | 6204/78504 [3:46:44<49:41:06,  2.47s/it]  8%|▊         | 6205/78504 [3:46:46<47:58:29,  2.39s/it]                                                         {'loss': 0.0946, 'grad_norm': 0.3849219083786011, 'learning_rate': 2.3695070691631642e-05, 'epoch': 1.9}
  8%|▊         | 6205/78504 [3:46:46<47:58:29,  2.39s/it]  8%|▊         | 6206/78504 [3:46:48<46:28:35,  2.31s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.6217184066772461, 'learning_rate': 2.369889186090944e-05, 'epoch': 1.9}
  8%|▊         | 6206/78504 [3:46:48<46:28:35,  2.31s/it]  8%|▊         | 6207/78504 [3:46:50<44:46:15,  2.23s/it]                                                         {'loss': 0.1074, 'grad_norm': 0.3693218231201172, 'learning_rate': 2.370271303018724e-05, 'epoch': 1.9}
  8%|▊         | 6207/78504 [3:46:50<44:46:15,  2.23s/it]  8%|▊         | 6208/78504 [3:46:52<43:16:24,  2.15s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.4755726158618927, 'learning_rate': 2.3706534199465038e-05, 'epoch': 1.9}
  8%|▊         | 6208/78504 [3:46:52<43:16:24,  2.15s/it]  8%|▊         | 6209/78504 [3:46:54<41:33:49,  2.07s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.42122459411621094, 'learning_rate': 2.3710355368742837e-05, 'epoch': 1.9}
  8%|▊         | 6209/78504 [3:46:54<41:33:49,  2.07s/it]  8%|▊         | 6210/78504 [3:46:56<40:16:06,  2.01s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.5083503127098083, 'learning_rate': 2.3714176538020636e-05, 'epoch': 1.9}
  8%|▊         | 6210/78504 [3:46:56<40:16:06,  2.01s/it]  8%|▊         | 6211/78504 [3:46:58<38:34:47,  1.92s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.4529668390750885, 'learning_rate': 2.3717997707298434e-05, 'epoch': 1.9}
  8%|▊         | 6211/78504 [3:46:58<38:34:47,  1.92s/it]  8%|▊         | 6212/78504 [3:46:59<36:54:55,  1.84s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.5395588278770447, 'learning_rate': 2.3721818876576233e-05, 'epoch': 1.9}
  8%|▊         | 6212/78504 [3:46:59<36:54:55,  1.84s/it]  8%|▊         | 6213/78504 [3:47:01<35:10:11,  1.75s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.6238298416137695, 'learning_rate': 2.3725640045854032e-05, 'epoch': 1.9}
  8%|▊         | 6213/78504 [3:47:01<35:10:11,  1.75s/it]  8%|▊         | 6214/78504 [3:47:02<33:27:25,  1.67s/it]                                                         {'loss': 0.2193, 'grad_norm': 1.176436185836792, 'learning_rate': 2.372946121513183e-05, 'epoch': 1.9}
  8%|▊         | 6214/78504 [3:47:02<33:27:25,  1.67s/it]  8%|▊         | 6215/78504 [3:47:04<31:59:18,  1.59s/it]                                                         {'loss': 0.196, 'grad_norm': 0.8439923524856567, 'learning_rate': 2.373328238440963e-05, 'epoch': 1.9}
  8%|▊         | 6215/78504 [3:47:04<31:59:18,  1.59s/it]  8%|▊         | 6216/78504 [3:47:05<30:08:25,  1.50s/it]                                                         {'loss': 0.2364, 'grad_norm': 0.6802811026573181, 'learning_rate': 2.3737103553687428e-05, 'epoch': 1.9}
  8%|▊         | 6216/78504 [3:47:05<30:08:25,  1.50s/it]  8%|▊         | 6217/78504 [3:47:06<28:01:14,  1.40s/it]                                                         {'loss': 0.2007, 'grad_norm': 0.8301566243171692, 'learning_rate': 2.3740924722965227e-05, 'epoch': 1.9}
  8%|▊         | 6217/78504 [3:47:06<28:01:14,  1.40s/it]  8%|▊         | 6218/78504 [3:47:07<26:14:55,  1.31s/it]                                                         {'loss': 0.2242, 'grad_norm': 1.2253658771514893, 'learning_rate': 2.3744745892243025e-05, 'epoch': 1.9}
  8%|▊         | 6218/78504 [3:47:07<26:14:55,  1.31s/it]  8%|▊         | 6219/78504 [3:47:08<24:20:18,  1.21s/it]                                                         {'loss': 0.2326, 'grad_norm': 1.3864530324935913, 'learning_rate': 2.3748567061520828e-05, 'epoch': 1.9}
  8%|▊         | 6219/78504 [3:47:08<24:20:18,  1.21s/it]  8%|▊         | 6220/78504 [3:47:09<22:41:19,  1.13s/it]                                                         {'loss': 0.2964, 'grad_norm': 1.9632599353790283, 'learning_rate': 2.3752388230798626e-05, 'epoch': 1.9}
  8%|▊         | 6220/78504 [3:47:09<22:41:19,  1.13s/it]  8%|▊         | 6221/78504 [3:47:10<20:32:45,  1.02s/it]                                                         {'loss': 0.3207, 'grad_norm': 1.4190123081207275, 'learning_rate': 2.3756209400076425e-05, 'epoch': 1.9}
  8%|▊         | 6221/78504 [3:47:10<20:32:45,  1.02s/it]  8%|▊         | 6222/78504 [3:47:18<59:45:36,  2.98s/it]                                                         {'loss': 0.1467, 'grad_norm': 0.37556785345077515, 'learning_rate': 2.3760030569354224e-05, 'epoch': 1.9}
  8%|▊         | 6222/78504 [3:47:18<59:45:36,  2.98s/it]  8%|▊         | 6223/78504 [3:47:21<60:43:15,  3.02s/it]                                                         {'loss': 0.114, 'grad_norm': 0.43115219473838806, 'learning_rate': 2.3763851738632023e-05, 'epoch': 1.9}
  8%|▊         | 6223/78504 [3:47:21<60:43:15,  3.02s/it]  8%|▊         | 6224/78504 [3:47:24<60:30:39,  3.01s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.5242397785186768, 'learning_rate': 2.376767290790982e-05, 'epoch': 1.9}
  8%|▊         | 6224/78504 [3:47:24<60:30:39,  3.01s/it]  8%|▊         | 6225/78504 [3:47:26<58:06:20,  2.89s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3463306725025177, 'learning_rate': 2.377149407718762e-05, 'epoch': 1.9}
  8%|▊         | 6225/78504 [3:47:26<58:06:20,  2.89s/it]  8%|▊         | 6226/78504 [3:47:29<55:24:45,  2.76s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.3236393332481384, 'learning_rate': 2.377531524646542e-05, 'epoch': 1.9}
  8%|▊         | 6226/78504 [3:47:29<55:24:45,  2.76s/it]  8%|▊         | 6227/78504 [3:47:31<53:01:00,  2.64s/it]                                                         {'loss': 0.078, 'grad_norm': 0.3594732880592346, 'learning_rate': 2.3779136415743218e-05, 'epoch': 1.9}
  8%|▊         | 6227/78504 [3:47:31<53:01:00,  2.64s/it]  8%|▊         | 6228/78504 [3:47:34<51:10:37,  2.55s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.31130871176719666, 'learning_rate': 2.3782957585021016e-05, 'epoch': 1.9}
  8%|▊         | 6228/78504 [3:47:34<51:10:37,  2.55s/it]  8%|▊         | 6229/78504 [3:47:36<48:24:53,  2.41s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.3426867425441742, 'learning_rate': 2.3786778754298815e-05, 'epoch': 1.9}
  8%|▊         | 6229/78504 [3:47:36<48:24:53,  2.41s/it]  8%|▊         | 6230/78504 [3:47:38<47:02:16,  2.34s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.38581734895706177, 'learning_rate': 2.3790599923576614e-05, 'epoch': 1.9}
  8%|▊         | 6230/78504 [3:47:38<47:02:16,  2.34s/it]  8%|▊         | 6231/78504 [3:47:40<45:51:28,  2.28s/it]                                                         {'loss': 0.061, 'grad_norm': 0.29743531346321106, 'learning_rate': 2.3794421092854413e-05, 'epoch': 1.9}
  8%|▊         | 6231/78504 [3:47:40<45:51:28,  2.28s/it]  8%|▊         | 6232/78504 [3:47:42<44:18:52,  2.21s/it]                                                         {'loss': 0.1089, 'grad_norm': 0.4988816976547241, 'learning_rate': 2.379824226213221e-05, 'epoch': 1.91}
  8%|▊         | 6232/78504 [3:47:42<44:18:52,  2.21s/it]  8%|▊         | 6233/78504 [3:47:44<41:51:48,  2.09s/it]                                                         {'loss': 0.1096, 'grad_norm': 0.6603725552558899, 'learning_rate': 2.380206343141001e-05, 'epoch': 1.91}
  8%|▊         | 6233/78504 [3:47:44<41:51:48,  2.09s/it]  8%|▊         | 6234/78504 [3:47:46<40:33:20,  2.02s/it]                                                         {'loss': 0.1159, 'grad_norm': 0.36461493372917175, 'learning_rate': 2.3805884600687812e-05, 'epoch': 1.91}
  8%|▊         | 6234/78504 [3:47:46<40:33:20,  2.02s/it]  8%|▊         | 6235/78504 [3:47:47<38:32:46,  1.92s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.45275822281837463, 'learning_rate': 2.380970576996561e-05, 'epoch': 1.91}
  8%|▊         | 6235/78504 [3:47:47<38:32:46,  1.92s/it]  8%|▊         | 6236/78504 [3:47:49<37:38:58,  1.88s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.7151157855987549, 'learning_rate': 2.381352693924341e-05, 'epoch': 1.91}
  8%|▊         | 6236/78504 [3:47:49<37:38:58,  1.88s/it]  8%|▊         | 6237/78504 [3:47:51<35:46:32,  1.78s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.5507813096046448, 'learning_rate': 2.381734810852121e-05, 'epoch': 1.91}
  8%|▊         | 6237/78504 [3:47:51<35:46:32,  1.78s/it]  8%|▊         | 6238/78504 [3:47:52<34:09:43,  1.70s/it]                                                         {'loss': 0.1709, 'grad_norm': 1.3933318853378296, 'learning_rate': 2.3821169277799007e-05, 'epoch': 1.91}
  8%|▊         | 6238/78504 [3:47:52<34:09:43,  1.70s/it]  8%|▊         | 6239/78504 [3:47:54<32:24:00,  1.61s/it]                                                         {'loss': 0.1939, 'grad_norm': 2.6596157550811768, 'learning_rate': 2.3824990447076806e-05, 'epoch': 1.91}
  8%|▊         | 6239/78504 [3:47:54<32:24:00,  1.61s/it]  8%|▊         | 6240/78504 [3:47:55<31:11:45,  1.55s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.035461664199829, 'learning_rate': 2.3828811616354605e-05, 'epoch': 1.91}
  8%|▊         | 6240/78504 [3:47:55<31:11:45,  1.55s/it]  8%|▊         | 6241/78504 [3:47:56<29:12:28,  1.46s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.7187370657920837, 'learning_rate': 2.3832632785632403e-05, 'epoch': 1.91}
  8%|▊         | 6241/78504 [3:47:56<29:12:28,  1.46s/it]  8%|▊         | 6242/78504 [3:47:57<27:14:54,  1.36s/it]                                                         {'loss': 0.2138, 'grad_norm': 1.2733266353607178, 'learning_rate': 2.3836453954910202e-05, 'epoch': 1.91}
  8%|▊         | 6242/78504 [3:47:57<27:14:54,  1.36s/it]  8%|▊         | 6243/78504 [3:47:58<25:39:21,  1.28s/it]                                                         {'loss': 0.2296, 'grad_norm': 1.6778502464294434, 'learning_rate': 2.3840275124188e-05, 'epoch': 1.91}
  8%|▊         | 6243/78504 [3:47:58<25:39:21,  1.28s/it]  8%|▊         | 6244/78504 [3:47:59<23:54:18,  1.19s/it]                                                         {'loss': 0.2145, 'grad_norm': 1.3895150423049927, 'learning_rate': 2.38440962934658e-05, 'epoch': 1.91}
  8%|▊         | 6244/78504 [3:47:59<23:54:18,  1.19s/it]  8%|▊         | 6245/78504 [3:48:00<22:22:29,  1.11s/it]                                                         {'loss': 0.2413, 'grad_norm': 1.4676145315170288, 'learning_rate': 2.38479174627436e-05, 'epoch': 1.91}
  8%|▊         | 6245/78504 [3:48:00<22:22:29,  1.11s/it]  8%|▊         | 6246/78504 [3:48:01<20:25:33,  1.02s/it]                                                         {'loss': 0.283, 'grad_norm': 1.84783136844635, 'learning_rate': 2.3851738632021397e-05, 'epoch': 1.91}
  8%|▊         | 6246/78504 [3:48:01<20:25:33,  1.02s/it]  8%|▊         | 6247/78504 [3:48:11<70:56:50,  3.53s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.4192536175251007, 'learning_rate': 2.3855559801299196e-05, 'epoch': 1.91}
  8%|▊         | 6247/78504 [3:48:11<70:56:50,  3.53s/it]  8%|▊         | 6248/78504 [3:48:14<68:15:36,  3.40s/it]                                                         {'loss': 0.1105, 'grad_norm': 0.5583586096763611, 'learning_rate': 2.3859380970576995e-05, 'epoch': 1.91}
  8%|▊         | 6248/78504 [3:48:14<68:15:36,  3.40s/it]  8%|▊         | 6249/78504 [3:48:16<63:13:46,  3.15s/it]                                                         {'loss': 0.079, 'grad_norm': 0.38499709963798523, 'learning_rate': 2.3863202139854793e-05, 'epoch': 1.91}
  8%|▊         | 6249/78504 [3:48:16<63:13:46,  3.15s/it]  8%|▊         | 6250/78504 [3:48:19<60:02:26,  2.99s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.43461182713508606, 'learning_rate': 2.3867023309132595e-05, 'epoch': 1.91}
  8%|▊         | 6250/78504 [3:48:19<60:02:26,  2.99s/it]  8%|▊         | 6251/78504 [3:48:21<56:54:23,  2.84s/it]                                                         {'loss': 0.078, 'grad_norm': 0.26779717206954956, 'learning_rate': 2.3870844478410394e-05, 'epoch': 1.91}
  8%|▊         | 6251/78504 [3:48:21<56:54:23,  2.84s/it]  8%|▊         | 6252/78504 [3:48:24<53:31:52,  2.67s/it]                                                         {'loss': 0.056, 'grad_norm': 0.4752318561077118, 'learning_rate': 2.3874665647688193e-05, 'epoch': 1.91}
  8%|▊         | 6252/78504 [3:48:24<53:31:52,  2.67s/it]  8%|▊         | 6253/78504 [3:48:26<51:26:57,  2.56s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.3842249810695648, 'learning_rate': 2.3878486816965992e-05, 'epoch': 1.91}
  8%|▊         | 6253/78504 [3:48:26<51:26:57,  2.56s/it]  8%|▊         | 6254/78504 [3:48:28<48:44:29,  2.43s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.34528616070747375, 'learning_rate': 2.388230798624379e-05, 'epoch': 1.91}
  8%|▊         | 6254/78504 [3:48:28<48:44:29,  2.43s/it]  8%|▊         | 6255/78504 [3:48:30<47:16:24,  2.36s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.31855717301368713, 'learning_rate': 2.388612915552159e-05, 'epoch': 1.91}
  8%|▊         | 6255/78504 [3:48:30<47:16:24,  2.36s/it]  8%|▊         | 6256/78504 [3:48:32<45:59:10,  2.29s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.35161325335502625, 'learning_rate': 2.3889950324799388e-05, 'epoch': 1.91}
  8%|▊         | 6256/78504 [3:48:32<45:59:10,  2.29s/it]  8%|▊         | 6257/78504 [3:48:34<43:21:26,  2.16s/it]                                                         {'loss': 0.1112, 'grad_norm': 1.4172834157943726, 'learning_rate': 2.3893771494077187e-05, 'epoch': 1.91}
  8%|▊         | 6257/78504 [3:48:34<43:21:26,  2.16s/it]  8%|▊         | 6258/78504 [3:48:36<42:17:15,  2.11s/it]                                                         {'loss': 0.0957, 'grad_norm': 0.5422112345695496, 'learning_rate': 2.3897592663354985e-05, 'epoch': 1.91}
  8%|▊         | 6258/78504 [3:48:36<42:17:15,  2.11s/it]  8%|▊         | 6259/78504 [3:48:38<40:48:46,  2.03s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.403214693069458, 'learning_rate': 2.3901413832632784e-05, 'epoch': 1.91}
  8%|▊         | 6259/78504 [3:48:38<40:48:46,  2.03s/it]  8%|▊         | 6260/78504 [3:48:40<39:54:38,  1.99s/it]                                                         {'loss': 0.1554, 'grad_norm': 1.6375287771224976, 'learning_rate': 2.3905235001910583e-05, 'epoch': 1.91}
  8%|▊         | 6260/78504 [3:48:40<39:54:38,  1.99s/it]  8%|▊         | 6261/78504 [3:48:42<37:57:17,  1.89s/it]                                                         {'loss': 0.1327, 'grad_norm': 0.5669798254966736, 'learning_rate': 2.390905617118838e-05, 'epoch': 1.91}
  8%|▊         | 6261/78504 [3:48:42<37:57:17,  1.89s/it]  8%|▊         | 6262/78504 [3:48:43<36:25:28,  1.82s/it]                                                         {'loss': 0.2214, 'grad_norm': 0.7527708411216736, 'learning_rate': 2.3912877340466184e-05, 'epoch': 1.91}
  8%|▊         | 6262/78504 [3:48:43<36:25:28,  1.82s/it]  8%|▊         | 6263/78504 [3:48:45<34:38:02,  1.73s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.82986980676651, 'learning_rate': 2.3916698509743983e-05, 'epoch': 1.91}
  8%|▊         | 6263/78504 [3:48:45<34:38:02,  1.73s/it]  8%|▊         | 6264/78504 [3:48:46<32:52:44,  1.64s/it]                                                         {'loss': 0.1804, 'grad_norm': 1.1495851278305054, 'learning_rate': 2.392051967902178e-05, 'epoch': 1.92}
  8%|▊         | 6264/78504 [3:48:46<32:52:44,  1.64s/it]  8%|▊         | 6265/78504 [3:48:48<31:29:36,  1.57s/it]                                                         {'loss': 0.2265, 'grad_norm': 0.7946401238441467, 'learning_rate': 2.3924340848299583e-05, 'epoch': 1.92}
  8%|▊         | 6265/78504 [3:48:48<31:29:36,  1.57s/it]  8%|▊         | 6266/78504 [3:48:49<29:21:48,  1.46s/it]                                                         {'loss': 0.2315, 'grad_norm': 0.8473116159439087, 'learning_rate': 2.3928162017577382e-05, 'epoch': 1.92}
  8%|▊         | 6266/78504 [3:48:49<29:21:48,  1.46s/it]  8%|▊         | 6267/78504 [3:48:50<27:21:30,  1.36s/it]                                                         {'loss': 0.2454, 'grad_norm': 1.1015578508377075, 'learning_rate': 2.393198318685518e-05, 'epoch': 1.92}
  8%|▊         | 6267/78504 [3:48:50<27:21:30,  1.36s/it]  8%|▊         | 6268/78504 [3:48:51<25:42:40,  1.28s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.8492112159729004, 'learning_rate': 2.393580435613298e-05, 'epoch': 1.92}
  8%|▊         | 6268/78504 [3:48:51<25:42:40,  1.28s/it]  8%|▊         | 6269/78504 [3:48:52<24:01:42,  1.20s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.3183790445327759, 'learning_rate': 2.393962552541078e-05, 'epoch': 1.92}
  8%|▊         | 6269/78504 [3:48:52<24:01:42,  1.20s/it]  8%|▊         | 6270/78504 [3:48:53<22:25:54,  1.12s/it]                                                         {'loss': 0.2439, 'grad_norm': 1.1667304039001465, 'learning_rate': 2.3943446694688577e-05, 'epoch': 1.92}
  8%|▊         | 6270/78504 [3:48:53<22:25:54,  1.12s/it]  8%|▊         | 6271/78504 [3:48:54<20:23:36,  1.02s/it]                                                         {'loss': 0.3367, 'grad_norm': 4.363717079162598, 'learning_rate': 2.3947267863966376e-05, 'epoch': 1.92}
  8%|▊         | 6271/78504 [3:48:54<20:23:36,  1.02s/it]  8%|▊         | 6272/78504 [3:49:02<61:07:22,  3.05s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.7834454774856567, 'learning_rate': 2.3951089033244175e-05, 'epoch': 1.92}
  8%|▊         | 6272/78504 [3:49:02<61:07:22,  3.05s/it]  8%|▊         | 6273/78504 [3:49:05<63:04:59,  3.14s/it]                                                         {'loss': 0.0957, 'grad_norm': 0.3864767551422119, 'learning_rate': 2.3954910202521973e-05, 'epoch': 1.92}
  8%|▊         | 6273/78504 [3:49:05<63:04:59,  3.14s/it]  8%|▊         | 6274/78504 [3:49:08<61:47:03,  3.08s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.2783229947090149, 'learning_rate': 2.3958731371799772e-05, 'epoch': 1.92}
  8%|▊         | 6274/78504 [3:49:08<61:47:03,  3.08s/it]  8%|▊         | 6275/78504 [3:49:10<58:47:54,  2.93s/it]                                                         {'loss': 0.0753, 'grad_norm': 1.288156509399414, 'learning_rate': 2.396255254107757e-05, 'epoch': 1.92}
  8%|▊         | 6275/78504 [3:49:10<58:47:54,  2.93s/it]  8%|▊         | 6276/78504 [3:49:13<56:10:37,  2.80s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.4017045795917511, 'learning_rate': 2.396637371035537e-05, 'epoch': 1.92}
  8%|▊         | 6276/78504 [3:49:13<56:10:37,  2.80s/it]  8%|▊         | 6277/78504 [3:49:15<52:59:50,  2.64s/it]                                                         {'loss': 0.0629, 'grad_norm': 0.271890789270401, 'learning_rate': 2.397019487963317e-05, 'epoch': 1.92}
  8%|▊         | 6277/78504 [3:49:15<52:59:50,  2.64s/it]  8%|▊         | 6278/78504 [3:49:18<51:03:01,  2.54s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.5696129202842712, 'learning_rate': 2.3974016048910967e-05, 'epoch': 1.92}
  8%|▊         | 6278/78504 [3:49:18<51:03:01,  2.54s/it]  8%|▊         | 6279/78504 [3:49:20<48:30:01,  2.42s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.32505613565444946, 'learning_rate': 2.3977837218188766e-05, 'epoch': 1.92}
  8%|▊         | 6279/78504 [3:49:20<48:30:01,  2.42s/it]  8%|▊         | 6280/78504 [3:49:22<47:05:45,  2.35s/it]                                                         {'loss': 0.071, 'grad_norm': 0.501740038394928, 'learning_rate': 2.3981658387466565e-05, 'epoch': 1.92}
  8%|▊         | 6280/78504 [3:49:22<47:05:45,  2.35s/it]  8%|▊         | 6281/78504 [3:49:24<45:54:40,  2.29s/it]                                                         {'loss': 0.1209, 'grad_norm': 0.6105679869651794, 'learning_rate': 2.3985479556744367e-05, 'epoch': 1.92}
  8%|▊         | 6281/78504 [3:49:24<45:54:40,  2.29s/it]  8%|▊         | 6282/78504 [3:49:26<44:21:25,  2.21s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.38680511713027954, 'learning_rate': 2.3989300726022165e-05, 'epoch': 1.92}
  8%|▊         | 6282/78504 [3:49:26<44:21:25,  2.21s/it]  8%|▊         | 6283/78504 [3:49:28<42:56:35,  2.14s/it]                                                         {'loss': 0.0696, 'grad_norm': 0.3295097351074219, 'learning_rate': 2.3993121895299964e-05, 'epoch': 1.92}
  8%|▊         | 6283/78504 [3:49:28<42:56:35,  2.14s/it]  8%|▊         | 6284/78504 [3:49:30<41:19:57,  2.06s/it]                                                         {'loss': 0.1215, 'grad_norm': 0.4093138873577118, 'learning_rate': 2.3996943064577763e-05, 'epoch': 1.92}
  8%|▊         | 6284/78504 [3:49:30<41:19:57,  2.06s/it]  8%|▊         | 6285/78504 [3:49:32<40:10:49,  2.00s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.8294578790664673, 'learning_rate': 2.4000764233855562e-05, 'epoch': 1.92}
  8%|▊         | 6285/78504 [3:49:32<40:10:49,  2.00s/it]  8%|▊         | 6286/78504 [3:49:33<38:42:08,  1.93s/it]                                                         {'loss': 0.1228, 'grad_norm': 0.45892608165740967, 'learning_rate': 2.400458540313336e-05, 'epoch': 1.92}
  8%|▊         | 6286/78504 [3:49:34<38:42:08,  1.93s/it]  8%|▊         | 6287/78504 [3:49:35<37:03:12,  1.85s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.5335274338722229, 'learning_rate': 2.400840657241116e-05, 'epoch': 1.92}
  8%|▊         | 6287/78504 [3:49:35<37:03:12,  1.85s/it]  8%|▊         | 6288/78504 [3:49:37<35:12:34,  1.76s/it]                                                         {'loss': 0.1631, 'grad_norm': 2.3776092529296875, 'learning_rate': 2.4012227741688958e-05, 'epoch': 1.92}
  8%|▊         | 6288/78504 [3:49:37<35:12:34,  1.76s/it]  8%|▊         | 6289/78504 [3:49:38<33:28:06,  1.67s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.9512613415718079, 'learning_rate': 2.4016048910966757e-05, 'epoch': 1.92}
  8%|▊         | 6289/78504 [3:49:38<33:28:06,  1.67s/it]  8%|▊         | 6290/78504 [3:49:40<31:51:20,  1.59s/it]                                                         {'loss': 0.2272, 'grad_norm': 3.2534704208374023, 'learning_rate': 2.4019870080244555e-05, 'epoch': 1.92}
  8%|▊         | 6290/78504 [3:49:40<31:51:20,  1.59s/it]  8%|▊         | 6291/78504 [3:49:41<30:02:01,  1.50s/it]                                                         {'loss': 0.1756, 'grad_norm': 0.7222756743431091, 'learning_rate': 2.4023691249522354e-05, 'epoch': 1.92}
  8%|▊         | 6291/78504 [3:49:41<30:02:01,  1.50s/it]  8%|▊         | 6292/78504 [3:49:42<27:58:23,  1.39s/it]                                                         {'loss': 0.186, 'grad_norm': 0.7818479537963867, 'learning_rate': 2.4027512418800153e-05, 'epoch': 1.92}
  8%|▊         | 6292/78504 [3:49:42<27:58:23,  1.39s/it]  8%|▊         | 6293/78504 [3:49:43<26:06:58,  1.30s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.9681180715560913, 'learning_rate': 2.403133358807795e-05, 'epoch': 1.92}
  8%|▊         | 6293/78504 [3:49:43<26:06:58,  1.30s/it]  8%|▊         | 6294/78504 [3:49:44<24:34:56,  1.23s/it]                                                         {'loss': 0.2431, 'grad_norm': 1.4741053581237793, 'learning_rate': 2.403515475735575e-05, 'epoch': 1.92}
  8%|▊         | 6294/78504 [3:49:44<24:34:56,  1.23s/it]  8%|▊         | 6295/78504 [3:49:45<22:53:51,  1.14s/it]                                                         {'loss': 0.2601, 'grad_norm': 1.6540642976760864, 'learning_rate': 2.403897592663355e-05, 'epoch': 1.92}
  8%|▊         | 6295/78504 [3:49:45<22:53:51,  1.14s/it]  8%|▊         | 6296/78504 [3:49:46<20:52:06,  1.04s/it]                                                         {'loss': 0.3709, 'grad_norm': 1.6880269050598145, 'learning_rate': 2.404279709591135e-05, 'epoch': 1.92}
  8%|▊         | 6296/78504 [3:49:46<20:52:06,  1.04s/it]  8%|▊         | 6297/78504 [3:49:54<62:52:44,  3.13s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.9517306685447693, 'learning_rate': 2.404661826518915e-05, 'epoch': 1.93}
  8%|▊         | 6297/78504 [3:49:54<62:52:44,  3.13s/it]  8%|▊         | 6298/78504 [3:49:57<63:54:04,  3.19s/it]                                                         {'loss': 0.1042, 'grad_norm': 0.3323294520378113, 'learning_rate': 2.405043943446695e-05, 'epoch': 1.93}
  8%|▊         | 6298/78504 [3:49:57<63:54:04,  3.19s/it]  8%|▊         | 6299/78504 [3:50:00<62:21:04,  3.11s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.3795206546783447, 'learning_rate': 2.4054260603744748e-05, 'epoch': 1.93}
  8%|▊         | 6299/78504 [3:50:00<62:21:04,  3.11s/it]  8%|▊         | 6300/78504 [3:50:03<58:16:51,  2.91s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.3179398477077484, 'learning_rate': 2.4058081773022546e-05, 'epoch': 1.93}
  8%|▊         | 6300/78504 [3:50:03<58:16:51,  2.91s/it]  8%|▊         | 6301/78504 [3:50:05<55:41:42,  2.78s/it]                                                         {'loss': 0.073, 'grad_norm': 0.31688830256462097, 'learning_rate': 2.4061902942300345e-05, 'epoch': 1.93}
  8%|▊         | 6301/78504 [3:50:05<55:41:42,  2.78s/it]  8%|▊         | 6302/78504 [3:50:07<53:36:50,  2.67s/it]                                                         {'loss': 0.0728, 'grad_norm': 0.46821147203445435, 'learning_rate': 2.4065724111578144e-05, 'epoch': 1.93}
  8%|▊         | 6302/78504 [3:50:07<53:36:50,  2.67s/it]  8%|▊         | 6303/78504 [3:50:10<51:29:30,  2.57s/it]                                                         {'loss': 0.069, 'grad_norm': 0.2907589077949524, 'learning_rate': 2.4069545280855943e-05, 'epoch': 1.93}
  8%|▊         | 6303/78504 [3:50:10<51:29:30,  2.57s/it]  8%|▊         | 6304/78504 [3:50:12<49:53:42,  2.49s/it]                                                         {'loss': 0.078, 'grad_norm': 0.4129140079021454, 'learning_rate': 2.407336645013374e-05, 'epoch': 1.93}
  8%|▊         | 6304/78504 [3:50:12<49:53:42,  2.49s/it]  8%|▊         | 6305/78504 [3:50:14<48:09:35,  2.40s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.3710465729236603, 'learning_rate': 2.407718761941154e-05, 'epoch': 1.93}
  8%|▊         | 6305/78504 [3:50:14<48:09:35,  2.40s/it]  8%|▊         | 6306/78504 [3:50:16<46:44:08,  2.33s/it]                                                         {'loss': 0.0687, 'grad_norm': 0.38220545649528503, 'learning_rate': 2.408100878868934e-05, 'epoch': 1.93}
  8%|▊         | 6306/78504 [3:50:16<46:44:08,  2.33s/it]  8%|▊         | 6307/78504 [3:50:18<43:54:09,  2.19s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.6528335809707642, 'learning_rate': 2.4084829957967137e-05, 'epoch': 1.93}
  8%|▊         | 6307/78504 [3:50:18<43:54:09,  2.19s/it]  8%|▊         | 6308/78504 [3:50:20<42:41:05,  2.13s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.6284512281417847, 'learning_rate': 2.4088651127244936e-05, 'epoch': 1.93}
  8%|▊         | 6308/78504 [3:50:20<42:41:05,  2.13s/it]  8%|▊         | 6309/78504 [3:50:22<41:25:55,  2.07s/it]                                                         {'loss': 0.1133, 'grad_norm': 0.7566723227500916, 'learning_rate': 2.4092472296522735e-05, 'epoch': 1.93}
  8%|▊         | 6309/78504 [3:50:22<41:25:55,  2.07s/it]  8%|▊         | 6310/78504 [3:50:24<40:14:13,  2.01s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.9057125449180603, 'learning_rate': 2.4096293465800534e-05, 'epoch': 1.93}
  8%|▊         | 6310/78504 [3:50:24<40:14:13,  2.01s/it]  8%|▊         | 6311/78504 [3:50:26<38:48:50,  1.94s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.6125158071517944, 'learning_rate': 2.4100114635078332e-05, 'epoch': 1.93}
  8%|▊         | 6311/78504 [3:50:26<38:48:50,  1.94s/it]  8%|▊         | 6312/78504 [3:50:27<36:38:36,  1.83s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6731373071670532, 'learning_rate': 2.4103935804356135e-05, 'epoch': 1.93}
  8%|▊         | 6312/78504 [3:50:27<36:38:36,  1.83s/it]  8%|▊         | 6313/78504 [3:50:29<34:57:30,  1.74s/it]                                                         {'loss': 0.1727, 'grad_norm': 0.8910582065582275, 'learning_rate': 2.4107756973633933e-05, 'epoch': 1.93}
  8%|▊         | 6313/78504 [3:50:29<34:57:30,  1.74s/it]  8%|▊         | 6314/78504 [3:50:31<33:36:39,  1.68s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.881213903427124, 'learning_rate': 2.4111578142911732e-05, 'epoch': 1.93}
  8%|▊         | 6314/78504 [3:50:31<33:36:39,  1.68s/it]  8%|▊         | 6315/78504 [3:50:32<32:03:03,  1.60s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.6779544353485107, 'learning_rate': 2.411539931218953e-05, 'epoch': 1.93}
  8%|▊         | 6315/78504 [3:50:32<32:03:03,  1.60s/it]  8%|▊         | 6316/78504 [3:50:33<30:09:47,  1.50s/it]                                                         {'loss': 0.2285, 'grad_norm': 0.9326953291893005, 'learning_rate': 2.411922048146733e-05, 'epoch': 1.93}
  8%|▊         | 6316/78504 [3:50:33<30:09:47,  1.50s/it]  8%|▊         | 6317/78504 [3:50:34<28:01:07,  1.40s/it]                                                         {'loss': 0.2588, 'grad_norm': 8.224325180053711, 'learning_rate': 2.412304165074513e-05, 'epoch': 1.93}
  8%|▊         | 6317/78504 [3:50:34<28:01:07,  1.40s/it]  8%|▊         | 6318/78504 [3:50:35<26:11:17,  1.31s/it]                                                         {'loss': 0.2246, 'grad_norm': 0.747307538986206, 'learning_rate': 2.4126862820022927e-05, 'epoch': 1.93}
  8%|▊         | 6318/78504 [3:50:35<26:11:17,  1.31s/it]  8%|▊         | 6319/78504 [3:50:37<24:43:51,  1.23s/it]                                                         {'loss': 0.2239, 'grad_norm': 3.124185085296631, 'learning_rate': 2.4130683989300726e-05, 'epoch': 1.93}
  8%|▊         | 6319/78504 [3:50:37<24:43:51,  1.23s/it]  8%|▊         | 6320/78504 [3:50:37<22:54:11,  1.14s/it]                                                         {'loss': 0.2541, 'grad_norm': 1.343912124633789, 'learning_rate': 2.4134505158578525e-05, 'epoch': 1.93}
  8%|▊         | 6320/78504 [3:50:37<22:54:11,  1.14s/it]  8%|▊         | 6321/78504 [3:50:38<20:47:11,  1.04s/it]                                                         {'loss': 0.2788, 'grad_norm': 2.7196948528289795, 'learning_rate': 2.4138326327856323e-05, 'epoch': 1.93}
  8%|▊         | 6321/78504 [3:50:38<20:47:11,  1.04s/it]  8%|▊         | 6322/78504 [3:50:46<64:08:14,  3.20s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.6205378770828247, 'learning_rate': 2.4142147497134122e-05, 'epoch': 1.93}
  8%|▊         | 6322/78504 [3:50:46<64:08:14,  3.20s/it]  8%|▊         | 6323/78504 [3:50:50<65:07:34,  3.25s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.5568069219589233, 'learning_rate': 2.414596866641192e-05, 'epoch': 1.93}
  8%|▊         | 6323/78504 [3:50:50<65:07:34,  3.25s/it]  8%|▊         | 6324/78504 [3:50:52<61:03:22,  3.05s/it]                                                         {'loss': 0.096, 'grad_norm': 0.6534050107002258, 'learning_rate': 2.414978983568972e-05, 'epoch': 1.93}
  8%|▊         | 6324/78504 [3:50:52<61:03:22,  3.05s/it]  8%|▊         | 6325/78504 [3:50:55<58:28:41,  2.92s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.8517934083938599, 'learning_rate': 2.4153611004967518e-05, 'epoch': 1.93}
  8%|▊         | 6325/78504 [3:50:55<58:28:41,  2.92s/it]  8%|▊         | 6326/78504 [3:50:58<55:50:48,  2.79s/it]                                                         {'loss': 0.0731, 'grad_norm': 0.2751946449279785, 'learning_rate': 2.4157432174245317e-05, 'epoch': 1.93}
  8%|▊         | 6326/78504 [3:50:58<55:50:48,  2.79s/it]  8%|▊         | 6327/78504 [3:51:00<52:46:17,  2.63s/it]                                                         {'loss': 0.0718, 'grad_norm': 0.44100239872932434, 'learning_rate': 2.416125334352312e-05, 'epoch': 1.93}
  8%|▊         | 6327/78504 [3:51:00<52:46:17,  2.63s/it]  8%|▊         | 6328/78504 [3:51:02<50:53:36,  2.54s/it]                                                         {'loss': 0.1308, 'grad_norm': 0.4922046959400177, 'learning_rate': 2.4165074512800918e-05, 'epoch': 1.93}
  8%|▊         | 6328/78504 [3:51:02<50:53:36,  2.54s/it]  8%|▊         | 6329/78504 [3:51:04<48:16:09,  2.41s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.31674277782440186, 'learning_rate': 2.4168895682078717e-05, 'epoch': 1.93}
  8%|▊         | 6329/78504 [3:51:04<48:16:09,  2.41s/it]  8%|▊         | 6330/78504 [3:51:06<46:55:29,  2.34s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.37844640016555786, 'learning_rate': 2.4172716851356515e-05, 'epoch': 1.94}
  8%|▊         | 6330/78504 [3:51:06<46:55:29,  2.34s/it]  8%|▊         | 6331/78504 [3:51:09<45:53:41,  2.29s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.4124774932861328, 'learning_rate': 2.4176538020634314e-05, 'epoch': 1.94}
  8%|▊         | 6331/78504 [3:51:09<45:53:41,  2.29s/it]  8%|▊         | 6332/78504 [3:51:10<43:26:36,  2.17s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.6305738091468811, 'learning_rate': 2.4180359189912113e-05, 'epoch': 1.94}
  8%|▊         | 6332/78504 [3:51:10<43:26:36,  2.17s/it]  8%|▊         | 6333/78504 [3:51:12<42:20:29,  2.11s/it]                                                         {'loss': 0.0803, 'grad_norm': 0.4922633171081543, 'learning_rate': 2.418418035918991e-05, 'epoch': 1.94}
  8%|▊         | 6333/78504 [3:51:12<42:20:29,  2.11s/it]  8%|▊         | 6334/78504 [3:51:14<41:14:07,  2.06s/it]                                                         {'loss': 0.1183, 'grad_norm': 0.6487208008766174, 'learning_rate': 2.418800152846771e-05, 'epoch': 1.94}
  8%|▊         | 6334/78504 [3:51:14<41:14:07,  2.06s/it]  8%|▊         | 6335/78504 [3:51:16<40:14:05,  2.01s/it]                                                         {'loss': 0.1058, 'grad_norm': 2.2749545574188232, 'learning_rate': 2.419182269774551e-05, 'epoch': 1.94}
  8%|▊         | 6335/78504 [3:51:16<40:14:05,  2.01s/it]  8%|▊         | 6336/78504 [3:51:18<38:45:46,  1.93s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.6920011043548584, 'learning_rate': 2.4195643867023308e-05, 'epoch': 1.94}
  8%|▊         | 6336/78504 [3:51:18<38:45:46,  1.93s/it]  8%|▊         | 6337/78504 [3:51:20<37:06:29,  1.85s/it]                                                         {'loss': 0.168, 'grad_norm': 0.7670975923538208, 'learning_rate': 2.4199465036301107e-05, 'epoch': 1.94}
  8%|▊         | 6337/78504 [3:51:20<37:06:29,  1.85s/it]  8%|▊         | 6338/78504 [3:51:21<35:16:32,  1.76s/it]                                                         {'loss': 0.1832, 'grad_norm': 1.3647668361663818, 'learning_rate': 2.4203286205578905e-05, 'epoch': 1.94}
  8%|▊         | 6338/78504 [3:51:21<35:16:32,  1.76s/it]  8%|▊         | 6339/78504 [3:51:23<33:29:39,  1.67s/it]                                                         {'loss': 0.1865, 'grad_norm': 1.3749945163726807, 'learning_rate': 2.4207107374856704e-05, 'epoch': 1.94}
  8%|▊         | 6339/78504 [3:51:23<33:29:39,  1.67s/it]  8%|▊         | 6340/78504 [3:51:24<31:50:36,  1.59s/it]                                                         {'loss': 0.215, 'grad_norm': 0.9126365184783936, 'learning_rate': 2.4210928544134506e-05, 'epoch': 1.94}
  8%|▊         | 6340/78504 [3:51:24<31:50:36,  1.59s/it]  8%|▊         | 6341/78504 [3:51:25<30:03:49,  1.50s/it]                                                         {'loss': 0.1924, 'grad_norm': 1.209141492843628, 'learning_rate': 2.4214749713412305e-05, 'epoch': 1.94}
  8%|▊         | 6341/78504 [3:51:25<30:03:49,  1.50s/it]  8%|▊         | 6342/78504 [3:51:27<28:00:30,  1.40s/it]                                                         {'loss': 0.262, 'grad_norm': 1.0206501483917236, 'learning_rate': 2.4218570882690104e-05, 'epoch': 1.94}
  8%|▊         | 6342/78504 [3:51:27<28:00:30,  1.40s/it]  8%|▊         | 6343/78504 [3:51:28<26:10:19,  1.31s/it]                                                         {'loss': 0.2178, 'grad_norm': 0.6950281262397766, 'learning_rate': 2.4222392051967906e-05, 'epoch': 1.94}
  8%|▊         | 6343/78504 [3:51:28<26:10:19,  1.31s/it]  8%|▊         | 6344/78504 [3:51:29<24:16:18,  1.21s/it]                                                         {'loss': 0.2351, 'grad_norm': 1.8762916326522827, 'learning_rate': 2.4226213221245705e-05, 'epoch': 1.94}
  8%|▊         | 6344/78504 [3:51:29<24:16:18,  1.21s/it]  8%|▊         | 6345/78504 [3:51:30<22:36:06,  1.13s/it]                                                         {'loss': 0.2553, 'grad_norm': 1.4030523300170898, 'learning_rate': 2.4230034390523503e-05, 'epoch': 1.94}
  8%|▊         | 6345/78504 [3:51:30<22:36:06,  1.13s/it]  8%|▊         | 6346/78504 [3:51:30<20:35:37,  1.03s/it]                                                         {'loss': 0.3183, 'grad_norm': 1.5757360458374023, 'learning_rate': 2.4233855559801302e-05, 'epoch': 1.94}
  8%|▊         | 6346/78504 [3:51:30<20:35:37,  1.03s/it]  8%|▊         | 6347/78504 [3:51:38<62:40:08,  3.13s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.36212223768234253, 'learning_rate': 2.42376767290791e-05, 'epoch': 1.94}
  8%|▊         | 6347/78504 [3:51:38<62:40:08,  3.13s/it]  8%|▊         | 6348/78504 [3:51:41<61:21:08,  3.06s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.3079048991203308, 'learning_rate': 2.42414978983569e-05, 'epoch': 1.94}
  8%|▊         | 6348/78504 [3:51:41<61:21:08,  3.06s/it]  8%|▊         | 6349/78504 [3:51:44<60:32:16,  3.02s/it]                                                         {'loss': 0.0953, 'grad_norm': 0.4732174277305603, 'learning_rate': 2.42453190676347e-05, 'epoch': 1.94}
  8%|▊         | 6349/78504 [3:51:44<60:32:16,  3.02s/it]  8%|▊         | 6350/78504 [3:51:47<57:53:01,  2.89s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.5856958627700806, 'learning_rate': 2.4249140236912497e-05, 'epoch': 1.94}
  8%|▊         | 6350/78504 [3:51:47<57:53:01,  2.89s/it]  8%|▊         | 6351/78504 [3:51:49<55:25:22,  2.77s/it]                                                         {'loss': 0.0625, 'grad_norm': 0.2143266499042511, 'learning_rate': 2.4252961406190296e-05, 'epoch': 1.94}
  8%|▊         | 6351/78504 [3:51:49<55:25:22,  2.77s/it]  8%|▊         | 6352/78504 [3:51:52<53:27:02,  2.67s/it]                                                         {'loss': 0.0611, 'grad_norm': 0.3913695812225342, 'learning_rate': 2.4256782575468095e-05, 'epoch': 1.94}
  8%|▊         | 6352/78504 [3:51:52<53:27:02,  2.67s/it]  8%|▊         | 6353/78504 [3:51:54<51:22:30,  2.56s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.3697551190853119, 'learning_rate': 2.4260603744745893e-05, 'epoch': 1.94}
  8%|▊         | 6353/78504 [3:51:54<51:22:30,  2.56s/it]  8%|▊         | 6354/78504 [3:51:56<48:40:14,  2.43s/it]                                                         {'loss': 0.0887, 'grad_norm': 0.6667912602424622, 'learning_rate': 2.4264424914023692e-05, 'epoch': 1.94}
  8%|▊         | 6354/78504 [3:51:56<48:40:14,  2.43s/it]  8%|▊         | 6355/78504 [3:51:58<47:14:40,  2.36s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.31474700570106506, 'learning_rate': 2.426824608330149e-05, 'epoch': 1.94}
  8%|▊         | 6355/78504 [3:51:58<47:14:40,  2.36s/it]  8%|▊         | 6356/78504 [3:52:00<46:05:59,  2.30s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.559280514717102, 'learning_rate': 2.427206725257929e-05, 'epoch': 1.94}
  8%|▊         | 6356/78504 [3:52:00<46:05:59,  2.30s/it]  8%|▊         | 6357/78504 [3:52:03<44:28:27,  2.22s/it]                                                         {'loss': 0.1602, 'grad_norm': 0.8460932374000549, 'learning_rate': 2.4275888421857088e-05, 'epoch': 1.94}
  8%|▊         | 6357/78504 [3:52:03<44:28:27,  2.22s/it]  8%|▊         | 6358/78504 [3:52:04<43:04:07,  2.15s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.8333715796470642, 'learning_rate': 2.427970959113489e-05, 'epoch': 1.94}
  8%|▊         | 6358/78504 [3:52:05<43:04:07,  2.15s/it]  8%|▊         | 6359/78504 [3:52:06<41:28:58,  2.07s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.34430694580078125, 'learning_rate': 2.428353076041269e-05, 'epoch': 1.94}
  8%|▊         | 6359/78504 [3:52:06<41:28:58,  2.07s/it]  8%|▊         | 6360/78504 [3:52:08<40:14:56,  2.01s/it]                                                         {'loss': 0.1423, 'grad_norm': 1.228811264038086, 'learning_rate': 2.4287351929690488e-05, 'epoch': 1.94}
  8%|▊         | 6360/78504 [3:52:08<40:14:56,  2.01s/it]  8%|▊         | 6361/78504 [3:52:10<38:50:37,  1.94s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.3731948435306549, 'learning_rate': 2.4291173098968287e-05, 'epoch': 1.94}
  8%|▊         | 6361/78504 [3:52:10<38:50:37,  1.94s/it]  8%|▊         | 6362/78504 [3:52:12<36:40:14,  1.83s/it]                                                         {'loss': 0.1458, 'grad_norm': 0.6394876837730408, 'learning_rate': 2.4294994268246085e-05, 'epoch': 1.94}
  8%|▊         | 6362/78504 [3:52:12<36:40:14,  1.83s/it]  8%|▊         | 6363/78504 [3:52:13<34:54:43,  1.74s/it]                                                         {'loss': 0.1871, 'grad_norm': 1.1052237749099731, 'learning_rate': 2.4298815437523884e-05, 'epoch': 1.95}
  8%|▊         | 6363/78504 [3:52:13<34:54:43,  1.74s/it]  8%|▊         | 6364/78504 [3:52:15<33:30:52,  1.67s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.7339423894882202, 'learning_rate': 2.4302636606801683e-05, 'epoch': 1.95}
  8%|▊         | 6364/78504 [3:52:15<33:30:52,  1.67s/it]  8%|▊         | 6365/78504 [3:52:16<31:51:16,  1.59s/it]                                                         {'loss': 0.2219, 'grad_norm': 1.7553906440734863, 'learning_rate': 2.430645777607948e-05, 'epoch': 1.95}
  8%|▊         | 6365/78504 [3:52:16<31:51:16,  1.59s/it]  8%|▊         | 6366/78504 [3:52:17<29:58:54,  1.50s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.6954481601715088, 'learning_rate': 2.431027894535728e-05, 'epoch': 1.95}
  8%|▊         | 6366/78504 [3:52:17<29:58:54,  1.50s/it]  8%|▊         | 6367/78504 [3:52:18<27:52:55,  1.39s/it]                                                         {'loss': 0.1999, 'grad_norm': 2.6045241355895996, 'learning_rate': 2.431410011463508e-05, 'epoch': 1.95}
  8%|▊         | 6367/78504 [3:52:18<27:52:55,  1.39s/it]  8%|▊         | 6368/78504 [3:52:20<26:07:57,  1.30s/it]                                                         {'loss': 0.2069, 'grad_norm': 1.7923165559768677, 'learning_rate': 2.4317921283912878e-05, 'epoch': 1.95}
  8%|▊         | 6368/78504 [3:52:20<26:07:57,  1.30s/it]  8%|▊         | 6369/78504 [3:52:21<24:15:32,  1.21s/it]                                                         {'loss': 0.2771, 'grad_norm': 1.0012035369873047, 'learning_rate': 2.4321742453190677e-05, 'epoch': 1.95}
  8%|▊         | 6369/78504 [3:52:21<24:15:32,  1.21s/it]  8%|▊         | 6370/78504 [3:52:21<22:33:42,  1.13s/it]                                                         {'loss': 0.2652, 'grad_norm': 1.104827642440796, 'learning_rate': 2.4325563622468475e-05, 'epoch': 1.95}
  8%|▊         | 6370/78504 [3:52:22<22:33:42,  1.13s/it]  8%|▊         | 6371/78504 [3:52:22<20:29:10,  1.02s/it]                                                         {'loss': 0.2718, 'grad_norm': 1.9280731678009033, 'learning_rate': 2.4329384791746274e-05, 'epoch': 1.95}
  8%|▊         | 6371/78504 [3:52:22<20:29:10,  1.02s/it]  8%|▊         | 6372/78504 [3:52:30<60:36:21,  3.02s/it]                                                         {'loss': 0.1688, 'grad_norm': 0.8480847477912903, 'learning_rate': 2.4333205961024073e-05, 'epoch': 1.95}
  8%|▊         | 6372/78504 [3:52:30<60:36:21,  3.02s/it]  8%|▊         | 6373/78504 [3:52:33<62:36:04,  3.12s/it]                                                         {'loss': 0.1162, 'grad_norm': 0.40534651279449463, 'learning_rate': 2.433702713030187e-05, 'epoch': 1.95}
  8%|▊         | 6373/78504 [3:52:33<62:36:04,  3.12s/it]  8%|▊         | 6374/78504 [3:52:36<61:24:49,  3.07s/it]                                                         {'loss': 0.1049, 'grad_norm': 0.3779584765434265, 'learning_rate': 2.4340848299579674e-05, 'epoch': 1.95}
  8%|▊         | 6374/78504 [3:52:36<61:24:49,  3.07s/it]  8%|▊         | 6375/78504 [3:52:39<58:30:46,  2.92s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.3492530882358551, 'learning_rate': 2.4344669468857472e-05, 'epoch': 1.95}
  8%|▊         | 6375/78504 [3:52:39<58:30:46,  2.92s/it]  8%|▊         | 6376/78504 [3:52:41<55:57:41,  2.79s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.2840197682380676, 'learning_rate': 2.434849063813527e-05, 'epoch': 1.95}
  8%|▊         | 6376/78504 [3:52:41<55:57:41,  2.79s/it]  8%|▊         | 6377/78504 [3:52:44<53:55:22,  2.69s/it]                                                         {'loss': 0.0574, 'grad_norm': 0.4590209424495697, 'learning_rate': 2.435231180741307e-05, 'epoch': 1.95}
  8%|▊         | 6377/78504 [3:52:44<53:55:22,  2.69s/it]  8%|▊         | 6378/78504 [3:52:46<51:52:35,  2.59s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.3225541114807129, 'learning_rate': 2.435613297669087e-05, 'epoch': 1.95}
  8%|▊         | 6378/78504 [3:52:46<51:52:35,  2.59s/it]  8%|▊         | 6379/78504 [3:52:48<50:09:48,  2.50s/it]                                                         {'loss': 0.0778, 'grad_norm': 1.0296956300735474, 'learning_rate': 2.4359954145968667e-05, 'epoch': 1.95}
  8%|▊         | 6379/78504 [3:52:48<50:09:48,  2.50s/it]  8%|▊         | 6380/78504 [3:52:50<47:27:16,  2.37s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.3237701654434204, 'learning_rate': 2.4363775315246466e-05, 'epoch': 1.95}
  8%|▊         | 6380/78504 [3:52:51<47:27:16,  2.37s/it]  8%|▊         | 6381/78504 [3:52:53<46:02:47,  2.30s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.4579310119152069, 'learning_rate': 2.4367596484524265e-05, 'epoch': 1.95}
  8%|▊         | 6381/78504 [3:52:53<46:02:47,  2.30s/it]  8%|▊         | 6382/78504 [3:52:55<43:52:37,  2.19s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.493283212184906, 'learning_rate': 2.4371417653802064e-05, 'epoch': 1.95}
  8%|▊         | 6382/78504 [3:52:55<43:52:37,  2.19s/it]  8%|▊         | 6383/78504 [3:52:57<42:39:19,  2.13s/it]                                                         {'loss': 0.0843, 'grad_norm': 0.5194309949874878, 'learning_rate': 2.4375238823079862e-05, 'epoch': 1.95}
  8%|▊         | 6383/78504 [3:52:57<42:39:19,  2.13s/it]  8%|▊         | 6384/78504 [3:52:58<40:36:19,  2.03s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.5661357045173645, 'learning_rate': 2.437905999235766e-05, 'epoch': 1.95}
  8%|▊         | 6384/78504 [3:52:58<40:36:19,  2.03s/it]  8%|▊         | 6385/78504 [3:53:00<39:44:38,  1.98s/it]                                                         {'loss': 0.0981, 'grad_norm': 0.6005623936653137, 'learning_rate': 2.438288116163546e-05, 'epoch': 1.95}
  8%|▊         | 6385/78504 [3:53:00<39:44:38,  1.98s/it]  8%|▊         | 6386/78504 [3:53:02<38:25:22,  1.92s/it]                                                         {'loss': 0.12, 'grad_norm': 1.210753083229065, 'learning_rate': 2.438670233091326e-05, 'epoch': 1.95}
  8%|▊         | 6386/78504 [3:53:02<38:25:22,  1.92s/it]  8%|▊         | 6387/78504 [3:53:04<36:49:45,  1.84s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.5192495584487915, 'learning_rate': 2.4390523500191057e-05, 'epoch': 1.95}
  8%|▊         | 6387/78504 [3:53:04<36:49:45,  1.84s/it]  8%|▊         | 6388/78504 [3:53:05<35:03:05,  1.75s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.7512338757514954, 'learning_rate': 2.4394344669468856e-05, 'epoch': 1.95}
  8%|▊         | 6388/78504 [3:53:05<35:03:05,  1.75s/it]  8%|▊         | 6389/78504 [3:53:07<33:22:43,  1.67s/it]                                                         {'loss': 0.2036, 'grad_norm': 1.1896977424621582, 'learning_rate': 2.4398165838746658e-05, 'epoch': 1.95}
  8%|▊         | 6389/78504 [3:53:07<33:22:43,  1.67s/it]  8%|▊         | 6390/78504 [3:53:08<31:43:37,  1.58s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.6247238516807556, 'learning_rate': 2.4401987008024457e-05, 'epoch': 1.95}
  8%|▊         | 6390/78504 [3:53:08<31:43:37,  1.58s/it]  8%|▊         | 6391/78504 [3:53:09<29:55:46,  1.49s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.727080225944519, 'learning_rate': 2.4405808177302256e-05, 'epoch': 1.95}
  8%|▊         | 6391/78504 [3:53:09<29:55:46,  1.49s/it]  8%|▊         | 6392/78504 [3:53:10<27:54:22,  1.39s/it]                                                         {'loss': 0.2185, 'grad_norm': 0.751765787601471, 'learning_rate': 2.4409629346580054e-05, 'epoch': 1.95}
  8%|▊         | 6392/78504 [3:53:11<27:54:22,  1.39s/it]  8%|▊         | 6393/78504 [3:53:12<26:05:08,  1.30s/it]                                                         {'loss': 0.2268, 'grad_norm': 2.303020477294922, 'learning_rate': 2.4413450515857853e-05, 'epoch': 1.95}
  8%|▊         | 6393/78504 [3:53:12<26:05:08,  1.30s/it]  8%|▊         | 6394/78504 [3:53:13<24:33:22,  1.23s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.8386074304580688, 'learning_rate': 2.4417271685135652e-05, 'epoch': 1.95}
  8%|▊         | 6394/78504 [3:53:13<24:33:22,  1.23s/it]  8%|▊         | 6395/78504 [3:53:14<22:43:11,  1.13s/it]                                                         {'loss': 0.2199, 'grad_norm': 1.1143898963928223, 'learning_rate': 2.442109285441345e-05, 'epoch': 1.96}
  8%|▊         | 6395/78504 [3:53:14<22:43:11,  1.13s/it]  8%|▊         | 6396/78504 [3:53:14<20:36:59,  1.03s/it]                                                         {'loss': 0.2863, 'grad_norm': 2.545201301574707, 'learning_rate': 2.442491402369125e-05, 'epoch': 1.96}
  8%|▊         | 6396/78504 [3:53:14<20:36:59,  1.03s/it]  8%|▊         | 6397/78504 [3:53:20<50:10:33,  2.51s/it]                                                         {'loss': 0.2004, 'grad_norm': 0.5041231513023376, 'learning_rate': 2.4428735192969048e-05, 'epoch': 1.96}
  8%|▊         | 6397/78504 [3:53:20<50:10:33,  2.51s/it]  8%|▊         | 6398/78504 [3:53:23<53:50:41,  2.69s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.3508281707763672, 'learning_rate': 2.4432556362246847e-05, 'epoch': 1.96}
  8%|▊         | 6398/78504 [3:53:23<53:50:41,  2.69s/it]  8%|▊         | 6399/78504 [3:53:26<53:10:51,  2.66s/it]                                                         {'loss': 0.09, 'grad_norm': 0.41621634364128113, 'learning_rate': 2.4436377531524646e-05, 'epoch': 1.96}
  8%|▊         | 6399/78504 [3:53:26<53:10:51,  2.66s/it]  8%|▊         | 6400/78504 [3:53:28<51:47:45,  2.59s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.3227291703224182, 'learning_rate': 2.4440198700802444e-05, 'epoch': 1.96}
  8%|▊         | 6400/78504 [3:53:28<51:47:45,  2.59s/it]  8%|▊         | 6401/78504 [3:53:31<51:13:43,  2.56s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.5218549370765686, 'learning_rate': 2.4444019870080243e-05, 'epoch': 1.96}
  8%|▊         | 6401/78504 [3:53:31<51:13:43,  2.56s/it]  8%|▊         | 6402/78504 [3:53:33<50:41:04,  2.53s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.4274415075778961, 'learning_rate': 2.4447841039358042e-05, 'epoch': 1.96}
  8%|▊         | 6402/78504 [3:53:33<50:41:04,  2.53s/it]  8%|▊         | 6403/78504 [3:53:36<49:22:56,  2.47s/it]                                                         {'loss': 0.0482, 'grad_norm': 0.6280909776687622, 'learning_rate': 2.445166220863584e-05, 'epoch': 1.96}
  8%|▊         | 6403/78504 [3:53:36<49:22:56,  2.47s/it]  8%|▊         | 6404/78504 [3:53:38<47:16:16,  2.36s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.595230758190155, 'learning_rate': 2.445548337791364e-05, 'epoch': 1.96}
  8%|▊         | 6404/78504 [3:53:38<47:16:16,  2.36s/it]  8%|▊         | 6405/78504 [3:53:40<45:22:16,  2.27s/it]                                                         {'loss': 0.0952, 'grad_norm': 0.3765832781791687, 'learning_rate': 2.445930454719144e-05, 'epoch': 1.96}
  8%|▊         | 6405/78504 [3:53:40<45:22:16,  2.27s/it]  8%|▊         | 6406/78504 [3:53:42<44:36:12,  2.23s/it]                                                         {'loss': 0.0827, 'grad_norm': 0.3754270374774933, 'learning_rate': 2.446312571646924e-05, 'epoch': 1.96}
  8%|▊         | 6406/78504 [3:53:42<44:36:12,  2.23s/it]  8%|▊         | 6407/78504 [3:53:44<43:23:13,  2.17s/it]                                                         {'loss': 0.0922, 'grad_norm': 5.1250224113464355, 'learning_rate': 2.446694688574704e-05, 'epoch': 1.96}
  8%|▊         | 6407/78504 [3:53:44<43:23:13,  2.17s/it]  8%|▊         | 6408/78504 [3:53:46<42:15:57,  2.11s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.5271421670913696, 'learning_rate': 2.4470768055024838e-05, 'epoch': 1.96}
  8%|▊         | 6408/78504 [3:53:46<42:15:57,  2.11s/it]  8%|▊         | 6409/78504 [3:53:48<40:48:51,  2.04s/it]                                                         {'loss': 0.1149, 'grad_norm': 0.432529091835022, 'learning_rate': 2.4474589224302637e-05, 'epoch': 1.96}
  8%|▊         | 6409/78504 [3:53:48<40:48:51,  2.04s/it]  8%|▊         | 6410/78504 [3:53:50<39:37:06,  1.98s/it]                                                         {'loss': 0.2068, 'grad_norm': 0.47268736362457275, 'learning_rate': 2.4478410393580435e-05, 'epoch': 1.96}
  8%|▊         | 6410/78504 [3:53:50<39:37:06,  1.98s/it]  8%|▊         | 6411/78504 [3:53:51<38:05:35,  1.90s/it]                                                         {'loss': 0.1348, 'grad_norm': 1.7345781326293945, 'learning_rate': 2.4482231562858234e-05, 'epoch': 1.96}
  8%|▊         | 6411/78504 [3:53:51<38:05:35,  1.90s/it]  8%|▊         | 6412/78504 [3:53:53<36:33:39,  1.83s/it]                                                         {'loss': 0.1559, 'grad_norm': 0.7981429696083069, 'learning_rate': 2.4486052732136033e-05, 'epoch': 1.96}
  8%|▊         | 6412/78504 [3:53:53<36:33:39,  1.83s/it]  8%|▊         | 6413/78504 [3:53:55<34:56:44,  1.75s/it]                                                         {'loss': 0.149, 'grad_norm': 0.711208164691925, 'learning_rate': 2.448987390141383e-05, 'epoch': 1.96}
  8%|▊         | 6413/78504 [3:53:55<34:56:44,  1.75s/it]  8%|▊         | 6414/78504 [3:53:56<33:16:09,  1.66s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.597986102104187, 'learning_rate': 2.449369507069163e-05, 'epoch': 1.96}
  8%|▊         | 6414/78504 [3:53:56<33:16:09,  1.66s/it]  8%|▊         | 6415/78504 [3:53:57<31:46:04,  1.59s/it]                                                         {'loss': 0.2283, 'grad_norm': 0.9943981766700745, 'learning_rate': 2.449751623996943e-05, 'epoch': 1.96}
  8%|▊         | 6415/78504 [3:53:58<31:46:04,  1.59s/it]  8%|▊         | 6416/78504 [3:53:59<29:59:57,  1.50s/it]                                                         {'loss': 0.1986, 'grad_norm': 0.9317859411239624, 'learning_rate': 2.4501337409247228e-05, 'epoch': 1.96}
  8%|▊         | 6416/78504 [3:53:59<29:59:57,  1.50s/it]  8%|▊         | 6417/78504 [3:54:00<27:54:09,  1.39s/it]                                                         {'loss': 0.2244, 'grad_norm': 0.8746550679206848, 'learning_rate': 2.450515857852503e-05, 'epoch': 1.96}
  8%|▊         | 6417/78504 [3:54:00<27:54:09,  1.39s/it]  8%|▊         | 6418/78504 [3:54:01<26:09:19,  1.31s/it]                                                         {'loss': 0.212, 'grad_norm': 1.3172274827957153, 'learning_rate': 2.450897974780283e-05, 'epoch': 1.96}
  8%|▊         | 6418/78504 [3:54:01<26:09:19,  1.31s/it]  8%|▊         | 6419/78504 [3:54:02<24:38:35,  1.23s/it]                                                         {'loss': 0.31, 'grad_norm': 1.2759122848510742, 'learning_rate': 2.4512800917080627e-05, 'epoch': 1.96}
  8%|▊         | 6419/78504 [3:54:02<24:38:35,  1.23s/it]  8%|▊         | 6420/78504 [3:54:03<22:49:59,  1.14s/it]                                                         {'loss': 0.2375, 'grad_norm': 2.442958354949951, 'learning_rate': 2.451662208635843e-05, 'epoch': 1.96}
  8%|▊         | 6420/78504 [3:54:03<22:49:59,  1.14s/it]  8%|▊         | 6421/78504 [3:54:04<20:49:59,  1.04s/it]                                                         {'loss': 0.2957, 'grad_norm': 1.7676655054092407, 'learning_rate': 2.4520443255636228e-05, 'epoch': 1.96}
  8%|▊         | 6421/78504 [3:54:04<20:49:59,  1.04s/it]  8%|▊         | 6422/78504 [3:54:12<62:17:06,  3.11s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.5662017464637756, 'learning_rate': 2.4524264424914027e-05, 'epoch': 1.96}
  8%|▊         | 6422/78504 [3:54:12<62:17:06,  3.11s/it]  8%|▊         | 6423/78504 [3:54:15<61:05:52,  3.05s/it]                                                         {'loss': 0.1174, 'grad_norm': 0.3594457805156708, 'learning_rate': 2.4528085594191826e-05, 'epoch': 1.96}
  8%|▊         | 6423/78504 [3:54:15<61:05:52,  3.05s/it]  8%|▊         | 6424/78504 [3:54:18<60:22:02,  3.02s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.3290724754333496, 'learning_rate': 2.4531906763469624e-05, 'epoch': 1.96}
  8%|▊         | 6424/78504 [3:54:18<60:22:02,  3.02s/it]  8%|▊         | 6425/78504 [3:54:20<56:51:14,  2.84s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.32153716683387756, 'learning_rate': 2.4535727932747423e-05, 'epoch': 1.96}
  8%|▊         | 6425/78504 [3:54:20<56:51:14,  2.84s/it]  8%|▊         | 6426/78504 [3:54:23<54:41:21,  2.73s/it]                                                         {'loss': 0.063, 'grad_norm': 0.2655496895313263, 'learning_rate': 2.4539549102025222e-05, 'epoch': 1.96}
  8%|▊         | 6426/78504 [3:54:23<54:41:21,  2.73s/it]  8%|▊         | 6427/78504 [3:54:25<51:55:15,  2.59s/it]                                                         {'loss': 0.0625, 'grad_norm': 0.27964770793914795, 'learning_rate': 2.454337027130302e-05, 'epoch': 1.96}
  8%|▊         | 6427/78504 [3:54:25<51:55:15,  2.59s/it]  8%|▊         | 6428/78504 [3:54:27<50:21:37,  2.52s/it]                                                         {'loss': 0.06, 'grad_norm': 0.26895666122436523, 'learning_rate': 2.454719144058082e-05, 'epoch': 1.97}
  8%|▊         | 6428/78504 [3:54:27<50:21:37,  2.52s/it]  8%|▊         | 6429/78504 [3:54:29<47:54:18,  2.39s/it]                                                         {'loss': 0.0727, 'grad_norm': 0.4025997817516327, 'learning_rate': 2.4551012609858618e-05, 'epoch': 1.97}
  8%|▊         | 6429/78504 [3:54:29<47:54:18,  2.39s/it]  8%|▊         | 6430/78504 [3:54:31<46:40:15,  2.33s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.3106488287448883, 'learning_rate': 2.4554833779136417e-05, 'epoch': 1.97}
  8%|▊         | 6430/78504 [3:54:31<46:40:15,  2.33s/it]  8%|▊         | 6431/78504 [3:54:34<45:36:22,  2.28s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.9413407444953918, 'learning_rate': 2.4558654948414216e-05, 'epoch': 1.97}
  8%|▊         | 6431/78504 [3:54:34<45:36:22,  2.28s/it]  8%|▊         | 6432/78504 [3:54:36<44:08:34,  2.20s/it]                                                         {'loss': 0.1202, 'grad_norm': 0.5722661018371582, 'learning_rate': 2.4562476117692014e-05, 'epoch': 1.97}
  8%|▊         | 6432/78504 [3:54:36<44:08:34,  2.20s/it]  8%|▊         | 6433/78504 [3:54:37<41:44:25,  2.08s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.34863847494125366, 'learning_rate': 2.4566297286969813e-05, 'epoch': 1.97}
  8%|▊         | 6433/78504 [3:54:37<41:44:25,  2.08s/it]  8%|▊         | 6434/78504 [3:54:39<40:32:14,  2.02s/it]                                                         {'loss': 0.136, 'grad_norm': 0.4721043109893799, 'learning_rate': 2.4570118456247612e-05, 'epoch': 1.97}
  8%|▊         | 6434/78504 [3:54:39<40:32:14,  2.02s/it]  8%|▊         | 6435/78504 [3:54:41<38:42:59,  1.93s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.486040323972702, 'learning_rate': 2.457393962552541e-05, 'epoch': 1.97}
  8%|▊         | 6435/78504 [3:54:41<38:42:59,  1.93s/it]  8%|▊         | 6436/78504 [3:54:43<37:46:06,  1.89s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.9454801082611084, 'learning_rate': 2.4577760794803213e-05, 'epoch': 1.97}
  8%|▊         | 6436/78504 [3:54:43<37:46:06,  1.89s/it]  8%|▊         | 6437/78504 [3:54:44<36:22:59,  1.82s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.6967118382453918, 'learning_rate': 2.458158196408101e-05, 'epoch': 1.97}
  8%|▊         | 6437/78504 [3:54:44<36:22:59,  1.82s/it]  8%|▊         | 6438/78504 [3:54:46<34:34:58,  1.73s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.8694626688957214, 'learning_rate': 2.458540313335881e-05, 'epoch': 1.97}
  8%|▊         | 6438/78504 [3:54:46<34:34:58,  1.73s/it]  8%|▊         | 6439/78504 [3:54:47<32:47:32,  1.64s/it]                                                         {'loss': 0.2078, 'grad_norm': 0.838963508605957, 'learning_rate': 2.458922430263661e-05, 'epoch': 1.97}
  8%|▊         | 6439/78504 [3:54:47<32:47:32,  1.64s/it]  8%|▊         | 6440/78504 [3:54:49<31:25:16,  1.57s/it]                                                         {'loss': 0.2116, 'grad_norm': 0.6944082975387573, 'learning_rate': 2.4593045471914408e-05, 'epoch': 1.97}
  8%|▊         | 6440/78504 [3:54:49<31:25:16,  1.57s/it]  8%|▊         | 6441/78504 [3:54:50<29:21:02,  1.47s/it]                                                         {'loss': 0.2266, 'grad_norm': 0.9179471731185913, 'learning_rate': 2.4596866641192207e-05, 'epoch': 1.97}
  8%|▊         | 6441/78504 [3:54:50<29:21:02,  1.47s/it]  8%|▊         | 6442/78504 [3:54:51<27:20:23,  1.37s/it]                                                         {'loss': 0.2513, 'grad_norm': 1.3293588161468506, 'learning_rate': 2.4600687810470005e-05, 'epoch': 1.97}
  8%|▊         | 6442/78504 [3:54:51<27:20:23,  1.37s/it]  8%|▊         | 6443/78504 [3:54:52<25:40:05,  1.28s/it]                                                         {'loss': 0.2233, 'grad_norm': 0.8330287933349609, 'learning_rate': 2.4604508979747804e-05, 'epoch': 1.97}
  8%|▊         | 6443/78504 [3:54:52<25:40:05,  1.28s/it]  8%|▊         | 6444/78504 [3:54:53<23:56:19,  1.20s/it]                                                         {'loss': 0.2256, 'grad_norm': 1.3240280151367188, 'learning_rate': 2.4608330149025603e-05, 'epoch': 1.97}
  8%|▊         | 6444/78504 [3:54:53<23:56:19,  1.20s/it]  8%|▊         | 6445/78504 [3:54:54<22:30:11,  1.12s/it]                                                         {'loss': 0.2679, 'grad_norm': 1.4119774103164673, 'learning_rate': 2.46121513183034e-05, 'epoch': 1.97}
  8%|▊         | 6445/78504 [3:54:54<22:30:11,  1.12s/it]  8%|▊         | 6446/78504 [3:54:55<20:28:21,  1.02s/it]                                                         {'loss': 0.3104, 'grad_norm': 2.992941379547119, 'learning_rate': 2.46159724875812e-05, 'epoch': 1.97}
  8%|▊         | 6446/78504 [3:54:55<20:28:21,  1.02s/it]  8%|▊         | 6447/78504 [3:55:04<70:04:05,  3.50s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.4402484893798828, 'learning_rate': 2.4619793656859e-05, 'epoch': 1.97}
  8%|▊         | 6447/78504 [3:55:04<70:04:05,  3.50s/it]  8%|▊         | 6448/78504 [3:55:08<68:52:47,  3.44s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.4197898209095001, 'learning_rate': 2.4623614826136798e-05, 'epoch': 1.97}
  8%|▊         | 6448/78504 [3:55:08<68:52:47,  3.44s/it]  8%|▊         | 6449/78504 [3:55:11<66:06:41,  3.30s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.3764101266860962, 'learning_rate': 2.4627435995414596e-05, 'epoch': 1.97}
  8%|▊         | 6449/78504 [3:55:11<66:06:41,  3.30s/it]  8%|▊         | 6450/78504 [3:55:13<61:50:04,  3.09s/it]                                                         {'loss': 0.0601, 'grad_norm': 0.2608382999897003, 'learning_rate': 2.4631257164692395e-05, 'epoch': 1.97}
  8%|▊         | 6450/78504 [3:55:13<61:50:04,  3.09s/it]  8%|▊         | 6451/78504 [3:55:16<58:12:58,  2.91s/it]                                                         {'loss': 0.0466, 'grad_norm': 0.2405189722776413, 'learning_rate': 2.4635078333970197e-05, 'epoch': 1.97}
  8%|▊         | 6451/78504 [3:55:16<58:12:58,  2.91s/it]  8%|▊         | 6452/78504 [3:55:18<54:56:03,  2.74s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.3313518762588501, 'learning_rate': 2.4638899503247996e-05, 'epoch': 1.97}
  8%|▊         | 6452/78504 [3:55:18<54:56:03,  2.74s/it]  8%|▊         | 6453/78504 [3:55:20<52:44:50,  2.64s/it]                                                         {'loss': 0.068, 'grad_norm': 0.3600405156612396, 'learning_rate': 2.4642720672525795e-05, 'epoch': 1.97}
  8%|▊         | 6453/78504 [3:55:20<52:44:50,  2.64s/it]  8%|▊         | 6454/78504 [3:55:22<49:29:29,  2.47s/it]                                                         {'loss': 0.0526, 'grad_norm': 0.3862208425998688, 'learning_rate': 2.4646541841803594e-05, 'epoch': 1.97}
  8%|▊         | 6454/78504 [3:55:22<49:29:29,  2.47s/it]  8%|▊         | 6455/78504 [3:55:25<46:54:11,  2.34s/it]                                                         {'loss': 0.1093, 'grad_norm': 0.35938259959220886, 'learning_rate': 2.4650363011081392e-05, 'epoch': 1.97}
  8%|▊         | 6455/78504 [3:55:25<46:54:11,  2.34s/it]  8%|▊         | 6456/78504 [3:55:27<45:40:15,  2.28s/it]                                                         {'loss': 0.0769, 'grad_norm': 0.3392852544784546, 'learning_rate': 2.465418418035919e-05, 'epoch': 1.97}
  8%|▊         | 6456/78504 [3:55:27<45:40:15,  2.28s/it]  8%|▊         | 6457/78504 [3:55:29<44:06:12,  2.20s/it]                                                         {'loss': 0.1145, 'grad_norm': 0.47768282890319824, 'learning_rate': 2.465800534963699e-05, 'epoch': 1.97}
  8%|▊         | 6457/78504 [3:55:29<44:06:12,  2.20s/it]  8%|▊         | 6458/78504 [3:55:31<42:43:38,  2.14s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.4273030757904053, 'learning_rate': 2.466182651891479e-05, 'epoch': 1.97}
  8%|▊         | 6458/78504 [3:55:31<42:43:38,  2.14s/it]  8%|▊         | 6459/78504 [3:55:32<41:05:13,  2.05s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.41851380467414856, 'learning_rate': 2.4665647688192587e-05, 'epoch': 1.97}
  8%|▊         | 6459/78504 [3:55:33<41:05:13,  2.05s/it]  8%|▊         | 6460/78504 [3:55:34<39:53:20,  1.99s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.46019068360328674, 'learning_rate': 2.4669468857470386e-05, 'epoch': 1.97}
  8%|▊         | 6460/78504 [3:55:34<39:53:20,  1.99s/it]  8%|▊         | 6461/78504 [3:55:36<38:26:46,  1.92s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.9394958019256592, 'learning_rate': 2.4673290026748185e-05, 'epoch': 1.98}
  8%|▊         | 6461/78504 [3:55:36<38:26:46,  1.92s/it]  8%|▊         | 6462/78504 [3:55:38<36:18:58,  1.81s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.6411716938018799, 'learning_rate': 2.4677111196025984e-05, 'epoch': 1.98}
  8%|▊         | 6462/78504 [3:55:38<36:18:58,  1.81s/it]  8%|▊         | 6463/78504 [3:55:39<34:36:46,  1.73s/it]                                                         {'loss': 0.1781, 'grad_norm': 3.522366762161255, 'learning_rate': 2.4680932365303782e-05, 'epoch': 1.98}
  8%|▊         | 6463/78504 [3:55:39<34:36:46,  1.73s/it]  8%|▊         | 6464/78504 [3:55:41<32:59:35,  1.65s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.8914021253585815, 'learning_rate': 2.468475353458158e-05, 'epoch': 1.98}
  8%|▊         | 6464/78504 [3:55:41<32:59:35,  1.65s/it]  8%|▊         | 6465/78504 [3:55:42<31:31:21,  1.58s/it]                                                         {'loss': 0.2372, 'grad_norm': 0.7525367736816406, 'learning_rate': 2.468857470385938e-05, 'epoch': 1.98}
  8%|▊         | 6465/78504 [3:55:42<31:31:21,  1.58s/it]  8%|▊         | 6466/78504 [3:55:43<29:43:14,  1.49s/it]                                                         {'loss': 0.1987, 'grad_norm': 0.8523505330085754, 'learning_rate': 2.469239587313718e-05, 'epoch': 1.98}
  8%|▊         | 6466/78504 [3:55:43<29:43:14,  1.49s/it]  8%|▊         | 6467/78504 [3:55:44<27:33:54,  1.38s/it]                                                         {'loss': 0.2329, 'grad_norm': 1.0476020574569702, 'learning_rate': 2.469621704241498e-05, 'epoch': 1.98}
  8%|▊         | 6467/78504 [3:55:44<27:33:54,  1.38s/it]  8%|▊         | 6468/78504 [3:55:46<25:53:39,  1.29s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.9454726576805115, 'learning_rate': 2.470003821169278e-05, 'epoch': 1.98}
  8%|▊         | 6468/78504 [3:55:46<25:53:39,  1.29s/it]  8%|▊         | 6469/78504 [3:55:47<23:57:13,  1.20s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.1950355768203735, 'learning_rate': 2.4703859380970578e-05, 'epoch': 1.98}
  8%|▊         | 6469/78504 [3:55:47<23:57:13,  1.20s/it]  8%|▊         | 6470/78504 [3:55:47<22:17:31,  1.11s/it]                                                         {'loss': 0.2241, 'grad_norm': 1.172938585281372, 'learning_rate': 2.4707680550248377e-05, 'epoch': 1.98}
  8%|▊         | 6470/78504 [3:55:47<22:17:31,  1.11s/it]  8%|▊         | 6471/78504 [3:55:48<20:13:16,  1.01s/it]                                                         {'loss': 0.3473, 'grad_norm': 1.7906919717788696, 'learning_rate': 2.4711501719526176e-05, 'epoch': 1.98}
  8%|▊         | 6471/78504 [3:55:48<20:13:16,  1.01s/it]  8%|▊         | 6472/78504 [3:55:56<63:00:40,  3.15s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.561165988445282, 'learning_rate': 2.4715322888803974e-05, 'epoch': 1.98}
  8%|▊         | 6472/78504 [3:55:56<63:00:40,  3.15s/it]  8%|▊         | 6473/78504 [3:56:00<62:56:28,  3.15s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.23951365053653717, 'learning_rate': 2.4719144058081773e-05, 'epoch': 1.98}
  8%|▊         | 6473/78504 [3:56:00<62:56:28,  3.15s/it]  8%|▊         | 6474/78504 [3:56:02<59:32:19,  2.98s/it]                                                         {'loss': 0.0961, 'grad_norm': 0.49035215377807617, 'learning_rate': 2.4722965227359572e-05, 'epoch': 1.98}
  8%|▊         | 6474/78504 [3:56:02<59:32:19,  2.98s/it]  8%|▊         | 6475/78504 [3:56:05<57:13:33,  2.86s/it]                                                         {'loss': 0.0816, 'grad_norm': 0.4401525855064392, 'learning_rate': 2.472678639663737e-05, 'epoch': 1.98}
  8%|▊         | 6475/78504 [3:56:05<57:13:33,  2.86s/it]  8%|▊         | 6476/78504 [3:56:07<54:16:38,  2.71s/it]                                                         {'loss': 0.0743, 'grad_norm': 0.3011339604854584, 'learning_rate': 2.473060756591517e-05, 'epoch': 1.98}
  8%|▊         | 6476/78504 [3:56:07<54:16:38,  2.71s/it]  8%|▊         | 6477/78504 [3:56:09<51:34:49,  2.58s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.384479284286499, 'learning_rate': 2.4734428735192968e-05, 'epoch': 1.98}
  8%|▊         | 6477/78504 [3:56:09<51:34:49,  2.58s/it]  8%|▊         | 6478/78504 [3:56:12<50:01:09,  2.50s/it]                                                         {'loss': 0.0598, 'grad_norm': 0.34582215547561646, 'learning_rate': 2.4738249904470767e-05, 'epoch': 1.98}
  8%|▊         | 6478/78504 [3:56:12<50:01:09,  2.50s/it]  8%|▊         | 6479/78504 [3:56:14<47:35:54,  2.38s/it]                                                         {'loss': 0.0577, 'grad_norm': 0.2936725914478302, 'learning_rate': 2.4742071073748566e-05, 'epoch': 1.98}
  8%|▊         | 6479/78504 [3:56:14<47:35:54,  2.38s/it]  8%|▊         | 6480/78504 [3:56:16<45:30:27,  2.27s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.33807873725891113, 'learning_rate': 2.4745892243026364e-05, 'epoch': 1.98}
  8%|▊         | 6480/78504 [3:56:16<45:30:27,  2.27s/it]  8%|▊         | 6481/78504 [3:56:18<44:42:39,  2.23s/it]                                                         {'loss': 0.0745, 'grad_norm': 1.9860621690750122, 'learning_rate': 2.4749713412304163e-05, 'epoch': 1.98}
  8%|▊         | 6481/78504 [3:56:18<44:42:39,  2.23s/it]  8%|▊         | 6482/78504 [3:56:20<43:15:47,  2.16s/it]                                                         {'loss': 0.102, 'grad_norm': 0.4665187895298004, 'learning_rate': 2.4753534581581965e-05, 'epoch': 1.98}
  8%|▊         | 6482/78504 [3:56:20<43:15:47,  2.16s/it]  8%|▊         | 6483/78504 [3:56:22<41:52:18,  2.09s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.5357497930526733, 'learning_rate': 2.4757355750859764e-05, 'epoch': 1.98}
  8%|▊         | 6483/78504 [3:56:22<41:52:18,  2.09s/it]  8%|▊         | 6484/78504 [3:56:24<40:33:36,  2.03s/it]                                                         {'loss': 0.106, 'grad_norm': 0.5349212288856506, 'learning_rate': 2.4761176920137563e-05, 'epoch': 1.98}
  8%|▊         | 6484/78504 [3:56:24<40:33:36,  2.03s/it]  8%|▊         | 6485/78504 [3:56:25<38:34:49,  1.93s/it]                                                         {'loss': 0.137, 'grad_norm': 0.4201314151287079, 'learning_rate': 2.476499808941536e-05, 'epoch': 1.98}
  8%|▊         | 6485/78504 [3:56:25<38:34:49,  1.93s/it]  8%|▊         | 6486/78504 [3:56:27<37:17:16,  1.86s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.7408223748207092, 'learning_rate': 2.476881925869316e-05, 'epoch': 1.98}
  8%|▊         | 6486/78504 [3:56:27<37:17:16,  1.86s/it]  8%|▊         | 6487/78504 [3:56:29<35:58:02,  1.80s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.7512788772583008, 'learning_rate': 2.477264042797096e-05, 'epoch': 1.98}
  8%|▊         | 6487/78504 [3:56:29<35:58:02,  1.80s/it]  8%|▊         | 6488/78504 [3:56:30<34:40:46,  1.73s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5963612794876099, 'learning_rate': 2.4776461597248758e-05, 'epoch': 1.98}
  8%|▊         | 6488/78504 [3:56:30<34:40:46,  1.73s/it]  8%|▊         | 6489/78504 [3:56:32<32:46:23,  1.64s/it]                                                         {'loss': 0.2034, 'grad_norm': 1.0753231048583984, 'learning_rate': 2.4780282766526556e-05, 'epoch': 1.98}
  8%|▊         | 6489/78504 [3:56:32<32:46:23,  1.64s/it]  8%|▊         | 6490/78504 [3:56:33<31:23:41,  1.57s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.49320194125175476, 'learning_rate': 2.4784103935804355e-05, 'epoch': 1.98}
  8%|▊         | 6490/78504 [3:56:33<31:23:41,  1.57s/it]  8%|▊         | 6491/78504 [3:56:34<29:19:57,  1.47s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.716719925403595, 'learning_rate': 2.4787925105082154e-05, 'epoch': 1.98}
  8%|▊         | 6491/78504 [3:56:34<29:19:57,  1.47s/it]  8%|▊         | 6492/78504 [3:56:36<27:18:53,  1.37s/it]                                                         {'loss': 0.2165, 'grad_norm': 1.981894850730896, 'learning_rate': 2.4791746274359953e-05, 'epoch': 1.98}
  8%|▊         | 6492/78504 [3:56:36<27:18:53,  1.37s/it]  8%|▊         | 6493/78504 [3:56:37<25:40:41,  1.28s/it]                                                         {'loss': 0.2108, 'grad_norm': 1.0197778940200806, 'learning_rate': 2.479556744363775e-05, 'epoch': 1.99}
  8%|▊         | 6493/78504 [3:56:37<25:40:41,  1.28s/it]  8%|▊         | 6494/78504 [3:56:38<23:50:38,  1.19s/it]                                                         {'loss': 0.2265, 'grad_norm': 0.8590005040168762, 'learning_rate': 2.479938861291555e-05, 'epoch': 1.99}
  8%|▊         | 6494/78504 [3:56:38<23:50:38,  1.19s/it]  8%|▊         | 6495/78504 [3:56:39<22:13:35,  1.11s/it]                                                         {'loss': 0.2468, 'grad_norm': 3.9505279064178467, 'learning_rate': 2.4803209782193352e-05, 'epoch': 1.99}
  8%|▊         | 6495/78504 [3:56:39<22:13:35,  1.11s/it]  8%|▊         | 6496/78504 [3:56:39<20:04:21,  1.00s/it]                                                         {'loss': 0.3019, 'grad_norm': 2.2292428016662598, 'learning_rate': 2.480703095147115e-05, 'epoch': 1.99}
  8%|▊         | 6496/78504 [3:56:39<20:04:21,  1.00s/it]  8%|▊         | 6497/78504 [3:56:47<58:49:23,  2.94s/it]                                                         {'loss': 0.1894, 'grad_norm': 0.5055639743804932, 'learning_rate': 2.481085212074895e-05, 'epoch': 1.99}
  8%|▊         | 6497/78504 [3:56:47<58:49:23,  2.94s/it]  8%|▊         | 6498/78504 [3:56:50<60:58:08,  3.05s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.4407506585121155, 'learning_rate': 2.4814673290026752e-05, 'epoch': 1.99}
  8%|▊         | 6498/78504 [3:56:50<60:58:08,  3.05s/it]  8%|▊         | 6499/78504 [3:56:53<58:58:53,  2.95s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.28371864557266235, 'learning_rate': 2.481849445930455e-05, 'epoch': 1.99}
  8%|▊         | 6499/78504 [3:56:53<58:58:53,  2.95s/it]  8%|▊         | 6500/78504 [3:56:55<56:49:05,  2.84s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.2951236069202423, 'learning_rate': 2.482231562858235e-05, 'epoch': 1.99}
  8%|▊         | 6500/78504 [3:56:55<56:49:05,  2.84s/it]  8%|▊         | 6501/78504 [3:56:58<53:55:34,  2.70s/it]                                                         {'loss': 0.0638, 'grad_norm': 0.31010133028030396, 'learning_rate': 2.4826136797860148e-05, 'epoch': 1.99}
  8%|▊         | 6501/78504 [3:56:58<53:55:34,  2.70s/it]  8%|▊         | 6502/78504 [3:57:00<51:18:04,  2.56s/it]                                                         {'loss': 0.0959, 'grad_norm': 0.5503721237182617, 'learning_rate': 2.4829957967137947e-05, 'epoch': 1.99}
  8%|▊         | 6502/78504 [3:57:00<51:18:04,  2.56s/it]  8%|▊         | 6503/78504 [3:57:02<49:50:27,  2.49s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.27418068051338196, 'learning_rate': 2.4833779136415746e-05, 'epoch': 1.99}
  8%|▊         | 6503/78504 [3:57:02<49:50:27,  2.49s/it]  8%|▊         | 6504/78504 [3:57:04<47:26:22,  2.37s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.27971041202545166, 'learning_rate': 2.4837600305693544e-05, 'epoch': 1.99}
  8%|▊         | 6504/78504 [3:57:04<47:26:22,  2.37s/it]  8%|▊         | 6505/78504 [3:57:06<45:24:34,  2.27s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.41813308000564575, 'learning_rate': 2.4841421474971343e-05, 'epoch': 1.99}
  8%|▊         | 6505/78504 [3:57:06<45:24:34,  2.27s/it]  8%|▊         | 6506/78504 [3:57:09<44:36:50,  2.23s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.29509228467941284, 'learning_rate': 2.4845242644249142e-05, 'epoch': 1.99}
  8%|▊         | 6506/78504 [3:57:09<44:36:50,  2.23s/it]  8%|▊         | 6507/78504 [3:57:11<43:20:42,  2.17s/it]                                                         {'loss': 0.1033, 'grad_norm': 0.4498313069343567, 'learning_rate': 2.484906381352694e-05, 'epoch': 1.99}
  8%|▊         | 6507/78504 [3:57:11<43:20:42,  2.17s/it]  8%|▊         | 6508/78504 [3:57:13<42:12:36,  2.11s/it]                                                         {'loss': 0.0683, 'grad_norm': 0.3962278962135315, 'learning_rate': 2.485288498280474e-05, 'epoch': 1.99}
  8%|▊         | 6508/78504 [3:57:13<42:12:36,  2.11s/it]  8%|▊         | 6509/78504 [3:57:14<40:44:32,  2.04s/it]                                                         {'loss': 0.1135, 'grad_norm': 0.6496415734291077, 'learning_rate': 2.4856706152082538e-05, 'epoch': 1.99}
  8%|▊         | 6509/78504 [3:57:14<40:44:32,  2.04s/it]  8%|▊         | 6510/78504 [3:57:16<38:41:27,  1.93s/it]                                                         {'loss': 0.1398, 'grad_norm': 0.4678172469139099, 'learning_rate': 2.4860527321360337e-05, 'epoch': 1.99}
  8%|▊         | 6510/78504 [3:57:16<38:41:27,  1.93s/it]  8%|▊         | 6511/78504 [3:57:18<37:24:57,  1.87s/it]                                                         {'loss': 0.1484, 'grad_norm': 0.45723381638526917, 'learning_rate': 2.4864348490638136e-05, 'epoch': 1.99}
  8%|▊         | 6511/78504 [3:57:18<37:24:57,  1.87s/it]  8%|▊         | 6512/78504 [3:57:19<35:59:41,  1.80s/it]                                                         {'loss': 0.149, 'grad_norm': 0.8440402746200562, 'learning_rate': 2.4868169659915934e-05, 'epoch': 1.99}
  8%|▊         | 6512/78504 [3:57:19<35:59:41,  1.80s/it]  8%|▊         | 6513/78504 [3:57:21<34:14:23,  1.71s/it]                                                         {'loss': 0.1711, 'grad_norm': 1.0793875455856323, 'learning_rate': 2.4871990829193736e-05, 'epoch': 1.99}
  8%|▊         | 6513/78504 [3:57:21<34:14:23,  1.71s/it]  8%|▊         | 6514/78504 [3:57:22<32:45:05,  1.64s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.5682001709938049, 'learning_rate': 2.4875811998471535e-05, 'epoch': 1.99}
  8%|▊         | 6514/78504 [3:57:22<32:45:05,  1.64s/it]  8%|▊         | 6515/78504 [3:57:24<31:22:58,  1.57s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.8755152821540833, 'learning_rate': 2.4879633167749334e-05, 'epoch': 1.99}
  8%|▊         | 6515/78504 [3:57:24<31:22:58,  1.57s/it]  8%|▊         | 6516/78504 [3:57:25<29:14:54,  1.46s/it]                                                         {'loss': 0.18, 'grad_norm': 0.8324375748634338, 'learning_rate': 2.4883454337027133e-05, 'epoch': 1.99}
  8%|▊         | 6516/78504 [3:57:25<29:14:54,  1.46s/it]  8%|▊         | 6517/78504 [3:57:26<27:11:38,  1.36s/it]                                                         {'loss': 0.3639, 'grad_norm': 1.8006850481033325, 'learning_rate': 2.488727550630493e-05, 'epoch': 1.99}
  8%|▊         | 6517/78504 [3:57:26<27:11:38,  1.36s/it]  8%|▊         | 6518/78504 [3:57:27<25:32:44,  1.28s/it]                                                         {'loss': 0.207, 'grad_norm': 1.1942532062530518, 'learning_rate': 2.489109667558273e-05, 'epoch': 1.99}
  8%|▊         | 6518/78504 [3:57:27<25:32:44,  1.28s/it]  8%|▊         | 6519/78504 [3:57:28<24:09:19,  1.21s/it]                                                         {'loss': 0.213, 'grad_norm': 1.2478790283203125, 'learning_rate': 2.489491784486053e-05, 'epoch': 1.99}
  8%|▊         | 6519/78504 [3:57:28<24:09:19,  1.21s/it]  8%|▊         | 6520/78504 [3:57:29<22:26:27,  1.12s/it]                                                         {'loss': 0.2201, 'grad_norm': 1.1627511978149414, 'learning_rate': 2.4898739014138328e-05, 'epoch': 1.99}
  8%|▊         | 6520/78504 [3:57:29<22:26:27,  1.12s/it]  8%|▊         | 6521/78504 [3:57:30<20:21:47,  1.02s/it]                                                         {'loss': 0.2497, 'grad_norm': 1.3023996353149414, 'learning_rate': 2.4902560183416126e-05, 'epoch': 1.99}
  8%|▊         | 6521/78504 [3:57:30<20:21:47,  1.02s/it]  8%|▊         | 6522/78504 [3:57:38<61:10:47,  3.06s/it]                                                         {'loss': 0.1338, 'grad_norm': 0.823257327079773, 'learning_rate': 2.4906381352693925e-05, 'epoch': 1.99}
  8%|▊         | 6522/78504 [3:57:38<61:10:47,  3.06s/it]  8%|▊         | 6523/78504 [3:57:41<62:23:16,  3.12s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.46702754497528076, 'learning_rate': 2.4910202521971724e-05, 'epoch': 1.99}
  8%|▊         | 6523/78504 [3:57:41<62:23:16,  3.12s/it]  8%|▊         | 6524/78504 [3:57:44<61:12:42,  3.06s/it]                                                         {'loss': 0.082, 'grad_norm': 0.31102386116981506, 'learning_rate': 2.4914023691249523e-05, 'epoch': 1.99}
  8%|▊         | 6524/78504 [3:57:44<61:12:42,  3.06s/it]  8%|▊         | 6525/78504 [3:57:46<57:46:12,  2.89s/it]                                                         {'loss': 0.0601, 'grad_norm': 0.2779892086982727, 'learning_rate': 2.491784486052732e-05, 'epoch': 1.99}
  8%|▊         | 6525/78504 [3:57:47<57:46:12,  2.89s/it]  8%|▊         | 6526/78504 [3:57:49<54:59:42,  2.75s/it]                                                         {'loss': 0.0731, 'grad_norm': 0.45097342133522034, 'learning_rate': 2.492166602980512e-05, 'epoch': 2.0}
  8%|▊         | 6526/78504 [3:57:49<54:59:42,  2.75s/it]  8%|▊         | 6527/78504 [3:57:51<52:26:24,  2.62s/it]                                                         {'loss': 0.0624, 'grad_norm': 0.3124569356441498, 'learning_rate': 2.492548719908292e-05, 'epoch': 2.0}
  8%|▊         | 6527/78504 [3:57:51<52:26:24,  2.62s/it]  8%|▊         | 6528/78504 [3:57:53<50:13:55,  2.51s/it]                                                         {'loss': 0.0719, 'grad_norm': 0.2963085472583771, 'learning_rate': 2.4929308368360718e-05, 'epoch': 2.0}
  8%|▊         | 6528/78504 [3:57:54<50:13:55,  2.51s/it]  8%|▊         | 6529/78504 [3:57:56<48:14:00,  2.41s/it]                                                         {'loss': 0.0808, 'grad_norm': 0.38628706336021423, 'learning_rate': 2.493312953763852e-05, 'epoch': 2.0}
  8%|▊         | 6529/78504 [3:57:56<48:14:00,  2.41s/it]  8%|▊         | 6530/78504 [3:57:58<45:21:44,  2.27s/it]                                                         {'loss': 0.1032, 'grad_norm': 0.4163617193698883, 'learning_rate': 2.493695070691632e-05, 'epoch': 2.0}
  8%|▊         | 6530/78504 [3:57:58<45:21:44,  2.27s/it]  8%|▊         | 6531/78504 [3:58:00<43:37:11,  2.18s/it]                                                         {'loss': 0.1048, 'grad_norm': 0.5129755139350891, 'learning_rate': 2.4940771876194117e-05, 'epoch': 2.0}
  8%|▊         | 6531/78504 [3:58:00<43:37:11,  2.18s/it]  8%|▊         | 6532/78504 [3:58:01<41:41:57,  2.09s/it]                                                         {'loss': 0.1265, 'grad_norm': 0.8491182327270508, 'learning_rate': 2.4944593045471916e-05, 'epoch': 2.0}
  8%|▊         | 6532/78504 [3:58:01<41:41:57,  2.09s/it]  8%|▊         | 6533/78504 [3:58:03<40:08:45,  2.01s/it]                                                         {'loss': 0.1428, 'grad_norm': 0.8314477205276489, 'learning_rate': 2.4948414214749715e-05, 'epoch': 2.0}
  8%|▊         | 6533/78504 [3:58:03<40:08:45,  2.01s/it]  8%|▊         | 6534/78504 [3:58:05<37:27:50,  1.87s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.6714627742767334, 'learning_rate': 2.4952235384027514e-05, 'epoch': 2.0}
  8%|▊         | 6534/78504 [3:58:05<37:27:50,  1.87s/it]  8%|▊         | 6535/78504 [3:58:06<35:17:39,  1.77s/it]                                                         {'loss': 0.213, 'grad_norm': 1.0651665925979614, 'learning_rate': 2.4956056553305312e-05, 'epoch': 2.0}
  8%|▊         | 6535/78504 [3:58:06<35:17:39,  1.77s/it]  8%|▊         | 6536/78504 [3:58:08<33:32:30,  1.68s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.6256597638130188, 'learning_rate': 2.495987772258311e-05, 'epoch': 2.0}
  8%|▊         | 6536/78504 [3:58:08<33:32:30,  1.68s/it]  8%|▊         | 6537/78504 [3:58:09<31:08:45,  1.56s/it]                                                         {'loss': 0.2073, 'grad_norm': 1.0650641918182373, 'learning_rate': 2.496369889186091e-05, 'epoch': 2.0}
  8%|▊         | 6537/78504 [3:58:09<31:08:45,  1.56s/it]  8%|▊         | 6538/78504 [3:58:10<29:01:09,  1.45s/it]                                                         {'loss': 0.2569, 'grad_norm': 1.3185615539550781, 'learning_rate': 2.496752006113871e-05, 'epoch': 2.0}
  8%|▊         | 6538/78504 [3:58:10<29:01:09,  1.45s/it]  8%|▊         | 6539/78504 [3:58:11<26:43:37,  1.34s/it]                                                         {'loss': 0.2179, 'grad_norm': 1.1953219175338745, 'learning_rate': 2.4971341230416507e-05, 'epoch': 2.0}
  8%|▊         | 6539/78504 [3:58:11<26:43:37,  1.34s/it]  8%|▊         | 6540/78504 [3:58:12<24:36:16,  1.23s/it]                                                         {'loss': 0.2283, 'grad_norm': 1.0475904941558838, 'learning_rate': 2.4975162399694306e-05, 'epoch': 2.0}
  8%|▊         | 6540/78504 [3:58:12<24:36:16,  1.23s/it]  8%|▊         | 6541/78504 [3:58:13<22:25:10,  1.12s/it]                                                         {'loss': 0.2403, 'grad_norm': 1.6295173168182373, 'learning_rate': 2.4978983568972105e-05, 'epoch': 2.0}
  8%|▊         | 6541/78504 [3:58:13<22:25:10,  1.12s/it]  8%|▊         | 6542/78504 [3:58:26<91:23:23,  4.57s/it]                                                         {'loss': 0.2615, 'grad_norm': 1.7590538263320923, 'learning_rate': 2.4982804738249903e-05, 'epoch': 2.0}
  8%|▊         | 6542/78504 [3:58:26<91:23:23,  4.57s/it]  8%|▊         | 6543/78504 [3:58:54<231:08:40, 11.56s/it]                                                          {'loss': 0.1631, 'grad_norm': 0.42448705434799194, 'learning_rate': 2.4986625907527702e-05, 'epoch': 2.0}
  8%|▊         | 6543/78504 [3:58:54<231:08:40, 11.56s/it]  8%|▊         | 6544/78504 [3:58:57<181:31:27,  9.08s/it]                                                          {'loss': 0.0812, 'grad_norm': 1.2494852542877197, 'learning_rate': 2.4990447076805504e-05, 'epoch': 2.0}
  8%|▊         | 6544/78504 [3:58:57<181:31:27,  9.08s/it]  8%|▊         | 6545/78504 [3:59:00<145:10:44,  7.26s/it]                                                          {'loss': 0.0939, 'grad_norm': 0.4665374755859375, 'learning_rate': 2.4994268246083303e-05, 'epoch': 2.0}
  8%|▊         | 6545/78504 [3:59:00<145:10:44,  7.26s/it]  8%|▊         | 6546/78504 [3:59:03<117:16:56,  5.87s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.8085682988166809, 'learning_rate': 2.4998089415361102e-05, 'epoch': 2.0}
  8%|▊         | 6546/78504 [3:59:03<117:16:56,  5.87s/it]  8%|▊         | 6547/78504 [3:59:05<96:52:40,  4.85s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.21420708298683167, 'learning_rate': 2.50019105846389e-05, 'epoch': 2.0}
  8%|▊         | 6547/78504 [3:59:05<96:52:40,  4.85s/it]  8%|▊         | 6548/78504 [3:59:07<81:23:59,  4.07s/it]                                                         {'loss': 0.064, 'grad_norm': 0.4175623059272766, 'learning_rate': 2.50057317539167e-05, 'epoch': 2.0}
  8%|▊         | 6548/78504 [3:59:07<81:23:59,  4.07s/it]  8%|▊         | 6549/78504 [3:59:10<70:51:31,  3.55s/it]                                                         {'loss': 0.0599, 'grad_norm': 0.3390757739543915, 'learning_rate': 2.5009552923194498e-05, 'epoch': 2.0}
  8%|▊         | 6549/78504 [3:59:10<70:51:31,  3.55s/it]  8%|▊         | 6550/78504 [3:59:12<62:13:00,  3.11s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.47780993580818176, 'learning_rate': 2.5013374092472297e-05, 'epoch': 2.0}
  8%|▊         | 6550/78504 [3:59:12<62:13:00,  3.11s/it]  8%|▊         | 6551/78504 [3:59:14<56:37:43,  2.83s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.2411816120147705, 'learning_rate': 2.5017195261750096e-05, 'epoch': 2.0}
  8%|▊         | 6551/78504 [3:59:14<56:37:43,  2.83s/it]  8%|▊         | 6552/78504 [3:59:16<52:36:33,  2.63s/it]                                                         {'loss': 0.0874, 'grad_norm': 0.2889666259288788, 'learning_rate': 2.5021016431027894e-05, 'epoch': 2.0}
  8%|▊         | 6552/78504 [3:59:16<52:36:33,  2.63s/it]  8%|▊         | 6553/78504 [3:59:18<48:57:00,  2.45s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.5417318940162659, 'learning_rate': 2.5024837600305693e-05, 'epoch': 2.0}
  8%|▊         | 6553/78504 [3:59:18<48:57:00,  2.45s/it]  8%|▊         | 6554/78504 [3:59:20<46:05:21,  2.31s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.40776246786117554, 'learning_rate': 2.5028658769583492e-05, 'epoch': 2.0}
  8%|▊         | 6554/78504 [3:59:20<46:05:21,  2.31s/it]  8%|▊         | 6555/78504 [3:59:22<43:25:45,  2.17s/it]                                                         {'loss': 0.1067, 'grad_norm': 1.05186927318573, 'learning_rate': 2.503247993886129e-05, 'epoch': 2.0}
  8%|▊         | 6555/78504 [3:59:22<43:25:45,  2.17s/it]  8%|▊         | 6556/78504 [3:59:24<41:23:55,  2.07s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.6957182884216309, 'learning_rate': 2.503630110813909e-05, 'epoch': 2.0}
  8%|▊         | 6556/78504 [3:59:24<41:23:55,  2.07s/it]  8%|▊         | 6557/78504 [3:59:26<39:34:26,  1.98s/it]                                                         {'loss': 0.1274, 'grad_norm': 0.4188138544559479, 'learning_rate': 2.5040122277416888e-05, 'epoch': 2.0}
  8%|▊         | 6557/78504 [3:59:26<39:34:26,  1.98s/it]  8%|▊         | 6558/78504 [3:59:27<37:32:45,  1.88s/it]                                                         {'loss': 0.1621, 'grad_norm': 0.5747617483139038, 'learning_rate': 2.5043943446694687e-05, 'epoch': 2.0}
  8%|▊         | 6558/78504 [3:59:27<37:32:45,  1.88s/it]  8%|▊         | 6559/78504 [3:59:29<35:29:07,  1.78s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.7366291880607605, 'learning_rate': 2.5047764615972486e-05, 'epoch': 2.01}
  8%|▊         | 6559/78504 [3:59:29<35:29:07,  1.78s/it]  8%|▊         | 6560/78504 [3:59:30<33:38:01,  1.68s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.7308005094528198, 'learning_rate': 2.5051585785250288e-05, 'epoch': 2.01}
  8%|▊         | 6560/78504 [3:59:30<33:38:01,  1.68s/it]  8%|▊         | 6561/78504 [3:59:32<32:03:22,  1.60s/it]                                                         {'loss': 0.1838, 'grad_norm': 1.587412714958191, 'learning_rate': 2.5055406954528086e-05, 'epoch': 2.01}
  8%|▊         | 6561/78504 [3:59:32<32:03:22,  1.60s/it]  8%|▊         | 6562/78504 [3:59:33<30:06:42,  1.51s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.7659873962402344, 'learning_rate': 2.5059228123805885e-05, 'epoch': 2.01}
  8%|▊         | 6562/78504 [3:59:33<30:06:42,  1.51s/it]  8%|▊         | 6563/78504 [3:59:34<27:55:48,  1.40s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.9573981165885925, 'learning_rate': 2.5063049293083684e-05, 'epoch': 2.01}
  8%|▊         | 6563/78504 [3:59:34<27:55:48,  1.40s/it]  8%|▊         | 6564/78504 [3:59:35<26:12:52,  1.31s/it]                                                         {'loss': 0.2399, 'grad_norm': 0.9303998947143555, 'learning_rate': 2.5066870462361483e-05, 'epoch': 2.01}
  8%|▊         | 6564/78504 [3:59:35<26:12:52,  1.31s/it]  8%|▊         | 6565/78504 [3:59:36<24:40:51,  1.24s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.9674760103225708, 'learning_rate': 2.507069163163928e-05, 'epoch': 2.01}
  8%|▊         | 6565/78504 [3:59:36<24:40:51,  1.24s/it]  8%|▊         | 6566/78504 [3:59:37<22:51:28,  1.14s/it]                                                         {'loss': 0.2524, 'grad_norm': 1.0996538400650024, 'learning_rate': 2.507451280091708e-05, 'epoch': 2.01}
  8%|▊         | 6566/78504 [3:59:37<22:51:28,  1.14s/it]  8%|▊         | 6567/78504 [3:59:38<20:40:58,  1.04s/it]                                                         {'loss': 0.2698, 'grad_norm': 3.103044271469116, 'learning_rate': 2.507833397019488e-05, 'epoch': 2.01}
  8%|▊         | 6567/78504 [3:59:38<20:40:58,  1.04s/it]  8%|▊         | 6568/78504 [3:59:48<72:05:58,  3.61s/it]                                                         {'loss': 0.1421, 'grad_norm': 0.3554902672767639, 'learning_rate': 2.5082155139472678e-05, 'epoch': 2.01}
  8%|▊         | 6568/78504 [3:59:48<72:05:58,  3.61s/it]  8%|▊         | 6569/78504 [3:59:51<69:09:39,  3.46s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.346723347902298, 'learning_rate': 2.5085976308750476e-05, 'epoch': 2.01}
  8%|▊         | 6569/78504 [3:59:51<69:09:39,  3.46s/it]  8%|▊         | 6570/78504 [3:59:54<66:31:08,  3.33s/it]                                                         {'loss': 0.1107, 'grad_norm': 0.45869335532188416, 'learning_rate': 2.5089797478028275e-05, 'epoch': 2.01}
  8%|▊         | 6570/78504 [3:59:54<66:31:08,  3.33s/it]  8%|▊         | 6571/78504 [3:59:56<62:13:17,  3.11s/it]                                                         {'loss': 0.0712, 'grad_norm': 0.2325754463672638, 'learning_rate': 2.5093618647306074e-05, 'epoch': 2.01}
  8%|▊         | 6571/78504 [3:59:56<62:13:17,  3.11s/it]  8%|▊         | 6572/78504 [3:59:59<58:22:29,  2.92s/it]                                                         {'loss': 0.0606, 'grad_norm': 0.5147345662117004, 'learning_rate': 2.5097439816583873e-05, 'epoch': 2.01}
  8%|▊         | 6572/78504 [3:59:59<58:22:29,  2.92s/it]  8%|▊         | 6573/78504 [4:00:01<54:25:23,  2.72s/it]                                                         {'loss': 0.0468, 'grad_norm': 0.24115774035453796, 'learning_rate': 2.5101260985861675e-05, 'epoch': 2.01}
  8%|▊         | 6573/78504 [4:00:01<54:25:23,  2.72s/it]  8%|▊         | 6574/78504 [4:00:03<51:59:12,  2.60s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.30636242032051086, 'learning_rate': 2.5105082155139473e-05, 'epoch': 2.01}
  8%|▊         | 6574/78504 [4:00:03<51:59:12,  2.60s/it]  8%|▊         | 6575/78504 [4:00:05<49:03:13,  2.46s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.27534547448158264, 'learning_rate': 2.5108903324417272e-05, 'epoch': 2.01}
  8%|▊         | 6575/78504 [4:00:06<49:03:13,  2.46s/it]  8%|▊         | 6576/78504 [4:00:08<47:28:22,  2.38s/it]                                                         {'loss': 0.0753, 'grad_norm': 0.2691982090473175, 'learning_rate': 2.5112724493695074e-05, 'epoch': 2.01}
  8%|▊         | 6576/78504 [4:00:08<47:28:22,  2.38s/it]  8%|▊         | 6577/78504 [4:00:10<46:14:39,  2.31s/it]                                                         {'loss': 0.0826, 'grad_norm': 1.5399404764175415, 'learning_rate': 2.5116545662972873e-05, 'epoch': 2.01}
  8%|▊         | 6577/78504 [4:00:10<46:14:39,  2.31s/it]  8%|▊         | 6578/78504 [4:00:12<43:29:09,  2.18s/it]                                                         {'loss': 0.1465, 'grad_norm': 0.4233097434043884, 'learning_rate': 2.5120366832250672e-05, 'epoch': 2.01}
  8%|▊         | 6578/78504 [4:00:12<43:29:09,  2.18s/it]  8%|▊         | 6579/78504 [4:00:14<42:19:49,  2.12s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.33689001202583313, 'learning_rate': 2.512418800152847e-05, 'epoch': 2.01}
  8%|▊         | 6579/78504 [4:00:14<42:19:49,  2.12s/it]  8%|▊         | 6580/78504 [4:00:16<40:58:04,  2.05s/it]                                                         {'loss': 0.1284, 'grad_norm': 0.44457757472991943, 'learning_rate': 2.512800917080627e-05, 'epoch': 2.01}
  8%|▊         | 6580/78504 [4:00:16<40:58:04,  2.05s/it]  8%|▊         | 6581/78504 [4:00:17<39:55:04,  2.00s/it]                                                         {'loss': 0.1374, 'grad_norm': 0.9182707071304321, 'learning_rate': 2.5131830340084068e-05, 'epoch': 2.01}
  8%|▊         | 6581/78504 [4:00:17<39:55:04,  2.00s/it]  8%|▊         | 6582/78504 [4:00:19<38:32:11,  1.93s/it]                                                         {'loss': 0.1482, 'grad_norm': 0.38743266463279724, 'learning_rate': 2.5135651509361867e-05, 'epoch': 2.01}
  8%|▊         | 6582/78504 [4:00:19<38:32:11,  1.93s/it]  8%|▊         | 6583/78504 [4:00:21<36:53:14,  1.85s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.6948342323303223, 'learning_rate': 2.5139472678639666e-05, 'epoch': 2.01}
  8%|▊         | 6583/78504 [4:00:21<36:53:14,  1.85s/it]  8%|▊         | 6584/78504 [4:00:22<35:05:12,  1.76s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.48634183406829834, 'learning_rate': 2.5143293847917464e-05, 'epoch': 2.01}
  8%|▊         | 6584/78504 [4:00:22<35:05:12,  1.76s/it]  8%|▊         | 6585/78504 [4:00:24<33:20:27,  1.67s/it]                                                         {'loss': 0.1961, 'grad_norm': 3.848721981048584, 'learning_rate': 2.5147115017195263e-05, 'epoch': 2.01}
  8%|▊         | 6585/78504 [4:00:24<33:20:27,  1.67s/it]  8%|▊         | 6586/78504 [4:00:25<31:53:18,  1.60s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.163944959640503, 'learning_rate': 2.5150936186473062e-05, 'epoch': 2.01}
  8%|▊         | 6586/78504 [4:00:25<31:53:18,  1.60s/it]  8%|▊         | 6587/78504 [4:00:27<30:04:10,  1.51s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.4836474061012268, 'learning_rate': 2.515475735575086e-05, 'epoch': 2.01}
  8%|▊         | 6587/78504 [4:00:27<30:04:10,  1.51s/it]  8%|▊         | 6588/78504 [4:00:28<27:55:26,  1.40s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.9519907236099243, 'learning_rate': 2.515857852502866e-05, 'epoch': 2.01}
  8%|▊         | 6588/78504 [4:00:28<27:55:26,  1.40s/it]  8%|▊         | 6589/78504 [4:00:29<26:02:11,  1.30s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.8198890089988708, 'learning_rate': 2.5162399694306458e-05, 'epoch': 2.01}
  8%|▊         | 6589/78504 [4:00:29<26:02:11,  1.30s/it]  8%|▊         | 6590/78504 [4:00:30<24:30:52,  1.23s/it]                                                         {'loss': 0.2067, 'grad_norm': 1.0095022916793823, 'learning_rate': 2.5166220863584257e-05, 'epoch': 2.01}
  8%|▊         | 6590/78504 [4:00:30<24:30:52,  1.23s/it]  8%|▊         | 6591/78504 [4:00:31<22:40:13,  1.13s/it]                                                         {'loss': 0.2327, 'grad_norm': 1.1920913457870483, 'learning_rate': 2.517004203286206e-05, 'epoch': 2.01}
  8%|▊         | 6591/78504 [4:00:31<22:40:13,  1.13s/it]  8%|▊         | 6592/78504 [4:00:32<20:44:36,  1.04s/it]                                                         {'loss': 0.26, 'grad_norm': 4.356917858123779, 'learning_rate': 2.5173863202139858e-05, 'epoch': 2.02}
  8%|▊         | 6592/78504 [4:00:32<20:44:36,  1.04s/it]  8%|▊         | 6593/78504 [4:00:40<65:03:01,  3.26s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.6451190710067749, 'learning_rate': 2.5177684371417656e-05, 'epoch': 2.02}
  8%|▊         | 6593/78504 [4:00:40<65:03:01,  3.26s/it]  8%|▊         | 6594/78504 [4:00:43<64:20:07,  3.22s/it]                                                         {'loss': 0.1012, 'grad_norm': 0.5064073204994202, 'learning_rate': 2.5181505540695455e-05, 'epoch': 2.02}
  8%|▊         | 6594/78504 [4:00:43<64:20:07,  3.22s/it]  8%|▊         | 6595/78504 [4:00:46<62:34:51,  3.13s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.31423866748809814, 'learning_rate': 2.5185326709973254e-05, 'epoch': 2.02}
  8%|▊         | 6595/78504 [4:00:46<62:34:51,  3.13s/it]  8%|▊         | 6596/78504 [4:00:48<57:51:47,  2.90s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.3284631371498108, 'learning_rate': 2.5189147879251053e-05, 'epoch': 2.02}
  8%|▊         | 6596/78504 [4:00:48<57:51:47,  2.90s/it]  8%|▊         | 6597/78504 [4:00:51<55:17:45,  2.77s/it]                                                         {'loss': 0.0662, 'grad_norm': 0.36403656005859375, 'learning_rate': 2.519296904852885e-05, 'epoch': 2.02}
  8%|▊         | 6597/78504 [4:00:51<55:17:45,  2.77s/it]  8%|▊         | 6598/78504 [4:00:53<52:18:54,  2.62s/it]                                                         {'loss': 0.0702, 'grad_norm': 0.4861830174922943, 'learning_rate': 2.519679021780665e-05, 'epoch': 2.02}
  8%|▊         | 6598/78504 [4:00:53<52:18:54,  2.62s/it]  8%|▊         | 6599/78504 [4:00:56<50:30:54,  2.53s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.41574355959892273, 'learning_rate': 2.520061138708445e-05, 'epoch': 2.02}
  8%|▊         | 6599/78504 [4:00:56<50:30:54,  2.53s/it]  8%|▊         | 6600/78504 [4:00:58<48:02:26,  2.41s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.28512826561927795, 'learning_rate': 2.5204432556362248e-05, 'epoch': 2.02}
  8%|▊         | 6600/78504 [4:00:58<48:02:26,  2.41s/it]  8%|▊         | 6601/78504 [4:01:00<46:44:58,  2.34s/it]                                                         {'loss': 0.0677, 'grad_norm': 0.2501002252101898, 'learning_rate': 2.5208253725640046e-05, 'epoch': 2.02}
  8%|▊         | 6601/78504 [4:01:00<46:44:58,  2.34s/it]  8%|▊         | 6602/78504 [4:01:02<45:31:16,  2.28s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.3270208537578583, 'learning_rate': 2.5212074894917845e-05, 'epoch': 2.02}
  8%|▊         | 6602/78504 [4:01:02<45:31:16,  2.28s/it]  8%|▊         | 6603/78504 [4:01:04<43:00:56,  2.15s/it]                                                         {'loss': 0.1289, 'grad_norm': 0.3597809970378876, 'learning_rate': 2.5215896064195644e-05, 'epoch': 2.02}
  8%|▊         | 6603/78504 [4:01:04<43:00:56,  2.15s/it]  8%|▊         | 6604/78504 [4:01:06<42:00:49,  2.10s/it]                                                         {'loss': 0.083, 'grad_norm': 0.3771742582321167, 'learning_rate': 2.5219717233473443e-05, 'epoch': 2.02}
  8%|▊         | 6604/78504 [4:01:06<42:00:49,  2.10s/it]  8%|▊         | 6605/78504 [4:01:08<40:53:57,  2.05s/it]                                                         {'loss': 0.113, 'grad_norm': 0.4114091098308563, 'learning_rate': 2.522353840275124e-05, 'epoch': 2.02}
  8%|▊         | 6605/78504 [4:01:08<40:53:57,  2.05s/it]  8%|▊         | 6606/78504 [4:01:10<39:48:09,  1.99s/it]                                                         {'loss': 0.1487, 'grad_norm': 0.4500918984413147, 'learning_rate': 2.5227359572029043e-05, 'epoch': 2.02}
  8%|▊         | 6606/78504 [4:01:10<39:48:09,  1.99s/it]  8%|▊         | 6607/78504 [4:01:11<38:26:35,  1.92s/it]                                                         {'loss': 0.1526, 'grad_norm': 0.6106625199317932, 'learning_rate': 2.5231180741306842e-05, 'epoch': 2.02}
  8%|▊         | 6607/78504 [4:01:11<38:26:35,  1.92s/it]  8%|▊         | 6608/78504 [4:01:13<36:47:38,  1.84s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.5554910898208618, 'learning_rate': 2.523500191058464e-05, 'epoch': 2.02}
  8%|▊         | 6608/78504 [4:01:13<36:47:38,  1.84s/it]  8%|▊         | 6609/78504 [4:01:15<35:00:27,  1.75s/it]                                                         {'loss': 0.1958, 'grad_norm': 0.844653308391571, 'learning_rate': 2.523882307986244e-05, 'epoch': 2.02}
  8%|▊         | 6609/78504 [4:01:15<35:00:27,  1.75s/it]  8%|▊         | 6610/78504 [4:01:16<33:18:30,  1.67s/it]                                                         {'loss': 0.1946, 'grad_norm': 0.6111506223678589, 'learning_rate': 2.524264424914024e-05, 'epoch': 2.02}
  8%|▊         | 6610/78504 [4:01:16<33:18:30,  1.67s/it]  8%|▊         | 6611/78504 [4:01:17<31:40:32,  1.59s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.6251888275146484, 'learning_rate': 2.5246465418418037e-05, 'epoch': 2.02}
  8%|▊         | 6611/78504 [4:01:17<31:40:32,  1.59s/it]  8%|▊         | 6612/78504 [4:01:19<29:51:16,  1.49s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.5717607140541077, 'learning_rate': 2.5250286587695836e-05, 'epoch': 2.02}
  8%|▊         | 6612/78504 [4:01:19<29:51:16,  1.49s/it]  8%|▊         | 6613/78504 [4:01:20<27:47:49,  1.39s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.9846701622009277, 'learning_rate': 2.5254107756973635e-05, 'epoch': 2.02}
  8%|▊         | 6613/78504 [4:01:20<27:47:49,  1.39s/it]  8%|▊         | 6614/78504 [4:01:21<26:02:05,  1.30s/it]                                                         {'loss': 0.2392, 'grad_norm': 1.326703429222107, 'learning_rate': 2.5257928926251433e-05, 'epoch': 2.02}
  8%|▊         | 6614/78504 [4:01:21<26:02:05,  1.30s/it]  8%|▊         | 6615/78504 [4:01:22<24:11:51,  1.21s/it]                                                         {'loss': 0.1995, 'grad_norm': 1.2893069982528687, 'learning_rate': 2.5261750095529232e-05, 'epoch': 2.02}
  8%|▊         | 6615/78504 [4:01:22<24:11:51,  1.21s/it]  8%|▊         | 6616/78504 [4:01:23<22:31:51,  1.13s/it]                                                         {'loss': 0.2768, 'grad_norm': 1.456768274307251, 'learning_rate': 2.526557126480703e-05, 'epoch': 2.02}
  8%|▊         | 6616/78504 [4:01:23<22:31:51,  1.13s/it]  8%|▊         | 6617/78504 [4:01:24<20:25:48,  1.02s/it]                                                         {'loss': 0.2701, 'grad_norm': 1.598254680633545, 'learning_rate': 2.526939243408483e-05, 'epoch': 2.02}
  8%|▊         | 6617/78504 [4:01:24<20:25:48,  1.02s/it]  8%|▊         | 6618/78504 [4:01:31<60:42:43,  3.04s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.35585662722587585, 'learning_rate': 2.527321360336263e-05, 'epoch': 2.02}
  8%|▊         | 6618/78504 [4:01:31<60:42:43,  3.04s/it]  8%|▊         | 6619/78504 [4:01:35<61:16:24,  3.07s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.35374516248703003, 'learning_rate': 2.5277034772640427e-05, 'epoch': 2.02}
  8%|▊         | 6619/78504 [4:01:35<61:16:24,  3.07s/it]  8%|▊         | 6620/78504 [4:01:38<61:00:42,  3.06s/it]                                                         {'loss': 0.0884, 'grad_norm': 0.6218037009239197, 'learning_rate': 2.5280855941918226e-05, 'epoch': 2.02}
  8%|▊         | 6620/78504 [4:01:38<61:00:42,  3.06s/it]  8%|▊         | 6621/78504 [4:01:40<58:13:57,  2.92s/it]                                                         {'loss': 0.0704, 'grad_norm': 0.22701416909694672, 'learning_rate': 2.5284677111196025e-05, 'epoch': 2.02}
  8%|▊         | 6621/78504 [4:01:40<58:13:57,  2.92s/it]  8%|▊         | 6622/78504 [4:01:43<54:54:54,  2.75s/it]                                                         {'loss': 0.0632, 'grad_norm': 0.6053125262260437, 'learning_rate': 2.5288498280473827e-05, 'epoch': 2.02}
  8%|▊         | 6622/78504 [4:01:43<54:54:54,  2.75s/it]  8%|▊         | 6623/78504 [4:01:45<52:33:13,  2.63s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.3475567102432251, 'learning_rate': 2.5292319449751625e-05, 'epoch': 2.02}
  8%|▊         | 6623/78504 [4:01:45<52:33:13,  2.63s/it]  8%|▊         | 6624/78504 [4:01:47<50:46:06,  2.54s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.25390711426734924, 'learning_rate': 2.5296140619029424e-05, 'epoch': 2.03}
  8%|▊         | 6624/78504 [4:01:47<50:46:06,  2.54s/it]  8%|▊         | 6625/78504 [4:01:49<48:04:38,  2.41s/it]                                                         {'loss': 0.0602, 'grad_norm': 0.4447312355041504, 'learning_rate': 2.5299961788307223e-05, 'epoch': 2.03}
  8%|▊         | 6625/78504 [4:01:49<48:04:38,  2.41s/it]  8%|▊         | 6626/78504 [4:01:51<45:46:35,  2.29s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.4068864583969116, 'learning_rate': 2.5303782957585022e-05, 'epoch': 2.03}
  8%|▊         | 6626/78504 [4:01:51<45:46:35,  2.29s/it]  8%|▊         | 6627/78504 [4:01:53<44:52:17,  2.25s/it]                                                         {'loss': 0.0493, 'grad_norm': 0.4820728600025177, 'learning_rate': 2.530760412686282e-05, 'epoch': 2.03}
  8%|▊         | 6627/78504 [4:01:53<44:52:17,  2.25s/it]  8%|▊         | 6628/78504 [4:01:56<43:36:06,  2.18s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.46115484833717346, 'learning_rate': 2.531142529614062e-05, 'epoch': 2.03}
  8%|▊         | 6628/78504 [4:01:56<43:36:06,  2.18s/it]  8%|▊         | 6629/78504 [4:01:57<41:16:31,  2.07s/it]                                                         {'loss': 0.0974, 'grad_norm': 0.4243253469467163, 'learning_rate': 2.5315246465418418e-05, 'epoch': 2.03}
  8%|▊         | 6629/78504 [4:01:57<41:16:31,  2.07s/it]  8%|▊         | 6630/78504 [4:01:59<40:04:10,  2.01s/it]                                                         {'loss': 0.0929, 'grad_norm': 0.3812737464904785, 'learning_rate': 2.5319067634696217e-05, 'epoch': 2.03}
  8%|▊         | 6630/78504 [4:01:59<40:04:10,  2.01s/it]  8%|▊         | 6631/78504 [4:02:01<39:02:51,  1.96s/it]                                                         {'loss': 0.1256, 'grad_norm': 0.4317031502723694, 'learning_rate': 2.5322888803974015e-05, 'epoch': 2.03}
  8%|▊         | 6631/78504 [4:02:01<39:02:51,  1.96s/it]  8%|▊         | 6632/78504 [4:02:03<37:39:17,  1.89s/it]                                                         {'loss': 0.1548, 'grad_norm': 0.47472354769706726, 'learning_rate': 2.5326709973251814e-05, 'epoch': 2.03}
  8%|▊         | 6632/78504 [4:02:03<37:39:17,  1.89s/it]  8%|▊         | 6633/78504 [4:02:04<36:14:42,  1.82s/it]                                                         {'loss': 0.1726, 'grad_norm': 0.9468677639961243, 'learning_rate': 2.5330531142529613e-05, 'epoch': 2.03}
  8%|▊         | 6633/78504 [4:02:04<36:14:42,  1.82s/it]  8%|▊         | 6634/78504 [4:02:06<34:30:02,  1.73s/it]                                                         {'loss': 0.2161, 'grad_norm': 0.6795588135719299, 'learning_rate': 2.533435231180741e-05, 'epoch': 2.03}
  8%|▊         | 6634/78504 [4:02:06<34:30:02,  1.73s/it]  8%|▊         | 6635/78504 [4:02:07<32:57:23,  1.65s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.7926715016365051, 'learning_rate': 2.533817348108521e-05, 'epoch': 2.03}
  8%|▊         | 6635/78504 [4:02:07<32:57:23,  1.65s/it]  8%|▊         | 6636/78504 [4:02:09<31:22:03,  1.57s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.5156047940254211, 'learning_rate': 2.534199465036301e-05, 'epoch': 2.03}
  8%|▊         | 6636/78504 [4:02:09<31:22:03,  1.57s/it]  8%|▊         | 6637/78504 [4:02:10<29:39:09,  1.49s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.7451431155204773, 'learning_rate': 2.534581581964081e-05, 'epoch': 2.03}
  8%|▊         | 6637/78504 [4:02:10<29:39:09,  1.49s/it]  8%|▊         | 6638/78504 [4:02:11<27:38:59,  1.39s/it]                                                         {'loss': 0.2362, 'grad_norm': 0.6026883721351624, 'learning_rate': 2.534963698891861e-05, 'epoch': 2.03}
  8%|▊         | 6638/78504 [4:02:11<27:38:59,  1.39s/it]  8%|▊         | 6639/78504 [4:02:12<25:59:01,  1.30s/it]                                                         {'loss': 0.2235, 'grad_norm': 1.2014411687850952, 'learning_rate': 2.535345815819641e-05, 'epoch': 2.03}
  8%|▊         | 6639/78504 [4:02:12<25:59:01,  1.30s/it]  8%|▊         | 6640/78504 [4:02:13<24:06:54,  1.21s/it]                                                         {'loss': 0.2471, 'grad_norm': 0.9143808484077454, 'learning_rate': 2.5357279327474208e-05, 'epoch': 2.03}
  8%|▊         | 6640/78504 [4:02:13<24:06:54,  1.21s/it]  8%|▊         | 6641/78504 [4:02:14<22:29:47,  1.13s/it]                                                         {'loss': 0.2595, 'grad_norm': 1.3543305397033691, 'learning_rate': 2.5361100496752006e-05, 'epoch': 2.03}
  8%|▊         | 6641/78504 [4:02:14<22:29:47,  1.13s/it]  8%|▊         | 6642/78504 [4:02:15<20:27:24,  1.02s/it]                                                         {'loss': 0.3058, 'grad_norm': 2.8098092079162598, 'learning_rate': 2.5364921666029805e-05, 'epoch': 2.03}
  8%|▊         | 6642/78504 [4:02:15<20:27:24,  1.02s/it]  8%|▊         | 6643/78504 [4:02:23<61:10:46,  3.06s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.4137118458747864, 'learning_rate': 2.5368742835307604e-05, 'epoch': 2.03}
  8%|▊         | 6643/78504 [4:02:23<61:10:46,  3.06s/it]  8%|▊         | 6644/78504 [4:02:26<62:20:12,  3.12s/it]                                                         {'loss': 0.107, 'grad_norm': 0.32486698031425476, 'learning_rate': 2.5372564004585403e-05, 'epoch': 2.03}
  8%|▊         | 6644/78504 [4:02:26<62:20:12,  3.12s/it]  8%|▊         | 6645/78504 [4:02:29<61:29:37,  3.08s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.5530273914337158, 'learning_rate': 2.53763851738632e-05, 'epoch': 2.03}
  8%|▊         | 6645/78504 [4:02:29<61:29:37,  3.08s/it]  8%|▊         | 6646/78504 [4:02:32<58:33:11,  2.93s/it]                                                         {'loss': 0.0595, 'grad_norm': 0.9972677230834961, 'learning_rate': 2.5380206343141e-05, 'epoch': 2.03}
  8%|▊         | 6646/78504 [4:02:32<58:33:11,  2.93s/it]  8%|▊         | 6647/78504 [4:02:34<55:54:41,  2.80s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.3366190493106842, 'learning_rate': 2.53840275124188e-05, 'epoch': 2.03}
  8%|▊         | 6647/78504 [4:02:34<55:54:41,  2.80s/it]  8%|▊         | 6648/78504 [4:02:37<53:14:01,  2.67s/it]                                                         {'loss': 0.0604, 'grad_norm': 0.30460795760154724, 'learning_rate': 2.5387848681696597e-05, 'epoch': 2.03}
  8%|▊         | 6648/78504 [4:02:37<53:14:01,  2.67s/it]  8%|▊         | 6649/78504 [4:02:39<51:14:51,  2.57s/it]                                                         {'loss': 0.0547, 'grad_norm': 0.21202681958675385, 'learning_rate': 2.5391669850974396e-05, 'epoch': 2.03}
  8%|▊         | 6649/78504 [4:02:39<51:14:51,  2.57s/it]  8%|▊         | 6650/78504 [4:02:41<48:21:15,  2.42s/it]                                                         {'loss': 0.0525, 'grad_norm': 0.4312629699707031, 'learning_rate': 2.5395491020252195e-05, 'epoch': 2.03}
  8%|▊         | 6650/78504 [4:02:41<48:21:15,  2.42s/it]  8%|▊         | 6651/78504 [4:02:43<47:01:17,  2.36s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.4186932444572449, 'learning_rate': 2.5399312189529997e-05, 'epoch': 2.03}
  8%|▊         | 6651/78504 [4:02:43<47:01:17,  2.36s/it]  8%|▊         | 6652/78504 [4:02:45<45:44:19,  2.29s/it]                                                         {'loss': 0.082, 'grad_norm': 0.41644033789634705, 'learning_rate': 2.5403133358807796e-05, 'epoch': 2.03}
  8%|▊         | 6652/78504 [4:02:45<45:44:19,  2.29s/it]  8%|▊         | 6653/78504 [4:02:47<43:58:26,  2.20s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.323477178812027, 'learning_rate': 2.5406954528085598e-05, 'epoch': 2.03}
  8%|▊         | 6653/78504 [4:02:47<43:58:26,  2.20s/it]  8%|▊         | 6654/78504 [4:02:49<41:38:07,  2.09s/it]                                                         {'loss': 0.0613, 'grad_norm': 0.29261860251426697, 'learning_rate': 2.5410775697363397e-05, 'epoch': 2.03}
  8%|▊         | 6654/78504 [4:02:49<41:38:07,  2.09s/it]  8%|▊         | 6655/78504 [4:02:51<40:17:56,  2.02s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.5995584726333618, 'learning_rate': 2.5414596866641195e-05, 'epoch': 2.03}
  8%|▊         | 6655/78504 [4:02:51<40:17:56,  2.02s/it]  8%|▊         | 6656/78504 [4:02:53<38:33:47,  1.93s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.5127672553062439, 'learning_rate': 2.5418418035918994e-05, 'epoch': 2.03}
  8%|▊         | 6656/78504 [4:02:53<38:33:47,  1.93s/it]  8%|▊         | 6657/78504 [4:02:54<37:36:26,  1.88s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.8561289310455322, 'learning_rate': 2.5422239205196793e-05, 'epoch': 2.04}
  8%|▊         | 6657/78504 [4:02:54<37:36:26,  1.88s/it]  8%|▊         | 6658/78504 [4:02:56<36:11:54,  1.81s/it]                                                         {'loss': 0.1358, 'grad_norm': 0.703136146068573, 'learning_rate': 2.5426060374474592e-05, 'epoch': 2.04}
  8%|▊         | 6658/78504 [4:02:56<36:11:54,  1.81s/it]  8%|▊         | 6659/78504 [4:02:58<34:23:08,  1.72s/it]                                                         {'loss': 0.1806, 'grad_norm': 0.9563149809837341, 'learning_rate': 2.542988154375239e-05, 'epoch': 2.04}
  8%|▊         | 6659/78504 [4:02:58<34:23:08,  1.72s/it]  8%|▊         | 6660/78504 [4:02:59<32:39:57,  1.64s/it]                                                         {'loss': 0.1834, 'grad_norm': 1.0832122564315796, 'learning_rate': 2.543370271303019e-05, 'epoch': 2.04}
  8%|▊         | 6660/78504 [4:02:59<32:39:57,  1.64s/it]  8%|▊         | 6661/78504 [4:03:00<31:21:25,  1.57s/it]                                                         {'loss': 0.2145, 'grad_norm': 0.7496498227119446, 'learning_rate': 2.5437523882307988e-05, 'epoch': 2.04}
  8%|▊         | 6661/78504 [4:03:00<31:21:25,  1.57s/it]  8%|▊         | 6662/78504 [4:03:02<29:38:08,  1.49s/it]                                                         {'loss': 0.2311, 'grad_norm': 1.1329166889190674, 'learning_rate': 2.5441345051585787e-05, 'epoch': 2.04}
  8%|▊         | 6662/78504 [4:03:02<29:38:08,  1.49s/it]  8%|▊         | 6663/78504 [4:03:03<27:36:05,  1.38s/it]                                                         {'loss': 0.2242, 'grad_norm': 1.3470814228057861, 'learning_rate': 2.5445166220863585e-05, 'epoch': 2.04}
  8%|▊         | 6663/78504 [4:03:03<27:36:05,  1.38s/it]  8%|▊         | 6664/78504 [4:03:04<25:52:54,  1.30s/it]                                                         {'loss': 0.2268, 'grad_norm': 1.187681794166565, 'learning_rate': 2.5448987390141384e-05, 'epoch': 2.04}
  8%|▊         | 6664/78504 [4:03:04<25:52:54,  1.30s/it]  8%|▊         | 6665/78504 [4:03:05<24:24:41,  1.22s/it]                                                         {'loss': 0.2287, 'grad_norm': 1.0603556632995605, 'learning_rate': 2.5452808559419183e-05, 'epoch': 2.04}
  8%|▊         | 6665/78504 [4:03:05<24:24:41,  1.22s/it]  8%|▊         | 6666/78504 [4:03:06<22:43:32,  1.14s/it]                                                         {'loss': 0.2549, 'grad_norm': 1.2546635866165161, 'learning_rate': 2.545662972869698e-05, 'epoch': 2.04}
  8%|▊         | 6666/78504 [4:03:06<22:43:32,  1.14s/it]  8%|▊         | 6667/78504 [4:03:07<20:32:54,  1.03s/it]                                                         {'loss': 0.3237, 'grad_norm': 2.272052049636841, 'learning_rate': 2.546045089797478e-05, 'epoch': 2.04}
  8%|▊         | 6667/78504 [4:03:07<20:32:54,  1.03s/it]  8%|▊         | 6668/78504 [4:03:16<71:26:38,  3.58s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.41471216082572937, 'learning_rate': 2.546427206725258e-05, 'epoch': 2.04}
  8%|▊         | 6668/78504 [4:03:16<71:26:38,  3.58s/it]  8%|▊         | 6669/78504 [4:03:20<69:30:00,  3.48s/it]                                                         {'loss': 0.1037, 'grad_norm': 0.4785451889038086, 'learning_rate': 2.546809323653038e-05, 'epoch': 2.04}
  8%|▊         | 6669/78504 [4:03:20<69:30:00,  3.48s/it]  8%|▊         | 6670/78504 [4:03:23<66:31:28,  3.33s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.34823912382125854, 'learning_rate': 2.547191440580818e-05, 'epoch': 2.04}
  8%|▊         | 6670/78504 [4:03:23<66:31:28,  3.33s/it]  8%|▊         | 6671/78504 [4:03:25<62:12:04,  3.12s/it]                                                         {'loss': 0.073, 'grad_norm': 0.31744149327278137, 'learning_rate': 2.547573557508598e-05, 'epoch': 2.04}
  8%|▊         | 6671/78504 [4:03:25<62:12:04,  3.12s/it]  8%|▊         | 6672/78504 [4:03:28<57:41:31,  2.89s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.4554775655269623, 'learning_rate': 2.5479556744363778e-05, 'epoch': 2.04}
  8%|▊         | 6672/78504 [4:03:28<57:41:31,  2.89s/it]  9%|▊         | 6673/78504 [4:03:30<53:57:37,  2.70s/it]                                                         {'loss': 0.0974, 'grad_norm': 0.37998634576797485, 'learning_rate': 2.5483377913641576e-05, 'epoch': 2.04}
  9%|▊         | 6673/78504 [4:03:30<53:57:37,  2.70s/it]  9%|▊         | 6674/78504 [4:03:32<51:41:52,  2.59s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.5499568581581116, 'learning_rate': 2.5487199082919375e-05, 'epoch': 2.04}
  9%|▊         | 6674/78504 [4:03:32<51:41:52,  2.59s/it]  9%|▊         | 6675/78504 [4:03:34<48:42:05,  2.44s/it]                                                         {'loss': 0.1026, 'grad_norm': 0.5215058326721191, 'learning_rate': 2.5491020252197174e-05, 'epoch': 2.04}
  9%|▊         | 6675/78504 [4:03:34<48:42:05,  2.44s/it]  9%|▊         | 6676/78504 [4:03:36<46:13:29,  2.32s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.37528353929519653, 'learning_rate': 2.5494841421474973e-05, 'epoch': 2.04}
  9%|▊         | 6676/78504 [4:03:36<46:13:29,  2.32s/it]  9%|▊         | 6677/78504 [4:03:38<45:09:49,  2.26s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.3372325003147125, 'learning_rate': 2.549866259075277e-05, 'epoch': 2.04}
  9%|▊         | 6677/78504 [4:03:38<45:09:49,  2.26s/it]  9%|▊         | 6678/78504 [4:03:40<43:32:39,  2.18s/it]                                                         {'loss': 0.1295, 'grad_norm': 0.44612646102905273, 'learning_rate': 2.550248376003057e-05, 'epoch': 2.04}
  9%|▊         | 6678/78504 [4:03:40<43:32:39,  2.18s/it]  9%|▊         | 6679/78504 [4:03:42<42:01:06,  2.11s/it]                                                         {'loss': 0.095, 'grad_norm': 0.555840015411377, 'learning_rate': 2.550630492930837e-05, 'epoch': 2.04}
  9%|▊         | 6679/78504 [4:03:42<42:01:06,  2.11s/it]  9%|▊         | 6680/78504 [4:03:44<40:39:38,  2.04s/it]                                                         {'loss': 0.0963, 'grad_norm': 0.4150850474834442, 'learning_rate': 2.5510126098586167e-05, 'epoch': 2.04}
  9%|▊         | 6680/78504 [4:03:44<40:39:38,  2.04s/it]  9%|▊         | 6681/78504 [4:03:46<39:28:01,  1.98s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.5337361693382263, 'learning_rate': 2.5513947267863966e-05, 'epoch': 2.04}
  9%|▊         | 6681/78504 [4:03:46<39:28:01,  1.98s/it]  9%|▊         | 6682/78504 [4:03:48<37:58:36,  1.90s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.5864183902740479, 'learning_rate': 2.5517768437141765e-05, 'epoch': 2.04}
  9%|▊         | 6682/78504 [4:03:48<37:58:36,  1.90s/it]  9%|▊         | 6683/78504 [4:03:49<36:26:01,  1.83s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.958971381187439, 'learning_rate': 2.5521589606419564e-05, 'epoch': 2.04}
  9%|▊         | 6683/78504 [4:03:49<36:26:01,  1.83s/it]  9%|▊         | 6684/78504 [4:03:51<34:36:02,  1.73s/it]                                                         {'loss': 0.1717, 'grad_norm': 0.8262670040130615, 'learning_rate': 2.5525410775697366e-05, 'epoch': 2.04}
  9%|▊         | 6684/78504 [4:03:51<34:36:02,  1.73s/it]  9%|▊         | 6685/78504 [4:03:52<32:43:31,  1.64s/it]                                                         {'loss': 0.1974, 'grad_norm': 1.295039415359497, 'learning_rate': 2.5529231944975165e-05, 'epoch': 2.04}
  9%|▊         | 6685/78504 [4:03:52<32:43:31,  1.64s/it]  9%|▊         | 6686/78504 [4:03:54<31:21:56,  1.57s/it]                                                         {'loss': 0.1746, 'grad_norm': 0.7447128891944885, 'learning_rate': 2.5533053114252963e-05, 'epoch': 2.04}
  9%|▊         | 6686/78504 [4:03:54<31:21:56,  1.57s/it]  9%|▊         | 6687/78504 [4:03:55<29:37:25,  1.48s/it]                                                         {'loss': 0.1919, 'grad_norm': 1.0549190044403076, 'learning_rate': 2.5536874283530762e-05, 'epoch': 2.04}
  9%|▊         | 6687/78504 [4:03:55<29:37:25,  1.48s/it]  9%|▊         | 6688/78504 [4:03:56<27:31:29,  1.38s/it]                                                         {'loss': 0.2054, 'grad_norm': 0.913867712020874, 'learning_rate': 2.554069545280856e-05, 'epoch': 2.04}
  9%|▊         | 6688/78504 [4:03:56<27:31:29,  1.38s/it]  9%|▊         | 6689/78504 [4:03:57<25:48:44,  1.29s/it]                                                         {'loss': 0.2372, 'grad_norm': 4.950313091278076, 'learning_rate': 2.554451662208636e-05, 'epoch': 2.04}
  9%|▊         | 6689/78504 [4:03:57<25:48:44,  1.29s/it]  9%|▊         | 6690/78504 [4:03:58<23:57:18,  1.20s/it]                                                         {'loss': 0.245, 'grad_norm': 1.1186162233352661, 'learning_rate': 2.554833779136416e-05, 'epoch': 2.05}
  9%|▊         | 6690/78504 [4:03:58<23:57:18,  1.20s/it]  9%|▊         | 6691/78504 [4:03:59<22:21:26,  1.12s/it]                                                         {'loss': 0.2664, 'grad_norm': 1.3251960277557373, 'learning_rate': 2.5552158960641957e-05, 'epoch': 2.05}
  9%|▊         | 6691/78504 [4:03:59<22:21:26,  1.12s/it]  9%|▊         | 6692/78504 [4:04:00<20:17:44,  1.02s/it]                                                         {'loss': 0.3023, 'grad_norm': 1.4227339029312134, 'learning_rate': 2.5555980129919756e-05, 'epoch': 2.05}
  9%|▊         | 6692/78504 [4:04:00<20:17:44,  1.02s/it]  9%|▊         | 6693/78504 [4:04:09<65:56:23,  3.31s/it]                                                         {'loss': 0.1549, 'grad_norm': 0.3530927300453186, 'learning_rate': 2.5559801299197555e-05, 'epoch': 2.05}
  9%|▊         | 6693/78504 [4:04:09<65:56:23,  3.31s/it]  9%|▊         | 6694/78504 [4:04:12<66:17:00,  3.32s/it]                                                         {'loss': 0.0897, 'grad_norm': 0.3355972468852997, 'learning_rate': 2.5563622468475353e-05, 'epoch': 2.05}
  9%|▊         | 6694/78504 [4:04:12<66:17:00,  3.32s/it]  9%|▊         | 6695/78504 [4:04:15<63:50:37,  3.20s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.24177075922489166, 'learning_rate': 2.5567443637753152e-05, 'epoch': 2.05}
  9%|▊         | 6695/78504 [4:04:15<63:50:37,  3.20s/it]  9%|▊         | 6696/78504 [4:04:17<60:10:00,  3.02s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.2106119990348816, 'learning_rate': 2.557126480703095e-05, 'epoch': 2.05}
  9%|▊         | 6696/78504 [4:04:17<60:10:00,  3.02s/it]  9%|▊         | 6697/78504 [4:04:20<56:55:49,  2.85s/it]                                                         {'loss': 0.0802, 'grad_norm': 0.554821789264679, 'learning_rate': 2.557508597630875e-05, 'epoch': 2.05}
  9%|▊         | 6697/78504 [4:04:20<56:55:49,  2.85s/it]  9%|▊         | 6698/78504 [4:04:22<54:23:00,  2.73s/it]                                                         {'loss': 0.0634, 'grad_norm': 0.41410210728645325, 'learning_rate': 2.5578907145586548e-05, 'epoch': 2.05}
  9%|▊         | 6698/78504 [4:04:22<54:23:00,  2.73s/it]  9%|▊         | 6699/78504 [4:04:25<51:56:11,  2.60s/it]                                                         {'loss': 0.1034, 'grad_norm': 0.39545631408691406, 'learning_rate': 2.5582728314864347e-05, 'epoch': 2.05}
  9%|▊         | 6699/78504 [4:04:25<51:56:11,  2.60s/it]  9%|▊         | 6700/78504 [4:04:27<49:00:08,  2.46s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.3358781635761261, 'learning_rate': 2.558654948414215e-05, 'epoch': 2.05}
  9%|▊         | 6700/78504 [4:04:27<49:00:08,  2.46s/it]  9%|▊         | 6701/78504 [4:04:29<47:24:58,  2.38s/it]                                                         {'loss': 0.0676, 'grad_norm': 0.29251375794410706, 'learning_rate': 2.5590370653419948e-05, 'epoch': 2.05}
  9%|▊         | 6701/78504 [4:04:29<47:24:58,  2.38s/it]  9%|▊         | 6702/78504 [4:04:31<46:07:00,  2.31s/it]                                                         {'loss': 0.0842, 'grad_norm': 0.5972058773040771, 'learning_rate': 2.5594191822697747e-05, 'epoch': 2.05}
  9%|▊         | 6702/78504 [4:04:31<46:07:00,  2.31s/it]  9%|▊         | 6703/78504 [4:04:33<43:31:26,  2.18s/it]                                                         {'loss': 0.105, 'grad_norm': 0.5625972151756287, 'learning_rate': 2.5598012991975545e-05, 'epoch': 2.05}
  9%|▊         | 6703/78504 [4:04:33<43:31:26,  2.18s/it]  9%|▊         | 6704/78504 [4:04:35<42:22:30,  2.12s/it]                                                         {'loss': 0.119, 'grad_norm': 0.580680787563324, 'learning_rate': 2.5601834161253344e-05, 'epoch': 2.05}
  9%|▊         | 6704/78504 [4:04:35<42:22:30,  2.12s/it]  9%|▊         | 6705/78504 [4:04:37<41:09:24,  2.06s/it]                                                         {'loss': 0.1138, 'grad_norm': 0.5643013715744019, 'learning_rate': 2.5605655330531143e-05, 'epoch': 2.05}
  9%|▊         | 6705/78504 [4:04:37<41:09:24,  2.06s/it]  9%|▊         | 6706/78504 [4:04:39<40:05:48,  2.01s/it]                                                         {'loss': 0.1195, 'grad_norm': 0.7581091523170471, 'learning_rate': 2.560947649980894e-05, 'epoch': 2.05}
  9%|▊         | 6706/78504 [4:04:39<40:05:48,  2.01s/it]  9%|▊         | 6707/78504 [4:04:41<38:39:09,  1.94s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.45716002583503723, 'learning_rate': 2.561329766908674e-05, 'epoch': 2.05}
  9%|▊         | 6707/78504 [4:04:41<38:39:09,  1.94s/it]  9%|▊         | 6708/78504 [4:04:42<36:55:19,  1.85s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.590782880783081, 'learning_rate': 2.561711883836454e-05, 'epoch': 2.05}
  9%|▊         | 6708/78504 [4:04:42<36:55:19,  1.85s/it]  9%|▊         | 6709/78504 [4:04:44<35:03:43,  1.76s/it]                                                         {'loss': 0.172, 'grad_norm': 0.705123782157898, 'learning_rate': 2.5620940007642338e-05, 'epoch': 2.05}
  9%|▊         | 6709/78504 [4:04:44<35:03:43,  1.76s/it]  9%|▊         | 6710/78504 [4:04:45<33:22:55,  1.67s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.6412637829780579, 'learning_rate': 2.5624761176920137e-05, 'epoch': 2.05}
  9%|▊         | 6710/78504 [4:04:45<33:22:55,  1.67s/it]  9%|▊         | 6711/78504 [4:04:47<31:51:05,  1.60s/it]                                                         {'loss': 0.2297, 'grad_norm': 1.8113911151885986, 'learning_rate': 2.5628582346197935e-05, 'epoch': 2.05}
  9%|▊         | 6711/78504 [4:04:47<31:51:05,  1.60s/it]  9%|▊         | 6712/78504 [4:04:48<29:56:32,  1.50s/it]                                                         {'loss': 0.2025, 'grad_norm': 1.3013262748718262, 'learning_rate': 2.5632403515475734e-05, 'epoch': 2.05}
  9%|▊         | 6712/78504 [4:04:48<29:56:32,  1.50s/it]  9%|▊         | 6713/78504 [4:04:49<27:53:50,  1.40s/it]                                                         {'loss': 0.1836, 'grad_norm': 2.2996582984924316, 'learning_rate': 2.5636224684753533e-05, 'epoch': 2.05}
  9%|▊         | 6713/78504 [4:04:49<27:53:50,  1.40s/it]  9%|▊         | 6714/78504 [4:04:50<26:12:58,  1.31s/it]                                                         {'loss': 0.219, 'grad_norm': 1.2405356168746948, 'learning_rate': 2.564004585403133e-05, 'epoch': 2.05}
  9%|▊         | 6714/78504 [4:04:50<26:12:58,  1.31s/it]  9%|▊         | 6715/78504 [4:04:51<24:19:36,  1.22s/it]                                                         {'loss': 0.2588, 'grad_norm': 2.099123954772949, 'learning_rate': 2.5643867023309134e-05, 'epoch': 2.05}
  9%|▊         | 6715/78504 [4:04:51<24:19:36,  1.22s/it]  9%|▊         | 6716/78504 [4:04:52<22:36:22,  1.13s/it]                                                         {'loss': 0.244, 'grad_norm': 2.048529624938965, 'learning_rate': 2.5647688192586932e-05, 'epoch': 2.05}
  9%|▊         | 6716/78504 [4:04:52<22:36:22,  1.13s/it]  9%|▊         | 6717/78504 [4:04:53<20:26:19,  1.02s/it]                                                         {'loss': 0.3134, 'grad_norm': 20.280088424682617, 'learning_rate': 2.565150936186473e-05, 'epoch': 2.05}
  9%|▊         | 6717/78504 [4:04:53<20:26:19,  1.02s/it]  9%|▊         | 6718/78504 [4:05:03<72:35:57,  3.64s/it]                                                         {'loss': 0.177, 'grad_norm': 0.4012318551540375, 'learning_rate': 2.565533053114253e-05, 'epoch': 2.05}
  9%|▊         | 6718/78504 [4:05:03<72:35:57,  3.64s/it]  9%|▊         | 6719/78504 [4:05:06<70:55:07,  3.56s/it]                                                         {'loss': 0.1062, 'grad_norm': 0.7433446049690247, 'learning_rate': 2.565915170042033e-05, 'epoch': 2.05}
  9%|▊         | 6719/78504 [4:05:06<70:55:07,  3.56s/it]  9%|▊         | 6720/78504 [4:05:09<64:59:44,  3.26s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.8659158945083618, 'learning_rate': 2.5662972869698127e-05, 'epoch': 2.05}
  9%|▊         | 6720/78504 [4:05:09<64:59:44,  3.26s/it]  9%|▊         | 6721/78504 [4:05:11<60:54:35,  3.05s/it]                                                         {'loss': 0.0741, 'grad_norm': 0.35377222299575806, 'learning_rate': 2.5666794038975926e-05, 'epoch': 2.05}
  9%|▊         | 6721/78504 [4:05:11<60:54:35,  3.05s/it]  9%|▊         | 6722/78504 [4:05:14<57:33:07,  2.89s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.33660244941711426, 'learning_rate': 2.5670615208253725e-05, 'epoch': 2.06}
  9%|▊         | 6722/78504 [4:05:14<57:33:07,  2.89s/it]  9%|▊         | 6723/78504 [4:05:16<54:48:38,  2.75s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.5974368453025818, 'learning_rate': 2.5674436377531524e-05, 'epoch': 2.06}
  9%|▊         | 6723/78504 [4:05:16<54:48:38,  2.75s/it]  9%|▊         | 6724/78504 [4:05:18<52:14:18,  2.62s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.7147430181503296, 'learning_rate': 2.5678257546809322e-05, 'epoch': 2.06}
  9%|▊         | 6724/78504 [4:05:18<52:14:18,  2.62s/it]  9%|▊         | 6725/78504 [4:05:21<49:13:40,  2.47s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.806989312171936, 'learning_rate': 2.568207871608712e-05, 'epoch': 2.06}
  9%|▊         | 6725/78504 [4:05:21<49:13:40,  2.47s/it]  9%|▊         | 6726/78504 [4:05:23<47:32:04,  2.38s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.523047685623169, 'learning_rate': 2.568589988536492e-05, 'epoch': 2.06}
  9%|▊         | 6726/78504 [4:05:23<47:32:04,  2.38s/it]  9%|▊         | 6727/78504 [4:05:25<46:14:55,  2.32s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.4339098632335663, 'learning_rate': 2.568972105464272e-05, 'epoch': 2.06}
  9%|▊         | 6727/78504 [4:05:25<46:14:55,  2.32s/it]  9%|▊         | 6728/78504 [4:05:27<44:27:18,  2.23s/it]                                                         {'loss': 0.1299, 'grad_norm': 1.6358782052993774, 'learning_rate': 2.569354222392052e-05, 'epoch': 2.06}
  9%|▊         | 6728/78504 [4:05:27<44:27:18,  2.23s/it]  9%|▊         | 6729/78504 [4:05:29<42:59:10,  2.16s/it]                                                         {'loss': 0.0773, 'grad_norm': 0.5762453079223633, 'learning_rate': 2.569736339319832e-05, 'epoch': 2.06}
  9%|▊         | 6729/78504 [4:05:29<42:59:10,  2.16s/it]  9%|▊         | 6730/78504 [4:05:31<41:14:33,  2.07s/it]                                                         {'loss': 0.135, 'grad_norm': 0.4934680461883545, 'learning_rate': 2.5701184562476118e-05, 'epoch': 2.06}
  9%|▊         | 6730/78504 [4:05:31<41:14:33,  2.07s/it]  9%|▊         | 6731/78504 [4:05:33<39:53:33,  2.00s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.9491875767707825, 'learning_rate': 2.570500573175392e-05, 'epoch': 2.06}
  9%|▊         | 6731/78504 [4:05:33<39:53:33,  2.00s/it]  9%|▊         | 6732/78504 [4:05:34<38:32:17,  1.93s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.4757545292377472, 'learning_rate': 2.570882690103172e-05, 'epoch': 2.06}
  9%|▊         | 6732/78504 [4:05:34<38:32:17,  1.93s/it]  9%|▊         | 6733/78504 [4:05:36<36:52:54,  1.85s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.636071503162384, 'learning_rate': 2.5712648070309518e-05, 'epoch': 2.06}
  9%|▊         | 6733/78504 [4:05:36<36:52:54,  1.85s/it]  9%|▊         | 6734/78504 [4:05:38<35:00:37,  1.76s/it]                                                         {'loss': 0.1638, 'grad_norm': 0.9914324879646301, 'learning_rate': 2.5716469239587317e-05, 'epoch': 2.06}
  9%|▊         | 6734/78504 [4:05:38<35:00:37,  1.76s/it]  9%|▊         | 6735/78504 [4:05:39<33:17:56,  1.67s/it]                                                         {'loss': 0.1865, 'grad_norm': 1.7496415376663208, 'learning_rate': 2.5720290408865115e-05, 'epoch': 2.06}
  9%|▊         | 6735/78504 [4:05:39<33:17:56,  1.67s/it]  9%|▊         | 6736/78504 [4:05:40<31:35:47,  1.58s/it]                                                         {'loss': 0.1902, 'grad_norm': 1.4054816961288452, 'learning_rate': 2.5724111578142914e-05, 'epoch': 2.06}
  9%|▊         | 6736/78504 [4:05:40<31:35:47,  1.58s/it]  9%|▊         | 6737/78504 [4:05:42<29:46:04,  1.49s/it]                                                         {'loss': 0.1881, 'grad_norm': 1.0311442613601685, 'learning_rate': 2.5727932747420713e-05, 'epoch': 2.06}
  9%|▊         | 6737/78504 [4:05:42<29:46:04,  1.49s/it]  9%|▊         | 6738/78504 [4:05:43<27:39:23,  1.39s/it]                                                         {'loss': 0.2036, 'grad_norm': 1.0853776931762695, 'learning_rate': 2.573175391669851e-05, 'epoch': 2.06}
  9%|▊         | 6738/78504 [4:05:43<27:39:23,  1.39s/it]  9%|▊         | 6739/78504 [4:05:44<25:56:29,  1.30s/it]                                                         {'loss': 0.2432, 'grad_norm': 0.9772021770477295, 'learning_rate': 2.573557508597631e-05, 'epoch': 2.06}
  9%|▊         | 6739/78504 [4:05:44<25:56:29,  1.30s/it]  9%|▊         | 6740/78504 [4:05:45<24:26:04,  1.23s/it]                                                         {'loss': 0.2385, 'grad_norm': 0.8687800168991089, 'learning_rate': 2.573939625525411e-05, 'epoch': 2.06}
  9%|▊         | 6740/78504 [4:05:45<24:26:04,  1.23s/it]  9%|▊         | 6741/78504 [4:05:46<22:38:16,  1.14s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.16692316532135, 'learning_rate': 2.5743217424531908e-05, 'epoch': 2.06}
  9%|▊         | 6741/78504 [4:05:46<22:38:16,  1.14s/it]  9%|▊         | 6742/78504 [4:05:47<20:41:57,  1.04s/it]                                                         {'loss': 0.3312, 'grad_norm': 1.6681692600250244, 'learning_rate': 2.5747038593809707e-05, 'epoch': 2.06}
  9%|▊         | 6742/78504 [4:05:47<20:41:57,  1.04s/it]  9%|▊         | 6743/78504 [4:05:54<59:31:10,  2.99s/it]                                                         {'loss': 0.1341, 'grad_norm': 0.5839918255805969, 'learning_rate': 2.5750859763087505e-05, 'epoch': 2.06}
  9%|▊         | 6743/78504 [4:05:54<59:31:10,  2.99s/it]  9%|▊         | 6744/78504 [4:05:58<61:45:55,  3.10s/it]                                                         {'loss': 0.1, 'grad_norm': 0.374447762966156, 'learning_rate': 2.5754680932365304e-05, 'epoch': 2.06}
  9%|▊         | 6744/78504 [4:05:58<61:45:55,  3.10s/it]  9%|▊         | 6745/78504 [4:06:00<58:34:58,  2.94s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.2635928988456726, 'learning_rate': 2.5758502101643103e-05, 'epoch': 2.06}
  9%|▊         | 6745/78504 [4:06:00<58:34:58,  2.94s/it]  9%|▊         | 6746/78504 [4:06:03<55:30:17,  2.78s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.28196486830711365, 'learning_rate': 2.5762323270920905e-05, 'epoch': 2.06}
  9%|▊         | 6746/78504 [4:06:03<55:30:17,  2.78s/it]  9%|▊         | 6747/78504 [4:06:05<53:37:54,  2.69s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.4242561459541321, 'learning_rate': 2.5766144440198704e-05, 'epoch': 2.06}
  9%|▊         | 6747/78504 [4:06:05<53:37:54,  2.69s/it]  9%|▊         | 6748/78504 [4:06:08<52:07:15,  2.61s/it]                                                         {'loss': 0.0705, 'grad_norm': 0.40872278809547424, 'learning_rate': 2.5769965609476502e-05, 'epoch': 2.06}
  9%|▊         | 6748/78504 [4:06:08<52:07:15,  2.61s/it]  9%|▊         | 6749/78504 [4:06:10<50:22:13,  2.53s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.47006359696388245, 'learning_rate': 2.57737867787543e-05, 'epoch': 2.06}
  9%|▊         | 6749/78504 [4:06:10<50:22:13,  2.53s/it]  9%|▊         | 6750/78504 [4:06:12<47:54:26,  2.40s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.5544420480728149, 'learning_rate': 2.57776079480321e-05, 'epoch': 2.06}
  9%|▊         | 6750/78504 [4:06:12<47:54:26,  2.40s/it]  9%|▊         | 6751/78504 [4:06:14<46:40:33,  2.34s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.6994861364364624, 'learning_rate': 2.57814291173099e-05, 'epoch': 2.06}
  9%|▊         | 6751/78504 [4:06:14<46:40:33,  2.34s/it]  9%|▊         | 6752/78504 [4:06:16<45:34:33,  2.29s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.5117506980895996, 'learning_rate': 2.5785250286587697e-05, 'epoch': 2.06}
  9%|▊         | 6752/78504 [4:06:16<45:34:33,  2.29s/it]  9%|▊         | 6753/78504 [4:06:18<43:01:50,  2.16s/it]                                                         {'loss': 0.1166, 'grad_norm': 0.45650386810302734, 'learning_rate': 2.5789071455865496e-05, 'epoch': 2.06}
  9%|▊         | 6753/78504 [4:06:18<43:01:50,  2.16s/it]  9%|▊         | 6754/78504 [4:06:20<41:58:58,  2.11s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.3439253270626068, 'learning_rate': 2.5792892625143295e-05, 'epoch': 2.06}
  9%|▊         | 6754/78504 [4:06:20<41:58:58,  2.11s/it]  9%|▊         | 6755/78504 [4:06:22<40:51:00,  2.05s/it]                                                         {'loss': 0.1344, 'grad_norm': 0.3182777464389801, 'learning_rate': 2.5796713794421094e-05, 'epoch': 2.07}
  9%|▊         | 6755/78504 [4:06:22<40:51:00,  2.05s/it]  9%|▊         | 6756/78504 [4:06:24<39:51:04,  2.00s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.6826333999633789, 'learning_rate': 2.5800534963698892e-05, 'epoch': 2.07}
  9%|▊         | 6756/78504 [4:06:24<39:51:04,  2.00s/it]  9%|▊         | 6757/78504 [4:06:26<38:27:25,  1.93s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.613685667514801, 'learning_rate': 2.580435613297669e-05, 'epoch': 2.07}
  9%|▊         | 6757/78504 [4:06:26<38:27:25,  1.93s/it]  9%|▊         | 6758/78504 [4:06:27<36:21:13,  1.82s/it]                                                         {'loss': 0.162, 'grad_norm': 0.6023954749107361, 'learning_rate': 2.580817730225449e-05, 'epoch': 2.07}
  9%|▊         | 6758/78504 [4:06:27<36:21:13,  1.82s/it]  9%|▊         | 6759/78504 [4:06:29<34:42:37,  1.74s/it]                                                         {'loss': 0.1667, 'grad_norm': 0.8192209601402283, 'learning_rate': 2.581199847153229e-05, 'epoch': 2.07}
  9%|▊         | 6759/78504 [4:06:29<34:42:37,  1.74s/it]  9%|▊         | 6760/78504 [4:06:30<33:04:57,  1.66s/it]                                                         {'loss': 0.1892, 'grad_norm': 1.5629725456237793, 'learning_rate': 2.5815819640810087e-05, 'epoch': 2.07}
  9%|▊         | 6760/78504 [4:06:30<33:04:57,  1.66s/it]  9%|▊         | 6761/78504 [4:06:32<31:36:09,  1.59s/it]                                                         {'loss': 0.1943, 'grad_norm': 1.0349676609039307, 'learning_rate': 2.5819640810087886e-05, 'epoch': 2.07}
  9%|▊         | 6761/78504 [4:06:32<31:36:09,  1.59s/it]  9%|▊         | 6762/78504 [4:06:33<29:47:20,  1.49s/it]                                                         {'loss': 0.1751, 'grad_norm': 0.7384461164474487, 'learning_rate': 2.5823461979365688e-05, 'epoch': 2.07}
  9%|▊         | 6762/78504 [4:06:33<29:47:20,  1.49s/it]  9%|▊         | 6763/78504 [4:06:34<27:45:59,  1.39s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.8128156661987305, 'learning_rate': 2.5827283148643487e-05, 'epoch': 2.07}
  9%|▊         | 6763/78504 [4:06:34<27:45:59,  1.39s/it]  9%|▊         | 6764/78504 [4:06:35<25:59:43,  1.30s/it]                                                         {'loss': 0.2018, 'grad_norm': 1.6773115396499634, 'learning_rate': 2.5831104317921286e-05, 'epoch': 2.07}
  9%|▊         | 6764/78504 [4:06:35<25:59:43,  1.30s/it]  9%|▊         | 6765/78504 [4:06:36<24:06:59,  1.21s/it]                                                         {'loss': 0.2152, 'grad_norm': 1.4344249963760376, 'learning_rate': 2.5834925487199084e-05, 'epoch': 2.07}
  9%|▊         | 6765/78504 [4:06:36<24:06:59,  1.21s/it]  9%|▊         | 6766/78504 [4:06:37<22:27:56,  1.13s/it]                                                         {'loss': 0.2911, 'grad_norm': 1.4908709526062012, 'learning_rate': 2.5838746656476883e-05, 'epoch': 2.07}
  9%|▊         | 6766/78504 [4:06:37<22:27:56,  1.13s/it]  9%|▊         | 6767/78504 [4:06:38<20:22:42,  1.02s/it]                                                         {'loss': 0.3536, 'grad_norm': 1.9756039381027222, 'learning_rate': 2.5842567825754682e-05, 'epoch': 2.07}
  9%|▊         | 6767/78504 [4:06:38<20:22:42,  1.02s/it]  9%|▊         | 6768/78504 [4:06:47<68:58:45,  3.46s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.5096313953399658, 'learning_rate': 2.584638899503248e-05, 'epoch': 2.07}
  9%|▊         | 6768/78504 [4:06:47<68:58:45,  3.46s/it]  9%|▊         | 6769/78504 [4:06:50<66:30:20,  3.34s/it]                                                         {'loss': 0.0825, 'grad_norm': 0.4709843099117279, 'learning_rate': 2.585021016431028e-05, 'epoch': 2.07}
  9%|▊         | 6769/78504 [4:06:50<66:30:20,  3.34s/it]  9%|▊         | 6770/78504 [4:06:53<61:55:40,  3.11s/it]                                                         {'loss': 0.0902, 'grad_norm': 0.42089423537254333, 'learning_rate': 2.5854031333588078e-05, 'epoch': 2.07}
  9%|▊         | 6770/78504 [4:06:53<61:55:40,  3.11s/it]  9%|▊         | 6771/78504 [4:06:55<57:21:00,  2.88s/it]                                                         {'loss': 0.102, 'grad_norm': 0.4764067232608795, 'learning_rate': 2.5857852502865877e-05, 'epoch': 2.07}
  9%|▊         | 6771/78504 [4:06:55<57:21:00,  2.88s/it]  9%|▊         | 6772/78504 [4:06:58<54:55:31,  2.76s/it]                                                         {'loss': 0.0682, 'grad_norm': 0.3251112997531891, 'learning_rate': 2.5861673672143676e-05, 'epoch': 2.07}
  9%|▊         | 6772/78504 [4:06:58<54:55:31,  2.76s/it]  9%|▊         | 6773/78504 [4:07:00<51:59:42,  2.61s/it]                                                         {'loss': 0.069, 'grad_norm': 0.32745903730392456, 'learning_rate': 2.5865494841421474e-05, 'epoch': 2.07}
  9%|▊         | 6773/78504 [4:07:00<51:59:42,  2.61s/it]  9%|▊         | 6774/78504 [4:07:02<50:17:44,  2.52s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.3431150019168854, 'learning_rate': 2.5869316010699273e-05, 'epoch': 2.07}
  9%|▊         | 6774/78504 [4:07:02<50:17:44,  2.52s/it]  9%|▊         | 6775/78504 [4:07:04<47:42:49,  2.39s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.2877151668071747, 'learning_rate': 2.5873137179977072e-05, 'epoch': 2.07}
  9%|▊         | 6775/78504 [4:07:04<47:42:49,  2.39s/it]  9%|▊         | 6776/78504 [4:07:06<45:32:16,  2.29s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.29412123560905457, 'learning_rate': 2.587695834925487e-05, 'epoch': 2.07}
  9%|▊         | 6776/78504 [4:07:06<45:32:16,  2.29s/it]  9%|▊         | 6777/78504 [4:07:08<44:41:15,  2.24s/it]                                                         {'loss': 0.0607, 'grad_norm': 0.3276585340499878, 'learning_rate': 2.5880779518532673e-05, 'epoch': 2.07}
  9%|▊         | 6777/78504 [4:07:08<44:41:15,  2.24s/it]  9%|▊         | 6778/78504 [4:07:10<43:20:08,  2.18s/it]                                                         {'loss': 0.095, 'grad_norm': 0.31688806414604187, 'learning_rate': 2.588460068781047e-05, 'epoch': 2.07}
  9%|▊         | 6778/78504 [4:07:10<43:20:08,  2.18s/it]  9%|▊         | 6779/78504 [4:07:12<42:10:31,  2.12s/it]                                                         {'loss': 0.1164, 'grad_norm': 0.5324599742889404, 'learning_rate': 2.588842185708827e-05, 'epoch': 2.07}
  9%|▊         | 6779/78504 [4:07:12<42:10:31,  2.12s/it]  9%|▊         | 6780/78504 [4:07:14<40:43:12,  2.04s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.5974122285842896, 'learning_rate': 2.589224302636607e-05, 'epoch': 2.07}
  9%|▊         | 6780/78504 [4:07:14<40:43:12,  2.04s/it]  9%|▊         | 6781/78504 [4:07:16<39:29:47,  1.98s/it]                                                         {'loss': 0.1289, 'grad_norm': 0.4422624409198761, 'learning_rate': 2.5896064195643868e-05, 'epoch': 2.07}
  9%|▊         | 6781/78504 [4:07:16<39:29:47,  1.98s/it]  9%|▊         | 6782/78504 [4:07:18<37:34:37,  1.89s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.5407295227050781, 'learning_rate': 2.5899885364921667e-05, 'epoch': 2.07}
  9%|▊         | 6782/78504 [4:07:18<37:34:37,  1.89s/it]  9%|▊         | 6783/78504 [4:07:19<36:09:00,  1.81s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.6863033771514893, 'learning_rate': 2.5903706534199465e-05, 'epoch': 2.07}
  9%|▊         | 6783/78504 [4:07:19<36:09:00,  1.81s/it]  9%|▊         | 6784/78504 [4:07:21<34:22:15,  1.73s/it]                                                         {'loss': 0.2332, 'grad_norm': 0.6764746904373169, 'learning_rate': 2.5907527703477264e-05, 'epoch': 2.07}
  9%|▊         | 6784/78504 [4:07:21<34:22:15,  1.73s/it]  9%|▊         | 6785/78504 [4:07:22<32:36:43,  1.64s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.6523457765579224, 'learning_rate': 2.5911348872755063e-05, 'epoch': 2.07}
  9%|▊         | 6785/78504 [4:07:22<32:36:43,  1.64s/it]  9%|▊         | 6786/78504 [4:07:24<31:17:25,  1.57s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.9431259632110596, 'learning_rate': 2.591517004203286e-05, 'epoch': 2.07}
  9%|▊         | 6786/78504 [4:07:24<31:17:25,  1.57s/it]  9%|▊         | 6787/78504 [4:07:25<29:36:31,  1.49s/it]                                                         {'loss': 0.2172, 'grad_norm': 0.825599193572998, 'learning_rate': 2.591899121131066e-05, 'epoch': 2.07}
  9%|▊         | 6787/78504 [4:07:25<29:36:31,  1.49s/it]  9%|▊         | 6788/78504 [4:07:26<27:26:14,  1.38s/it]                                                         {'loss': 0.1942, 'grad_norm': 0.7800313234329224, 'learning_rate': 2.592281238058846e-05, 'epoch': 2.08}
  9%|▊         | 6788/78504 [4:07:26<27:26:14,  1.38s/it]  9%|▊         | 6789/78504 [4:07:27<25:43:54,  1.29s/it]                                                         {'loss': 0.2225, 'grad_norm': 0.814951479434967, 'learning_rate': 2.5926633549866258e-05, 'epoch': 2.08}
  9%|▊         | 6789/78504 [4:07:27<25:43:54,  1.29s/it]  9%|▊         | 6790/78504 [4:07:28<23:57:38,  1.20s/it]                                                         {'loss': 0.2182, 'grad_norm': 0.9177517890930176, 'learning_rate': 2.5930454719144057e-05, 'epoch': 2.08}
  9%|▊         | 6790/78504 [4:07:28<23:57:38,  1.20s/it]  9%|▊         | 6791/78504 [4:07:29<22:18:49,  1.12s/it]                                                         {'loss': 0.2783, 'grad_norm': 1.2576236724853516, 'learning_rate': 2.5934275888421855e-05, 'epoch': 2.08}
  9%|▊         | 6791/78504 [4:07:29<22:18:49,  1.12s/it]  9%|▊         | 6792/78504 [4:07:30<20:18:18,  1.02s/it]                                                         {'loss': 0.3131, 'grad_norm': 1.253940224647522, 'learning_rate': 2.5938097057699654e-05, 'epoch': 2.08}
  9%|▊         | 6792/78504 [4:07:30<20:18:18,  1.02s/it]  9%|▊         | 6793/78504 [4:07:40<75:09:29,  3.77s/it]                                                         {'loss': 0.1462, 'grad_norm': 0.4654493033885956, 'learning_rate': 2.5941918226977456e-05, 'epoch': 2.08}
  9%|▊         | 6793/78504 [4:07:40<75:09:29,  3.77s/it]  9%|▊         | 6794/78504 [4:07:44<72:43:07,  3.65s/it]                                                         {'loss': 0.1058, 'grad_norm': 0.28687694668769836, 'learning_rate': 2.5945739396255255e-05, 'epoch': 2.08}
  9%|▊         | 6794/78504 [4:07:44<72:43:07,  3.65s/it]  9%|▊         | 6795/78504 [4:07:47<68:55:43,  3.46s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.2946234345436096, 'learning_rate': 2.5949560565533054e-05, 'epoch': 2.08}
  9%|▊         | 6795/78504 [4:07:47<68:55:43,  3.46s/it]  9%|▊         | 6796/78504 [4:07:49<63:53:26,  3.21s/it]                                                         {'loss': 0.0621, 'grad_norm': 0.2519511878490448, 'learning_rate': 2.5953381734810852e-05, 'epoch': 2.08}
  9%|▊         | 6796/78504 [4:07:49<63:53:26,  3.21s/it]  9%|▊         | 6797/78504 [4:07:52<59:29:18,  2.99s/it]                                                         {'loss': 0.0737, 'grad_norm': 1.2435311079025269, 'learning_rate': 2.595720290408865e-05, 'epoch': 2.08}
  9%|▊         | 6797/78504 [4:07:52<59:29:18,  2.99s/it]  9%|▊         | 6798/78504 [4:07:54<56:10:04,  2.82s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.40179309248924255, 'learning_rate': 2.596102407336645e-05, 'epoch': 2.08}
  9%|▊         | 6798/78504 [4:07:54<56:10:04,  2.82s/it]  9%|▊         | 6799/78504 [4:07:56<53:10:08,  2.67s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.33586451411247253, 'learning_rate': 2.596484524264425e-05, 'epoch': 2.08}
  9%|▊         | 6799/78504 [4:07:56<53:10:08,  2.67s/it]  9%|▊         | 6800/78504 [4:07:59<49:51:57,  2.50s/it]                                                         {'loss': 0.0737, 'grad_norm': 0.37804341316223145, 'learning_rate': 2.5968666411922047e-05, 'epoch': 2.08}
  9%|▊         | 6800/78504 [4:07:59<49:51:57,  2.50s/it]  9%|▊         | 6801/78504 [4:08:01<47:55:53,  2.41s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.43044012784957886, 'learning_rate': 2.5972487581199846e-05, 'epoch': 2.08}
  9%|▊         | 6801/78504 [4:08:01<47:55:53,  2.41s/it]  9%|▊         | 6802/78504 [4:08:03<46:21:07,  2.33s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.5008851289749146, 'learning_rate': 2.5976308750477645e-05, 'epoch': 2.08}
  9%|▊         | 6802/78504 [4:08:03<46:21:07,  2.33s/it]  9%|▊         | 6803/78504 [4:08:05<44:35:47,  2.24s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.45967426896095276, 'learning_rate': 2.5980129919755444e-05, 'epoch': 2.08}
  9%|▊         | 6803/78504 [4:08:05<44:35:47,  2.24s/it]  9%|▊         | 6804/78504 [4:08:07<43:22:38,  2.18s/it]                                                         {'loss': 0.1206, 'grad_norm': 0.486173152923584, 'learning_rate': 2.5983951089033242e-05, 'epoch': 2.08}
  9%|▊         | 6804/78504 [4:08:07<43:22:38,  2.18s/it]  9%|▊         | 6805/78504 [4:08:09<41:39:23,  2.09s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.36592185497283936, 'learning_rate': 2.598777225831104e-05, 'epoch': 2.08}
  9%|▊         | 6805/78504 [4:08:09<41:39:23,  2.09s/it]  9%|▊         | 6806/78504 [4:08:11<40:20:04,  2.03s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.3747681677341461, 'learning_rate': 2.5991593427588843e-05, 'epoch': 2.08}
  9%|▊         | 6806/78504 [4:08:11<40:20:04,  2.03s/it]  9%|▊         | 6807/78504 [4:08:12<38:45:18,  1.95s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.4946690499782562, 'learning_rate': 2.5995414596866642e-05, 'epoch': 2.08}
  9%|▊         | 6807/78504 [4:08:12<38:45:18,  1.95s/it]  9%|▊         | 6808/78504 [4:08:14<37:03:50,  1.86s/it]                                                         {'loss': 0.1549, 'grad_norm': 0.5864738821983337, 'learning_rate': 2.5999235766144444e-05, 'epoch': 2.08}
  9%|▊         | 6808/78504 [4:08:14<37:03:50,  1.86s/it]  9%|▊         | 6809/78504 [4:08:16<35:08:55,  1.76s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.43500077724456787, 'learning_rate': 2.6003056935422243e-05, 'epoch': 2.08}
  9%|▊         | 6809/78504 [4:08:16<35:08:55,  1.76s/it]  9%|▊         | 6810/78504 [4:08:17<33:20:52,  1.67s/it]                                                         {'loss': 0.1895, 'grad_norm': 0.4775599539279938, 'learning_rate': 2.600687810470004e-05, 'epoch': 2.08}
  9%|▊         | 6810/78504 [4:08:17<33:20:52,  1.67s/it]  9%|▊         | 6811/78504 [4:08:19<31:51:52,  1.60s/it]                                                         {'loss': 0.2018, 'grad_norm': 1.2293078899383545, 'learning_rate': 2.601069927397784e-05, 'epoch': 2.08}
  9%|▊         | 6811/78504 [4:08:19<31:51:52,  1.60s/it]  9%|▊         | 6812/78504 [4:08:20<30:01:53,  1.51s/it]                                                         {'loss': 0.195, 'grad_norm': 0.5919601917266846, 'learning_rate': 2.601452044325564e-05, 'epoch': 2.08}
  9%|▊         | 6812/78504 [4:08:20<30:01:53,  1.51s/it]  9%|▊         | 6813/78504 [4:08:21<28:15:52,  1.42s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.6490631103515625, 'learning_rate': 2.6018341612533438e-05, 'epoch': 2.08}
  9%|▊         | 6813/78504 [4:08:21<28:15:52,  1.42s/it]  9%|▊         | 6814/78504 [4:08:22<26:15:35,  1.32s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.704454779624939, 'learning_rate': 2.6022162781811237e-05, 'epoch': 2.08}
  9%|▊         | 6814/78504 [4:08:22<26:15:35,  1.32s/it]  9%|▊         | 6815/78504 [4:08:23<24:38:53,  1.24s/it]                                                         {'loss': 0.2538, 'grad_norm': 0.8389390707015991, 'learning_rate': 2.6025983951089035e-05, 'epoch': 2.08}
  9%|▊         | 6815/78504 [4:08:23<24:38:53,  1.24s/it]  9%|▊         | 6816/78504 [4:08:24<22:48:59,  1.15s/it]                                                         {'loss': 0.2911, 'grad_norm': 0.7771681547164917, 'learning_rate': 2.6029805120366834e-05, 'epoch': 2.08}
  9%|▊         | 6816/78504 [4:08:24<22:48:59,  1.15s/it]  9%|▊         | 6817/78504 [4:08:25<20:45:45,  1.04s/it]                                                         {'loss': 0.2642, 'grad_norm': 1.6213070154190063, 'learning_rate': 2.6033626289644633e-05, 'epoch': 2.08}
  9%|▊         | 6817/78504 [4:08:25<20:45:45,  1.04s/it]  9%|▊         | 6818/78504 [4:08:34<70:46:41,  3.55s/it]                                                         {'loss': 0.156, 'grad_norm': 0.3789851665496826, 'learning_rate': 2.603744745892243e-05, 'epoch': 2.08}
  9%|▊         | 6818/78504 [4:08:34<70:46:41,  3.55s/it]  9%|▊         | 6819/78504 [4:08:38<69:34:39,  3.49s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.28902509808540344, 'learning_rate': 2.604126862820023e-05, 'epoch': 2.08}
  9%|▊         | 6819/78504 [4:08:38<69:34:39,  3.49s/it]  9%|▊         | 6820/78504 [4:08:40<64:00:50,  3.21s/it]                                                         {'loss': 0.0791, 'grad_norm': 0.2546181082725525, 'learning_rate': 2.604508979747803e-05, 'epoch': 2.08}
  9%|▊         | 6820/78504 [4:08:40<64:00:50,  3.21s/it]  9%|▊         | 6821/78504 [4:08:43<60:28:09,  3.04s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.3216468393802643, 'learning_rate': 2.6048910966755828e-05, 'epoch': 2.09}
  9%|▊         | 6821/78504 [4:08:43<60:28:09,  3.04s/it]  9%|▊         | 6822/78504 [4:08:45<57:05:29,  2.87s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.2780543863773346, 'learning_rate': 2.6052732136033626e-05, 'epoch': 2.09}
  9%|▊         | 6822/78504 [4:08:45<57:05:29,  2.87s/it]  9%|▊         | 6823/78504 [4:08:48<53:31:16,  2.69s/it]                                                         {'loss': 0.0479, 'grad_norm': 0.18596826493740082, 'learning_rate': 2.6056553305311425e-05, 'epoch': 2.09}
  9%|▊         | 6823/78504 [4:08:48<53:31:16,  2.69s/it]  9%|▊         | 6824/78504 [4:08:50<51:18:31,  2.58s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.37503182888031006, 'learning_rate': 2.6060374474589227e-05, 'epoch': 2.09}
  9%|▊         | 6824/78504 [4:08:50<51:18:31,  2.58s/it]  9%|▊         | 6825/78504 [4:08:52<48:26:43,  2.43s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.2954326272010803, 'learning_rate': 2.6064195643867026e-05, 'epoch': 2.09}
  9%|▊         | 6825/78504 [4:08:52<48:26:43,  2.43s/it]  9%|▊         | 6826/78504 [4:08:54<46:57:29,  2.36s/it]                                                         {'loss': 0.0959, 'grad_norm': 0.3089320957660675, 'learning_rate': 2.6068016813144825e-05, 'epoch': 2.09}
  9%|▊         | 6826/78504 [4:08:54<46:57:29,  2.36s/it]  9%|▊         | 6827/78504 [4:08:56<45:39:50,  2.29s/it]                                                         {'loss': 0.0934, 'grad_norm': 0.42161768674850464, 'learning_rate': 2.6071837982422624e-05, 'epoch': 2.09}
  9%|▊         | 6827/78504 [4:08:56<45:39:50,  2.29s/it]  9%|▊         | 6828/78504 [4:08:58<43:52:06,  2.20s/it]                                                         {'loss': 0.1031, 'grad_norm': 1.0496774911880493, 'learning_rate': 2.6075659151700422e-05, 'epoch': 2.09}
  9%|▊         | 6828/78504 [4:08:58<43:52:06,  2.20s/it]  9%|▊         | 6829/78504 [4:09:00<41:30:17,  2.08s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.3075832426548004, 'learning_rate': 2.607948032097822e-05, 'epoch': 2.09}
  9%|▊         | 6829/78504 [4:09:00<41:30:17,  2.08s/it]  9%|▊         | 6830/78504 [4:09:02<40:11:36,  2.02s/it]                                                         {'loss': 0.1112, 'grad_norm': 0.3843171298503876, 'learning_rate': 2.608330149025602e-05, 'epoch': 2.09}
  9%|▊         | 6830/78504 [4:09:02<40:11:36,  2.02s/it]  9%|▊         | 6831/78504 [4:09:04<38:26:57,  1.93s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.4106355607509613, 'learning_rate': 2.608712265953382e-05, 'epoch': 2.09}
  9%|▊         | 6831/78504 [4:09:04<38:26:57,  1.93s/it]  9%|▊         | 6832/78504 [4:09:06<37:28:36,  1.88s/it]                                                         {'loss': 0.1573, 'grad_norm': 0.44678619503974915, 'learning_rate': 2.6090943828811617e-05, 'epoch': 2.09}
  9%|▊         | 6832/78504 [4:09:06<37:28:36,  1.88s/it]  9%|▊         | 6833/78504 [4:09:07<36:00:38,  1.81s/it]                                                         {'loss': 0.1552, 'grad_norm': 0.6193581819534302, 'learning_rate': 2.6094764998089416e-05, 'epoch': 2.09}
  9%|▊         | 6833/78504 [4:09:07<36:00:38,  1.81s/it]  9%|▊         | 6834/78504 [4:09:09<34:18:55,  1.72s/it]                                                         {'loss': 0.1637, 'grad_norm': 0.8274082541465759, 'learning_rate': 2.6098586167367215e-05, 'epoch': 2.09}
  9%|▊         | 6834/78504 [4:09:09<34:18:55,  1.72s/it]  9%|▊         | 6835/78504 [4:09:10<32:34:00,  1.64s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.46938562393188477, 'learning_rate': 2.6102407336645014e-05, 'epoch': 2.09}
  9%|▊         | 6835/78504 [4:09:10<32:34:00,  1.64s/it]  9%|▊         | 6836/78504 [4:09:12<31:13:04,  1.57s/it]                                                         {'loss': 0.1888, 'grad_norm': 0.5941140651702881, 'learning_rate': 2.6106228505922812e-05, 'epoch': 2.09}
  9%|▊         | 6836/78504 [4:09:12<31:13:04,  1.57s/it]  9%|▊         | 6837/78504 [4:09:13<29:31:37,  1.48s/it]                                                         {'loss': 0.2041, 'grad_norm': 0.6796985268592834, 'learning_rate': 2.611004967520061e-05, 'epoch': 2.09}
  9%|▊         | 6837/78504 [4:09:13<29:31:37,  1.48s/it]  9%|▊         | 6838/78504 [4:09:14<27:34:07,  1.38s/it]                                                         {'loss': 0.2697, 'grad_norm': 0.8892584443092346, 'learning_rate': 2.611387084447841e-05, 'epoch': 2.09}
  9%|▊         | 6838/78504 [4:09:14<27:34:07,  1.38s/it]  9%|▊         | 6839/78504 [4:09:15<25:54:16,  1.30s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.9827401041984558, 'learning_rate': 2.6117692013756212e-05, 'epoch': 2.09}
  9%|▊         | 6839/78504 [4:09:15<25:54:16,  1.30s/it]  9%|▊         | 6840/78504 [4:09:16<24:04:03,  1.21s/it]                                                         {'loss': 0.2153, 'grad_norm': 0.8361902236938477, 'learning_rate': 2.612151318303401e-05, 'epoch': 2.09}
  9%|▊         | 6840/78504 [4:09:16<24:04:03,  1.21s/it]  9%|▊         | 6841/78504 [4:09:17<22:24:42,  1.13s/it]                                                         {'loss': 0.2499, 'grad_norm': 1.1609827280044556, 'learning_rate': 2.612533435231181e-05, 'epoch': 2.09}
  9%|▊         | 6841/78504 [4:09:17<22:24:42,  1.13s/it]  9%|▊         | 6842/78504 [4:09:18<20:19:17,  1.02s/it]                                                         {'loss': 0.3166, 'grad_norm': 1.6102606058120728, 'learning_rate': 2.6129155521589608e-05, 'epoch': 2.09}
  9%|▊         | 6842/78504 [4:09:18<20:19:17,  1.02s/it]  9%|▊         | 6843/78504 [4:09:26<61:38:51,  3.10s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.5419762134552002, 'learning_rate': 2.6132976690867407e-05, 'epoch': 2.09}
  9%|▊         | 6843/78504 [4:09:26<61:38:51,  3.10s/it]  9%|▊         | 6844/78504 [4:09:29<62:35:54,  3.14s/it]                                                         {'loss': 0.1202, 'grad_norm': 0.4955834746360779, 'learning_rate': 2.6136797860145206e-05, 'epoch': 2.09}
  9%|▊         | 6844/78504 [4:09:29<62:35:54,  3.14s/it]  9%|▊         | 6845/78504 [4:09:32<61:52:05,  3.11s/it]                                                         {'loss': 0.094, 'grad_norm': 0.3700505793094635, 'learning_rate': 2.6140619029423004e-05, 'epoch': 2.09}
  9%|▊         | 6845/78504 [4:09:32<61:52:05,  3.11s/it]  9%|▊         | 6846/78504 [4:09:35<58:55:45,  2.96s/it]                                                         {'loss': 0.0666, 'grad_norm': 0.23660808801651, 'learning_rate': 2.6144440198700803e-05, 'epoch': 2.09}
  9%|▊         | 6846/78504 [4:09:35<58:55:45,  2.96s/it]  9%|▊         | 6847/78504 [4:09:37<55:22:18,  2.78s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.5385577082633972, 'learning_rate': 2.6148261367978602e-05, 'epoch': 2.09}
  9%|▊         | 6847/78504 [4:09:37<55:22:18,  2.78s/it]  9%|▊         | 6848/78504 [4:09:39<52:14:51,  2.62s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.44602060317993164, 'learning_rate': 2.61520825372564e-05, 'epoch': 2.09}
  9%|▊         | 6848/78504 [4:09:39<52:14:51,  2.62s/it]  9%|▊         | 6849/78504 [4:09:42<50:30:32,  2.54s/it]                                                         {'loss': 0.059, 'grad_norm': 0.2640535831451416, 'learning_rate': 2.61559037065342e-05, 'epoch': 2.09}
  9%|▊         | 6849/78504 [4:09:42<50:30:32,  2.54s/it]  9%|▊         | 6850/78504 [4:09:44<48:52:09,  2.46s/it]                                                         {'loss': 0.0687, 'grad_norm': 0.33956247568130493, 'learning_rate': 2.6159724875811998e-05, 'epoch': 2.09}
  9%|▊         | 6850/78504 [4:09:44<48:52:09,  2.46s/it]  9%|▊         | 6851/78504 [4:09:46<47:17:42,  2.38s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.4650571048259735, 'learning_rate': 2.6163546045089797e-05, 'epoch': 2.09}
  9%|▊         | 6851/78504 [4:09:46<47:17:42,  2.38s/it]  9%|▊         | 6852/78504 [4:09:48<45:53:58,  2.31s/it]                                                         {'loss': 0.0587, 'grad_norm': 0.5701234936714172, 'learning_rate': 2.6167367214367596e-05, 'epoch': 2.09}
  9%|▊         | 6852/78504 [4:09:48<45:53:58,  2.31s/it]  9%|▊         | 6853/78504 [4:09:50<43:57:33,  2.21s/it]                                                         {'loss': 0.1223, 'grad_norm': 0.5277001857757568, 'learning_rate': 2.6171188383645394e-05, 'epoch': 2.1}
  9%|▊         | 6853/78504 [4:09:50<43:57:33,  2.21s/it]  9%|▊         | 6854/78504 [4:09:52<42:16:03,  2.12s/it]                                                         {'loss': 0.108, 'grad_norm': 0.3614307641983032, 'learning_rate': 2.6175009552923193e-05, 'epoch': 2.1}
  9%|▊         | 6854/78504 [4:09:52<42:16:03,  2.12s/it]  9%|▊         | 6855/78504 [4:09:54<40:49:15,  2.05s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.6265258193016052, 'learning_rate': 2.6178830722200995e-05, 'epoch': 2.1}
  9%|▊         | 6855/78504 [4:09:54<40:49:15,  2.05s/it]  9%|▊         | 6856/78504 [4:09:56<38:37:27,  1.94s/it]                                                         {'loss': 0.1111, 'grad_norm': 0.41705965995788574, 'learning_rate': 2.6182651891478794e-05, 'epoch': 2.1}
  9%|▊         | 6856/78504 [4:09:56<38:37:27,  1.94s/it]  9%|▊         | 6857/78504 [4:09:57<37:37:57,  1.89s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.5079902410507202, 'learning_rate': 2.6186473060756593e-05, 'epoch': 2.1}
  9%|▊         | 6857/78504 [4:09:57<37:37:57,  1.89s/it]  9%|▊         | 6858/78504 [4:09:59<36:08:04,  1.82s/it]                                                         {'loss': 0.1708, 'grad_norm': 0.5769208669662476, 'learning_rate': 2.619029423003439e-05, 'epoch': 2.1}
  9%|▊         | 6858/78504 [4:09:59<36:08:04,  1.82s/it]  9%|▊         | 6859/78504 [4:10:01<34:21:04,  1.73s/it]                                                         {'loss': 0.1925, 'grad_norm': 0.7282539010047913, 'learning_rate': 2.619411539931219e-05, 'epoch': 2.1}
  9%|▊         | 6859/78504 [4:10:01<34:21:04,  1.73s/it]  9%|▊         | 6860/78504 [4:10:02<32:36:10,  1.64s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.6389527916908264, 'learning_rate': 2.619793656858999e-05, 'epoch': 2.1}
  9%|▊         | 6860/78504 [4:10:02<32:36:10,  1.64s/it]  9%|▊         | 6861/78504 [4:10:03<31:16:33,  1.57s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.9689258337020874, 'learning_rate': 2.6201757737867788e-05, 'epoch': 2.1}
  9%|▊         | 6861/78504 [4:10:03<31:16:33,  1.57s/it]  9%|▊         | 6862/78504 [4:10:05<29:34:14,  1.49s/it]                                                         {'loss': 0.187, 'grad_norm': 0.7777717709541321, 'learning_rate': 2.6205578907145586e-05, 'epoch': 2.1}
  9%|▊         | 6862/78504 [4:10:05<29:34:14,  1.49s/it]  9%|▊         | 6863/78504 [4:10:06<27:26:08,  1.38s/it]                                                         {'loss': 0.2233, 'grad_norm': 0.8017659187316895, 'learning_rate': 2.6209400076423385e-05, 'epoch': 2.1}
  9%|▊         | 6863/78504 [4:10:06<27:26:08,  1.38s/it]  9%|▊         | 6864/78504 [4:10:07<25:43:09,  1.29s/it]                                                         {'loss': 0.235, 'grad_norm': 1.188737392425537, 'learning_rate': 2.6213221245701184e-05, 'epoch': 2.1}
  9%|▊         | 6864/78504 [4:10:07<25:43:09,  1.29s/it]  9%|▊         | 6865/78504 [4:10:08<24:16:15,  1.22s/it]                                                         {'loss': 0.2198, 'grad_norm': 0.9088931679725647, 'learning_rate': 2.6217042414978983e-05, 'epoch': 2.1}
  9%|▊         | 6865/78504 [4:10:08<24:16:15,  1.22s/it]  9%|▊         | 6866/78504 [4:10:09<22:35:41,  1.14s/it]                                                         {'loss': 0.2209, 'grad_norm': 1.2633986473083496, 'learning_rate': 2.622086358425678e-05, 'epoch': 2.1}
  9%|▊         | 6866/78504 [4:10:09<22:35:41,  1.14s/it]  9%|▊         | 6867/78504 [4:10:10<20:29:03,  1.03s/it]                                                         {'loss': 0.3502, 'grad_norm': 2.4639732837677, 'learning_rate': 2.622468475353458e-05, 'epoch': 2.1}
  9%|▊         | 6867/78504 [4:10:10<20:29:03,  1.03s/it]  9%|▊         | 6868/78504 [4:10:19<68:56:23,  3.46s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.5876261591911316, 'learning_rate': 2.622850592281238e-05, 'epoch': 2.1}
  9%|▊         | 6868/78504 [4:10:19<68:56:23,  3.46s/it]  9%|▊         | 6869/78504 [4:10:22<66:45:49,  3.36s/it]                                                         {'loss': 0.109, 'grad_norm': 0.3139699101448059, 'learning_rate': 2.6232327092090178e-05, 'epoch': 2.1}
  9%|▊         | 6869/78504 [4:10:22<66:45:49,  3.36s/it]  9%|▉         | 6870/78504 [4:10:25<64:10:27,  3.23s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.5502463579177856, 'learning_rate': 2.623614826136798e-05, 'epoch': 2.1}
  9%|▉         | 6870/78504 [4:10:25<64:10:27,  3.23s/it]  9%|▉         | 6871/78504 [4:10:27<60:19:13,  3.03s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.35877883434295654, 'learning_rate': 2.623996943064578e-05, 'epoch': 2.1}
  9%|▉         | 6871/78504 [4:10:27<60:19:13,  3.03s/it]  9%|▉         | 6872/78504 [4:10:30<56:57:50,  2.86s/it]                                                         {'loss': 0.0641, 'grad_norm': 0.29018354415893555, 'learning_rate': 2.6243790599923577e-05, 'epoch': 2.1}
  9%|▉         | 6872/78504 [4:10:30<56:57:50,  2.86s/it]  9%|▉         | 6873/78504 [4:10:32<54:24:01,  2.73s/it]                                                         {'loss': 0.0822, 'grad_norm': 0.3114745020866394, 'learning_rate': 2.6247611769201376e-05, 'epoch': 2.1}
  9%|▉         | 6873/78504 [4:10:32<54:24:01,  2.73s/it]  9%|▉         | 6874/78504 [4:10:35<51:54:26,  2.61s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.42525017261505127, 'learning_rate': 2.6251432938479175e-05, 'epoch': 2.1}
  9%|▉         | 6874/78504 [4:10:35<51:54:26,  2.61s/it]  9%|▉         | 6875/78504 [4:10:37<50:07:15,  2.52s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.4253791868686676, 'learning_rate': 2.6255254107756974e-05, 'epoch': 2.1}
  9%|▉         | 6875/78504 [4:10:37<50:07:15,  2.52s/it]  9%|▉         | 6876/78504 [4:10:39<48:11:57,  2.42s/it]                                                         {'loss': 0.0628, 'grad_norm': 0.32782065868377686, 'learning_rate': 2.6259075277034772e-05, 'epoch': 2.1}
  9%|▉         | 6876/78504 [4:10:39<48:11:57,  2.42s/it]  9%|▉         | 6877/78504 [4:10:41<46:39:47,  2.35s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.26406991481781006, 'learning_rate': 2.626289644631257e-05, 'epoch': 2.1}
  9%|▉         | 6877/78504 [4:10:41<46:39:47,  2.35s/it]  9%|▉         | 6878/78504 [4:10:43<43:45:59,  2.20s/it]                                                         {'loss': 0.1084, 'grad_norm': 0.47945523262023926, 'learning_rate': 2.626671761559037e-05, 'epoch': 2.1}
  9%|▉         | 6878/78504 [4:10:43<43:45:59,  2.20s/it]  9%|▉         | 6879/78504 [4:10:45<42:27:31,  2.13s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.41119199991226196, 'learning_rate': 2.627053878486817e-05, 'epoch': 2.1}
  9%|▉         | 6879/78504 [4:10:45<42:27:31,  2.13s/it]  9%|▉         | 6880/78504 [4:10:47<41:10:58,  2.07s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.855890154838562, 'learning_rate': 2.6274359954145967e-05, 'epoch': 2.1}
  9%|▉         | 6880/78504 [4:10:47<41:10:58,  2.07s/it]  9%|▉         | 6881/78504 [4:10:49<39:58:23,  2.01s/it]                                                         {'loss': 0.1132, 'grad_norm': 1.0325350761413574, 'learning_rate': 2.6278181123423766e-05, 'epoch': 2.1}
  9%|▉         | 6881/78504 [4:10:49<39:58:23,  2.01s/it]  9%|▉         | 6882/78504 [4:10:51<38:30:06,  1.94s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.5200135707855225, 'learning_rate': 2.6282002292701565e-05, 'epoch': 2.1}
  9%|▉         | 6882/78504 [4:10:51<38:30:06,  1.94s/it]  9%|▉         | 6883/78504 [4:10:52<36:23:34,  1.83s/it]                                                         {'loss': 0.1983, 'grad_norm': 0.9598063826560974, 'learning_rate': 2.6285823461979363e-05, 'epoch': 2.1}
  9%|▉         | 6883/78504 [4:10:52<36:23:34,  1.83s/it]  9%|▉         | 6884/78504 [4:10:54<34:41:24,  1.74s/it]                                                         {'loss': 0.2096, 'grad_norm': 0.5309841632843018, 'learning_rate': 2.6289644631257166e-05, 'epoch': 2.1}
  9%|▉         | 6884/78504 [4:10:54<34:41:24,  1.74s/it]  9%|▉         | 6885/78504 [4:10:55<33:04:08,  1.66s/it]                                                         {'loss': 0.1981, 'grad_norm': 0.5975992679595947, 'learning_rate': 2.6293465800534964e-05, 'epoch': 2.1}
  9%|▉         | 6885/78504 [4:10:55<33:04:08,  1.66s/it]  9%|▉         | 6886/78504 [4:10:57<31:27:35,  1.58s/it]                                                         {'loss': 0.2073, 'grad_norm': 2.169896125793457, 'learning_rate': 2.6297286969812766e-05, 'epoch': 2.11}
  9%|▉         | 6886/78504 [4:10:57<31:27:35,  1.58s/it]  9%|▉         | 6887/78504 [4:10:58<29:42:06,  1.49s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.6752058267593384, 'learning_rate': 2.6301108139090565e-05, 'epoch': 2.11}
  9%|▉         | 6887/78504 [4:10:58<29:42:06,  1.49s/it]  9%|▉         | 6888/78504 [4:10:59<27:39:34,  1.39s/it]                                                         {'loss': 0.2238, 'grad_norm': 0.9962291121482849, 'learning_rate': 2.6304929308368364e-05, 'epoch': 2.11}
  9%|▉         | 6888/78504 [4:10:59<27:39:34,  1.39s/it]  9%|▉         | 6889/78504 [4:11:00<25:56:16,  1.30s/it]                                                         {'loss': 0.2543, 'grad_norm': 1.1384143829345703, 'learning_rate': 2.6308750477646163e-05, 'epoch': 2.11}
  9%|▉         | 6889/78504 [4:11:00<25:56:16,  1.30s/it]  9%|▉         | 6890/78504 [4:11:01<24:05:02,  1.21s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.9781508445739746, 'learning_rate': 2.631257164692396e-05, 'epoch': 2.11}
  9%|▉         | 6890/78504 [4:11:01<24:05:02,  1.21s/it]  9%|▉         | 6891/78504 [4:11:02<22:21:39,  1.12s/it]                                                         {'loss': 0.2356, 'grad_norm': 1.129151463508606, 'learning_rate': 2.631639281620176e-05, 'epoch': 2.11}
  9%|▉         | 6891/78504 [4:11:02<22:21:39,  1.12s/it]  9%|▉         | 6892/78504 [4:11:03<20:17:58,  1.02s/it]                                                         {'loss': 0.2558, 'grad_norm': 1.2198574542999268, 'learning_rate': 2.632021398547956e-05, 'epoch': 2.11}
  9%|▉         | 6892/78504 [4:11:03<20:17:58,  1.02s/it]  9%|▉         | 6893/78504 [4:11:13<72:19:23,  3.64s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.5213297009468079, 'learning_rate': 2.6324035154757358e-05, 'epoch': 2.11}
  9%|▉         | 6893/78504 [4:11:13<72:19:23,  3.64s/it]  9%|▉         | 6894/78504 [4:11:16<69:15:49,  3.48s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.2815247178077698, 'learning_rate': 2.6327856324035156e-05, 'epoch': 2.11}
  9%|▉         | 6894/78504 [4:11:16<69:15:49,  3.48s/it]  9%|▉         | 6895/78504 [4:11:19<66:28:48,  3.34s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.3913421630859375, 'learning_rate': 2.6331677493312955e-05, 'epoch': 2.11}
  9%|▉         | 6895/78504 [4:11:19<66:28:48,  3.34s/it]  9%|▉         | 6896/78504 [4:11:21<62:00:05,  3.12s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.2869618237018585, 'learning_rate': 2.6335498662590754e-05, 'epoch': 2.11}
  9%|▉         | 6896/78504 [4:11:21<62:00:05,  3.12s/it]  9%|▉         | 6897/78504 [4:11:24<58:14:50,  2.93s/it]                                                         {'loss': 0.0704, 'grad_norm': 0.2238268256187439, 'learning_rate': 2.6339319831868553e-05, 'epoch': 2.11}
  9%|▉         | 6897/78504 [4:11:24<58:14:50,  2.93s/it]  9%|▉         | 6898/78504 [4:11:26<54:51:16,  2.76s/it]                                                         {'loss': 0.076, 'grad_norm': 0.3679649233818054, 'learning_rate': 2.634314100114635e-05, 'epoch': 2.11}
  9%|▉         | 6898/78504 [4:11:26<54:51:16,  2.76s/it]  9%|▉         | 6899/78504 [4:11:29<52:18:40,  2.63s/it]                                                         {'loss': 0.0595, 'grad_norm': 0.3120984733104706, 'learning_rate': 2.634696217042415e-05, 'epoch': 2.11}
  9%|▉         | 6899/78504 [4:11:29<52:18:40,  2.63s/it]  9%|▉         | 6900/78504 [4:11:31<49:05:47,  2.47s/it]                                                         {'loss': 0.086, 'grad_norm': 0.2992878556251526, 'learning_rate': 2.635078333970195e-05, 'epoch': 2.11}
  9%|▉         | 6900/78504 [4:11:31<49:05:47,  2.47s/it]  9%|▉         | 6901/78504 [4:11:33<46:33:02,  2.34s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.5389651656150818, 'learning_rate': 2.635460450897975e-05, 'epoch': 2.11}
  9%|▉         | 6901/78504 [4:11:33<46:33:02,  2.34s/it]  9%|▉         | 6902/78504 [4:11:35<45:20:20,  2.28s/it]                                                         {'loss': 0.0708, 'grad_norm': 0.40245169401168823, 'learning_rate': 2.635842567825755e-05, 'epoch': 2.11}
  9%|▉         | 6902/78504 [4:11:35<45:20:20,  2.28s/it]  9%|▉         | 6903/78504 [4:11:37<43:51:45,  2.21s/it]                                                         {'loss': 0.1144, 'grad_norm': 0.40731897950172424, 'learning_rate': 2.636224684753535e-05, 'epoch': 2.11}
  9%|▉         | 6903/78504 [4:11:37<43:51:45,  2.21s/it]  9%|▉         | 6904/78504 [4:11:39<42:30:40,  2.14s/it]                                                         {'loss': 0.0993, 'grad_norm': 0.35747119784355164, 'learning_rate': 2.6366068016813147e-05, 'epoch': 2.11}
  9%|▉         | 6904/78504 [4:11:39<42:30:40,  2.14s/it]  9%|▉         | 6905/78504 [4:11:41<40:53:22,  2.06s/it]                                                         {'loss': 0.1006, 'grad_norm': 0.7321627736091614, 'learning_rate': 2.6369889186090946e-05, 'epoch': 2.11}
  9%|▉         | 6905/78504 [4:11:41<40:53:22,  2.06s/it]  9%|▉         | 6906/78504 [4:11:43<39:48:42,  2.00s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.45106983184814453, 'learning_rate': 2.6373710355368745e-05, 'epoch': 2.11}
  9%|▉         | 6906/78504 [4:11:43<39:48:42,  2.00s/it]  9%|▉         | 6907/78504 [4:11:44<38:25:53,  1.93s/it]                                                         {'loss': 0.1539, 'grad_norm': 0.4476831555366516, 'learning_rate': 2.6377531524646544e-05, 'epoch': 2.11}
  9%|▉         | 6907/78504 [4:11:44<38:25:53,  1.93s/it]  9%|▉         | 6908/78504 [4:11:46<36:44:58,  1.85s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.5596027374267578, 'learning_rate': 2.6381352693924342e-05, 'epoch': 2.11}
  9%|▉         | 6908/78504 [4:11:46<36:44:58,  1.85s/it]  9%|▉         | 6909/78504 [4:11:48<34:57:02,  1.76s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.5064534544944763, 'learning_rate': 2.638517386320214e-05, 'epoch': 2.11}
  9%|▉         | 6909/78504 [4:11:48<34:57:02,  1.76s/it]  9%|▉         | 6910/78504 [4:11:49<33:29:53,  1.68s/it]                                                         {'loss': 0.1777, 'grad_norm': 0.5583907961845398, 'learning_rate': 2.638899503247994e-05, 'epoch': 2.11}
  9%|▉         | 6910/78504 [4:11:49<33:29:53,  1.68s/it]  9%|▉         | 6911/78504 [4:11:51<31:54:04,  1.60s/it]                                                         {'loss': 0.2097, 'grad_norm': 0.9406691193580627, 'learning_rate': 2.639281620175774e-05, 'epoch': 2.11}
  9%|▉         | 6911/78504 [4:11:51<31:54:04,  1.60s/it]  9%|▉         | 6912/78504 [4:11:52<29:57:50,  1.51s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.8071964979171753, 'learning_rate': 2.6396637371035537e-05, 'epoch': 2.11}
  9%|▉         | 6912/78504 [4:11:52<29:57:50,  1.51s/it]  9%|▉         | 6913/78504 [4:11:53<28:11:06,  1.42s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.8694546818733215, 'learning_rate': 2.6400458540313336e-05, 'epoch': 2.11}
  9%|▉         | 6913/78504 [4:11:53<28:11:06,  1.42s/it]  9%|▉         | 6914/78504 [4:11:54<26:19:32,  1.32s/it]                                                         {'loss': 0.2374, 'grad_norm': 1.0826603174209595, 'learning_rate': 2.6404279709591135e-05, 'epoch': 2.11}
  9%|▉         | 6914/78504 [4:11:54<26:19:32,  1.32s/it]  9%|▉         | 6915/78504 [4:11:55<24:43:29,  1.24s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.8356642127037048, 'learning_rate': 2.6408100878868933e-05, 'epoch': 2.11}
  9%|▉         | 6915/78504 [4:11:55<24:43:29,  1.24s/it]  9%|▉         | 6916/78504 [4:11:56<22:51:09,  1.15s/it]                                                         {'loss': 0.211, 'grad_norm': 0.7580328583717346, 'learning_rate': 2.6411922048146732e-05, 'epoch': 2.11}
  9%|▉         | 6916/78504 [4:11:56<22:51:09,  1.15s/it]  9%|▉         | 6917/78504 [4:11:57<20:36:54,  1.04s/it]                                                         {'loss': 0.3244, 'grad_norm': 2.875462770462036, 'learning_rate': 2.6415743217424534e-05, 'epoch': 2.11}
  9%|▉         | 6917/78504 [4:11:57<20:36:54,  1.04s/it]  9%|▉         | 6918/78504 [4:12:05<64:45:10,  3.26s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.45573294162750244, 'learning_rate': 2.6419564386702333e-05, 'epoch': 2.11}
  9%|▉         | 6918/78504 [4:12:05<64:45:10,  3.26s/it]  9%|▉         | 6919/78504 [4:12:08<64:01:53,  3.22s/it]                                                         {'loss': 0.0997, 'grad_norm': 0.49825748801231384, 'learning_rate': 2.6423385555980132e-05, 'epoch': 2.12}
  9%|▉         | 6919/78504 [4:12:08<64:01:53,  3.22s/it]  9%|▉         | 6920/78504 [4:12:11<62:52:32,  3.16s/it]                                                         {'loss': 0.0629, 'grad_norm': 0.4125383496284485, 'learning_rate': 2.642720672525793e-05, 'epoch': 2.12}
  9%|▉         | 6920/78504 [4:12:11<62:52:32,  3.16s/it]  9%|▉         | 6921/78504 [4:12:14<59:26:16,  2.99s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.24032363295555115, 'learning_rate': 2.643102789453573e-05, 'epoch': 2.12}
  9%|▉         | 6921/78504 [4:12:14<59:26:16,  2.99s/it]  9%|▉         | 6922/78504 [4:12:16<55:40:40,  2.80s/it]                                                         {'loss': 0.059, 'grad_norm': 0.29140233993530273, 'learning_rate': 2.6434849063813528e-05, 'epoch': 2.12}
  9%|▉         | 6922/78504 [4:12:16<55:40:40,  2.80s/it]  9%|▉         | 6923/78504 [4:12:19<53:02:17,  2.67s/it]                                                         {'loss': 0.0718, 'grad_norm': 0.3036983907222748, 'learning_rate': 2.6438670233091327e-05, 'epoch': 2.12}
  9%|▉         | 6923/78504 [4:12:19<53:02:17,  2.67s/it]  9%|▉         | 6924/78504 [4:12:21<51:03:03,  2.57s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.3416826128959656, 'learning_rate': 2.6442491402369126e-05, 'epoch': 2.12}
  9%|▉         | 6924/78504 [4:12:21<51:03:03,  2.57s/it]  9%|▉         | 6925/78504 [4:12:23<48:12:58,  2.42s/it]                                                         {'loss': 0.0743, 'grad_norm': 0.21245039999485016, 'learning_rate': 2.6446312571646924e-05, 'epoch': 2.12}
  9%|▉         | 6925/78504 [4:12:23<48:12:58,  2.42s/it]  9%|▉         | 6926/78504 [4:12:25<45:50:41,  2.31s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.5349218845367432, 'learning_rate': 2.6450133740924723e-05, 'epoch': 2.12}
  9%|▉         | 6926/78504 [4:12:25<45:50:41,  2.31s/it]  9%|▉         | 6927/78504 [4:12:27<44:50:54,  2.26s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.3920413553714752, 'learning_rate': 2.6453954910202522e-05, 'epoch': 2.12}
  9%|▉         | 6927/78504 [4:12:27<44:50:54,  2.26s/it]  9%|▉         | 6928/78504 [4:12:29<43:18:30,  2.18s/it]                                                         {'loss': 0.1086, 'grad_norm': 0.330826997756958, 'learning_rate': 2.645777607948032e-05, 'epoch': 2.12}
  9%|▉         | 6928/78504 [4:12:29<43:18:30,  2.18s/it]  9%|▉         | 6929/78504 [4:12:31<41:04:05,  2.07s/it]                                                         {'loss': 0.1158, 'grad_norm': 0.33422181010246277, 'learning_rate': 2.646159724875812e-05, 'epoch': 2.12}
  9%|▉         | 6929/78504 [4:12:31<41:04:05,  2.07s/it]  9%|▉         | 6930/78504 [4:12:33<39:53:07,  2.01s/it]                                                         {'loss': 0.1436, 'grad_norm': 0.5168736577033997, 'learning_rate': 2.6465418418035918e-05, 'epoch': 2.12}
  9%|▉         | 6930/78504 [4:12:33<39:53:07,  2.01s/it]  9%|▉         | 6931/78504 [4:12:35<38:11:56,  1.92s/it]                                                         {'loss': 0.1212, 'grad_norm': 0.6560452580451965, 'learning_rate': 2.6469239587313717e-05, 'epoch': 2.12}
  9%|▉         | 6931/78504 [4:12:35<38:11:56,  1.92s/it]  9%|▉         | 6932/78504 [4:12:37<37:12:45,  1.87s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.5051134824752808, 'learning_rate': 2.647306075659152e-05, 'epoch': 2.12}
  9%|▉         | 6932/78504 [4:12:37<37:12:45,  1.87s/it]  9%|▉         | 6933/78504 [4:12:38<35:50:55,  1.80s/it]                                                         {'loss': 0.1845, 'grad_norm': 0.5335291028022766, 'learning_rate': 2.6476881925869318e-05, 'epoch': 2.12}
  9%|▉         | 6933/78504 [4:12:38<35:50:55,  1.80s/it]  9%|▉         | 6934/78504 [4:12:40<34:07:45,  1.72s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.9315981864929199, 'learning_rate': 2.6480703095147116e-05, 'epoch': 2.12}
  9%|▉         | 6934/78504 [4:12:40<34:07:45,  1.72s/it]  9%|▉         | 6935/78504 [4:12:41<32:22:43,  1.63s/it]                                                         {'loss': 0.2549, 'grad_norm': 0.7560873627662659, 'learning_rate': 2.6484524264424915e-05, 'epoch': 2.12}
  9%|▉         | 6935/78504 [4:12:41<32:22:43,  1.63s/it]  9%|▉         | 6936/78504 [4:12:43<31:06:17,  1.56s/it]                                                         {'loss': 0.1895, 'grad_norm': 1.0027633905410767, 'learning_rate': 2.6488345433702714e-05, 'epoch': 2.12}
  9%|▉         | 6936/78504 [4:12:43<31:06:17,  1.56s/it]  9%|▉         | 6937/78504 [4:12:44<29:26:24,  1.48s/it]                                                         {'loss': 0.1894, 'grad_norm': 1.0752484798431396, 'learning_rate': 2.6492166602980513e-05, 'epoch': 2.12}
  9%|▉         | 6937/78504 [4:12:44<29:26:24,  1.48s/it]  9%|▉         | 6938/78504 [4:12:45<27:27:06,  1.38s/it]                                                         {'loss': 0.2433, 'grad_norm': 1.288644790649414, 'learning_rate': 2.649598777225831e-05, 'epoch': 2.12}
  9%|▉         | 6938/78504 [4:12:45<27:27:06,  1.38s/it]  9%|▉         | 6939/78504 [4:12:46<25:44:32,  1.29s/it]                                                         {'loss': 0.2557, 'grad_norm': 1.0074563026428223, 'learning_rate': 2.649980894153611e-05, 'epoch': 2.12}
  9%|▉         | 6939/78504 [4:12:46<25:44:32,  1.29s/it]  9%|▉         | 6940/78504 [4:12:47<24:15:19,  1.22s/it]                                                         {'loss': 0.2384, 'grad_norm': 0.8319312334060669, 'learning_rate': 2.650363011081391e-05, 'epoch': 2.12}
  9%|▉         | 6940/78504 [4:12:47<24:15:19,  1.22s/it]  9%|▉         | 6941/78504 [4:12:48<22:30:26,  1.13s/it]                                                         {'loss': 0.2356, 'grad_norm': 0.9879283308982849, 'learning_rate': 2.6507451280091708e-05, 'epoch': 2.12}
  9%|▉         | 6941/78504 [4:12:48<22:30:26,  1.13s/it]  9%|▉         | 6942/78504 [4:12:49<20:24:15,  1.03s/it]                                                         {'loss': 0.2969, 'grad_norm': 3.6745569705963135, 'learning_rate': 2.6511272449369506e-05, 'epoch': 2.12}
  9%|▉         | 6942/78504 [4:12:49<20:24:15,  1.03s/it]  9%|▉         | 6943/78504 [4:12:58<71:45:41,  3.61s/it]                                                         {'loss': 0.1579, 'grad_norm': 0.45262411236763, 'learning_rate': 2.6515093618647305e-05, 'epoch': 2.12}
  9%|▉         | 6943/78504 [4:12:58<71:45:41,  3.61s/it]  9%|▉         | 6944/78504 [4:13:02<68:36:40,  3.45s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.41507694125175476, 'learning_rate': 2.6518914787925104e-05, 'epoch': 2.12}
  9%|▉         | 6944/78504 [4:13:02<68:36:40,  3.45s/it]  9%|▉         | 6945/78504 [4:13:04<63:18:32,  3.18s/it]                                                         {'loss': 0.098, 'grad_norm': 0.3539709150791168, 'learning_rate': 2.6522735957202903e-05, 'epoch': 2.12}
  9%|▉         | 6945/78504 [4:13:04<63:18:32,  3.18s/it]  9%|▉         | 6946/78504 [4:13:07<59:47:04,  3.01s/it]                                                         {'loss': 0.0668, 'grad_norm': 0.3166246712207794, 'learning_rate': 2.65265571264807e-05, 'epoch': 2.12}
  9%|▉         | 6946/78504 [4:13:07<59:47:04,  3.01s/it]  9%|▉         | 6947/78504 [4:13:09<56:40:18,  2.85s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.26252204179763794, 'learning_rate': 2.65303782957585e-05, 'epoch': 2.12}
  9%|▉         | 6947/78504 [4:13:09<56:40:18,  2.85s/it]  9%|▉         | 6948/78504 [4:13:12<53:44:37,  2.70s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.29856932163238525, 'learning_rate': 2.6534199465036302e-05, 'epoch': 2.12}
  9%|▉         | 6948/78504 [4:13:12<53:44:37,  2.70s/it]  9%|▉         | 6949/78504 [4:13:14<51:31:53,  2.59s/it]                                                         {'loss': 0.0676, 'grad_norm': 0.6439314484596252, 'learning_rate': 2.65380206343141e-05, 'epoch': 2.12}
  9%|▉         | 6949/78504 [4:13:14<51:31:53,  2.59s/it]  9%|▉         | 6950/78504 [4:13:16<48:33:12,  2.44s/it]                                                         {'loss': 0.0508, 'grad_norm': 0.2550975978374481, 'learning_rate': 2.65418418035919e-05, 'epoch': 2.12}
  9%|▉         | 6950/78504 [4:13:16<48:33:12,  2.44s/it]  9%|▉         | 6951/78504 [4:13:18<47:05:54,  2.37s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.2589341104030609, 'learning_rate': 2.65456629728697e-05, 'epoch': 2.13}
  9%|▉         | 6951/78504 [4:13:18<47:05:54,  2.37s/it]  9%|▉         | 6952/78504 [4:13:20<45:41:55,  2.30s/it]                                                         {'loss': 0.0897, 'grad_norm': 0.44630974531173706, 'learning_rate': 2.6549484142147497e-05, 'epoch': 2.13}
  9%|▉         | 6952/78504 [4:13:20<45:41:55,  2.30s/it]  9%|▉         | 6953/78504 [4:13:22<43:59:07,  2.21s/it]                                                         {'loss': 0.1132, 'grad_norm': 0.34867069125175476, 'learning_rate': 2.6553305311425296e-05, 'epoch': 2.13}
  9%|▉         | 6953/78504 [4:13:22<43:59:07,  2.21s/it]  9%|▉         | 6954/78504 [4:13:24<42:38:02,  2.15s/it]                                                         {'loss': 0.1187, 'grad_norm': 0.7955979704856873, 'learning_rate': 2.6557126480703095e-05, 'epoch': 2.13}
  9%|▉         | 6954/78504 [4:13:24<42:38:02,  2.15s/it]  9%|▉         | 6955/78504 [4:13:26<40:58:39,  2.06s/it]                                                         {'loss': 0.109, 'grad_norm': 0.4910275936126709, 'learning_rate': 2.6560947649980893e-05, 'epoch': 2.13}
  9%|▉         | 6955/78504 [4:13:26<40:58:39,  2.06s/it]  9%|▉         | 6956/78504 [4:13:28<39:39:16,  2.00s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.5488490462303162, 'learning_rate': 2.6564768819258692e-05, 'epoch': 2.13}
  9%|▉         | 6956/78504 [4:13:28<39:39:16,  2.00s/it]  9%|▉         | 6957/78504 [4:13:30<38:03:20,  1.91s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.5692638754844666, 'learning_rate': 2.656858998853649e-05, 'epoch': 2.13}
  9%|▉         | 6957/78504 [4:13:30<38:03:20,  1.91s/it]  9%|▉         | 6958/78504 [4:13:31<36:25:25,  1.83s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.5053918361663818, 'learning_rate': 2.657241115781429e-05, 'epoch': 2.13}
  9%|▉         | 6958/78504 [4:13:31<36:25:25,  1.83s/it]  9%|▉         | 6959/78504 [4:13:33<34:42:41,  1.75s/it]                                                         {'loss': 0.2375, 'grad_norm': 0.7601051926612854, 'learning_rate': 2.657623232709209e-05, 'epoch': 2.13}
  9%|▉         | 6959/78504 [4:13:33<34:42:41,  1.75s/it]  9%|▉         | 6960/78504 [4:13:34<33:04:28,  1.66s/it]                                                         {'loss': 0.2126, 'grad_norm': 0.5821571946144104, 'learning_rate': 2.6580053496369887e-05, 'epoch': 2.13}
  9%|▉         | 6960/78504 [4:13:34<33:04:28,  1.66s/it]  9%|▉         | 6961/78504 [4:13:36<31:27:32,  1.58s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.7970068454742432, 'learning_rate': 2.6583874665647686e-05, 'epoch': 2.13}
  9%|▉         | 6961/78504 [4:13:36<31:27:32,  1.58s/it]  9%|▉         | 6962/78504 [4:13:37<29:39:06,  1.49s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.9319230318069458, 'learning_rate': 2.6587695834925488e-05, 'epoch': 2.13}
  9%|▉         | 6962/78504 [4:13:37<29:39:06,  1.49s/it]  9%|▉         | 6963/78504 [4:13:38<27:38:30,  1.39s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.8972347378730774, 'learning_rate': 2.659151700420329e-05, 'epoch': 2.13}
  9%|▉         | 6963/78504 [4:13:38<27:38:30,  1.39s/it]  9%|▉         | 6964/78504 [4:13:39<25:55:00,  1.30s/it]                                                         {'loss': 0.1931, 'grad_norm': 0.700096607208252, 'learning_rate': 2.659533817348109e-05, 'epoch': 2.13}
  9%|▉         | 6964/78504 [4:13:39<25:55:00,  1.30s/it]  9%|▉         | 6965/78504 [4:13:40<24:24:16,  1.23s/it]                                                         {'loss': 0.2011, 'grad_norm': 1.0526939630508423, 'learning_rate': 2.6599159342758888e-05, 'epoch': 2.13}
  9%|▉         | 6965/78504 [4:13:40<24:24:16,  1.23s/it]  9%|▉         | 6966/78504 [4:13:41<22:36:04,  1.14s/it]                                                         {'loss': 0.2565, 'grad_norm': 1.4443678855895996, 'learning_rate': 2.6602980512036686e-05, 'epoch': 2.13}
  9%|▉         | 6966/78504 [4:13:41<22:36:04,  1.14s/it]  9%|▉         | 6967/78504 [4:13:42<20:33:28,  1.03s/it]                                                         {'loss': 0.2797, 'grad_norm': 1.276099443435669, 'learning_rate': 2.6606801681314485e-05, 'epoch': 2.13}
  9%|▉         | 6967/78504 [4:13:42<20:33:28,  1.03s/it]  9%|▉         | 6968/78504 [4:13:52<71:39:18,  3.61s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.5873165130615234, 'learning_rate': 2.6610622850592284e-05, 'epoch': 2.13}
  9%|▉         | 6968/78504 [4:13:52<71:39:18,  3.61s/it]  9%|▉         | 6969/78504 [4:13:55<69:49:54,  3.51s/it]                                                         {'loss': 0.115, 'grad_norm': 0.2794504165649414, 'learning_rate': 2.6614444019870083e-05, 'epoch': 2.13}
  9%|▉         | 6969/78504 [4:13:55<69:49:54,  3.51s/it]  9%|▉         | 6970/78504 [4:13:58<64:10:32,  3.23s/it]                                                         {'loss': 0.0793, 'grad_norm': 0.3314143419265747, 'learning_rate': 2.661826518914788e-05, 'epoch': 2.13}
  9%|▉         | 6970/78504 [4:13:58<64:10:32,  3.23s/it]  9%|▉         | 6971/78504 [4:14:00<60:18:44,  3.04s/it]                                                         {'loss': 0.0755, 'grad_norm': 0.378760427236557, 'learning_rate': 2.662208635842568e-05, 'epoch': 2.13}
  9%|▉         | 6971/78504 [4:14:00<60:18:44,  3.04s/it]  9%|▉         | 6972/78504 [4:14:03<56:59:48,  2.87s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.3675072193145752, 'learning_rate': 2.662590752770348e-05, 'epoch': 2.13}
  9%|▉         | 6972/78504 [4:14:03<56:59:48,  2.87s/it]  9%|▉         | 6973/78504 [4:14:05<53:24:12,  2.69s/it]                                                         {'loss': 0.0629, 'grad_norm': 0.30659225583076477, 'learning_rate': 2.6629728696981278e-05, 'epoch': 2.13}
  9%|▉         | 6973/78504 [4:14:05<53:24:12,  2.69s/it]  9%|▉         | 6974/78504 [4:14:07<51:14:12,  2.58s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.32075273990631104, 'learning_rate': 2.6633549866259076e-05, 'epoch': 2.13}
  9%|▉         | 6974/78504 [4:14:07<51:14:12,  2.58s/it]  9%|▉         | 6975/78504 [4:14:09<48:25:56,  2.44s/it]                                                         {'loss': 0.0643, 'grad_norm': 0.71958988904953, 'learning_rate': 2.6637371035536875e-05, 'epoch': 2.13}
  9%|▉         | 6975/78504 [4:14:09<48:25:56,  2.44s/it]  9%|▉         | 6976/78504 [4:14:11<46:55:54,  2.36s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.3332720398902893, 'learning_rate': 2.6641192204814674e-05, 'epoch': 2.13}
  9%|▉         | 6976/78504 [4:14:12<46:55:54,  2.36s/it]  9%|▉         | 6977/78504 [4:14:14<45:38:14,  2.30s/it]                                                         {'loss': 0.071, 'grad_norm': 0.4043932855129242, 'learning_rate': 2.6645013374092473e-05, 'epoch': 2.13}
  9%|▉         | 6977/78504 [4:14:14<45:38:14,  2.30s/it]  9%|▉         | 6978/78504 [4:14:16<44:00:24,  2.21s/it]                                                         {'loss': 0.1088, 'grad_norm': 0.4333646297454834, 'learning_rate': 2.664883454337027e-05, 'epoch': 2.13}
  9%|▉         | 6978/78504 [4:14:16<44:00:24,  2.21s/it]  9%|▉         | 6979/78504 [4:14:18<42:34:53,  2.14s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.35331836342811584, 'learning_rate': 2.6652655712648073e-05, 'epoch': 2.13}
  9%|▉         | 6979/78504 [4:14:18<42:34:53,  2.14s/it]  9%|▉         | 6980/78504 [4:14:19<40:55:09,  2.06s/it]                                                         {'loss': 0.1157, 'grad_norm': 0.7745158076286316, 'learning_rate': 2.6656476881925872e-05, 'epoch': 2.13}
  9%|▉         | 6980/78504 [4:14:20<40:55:09,  2.06s/it]  9%|▉         | 6981/78504 [4:14:21<39:47:16,  2.00s/it]                                                         {'loss': 0.1465, 'grad_norm': 1.0917710065841675, 'learning_rate': 2.666029805120367e-05, 'epoch': 2.13}
  9%|▉         | 6981/78504 [4:14:21<39:47:16,  2.00s/it]  9%|▉         | 6982/78504 [4:14:23<38:23:06,  1.93s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.6283608675003052, 'learning_rate': 2.666411922048147e-05, 'epoch': 2.13}
  9%|▉         | 6982/78504 [4:14:23<38:23:06,  1.93s/it]  9%|▉         | 6983/78504 [4:14:25<36:39:06,  1.84s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.8298198580741882, 'learning_rate': 2.666794038975927e-05, 'epoch': 2.13}
  9%|▉         | 6983/78504 [4:14:25<36:39:06,  1.84s/it]  9%|▉         | 6984/78504 [4:14:26<34:47:37,  1.75s/it]                                                         {'loss': 0.1459, 'grad_norm': 0.7431654930114746, 'learning_rate': 2.6671761559037067e-05, 'epoch': 2.14}
  9%|▉         | 6984/78504 [4:14:26<34:47:37,  1.75s/it]  9%|▉         | 6985/78504 [4:14:28<33:07:14,  1.67s/it]                                                         {'loss': 0.2262, 'grad_norm': 1.5376642942428589, 'learning_rate': 2.6675582728314866e-05, 'epoch': 2.14}
  9%|▉         | 6985/78504 [4:14:28<33:07:14,  1.67s/it]  9%|▉         | 6986/78504 [4:14:29<31:30:28,  1.59s/it]                                                         {'loss': 0.169, 'grad_norm': 0.6318380832672119, 'learning_rate': 2.6679403897592665e-05, 'epoch': 2.14}
  9%|▉         | 6986/78504 [4:14:29<31:30:28,  1.59s/it]  9%|▉         | 6987/78504 [4:14:30<29:40:48,  1.49s/it]                                                         {'loss': 0.196, 'grad_norm': 1.0633357763290405, 'learning_rate': 2.6683225066870463e-05, 'epoch': 2.14}
  9%|▉         | 6987/78504 [4:14:30<29:40:48,  1.49s/it]  9%|▉         | 6988/78504 [4:14:32<27:39:23,  1.39s/it]                                                         {'loss': 0.2783, 'grad_norm': 2.536278009414673, 'learning_rate': 2.6687046236148262e-05, 'epoch': 2.14}
  9%|▉         | 6988/78504 [4:14:32<27:39:23,  1.39s/it]  9%|▉         | 6989/78504 [4:14:33<25:53:19,  1.30s/it]                                                         {'loss': 0.2213, 'grad_norm': 1.0339387655258179, 'learning_rate': 2.669086740542606e-05, 'epoch': 2.14}
  9%|▉         | 6989/78504 [4:14:33<25:53:19,  1.30s/it]  9%|▉         | 6990/78504 [4:14:34<24:25:03,  1.23s/it]                                                         {'loss': 0.231, 'grad_norm': 2.3659017086029053, 'learning_rate': 2.669468857470386e-05, 'epoch': 2.14}
  9%|▉         | 6990/78504 [4:14:34<24:25:03,  1.23s/it]  9%|▉         | 6991/78504 [4:14:35<22:40:48,  1.14s/it]                                                         {'loss': 0.2809, 'grad_norm': 2.3328399658203125, 'learning_rate': 2.669850974398166e-05, 'epoch': 2.14}
  9%|▉         | 6991/78504 [4:14:35<22:40:48,  1.14s/it]  9%|▉         | 6992/78504 [4:14:35<20:33:29,  1.03s/it]                                                         {'loss': 0.4028, 'grad_norm': 1.7471154928207397, 'learning_rate': 2.6702330913259457e-05, 'epoch': 2.14}
  9%|▉         | 6992/78504 [4:14:35<20:33:29,  1.03s/it]  9%|▉         | 6993/78504 [4:14:44<67:10:44,  3.38s/it]                                                         {'loss': 0.1697, 'grad_norm': 0.4777012765407562, 'learning_rate': 2.6706152082537256e-05, 'epoch': 2.14}
  9%|▉         | 6993/78504 [4:14:44<67:10:44,  3.38s/it]  9%|▉         | 6994/78504 [4:14:48<66:42:14,  3.36s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.5532597303390503, 'learning_rate': 2.6709973251815058e-05, 'epoch': 2.14}
  9%|▉         | 6994/78504 [4:14:48<66:42:14,  3.36s/it]  9%|▉         | 6995/78504 [4:14:51<64:41:07,  3.26s/it]                                                         {'loss': 0.0719, 'grad_norm': 0.2533096671104431, 'learning_rate': 2.6713794421092857e-05, 'epoch': 2.14}
  9%|▉         | 6995/78504 [4:14:51<64:41:07,  3.26s/it]  9%|▉         | 6996/78504 [4:14:53<60:51:31,  3.06s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.21822184324264526, 'learning_rate': 2.6717615590370655e-05, 'epoch': 2.14}
  9%|▉         | 6996/78504 [4:14:53<60:51:31,  3.06s/it]  9%|▉         | 6997/78504 [4:14:56<57:20:55,  2.89s/it]                                                         {'loss': 0.0528, 'grad_norm': 0.8532699942588806, 'learning_rate': 2.6721436759648454e-05, 'epoch': 2.14}
  9%|▉         | 6997/78504 [4:14:56<57:20:55,  2.89s/it]  9%|▉         | 6998/78504 [4:14:58<53:37:57,  2.70s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.3337603509426117, 'learning_rate': 2.6725257928926253e-05, 'epoch': 2.14}
  9%|▉         | 6998/78504 [4:14:58<53:37:57,  2.70s/it]  9%|▉         | 6999/78504 [4:15:00<51:22:09,  2.59s/it]                                                         {'loss': 0.1108, 'grad_norm': 0.5079228281974792, 'learning_rate': 2.6729079098204052e-05, 'epoch': 2.14}
  9%|▉         | 6999/78504 [4:15:00<51:22:09,  2.59s/it]  9%|▉         | 7000/78504 [4:15:02<48:27:52,  2.44s/it]                                                         {'loss': 0.0662, 'grad_norm': 0.4229185879230499, 'learning_rate': 2.673290026748185e-05, 'epoch': 2.14}
  9%|▉         | 7000/78504 [4:15:02<48:27:52,  2.44s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.54it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.77it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.64it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.75it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.06it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.49it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.57it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.81it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.16it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.49it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.60it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                         
                                               [A{'eval_loss': 0.26338818669319153, 'eval_wer': 0.34585626099829614, 'eval_cer': 0.19358886233947606, 'eval_runtime': 19.1111, 'eval_samples_per_second': 237.454, 'eval_steps_per_second': 0.785, 'epoch': 2.14}
  9%|▉         | 7000/78504 [4:16:07<48:27:52,  2.44s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-7000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-5000] due to args.save_total_limit
  9%|▉         | 7001/78504 [4:16:23<516:13:42, 25.99s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.5087936520576477, 'learning_rate': 2.673672143675965e-05, 'epoch': 2.14}
  9%|▉         | 7001/78504 [4:16:23<516:13:42, 25.99s/it]  9%|▉         | 7002/78504 [4:16:26<374:03:31, 18.83s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.5081256031990051, 'learning_rate': 2.6740542606037448e-05, 'epoch': 2.14}
  9%|▉         | 7002/78504 [4:16:26<374:03:31, 18.83s/it]  9%|▉         | 7003/78504 [4:16:27<272:50:31, 13.74s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.3596276342868805, 'learning_rate': 2.6744363775315247e-05, 'epoch': 2.14}
  9%|▉         | 7003/78504 [4:16:27<272:50:31, 13.74s/it]  9%|▉         | 7004/78504 [4:16:29<202:46:28, 10.21s/it]                                                          {'loss': 0.08, 'grad_norm': 0.5489554405212402, 'learning_rate': 2.6748184944593045e-05, 'epoch': 2.14}
  9%|▉         | 7004/78504 [4:16:29<202:46:28, 10.21s/it]  9%|▉         | 7005/78504 [4:16:31<153:12:32,  7.71s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.5320497751235962, 'learning_rate': 2.6752006113870844e-05, 'epoch': 2.14}
  9%|▉         | 7005/78504 [4:16:31<153:12:32,  7.71s/it]  9%|▉         | 7006/78504 [4:16:33<118:17:51,  5.96s/it]                                                          {'loss': 0.1444, 'grad_norm': 0.48432278633117676, 'learning_rate': 2.6755827283148643e-05, 'epoch': 2.14}
  9%|▉         | 7006/78504 [4:16:33<118:17:51,  5.96s/it]  9%|▉         | 7007/78504 [4:16:35<93:04:59,  4.69s/it]                                                          {'loss': 0.1159, 'grad_norm': 1.337916612625122, 'learning_rate': 2.675964845242644e-05, 'epoch': 2.14}
  9%|▉         | 7007/78504 [4:16:35<93:04:59,  4.69s/it]  9%|▉         | 7008/78504 [4:16:36<74:54:05,  3.77s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.5910773873329163, 'learning_rate': 2.676346962170424e-05, 'epoch': 2.14}
  9%|▉         | 7008/78504 [4:16:36<74:54:05,  3.77s/it]  9%|▉         | 7009/78504 [4:16:38<61:27:31,  3.09s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.7172471880912781, 'learning_rate': 2.676729079098204e-05, 'epoch': 2.14}
  9%|▉         | 7009/78504 [4:16:38<61:27:31,  3.09s/it]  9%|▉         | 7010/78504 [4:16:39<51:45:06,  2.61s/it]                                                         {'loss': 0.1898, 'grad_norm': 0.561581015586853, 'learning_rate': 2.677111196025984e-05, 'epoch': 2.14}
  9%|▉         | 7010/78504 [4:16:39<51:45:06,  2.61s/it]  9%|▉         | 7011/78504 [4:16:41<44:40:16,  2.25s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.8903080821037292, 'learning_rate': 2.677493312953764e-05, 'epoch': 2.14}
  9%|▉         | 7011/78504 [4:16:41<44:40:16,  2.25s/it]  9%|▉         | 7012/78504 [4:16:42<38:53:25,  1.96s/it]                                                         {'loss': 0.2203, 'grad_norm': 0.9199313521385193, 'learning_rate': 2.677875429881544e-05, 'epoch': 2.14}
  9%|▉         | 7012/78504 [4:16:42<38:53:25,  1.96s/it]  9%|▉         | 7013/78504 [4:16:43<33:51:55,  1.71s/it]                                                         {'loss': 0.2359, 'grad_norm': 0.6157388687133789, 'learning_rate': 2.6782575468093238e-05, 'epoch': 2.14}
  9%|▉         | 7013/78504 [4:16:43<33:51:55,  1.71s/it]  9%|▉         | 7014/78504 [4:16:44<30:11:56,  1.52s/it]                                                         {'loss': 0.1926, 'grad_norm': 1.0105575323104858, 'learning_rate': 2.6786396637371036e-05, 'epoch': 2.14}
  9%|▉         | 7014/78504 [4:16:44<30:11:56,  1.52s/it]  9%|▉         | 7015/78504 [4:16:45<27:27:34,  1.38s/it]                                                         {'loss': 0.2563, 'grad_norm': 0.8844746947288513, 'learning_rate': 2.6790217806648835e-05, 'epoch': 2.14}
  9%|▉         | 7015/78504 [4:16:45<27:27:34,  1.38s/it]  9%|▉         | 7016/78504 [4:16:46<24:43:27,  1.25s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.4889322519302368, 'learning_rate': 2.6794038975926634e-05, 'epoch': 2.14}
  9%|▉         | 7016/78504 [4:16:46<24:43:27,  1.25s/it]  9%|▉         | 7017/78504 [4:16:47<22:09:05,  1.12s/it]                                                         {'loss': 0.3042, 'grad_norm': 1.8683258295059204, 'learning_rate': 2.6797860145204433e-05, 'epoch': 2.15}
  9%|▉         | 7017/78504 [4:16:47<22:09:05,  1.12s/it]  9%|▉         | 7018/78504 [4:16:56<68:04:45,  3.43s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.4170190095901489, 'learning_rate': 2.680168131448223e-05, 'epoch': 2.15}
  9%|▉         | 7018/78504 [4:16:56<68:04:45,  3.43s/it]  9%|▉         | 7019/78504 [4:16:59<67:37:33,  3.41s/it]                                                         {'loss': 0.0664, 'grad_norm': 0.29822084307670593, 'learning_rate': 2.680550248376003e-05, 'epoch': 2.15}
  9%|▉         | 7019/78504 [4:16:59<67:37:33,  3.41s/it]  9%|▉         | 7020/78504 [4:17:02<63:27:36,  3.20s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.48026132583618164, 'learning_rate': 2.680932365303783e-05, 'epoch': 2.15}
  9%|▉         | 7020/78504 [4:17:02<63:27:36,  3.20s/it]  9%|▉         | 7021/78504 [4:17:05<59:49:17,  3.01s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.5033544898033142, 'learning_rate': 2.6813144822315628e-05, 'epoch': 2.15}
  9%|▉         | 7021/78504 [4:17:05<59:49:17,  3.01s/it]  9%|▉         | 7022/78504 [4:17:07<55:52:40,  2.81s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.3068888187408447, 'learning_rate': 2.6816965991593426e-05, 'epoch': 2.15}
  9%|▉         | 7022/78504 [4:17:07<55:52:40,  2.81s/it]  9%|▉         | 7023/78504 [4:17:09<52:33:06,  2.65s/it]                                                         {'loss': 0.0816, 'grad_norm': 0.3117099702358246, 'learning_rate': 2.6820787160871225e-05, 'epoch': 2.15}
  9%|▉         | 7023/78504 [4:17:09<52:33:06,  2.65s/it]  9%|▉         | 7024/78504 [4:17:12<50:34:59,  2.55s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.324609637260437, 'learning_rate': 2.6824608330149024e-05, 'epoch': 2.15}
  9%|▉         | 7024/78504 [4:17:12<50:34:59,  2.55s/it]  9%|▉         | 7025/78504 [4:17:14<47:50:34,  2.41s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.2682928740978241, 'learning_rate': 2.6828429499426826e-05, 'epoch': 2.15}
  9%|▉         | 7025/78504 [4:17:14<47:50:34,  2.41s/it]  9%|▉         | 7026/78504 [4:17:16<46:29:31,  2.34s/it]                                                         {'loss': 0.1034, 'grad_norm': 0.5692829489707947, 'learning_rate': 2.6832250668704625e-05, 'epoch': 2.15}
  9%|▉         | 7026/78504 [4:17:16<46:29:31,  2.34s/it]  9%|▉         | 7027/78504 [4:17:18<45:15:32,  2.28s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.3059932291507721, 'learning_rate': 2.6836071837982423e-05, 'epoch': 2.15}
  9%|▉         | 7027/78504 [4:17:18<45:15:32,  2.28s/it]  9%|▉         | 7028/78504 [4:17:20<43:44:44,  2.20s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.3625854551792145, 'learning_rate': 2.6839893007260222e-05, 'epoch': 2.15}
  9%|▉         | 7028/78504 [4:17:20<43:44:44,  2.20s/it]  9%|▉         | 7029/78504 [4:17:22<41:16:13,  2.08s/it]                                                         {'loss': 0.112, 'grad_norm': 0.41967087984085083, 'learning_rate': 2.684371417653802e-05, 'epoch': 2.15}
  9%|▉         | 7029/78504 [4:17:22<41:16:13,  2.08s/it]  9%|▉         | 7030/78504 [4:17:24<40:04:07,  2.02s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.43506041169166565, 'learning_rate': 2.684753534581582e-05, 'epoch': 2.15}
  9%|▉         | 7030/78504 [4:17:24<40:04:07,  2.02s/it]  9%|▉         | 7031/78504 [4:17:25<38:20:21,  1.93s/it]                                                         {'loss': 0.1298, 'grad_norm': 0.4518330693244934, 'learning_rate': 2.685135651509362e-05, 'epoch': 2.15}
  9%|▉         | 7031/78504 [4:17:25<38:20:21,  1.93s/it]  9%|▉         | 7032/78504 [4:17:27<36:41:57,  1.85s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.5377371907234192, 'learning_rate': 2.6855177684371417e-05, 'epoch': 2.15}
  9%|▉         | 7032/78504 [4:17:27<36:41:57,  1.85s/it]  9%|▉         | 7033/78504 [4:17:29<35:24:21,  1.78s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.5521318316459656, 'learning_rate': 2.6858998853649216e-05, 'epoch': 2.15}
  9%|▉         | 7033/78504 [4:17:29<35:24:21,  1.78s/it]  9%|▉         | 7034/78504 [4:17:30<33:51:30,  1.71s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.816204309463501, 'learning_rate': 2.6862820022927015e-05, 'epoch': 2.15}
  9%|▉         | 7034/78504 [4:17:30<33:51:30,  1.71s/it]  9%|▉         | 7035/78504 [4:17:32<32:25:56,  1.63s/it]                                                         {'loss': 0.178, 'grad_norm': 0.7433658838272095, 'learning_rate': 2.6866641192204813e-05, 'epoch': 2.15}
  9%|▉         | 7035/78504 [4:17:32<32:25:56,  1.63s/it]  9%|▉         | 7036/78504 [4:17:33<30:52:01,  1.55s/it]                                                         {'loss': 0.2112, 'grad_norm': 1.4879333972930908, 'learning_rate': 2.6870462361482612e-05, 'epoch': 2.15}
  9%|▉         | 7036/78504 [4:17:33<30:52:01,  1.55s/it]  9%|▉         | 7037/78504 [4:17:34<29:14:28,  1.47s/it]                                                         {'loss': 0.2174, 'grad_norm': 0.8028479218482971, 'learning_rate': 2.687428353076041e-05, 'epoch': 2.15}
  9%|▉         | 7037/78504 [4:17:34<29:14:28,  1.47s/it]  9%|▉         | 7038/78504 [4:17:35<27:20:12,  1.38s/it]                                                         {'loss': 0.2475, 'grad_norm': 1.0387285947799683, 'learning_rate': 2.687810470003821e-05, 'epoch': 2.15}
  9%|▉         | 7038/78504 [4:17:35<27:20:12,  1.38s/it]  9%|▉         | 7039/78504 [4:17:37<25:38:55,  1.29s/it]                                                         {'loss': 0.2286, 'grad_norm': 0.7794132828712463, 'learning_rate': 2.688192586931601e-05, 'epoch': 2.15}
  9%|▉         | 7039/78504 [4:17:37<25:38:55,  1.29s/it]  9%|▉         | 7040/78504 [4:17:38<24:13:43,  1.22s/it]                                                         {'loss': 0.2184, 'grad_norm': 1.8582568168640137, 'learning_rate': 2.688574703859381e-05, 'epoch': 2.15}
  9%|▉         | 7040/78504 [4:17:38<24:13:43,  1.22s/it]  9%|▉         | 7041/78504 [4:17:38<22:25:02,  1.13s/it]                                                         {'loss': 0.2312, 'grad_norm': 0.7760523557662964, 'learning_rate': 2.6889568207871613e-05, 'epoch': 2.15}
  9%|▉         | 7041/78504 [4:17:39<22:25:02,  1.13s/it]  9%|▉         | 7042/78504 [4:17:39<20:24:53,  1.03s/it]                                                         {'loss': 0.2969, 'grad_norm': 1.18756103515625, 'learning_rate': 2.689338937714941e-05, 'epoch': 2.15}
  9%|▉         | 7042/78504 [4:17:39<20:24:53,  1.03s/it]  9%|▉         | 7043/78504 [4:17:47<62:24:50,  3.14s/it]                                                         {'loss': 0.1567, 'grad_norm': 0.3944629430770874, 'learning_rate': 2.689721054642721e-05, 'epoch': 2.15}
  9%|▉         | 7043/78504 [4:17:47<62:24:50,  3.14s/it]  9%|▉         | 7044/78504 [4:17:50<62:14:03,  3.14s/it]                                                         {'loss': 0.1033, 'grad_norm': 0.3221830129623413, 'learning_rate': 2.690103171570501e-05, 'epoch': 2.15}
  9%|▉         | 7044/78504 [4:17:50<62:14:03,  3.14s/it]  9%|▉         | 7045/78504 [4:17:53<61:31:58,  3.10s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.30260753631591797, 'learning_rate': 2.6904852884982808e-05, 'epoch': 2.15}
  9%|▉         | 7045/78504 [4:17:54<61:31:58,  3.10s/it]  9%|▉         | 7046/78504 [4:17:56<58:36:50,  2.95s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.39540764689445496, 'learning_rate': 2.6908674054260606e-05, 'epoch': 2.15}
  9%|▉         | 7046/78504 [4:17:56<58:36:50,  2.95s/it]  9%|▉         | 7047/78504 [4:17:58<55:04:13,  2.77s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.30498456954956055, 'learning_rate': 2.6912495223538405e-05, 'epoch': 2.15}
  9%|▉         | 7047/78504 [4:17:58<55:04:13,  2.77s/it]  9%|▉         | 7048/78504 [4:18:01<51:58:30,  2.62s/it]                                                         {'loss': 0.0696, 'grad_norm': 0.5253481864929199, 'learning_rate': 2.6916316392816204e-05, 'epoch': 2.15}
  9%|▉         | 7048/78504 [4:18:01<51:58:30,  2.62s/it]  9%|▉         | 7049/78504 [4:18:03<50:12:39,  2.53s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.559775710105896, 'learning_rate': 2.6920137562094003e-05, 'epoch': 2.15}
  9%|▉         | 7049/78504 [4:18:03<50:12:39,  2.53s/it]  9%|▉         | 7050/78504 [4:18:05<47:44:01,  2.40s/it]                                                         {'loss': 0.0586, 'grad_norm': 0.24870631098747253, 'learning_rate': 2.69239587313718e-05, 'epoch': 2.16}
  9%|▉         | 7050/78504 [4:18:05<47:44:01,  2.40s/it]  9%|▉         | 7051/78504 [4:18:07<46:25:15,  2.34s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.29455870389938354, 'learning_rate': 2.69277799006496e-05, 'epoch': 2.16}
  9%|▉         | 7051/78504 [4:18:07<46:25:15,  2.34s/it]  9%|▉         | 7052/78504 [4:18:09<45:15:45,  2.28s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.36482682824134827, 'learning_rate': 2.69316010699274e-05, 'epoch': 2.16}
  9%|▉         | 7052/78504 [4:18:09<45:15:45,  2.28s/it]  9%|▉         | 7053/78504 [4:18:11<43:44:01,  2.20s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.4622988700866699, 'learning_rate': 2.6935422239205197e-05, 'epoch': 2.16}
  9%|▉         | 7053/78504 [4:18:12<43:44:01,  2.20s/it]  9%|▉         | 7054/78504 [4:18:13<41:21:05,  2.08s/it]                                                         {'loss': 0.0914, 'grad_norm': 0.3651861846446991, 'learning_rate': 2.6939243408482996e-05, 'epoch': 2.16}
  9%|▉         | 7054/78504 [4:18:13<41:21:05,  2.08s/it]  9%|▉         | 7055/78504 [4:18:15<40:02:50,  2.02s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.6283716559410095, 'learning_rate': 2.6943064577760795e-05, 'epoch': 2.16}
  9%|▉         | 7055/78504 [4:18:15<40:02:50,  2.02s/it]  9%|▉         | 7056/78504 [4:18:17<38:57:34,  1.96s/it]                                                         {'loss': 0.1302, 'grad_norm': 0.6162665486335754, 'learning_rate': 2.6946885747038594e-05, 'epoch': 2.16}
  9%|▉         | 7056/78504 [4:18:17<38:57:34,  1.96s/it]  9%|▉         | 7057/78504 [4:18:19<37:10:32,  1.87s/it]                                                         {'loss': 0.1386, 'grad_norm': 0.629937469959259, 'learning_rate': 2.6950706916316396e-05, 'epoch': 2.16}
  9%|▉         | 7057/78504 [4:18:19<37:10:32,  1.87s/it]  9%|▉         | 7058/78504 [4:18:20<35:53:05,  1.81s/it]                                                         {'loss': 0.157, 'grad_norm': 0.4702097475528717, 'learning_rate': 2.6954528085594195e-05, 'epoch': 2.16}
  9%|▉         | 7058/78504 [4:18:20<35:53:05,  1.81s/it]  9%|▉         | 7059/78504 [4:18:22<34:10:12,  1.72s/it]                                                         {'loss': 0.1691, 'grad_norm': 0.4954817295074463, 'learning_rate': 2.6958349254871993e-05, 'epoch': 2.16}
  9%|▉         | 7059/78504 [4:18:22<34:10:12,  1.72s/it]  9%|▉         | 7060/78504 [4:18:23<32:28:10,  1.64s/it]                                                         {'loss': 0.2217, 'grad_norm': 0.6780310869216919, 'learning_rate': 2.6962170424149792e-05, 'epoch': 2.16}
  9%|▉         | 7060/78504 [4:18:23<32:28:10,  1.64s/it]  9%|▉         | 7061/78504 [4:18:25<31:12:03,  1.57s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.5611264109611511, 'learning_rate': 2.696599159342759e-05, 'epoch': 2.16}
  9%|▉         | 7061/78504 [4:18:25<31:12:03,  1.57s/it]  9%|▉         | 7062/78504 [4:18:26<29:06:51,  1.47s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.7378785014152527, 'learning_rate': 2.696981276270539e-05, 'epoch': 2.16}
  9%|▉         | 7062/78504 [4:18:26<29:06:51,  1.47s/it]  9%|▉         | 7063/78504 [4:18:27<27:16:48,  1.37s/it]                                                         {'loss': 0.2189, 'grad_norm': 0.9105340242385864, 'learning_rate': 2.697363393198319e-05, 'epoch': 2.16}
  9%|▉         | 7063/78504 [4:18:27<27:16:48,  1.37s/it]  9%|▉         | 7064/78504 [4:18:28<25:42:02,  1.30s/it]                                                         {'loss': 0.2068, 'grad_norm': 0.7971762418746948, 'learning_rate': 2.6977455101260987e-05, 'epoch': 2.16}
  9%|▉         | 7064/78504 [4:18:28<25:42:02,  1.30s/it]  9%|▉         | 7065/78504 [4:18:29<23:53:06,  1.20s/it]                                                         {'loss': 0.2577, 'grad_norm': 0.7546399235725403, 'learning_rate': 2.6981276270538786e-05, 'epoch': 2.16}
  9%|▉         | 7065/78504 [4:18:29<23:53:06,  1.20s/it]  9%|▉         | 7066/78504 [4:18:30<22:19:11,  1.12s/it]                                                         {'loss': 0.2471, 'grad_norm': 0.9492889642715454, 'learning_rate': 2.6985097439816585e-05, 'epoch': 2.16}
  9%|▉         | 7066/78504 [4:18:30<22:19:11,  1.12s/it]  9%|▉         | 7067/78504 [4:18:31<20:23:28,  1.03s/it]                                                         {'loss': 0.2987, 'grad_norm': 1.4225578308105469, 'learning_rate': 2.6988918609094383e-05, 'epoch': 2.16}
  9%|▉         | 7067/78504 [4:18:31<20:23:28,  1.03s/it]  9%|▉         | 7068/78504 [4:18:40<69:10:04,  3.49s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.36814621090888977, 'learning_rate': 2.6992739778372182e-05, 'epoch': 2.16}
  9%|▉         | 7068/78504 [4:18:40<69:10:04,  3.49s/it]  9%|▉         | 7069/78504 [4:18:43<67:01:46,  3.38s/it]                                                         {'loss': 0.1269, 'grad_norm': 0.5136745572090149, 'learning_rate': 2.699656094764998e-05, 'epoch': 2.16}
  9%|▉         | 7069/78504 [4:18:43<67:01:46,  3.38s/it]  9%|▉         | 7070/78504 [4:18:46<64:43:52,  3.26s/it]                                                         {'loss': 0.0906, 'grad_norm': 0.36110639572143555, 'learning_rate': 2.700038211692778e-05, 'epoch': 2.16}
  9%|▉         | 7070/78504 [4:18:46<64:43:52,  3.26s/it]  9%|▉         | 7071/78504 [4:18:49<60:45:53,  3.06s/it]                                                         {'loss': 0.0532, 'grad_norm': 0.29407405853271484, 'learning_rate': 2.7004203286205578e-05, 'epoch': 2.16}
  9%|▉         | 7071/78504 [4:18:49<60:45:53,  3.06s/it]  9%|▉         | 7072/78504 [4:18:51<57:22:33,  2.89s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.3129805326461792, 'learning_rate': 2.700802445548338e-05, 'epoch': 2.16}
  9%|▉         | 7072/78504 [4:18:51<57:22:33,  2.89s/it]  9%|▉         | 7073/78504 [4:18:54<54:14:18,  2.73s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.5611547231674194, 'learning_rate': 2.701184562476118e-05, 'epoch': 2.16}
  9%|▉         | 7073/78504 [4:18:54<54:14:18,  2.73s/it]  9%|▉         | 7074/78504 [4:18:56<51:52:24,  2.61s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.2826860249042511, 'learning_rate': 2.7015666794038978e-05, 'epoch': 2.16}
  9%|▉         | 7074/78504 [4:18:56<51:52:24,  2.61s/it]  9%|▉         | 7075/78504 [4:18:58<48:46:01,  2.46s/it]                                                         {'loss': 0.0716, 'grad_norm': 0.2917850911617279, 'learning_rate': 2.7019487963316777e-05, 'epoch': 2.16}
  9%|▉         | 7075/78504 [4:18:58<48:46:01,  2.46s/it]  9%|▉         | 7076/78504 [4:19:00<47:12:55,  2.38s/it]                                                         {'loss': 0.1052, 'grad_norm': 0.2822268307209015, 'learning_rate': 2.7023309132594575e-05, 'epoch': 2.16}
  9%|▉         | 7076/78504 [4:19:00<47:12:55,  2.38s/it]  9%|▉         | 7077/78504 [4:19:02<45:48:26,  2.31s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.3741103410720825, 'learning_rate': 2.7027130301872374e-05, 'epoch': 2.16}
  9%|▉         | 7077/78504 [4:19:03<45:48:26,  2.31s/it]  9%|▉         | 7078/78504 [4:19:04<43:56:04,  2.21s/it]                                                         {'loss': 0.1074, 'grad_norm': 0.27484238147735596, 'learning_rate': 2.7030951471150173e-05, 'epoch': 2.16}
  9%|▉         | 7078/78504 [4:19:05<43:56:04,  2.21s/it]  9%|▉         | 7079/78504 [4:19:06<41:29:17,  2.09s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.31758996844291687, 'learning_rate': 2.703477264042797e-05, 'epoch': 2.16}
  9%|▉         | 7079/78504 [4:19:06<41:29:17,  2.09s/it]  9%|▉         | 7080/78504 [4:19:08<40:08:46,  2.02s/it]                                                         {'loss': 0.1036, 'grad_norm': 0.3655761480331421, 'learning_rate': 2.703859380970577e-05, 'epoch': 2.16}
  9%|▉         | 7080/78504 [4:19:08<40:08:46,  2.02s/it]  9%|▉         | 7081/78504 [4:19:10<39:05:01,  1.97s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.728262722492218, 'learning_rate': 2.704241497898357e-05, 'epoch': 2.16}
  9%|▉         | 7081/78504 [4:19:10<39:05:01,  1.97s/it]  9%|▉         | 7082/78504 [4:19:12<37:38:58,  1.90s/it]                                                         {'loss': 0.1465, 'grad_norm': 0.3521135747432709, 'learning_rate': 2.7046236148261368e-05, 'epoch': 2.17}
  9%|▉         | 7082/78504 [4:19:12<37:38:58,  1.90s/it]  9%|▉         | 7083/78504 [4:19:13<36:09:12,  1.82s/it]                                                         {'loss': 0.176, 'grad_norm': 0.5440397262573242, 'learning_rate': 2.7050057317539167e-05, 'epoch': 2.17}
  9%|▉         | 7083/78504 [4:19:13<36:09:12,  1.82s/it]  9%|▉         | 7084/78504 [4:19:15<34:22:17,  1.73s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.6137725710868835, 'learning_rate': 2.7053878486816965e-05, 'epoch': 2.17}
  9%|▉         | 7084/78504 [4:19:15<34:22:17,  1.73s/it]  9%|▉         | 7085/78504 [4:19:16<32:34:23,  1.64s/it]                                                         {'loss': 0.1563, 'grad_norm': 0.558089017868042, 'learning_rate': 2.7057699656094764e-05, 'epoch': 2.17}
  9%|▉         | 7085/78504 [4:19:16<32:34:23,  1.64s/it]  9%|▉         | 7086/78504 [4:19:18<31:09:29,  1.57s/it]                                                         {'loss': 0.221, 'grad_norm': 0.7315589189529419, 'learning_rate': 2.7061520825372563e-05, 'epoch': 2.17}
  9%|▉         | 7086/78504 [4:19:18<31:09:29,  1.57s/it]  9%|▉         | 7087/78504 [4:19:19<29:07:04,  1.47s/it]                                                         {'loss': 0.2231, 'grad_norm': 0.796095073223114, 'learning_rate': 2.7065341994650365e-05, 'epoch': 2.17}
  9%|▉         | 7087/78504 [4:19:19<29:07:04,  1.47s/it]  9%|▉         | 7088/78504 [4:19:20<27:10:53,  1.37s/it]                                                         {'loss': 0.2075, 'grad_norm': 0.8372097611427307, 'learning_rate': 2.7069163163928164e-05, 'epoch': 2.17}
  9%|▉         | 7088/78504 [4:19:20<27:10:53,  1.37s/it]  9%|▉         | 7089/78504 [4:19:21<25:35:48,  1.29s/it]                                                         {'loss': 0.215, 'grad_norm': 0.8248023390769958, 'learning_rate': 2.7072984333205962e-05, 'epoch': 2.17}
  9%|▉         | 7089/78504 [4:19:21<25:35:48,  1.29s/it]  9%|▉         | 7090/78504 [4:19:22<23:47:36,  1.20s/it]                                                         {'loss': 0.2286, 'grad_norm': 1.1498732566833496, 'learning_rate': 2.707680550248376e-05, 'epoch': 2.17}
  9%|▉         | 7090/78504 [4:19:22<23:47:36,  1.20s/it]  9%|▉         | 7091/78504 [4:19:23<22:11:04,  1.12s/it]                                                         {'loss': 0.2542, 'grad_norm': 1.818839192390442, 'learning_rate': 2.708062667176156e-05, 'epoch': 2.17}
  9%|▉         | 7091/78504 [4:19:23<22:11:04,  1.12s/it]  9%|▉         | 7092/78504 [4:19:24<20:09:47,  1.02s/it]                                                         {'loss': 0.287, 'grad_norm': 1.3838227987289429, 'learning_rate': 2.708444784103936e-05, 'epoch': 2.17}
  9%|▉         | 7092/78504 [4:19:24<20:09:47,  1.02s/it]  9%|▉         | 7093/78504 [4:19:32<61:55:36,  3.12s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.37427401542663574, 'learning_rate': 2.7088269010317157e-05, 'epoch': 2.17}
  9%|▉         | 7093/78504 [4:19:32<61:55:36,  3.12s/it]  9%|▉         | 7094/78504 [4:19:35<61:55:45,  3.12s/it]                                                         {'loss': 0.0928, 'grad_norm': 0.33843696117401123, 'learning_rate': 2.7092090179594956e-05, 'epoch': 2.17}
  9%|▉         | 7094/78504 [4:19:35<61:55:45,  3.12s/it]  9%|▉         | 7095/78504 [4:19:38<61:10:18,  3.08s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.30115818977355957, 'learning_rate': 2.7095911348872755e-05, 'epoch': 2.17}
  9%|▉         | 7095/78504 [4:19:38<61:10:18,  3.08s/it]  9%|▉         | 7096/78504 [4:19:41<58:14:53,  2.94s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.3240291178226471, 'learning_rate': 2.7099732518150554e-05, 'epoch': 2.17}
  9%|▉         | 7096/78504 [4:19:41<58:14:53,  2.94s/it]  9%|▉         | 7097/78504 [4:19:43<55:31:15,  2.80s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.26563382148742676, 'learning_rate': 2.7103553687428352e-05, 'epoch': 2.17}
  9%|▉         | 7097/78504 [4:19:43<55:31:15,  2.80s/it]  9%|▉         | 7098/78504 [4:19:45<52:23:04,  2.64s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.2918142080307007, 'learning_rate': 2.710737485670615e-05, 'epoch': 2.17}
  9%|▉         | 7098/78504 [4:19:45<52:23:04,  2.64s/it]  9%|▉         | 7099/78504 [4:19:48<50:31:42,  2.55s/it]                                                         {'loss': 0.0638, 'grad_norm': 0.3788161873817444, 'learning_rate': 2.711119602598395e-05, 'epoch': 2.17}
  9%|▉         | 7099/78504 [4:19:48<50:31:42,  2.55s/it]  9%|▉         | 7100/78504 [4:19:50<47:57:27,  2.42s/it]                                                         {'loss': 0.0905, 'grad_norm': 0.6464394927024841, 'learning_rate': 2.711501719526175e-05, 'epoch': 2.17}
  9%|▉         | 7100/78504 [4:19:50<47:57:27,  2.42s/it]  9%|▉         | 7101/78504 [4:19:52<46:34:14,  2.35s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.3275757133960724, 'learning_rate': 2.7118838364539547e-05, 'epoch': 2.17}
  9%|▉         | 7101/78504 [4:19:52<46:34:14,  2.35s/it]  9%|▉         | 7102/78504 [4:19:54<45:33:09,  2.30s/it]                                                         {'loss': 0.0917, 'grad_norm': 0.4186345040798187, 'learning_rate': 2.7122659533817346e-05, 'epoch': 2.17}
  9%|▉         | 7102/78504 [4:19:54<45:33:09,  2.30s/it]  9%|▉         | 7103/78504 [4:19:56<43:59:14,  2.22s/it]                                                         {'loss': 0.1052, 'grad_norm': 0.26277974247932434, 'learning_rate': 2.7126480703095148e-05, 'epoch': 2.17}
  9%|▉         | 7103/78504 [4:19:56<43:59:14,  2.22s/it]  9%|▉         | 7104/78504 [4:19:58<42:36:16,  2.15s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.336950421333313, 'learning_rate': 2.7130301872372947e-05, 'epoch': 2.17}
  9%|▉         | 7104/78504 [4:19:58<42:36:16,  2.15s/it]  9%|▉         | 7105/78504 [4:20:00<40:57:56,  2.07s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.4453859031200409, 'learning_rate': 2.7134123041650746e-05, 'epoch': 2.17}
  9%|▉         | 7105/78504 [4:20:00<40:57:56,  2.07s/it]  9%|▉         | 7106/78504 [4:20:02<39:37:10,  2.00s/it]                                                         {'loss': 0.1564, 'grad_norm': 0.6827691793441772, 'learning_rate': 2.7137944210928545e-05, 'epoch': 2.17}
  9%|▉         | 7106/78504 [4:20:02<39:37:10,  2.00s/it]  9%|▉         | 7107/78504 [4:20:04<38:03:31,  1.92s/it]                                                         {'loss': 0.1298, 'grad_norm': 0.5470419526100159, 'learning_rate': 2.7141765380206343e-05, 'epoch': 2.17}
  9%|▉         | 7107/78504 [4:20:04<38:03:31,  1.92s/it]  9%|▉         | 7108/78504 [4:20:05<36:27:09,  1.84s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.502107560634613, 'learning_rate': 2.7145586549484142e-05, 'epoch': 2.17}
  9%|▉         | 7108/78504 [4:20:05<36:27:09,  1.84s/it]  9%|▉         | 7109/78504 [4:20:07<34:34:45,  1.74s/it]                                                         {'loss': 0.1553, 'grad_norm': 0.7546409368515015, 'learning_rate': 2.714940771876194e-05, 'epoch': 2.17}
  9%|▉         | 7109/78504 [4:20:07<34:34:45,  1.74s/it]  9%|▉         | 7110/78504 [4:20:08<32:57:48,  1.66s/it]                                                         {'loss': 0.2236, 'grad_norm': 0.6997967958450317, 'learning_rate': 2.715322888803974e-05, 'epoch': 2.17}
  9%|▉         | 7110/78504 [4:20:08<32:57:48,  1.66s/it]  9%|▉         | 7111/78504 [4:20:10<31:32:34,  1.59s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.7194198966026306, 'learning_rate': 2.7157050057317538e-05, 'epoch': 2.17}
  9%|▉         | 7111/78504 [4:20:10<31:32:34,  1.59s/it]  9%|▉         | 7112/78504 [4:20:11<29:46:51,  1.50s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.7931292057037354, 'learning_rate': 2.7160871226595337e-05, 'epoch': 2.17}
  9%|▉         | 7112/78504 [4:20:11<29:46:51,  1.50s/it]  9%|▉         | 7113/78504 [4:20:12<27:42:30,  1.40s/it]                                                         {'loss': 0.241, 'grad_norm': 0.6083042025566101, 'learning_rate': 2.7164692395873136e-05, 'epoch': 2.17}
  9%|▉         | 7113/78504 [4:20:12<27:42:30,  1.40s/it]  9%|▉         | 7114/78504 [4:20:13<25:52:13,  1.30s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.9708653092384338, 'learning_rate': 2.7168513565150934e-05, 'epoch': 2.17}
  9%|▉         | 7114/78504 [4:20:13<25:52:13,  1.30s/it]  9%|▉         | 7115/78504 [4:20:14<24:03:20,  1.21s/it]                                                         {'loss': 0.226, 'grad_norm': 0.8778173923492432, 'learning_rate': 2.7172334734428733e-05, 'epoch': 2.18}
  9%|▉         | 7115/78504 [4:20:14<24:03:20,  1.21s/it]  9%|▉         | 7116/78504 [4:20:15<22:28:08,  1.13s/it]                                                         {'loss': 0.2761, 'grad_norm': 1.0697139501571655, 'learning_rate': 2.7176155903706532e-05, 'epoch': 2.18}
  9%|▉         | 7116/78504 [4:20:15<22:28:08,  1.13s/it]  9%|▉         | 7117/78504 [4:20:16<20:34:59,  1.04s/it]                                                         {'loss': 0.3062, 'grad_norm': 3.068713665008545, 'learning_rate': 2.7179977072984334e-05, 'epoch': 2.18}
  9%|▉         | 7117/78504 [4:20:16<20:34:59,  1.04s/it]  9%|▉         | 7118/78504 [4:20:24<64:30:04,  3.25s/it]                                                         {'loss': 0.1733, 'grad_norm': 0.4680692255496979, 'learning_rate': 2.7183798242262133e-05, 'epoch': 2.18}
  9%|▉         | 7118/78504 [4:20:24<64:30:04,  3.25s/it]  9%|▉         | 7119/78504 [4:20:28<65:13:26,  3.29s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.23984061181545258, 'learning_rate': 2.7187619411539935e-05, 'epoch': 2.18}
  9%|▉         | 7119/78504 [4:20:28<65:13:26,  3.29s/it]  9%|▉         | 7120/78504 [4:20:30<60:55:18,  3.07s/it]                                                         {'loss': 0.0749, 'grad_norm': 0.270263135433197, 'learning_rate': 2.7191440580817734e-05, 'epoch': 2.18}
  9%|▉         | 7120/78504 [4:20:30<60:55:18,  3.07s/it]  9%|▉         | 7121/78504 [4:20:33<58:14:01,  2.94s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.39594438672065735, 'learning_rate': 2.7195261750095532e-05, 'epoch': 2.18}
  9%|▉         | 7121/78504 [4:20:33<58:14:01,  2.94s/it]  9%|▉         | 7122/78504 [4:20:35<55:27:09,  2.80s/it]                                                         {'loss': 0.059, 'grad_norm': 0.25702208280563354, 'learning_rate': 2.719908291937333e-05, 'epoch': 2.18}
  9%|▉         | 7122/78504 [4:20:36<55:27:09,  2.80s/it]  9%|▉         | 7123/78504 [4:20:38<52:19:51,  2.64s/it]                                                         {'loss': 0.0535, 'grad_norm': 0.33883151412010193, 'learning_rate': 2.720290408865113e-05, 'epoch': 2.18}
  9%|▉         | 7123/78504 [4:20:38<52:19:51,  2.64s/it]  9%|▉         | 7124/78504 [4:20:40<50:26:37,  2.54s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.504114031791687, 'learning_rate': 2.720672525792893e-05, 'epoch': 2.18}
  9%|▉         | 7124/78504 [4:20:40<50:26:37,  2.54s/it]  9%|▉         | 7125/78504 [4:20:42<47:53:32,  2.42s/it]                                                         {'loss': 0.0621, 'grad_norm': 0.2953636944293976, 'learning_rate': 2.7210546427206727e-05, 'epoch': 2.18}
  9%|▉         | 7125/78504 [4:20:42<47:53:32,  2.42s/it]  9%|▉         | 7126/78504 [4:20:44<46:32:31,  2.35s/it]                                                         {'loss': 0.1047, 'grad_norm': 0.39059978723526, 'learning_rate': 2.7214367596484526e-05, 'epoch': 2.18}
  9%|▉         | 7126/78504 [4:20:44<46:32:31,  2.35s/it]  9%|▉         | 7127/78504 [4:20:47<45:19:19,  2.29s/it]                                                         {'loss': 0.0778, 'grad_norm': 1.181030035018921, 'learning_rate': 2.7218188765762325e-05, 'epoch': 2.18}
  9%|▉         | 7127/78504 [4:20:47<45:19:19,  2.29s/it]  9%|▉         | 7128/78504 [4:20:49<43:49:19,  2.21s/it]                                                         {'loss': 0.0979, 'grad_norm': 0.3940613567829132, 'learning_rate': 2.7222009935040124e-05, 'epoch': 2.18}
  9%|▉         | 7128/78504 [4:20:49<43:49:19,  2.21s/it]  9%|▉         | 7129/78504 [4:20:51<42:26:07,  2.14s/it]                                                         {'loss': 0.0882, 'grad_norm': 0.3199200928211212, 'learning_rate': 2.7225831104317922e-05, 'epoch': 2.18}
  9%|▉         | 7129/78504 [4:20:51<42:26:07,  2.14s/it]  9%|▉         | 7130/78504 [4:20:52<40:48:04,  2.06s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.3347514271736145, 'learning_rate': 2.722965227359572e-05, 'epoch': 2.18}
  9%|▉         | 7130/78504 [4:20:52<40:48:04,  2.06s/it]  9%|▉         | 7131/78504 [4:20:54<39:42:52,  2.00s/it]                                                         {'loss': 0.146, 'grad_norm': 0.6200264692306519, 'learning_rate': 2.723347344287352e-05, 'epoch': 2.18}
  9%|▉         | 7131/78504 [4:20:54<39:42:52,  2.00s/it]  9%|▉         | 7132/78504 [4:20:56<38:03:33,  1.92s/it]                                                         {'loss': 0.1376, 'grad_norm': 0.5418228507041931, 'learning_rate': 2.723729461215132e-05, 'epoch': 2.18}
  9%|▉         | 7132/78504 [4:20:56<38:03:33,  1.92s/it]  9%|▉         | 7133/78504 [4:20:58<36:22:57,  1.84s/it]                                                         {'loss': 0.145, 'grad_norm': 0.5005942583084106, 'learning_rate': 2.7241115781429117e-05, 'epoch': 2.18}
  9%|▉         | 7133/78504 [4:20:58<36:22:57,  1.84s/it]  9%|▉         | 7134/78504 [4:20:59<34:32:15,  1.74s/it]                                                         {'loss': 0.1583, 'grad_norm': 0.6777404546737671, 'learning_rate': 2.724493695070692e-05, 'epoch': 2.18}
  9%|▉         | 7134/78504 [4:20:59<34:32:15,  1.74s/it]  9%|▉         | 7135/78504 [4:21:01<32:36:57,  1.65s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.4932810962200165, 'learning_rate': 2.7248758119984718e-05, 'epoch': 2.18}
  9%|▉         | 7135/78504 [4:21:01<32:36:57,  1.65s/it]  9%|▉         | 7136/78504 [4:21:02<31:14:13,  1.58s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.5882030725479126, 'learning_rate': 2.7252579289262517e-05, 'epoch': 2.18}
  9%|▉         | 7136/78504 [4:21:02<31:14:13,  1.58s/it]  9%|▉         | 7137/78504 [4:21:03<29:07:02,  1.47s/it]                                                         {'loss': 0.2267, 'grad_norm': 0.8856511116027832, 'learning_rate': 2.7256400458540316e-05, 'epoch': 2.18}
  9%|▉         | 7137/78504 [4:21:03<29:07:02,  1.47s/it]  9%|▉         | 7138/78504 [4:21:04<27:05:34,  1.37s/it]                                                         {'loss': 0.2354, 'grad_norm': 1.2178502082824707, 'learning_rate': 2.7260221627818115e-05, 'epoch': 2.18}
  9%|▉         | 7138/78504 [4:21:04<27:05:34,  1.37s/it]  9%|▉         | 7139/78504 [4:21:05<25:28:24,  1.29s/it]                                                         {'loss': 0.2418, 'grad_norm': 0.8637135028839111, 'learning_rate': 2.7264042797095913e-05, 'epoch': 2.18}
  9%|▉         | 7139/78504 [4:21:05<25:28:24,  1.29s/it]  9%|▉         | 7140/78504 [4:21:06<23:44:04,  1.20s/it]                                                         {'loss': 0.2434, 'grad_norm': 1.0317474603652954, 'learning_rate': 2.7267863966373712e-05, 'epoch': 2.18}
  9%|▉         | 7140/78504 [4:21:06<23:44:04,  1.20s/it]  9%|▉         | 7141/78504 [4:21:07<22:07:32,  1.12s/it]                                                         {'loss': 0.2273, 'grad_norm': 0.7719634175300598, 'learning_rate': 2.727168513565151e-05, 'epoch': 2.18}
  9%|▉         | 7141/78504 [4:21:07<22:07:32,  1.12s/it]  9%|▉         | 7142/78504 [4:21:08<20:07:50,  1.02s/it]                                                         {'loss': 0.3426, 'grad_norm': 1.6543186902999878, 'learning_rate': 2.727550630492931e-05, 'epoch': 2.18}
  9%|▉         | 7142/78504 [4:21:08<20:07:50,  1.02s/it]  9%|▉         | 7143/78504 [4:21:17<66:47:16,  3.37s/it]                                                         {'loss': 0.1978, 'grad_norm': 0.4322933554649353, 'learning_rate': 2.7279327474207108e-05, 'epoch': 2.18}
  9%|▉         | 7143/78504 [4:21:17<66:47:16,  3.37s/it]  9%|▉         | 7144/78504 [4:21:20<66:09:25,  3.34s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.2708527743816376, 'learning_rate': 2.7283148643484907e-05, 'epoch': 2.18}
  9%|▉         | 7144/78504 [4:21:20<66:09:25,  3.34s/it]  9%|▉         | 7145/78504 [4:21:23<64:02:36,  3.23s/it]                                                         {'loss': 0.066, 'grad_norm': 0.44872280955314636, 'learning_rate': 2.7286969812762706e-05, 'epoch': 2.18}
  9%|▉         | 7145/78504 [4:21:23<64:02:36,  3.23s/it]  9%|▉         | 7146/78504 [4:21:26<60:23:37,  3.05s/it]                                                         {'loss': 0.1, 'grad_norm': 0.3324790596961975, 'learning_rate': 2.7290790982040504e-05, 'epoch': 2.18}
  9%|▉         | 7146/78504 [4:21:26<60:23:37,  3.05s/it]  9%|▉         | 7147/78504 [4:21:28<57:00:33,  2.88s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.2322012186050415, 'learning_rate': 2.7294612151318303e-05, 'epoch': 2.18}
  9%|▉         | 7147/78504 [4:21:28<57:00:33,  2.88s/it]  9%|▉         | 7148/78504 [4:21:31<53:23:01,  2.69s/it]                                                         {'loss': 0.0685, 'grad_norm': 0.25371795892715454, 'learning_rate': 2.7298433320596102e-05, 'epoch': 2.19}
  9%|▉         | 7148/78504 [4:21:31<53:23:01,  2.69s/it]  9%|▉         | 7149/78504 [4:21:33<51:13:24,  2.58s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.22222928702831268, 'learning_rate': 2.73022544898739e-05, 'epoch': 2.19}
  9%|▉         | 7149/78504 [4:21:33<51:13:24,  2.58s/it]  9%|▉         | 7150/78504 [4:21:35<48:19:20,  2.44s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.5356463193893433, 'learning_rate': 2.7306075659151703e-05, 'epoch': 2.19}
  9%|▉         | 7150/78504 [4:21:35<48:19:20,  2.44s/it]  9%|▉         | 7151/78504 [4:21:37<46:51:32,  2.36s/it]                                                         {'loss': 0.0603, 'grad_norm': 0.32189616560935974, 'learning_rate': 2.73098968284295e-05, 'epoch': 2.19}
  9%|▉         | 7151/78504 [4:21:37<46:51:32,  2.36s/it]  9%|▉         | 7152/78504 [4:21:39<45:36:16,  2.30s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.3270339071750641, 'learning_rate': 2.73137179977073e-05, 'epoch': 2.19}
  9%|▉         | 7152/78504 [4:21:39<45:36:16,  2.30s/it]  9%|▉         | 7153/78504 [4:21:41<43:57:30,  2.22s/it]                                                         {'loss': 0.0902, 'grad_norm': 0.333137184381485, 'learning_rate': 2.73175391669851e-05, 'epoch': 2.19}
  9%|▉         | 7153/78504 [4:21:41<43:57:30,  2.22s/it]  9%|▉         | 7154/78504 [4:21:43<41:31:47,  2.10s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3730262517929077, 'learning_rate': 2.7321360336262898e-05, 'epoch': 2.19}
  9%|▉         | 7154/78504 [4:21:43<41:31:47,  2.10s/it]  9%|▉         | 7155/78504 [4:21:45<40:10:39,  2.03s/it]                                                         {'loss': 0.089, 'grad_norm': 0.4018065929412842, 'learning_rate': 2.7325181505540697e-05, 'epoch': 2.19}
  9%|▉         | 7155/78504 [4:21:45<40:10:39,  2.03s/it]  9%|▉         | 7156/78504 [4:21:47<39:02:04,  1.97s/it]                                                         {'loss': 0.1558, 'grad_norm': 0.43772003054618835, 'learning_rate': 2.7329002674818495e-05, 'epoch': 2.19}
  9%|▉         | 7156/78504 [4:21:47<39:02:04,  1.97s/it]  9%|▉         | 7157/78504 [4:21:49<37:36:59,  1.90s/it]                                                         {'loss': 0.1248, 'grad_norm': 0.5017663836479187, 'learning_rate': 2.7332823844096294e-05, 'epoch': 2.19}
  9%|▉         | 7157/78504 [4:21:49<37:36:59,  1.90s/it]  9%|▉         | 7158/78504 [4:21:50<36:05:00,  1.82s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.600753128528595, 'learning_rate': 2.7336645013374093e-05, 'epoch': 2.19}
  9%|▉         | 7158/78504 [4:21:50<36:05:00,  1.82s/it]  9%|▉         | 7159/78504 [4:21:52<34:22:40,  1.73s/it]                                                         {'loss': 0.1668, 'grad_norm': 0.5117200016975403, 'learning_rate': 2.734046618265189e-05, 'epoch': 2.19}
  9%|▉         | 7159/78504 [4:21:52<34:22:40,  1.73s/it]  9%|▉         | 7160/78504 [4:21:53<32:48:08,  1.66s/it]                                                         {'loss': 0.1712, 'grad_norm': 1.0638618469238281, 'learning_rate': 2.734428735192969e-05, 'epoch': 2.19}
  9%|▉         | 7160/78504 [4:21:53<32:48:08,  1.66s/it]  9%|▉         | 7161/78504 [4:21:55<31:23:35,  1.58s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.8487361669540405, 'learning_rate': 2.734810852120749e-05, 'epoch': 2.19}
  9%|▉         | 7161/78504 [4:21:55<31:23:35,  1.58s/it]  9%|▉         | 7162/78504 [4:21:56<29:37:18,  1.49s/it]                                                         {'loss': 0.228, 'grad_norm': 0.6261155605316162, 'learning_rate': 2.7351929690485288e-05, 'epoch': 2.19}
  9%|▉         | 7162/78504 [4:21:56<29:37:18,  1.49s/it]  9%|▉         | 7163/78504 [4:21:57<27:32:25,  1.39s/it]                                                         {'loss': 0.2038, 'grad_norm': 1.9991259574890137, 'learning_rate': 2.7355750859763087e-05, 'epoch': 2.19}
  9%|▉         | 7163/78504 [4:21:57<27:32:25,  1.39s/it]  9%|▉         | 7164/78504 [4:21:58<25:48:54,  1.30s/it]                                                         {'loss': 0.2432, 'grad_norm': 0.8972893357276917, 'learning_rate': 2.7359572029040885e-05, 'epoch': 2.19}
  9%|▉         | 7164/78504 [4:21:58<25:48:54,  1.30s/it]  9%|▉         | 7165/78504 [4:21:59<24:23:37,  1.23s/it]                                                         {'loss': 0.2262, 'grad_norm': 0.8978043794631958, 'learning_rate': 2.7363393198318687e-05, 'epoch': 2.19}
  9%|▉         | 7165/78504 [4:21:59<24:23:37,  1.23s/it]  9%|▉         | 7166/78504 [4:22:00<22:34:15,  1.14s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.7389625310897827, 'learning_rate': 2.7367214367596486e-05, 'epoch': 2.19}
  9%|▉         | 7166/78504 [4:22:00<22:34:15,  1.14s/it]  9%|▉         | 7167/78504 [4:22:01<20:26:58,  1.03s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.1283628940582275, 'learning_rate': 2.7371035536874285e-05, 'epoch': 2.19}
  9%|▉         | 7167/78504 [4:22:01<20:26:58,  1.03s/it]  9%|▉         | 7168/78504 [4:22:08<54:08:59,  2.73s/it]                                                         {'loss': 0.1612, 'grad_norm': 0.3722768723964691, 'learning_rate': 2.7374856706152084e-05, 'epoch': 2.19}
  9%|▉         | 7168/78504 [4:22:08<54:08:59,  2.73s/it]  9%|▉         | 7169/78504 [4:22:11<56:34:49,  2.86s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.32076406478881836, 'learning_rate': 2.7378677875429882e-05, 'epoch': 2.19}
  9%|▉         | 7169/78504 [4:22:11<56:34:49,  2.86s/it]  9%|▉         | 7170/78504 [4:22:14<57:32:13,  2.90s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.33558160066604614, 'learning_rate': 2.738249904470768e-05, 'epoch': 2.19}
  9%|▉         | 7170/78504 [4:22:14<57:32:13,  2.90s/it]  9%|▉         | 7171/78504 [4:22:16<55:51:25,  2.82s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.2979694902896881, 'learning_rate': 2.738632021398548e-05, 'epoch': 2.19}
  9%|▉         | 7171/78504 [4:22:17<55:51:25,  2.82s/it]  9%|▉         | 7172/78504 [4:22:19<53:46:41,  2.71s/it]                                                         {'loss': 0.0588, 'grad_norm': 0.971225917339325, 'learning_rate': 2.739014138326328e-05, 'epoch': 2.19}
  9%|▉         | 7172/78504 [4:22:19<53:46:41,  2.71s/it]  9%|▉         | 7173/78504 [4:22:21<52:07:25,  2.63s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.27886027097702026, 'learning_rate': 2.7393962552541077e-05, 'epoch': 2.19}
  9%|▉         | 7173/78504 [4:22:21<52:07:25,  2.63s/it]  9%|▉         | 7174/78504 [4:22:24<50:16:00,  2.54s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.7179349064826965, 'learning_rate': 2.7397783721818876e-05, 'epoch': 2.19}
  9%|▉         | 7174/78504 [4:22:24<50:16:00,  2.54s/it]  9%|▉         | 7175/78504 [4:22:26<47:38:33,  2.40s/it]                                                         {'loss': 0.0563, 'grad_norm': 0.21194778382778168, 'learning_rate': 2.7401604891096675e-05, 'epoch': 2.19}
  9%|▉         | 7175/78504 [4:22:26<47:38:33,  2.40s/it]  9%|▉         | 7176/78504 [4:22:28<45:29:27,  2.30s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.480765163898468, 'learning_rate': 2.7405426060374474e-05, 'epoch': 2.19}
  9%|▉         | 7176/78504 [4:22:28<45:29:27,  2.30s/it]  9%|▉         | 7177/78504 [4:22:30<44:34:08,  2.25s/it]                                                         {'loss': 0.0941, 'grad_norm': 1.2773317098617554, 'learning_rate': 2.7409247229652272e-05, 'epoch': 2.19}
  9%|▉         | 7177/78504 [4:22:30<44:34:08,  2.25s/it]  9%|▉         | 7178/78504 [4:22:32<43:14:12,  2.18s/it]                                                         {'loss': 0.1015, 'grad_norm': 0.4376058876514435, 'learning_rate': 2.741306839893007e-05, 'epoch': 2.19}
  9%|▉         | 7178/78504 [4:22:32<43:14:12,  2.18s/it]  9%|▉         | 7179/78504 [4:22:34<41:00:58,  2.07s/it]                                                         {'loss': 0.1, 'grad_norm': 0.401043564081192, 'learning_rate': 2.741688956820787e-05, 'epoch': 2.19}
  9%|▉         | 7179/78504 [4:22:34<41:00:58,  2.07s/it]  9%|▉         | 7180/78504 [4:22:36<39:47:12,  2.01s/it]                                                         {'loss': 0.109, 'grad_norm': 0.45896342396736145, 'learning_rate': 2.7420710737485672e-05, 'epoch': 2.2}
  9%|▉         | 7180/78504 [4:22:36<39:47:12,  2.01s/it]  9%|▉         | 7181/78504 [4:22:38<39:02:15,  1.97s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.6167517304420471, 'learning_rate': 2.742453190676347e-05, 'epoch': 2.2}
  9%|▉         | 7181/78504 [4:22:38<39:02:15,  1.97s/it]  9%|▉         | 7182/78504 [4:22:39<37:35:39,  1.90s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.8066892027854919, 'learning_rate': 2.742835307604127e-05, 'epoch': 2.2}
  9%|▉         | 7182/78504 [4:22:39<37:35:39,  1.90s/it]  9%|▉         | 7183/78504 [4:22:41<36:09:55,  1.83s/it]                                                         {'loss': 0.1596, 'grad_norm': 0.5835094451904297, 'learning_rate': 2.7432174245319068e-05, 'epoch': 2.2}
  9%|▉         | 7183/78504 [4:22:41<36:09:55,  1.83s/it]  9%|▉         | 7184/78504 [4:22:42<34:20:03,  1.73s/it]                                                         {'loss': 0.1588, 'grad_norm': 3.2929399013519287, 'learning_rate': 2.7435995414596867e-05, 'epoch': 2.2}
  9%|▉         | 7184/78504 [4:22:43<34:20:03,  1.73s/it]  9%|▉         | 7185/78504 [4:22:44<32:35:10,  1.64s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.7887065410614014, 'learning_rate': 2.7439816583874666e-05, 'epoch': 2.2}
  9%|▉         | 7185/78504 [4:22:44<32:35:10,  1.64s/it]  9%|▉         | 7186/78504 [4:22:45<31:13:00,  1.58s/it]                                                         {'loss': 0.1837, 'grad_norm': 1.203173279762268, 'learning_rate': 2.7443637753152464e-05, 'epoch': 2.2}
  9%|▉         | 7186/78504 [4:22:45<31:13:00,  1.58s/it]  9%|▉         | 7187/78504 [4:22:47<29:05:19,  1.47s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.6757314205169678, 'learning_rate': 2.7447458922430263e-05, 'epoch': 2.2}
  9%|▉         | 7187/78504 [4:22:47<29:05:19,  1.47s/it]  9%|▉         | 7188/78504 [4:22:48<27:12:22,  1.37s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.7898409366607666, 'learning_rate': 2.7451280091708062e-05, 'epoch': 2.2}
  9%|▉         | 7188/78504 [4:22:48<27:12:22,  1.37s/it]  9%|▉         | 7189/78504 [4:22:49<25:40:48,  1.30s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.8433424234390259, 'learning_rate': 2.745510126098586e-05, 'epoch': 2.2}
  9%|▉         | 7189/78504 [4:22:49<25:40:48,  1.30s/it]  9%|▉         | 7190/78504 [4:22:50<23:58:54,  1.21s/it]                                                         {'loss': 0.2341, 'grad_norm': 1.820265293121338, 'learning_rate': 2.745892243026366e-05, 'epoch': 2.2}
  9%|▉         | 7190/78504 [4:22:50<23:58:54,  1.21s/it]  9%|▉         | 7191/78504 [4:22:51<22:19:18,  1.13s/it]                                                         {'loss': 0.2227, 'grad_norm': 0.9465093016624451, 'learning_rate': 2.7462743599541458e-05, 'epoch': 2.2}
  9%|▉         | 7191/78504 [4:22:51<22:19:18,  1.13s/it]  9%|▉         | 7192/78504 [4:22:52<20:23:09,  1.03s/it]                                                         {'loss': 0.317, 'grad_norm': 1.2522106170654297, 'learning_rate': 2.7466564768819257e-05, 'epoch': 2.2}
  9%|▉         | 7192/78504 [4:22:52<20:23:09,  1.03s/it]  9%|▉         | 7193/78504 [4:23:00<63:46:26,  3.22s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.5698123574256897, 'learning_rate': 2.7470385938097056e-05, 'epoch': 2.2}
  9%|▉         | 7193/78504 [4:23:00<63:46:26,  3.22s/it]  9%|▉         | 7194/78504 [4:23:03<62:58:01,  3.18s/it]                                                         {'loss': 0.09, 'grad_norm': 0.3204188346862793, 'learning_rate': 2.7474207107374854e-05, 'epoch': 2.2}
  9%|▉         | 7194/78504 [4:23:03<62:58:01,  3.18s/it]  9%|▉         | 7195/78504 [4:23:06<61:28:06,  3.10s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.3096972405910492, 'learning_rate': 2.7478028276652657e-05, 'epoch': 2.2}
  9%|▉         | 7195/78504 [4:23:06<61:28:06,  3.10s/it]  9%|▉         | 7196/78504 [4:23:08<58:22:46,  2.95s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.2844715118408203, 'learning_rate': 2.748184944593046e-05, 'epoch': 2.2}
  9%|▉         | 7196/78504 [4:23:09<58:22:46,  2.95s/it]  9%|▉         | 7197/78504 [4:23:11<55:41:32,  2.81s/it]                                                         {'loss': 0.0583, 'grad_norm': 0.2824420928955078, 'learning_rate': 2.7485670615208257e-05, 'epoch': 2.2}
  9%|▉         | 7197/78504 [4:23:11<55:41:32,  2.81s/it]  9%|▉         | 7198/78504 [4:23:13<53:34:26,  2.70s/it]                                                         {'loss': 0.0668, 'grad_norm': 0.26306891441345215, 'learning_rate': 2.7489491784486056e-05, 'epoch': 2.2}
  9%|▉         | 7198/78504 [4:23:13<53:34:26,  2.70s/it]  9%|▉         | 7199/78504 [4:23:16<51:21:02,  2.59s/it]                                                         {'loss': 0.1119, 'grad_norm': 0.5690627694129944, 'learning_rate': 2.7493312953763855e-05, 'epoch': 2.2}
  9%|▉         | 7199/78504 [4:23:16<51:21:02,  2.59s/it]  9%|▉         | 7200/78504 [4:23:18<49:41:53,  2.51s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.48546329140663147, 'learning_rate': 2.7497134123041654e-05, 'epoch': 2.2}
  9%|▉         | 7200/78504 [4:23:18<49:41:53,  2.51s/it]  9%|▉         | 7201/78504 [4:23:20<47:45:32,  2.41s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.5214344263076782, 'learning_rate': 2.7500955292319452e-05, 'epoch': 2.2}
  9%|▉         | 7201/78504 [4:23:20<47:45:32,  2.41s/it]  9%|▉         | 7202/78504 [4:23:22<46:20:11,  2.34s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.2966497838497162, 'learning_rate': 2.750477646159725e-05, 'epoch': 2.2}
  9%|▉         | 7202/78504 [4:23:22<46:20:11,  2.34s/it]  9%|▉         | 7203/78504 [4:23:24<43:29:35,  2.20s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.42909011244773865, 'learning_rate': 2.750859763087505e-05, 'epoch': 2.2}
  9%|▉         | 7203/78504 [4:23:24<43:29:35,  2.20s/it]  9%|▉         | 7204/78504 [4:23:26<42:16:56,  2.13s/it]                                                         {'loss': 0.0806, 'grad_norm': 0.3530571460723877, 'learning_rate': 2.751241880015285e-05, 'epoch': 2.2}
  9%|▉         | 7204/78504 [4:23:26<42:16:56,  2.13s/it]  9%|▉         | 7205/78504 [4:23:28<40:42:52,  2.06s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.4273819923400879, 'learning_rate': 2.7516239969430647e-05, 'epoch': 2.2}
  9%|▉         | 7205/78504 [4:23:28<40:42:52,  2.06s/it]  9%|▉         | 7206/78504 [4:23:30<39:39:04,  2.00s/it]                                                         {'loss': 0.1627, 'grad_norm': 0.5833699703216553, 'learning_rate': 2.7520061138708446e-05, 'epoch': 2.2}
  9%|▉         | 7206/78504 [4:23:30<39:39:04,  2.00s/it]  9%|▉         | 7207/78504 [4:23:32<37:59:13,  1.92s/it]                                                         {'loss': 0.1387, 'grad_norm': 0.5877130031585693, 'learning_rate': 2.7523882307986245e-05, 'epoch': 2.2}
  9%|▉         | 7207/78504 [4:23:32<37:59:13,  1.92s/it]  9%|▉         | 7208/78504 [4:23:33<36:23:08,  1.84s/it]                                                         {'loss': 0.1609, 'grad_norm': 0.8927109837532043, 'learning_rate': 2.7527703477264044e-05, 'epoch': 2.2}
  9%|▉         | 7208/78504 [4:23:33<36:23:08,  1.84s/it]  9%|▉         | 7209/78504 [4:23:35<34:32:37,  1.74s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.6019277572631836, 'learning_rate': 2.7531524646541842e-05, 'epoch': 2.2}
  9%|▉         | 7209/78504 [4:23:35<34:32:37,  1.74s/it]  9%|▉         | 7210/78504 [4:23:36<32:39:32,  1.65s/it]                                                         {'loss': 0.1817, 'grad_norm': 0.9537140727043152, 'learning_rate': 2.753534581581964e-05, 'epoch': 2.2}
  9%|▉         | 7210/78504 [4:23:36<32:39:32,  1.65s/it]  9%|▉         | 7211/78504 [4:23:38<31:14:16,  1.58s/it]                                                         {'loss': 0.2496, 'grad_norm': 1.4663453102111816, 'learning_rate': 2.753916698509744e-05, 'epoch': 2.2}
  9%|▉         | 7211/78504 [4:23:38<31:14:16,  1.58s/it]  9%|▉         | 7212/78504 [4:23:39<29:09:48,  1.47s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.5973847508430481, 'learning_rate': 2.7542988154375242e-05, 'epoch': 2.2}
  9%|▉         | 7212/78504 [4:23:39<29:09:48,  1.47s/it]  9%|▉         | 7213/78504 [4:23:40<27:09:06,  1.37s/it]                                                         {'loss': 0.1907, 'grad_norm': 1.290939450263977, 'learning_rate': 2.754680932365304e-05, 'epoch': 2.21}
  9%|▉         | 7213/78504 [4:23:40<27:09:06,  1.37s/it]  9%|▉         | 7214/78504 [4:23:41<25:29:08,  1.29s/it]                                                         {'loss': 0.2199, 'grad_norm': 1.0195119380950928, 'learning_rate': 2.755063049293084e-05, 'epoch': 2.21}
  9%|▉         | 7214/78504 [4:23:41<25:29:08,  1.29s/it]  9%|▉         | 7215/78504 [4:23:42<23:45:23,  1.20s/it]                                                         {'loss': 0.2159, 'grad_norm': 1.3616552352905273, 'learning_rate': 2.7554451662208638e-05, 'epoch': 2.21}
  9%|▉         | 7215/78504 [4:23:42<23:45:23,  1.20s/it]  9%|▉         | 7216/78504 [4:23:43<22:08:08,  1.12s/it]                                                         {'loss': 0.239, 'grad_norm': 2.08681058883667, 'learning_rate': 2.7558272831486437e-05, 'epoch': 2.21}
  9%|▉         | 7216/78504 [4:23:43<22:08:08,  1.12s/it]  9%|▉         | 7217/78504 [4:23:44<20:09:55,  1.02s/it]                                                         {'loss': 0.2929, 'grad_norm': 1.8815938234329224, 'learning_rate': 2.7562094000764236e-05, 'epoch': 2.21}
  9%|▉         | 7217/78504 [4:23:44<20:09:55,  1.02s/it]  9%|▉         | 7218/78504 [4:23:53<67:56:56,  3.43s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.6801667213439941, 'learning_rate': 2.7565915170042034e-05, 'epoch': 2.21}
  9%|▉         | 7218/78504 [4:23:53<67:56:56,  3.43s/it]  9%|▉         | 7219/78504 [4:23:56<65:59:36,  3.33s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.3896467983722687, 'learning_rate': 2.7569736339319833e-05, 'epoch': 2.21}
  9%|▉         | 7219/78504 [4:23:56<65:59:36,  3.33s/it]  9%|▉         | 7220/78504 [4:23:59<63:33:26,  3.21s/it]                                                         {'loss': 0.0597, 'grad_norm': 0.3604697585105896, 'learning_rate': 2.7573557508597632e-05, 'epoch': 2.21}
  9%|▉         | 7220/78504 [4:23:59<63:33:26,  3.21s/it]  9%|▉         | 7221/78504 [4:24:02<59:50:34,  3.02s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.3056943714618683, 'learning_rate': 2.757737867787543e-05, 'epoch': 2.21}
  9%|▉         | 7221/78504 [4:24:02<59:50:34,  3.02s/it]  9%|▉         | 7222/78504 [4:24:04<56:35:42,  2.86s/it]                                                         {'loss': 0.0439, 'grad_norm': 0.20985716581344604, 'learning_rate': 2.758119984715323e-05, 'epoch': 2.21}
  9%|▉         | 7222/78504 [4:24:04<56:35:42,  2.86s/it]  9%|▉         | 7223/78504 [4:24:07<54:05:12,  2.73s/it]                                                         {'loss': 0.079, 'grad_norm': 0.30876147747039795, 'learning_rate': 2.7585021016431028e-05, 'epoch': 2.21}
  9%|▉         | 7223/78504 [4:24:07<54:05:12,  2.73s/it]  9%|▉         | 7224/78504 [4:24:09<51:38:17,  2.61s/it]                                                         {'loss': 0.0528, 'grad_norm': 0.3124255836009979, 'learning_rate': 2.7588842185708827e-05, 'epoch': 2.21}
  9%|▉         | 7224/78504 [4:24:09<51:38:17,  2.61s/it]  9%|▉         | 7225/78504 [4:24:11<49:50:47,  2.52s/it]                                                         {'loss': 0.0857, 'grad_norm': 0.5344427227973938, 'learning_rate': 2.7592663354986626e-05, 'epoch': 2.21}
  9%|▉         | 7225/78504 [4:24:11<49:50:47,  2.52s/it]  9%|▉         | 7226/78504 [4:24:13<47:54:32,  2.42s/it]                                                         {'loss': 0.0672, 'grad_norm': 0.9410603046417236, 'learning_rate': 2.7596484524264424e-05, 'epoch': 2.21}
  9%|▉         | 7226/78504 [4:24:13<47:54:32,  2.42s/it]  9%|▉         | 7227/78504 [4:24:15<46:22:46,  2.34s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.2507101893424988, 'learning_rate': 2.7600305693542226e-05, 'epoch': 2.21}
  9%|▉         | 7227/78504 [4:24:16<46:22:46,  2.34s/it]  9%|▉         | 7228/78504 [4:24:17<43:38:15,  2.20s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.2991536855697632, 'learning_rate': 2.7604126862820025e-05, 'epoch': 2.21}
  9%|▉         | 7228/78504 [4:24:17<43:38:15,  2.20s/it]  9%|▉         | 7229/78504 [4:24:19<42:22:31,  2.14s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.6823958158493042, 'learning_rate': 2.7607948032097824e-05, 'epoch': 2.21}
  9%|▉         | 7229/78504 [4:24:19<42:22:31,  2.14s/it]  9%|▉         | 7230/78504 [4:24:21<41:05:28,  2.08s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.5366721749305725, 'learning_rate': 2.7611769201375623e-05, 'epoch': 2.21}
  9%|▉         | 7230/78504 [4:24:21<41:05:28,  2.08s/it]  9%|▉         | 7231/78504 [4:24:23<40:00:56,  2.02s/it]                                                         {'loss': 0.1262, 'grad_norm': 0.5016875267028809, 'learning_rate': 2.761559037065342e-05, 'epoch': 2.21}
  9%|▉         | 7231/78504 [4:24:23<40:00:56,  2.02s/it]  9%|▉         | 7232/78504 [4:24:25<38:31:05,  1.95s/it]                                                         {'loss': 0.1289, 'grad_norm': 0.5555603504180908, 'learning_rate': 2.761941153993122e-05, 'epoch': 2.21}
  9%|▉         | 7232/78504 [4:24:25<38:31:05,  1.95s/it]  9%|▉         | 7233/78504 [4:24:27<36:48:14,  1.86s/it]                                                         {'loss': 0.174, 'grad_norm': 0.611578643321991, 'learning_rate': 2.762323270920902e-05, 'epoch': 2.21}
  9%|▉         | 7233/78504 [4:24:27<36:48:14,  1.86s/it]  9%|▉         | 7234/78504 [4:24:28<34:55:28,  1.76s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.7220152020454407, 'learning_rate': 2.7627053878486818e-05, 'epoch': 2.21}
  9%|▉         | 7234/78504 [4:24:28<34:55:28,  1.76s/it]  9%|▉         | 7235/78504 [4:24:30<33:11:30,  1.68s/it]                                                         {'loss': 0.2205, 'grad_norm': 0.9132217764854431, 'learning_rate': 2.7630875047764616e-05, 'epoch': 2.21}
  9%|▉         | 7235/78504 [4:24:30<33:11:30,  1.68s/it]  9%|▉         | 7236/78504 [4:24:31<31:39:16,  1.60s/it]                                                         {'loss': 0.199, 'grad_norm': 0.6147518157958984, 'learning_rate': 2.7634696217042415e-05, 'epoch': 2.21}
  9%|▉         | 7236/78504 [4:24:31<31:39:16,  1.60s/it]  9%|▉         | 7237/78504 [4:24:32<29:47:29,  1.50s/it]                                                         {'loss': 0.1831, 'grad_norm': 2.346395492553711, 'learning_rate': 2.7638517386320214e-05, 'epoch': 2.21}
  9%|▉         | 7237/78504 [4:24:32<29:47:29,  1.50s/it]  9%|▉         | 7238/78504 [4:24:34<28:02:07,  1.42s/it]                                                         {'loss': 0.2328, 'grad_norm': 0.940519392490387, 'learning_rate': 2.7642338555598013e-05, 'epoch': 2.21}
  9%|▉         | 7238/78504 [4:24:34<28:02:07,  1.42s/it]  9%|▉         | 7239/78504 [4:24:35<26:09:07,  1.32s/it]                                                         {'loss': 0.2244, 'grad_norm': 1.078989028930664, 'learning_rate': 2.764615972487581e-05, 'epoch': 2.21}
  9%|▉         | 7239/78504 [4:24:35<26:09:07,  1.32s/it]  9%|▉         | 7240/78504 [4:24:36<24:35:51,  1.24s/it]                                                         {'loss': 0.2352, 'grad_norm': 0.9202976822853088, 'learning_rate': 2.764998089415361e-05, 'epoch': 2.21}
  9%|▉         | 7240/78504 [4:24:36<24:35:51,  1.24s/it]  9%|▉         | 7241/78504 [4:24:37<22:43:05,  1.15s/it]                                                         {'loss': 0.2444, 'grad_norm': 1.3466460704803467, 'learning_rate': 2.765380206343141e-05, 'epoch': 2.21}
  9%|▉         | 7241/78504 [4:24:37<22:43:05,  1.15s/it]  9%|▉         | 7242/78504 [4:24:37<20:18:54,  1.03s/it]                                                         {'loss': 0.332, 'grad_norm': 1.7804616689682007, 'learning_rate': 2.7657623232709208e-05, 'epoch': 2.21}
  9%|▉         | 7242/78504 [4:24:37<20:18:54,  1.03s/it]  9%|▉         | 7243/78504 [4:24:45<62:24:53,  3.15s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.4395348131656647, 'learning_rate': 2.766144440198701e-05, 'epoch': 2.21}
  9%|▉         | 7243/78504 [4:24:46<62:24:53,  3.15s/it]  9%|▉         | 7244/78504 [4:24:49<63:41:05,  3.22s/it]                                                         {'loss': 0.098, 'grad_norm': 0.3272618353366852, 'learning_rate': 2.766526557126481e-05, 'epoch': 2.21}
  9%|▉         | 7244/78504 [4:24:49<63:41:05,  3.22s/it]  9%|▉         | 7245/78504 [4:24:51<59:50:04,  3.02s/it]                                                         {'loss': 0.0912, 'grad_norm': 0.36494237184524536, 'learning_rate': 2.7669086740542607e-05, 'epoch': 2.21}
  9%|▉         | 7245/78504 [4:24:51<59:50:04,  3.02s/it]  9%|▉         | 7246/78504 [4:24:54<57:24:42,  2.90s/it]                                                         {'loss': 0.0822, 'grad_norm': 0.3233100473880768, 'learning_rate': 2.7672907909820406e-05, 'epoch': 2.22}
  9%|▉         | 7246/78504 [4:24:54<57:24:42,  2.90s/it]  9%|▉         | 7247/78504 [4:24:57<54:54:22,  2.77s/it]                                                         {'loss': 0.075, 'grad_norm': 0.296383798122406, 'learning_rate': 2.7676729079098205e-05, 'epoch': 2.22}
  9%|▉         | 7247/78504 [4:24:57<54:54:22,  2.77s/it]  9%|▉         | 7248/78504 [4:24:59<51:54:40,  2.62s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.38721176981925964, 'learning_rate': 2.7680550248376004e-05, 'epoch': 2.22}
  9%|▉         | 7248/78504 [4:24:59<51:54:40,  2.62s/it]  9%|▉         | 7249/78504 [4:25:01<50:10:05,  2.53s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.3549882769584656, 'learning_rate': 2.7684371417653802e-05, 'epoch': 2.22}
  9%|▉         | 7249/78504 [4:25:01<50:10:05,  2.53s/it]  9%|▉         | 7250/78504 [4:25:03<48:31:12,  2.45s/it]                                                         {'loss': 0.0613, 'grad_norm': 0.3549184501171112, 'learning_rate': 2.76881925869316e-05, 'epoch': 2.22}
  9%|▉         | 7250/78504 [4:25:03<48:31:12,  2.45s/it]  9%|▉         | 7251/78504 [4:25:06<46:57:25,  2.37s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.4067099094390869, 'learning_rate': 2.76920137562094e-05, 'epoch': 2.22}
  9%|▉         | 7251/78504 [4:25:06<46:57:25,  2.37s/it]  9%|▉         | 7252/78504 [4:25:08<45:35:10,  2.30s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.427254319190979, 'learning_rate': 2.76958349254872e-05, 'epoch': 2.22}
  9%|▉         | 7252/78504 [4:25:08<45:35:10,  2.30s/it]  9%|▉         | 7253/78504 [4:25:10<43:48:07,  2.21s/it]                                                         {'loss': 0.0785, 'grad_norm': 0.3354641795158386, 'learning_rate': 2.7699656094764997e-05, 'epoch': 2.22}
  9%|▉         | 7253/78504 [4:25:10<43:48:07,  2.21s/it]  9%|▉         | 7254/78504 [4:25:12<42:05:08,  2.13s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.3503603935241699, 'learning_rate': 2.7703477264042796e-05, 'epoch': 2.22}
  9%|▉         | 7254/78504 [4:25:12<42:05:08,  2.13s/it]  9%|▉         | 7255/78504 [4:25:14<40:36:25,  2.05s/it]                                                         {'loss': 0.1379, 'grad_norm': 0.42070409655570984, 'learning_rate': 2.7707298433320595e-05, 'epoch': 2.22}
  9%|▉         | 7255/78504 [4:25:14<40:36:25,  2.05s/it]  9%|▉         | 7256/78504 [4:25:15<39:23:59,  1.99s/it]                                                         {'loss': 0.1254, 'grad_norm': 1.2508056163787842, 'learning_rate': 2.7711119602598393e-05, 'epoch': 2.22}
  9%|▉         | 7256/78504 [4:25:15<39:23:59,  1.99s/it]  9%|▉         | 7257/78504 [4:25:17<37:26:51,  1.89s/it]                                                         {'loss': 0.178, 'grad_norm': 0.8744251728057861, 'learning_rate': 2.7714940771876192e-05, 'epoch': 2.22}
  9%|▉         | 7257/78504 [4:25:17<37:26:51,  1.89s/it]  9%|▉         | 7258/78504 [4:25:19<35:58:12,  1.82s/it]                                                         {'loss': 0.151, 'grad_norm': 0.6742433905601501, 'learning_rate': 2.7718761941153994e-05, 'epoch': 2.22}
  9%|▉         | 7258/78504 [4:25:19<35:58:12,  1.82s/it]  9%|▉         | 7259/78504 [4:25:20<34:12:01,  1.73s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.6521055102348328, 'learning_rate': 2.7722583110431793e-05, 'epoch': 2.22}
  9%|▉         | 7259/78504 [4:25:20<34:12:01,  1.73s/it]  9%|▉         | 7260/78504 [4:25:22<32:22:46,  1.64s/it]                                                         {'loss': 0.2033, 'grad_norm': 0.7308959364891052, 'learning_rate': 2.7726404279709592e-05, 'epoch': 2.22}
  9%|▉         | 7260/78504 [4:25:22<32:22:46,  1.64s/it]  9%|▉         | 7261/78504 [4:25:23<31:03:12,  1.57s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.9065965414047241, 'learning_rate': 2.773022544898739e-05, 'epoch': 2.22}
  9%|▉         | 7261/78504 [4:25:23<31:03:12,  1.57s/it]  9%|▉         | 7262/78504 [4:25:24<29:20:50,  1.48s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.873730480670929, 'learning_rate': 2.773404661826519e-05, 'epoch': 2.22}
  9%|▉         | 7262/78504 [4:25:24<29:20:50,  1.48s/it]  9%|▉         | 7263/78504 [4:25:25<27:13:49,  1.38s/it]                                                         {'loss': 0.1872, 'grad_norm': 1.3591368198394775, 'learning_rate': 2.7737867787542988e-05, 'epoch': 2.22}
  9%|▉         | 7263/78504 [4:25:25<27:13:49,  1.38s/it]  9%|▉         | 7264/78504 [4:25:27<25:32:49,  1.29s/it]                                                         {'loss': 0.1965, 'grad_norm': 0.8860329985618591, 'learning_rate': 2.7741688956820787e-05, 'epoch': 2.22}
  9%|▉         | 7264/78504 [4:25:27<25:32:49,  1.29s/it]  9%|▉         | 7265/78504 [4:25:28<23:47:04,  1.20s/it]                                                         {'loss': 0.2575, 'grad_norm': 0.7686523795127869, 'learning_rate': 2.7745510126098586e-05, 'epoch': 2.22}
  9%|▉         | 7265/78504 [4:25:28<23:47:04,  1.20s/it]  9%|▉         | 7266/78504 [4:25:28<22:11:21,  1.12s/it]                                                         {'loss': 0.2317, 'grad_norm': 1.1418157815933228, 'learning_rate': 2.7749331295376384e-05, 'epoch': 2.22}
  9%|▉         | 7266/78504 [4:25:28<22:11:21,  1.12s/it]  9%|▉         | 7267/78504 [4:25:29<20:12:06,  1.02s/it]                                                         {'loss': 0.3183, 'grad_norm': 1.4913251399993896, 'learning_rate': 2.7753152464654183e-05, 'epoch': 2.22}
  9%|▉         | 7267/78504 [4:25:29<20:12:06,  1.02s/it]  9%|▉         | 7268/78504 [4:25:37<61:15:39,  3.10s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.394113153219223, 'learning_rate': 2.7756973633931982e-05, 'epoch': 2.22}
  9%|▉         | 7268/78504 [4:25:37<61:15:39,  3.10s/it]  9%|▉         | 7269/78504 [4:25:40<60:12:40,  3.04s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.33067479729652405, 'learning_rate': 2.776079480320978e-05, 'epoch': 2.22}
  9%|▉         | 7269/78504 [4:25:40<60:12:40,  3.04s/it]  9%|▉         | 7270/78504 [4:25:43<59:31:26,  3.01s/it]                                                         {'loss': 0.0808, 'grad_norm': 0.43152526021003723, 'learning_rate': 2.776461597248758e-05, 'epoch': 2.22}
  9%|▉         | 7270/78504 [4:25:43<59:31:26,  3.01s/it]  9%|▉         | 7271/78504 [4:25:46<56:30:43,  2.86s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.3086299002170563, 'learning_rate': 2.7768437141765378e-05, 'epoch': 2.22}
  9%|▉         | 7271/78504 [4:25:46<56:30:43,  2.86s/it]  9%|▉         | 7272/78504 [4:25:48<54:15:02,  2.74s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.3798903524875641, 'learning_rate': 2.7772258311043177e-05, 'epoch': 2.22}
  9%|▉         | 7272/78504 [4:25:48<54:15:02,  2.74s/it]  9%|▉         | 7273/78504 [4:25:50<52:24:31,  2.65s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.6566299796104431, 'learning_rate': 2.777607948032098e-05, 'epoch': 2.22}
  9%|▉         | 7273/78504 [4:25:50<52:24:31,  2.65s/it]  9%|▉         | 7274/78504 [4:25:53<50:29:04,  2.55s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.22796593606472015, 'learning_rate': 2.777990064959878e-05, 'epoch': 2.22}
  9%|▉         | 7274/78504 [4:25:53<50:29:04,  2.55s/it]  9%|▉         | 7275/78504 [4:25:55<47:51:57,  2.42s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.3341822922229767, 'learning_rate': 2.778372181887658e-05, 'epoch': 2.22}
  9%|▉         | 7275/78504 [4:25:55<47:51:57,  2.42s/it]  9%|▉         | 7276/78504 [4:25:57<46:29:42,  2.35s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.4848545789718628, 'learning_rate': 2.778754298815438e-05, 'epoch': 2.22}
  9%|▉         | 7276/78504 [4:25:57<46:29:42,  2.35s/it]  9%|▉         | 7277/78504 [4:25:59<45:24:37,  2.30s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.4350726008415222, 'learning_rate': 2.7791364157432177e-05, 'epoch': 2.22}
  9%|▉         | 7277/78504 [4:25:59<45:24:37,  2.30s/it]  9%|▉         | 7278/78504 [4:26:01<42:48:23,  2.16s/it]                                                         {'loss': 0.1406, 'grad_norm': 0.4039871096611023, 'learning_rate': 2.7795185326709976e-05, 'epoch': 2.23}
  9%|▉         | 7278/78504 [4:26:01<42:48:23,  2.16s/it]  9%|▉         | 7279/78504 [4:26:03<41:47:24,  2.11s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.3838861286640167, 'learning_rate': 2.7799006495987775e-05, 'epoch': 2.23}
  9%|▉         | 7279/78504 [4:26:03<41:47:24,  2.11s/it]  9%|▉         | 7280/78504 [4:26:05<40:40:05,  2.06s/it]                                                         {'loss': 0.1267, 'grad_norm': 1.1088417768478394, 'learning_rate': 2.7802827665265574e-05, 'epoch': 2.23}
  9%|▉         | 7280/78504 [4:26:05<40:40:05,  2.06s/it]  9%|▉         | 7281/78504 [4:26:07<39:32:04,  2.00s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.8603148460388184, 'learning_rate': 2.7806648834543372e-05, 'epoch': 2.23}
  9%|▉         | 7281/78504 [4:26:07<39:32:04,  2.00s/it]  9%|▉         | 7282/78504 [4:26:09<38:08:24,  1.93s/it]                                                         {'loss': 0.1259, 'grad_norm': 0.7709636688232422, 'learning_rate': 2.781047000382117e-05, 'epoch': 2.23}
  9%|▉         | 7282/78504 [4:26:09<38:08:24,  1.93s/it]  9%|▉         | 7283/78504 [4:26:10<36:31:41,  1.85s/it]                                                         {'loss': 0.1568, 'grad_norm': 0.5182821750640869, 'learning_rate': 2.781429117309897e-05, 'epoch': 2.23}
  9%|▉         | 7283/78504 [4:26:10<36:31:41,  1.85s/it]  9%|▉         | 7284/78504 [4:26:12<34:41:45,  1.75s/it]                                                         {'loss': 0.178, 'grad_norm': 0.8145864605903625, 'learning_rate': 2.781811234237677e-05, 'epoch': 2.23}
  9%|▉         | 7284/78504 [4:26:12<34:41:45,  1.75s/it]  9%|▉         | 7285/78504 [4:26:13<33:02:03,  1.67s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.8536222577095032, 'learning_rate': 2.7821933511654567e-05, 'epoch': 2.23}
  9%|▉         | 7285/78504 [4:26:13<33:02:03,  1.67s/it]  9%|▉         | 7286/78504 [4:26:15<31:33:13,  1.60s/it]                                                         {'loss': 0.2009, 'grad_norm': 0.8335719108581543, 'learning_rate': 2.7825754680932366e-05, 'epoch': 2.23}
  9%|▉         | 7286/78504 [4:26:15<31:33:13,  1.60s/it]  9%|▉         | 7287/78504 [4:26:16<29:41:05,  1.50s/it]                                                         {'loss': 0.2112, 'grad_norm': 0.7979024648666382, 'learning_rate': 2.7829575850210165e-05, 'epoch': 2.23}
  9%|▉         | 7287/78504 [4:26:16<29:41:05,  1.50s/it]  9%|▉         | 7288/78504 [4:26:17<27:34:16,  1.39s/it]                                                         {'loss': 0.1846, 'grad_norm': 0.8626941442489624, 'learning_rate': 2.7833397019487963e-05, 'epoch': 2.23}
  9%|▉         | 7288/78504 [4:26:17<27:34:16,  1.39s/it]  9%|▉         | 7289/78504 [4:26:18<25:49:07,  1.31s/it]                                                         {'loss': 0.2548, 'grad_norm': 1.3038076162338257, 'learning_rate': 2.7837218188765766e-05, 'epoch': 2.23}
  9%|▉         | 7289/78504 [4:26:18<25:49:07,  1.31s/it]  9%|▉         | 7290/78504 [4:26:19<24:18:11,  1.23s/it]                                                         {'loss': 0.251, 'grad_norm': 2.8833515644073486, 'learning_rate': 2.7841039358043564e-05, 'epoch': 2.23}
  9%|▉         | 7290/78504 [4:26:19<24:18:11,  1.23s/it]  9%|▉         | 7291/78504 [4:26:20<22:28:32,  1.14s/it]                                                         {'loss': 0.2351, 'grad_norm': 1.24587881565094, 'learning_rate': 2.7844860527321363e-05, 'epoch': 2.23}
  9%|▉         | 7291/78504 [4:26:20<22:28:32,  1.14s/it]  9%|▉         | 7292/78504 [4:26:21<20:21:14,  1.03s/it]                                                         {'loss': 0.3034, 'grad_norm': 2.0764312744140625, 'learning_rate': 2.7848681696599162e-05, 'epoch': 2.23}
  9%|▉         | 7292/78504 [4:26:21<20:21:14,  1.03s/it]  9%|▉         | 7293/78504 [4:26:29<64:15:13,  3.25s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.608111560344696, 'learning_rate': 2.785250286587696e-05, 'epoch': 2.23}
  9%|▉         | 7293/78504 [4:26:29<64:15:13,  3.25s/it]  9%|▉         | 7294/78504 [4:26:33<63:29:55,  3.21s/it]                                                         {'loss': 0.1344, 'grad_norm': 0.4340076446533203, 'learning_rate': 2.785632403515476e-05, 'epoch': 2.23}
  9%|▉         | 7294/78504 [4:26:33<63:29:55,  3.21s/it]  9%|▉         | 7295/78504 [4:26:36<62:21:54,  3.15s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.2051907479763031, 'learning_rate': 2.7860145204432558e-05, 'epoch': 2.23}
  9%|▉         | 7295/78504 [4:26:36<62:21:54,  3.15s/it]  9%|▉         | 7296/78504 [4:26:38<59:10:31,  2.99s/it]                                                         {'loss': 0.0654, 'grad_norm': 0.31655970215797424, 'learning_rate': 2.7863966373710357e-05, 'epoch': 2.23}
  9%|▉         | 7296/78504 [4:26:38<59:10:31,  2.99s/it]  9%|▉         | 7297/78504 [4:26:41<56:06:24,  2.84s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.4026654362678528, 'learning_rate': 2.7867787542988156e-05, 'epoch': 2.23}
  9%|▉         | 7297/78504 [4:26:41<56:06:24,  2.84s/it]  9%|▉         | 7298/78504 [4:26:43<52:43:45,  2.67s/it]                                                         {'loss': 0.0383, 'grad_norm': 0.3816775679588318, 'learning_rate': 2.7871608712265954e-05, 'epoch': 2.23}
  9%|▉         | 7298/78504 [4:26:43<52:43:45,  2.67s/it]  9%|▉         | 7299/78504 [4:26:45<50:39:36,  2.56s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.3902985155582428, 'learning_rate': 2.7875429881543753e-05, 'epoch': 2.23}
  9%|▉         | 7299/78504 [4:26:45<50:39:36,  2.56s/it]  9%|▉         | 7300/78504 [4:26:47<48:00:44,  2.43s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.29150256514549255, 'learning_rate': 2.7879251050821552e-05, 'epoch': 2.23}
  9%|▉         | 7300/78504 [4:26:47<48:00:44,  2.43s/it]  9%|▉         | 7301/78504 [4:26:49<45:37:25,  2.31s/it]                                                         {'loss': 0.0666, 'grad_norm': 0.2835788130760193, 'learning_rate': 2.788307222009935e-05, 'epoch': 2.23}
  9%|▉         | 7301/78504 [4:26:49<45:37:25,  2.31s/it]  9%|▉         | 7302/78504 [4:26:51<44:37:03,  2.26s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.3449878394603729, 'learning_rate': 2.788689338937715e-05, 'epoch': 2.23}
  9%|▉         | 7302/78504 [4:26:52<44:37:03,  2.26s/it]  9%|▉         | 7303/78504 [4:26:54<43:15:30,  2.19s/it]                                                         {'loss': 0.1191, 'grad_norm': 0.47967448830604553, 'learning_rate': 2.7890714558654948e-05, 'epoch': 2.23}
  9%|▉         | 7303/78504 [4:26:54<43:15:30,  2.19s/it]  9%|▉         | 7304/78504 [4:26:55<41:59:19,  2.12s/it]                                                         {'loss': 0.0799, 'grad_norm': 0.7661290764808655, 'learning_rate': 2.7894535727932747e-05, 'epoch': 2.23}
  9%|▉         | 7304/78504 [4:26:56<41:59:19,  2.12s/it]  9%|▉         | 7305/78504 [4:26:57<40:35:56,  2.05s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.47738632559776306, 'learning_rate': 2.789835689721055e-05, 'epoch': 2.23}
  9%|▉         | 7305/78504 [4:26:57<40:35:56,  2.05s/it]  9%|▉         | 7306/78504 [4:26:59<39:32:23,  2.00s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.4540547728538513, 'learning_rate': 2.7902178066488348e-05, 'epoch': 2.23}
  9%|▉         | 7306/78504 [4:26:59<39:32:23,  2.00s/it]  9%|▉         | 7307/78504 [4:27:01<38:07:36,  1.93s/it]                                                         {'loss': 0.1331, 'grad_norm': 0.42834874987602234, 'learning_rate': 2.7905999235766146e-05, 'epoch': 2.23}
  9%|▉         | 7307/78504 [4:27:01<38:07:36,  1.93s/it]  9%|▉         | 7308/78504 [4:27:03<36:34:38,  1.85s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.5389931201934814, 'learning_rate': 2.7909820405043945e-05, 'epoch': 2.23}
  9%|▉         | 7308/78504 [4:27:03<36:34:38,  1.85s/it]  9%|▉         | 7309/78504 [4:27:04<34:45:28,  1.76s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.584682047367096, 'learning_rate': 2.7913641574321744e-05, 'epoch': 2.23}
  9%|▉         | 7309/78504 [4:27:04<34:45:28,  1.76s/it]  9%|▉         | 7310/78504 [4:27:06<33:01:31,  1.67s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.6902965307235718, 'learning_rate': 2.7917462743599543e-05, 'epoch': 2.23}
  9%|▉         | 7310/78504 [4:27:06<33:01:31,  1.67s/it]  9%|▉         | 7311/78504 [4:27:07<31:21:37,  1.59s/it]                                                         {'loss': 0.2175, 'grad_norm': 1.4165046215057373, 'learning_rate': 2.792128391287734e-05, 'epoch': 2.24}
  9%|▉         | 7311/78504 [4:27:07<31:21:37,  1.59s/it]  9%|▉         | 7312/78504 [4:27:08<29:33:18,  1.49s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.6423725485801697, 'learning_rate': 2.792510508215514e-05, 'epoch': 2.24}
  9%|▉         | 7312/78504 [4:27:08<29:33:18,  1.49s/it]  9%|▉         | 7313/78504 [4:27:10<27:29:52,  1.39s/it]                                                         {'loss': 0.1903, 'grad_norm': 1.2646232843399048, 'learning_rate': 2.792892625143294e-05, 'epoch': 2.24}
  9%|▉         | 7313/78504 [4:27:10<27:29:52,  1.39s/it]  9%|▉         | 7314/78504 [4:27:11<25:42:29,  1.30s/it]                                                         {'loss': 0.2462, 'grad_norm': 1.3004519939422607, 'learning_rate': 2.7932747420710738e-05, 'epoch': 2.24}
  9%|▉         | 7314/78504 [4:27:11<25:42:29,  1.30s/it]  9%|▉         | 7315/78504 [4:27:12<24:11:58,  1.22s/it]                                                         {'loss': 0.2652, 'grad_norm': 1.2344284057617188, 'learning_rate': 2.7936568589988536e-05, 'epoch': 2.24}
  9%|▉         | 7315/78504 [4:27:12<24:11:58,  1.22s/it]  9%|▉         | 7316/78504 [4:27:13<22:25:37,  1.13s/it]                                                         {'loss': 0.2536, 'grad_norm': 1.1997939348220825, 'learning_rate': 2.7940389759266335e-05, 'epoch': 2.24}
  9%|▉         | 7316/78504 [4:27:13<22:25:37,  1.13s/it]  9%|▉         | 7317/78504 [4:27:13<20:21:52,  1.03s/it]                                                         {'loss': 0.3225, 'grad_norm': 1.4748644828796387, 'learning_rate': 2.7944210928544134e-05, 'epoch': 2.24}
  9%|▉         | 7317/78504 [4:27:13<20:21:52,  1.03s/it]  9%|▉         | 7318/78504 [4:27:22<64:06:14,  3.24s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.8794047236442566, 'learning_rate': 2.7948032097821933e-05, 'epoch': 2.24}
  9%|▉         | 7318/78504 [4:27:22<64:06:14,  3.24s/it]  9%|▉         | 7319/78504 [4:27:25<63:23:55,  3.21s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.3056824505329132, 'learning_rate': 2.795185326709973e-05, 'epoch': 2.24}
  9%|▉         | 7319/78504 [4:27:25<63:23:55,  3.21s/it]  9%|▉         | 7320/78504 [4:27:27<59:37:20,  3.02s/it]                                                         {'loss': 0.1037, 'grad_norm': 0.42853379249572754, 'learning_rate': 2.7955674436377533e-05, 'epoch': 2.24}
  9%|▉         | 7320/78504 [4:27:27<59:37:20,  3.02s/it]  9%|▉         | 7321/78504 [4:27:30<57:14:31,  2.89s/it]                                                         {'loss': 0.0896, 'grad_norm': 0.3359771966934204, 'learning_rate': 2.7959495605655332e-05, 'epoch': 2.24}
  9%|▉         | 7321/78504 [4:27:30<57:14:31,  2.89s/it]  9%|▉         | 7322/78504 [4:27:32<54:03:42,  2.73s/it]                                                         {'loss': 0.0552, 'grad_norm': 0.36654597520828247, 'learning_rate': 2.796331677493313e-05, 'epoch': 2.24}
  9%|▉         | 7322/78504 [4:27:32<54:03:42,  2.73s/it]  9%|▉         | 7323/78504 [4:27:35<51:16:33,  2.59s/it]                                                         {'loss': 0.0565, 'grad_norm': 0.3300630748271942, 'learning_rate': 2.796713794421093e-05, 'epoch': 2.24}
  9%|▉         | 7323/78504 [4:27:35<51:16:33,  2.59s/it]  9%|▉         | 7324/78504 [4:27:37<49:41:31,  2.51s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.39741256833076477, 'learning_rate': 2.797095911348873e-05, 'epoch': 2.24}
  9%|▉         | 7324/78504 [4:27:37<49:41:31,  2.51s/it]  9%|▉         | 7325/78504 [4:27:39<47:11:53,  2.39s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.3888700306415558, 'learning_rate': 2.7974780282766527e-05, 'epoch': 2.24}
  9%|▉         | 7325/78504 [4:27:39<47:11:53,  2.39s/it]  9%|▉         | 7326/78504 [4:27:41<46:01:26,  2.33s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.4464672803878784, 'learning_rate': 2.7978601452044326e-05, 'epoch': 2.24}
  9%|▉         | 7326/78504 [4:27:41<46:01:26,  2.33s/it]  9%|▉         | 7327/78504 [4:27:43<45:03:09,  2.28s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.4521157741546631, 'learning_rate': 2.7982422621322125e-05, 'epoch': 2.24}
  9%|▉         | 7327/78504 [4:27:43<45:03:09,  2.28s/it]  9%|▉         | 7328/78504 [4:27:45<43:32:01,  2.20s/it]                                                         {'loss': 0.1368, 'grad_norm': 0.6377056241035461, 'learning_rate': 2.7986243790599923e-05, 'epoch': 2.24}
  9%|▉         | 7328/78504 [4:27:46<43:32:01,  2.20s/it]  9%|▉         | 7329/78504 [4:27:47<42:17:19,  2.14s/it]                                                         {'loss': 0.0745, 'grad_norm': 0.885776937007904, 'learning_rate': 2.7990064959877722e-05, 'epoch': 2.24}
  9%|▉         | 7329/78504 [4:27:47<42:17:19,  2.14s/it]  9%|▉         | 7330/78504 [4:27:49<40:38:44,  2.06s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.8266817331314087, 'learning_rate': 2.799388612915552e-05, 'epoch': 2.24}
  9%|▉         | 7330/78504 [4:27:49<40:38:44,  2.06s/it]  9%|▉         | 7331/78504 [4:27:51<39:21:12,  1.99s/it]                                                         {'loss': 0.1202, 'grad_norm': 0.45338305830955505, 'learning_rate': 2.799770729843332e-05, 'epoch': 2.24}
  9%|▉         | 7331/78504 [4:27:51<39:21:12,  1.99s/it]  9%|▉         | 7332/78504 [4:27:53<37:49:44,  1.91s/it]                                                         {'loss': 0.135, 'grad_norm': 0.606958270072937, 'learning_rate': 2.800152846771112e-05, 'epoch': 2.24}
  9%|▉         | 7332/78504 [4:27:53<37:49:44,  1.91s/it]  9%|▉         | 7333/78504 [4:27:55<36:15:47,  1.83s/it]                                                         {'loss': 0.1696, 'grad_norm': 1.4173721075057983, 'learning_rate': 2.8005349636988917e-05, 'epoch': 2.24}
  9%|▉         | 7333/78504 [4:27:55<36:15:47,  1.83s/it]  9%|▉         | 7334/78504 [4:27:56<34:23:05,  1.74s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.9756584167480469, 'learning_rate': 2.8009170806266716e-05, 'epoch': 2.24}
  9%|▉         | 7334/78504 [4:27:56<34:23:05,  1.74s/it]  9%|▉         | 7335/78504 [4:27:58<32:49:30,  1.66s/it]                                                         {'loss': 0.1617, 'grad_norm': 0.541686475276947, 'learning_rate': 2.8012991975544515e-05, 'epoch': 2.24}
  9%|▉         | 7335/78504 [4:27:58<32:49:30,  1.66s/it]  9%|▉         | 7336/78504 [4:27:59<31:22:10,  1.59s/it]                                                         {'loss': 0.1857, 'grad_norm': 1.1004400253295898, 'learning_rate': 2.8016813144822317e-05, 'epoch': 2.24}
  9%|▉         | 7336/78504 [4:27:59<31:22:10,  1.59s/it]  9%|▉         | 7337/78504 [4:28:00<29:33:14,  1.49s/it]                                                         {'loss': 0.1782, 'grad_norm': 0.9703087210655212, 'learning_rate': 2.8020634314100116e-05, 'epoch': 2.24}
  9%|▉         | 7337/78504 [4:28:00<29:33:14,  1.49s/it]  9%|▉         | 7338/78504 [4:28:01<27:22:17,  1.38s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.412490963935852, 'learning_rate': 2.8024455483377914e-05, 'epoch': 2.24}
  9%|▉         | 7338/78504 [4:28:01<27:22:17,  1.38s/it]  9%|▉         | 7339/78504 [4:28:02<25:42:22,  1.30s/it]                                                         {'loss': 0.2203, 'grad_norm': 1.4687159061431885, 'learning_rate': 2.8028276652655713e-05, 'epoch': 2.24}
  9%|▉         | 7339/78504 [4:28:03<25:42:22,  1.30s/it]  9%|▉         | 7340/78504 [4:28:04<24:13:59,  1.23s/it]                                                         {'loss': 0.2448, 'grad_norm': 1.4687895774841309, 'learning_rate': 2.8032097821933512e-05, 'epoch': 2.24}
  9%|▉         | 7340/78504 [4:28:04<24:13:59,  1.23s/it]  9%|▉         | 7341/78504 [4:28:04<22:30:49,  1.14s/it]                                                         {'loss': 0.2719, 'grad_norm': 2.2020580768585205, 'learning_rate': 2.803591899121131e-05, 'epoch': 2.24}
  9%|▉         | 7341/78504 [4:28:04<22:30:49,  1.14s/it]  9%|▉         | 7342/78504 [4:28:05<20:24:41,  1.03s/it]                                                         {'loss': 0.2715, 'grad_norm': 2.5708508491516113, 'learning_rate': 2.803974016048911e-05, 'epoch': 2.24}
  9%|▉         | 7342/78504 [4:28:05<20:24:41,  1.03s/it]  9%|▉         | 7343/78504 [4:28:15<73:10:17,  3.70s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.48642420768737793, 'learning_rate': 2.8043561329766908e-05, 'epoch': 2.24}
  9%|▉         | 7343/78504 [4:28:15<73:10:17,  3.70s/it]  9%|▉         | 7344/78504 [4:28:19<71:11:42,  3.60s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.4323895573616028, 'learning_rate': 2.8047382499044707e-05, 'epoch': 2.25}
  9%|▉         | 7344/78504 [4:28:19<71:11:42,  3.60s/it]  9%|▉         | 7345/78504 [4:28:22<67:33:21,  3.42s/it]                                                         {'loss': 0.0672, 'grad_norm': 0.36122190952301025, 'learning_rate': 2.8051203668322505e-05, 'epoch': 2.25}
  9%|▉         | 7345/78504 [4:28:22<67:33:21,  3.42s/it]  9%|▉         | 7346/78504 [4:28:24<62:47:25,  3.18s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.3057980239391327, 'learning_rate': 2.8055024837600304e-05, 'epoch': 2.25}
  9%|▉         | 7346/78504 [4:28:24<62:47:25,  3.18s/it]  9%|▉         | 7347/78504 [4:28:27<58:37:20,  2.97s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.30336466431617737, 'learning_rate': 2.8058846006878103e-05, 'epoch': 2.25}
  9%|▉         | 7347/78504 [4:28:27<58:37:20,  2.97s/it]  9%|▉         | 7348/78504 [4:28:29<54:28:10,  2.76s/it]                                                         {'loss': 0.0596, 'grad_norm': 0.33443936705589294, 'learning_rate': 2.8062667176155902e-05, 'epoch': 2.25}
  9%|▉         | 7348/78504 [4:28:29<54:28:10,  2.76s/it]  9%|▉         | 7349/78504 [4:28:31<51:55:05,  2.63s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.43693938851356506, 'learning_rate': 2.80664883454337e-05, 'epoch': 2.25}
  9%|▉         | 7349/78504 [4:28:31<51:55:05,  2.63s/it]  9%|▉         | 7350/78504 [4:28:33<48:46:13,  2.47s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.4564915597438812, 'learning_rate': 2.8070309514711503e-05, 'epoch': 2.25}
  9%|▉         | 7350/78504 [4:28:33<48:46:13,  2.47s/it]  9%|▉         | 7351/78504 [4:28:36<47:08:07,  2.38s/it]                                                         {'loss': 0.1011, 'grad_norm': 0.43111562728881836, 'learning_rate': 2.8074130683989305e-05, 'epoch': 2.25}
  9%|▉         | 7351/78504 [4:28:36<47:08:07,  2.38s/it]  9%|▉         | 7352/78504 [4:28:38<45:41:23,  2.31s/it]                                                         {'loss': 0.0753, 'grad_norm': 0.46266400814056396, 'learning_rate': 2.8077951853267103e-05, 'epoch': 2.25}
  9%|▉         | 7352/78504 [4:28:38<45:41:23,  2.31s/it]  9%|▉         | 7353/78504 [4:28:40<43:59:05,  2.23s/it]                                                         {'loss': 0.0876, 'grad_norm': 0.41317474842071533, 'learning_rate': 2.8081773022544902e-05, 'epoch': 2.25}
  9%|▉         | 7353/78504 [4:28:40<43:59:05,  2.23s/it]  9%|▉         | 7354/78504 [4:28:41<41:29:22,  2.10s/it]                                                         {'loss': 0.1131, 'grad_norm': 0.6488450765609741, 'learning_rate': 2.80855941918227e-05, 'epoch': 2.25}
  9%|▉         | 7354/78504 [4:28:41<41:29:22,  2.10s/it]  9%|▉         | 7355/78504 [4:28:43<40:10:28,  2.03s/it]                                                         {'loss': 0.1008, 'grad_norm': 0.7675851583480835, 'learning_rate': 2.80894153611005e-05, 'epoch': 2.25}
  9%|▉         | 7355/78504 [4:28:43<40:10:28,  2.03s/it]  9%|▉         | 7356/78504 [4:28:45<38:58:23,  1.97s/it]                                                         {'loss': 0.1197, 'grad_norm': 0.4870242476463318, 'learning_rate': 2.80932365303783e-05, 'epoch': 2.25}
  9%|▉         | 7356/78504 [4:28:45<38:58:23,  1.97s/it]  9%|▉         | 7357/78504 [4:28:47<37:34:14,  1.90s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.46612492203712463, 'learning_rate': 2.8097057699656097e-05, 'epoch': 2.25}
  9%|▉         | 7357/78504 [4:28:47<37:34:14,  1.90s/it]  9%|▉         | 7358/78504 [4:28:49<36:09:41,  1.83s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.8338161706924438, 'learning_rate': 2.8100878868933896e-05, 'epoch': 2.25}
  9%|▉         | 7358/78504 [4:28:49<36:09:41,  1.83s/it]  9%|▉         | 7359/78504 [4:28:50<34:26:59,  1.74s/it]                                                         {'loss': 0.1812, 'grad_norm': 1.0238538980484009, 'learning_rate': 2.8104700038211695e-05, 'epoch': 2.25}
  9%|▉         | 7359/78504 [4:28:50<34:26:59,  1.74s/it]  9%|▉         | 7360/78504 [4:28:52<32:47:34,  1.66s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.6558175683021545, 'learning_rate': 2.8108521207489493e-05, 'epoch': 2.25}
  9%|▉         | 7360/78504 [4:28:52<32:47:34,  1.66s/it]  9%|▉         | 7361/78504 [4:28:53<31:26:05,  1.59s/it]                                                         {'loss': 0.2061, 'grad_norm': 0.8441532850265503, 'learning_rate': 2.8112342376767292e-05, 'epoch': 2.25}
  9%|▉         | 7361/78504 [4:28:53<31:26:05,  1.59s/it]  9%|▉         | 7362/78504 [4:28:54<29:37:59,  1.50s/it]                                                         {'loss': 0.2038, 'grad_norm': 0.6366831064224243, 'learning_rate': 2.811616354604509e-05, 'epoch': 2.25}
  9%|▉         | 7362/78504 [4:28:54<29:37:59,  1.50s/it]  9%|▉         | 7363/78504 [4:28:55<27:25:28,  1.39s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.8597474694252014, 'learning_rate': 2.811998471532289e-05, 'epoch': 2.25}
  9%|▉         | 7363/78504 [4:28:55<27:25:28,  1.39s/it]  9%|▉         | 7364/78504 [4:28:57<25:37:50,  1.30s/it]                                                         {'loss': 0.2361, 'grad_norm': 0.9908716082572937, 'learning_rate': 2.812380588460069e-05, 'epoch': 2.25}
  9%|▉         | 7364/78504 [4:28:57<25:37:50,  1.30s/it]  9%|▉         | 7365/78504 [4:28:58<23:47:16,  1.20s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.1974499225616455, 'learning_rate': 2.8127627053878487e-05, 'epoch': 2.25}
  9%|▉         | 7365/78504 [4:28:58<23:47:16,  1.20s/it]  9%|▉         | 7366/78504 [4:28:58<22:10:31,  1.12s/it]                                                         {'loss': 0.2594, 'grad_norm': 1.0907732248306274, 'learning_rate': 2.8131448223156286e-05, 'epoch': 2.25}
  9%|▉         | 7366/78504 [4:28:58<22:10:31,  1.12s/it]  9%|▉         | 7367/78504 [4:28:59<20:11:37,  1.02s/it]                                                         {'loss': 0.2966, 'grad_norm': 1.4752464294433594, 'learning_rate': 2.8135269392434088e-05, 'epoch': 2.25}
  9%|▉         | 7367/78504 [4:28:59<20:11:37,  1.02s/it]  9%|▉         | 7368/78504 [4:29:08<68:18:55,  3.46s/it]                                                         {'loss': 0.1817, 'grad_norm': 0.44088220596313477, 'learning_rate': 2.8139090561711887e-05, 'epoch': 2.25}
  9%|▉         | 7368/78504 [4:29:08<68:18:55,  3.46s/it]  9%|▉         | 7369/78504 [4:29:12<67:24:02,  3.41s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.3711060881614685, 'learning_rate': 2.8142911730989686e-05, 'epoch': 2.25}
  9%|▉         | 7369/78504 [4:29:12<67:24:02,  3.41s/it]  9%|▉         | 7370/78504 [4:29:15<64:52:47,  3.28s/it]                                                         {'loss': 0.1158, 'grad_norm': 0.5027047395706177, 'learning_rate': 2.8146732900267484e-05, 'epoch': 2.25}
  9%|▉         | 7370/78504 [4:29:15<64:52:47,  3.28s/it]  9%|▉         | 7371/78504 [4:29:17<60:46:54,  3.08s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.34329280257225037, 'learning_rate': 2.8150554069545283e-05, 'epoch': 2.25}
  9%|▉         | 7371/78504 [4:29:17<60:46:54,  3.08s/it]  9%|▉         | 7372/78504 [4:29:20<56:32:09,  2.86s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.5952829122543335, 'learning_rate': 2.8154375238823082e-05, 'epoch': 2.25}
  9%|▉         | 7372/78504 [4:29:20<56:32:09,  2.86s/it]  9%|▉         | 7373/78504 [4:29:22<53:00:38,  2.68s/it]                                                         {'loss': 0.0623, 'grad_norm': 0.253520131111145, 'learning_rate': 2.815819640810088e-05, 'epoch': 2.25}
  9%|▉         | 7373/78504 [4:29:22<53:00:38,  2.68s/it]  9%|▉         | 7374/78504 [4:29:24<50:50:58,  2.57s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.3138020634651184, 'learning_rate': 2.816201757737868e-05, 'epoch': 2.25}
  9%|▉         | 7374/78504 [4:29:24<50:50:58,  2.57s/it]  9%|▉         | 7375/78504 [4:29:26<48:02:31,  2.43s/it]                                                         {'loss': 0.0712, 'grad_norm': 0.25575369596481323, 'learning_rate': 2.8165838746656478e-05, 'epoch': 2.25}
  9%|▉         | 7375/78504 [4:29:26<48:02:31,  2.43s/it]  9%|▉         | 7376/78504 [4:29:28<46:34:56,  2.36s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.27907392382621765, 'learning_rate': 2.8169659915934277e-05, 'epoch': 2.25}
  9%|▉         | 7376/78504 [4:29:29<46:34:56,  2.36s/it]  9%|▉         | 7377/78504 [4:29:31<45:27:14,  2.30s/it]                                                         {'loss': 0.0871, 'grad_norm': 0.470973402261734, 'learning_rate': 2.8173481085212075e-05, 'epoch': 2.26}
  9%|▉         | 7377/78504 [4:29:31<45:27:14,  2.30s/it]  9%|▉         | 7378/78504 [4:29:33<42:50:41,  2.17s/it]                                                         {'loss': 0.1216, 'grad_norm': 0.49163827300071716, 'learning_rate': 2.8177302254489874e-05, 'epoch': 2.26}
  9%|▉         | 7378/78504 [4:29:33<42:50:41,  2.17s/it]  9%|▉         | 7379/78504 [4:29:34<41:45:05,  2.11s/it]                                                         {'loss': 0.0872, 'grad_norm': 0.3077130913734436, 'learning_rate': 2.8181123423767673e-05, 'epoch': 2.26}
  9%|▉         | 7379/78504 [4:29:35<41:45:05,  2.11s/it]  9%|▉         | 7380/78504 [4:29:36<40:36:49,  2.06s/it]                                                         {'loss': 0.1307, 'grad_norm': 0.8408883810043335, 'learning_rate': 2.8184944593045472e-05, 'epoch': 2.26}
  9%|▉         | 7380/78504 [4:29:36<40:36:49,  2.06s/it]  9%|▉         | 7381/78504 [4:29:38<39:35:49,  2.00s/it]                                                         {'loss': 0.1057, 'grad_norm': 0.717801034450531, 'learning_rate': 2.818876576232327e-05, 'epoch': 2.26}
  9%|▉         | 7381/78504 [4:29:38<39:35:49,  2.00s/it]  9%|▉         | 7382/78504 [4:29:40<38:10:37,  1.93s/it]                                                         {'loss': 0.1407, 'grad_norm': 0.8257322311401367, 'learning_rate': 2.8192586931601073e-05, 'epoch': 2.26}
  9%|▉         | 7382/78504 [4:29:40<38:10:37,  1.93s/it]  9%|▉         | 7383/78504 [4:29:42<36:28:03,  1.85s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.6437109708786011, 'learning_rate': 2.819640810087887e-05, 'epoch': 2.26}
  9%|▉         | 7383/78504 [4:29:42<36:28:03,  1.85s/it]  9%|▉         | 7384/78504 [4:29:43<34:44:44,  1.76s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.7860509157180786, 'learning_rate': 2.820022927015667e-05, 'epoch': 2.26}
  9%|▉         | 7384/78504 [4:29:43<34:44:44,  1.76s/it]  9%|▉         | 7385/78504 [4:29:45<33:16:55,  1.68s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.8053140640258789, 'learning_rate': 2.820405043943447e-05, 'epoch': 2.26}
  9%|▉         | 7385/78504 [4:29:45<33:16:55,  1.68s/it]  9%|▉         | 7386/78504 [4:29:46<31:32:28,  1.60s/it]                                                         {'loss': 0.2171, 'grad_norm': 0.8977100253105164, 'learning_rate': 2.8207871608712268e-05, 'epoch': 2.26}
  9%|▉         | 7386/78504 [4:29:46<31:32:28,  1.60s/it]  9%|▉         | 7387/78504 [4:29:47<29:41:29,  1.50s/it]                                                         {'loss': 0.204, 'grad_norm': 0.7595359086990356, 'learning_rate': 2.8211692777990066e-05, 'epoch': 2.26}
  9%|▉         | 7387/78504 [4:29:47<29:41:29,  1.50s/it]  9%|▉         | 7388/78504 [4:29:49<27:35:56,  1.40s/it]                                                         {'loss': 0.2094, 'grad_norm': 0.7271461486816406, 'learning_rate': 2.8215513947267865e-05, 'epoch': 2.26}
  9%|▉         | 7388/78504 [4:29:49<27:35:56,  1.40s/it]  9%|▉         | 7389/78504 [4:29:50<25:47:04,  1.31s/it]                                                         {'loss': 0.209, 'grad_norm': 0.7832782864570618, 'learning_rate': 2.8219335116545664e-05, 'epoch': 2.26}
  9%|▉         | 7389/78504 [4:29:50<25:47:04,  1.31s/it]  9%|▉         | 7390/78504 [4:29:51<23:57:22,  1.21s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.8457315564155579, 'learning_rate': 2.8223156285823463e-05, 'epoch': 2.26}
  9%|▉         | 7390/78504 [4:29:51<23:57:22,  1.21s/it]  9%|▉         | 7391/78504 [4:29:52<22:16:58,  1.13s/it]                                                         {'loss': 0.2841, 'grad_norm': 1.8064745664596558, 'learning_rate': 2.822697745510126e-05, 'epoch': 2.26}
  9%|▉         | 7391/78504 [4:29:52<22:16:58,  1.13s/it]  9%|▉         | 7392/78504 [4:29:52<20:12:39,  1.02s/it]                                                         {'loss': 0.3073, 'grad_norm': 1.7350587844848633, 'learning_rate': 2.823079862437906e-05, 'epoch': 2.26}
  9%|▉         | 7392/78504 [4:29:52<20:12:39,  1.02s/it]  9%|▉         | 7393/78504 [4:30:01<64:12:03,  3.25s/it]                                                         {'loss': 0.1674, 'grad_norm': 0.43555137515068054, 'learning_rate': 2.823461979365686e-05, 'epoch': 2.26}
  9%|▉         | 7393/78504 [4:30:01<64:12:03,  3.25s/it]  9%|▉         | 7394/78504 [4:30:04<62:11:12,  3.15s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.31527405977249146, 'learning_rate': 2.8238440962934658e-05, 'epoch': 2.26}
  9%|▉         | 7394/78504 [4:30:04<62:11:12,  3.15s/it]  9%|▉         | 7395/78504 [4:30:07<60:54:49,  3.08s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.32739681005477905, 'learning_rate': 2.8242262132212456e-05, 'epoch': 2.26}
  9%|▉         | 7395/78504 [4:30:07<60:54:49,  3.08s/it]  9%|▉         | 7396/78504 [4:30:09<57:54:26,  2.93s/it]                                                         {'loss': 0.0614, 'grad_norm': 0.645633339881897, 'learning_rate': 2.8246083301490255e-05, 'epoch': 2.26}
  9%|▉         | 7396/78504 [4:30:09<57:54:26,  2.93s/it]  9%|▉         | 7397/78504 [4:30:12<55:12:18,  2.79s/it]                                                         {'loss': 0.071, 'grad_norm': 1.0098249912261963, 'learning_rate': 2.8249904470768054e-05, 'epoch': 2.26}
  9%|▉         | 7397/78504 [4:30:12<55:12:18,  2.79s/it]  9%|▉         | 7398/78504 [4:30:14<52:04:33,  2.64s/it]                                                         {'loss': 0.0539, 'grad_norm': 0.38260024785995483, 'learning_rate': 2.8253725640045856e-05, 'epoch': 2.26}
  9%|▉         | 7398/78504 [4:30:14<52:04:33,  2.64s/it]  9%|▉         | 7399/78504 [4:30:16<50:12:42,  2.54s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.3118835985660553, 'learning_rate': 2.8257546809323655e-05, 'epoch': 2.26}
  9%|▉         | 7399/78504 [4:30:16<50:12:42,  2.54s/it]  9%|▉         | 7400/78504 [4:30:18<47:34:07,  2.41s/it]                                                         {'loss': 0.0702, 'grad_norm': 0.22657616436481476, 'learning_rate': 2.8261367978601453e-05, 'epoch': 2.26}
  9%|▉         | 7400/78504 [4:30:18<47:34:07,  2.41s/it]  9%|▉         | 7401/78504 [4:30:21<46:13:30,  2.34s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.3477165400981903, 'learning_rate': 2.8265189147879252e-05, 'epoch': 2.26}
  9%|▉         | 7401/78504 [4:30:21<46:13:30,  2.34s/it]  9%|▉         | 7402/78504 [4:30:23<45:04:15,  2.28s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.5072835087776184, 'learning_rate': 2.826901031715705e-05, 'epoch': 2.26}
  9%|▉         | 7402/78504 [4:30:23<45:04:15,  2.28s/it]  9%|▉         | 7403/78504 [4:30:25<43:34:40,  2.21s/it]                                                         {'loss': 0.1196, 'grad_norm': 0.4893054962158203, 'learning_rate': 2.827283148643485e-05, 'epoch': 2.26}
  9%|▉         | 7403/78504 [4:30:25<43:34:40,  2.21s/it]  9%|▉         | 7404/78504 [4:30:27<42:14:29,  2.14s/it]                                                         {'loss': 0.1055, 'grad_norm': 1.06656014919281, 'learning_rate': 2.827665265571265e-05, 'epoch': 2.26}
  9%|▉         | 7404/78504 [4:30:27<42:14:29,  2.14s/it]  9%|▉         | 7405/78504 [4:30:29<40:37:42,  2.06s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.381242960691452, 'learning_rate': 2.8280473824990447e-05, 'epoch': 2.26}
  9%|▉         | 7405/78504 [4:30:29<40:37:42,  2.06s/it]  9%|▉         | 7406/78504 [4:30:30<39:19:34,  1.99s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.5036057829856873, 'learning_rate': 2.8284294994268246e-05, 'epoch': 2.26}
  9%|▉         | 7406/78504 [4:30:30<39:19:34,  1.99s/it]  9%|▉         | 7407/78504 [4:30:32<37:46:35,  1.91s/it]                                                         {'loss': 0.1488, 'grad_norm': 2.9906630516052246, 'learning_rate': 2.8288116163546045e-05, 'epoch': 2.26}
  9%|▉         | 7407/78504 [4:30:32<37:46:35,  1.91s/it]  9%|▉         | 7408/78504 [4:30:34<36:11:54,  1.83s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.6812462210655212, 'learning_rate': 2.8291937332823843e-05, 'epoch': 2.26}
  9%|▉         | 7408/78504 [4:30:34<36:11:54,  1.83s/it]  9%|▉         | 7409/78504 [4:30:35<34:26:35,  1.74s/it]                                                         {'loss': 0.1795, 'grad_norm': 1.031022071838379, 'learning_rate': 2.8295758502101642e-05, 'epoch': 2.27}
  9%|▉         | 7409/78504 [4:30:35<34:26:35,  1.74s/it]  9%|▉         | 7410/78504 [4:30:37<32:48:35,  1.66s/it]                                                         {'loss': 0.19, 'grad_norm': 0.734355628490448, 'learning_rate': 2.829957967137944e-05, 'epoch': 2.27}
  9%|▉         | 7410/78504 [4:30:37<32:48:35,  1.66s/it]  9%|▉         | 7411/78504 [4:30:38<31:08:36,  1.58s/it]                                                         {'loss': 0.195, 'grad_norm': 0.9828577041625977, 'learning_rate': 2.830340084065724e-05, 'epoch': 2.27}
  9%|▉         | 7411/78504 [4:30:38<31:08:36,  1.58s/it]  9%|▉         | 7412/78504 [4:30:40<29:23:39,  1.49s/it]                                                         {'loss': 0.2237, 'grad_norm': 0.8663661479949951, 'learning_rate': 2.8307222009935038e-05, 'epoch': 2.27}
  9%|▉         | 7412/78504 [4:30:40<29:23:39,  1.49s/it]  9%|▉         | 7413/78504 [4:30:41<27:20:37,  1.38s/it]                                                         {'loss': 0.2047, 'grad_norm': 0.7535672187805176, 'learning_rate': 2.831104317921284e-05, 'epoch': 2.27}
  9%|▉         | 7413/78504 [4:30:41<27:20:37,  1.38s/it]  9%|▉         | 7414/78504 [4:30:42<25:36:55,  1.30s/it]                                                         {'loss': 0.1919, 'grad_norm': 0.8889128565788269, 'learning_rate': 2.831486434849064e-05, 'epoch': 2.27}
  9%|▉         | 7414/78504 [4:30:42<25:36:55,  1.30s/it]  9%|▉         | 7415/78504 [4:30:43<23:49:32,  1.21s/it]                                                         {'loss': 0.1849, 'grad_norm': 0.8428142666816711, 'learning_rate': 2.8318685517768438e-05, 'epoch': 2.27}
  9%|▉         | 7415/78504 [4:30:43<23:49:32,  1.21s/it]  9%|▉         | 7416/78504 [4:30:44<22:15:08,  1.13s/it]                                                         {'loss': 0.2357, 'grad_norm': 1.5160380601882935, 'learning_rate': 2.8322506687046237e-05, 'epoch': 2.27}
  9%|▉         | 7416/78504 [4:30:44<22:15:08,  1.13s/it]  9%|▉         | 7417/78504 [4:30:44<20:16:21,  1.03s/it]                                                         {'loss': 0.3044, 'grad_norm': 2.317176580429077, 'learning_rate': 2.8326327856324035e-05, 'epoch': 2.27}
  9%|▉         | 7417/78504 [4:30:44<20:16:21,  1.03s/it]  9%|▉         | 7418/78504 [4:30:52<58:20:54,  2.95s/it]                                                         {'loss': 0.1695, 'grad_norm': 2.525517225265503, 'learning_rate': 2.8330149025601834e-05, 'epoch': 2.27}
  9%|▉         | 7418/78504 [4:30:52<58:20:54,  2.95s/it]  9%|▉         | 7419/78504 [4:30:55<59:21:12,  3.01s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.34109076857566833, 'learning_rate': 2.8333970194879633e-05, 'epoch': 2.27}
  9%|▉         | 7419/78504 [4:30:55<59:21:12,  3.01s/it]  9%|▉         | 7420/78504 [4:30:58<59:25:40,  3.01s/it]                                                         {'loss': 0.0824, 'grad_norm': 0.42694664001464844, 'learning_rate': 2.833779136415743e-05, 'epoch': 2.27}
  9%|▉         | 7420/78504 [4:30:58<59:25:40,  3.01s/it]  9%|▉         | 7421/78504 [4:31:01<56:57:45,  2.88s/it]                                                         {'loss': 0.0586, 'grad_norm': 0.29348838329315186, 'learning_rate': 2.834161253343523e-05, 'epoch': 2.27}
  9%|▉         | 7421/78504 [4:31:01<56:57:45,  2.88s/it]  9%|▉         | 7422/78504 [4:31:03<53:50:40,  2.73s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.267353355884552, 'learning_rate': 2.834543370271303e-05, 'epoch': 2.27}
  9%|▉         | 7422/78504 [4:31:03<53:50:40,  2.73s/it]  9%|▉         | 7423/78504 [4:31:05<51:07:30,  2.59s/it]                                                         {'loss': 0.0515, 'grad_norm': 0.4615834951400757, 'learning_rate': 2.8349254871990828e-05, 'epoch': 2.27}
  9%|▉         | 7423/78504 [4:31:05<51:07:30,  2.59s/it]  9%|▉         | 7424/78504 [4:31:08<49:32:50,  2.51s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.6454854011535645, 'learning_rate': 2.8353076041268627e-05, 'epoch': 2.27}
  9%|▉         | 7424/78504 [4:31:08<49:32:50,  2.51s/it]  9%|▉         | 7425/78504 [4:31:10<47:06:06,  2.39s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.3614984452724457, 'learning_rate': 2.8356897210546425e-05, 'epoch': 2.27}
  9%|▉         | 7425/78504 [4:31:10<47:06:06,  2.39s/it]  9%|▉         | 7426/78504 [4:31:12<45:57:24,  2.33s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.32900500297546387, 'learning_rate': 2.8360718379824224e-05, 'epoch': 2.27}
  9%|▉         | 7426/78504 [4:31:12<45:57:24,  2.33s/it]  9%|▉         | 7427/78504 [4:31:14<44:51:00,  2.27s/it]                                                         {'loss': 0.081, 'grad_norm': 0.3135313093662262, 'learning_rate': 2.8364539549102023e-05, 'epoch': 2.27}
  9%|▉         | 7427/78504 [4:31:14<44:51:00,  2.27s/it]  9%|▉         | 7428/78504 [4:31:16<43:17:46,  2.19s/it]                                                         {'loss': 0.1231, 'grad_norm': 0.8695619106292725, 'learning_rate': 2.8368360718379825e-05, 'epoch': 2.27}
  9%|▉         | 7428/78504 [4:31:16<43:17:46,  2.19s/it]  9%|▉         | 7429/78504 [4:31:18<41:01:52,  2.08s/it]                                                         {'loss': 0.1157, 'grad_norm': 0.44079065322875977, 'learning_rate': 2.8372181887657627e-05, 'epoch': 2.27}
  9%|▉         | 7429/78504 [4:31:18<41:01:52,  2.08s/it]  9%|▉         | 7430/78504 [4:31:20<39:45:58,  2.01s/it]                                                         {'loss': 0.1288, 'grad_norm': 0.39970526099205017, 'learning_rate': 2.8376003056935426e-05, 'epoch': 2.27}
  9%|▉         | 7430/78504 [4:31:20<39:45:58,  2.01s/it]  9%|▉         | 7431/78504 [4:31:21<38:02:18,  1.93s/it]                                                         {'loss': 0.0962, 'grad_norm': 1.0098403692245483, 'learning_rate': 2.8379824226213225e-05, 'epoch': 2.27}
  9%|▉         | 7431/78504 [4:31:21<38:02:18,  1.93s/it]  9%|▉         | 7432/78504 [4:31:23<37:07:37,  1.88s/it]                                                         {'loss': 0.1943, 'grad_norm': 1.7636184692382812, 'learning_rate': 2.8383645395491023e-05, 'epoch': 2.27}
  9%|▉         | 7432/78504 [4:31:23<37:07:37,  1.88s/it]  9%|▉         | 7433/78504 [4:31:25<35:41:33,  1.81s/it]                                                         {'loss': 0.1512, 'grad_norm': 1.1189097166061401, 'learning_rate': 2.8387466564768822e-05, 'epoch': 2.27}
  9%|▉         | 7433/78504 [4:31:25<35:41:33,  1.81s/it]  9%|▉         | 7434/78504 [4:31:26<33:58:34,  1.72s/it]                                                         {'loss': 0.1837, 'grad_norm': 0.6449055075645447, 'learning_rate': 2.839128773404662e-05, 'epoch': 2.27}
  9%|▉         | 7434/78504 [4:31:26<33:58:34,  1.72s/it]  9%|▉         | 7435/78504 [4:31:28<32:17:43,  1.64s/it]                                                         {'loss': 0.1775, 'grad_norm': 1.6566085815429688, 'learning_rate': 2.839510890332442e-05, 'epoch': 2.27}
  9%|▉         | 7435/78504 [4:31:28<32:17:43,  1.64s/it]  9%|▉         | 7436/78504 [4:31:29<31:01:48,  1.57s/it]                                                         {'loss': 0.2045, 'grad_norm': 1.315734624862671, 'learning_rate': 2.839893007260222e-05, 'epoch': 2.27}
  9%|▉         | 7436/78504 [4:31:29<31:01:48,  1.57s/it]  9%|▉         | 7437/78504 [4:31:31<29:21:33,  1.49s/it]                                                         {'loss': 0.2484, 'grad_norm': 1.1309235095977783, 'learning_rate': 2.8402751241880017e-05, 'epoch': 2.27}
  9%|▉         | 7437/78504 [4:31:31<29:21:33,  1.49s/it]  9%|▉         | 7438/78504 [4:31:32<27:21:39,  1.39s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.6738730669021606, 'learning_rate': 2.8406572411157816e-05, 'epoch': 2.27}
  9%|▉         | 7438/78504 [4:31:32<27:21:39,  1.39s/it]  9%|▉         | 7439/78504 [4:31:33<25:41:46,  1.30s/it]                                                         {'loss': 0.2289, 'grad_norm': 0.9136133193969727, 'learning_rate': 2.8410393580435615e-05, 'epoch': 2.27}
  9%|▉         | 7439/78504 [4:31:33<25:41:46,  1.30s/it]  9%|▉         | 7440/78504 [4:31:34<24:13:14,  1.23s/it]                                                         {'loss': 0.2592, 'grad_norm': 1.242142915725708, 'learning_rate': 2.8414214749713413e-05, 'epoch': 2.27}
  9%|▉         | 7440/78504 [4:31:34<24:13:14,  1.23s/it]  9%|▉         | 7441/78504 [4:31:35<22:27:13,  1.14s/it]                                                         {'loss': 0.2377, 'grad_norm': 1.1244701147079468, 'learning_rate': 2.8418035918991212e-05, 'epoch': 2.27}
  9%|▉         | 7441/78504 [4:31:35<22:27:13,  1.14s/it]  9%|▉         | 7442/78504 [4:31:36<20:26:19,  1.04s/it]                                                         {'loss': 0.2732, 'grad_norm': 1.570652961730957, 'learning_rate': 2.842185708826901e-05, 'epoch': 2.28}
  9%|▉         | 7442/78504 [4:31:36<20:26:19,  1.04s/it]  9%|▉         | 7443/78504 [4:31:43<55:55:42,  2.83s/it]                                                         {'loss': 0.1745, 'grad_norm': 0.6195098161697388, 'learning_rate': 2.842567825754681e-05, 'epoch': 2.28}
  9%|▉         | 7443/78504 [4:31:43<55:55:42,  2.83s/it]  9%|▉         | 7444/78504 [4:31:46<59:04:32,  2.99s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.3875739872455597, 'learning_rate': 2.842949942682461e-05, 'epoch': 2.28}
  9%|▉         | 7444/78504 [4:31:46<59:04:32,  2.99s/it]  9%|▉         | 7445/78504 [4:31:49<58:40:35,  2.97s/it]                                                         {'loss': 0.0827, 'grad_norm': 0.3012505769729614, 'learning_rate': 2.843332059610241e-05, 'epoch': 2.28}
  9%|▉         | 7445/78504 [4:31:49<58:40:35,  2.97s/it]  9%|▉         | 7446/78504 [4:31:51<56:22:20,  2.86s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.49913525581359863, 'learning_rate': 2.843714176538021e-05, 'epoch': 2.28}
  9%|▉         | 7446/78504 [4:31:51<56:22:20,  2.86s/it]  9%|▉         | 7447/78504 [4:31:54<54:14:53,  2.75s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.3412223756313324, 'learning_rate': 2.8440962934658008e-05, 'epoch': 2.28}
  9%|▉         | 7447/78504 [4:31:54<54:14:53,  2.75s/it]  9%|▉         | 7448/78504 [4:31:56<52:30:24,  2.66s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.3033045530319214, 'learning_rate': 2.8444784103935807e-05, 'epoch': 2.28}
  9%|▉         | 7448/78504 [4:31:56<52:30:24,  2.66s/it]  9%|▉         | 7449/78504 [4:31:59<50:31:35,  2.56s/it]                                                         {'loss': 0.0578, 'grad_norm': 0.46778303384780884, 'learning_rate': 2.8448605273213605e-05, 'epoch': 2.28}
  9%|▉         | 7449/78504 [4:31:59<50:31:35,  2.56s/it]  9%|▉         | 7450/78504 [4:32:01<49:06:14,  2.49s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.32937702536582947, 'learning_rate': 2.8452426442491404e-05, 'epoch': 2.28}
  9%|▉         | 7450/78504 [4:32:01<49:06:14,  2.49s/it]  9%|▉         | 7451/78504 [4:32:03<47:18:28,  2.40s/it]                                                         {'loss': 0.0646, 'grad_norm': 0.237934872508049, 'learning_rate': 2.8456247611769203e-05, 'epoch': 2.28}
  9%|▉         | 7451/78504 [4:32:03<47:18:28,  2.40s/it]  9%|▉         | 7452/78504 [4:32:05<45:56:43,  2.33s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.46363818645477295, 'learning_rate': 2.8460068781047e-05, 'epoch': 2.28}
  9%|▉         | 7452/78504 [4:32:05<45:56:43,  2.33s/it]  9%|▉         | 7453/78504 [4:32:07<43:11:19,  2.19s/it]                                                         {'loss': 0.1196, 'grad_norm': 0.37032270431518555, 'learning_rate': 2.84638899503248e-05, 'epoch': 2.28}
  9%|▉         | 7453/78504 [4:32:07<43:11:19,  2.19s/it]  9%|▉         | 7454/78504 [4:32:09<41:57:49,  2.13s/it]                                                         {'loss': 0.1041, 'grad_norm': 0.38839012384414673, 'learning_rate': 2.84677111196026e-05, 'epoch': 2.28}
  9%|▉         | 7454/78504 [4:32:09<41:57:49,  2.13s/it]  9%|▉         | 7455/78504 [4:32:11<40:45:01,  2.06s/it]                                                         {'loss': 0.0872, 'grad_norm': 0.4413239061832428, 'learning_rate': 2.8471532288880398e-05, 'epoch': 2.28}
  9%|▉         | 7455/78504 [4:32:11<40:45:01,  2.06s/it]  9%|▉         | 7456/78504 [4:32:13<39:35:46,  2.01s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.48668286204338074, 'learning_rate': 2.8475353458158197e-05, 'epoch': 2.28}
  9%|▉         | 7456/78504 [4:32:13<39:35:46,  2.01s/it]  9%|▉         | 7457/78504 [4:32:15<38:09:05,  1.93s/it]                                                         {'loss': 0.169, 'grad_norm': 0.7056439518928528, 'learning_rate': 2.8479174627435995e-05, 'epoch': 2.28}
  9%|▉         | 7457/78504 [4:32:15<38:09:05,  1.93s/it] 10%|▉         | 7458/78504 [4:32:16<36:06:19,  1.83s/it]                                                         {'loss': 0.1807, 'grad_norm': 0.6685630679130554, 'learning_rate': 2.8482995796713794e-05, 'epoch': 2.28}
 10%|▉         | 7458/78504 [4:32:16<36:06:19,  1.83s/it] 10%|▉         | 7459/78504 [4:32:18<34:25:35,  1.74s/it]                                                         {'loss': 0.2016, 'grad_norm': 0.7288064360618591, 'learning_rate': 2.8486816965991593e-05, 'epoch': 2.28}
 10%|▉         | 7459/78504 [4:32:18<34:25:35,  1.74s/it] 10%|▉         | 7460/78504 [4:32:19<32:59:07,  1.67s/it]                                                         {'loss': 0.1826, 'grad_norm': 0.6542525291442871, 'learning_rate': 2.8490638135269395e-05, 'epoch': 2.28}
 10%|▉         | 7460/78504 [4:32:19<32:59:07,  1.67s/it] 10%|▉         | 7461/78504 [4:32:21<31:19:44,  1.59s/it]                                                         {'loss': 0.2051, 'grad_norm': 1.0395879745483398, 'learning_rate': 2.8494459304547194e-05, 'epoch': 2.28}
 10%|▉         | 7461/78504 [4:32:21<31:19:44,  1.59s/it] 10%|▉         | 7462/78504 [4:32:22<29:34:51,  1.50s/it]                                                         {'loss': 0.2087, 'grad_norm': 0.6941827535629272, 'learning_rate': 2.8498280473824992e-05, 'epoch': 2.28}
 10%|▉         | 7462/78504 [4:32:22<29:34:51,  1.50s/it] 10%|▉         | 7463/78504 [4:32:23<27:31:38,  1.39s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.6712960004806519, 'learning_rate': 2.850210164310279e-05, 'epoch': 2.28}
 10%|▉         | 7463/78504 [4:32:23<27:31:38,  1.39s/it] 10%|▉         | 7464/78504 [4:32:24<25:45:19,  1.31s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.8865637183189392, 'learning_rate': 2.850592281238059e-05, 'epoch': 2.28}
 10%|▉         | 7464/78504 [4:32:24<25:45:19,  1.31s/it] 10%|▉         | 7465/78504 [4:32:25<24:16:13,  1.23s/it]                                                         {'loss': 0.2137, 'grad_norm': 0.8303442597389221, 'learning_rate': 2.850974398165839e-05, 'epoch': 2.28}
 10%|▉         | 7465/78504 [4:32:25<24:16:13,  1.23s/it] 10%|▉         | 7466/78504 [4:32:26<22:32:19,  1.14s/it]                                                         {'loss': 0.2547, 'grad_norm': 1.1301701068878174, 'learning_rate': 2.8513565150936187e-05, 'epoch': 2.28}
 10%|▉         | 7466/78504 [4:32:26<22:32:19,  1.14s/it] 10%|▉         | 7467/78504 [4:32:27<20:23:52,  1.03s/it]                                                         {'loss': 0.3195, 'grad_norm': 2.704989433288574, 'learning_rate': 2.8517386320213986e-05, 'epoch': 2.28}
 10%|▉         | 7467/78504 [4:32:27<20:23:52,  1.03s/it] 10%|▉         | 7468/78504 [4:32:34<56:50:29,  2.88s/it]                                                         {'loss': 0.1521, 'grad_norm': 0.38451674580574036, 'learning_rate': 2.8521207489491785e-05, 'epoch': 2.28}
 10%|▉         | 7468/78504 [4:32:34<56:50:29,  2.88s/it] 10%|▉         | 7469/78504 [4:32:37<58:22:17,  2.96s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.3128558099269867, 'learning_rate': 2.8525028658769584e-05, 'epoch': 2.28}
 10%|▉         | 7469/78504 [4:32:38<58:22:17,  2.96s/it] 10%|▉         | 7470/78504 [4:32:41<58:45:46,  2.98s/it]                                                         {'loss': 0.0748, 'grad_norm': 0.2775086760520935, 'learning_rate': 2.8528849828047382e-05, 'epoch': 2.28}
 10%|▉         | 7470/78504 [4:32:41<58:45:46,  2.98s/it] 10%|▉         | 7471/78504 [4:32:43<56:36:58,  2.87s/it]                                                         {'loss': 0.105, 'grad_norm': 0.28951963782310486, 'learning_rate': 2.853267099732518e-05, 'epoch': 2.28}
 10%|▉         | 7471/78504 [4:32:43<56:36:58,  2.87s/it] 10%|▉         | 7472/78504 [4:32:46<54:18:52,  2.75s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.4539552628993988, 'learning_rate': 2.853649216660298e-05, 'epoch': 2.28}
 10%|▉         | 7472/78504 [4:32:46<54:18:52,  2.75s/it] 10%|▉         | 7473/78504 [4:32:48<51:25:49,  2.61s/it]                                                         {'loss': 0.0818, 'grad_norm': 0.3506033718585968, 'learning_rate': 2.854031333588078e-05, 'epoch': 2.28}
 10%|▉         | 7473/78504 [4:32:48<51:25:49,  2.61s/it] 10%|▉         | 7474/78504 [4:32:50<49:49:16,  2.53s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.4658331274986267, 'learning_rate': 2.8544134505158577e-05, 'epoch': 2.28}
 10%|▉         | 7474/78504 [4:32:50<49:49:16,  2.53s/it] 10%|▉         | 7475/78504 [4:32:52<47:15:26,  2.40s/it]                                                         {'loss': 0.0722, 'grad_norm': 0.7144290208816528, 'learning_rate': 2.854795567443638e-05, 'epoch': 2.29}
 10%|▉         | 7475/78504 [4:32:52<47:15:26,  2.40s/it] 10%|▉         | 7476/78504 [4:32:54<46:00:45,  2.33s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.6622812151908875, 'learning_rate': 2.8551776843714178e-05, 'epoch': 2.29}
 10%|▉         | 7476/78504 [4:32:55<46:00:45,  2.33s/it] 10%|▉         | 7477/78504 [4:32:57<44:56:57,  2.28s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.7743318676948547, 'learning_rate': 2.8555598012991977e-05, 'epoch': 2.29}
 10%|▉         | 7477/78504 [4:32:57<44:56:57,  2.28s/it] 10%|▉         | 7478/78504 [4:32:59<43:24:54,  2.20s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.34522339701652527, 'learning_rate': 2.8559419182269776e-05, 'epoch': 2.29}
 10%|▉         | 7478/78504 [4:32:59<43:24:54,  2.20s/it] 10%|▉         | 7479/78504 [4:33:01<42:08:20,  2.14s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.40159496665000916, 'learning_rate': 2.8563240351547575e-05, 'epoch': 2.29}
 10%|▉         | 7479/78504 [4:33:01<42:08:20,  2.14s/it] 10%|▉         | 7480/78504 [4:33:03<40:42:04,  2.06s/it]                                                         {'loss': 0.1224, 'grad_norm': 0.7242107391357422, 'learning_rate': 2.8567061520825373e-05, 'epoch': 2.29}
 10%|▉         | 7480/78504 [4:33:03<40:42:04,  2.06s/it] 10%|▉         | 7481/78504 [4:33:04<39:39:23,  2.01s/it]                                                         {'loss': 0.125, 'grad_norm': 0.6342408061027527, 'learning_rate': 2.8570882690103172e-05, 'epoch': 2.29}
 10%|▉         | 7481/78504 [4:33:04<39:39:23,  2.01s/it] 10%|▉         | 7482/78504 [4:33:06<38:14:46,  1.94s/it]                                                         {'loss': 0.178, 'grad_norm': 0.48364225029945374, 'learning_rate': 2.857470385938097e-05, 'epoch': 2.29}
 10%|▉         | 7482/78504 [4:33:06<38:14:46,  1.94s/it] 10%|▉         | 7483/78504 [4:33:08<36:08:32,  1.83s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.6203823685646057, 'learning_rate': 2.857852502865877e-05, 'epoch': 2.29}
 10%|▉         | 7483/78504 [4:33:08<36:08:32,  1.83s/it] 10%|▉         | 7484/78504 [4:33:09<34:23:20,  1.74s/it]                                                         {'loss': 0.2033, 'grad_norm': 1.1699111461639404, 'learning_rate': 2.8582346197936568e-05, 'epoch': 2.29}
 10%|▉         | 7484/78504 [4:33:09<34:23:20,  1.74s/it] 10%|▉         | 7485/78504 [4:33:11<32:58:17,  1.67s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.9143407940864563, 'learning_rate': 2.8586167367214367e-05, 'epoch': 2.29}
 10%|▉         | 7485/78504 [4:33:11<32:58:17,  1.67s/it] 10%|▉         | 7486/78504 [4:33:12<31:57:26,  1.62s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.7229843139648438, 'learning_rate': 2.8589988536492166e-05, 'epoch': 2.29}
 10%|▉         | 7486/78504 [4:33:12<31:57:26,  1.62s/it] 10%|▉         | 7487/78504 [4:33:14<29:58:12,  1.52s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.8904842734336853, 'learning_rate': 2.8593809705769964e-05, 'epoch': 2.29}
 10%|▉         | 7487/78504 [4:33:14<29:58:12,  1.52s/it] 10%|▉         | 7488/78504 [4:33:15<27:46:03,  1.41s/it]                                                         {'loss': 0.1882, 'grad_norm': 1.5514459609985352, 'learning_rate': 2.8597630875047763e-05, 'epoch': 2.29}
 10%|▉         | 7488/78504 [4:33:15<27:46:03,  1.41s/it] 10%|▉         | 7489/78504 [4:33:16<25:55:35,  1.31s/it]                                                         {'loss': 0.2193, 'grad_norm': 1.3278262615203857, 'learning_rate': 2.8601452044325562e-05, 'epoch': 2.29}
 10%|▉         | 7489/78504 [4:33:16<25:55:35,  1.31s/it] 10%|▉         | 7490/78504 [4:33:17<24:02:52,  1.22s/it]                                                         {'loss': 0.2552, 'grad_norm': 1.2864344120025635, 'learning_rate': 2.860527321360336e-05, 'epoch': 2.29}
 10%|▉         | 7490/78504 [4:33:17<24:02:52,  1.22s/it] 10%|▉         | 7491/78504 [4:33:18<22:20:19,  1.13s/it]                                                         {'loss': 0.2765, 'grad_norm': 1.2618060111999512, 'learning_rate': 2.8609094382881163e-05, 'epoch': 2.29}
 10%|▉         | 7491/78504 [4:33:18<22:20:19,  1.13s/it] 10%|▉         | 7492/78504 [4:33:19<20:18:06,  1.03s/it]                                                         {'loss': 0.2644, 'grad_norm': 1.2384216785430908, 'learning_rate': 2.861291555215896e-05, 'epoch': 2.29}
 10%|▉         | 7492/78504 [4:33:19<20:18:06,  1.03s/it] 10%|▉         | 7493/78504 [4:33:27<64:06:07,  3.25s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.4335736632347107, 'learning_rate': 2.861673672143676e-05, 'epoch': 2.29}
 10%|▉         | 7493/78504 [4:33:27<64:06:07,  3.25s/it] 10%|▉         | 7494/78504 [4:33:30<63:28:06,  3.22s/it]                                                         {'loss': 0.0903, 'grad_norm': 0.3741190731525421, 'learning_rate': 2.862055789071456e-05, 'epoch': 2.29}
 10%|▉         | 7494/78504 [4:33:30<63:28:06,  3.22s/it] 10%|▉         | 7495/78504 [4:33:33<62:17:42,  3.16s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.43373048305511475, 'learning_rate': 2.8624379059992358e-05, 'epoch': 2.29}
 10%|▉         | 7495/78504 [4:33:33<62:17:42,  3.16s/it] 10%|▉         | 7496/78504 [4:33:36<58:51:56,  2.98s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.4016561210155487, 'learning_rate': 2.8628200229270157e-05, 'epoch': 2.29}
 10%|▉         | 7496/78504 [4:33:36<58:51:56,  2.98s/it] 10%|▉         | 7497/78504 [4:33:38<55:59:09,  2.84s/it]                                                         {'loss': 0.0594, 'grad_norm': 0.20446951687335968, 'learning_rate': 2.8632021398547955e-05, 'epoch': 2.29}
 10%|▉         | 7497/78504 [4:33:38<55:59:09,  2.84s/it] 10%|▉         | 7498/78504 [4:33:41<53:42:52,  2.72s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.33842378854751587, 'learning_rate': 2.8635842567825754e-05, 'epoch': 2.29}
 10%|▉         | 7498/78504 [4:33:41<53:42:52,  2.72s/it] 10%|▉         | 7499/78504 [4:33:43<51:21:20,  2.60s/it]                                                         {'loss': 0.0588, 'grad_norm': 0.3602825105190277, 'learning_rate': 2.8639663737103553e-05, 'epoch': 2.29}
 10%|▉         | 7499/78504 [4:33:43<51:21:20,  2.60s/it] 10%|▉         | 7500/78504 [4:33:45<49:36:26,  2.52s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.3505137264728546, 'learning_rate': 2.864348490638135e-05, 'epoch': 2.29}
 10%|▉         | 7500/78504 [4:33:45<49:36:26,  2.52s/it] 10%|▉         | 7501/78504 [4:33:48<47:42:22,  2.42s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.3203282654285431, 'learning_rate': 2.864730607565915e-05, 'epoch': 2.29}
 10%|▉         | 7501/78504 [4:33:48<47:42:22,  2.42s/it] 10%|▉         | 7502/78504 [4:33:50<46:13:07,  2.34s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.3169296085834503, 'learning_rate': 2.865112724493695e-05, 'epoch': 2.29}
 10%|▉         | 7502/78504 [4:33:50<46:13:07,  2.34s/it] 10%|▉         | 7503/78504 [4:33:52<43:21:28,  2.20s/it]                                                         {'loss': 0.1046, 'grad_norm': 0.5143694877624512, 'learning_rate': 2.8654948414214748e-05, 'epoch': 2.29}
 10%|▉         | 7503/78504 [4:33:52<43:21:28,  2.20s/it] 10%|▉         | 7504/78504 [4:33:54<42:04:30,  2.13s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.31111663579940796, 'learning_rate': 2.8658769583492547e-05, 'epoch': 2.29}
 10%|▉         | 7504/78504 [4:33:54<42:04:30,  2.13s/it] 10%|▉         | 7505/78504 [4:33:55<40:51:29,  2.07s/it]                                                         {'loss': 0.1438, 'grad_norm': 0.415971040725708, 'learning_rate': 2.8662590752770345e-05, 'epoch': 2.29}
 10%|▉         | 7505/78504 [4:33:55<40:51:29,  2.07s/it] 10%|▉         | 7506/78504 [4:33:57<39:40:35,  2.01s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.3807222843170166, 'learning_rate': 2.8666411922048147e-05, 'epoch': 2.29}
 10%|▉         | 7506/78504 [4:33:57<39:40:35,  2.01s/it] 10%|▉         | 7507/78504 [4:33:59<38:12:26,  1.94s/it]                                                         {'loss': 0.1414, 'grad_norm': 0.6740612983703613, 'learning_rate': 2.867023309132595e-05, 'epoch': 2.3}
 10%|▉         | 7507/78504 [4:33:59<38:12:26,  1.94s/it] 10%|▉         | 7508/78504 [4:34:01<36:05:40,  1.83s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.608700692653656, 'learning_rate': 2.8674054260603748e-05, 'epoch': 2.3}
 10%|▉         | 7508/78504 [4:34:01<36:05:40,  1.83s/it] 10%|▉         | 7509/78504 [4:34:02<34:23:44,  1.74s/it]                                                         {'loss': 0.2106, 'grad_norm': 1.6839219331741333, 'learning_rate': 2.8677875429881547e-05, 'epoch': 2.3}
 10%|▉         | 7509/78504 [4:34:02<34:23:44,  1.74s/it] 10%|▉         | 7510/78504 [4:34:04<33:02:56,  1.68s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.7479556202888489, 'learning_rate': 2.8681696599159346e-05, 'epoch': 2.3}
 10%|▉         | 7510/78504 [4:34:04<33:02:56,  1.68s/it] 10%|▉         | 7511/78504 [4:34:05<31:29:39,  1.60s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.5974370837211609, 'learning_rate': 2.8685517768437145e-05, 'epoch': 2.3}
 10%|▉         | 7511/78504 [4:34:05<31:29:39,  1.60s/it] 10%|▉         | 7512/78504 [4:34:06<29:42:13,  1.51s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.8048266768455505, 'learning_rate': 2.8689338937714943e-05, 'epoch': 2.3}
 10%|▉         | 7512/78504 [4:34:06<29:42:13,  1.51s/it] 10%|▉         | 7513/78504 [4:34:08<27:56:26,  1.42s/it]                                                         {'loss': 0.2076, 'grad_norm': 0.6918771862983704, 'learning_rate': 2.8693160106992742e-05, 'epoch': 2.3}
 10%|▉         | 7513/78504 [4:34:08<27:56:26,  1.42s/it] 10%|▉         | 7514/78504 [4:34:09<25:59:13,  1.32s/it]                                                         {'loss': 0.1891, 'grad_norm': 1.0532617568969727, 'learning_rate': 2.869698127627054e-05, 'epoch': 2.3}
 10%|▉         | 7514/78504 [4:34:09<25:59:13,  1.32s/it] 10%|▉         | 7515/78504 [4:34:10<24:21:21,  1.24s/it]                                                         {'loss': 0.2314, 'grad_norm': 0.8386517763137817, 'learning_rate': 2.870080244554834e-05, 'epoch': 2.3}
 10%|▉         | 7515/78504 [4:34:10<24:21:21,  1.24s/it] 10%|▉         | 7516/78504 [4:34:11<22:32:51,  1.14s/it]                                                         {'loss': 0.2179, 'grad_norm': 1.1486172676086426, 'learning_rate': 2.8704623614826138e-05, 'epoch': 2.3}
 10%|▉         | 7516/78504 [4:34:11<22:32:51,  1.14s/it] 10%|▉         | 7517/78504 [4:34:11<20:33:06,  1.04s/it]                                                         {'loss': 0.2875, 'grad_norm': 1.40446937084198, 'learning_rate': 2.8708444784103937e-05, 'epoch': 2.3}
 10%|▉         | 7517/78504 [4:34:12<20:33:06,  1.04s/it] 10%|▉         | 7518/78504 [4:34:21<68:57:59,  3.50s/it]                                                         {'loss': 0.1948, 'grad_norm': 0.4683662950992584, 'learning_rate': 2.8712265953381736e-05, 'epoch': 2.3}
 10%|▉         | 7518/78504 [4:34:21<68:57:59,  3.50s/it] 10%|▉         | 7519/78504 [4:34:24<65:29:33,  3.32s/it]                                                         {'loss': 0.1151, 'grad_norm': 0.6495504379272461, 'learning_rate': 2.8716087122659534e-05, 'epoch': 2.3}
 10%|▉         | 7519/78504 [4:34:24<65:29:33,  3.32s/it] 10%|▉         | 7520/78504 [4:34:27<63:17:30,  3.21s/it]                                                         {'loss': 0.0561, 'grad_norm': 0.3304412364959717, 'learning_rate': 2.8719908291937333e-05, 'epoch': 2.3}
 10%|▉         | 7520/78504 [4:34:27<63:17:30,  3.21s/it] 10%|▉         | 7521/78504 [4:34:29<60:01:01,  3.04s/it]                                                         {'loss': 0.0769, 'grad_norm': 0.3002147674560547, 'learning_rate': 2.8723729461215132e-05, 'epoch': 2.3}
 10%|▉         | 7521/78504 [4:34:29<60:01:01,  3.04s/it] 10%|▉         | 7522/78504 [4:34:32<56:44:29,  2.88s/it]                                                         {'loss': 0.0485, 'grad_norm': 0.3756667375564575, 'learning_rate': 2.8727550630492934e-05, 'epoch': 2.3}
 10%|▉         | 7522/78504 [4:34:32<56:44:29,  2.88s/it] 10%|▉         | 7523/78504 [4:34:34<54:12:58,  2.75s/it]                                                         {'loss': 0.1089, 'grad_norm': 0.9102890491485596, 'learning_rate': 2.8731371799770733e-05, 'epoch': 2.3}
 10%|▉         | 7523/78504 [4:34:34<54:12:58,  2.75s/it] 10%|▉         | 7524/78504 [4:34:37<51:40:49,  2.62s/it]                                                         {'loss': 0.0597, 'grad_norm': 0.30093035101890564, 'learning_rate': 2.873519296904853e-05, 'epoch': 2.3}
 10%|▉         | 7524/78504 [4:34:37<51:40:49,  2.62s/it] 10%|▉         | 7525/78504 [4:34:39<48:38:59,  2.47s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.35749807953834534, 'learning_rate': 2.873901413832633e-05, 'epoch': 2.3}
 10%|▉         | 7525/78504 [4:34:39<48:38:59,  2.47s/it] 10%|▉         | 7526/78504 [4:34:41<47:01:32,  2.39s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.3462176024913788, 'learning_rate': 2.874283530760413e-05, 'epoch': 2.3}
 10%|▉         | 7526/78504 [4:34:41<47:01:32,  2.39s/it] 10%|▉         | 7527/78504 [4:34:43<45:33:48,  2.31s/it]                                                         {'loss': 0.0918, 'grad_norm': 1.06118905544281, 'learning_rate': 2.8746656476881928e-05, 'epoch': 2.3}
 10%|▉         | 7527/78504 [4:34:43<45:33:48,  2.31s/it] 10%|▉         | 7528/78504 [4:34:45<43:54:23,  2.23s/it]                                                         {'loss': 0.1123, 'grad_norm': 1.3516439199447632, 'learning_rate': 2.8750477646159727e-05, 'epoch': 2.3}
 10%|▉         | 7528/78504 [4:34:45<43:54:23,  2.23s/it] 10%|▉         | 7529/78504 [4:34:47<42:25:38,  2.15s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.24292103946208954, 'learning_rate': 2.8754298815437525e-05, 'epoch': 2.3}
 10%|▉         | 7529/78504 [4:34:47<42:25:38,  2.15s/it] 10%|▉         | 7530/78504 [4:34:49<41:04:34,  2.08s/it]                                                         {'loss': 0.1184, 'grad_norm': 0.32467472553253174, 'learning_rate': 2.8758119984715324e-05, 'epoch': 2.3}
 10%|▉         | 7530/78504 [4:34:49<41:04:34,  2.08s/it] 10%|▉         | 7531/78504 [4:34:51<39:49:30,  2.02s/it]                                                         {'loss': 0.132, 'grad_norm': 0.5084934234619141, 'learning_rate': 2.8761941153993123e-05, 'epoch': 2.3}
 10%|▉         | 7531/78504 [4:34:51<39:49:30,  2.02s/it] 10%|▉         | 7532/78504 [4:34:53<38:19:56,  1.94s/it]                                                         {'loss': 0.1624, 'grad_norm': 1.9089670181274414, 'learning_rate': 2.876576232327092e-05, 'epoch': 2.3}
 10%|▉         | 7532/78504 [4:34:53<38:19:56,  1.94s/it] 10%|▉         | 7533/78504 [4:34:54<36:08:26,  1.83s/it]                                                         {'loss': 0.1656, 'grad_norm': 0.7061022520065308, 'learning_rate': 2.876958349254872e-05, 'epoch': 2.3}
 10%|▉         | 7533/78504 [4:34:54<36:08:26,  1.83s/it] 10%|▉         | 7534/78504 [4:34:56<34:25:10,  1.75s/it]                                                         {'loss': 0.1629, 'grad_norm': 0.9862715601921082, 'learning_rate': 2.877340466182652e-05, 'epoch': 2.3}
 10%|▉         | 7534/78504 [4:34:56<34:25:10,  1.75s/it] 10%|▉         | 7535/78504 [4:34:57<32:47:07,  1.66s/it]                                                         {'loss': 0.19, 'grad_norm': 0.6939222812652588, 'learning_rate': 2.8777225831104318e-05, 'epoch': 2.3}
 10%|▉         | 7535/78504 [4:34:57<32:47:07,  1.66s/it] 10%|▉         | 7536/78504 [4:34:59<31:19:25,  1.59s/it]                                                         {'loss': 0.1891, 'grad_norm': 0.7063977122306824, 'learning_rate': 2.8781047000382117e-05, 'epoch': 2.3}
 10%|▉         | 7536/78504 [4:34:59<31:19:25,  1.59s/it] 10%|▉         | 7537/78504 [4:35:00<29:27:47,  1.49s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.7416645288467407, 'learning_rate': 2.878486816965992e-05, 'epoch': 2.3}
 10%|▉         | 7537/78504 [4:35:00<29:27:47,  1.49s/it] 10%|▉         | 7538/78504 [4:35:01<27:25:43,  1.39s/it]                                                         {'loss': 0.2279, 'grad_norm': 0.741371214389801, 'learning_rate': 2.8788689338937717e-05, 'epoch': 2.3}
 10%|▉         | 7538/78504 [4:35:01<27:25:43,  1.39s/it] 10%|▉         | 7539/78504 [4:35:02<25:43:29,  1.31s/it]                                                         {'loss': 0.2058, 'grad_norm': 0.8118292689323425, 'learning_rate': 2.8792510508215516e-05, 'epoch': 2.3}
 10%|▉         | 7539/78504 [4:35:02<25:43:29,  1.31s/it] 10%|▉         | 7540/78504 [4:35:03<23:53:00,  1.21s/it]                                                         {'loss': 0.2088, 'grad_norm': 0.9217849969863892, 'learning_rate': 2.8796331677493315e-05, 'epoch': 2.31}
 10%|▉         | 7540/78504 [4:35:03<23:53:00,  1.21s/it] 10%|▉         | 7541/78504 [4:35:04<22:13:59,  1.13s/it]                                                         {'loss': 0.2928, 'grad_norm': 2.3600547313690186, 'learning_rate': 2.8800152846771114e-05, 'epoch': 2.31}
 10%|▉         | 7541/78504 [4:35:04<22:13:59,  1.13s/it] 10%|▉         | 7542/78504 [4:35:05<20:09:41,  1.02s/it]                                                         {'loss': 0.3184, 'grad_norm': 3.453552722930908, 'learning_rate': 2.8803974016048912e-05, 'epoch': 2.31}
 10%|▉         | 7542/78504 [4:35:05<20:09:41,  1.02s/it] 10%|▉         | 7543/78504 [4:35:14<68:41:15,  3.48s/it]                                                         {'loss': 0.15, 'grad_norm': 0.43162065744400024, 'learning_rate': 2.880779518532671e-05, 'epoch': 2.31}
 10%|▉         | 7543/78504 [4:35:14<68:41:15,  3.48s/it] 10%|▉         | 7544/78504 [4:35:17<67:56:36,  3.45s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.29982873797416687, 'learning_rate': 2.881161635460451e-05, 'epoch': 2.31}
 10%|▉         | 7544/78504 [4:35:17<67:56:36,  3.45s/it] 10%|▉         | 7545/78504 [4:35:20<64:50:52,  3.29s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.2559639811515808, 'learning_rate': 2.881543752388231e-05, 'epoch': 2.31}
 10%|▉         | 7545/78504 [4:35:20<64:50:52,  3.29s/it] 10%|▉         | 7546/78504 [4:35:23<60:38:46,  3.08s/it]                                                         {'loss': 0.071, 'grad_norm': 0.2346080243587494, 'learning_rate': 2.8819258693160107e-05, 'epoch': 2.31}
 10%|▉         | 7546/78504 [4:35:23<60:38:46,  3.08s/it] 10%|▉         | 7547/78504 [4:35:25<57:12:19,  2.90s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.48012247681617737, 'learning_rate': 2.8823079862437906e-05, 'epoch': 2.31}
 10%|▉         | 7547/78504 [4:35:25<57:12:19,  2.90s/it] 10%|▉         | 7548/78504 [4:35:28<54:24:08,  2.76s/it]                                                         {'loss': 0.053, 'grad_norm': 0.20457255840301514, 'learning_rate': 2.8826901031715705e-05, 'epoch': 2.31}
 10%|▉         | 7548/78504 [4:35:28<54:24:08,  2.76s/it] 10%|▉         | 7549/78504 [4:35:30<51:47:31,  2.63s/it]                                                         {'loss': 0.0946, 'grad_norm': 0.2660687267780304, 'learning_rate': 2.8830722200993504e-05, 'epoch': 2.31}
 10%|▉         | 7549/78504 [4:35:30<51:47:31,  2.63s/it] 10%|▉         | 7550/78504 [4:35:32<48:37:54,  2.47s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.44019076228141785, 'learning_rate': 2.8834543370271302e-05, 'epoch': 2.31}
 10%|▉         | 7550/78504 [4:35:32<48:37:54,  2.47s/it] 10%|▉         | 7551/78504 [4:35:34<46:58:08,  2.38s/it]                                                         {'loss': 0.0662, 'grad_norm': 0.49759408831596375, 'learning_rate': 2.88383645395491e-05, 'epoch': 2.31}
 10%|▉         | 7551/78504 [4:35:34<46:58:08,  2.38s/it] 10%|▉         | 7552/78504 [4:35:37<45:34:49,  2.31s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.31251224875450134, 'learning_rate': 2.88421857088269e-05, 'epoch': 2.31}
 10%|▉         | 7552/78504 [4:35:37<45:34:49,  2.31s/it] 10%|▉         | 7553/78504 [4:35:38<42:51:58,  2.17s/it]                                                         {'loss': 0.1169, 'grad_norm': 0.5106304883956909, 'learning_rate': 2.8846006878104702e-05, 'epoch': 2.31}
 10%|▉         | 7553/78504 [4:35:38<42:51:58,  2.17s/it] 10%|▉         | 7554/78504 [4:35:40<41:44:37,  2.12s/it]                                                         {'loss': 0.0803, 'grad_norm': 0.3610357344150543, 'learning_rate': 2.88498280473825e-05, 'epoch': 2.31}
 10%|▉         | 7554/78504 [4:35:40<41:44:37,  2.12s/it] 10%|▉         | 7555/78504 [4:35:42<40:23:34,  2.05s/it]                                                         {'loss': 0.1275, 'grad_norm': 0.33001258969306946, 'learning_rate': 2.88536492166603e-05, 'epoch': 2.31}
 10%|▉         | 7555/78504 [4:35:42<40:23:34,  2.05s/it] 10%|▉         | 7556/78504 [4:35:44<39:17:59,  1.99s/it]                                                         {'loss': 0.126, 'grad_norm': 0.4176312983036041, 'learning_rate': 2.8857470385938098e-05, 'epoch': 2.31}
 10%|▉         | 7556/78504 [4:35:44<39:17:59,  1.99s/it] 10%|▉         | 7557/78504 [4:35:46<37:56:46,  1.93s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.43016451597213745, 'learning_rate': 2.8861291555215897e-05, 'epoch': 2.31}
 10%|▉         | 7557/78504 [4:35:46<37:56:46,  1.93s/it] 10%|▉         | 7558/78504 [4:35:47<35:53:59,  1.82s/it]                                                         {'loss': 0.165, 'grad_norm': 0.4722355306148529, 'learning_rate': 2.8865112724493696e-05, 'epoch': 2.31}
 10%|▉         | 7558/78504 [4:35:47<35:53:59,  1.82s/it] 10%|▉         | 7559/78504 [4:35:49<34:13:42,  1.74s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.6107311844825745, 'learning_rate': 2.8868933893771494e-05, 'epoch': 2.31}
 10%|▉         | 7559/78504 [4:35:49<34:13:42,  1.74s/it] 10%|▉         | 7560/78504 [4:35:50<32:36:36,  1.65s/it]                                                         {'loss': 0.1935, 'grad_norm': 0.602062463760376, 'learning_rate': 2.8872755063049293e-05, 'epoch': 2.31}
 10%|▉         | 7560/78504 [4:35:50<32:36:36,  1.65s/it] 10%|▉         | 7561/78504 [4:35:52<31:14:28,  1.59s/it]                                                         {'loss': 0.2338, 'grad_norm': 0.9276050925254822, 'learning_rate': 2.8876576232327092e-05, 'epoch': 2.31}
 10%|▉         | 7561/78504 [4:35:52<31:14:28,  1.59s/it] 10%|▉         | 7562/78504 [4:35:53<29:25:53,  1.49s/it]                                                         {'loss': 0.2147, 'grad_norm': 0.8573559522628784, 'learning_rate': 2.888039740160489e-05, 'epoch': 2.31}
 10%|▉         | 7562/78504 [4:35:53<29:25:53,  1.49s/it] 10%|▉         | 7563/78504 [4:35:54<27:22:09,  1.39s/it]                                                         {'loss': 0.2194, 'grad_norm': 0.5816456079483032, 'learning_rate': 2.888421857088269e-05, 'epoch': 2.31}
 10%|▉         | 7563/78504 [4:35:54<27:22:09,  1.39s/it] 10%|▉         | 7564/78504 [4:35:55<25:37:23,  1.30s/it]                                                         {'loss': 0.2183, 'grad_norm': 0.9281688928604126, 'learning_rate': 2.8888039740160488e-05, 'epoch': 2.31}
 10%|▉         | 7564/78504 [4:35:55<25:37:23,  1.30s/it] 10%|▉         | 7565/78504 [4:35:56<23:47:51,  1.21s/it]                                                         {'loss': 0.2421, 'grad_norm': 0.7616890072822571, 'learning_rate': 2.8891860909438287e-05, 'epoch': 2.31}
 10%|▉         | 7565/78504 [4:35:56<23:47:51,  1.21s/it] 10%|▉         | 7566/78504 [4:35:57<22:12:55,  1.13s/it]                                                         {'loss': 0.2631, 'grad_norm': 1.1041845083236694, 'learning_rate': 2.8895682078716086e-05, 'epoch': 2.31}
 10%|▉         | 7566/78504 [4:35:57<22:12:55,  1.13s/it] 10%|▉         | 7567/78504 [4:35:58<20:11:11,  1.02s/it]                                                         {'loss': 0.3061, 'grad_norm': 1.31110680103302, 'learning_rate': 2.8899503247993884e-05, 'epoch': 2.31}
 10%|▉         | 7567/78504 [4:35:58<20:11:11,  1.02s/it] 10%|▉         | 7568/78504 [4:36:06<61:36:57,  3.13s/it]                                                         {'loss': 0.1524, 'grad_norm': 0.3263636827468872, 'learning_rate': 2.8903324417271687e-05, 'epoch': 2.31}
 10%|▉         | 7568/78504 [4:36:06<61:36:57,  3.13s/it] 10%|▉         | 7569/78504 [4:36:09<61:20:09,  3.11s/it]                                                         {'loss': 0.109, 'grad_norm': 0.35512107610702515, 'learning_rate': 2.8907145586549485e-05, 'epoch': 2.31}
 10%|▉         | 7569/78504 [4:36:09<61:20:09,  3.11s/it] 10%|▉         | 7570/78504 [4:36:12<59:21:40,  3.01s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.2748121917247772, 'learning_rate': 2.8910966755827284e-05, 'epoch': 2.31}
 10%|▉         | 7570/78504 [4:36:12<59:21:40,  3.01s/it] 10%|▉         | 7571/78504 [4:36:15<57:02:58,  2.90s/it]                                                         {'loss': 0.0677, 'grad_norm': 0.33601704239845276, 'learning_rate': 2.8914787925105083e-05, 'epoch': 2.31}
 10%|▉         | 7571/78504 [4:36:15<57:02:58,  2.90s/it] 10%|▉         | 7572/78504 [4:36:17<53:53:12,  2.73s/it]                                                         {'loss': 0.0595, 'grad_norm': 0.30430862307548523, 'learning_rate': 2.891860909438288e-05, 'epoch': 2.31}
 10%|▉         | 7572/78504 [4:36:17<53:53:12,  2.73s/it] 10%|▉         | 7573/78504 [4:36:19<51:06:58,  2.59s/it]                                                         {'loss': 0.1152, 'grad_norm': 0.5909938216209412, 'learning_rate': 2.892243026366068e-05, 'epoch': 2.32}
 10%|▉         | 7573/78504 [4:36:19<51:06:58,  2.59s/it] 10%|▉         | 7574/78504 [4:36:22<49:31:59,  2.51s/it]                                                         {'loss': 0.0668, 'grad_norm': 0.2715126574039459, 'learning_rate': 2.892625143293848e-05, 'epoch': 2.32}
 10%|▉         | 7574/78504 [4:36:22<49:31:59,  2.51s/it] 10%|▉         | 7575/78504 [4:36:24<47:03:56,  2.39s/it]                                                         {'loss': 0.0672, 'grad_norm': 0.3075518012046814, 'learning_rate': 2.8930072602216278e-05, 'epoch': 2.32}
 10%|▉         | 7575/78504 [4:36:24<47:03:56,  2.39s/it] 10%|▉         | 7576/78504 [4:36:26<45:52:16,  2.33s/it]                                                         {'loss': 0.07, 'grad_norm': 0.3838854134082794, 'learning_rate': 2.8933893771494076e-05, 'epoch': 2.32}
 10%|▉         | 7576/78504 [4:36:26<45:52:16,  2.33s/it] 10%|▉         | 7577/78504 [4:36:28<44:45:32,  2.27s/it]                                                         {'loss': 0.08, 'grad_norm': 0.28490495681762695, 'learning_rate': 2.8937714940771875e-05, 'epoch': 2.32}
 10%|▉         | 7577/78504 [4:36:28<44:45:32,  2.27s/it] 10%|▉         | 7578/78504 [4:36:30<43:19:44,  2.20s/it]                                                         {'loss': 0.1228, 'grad_norm': 0.4596186578273773, 'learning_rate': 2.8941536110049674e-05, 'epoch': 2.32}
 10%|▉         | 7578/78504 [4:36:30<43:19:44,  2.20s/it] 10%|▉         | 7579/78504 [4:36:32<42:00:58,  2.13s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.335965096950531, 'learning_rate': 2.8945357279327473e-05, 'epoch': 2.32}
 10%|▉         | 7579/78504 [4:36:32<42:00:58,  2.13s/it] 10%|▉         | 7580/78504 [4:36:34<40:33:11,  2.06s/it]                                                         {'loss': 0.1009, 'grad_norm': 0.530803918838501, 'learning_rate': 2.894917844860527e-05, 'epoch': 2.32}
 10%|▉         | 7580/78504 [4:36:34<40:33:11,  2.06s/it] 10%|▉         | 7581/78504 [4:36:36<39:29:00,  2.00s/it]                                                         {'loss': 0.1276, 'grad_norm': 0.36344432830810547, 'learning_rate': 2.895299961788307e-05, 'epoch': 2.32}
 10%|▉         | 7581/78504 [4:36:36<39:29:00,  2.00s/it] 10%|▉         | 7582/78504 [4:36:38<38:03:39,  1.93s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.665578305721283, 'learning_rate': 2.895682078716087e-05, 'epoch': 2.32}
 10%|▉         | 7582/78504 [4:36:38<38:03:39,  1.93s/it] 10%|▉         | 7583/78504 [4:36:39<35:57:25,  1.83s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.7144237756729126, 'learning_rate': 2.896064195643867e-05, 'epoch': 2.32}
 10%|▉         | 7583/78504 [4:36:39<35:57:25,  1.83s/it] 10%|▉         | 7584/78504 [4:36:41<34:16:10,  1.74s/it]                                                         {'loss': 0.1894, 'grad_norm': 0.44742846488952637, 'learning_rate': 2.8964463125716473e-05, 'epoch': 2.32}
 10%|▉         | 7584/78504 [4:36:41<34:16:10,  1.74s/it] 10%|▉         | 7585/78504 [4:36:42<32:41:05,  1.66s/it]                                                         {'loss': 0.1851, 'grad_norm': 0.9239465594291687, 'learning_rate': 2.8968284294994272e-05, 'epoch': 2.32}
 10%|▉         | 7585/78504 [4:36:42<32:41:05,  1.66s/it] 10%|▉         | 7586/78504 [4:36:44<31:17:06,  1.59s/it]                                                         {'loss': 0.2068, 'grad_norm': 0.55808025598526, 'learning_rate': 2.897210546427207e-05, 'epoch': 2.32}
 10%|▉         | 7586/78504 [4:36:44<31:17:06,  1.59s/it] 10%|▉         | 7587/78504 [4:36:45<29:30:12,  1.50s/it]                                                         {'loss': 0.2066, 'grad_norm': 1.659022569656372, 'learning_rate': 2.897592663354987e-05, 'epoch': 2.32}
 10%|▉         | 7587/78504 [4:36:45<29:30:12,  1.50s/it] 10%|▉         | 7588/78504 [4:36:46<27:26:42,  1.39s/it]                                                         {'loss': 0.2311, 'grad_norm': 1.297344446182251, 'learning_rate': 2.8979747802827668e-05, 'epoch': 2.32}
 10%|▉         | 7588/78504 [4:36:46<27:26:42,  1.39s/it] 10%|▉         | 7589/78504 [4:36:47<25:41:44,  1.30s/it]                                                         {'loss': 0.2136, 'grad_norm': 1.164866328239441, 'learning_rate': 2.8983568972105467e-05, 'epoch': 2.32}
 10%|▉         | 7589/78504 [4:36:47<25:41:44,  1.30s/it] 10%|▉         | 7590/78504 [4:36:48<24:14:28,  1.23s/it]                                                         {'loss': 0.2612, 'grad_norm': 1.3622578382492065, 'learning_rate': 2.8987390141383266e-05, 'epoch': 2.32}
 10%|▉         | 7590/78504 [4:36:48<24:14:28,  1.23s/it] 10%|▉         | 7591/78504 [4:36:49<22:24:58,  1.14s/it]                                                         {'loss': 0.2726, 'grad_norm': 1.0978846549987793, 'learning_rate': 2.8991211310661064e-05, 'epoch': 2.32}
 10%|▉         | 7591/78504 [4:36:49<22:24:58,  1.14s/it] 10%|▉         | 7592/78504 [4:36:50<20:14:42,  1.03s/it]                                                         {'loss': 0.2685, 'grad_norm': 1.1262507438659668, 'learning_rate': 2.8995032479938863e-05, 'epoch': 2.32}
 10%|▉         | 7592/78504 [4:36:50<20:14:42,  1.03s/it] 10%|▉         | 7593/78504 [4:36:58<63:59:27,  3.25s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.44354450702667236, 'learning_rate': 2.8998853649216662e-05, 'epoch': 2.32}
 10%|▉         | 7593/78504 [4:36:58<63:59:27,  3.25s/it] 10%|▉         | 7594/78504 [4:37:02<64:38:25,  3.28s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.3856768310070038, 'learning_rate': 2.900267481849446e-05, 'epoch': 2.32}
 10%|▉         | 7594/78504 [4:37:02<64:38:25,  3.28s/it] 10%|▉         | 7595/78504 [4:37:04<61:42:04,  3.13s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.3897543251514435, 'learning_rate': 2.900649598777226e-05, 'epoch': 2.32}
 10%|▉         | 7595/78504 [4:37:04<61:42:04,  3.13s/it] 10%|▉         | 7596/78504 [4:37:07<58:38:03,  2.98s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.2754332721233368, 'learning_rate': 2.9010317157050058e-05, 'epoch': 2.32}
 10%|▉         | 7596/78504 [4:37:07<58:38:03,  2.98s/it] 10%|▉         | 7597/78504 [4:37:09<55:39:27,  2.83s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.35950592160224915, 'learning_rate': 2.9014138326327857e-05, 'epoch': 2.32}
 10%|▉         | 7597/78504 [4:37:10<55:39:27,  2.83s/it] 10%|▉         | 7598/78504 [4:37:12<52:22:30,  2.66s/it]                                                         {'loss': 0.0572, 'grad_norm': 0.3064972162246704, 'learning_rate': 2.9017959495605656e-05, 'epoch': 2.32}
 10%|▉         | 7598/78504 [4:37:12<52:22:30,  2.66s/it] 10%|▉         | 7599/78504 [4:37:14<50:21:34,  2.56s/it]                                                         {'loss': 0.0601, 'grad_norm': 0.307540625333786, 'learning_rate': 2.9021780664883454e-05, 'epoch': 2.32}
 10%|▉         | 7599/78504 [4:37:14<50:21:34,  2.56s/it] 10%|▉         | 7600/78504 [4:37:16<48:52:39,  2.48s/it]                                                         {'loss': 0.0785, 'grad_norm': 0.3557620942592621, 'learning_rate': 2.9025601834161257e-05, 'epoch': 2.32}
 10%|▉         | 7600/78504 [4:37:16<48:52:39,  2.48s/it] 10%|▉         | 7601/78504 [4:37:19<47:05:43,  2.39s/it]                                                         {'loss': 0.1329, 'grad_norm': 0.7676001191139221, 'learning_rate': 2.9029423003439055e-05, 'epoch': 2.32}
 10%|▉         | 7601/78504 [4:37:19<47:05:43,  2.39s/it] 10%|▉         | 7602/78504 [4:37:21<45:38:35,  2.32s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.29560819268226624, 'learning_rate': 2.9033244172716854e-05, 'epoch': 2.32}
 10%|▉         | 7602/78504 [4:37:21<45:38:35,  2.32s/it] 10%|▉         | 7603/78504 [4:37:23<42:56:09,  2.18s/it]                                                         {'loss': 0.1059, 'grad_norm': 2.508864164352417, 'learning_rate': 2.9037065341994653e-05, 'epoch': 2.32}
 10%|▉         | 7603/78504 [4:37:23<42:56:09,  2.18s/it] 10%|▉         | 7604/78504 [4:37:25<41:48:19,  2.12s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.45418208837509155, 'learning_rate': 2.904088651127245e-05, 'epoch': 2.32}
 10%|▉         | 7604/78504 [4:37:25<41:48:19,  2.12s/it] 10%|▉         | 7605/78504 [4:37:26<40:25:31,  2.05s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.40900641679763794, 'learning_rate': 2.904470768055025e-05, 'epoch': 2.32}
 10%|▉         | 7605/78504 [4:37:26<40:25:31,  2.05s/it] 10%|▉         | 7606/78504 [4:37:28<39:26:41,  2.00s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.5292288661003113, 'learning_rate': 2.904852884982805e-05, 'epoch': 2.33}
 10%|▉         | 7606/78504 [4:37:28<39:26:41,  2.00s/it] 10%|▉         | 7607/78504 [4:37:30<38:02:13,  1.93s/it]                                                         {'loss': 0.1311, 'grad_norm': 0.5699718594551086, 'learning_rate': 2.9052350019105848e-05, 'epoch': 2.33}
 10%|▉         | 7607/78504 [4:37:30<38:02:13,  1.93s/it] 10%|▉         | 7608/78504 [4:37:32<35:59:04,  1.83s/it]                                                         {'loss': 0.1951, 'grad_norm': 1.9440544843673706, 'learning_rate': 2.9056171188383646e-05, 'epoch': 2.33}
 10%|▉         | 7608/78504 [4:37:32<35:59:04,  1.83s/it] 10%|▉         | 7609/78504 [4:37:33<34:18:13,  1.74s/it]                                                         {'loss': 0.2177, 'grad_norm': 1.041907548904419, 'learning_rate': 2.9059992357661445e-05, 'epoch': 2.33}
 10%|▉         | 7609/78504 [4:37:33<34:18:13,  1.74s/it] 10%|▉         | 7610/78504 [4:37:35<32:54:46,  1.67s/it]                                                         {'loss': 0.2114, 'grad_norm': 0.669350266456604, 'learning_rate': 2.9063813526939244e-05, 'epoch': 2.33}
 10%|▉         | 7610/78504 [4:37:35<32:54:46,  1.67s/it] 10%|▉         | 7611/78504 [4:37:36<31:15:45,  1.59s/it]                                                         {'loss': 0.2035, 'grad_norm': 1.3728891611099243, 'learning_rate': 2.9067634696217043e-05, 'epoch': 2.33}
 10%|▉         | 7611/78504 [4:37:36<31:15:45,  1.59s/it] 10%|▉         | 7612/78504 [4:37:37<29:29:24,  1.50s/it]                                                         {'loss': 0.1896, 'grad_norm': 1.1725305318832397, 'learning_rate': 2.907145586549484e-05, 'epoch': 2.33}
 10%|▉         | 7612/78504 [4:37:37<29:29:24,  1.50s/it] 10%|▉         | 7613/78504 [4:37:39<27:27:03,  1.39s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.9091787338256836, 'learning_rate': 2.907527703477264e-05, 'epoch': 2.33}
 10%|▉         | 7613/78504 [4:37:39<27:27:03,  1.39s/it] 10%|▉         | 7614/78504 [4:37:40<25:38:46,  1.30s/it]                                                         {'loss': 0.2436, 'grad_norm': 1.211126685142517, 'learning_rate': 2.907909820405044e-05, 'epoch': 2.33}
 10%|▉         | 7614/78504 [4:37:40<25:38:46,  1.30s/it] 10%|▉         | 7615/78504 [4:37:41<23:51:55,  1.21s/it]                                                         {'loss': 0.1975, 'grad_norm': 1.1527800559997559, 'learning_rate': 2.908291937332824e-05, 'epoch': 2.33}
 10%|▉         | 7615/78504 [4:37:41<23:51:55,  1.21s/it] 10%|▉         | 7616/78504 [4:37:42<22:13:50,  1.13s/it]                                                         {'loss': 0.2382, 'grad_norm': 2.19952392578125, 'learning_rate': 2.908674054260604e-05, 'epoch': 2.33}
 10%|▉         | 7616/78504 [4:37:42<22:13:50,  1.13s/it] 10%|▉         | 7617/78504 [4:37:42<20:08:35,  1.02s/it]                                                         {'loss': 0.2841, 'grad_norm': nan, 'learning_rate': 2.908674054260604e-05, 'epoch': 2.33}
 10%|▉         | 7617/78504 [4:37:42<20:08:35,  1.02s/it] 10%|▉         | 7618/78504 [4:37:51<67:33:19,  3.43s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.7988470196723938, 'learning_rate': 2.909056171188384e-05, 'epoch': 2.33}
 10%|▉         | 7618/78504 [4:37:51<67:33:19,  3.43s/it] 10%|▉         | 7619/78504 [4:37:54<64:29:57,  3.28s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.548987865447998, 'learning_rate': 2.9094382881161637e-05, 'epoch': 2.33}
 10%|▉         | 7619/78504 [4:37:54<64:29:57,  3.28s/it] 10%|▉         | 7620/78504 [4:37:57<62:24:46,  3.17s/it]                                                         {'loss': 0.0526, 'grad_norm': 0.2923658490180969, 'learning_rate': 2.9098204050439436e-05, 'epoch': 2.33}
 10%|▉         | 7620/78504 [4:37:57<62:24:46,  3.17s/it] 10%|▉         | 7621/78504 [4:38:00<58:02:53,  2.95s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.30206209421157837, 'learning_rate': 2.9102025219717235e-05, 'epoch': 2.33}
 10%|▉         | 7621/78504 [4:38:00<58:02:53,  2.95s/it] 10%|▉         | 7622/78504 [4:38:02<55:12:47,  2.80s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.5604680776596069, 'learning_rate': 2.9105846388995034e-05, 'epoch': 2.33}
 10%|▉         | 7622/78504 [4:38:02<55:12:47,  2.80s/it] 10%|▉         | 7623/78504 [4:38:04<52:03:18,  2.64s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.38376012444496155, 'learning_rate': 2.9109667558272832e-05, 'epoch': 2.33}
 10%|▉         | 7623/78504 [4:38:04<52:03:18,  2.64s/it] 10%|▉         | 7624/78504 [4:38:07<50:02:10,  2.54s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.996726393699646, 'learning_rate': 2.911348872755063e-05, 'epoch': 2.33}
 10%|▉         | 7624/78504 [4:38:07<50:02:10,  2.54s/it] 10%|▉         | 7625/78504 [4:38:09<47:23:55,  2.41s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.330494225025177, 'learning_rate': 2.911730989682843e-05, 'epoch': 2.33}
 10%|▉         | 7625/78504 [4:38:09<47:23:55,  2.41s/it] 10%|▉         | 7626/78504 [4:38:11<45:13:52,  2.30s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.5935619473457336, 'learning_rate': 2.912113106610623e-05, 'epoch': 2.33}
 10%|▉         | 7626/78504 [4:38:11<45:13:52,  2.30s/it] 10%|▉         | 7627/78504 [4:38:13<44:15:26,  2.25s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.7546497583389282, 'learning_rate': 2.9124952235384027e-05, 'epoch': 2.33}
 10%|▉         | 7627/78504 [4:38:13<44:15:26,  2.25s/it] 10%|▉         | 7628/78504 [4:38:15<42:57:28,  2.18s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.6337897181510925, 'learning_rate': 2.9128773404661826e-05, 'epoch': 2.33}
 10%|▉         | 7628/78504 [4:38:15<42:57:28,  2.18s/it] 10%|▉         | 7629/78504 [4:38:17<41:45:29,  2.12s/it]                                                         {'loss': 0.084, 'grad_norm': 0.7573128938674927, 'learning_rate': 2.9132594573939625e-05, 'epoch': 2.33}
 10%|▉         | 7629/78504 [4:38:17<41:45:29,  2.12s/it] 10%|▉         | 7630/78504 [4:38:19<40:14:47,  2.04s/it]                                                         {'loss': 0.1085, 'grad_norm': 1.3545829057693481, 'learning_rate': 2.9136415743217423e-05, 'epoch': 2.33}
 10%|▉         | 7630/78504 [4:38:19<40:14:47,  2.04s/it] 10%|▉         | 7631/78504 [4:38:21<39:13:25,  1.99s/it]                                                         {'loss': 0.1768, 'grad_norm': 0.8736164569854736, 'learning_rate': 2.9140236912495226e-05, 'epoch': 2.33}
 10%|▉         | 7631/78504 [4:38:21<39:13:25,  1.99s/it] 10%|▉         | 7632/78504 [4:38:22<37:52:05,  1.92s/it]                                                         {'loss': 0.1397, 'grad_norm': 0.36486339569091797, 'learning_rate': 2.9144058081773024e-05, 'epoch': 2.33}
 10%|▉         | 7632/78504 [4:38:23<37:52:05,  1.92s/it] 10%|▉         | 7633/78504 [4:38:24<35:47:54,  1.82s/it]                                                         {'loss': 0.1264, 'grad_norm': 0.9396327137947083, 'learning_rate': 2.9147879251050823e-05, 'epoch': 2.33}
 10%|▉         | 7633/78504 [4:38:24<35:47:54,  1.82s/it] 10%|▉         | 7634/78504 [4:38:26<34:07:45,  1.73s/it]                                                         {'loss': 0.1611, 'grad_norm': 0.47829100489616394, 'learning_rate': 2.9151700420328622e-05, 'epoch': 2.33}
 10%|▉         | 7634/78504 [4:38:26<34:07:45,  1.73s/it] 10%|▉         | 7635/78504 [4:38:27<32:48:30,  1.67s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.5329495668411255, 'learning_rate': 2.915552158960642e-05, 'epoch': 2.33}
 10%|▉         | 7635/78504 [4:38:27<32:48:30,  1.67s/it] 10%|▉         | 7636/78504 [4:38:29<31:17:41,  1.59s/it]                                                         {'loss': 0.2187, 'grad_norm': 1.0021324157714844, 'learning_rate': 2.915934275888422e-05, 'epoch': 2.33}
 10%|▉         | 7636/78504 [4:38:29<31:17:41,  1.59s/it] 10%|▉         | 7637/78504 [4:38:30<29:28:53,  1.50s/it]                                                         {'loss': 0.235, 'grad_norm': 0.6222850680351257, 'learning_rate': 2.9163163928162018e-05, 'epoch': 2.33}
 10%|▉         | 7637/78504 [4:38:30<29:28:53,  1.50s/it] 10%|▉         | 7638/78504 [4:38:31<27:24:27,  1.39s/it]                                                         {'loss': 0.2594, 'grad_norm': 0.7986207008361816, 'learning_rate': 2.9166985097439817e-05, 'epoch': 2.34}
 10%|▉         | 7638/78504 [4:38:31<27:24:27,  1.39s/it] 10%|▉         | 7639/78504 [4:38:32<25:41:10,  1.30s/it]                                                         {'loss': 0.1827, 'grad_norm': 0.6901640892028809, 'learning_rate': 2.9170806266717616e-05, 'epoch': 2.34}
 10%|▉         | 7639/78504 [4:38:32<25:41:10,  1.30s/it] 10%|▉         | 7640/78504 [4:38:33<23:50:38,  1.21s/it]                                                         {'loss': 0.252, 'grad_norm': 1.1342500448226929, 'learning_rate': 2.9174627435995414e-05, 'epoch': 2.34}
 10%|▉         | 7640/78504 [4:38:33<23:50:38,  1.21s/it] 10%|▉         | 7641/78504 [4:38:34<22:09:47,  1.13s/it]                                                         {'loss': 0.2258, 'grad_norm': 0.759447455406189, 'learning_rate': 2.9178448605273213e-05, 'epoch': 2.34}
 10%|▉         | 7641/78504 [4:38:34<22:09:47,  1.13s/it] 10%|▉         | 7642/78504 [4:38:35<20:06:58,  1.02s/it]                                                         {'loss': 0.2891, 'grad_norm': 1.4814119338989258, 'learning_rate': 2.9182269774551012e-05, 'epoch': 2.34}
 10%|▉         | 7642/78504 [4:38:35<20:06:58,  1.02s/it] 10%|▉         | 7643/78504 [4:38:42<58:47:21,  2.99s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.43667858839035034, 'learning_rate': 2.918609094382881e-05, 'epoch': 2.34}
 10%|▉         | 7643/78504 [4:38:42<58:47:21,  2.99s/it] 10%|▉         | 7644/78504 [4:38:46<61:00:48,  3.10s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.2786879241466522, 'learning_rate': 2.918991211310661e-05, 'epoch': 2.34}
 10%|▉         | 7644/78504 [4:38:46<61:00:48,  3.10s/it] 10%|▉         | 7645/78504 [4:38:49<59:57:13,  3.05s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.3271520435810089, 'learning_rate': 2.9193733282384408e-05, 'epoch': 2.34}
 10%|▉         | 7645/78504 [4:38:49<59:57:13,  3.05s/it] 10%|▉         | 7646/78504 [4:38:51<57:11:54,  2.91s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.35701486468315125, 'learning_rate': 2.9197554451662207e-05, 'epoch': 2.34}
 10%|▉         | 7646/78504 [4:38:51<57:11:54,  2.91s/it] 10%|▉         | 7647/78504 [4:38:54<54:46:49,  2.78s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.4370735287666321, 'learning_rate': 2.920137562094001e-05, 'epoch': 2.34}
 10%|▉         | 7647/78504 [4:38:54<54:46:49,  2.78s/it] 10%|▉         | 7648/78504 [4:38:56<52:49:06,  2.68s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.33304786682128906, 'learning_rate': 2.9205196790217808e-05, 'epoch': 2.34}
 10%|▉         | 7648/78504 [4:38:56<52:49:06,  2.68s/it] 10%|▉         | 7649/78504 [4:38:58<50:52:32,  2.58s/it]                                                         {'loss': 0.058, 'grad_norm': 0.3668128252029419, 'learning_rate': 2.9209017959495606e-05, 'epoch': 2.34}
 10%|▉         | 7649/78504 [4:38:59<50:52:32,  2.58s/it] 10%|▉         | 7650/78504 [4:39:01<49:13:35,  2.50s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.6817300915718079, 'learning_rate': 2.9212839128773405e-05, 'epoch': 2.34}
 10%|▉         | 7650/78504 [4:39:01<49:13:35,  2.50s/it] 10%|▉         | 7651/78504 [4:39:03<47:20:11,  2.41s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.33846142888069153, 'learning_rate': 2.9216660298051204e-05, 'epoch': 2.34}
 10%|▉         | 7651/78504 [4:39:03<47:20:11,  2.41s/it] 10%|▉         | 7652/78504 [4:39:05<45:57:29,  2.34s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.460321307182312, 'learning_rate': 2.9220481467329003e-05, 'epoch': 2.34}
 10%|▉         | 7652/78504 [4:39:05<45:57:29,  2.34s/it] 10%|▉         | 7653/78504 [4:39:07<44:07:25,  2.24s/it]                                                         {'loss': 0.1172, 'grad_norm': 0.3290937840938568, 'learning_rate': 2.92243026366068e-05, 'epoch': 2.34}
 10%|▉         | 7653/78504 [4:39:07<44:07:25,  2.24s/it] 10%|▉         | 7654/78504 [4:39:09<42:33:16,  2.16s/it]                                                         {'loss': 0.0651, 'grad_norm': 0.41584959626197815, 'learning_rate': 2.92281238058846e-05, 'epoch': 2.34}
 10%|▉         | 7654/78504 [4:39:09<42:33:16,  2.16s/it] 10%|▉         | 7655/78504 [4:39:11<40:47:01,  2.07s/it]                                                         {'loss': 0.1246, 'grad_norm': 3.0645461082458496, 'learning_rate': 2.92319449751624e-05, 'epoch': 2.34}
 10%|▉         | 7655/78504 [4:39:11<40:47:01,  2.07s/it] 10%|▉         | 7656/78504 [4:39:13<39:24:47,  2.00s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.570110023021698, 'learning_rate': 2.9235766144440198e-05, 'epoch': 2.34}
 10%|▉         | 7656/78504 [4:39:13<39:24:47,  2.00s/it] 10%|▉         | 7657/78504 [4:39:15<37:22:23,  1.90s/it]                                                         {'loss': 0.1426, 'grad_norm': 0.650628924369812, 'learning_rate': 2.9239587313717996e-05, 'epoch': 2.34}
 10%|▉         | 7657/78504 [4:39:15<37:22:23,  1.90s/it] 10%|▉         | 7658/78504 [4:39:16<35:53:45,  1.82s/it]                                                         {'loss': 0.1281, 'grad_norm': 0.4802393913269043, 'learning_rate': 2.9243408482995795e-05, 'epoch': 2.34}
 10%|▉         | 7658/78504 [4:39:16<35:53:45,  1.82s/it] 10%|▉         | 7659/78504 [4:39:18<34:13:08,  1.74s/it]                                                         {'loss': 0.1826, 'grad_norm': 0.7199332118034363, 'learning_rate': 2.9247229652273594e-05, 'epoch': 2.34}
 10%|▉         | 7659/78504 [4:39:18<34:13:08,  1.74s/it] 10%|▉         | 7660/78504 [4:39:19<32:36:08,  1.66s/it]                                                         {'loss': 0.1852, 'grad_norm': 0.6097378730773926, 'learning_rate': 2.9251050821551393e-05, 'epoch': 2.34}
 10%|▉         | 7660/78504 [4:39:19<32:36:08,  1.66s/it] 10%|▉         | 7661/78504 [4:39:21<31:06:49,  1.58s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.9344286322593689, 'learning_rate': 2.925487199082919e-05, 'epoch': 2.34}
 10%|▉         | 7661/78504 [4:39:21<31:06:49,  1.58s/it] 10%|▉         | 7662/78504 [4:39:22<29:22:38,  1.49s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.6265787482261658, 'learning_rate': 2.9258693160106993e-05, 'epoch': 2.34}
 10%|▉         | 7662/78504 [4:39:22<29:22:38,  1.49s/it] 10%|▉         | 7663/78504 [4:39:23<27:40:42,  1.41s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.7288218140602112, 'learning_rate': 2.9262514329384796e-05, 'epoch': 2.34}
 10%|▉         | 7663/78504 [4:39:23<27:40:42,  1.41s/it] 10%|▉         | 7664/78504 [4:39:24<25:45:25,  1.31s/it]                                                         {'loss': 0.255, 'grad_norm': 1.1766618490219116, 'learning_rate': 2.9266335498662594e-05, 'epoch': 2.34}
 10%|▉         | 7664/78504 [4:39:24<25:45:25,  1.31s/it] 10%|▉         | 7665/78504 [4:39:25<24:12:55,  1.23s/it]                                                         {'loss': 0.2188, 'grad_norm': 1.0318334102630615, 'learning_rate': 2.9270156667940393e-05, 'epoch': 2.34}
 10%|▉         | 7665/78504 [4:39:25<24:12:55,  1.23s/it] 10%|▉         | 7666/78504 [4:39:26<22:31:05,  1.14s/it]                                                         {'loss': 0.2255, 'grad_norm': 1.2757728099822998, 'learning_rate': 2.9273977837218192e-05, 'epoch': 2.34}
 10%|▉         | 7666/78504 [4:39:26<22:31:05,  1.14s/it] 10%|▉         | 7667/78504 [4:39:27<20:26:45,  1.04s/it]                                                         {'loss': 0.3028, 'grad_norm': 1.2280958890914917, 'learning_rate': 2.927779900649599e-05, 'epoch': 2.34}
 10%|▉         | 7667/78504 [4:39:27<20:26:45,  1.04s/it] 10%|▉         | 7668/78504 [4:39:37<76:21:16,  3.88s/it]                                                         {'loss': 0.148, 'grad_norm': 0.569523274898529, 'learning_rate': 2.928162017577379e-05, 'epoch': 2.34}
 10%|▉         | 7668/78504 [4:39:37<76:21:16,  3.88s/it] 10%|▉         | 7669/78504 [4:39:41<73:16:56,  3.72s/it]                                                         {'loss': 0.099, 'grad_norm': 0.8800312280654907, 'learning_rate': 2.9285441345051588e-05, 'epoch': 2.34}
 10%|▉         | 7669/78504 [4:39:41<73:16:56,  3.72s/it] 10%|▉         | 7670/78504 [4:39:44<69:05:57,  3.51s/it]                                                         {'loss': 0.0544, 'grad_norm': 0.25210142135620117, 'learning_rate': 2.9289262514329387e-05, 'epoch': 2.34}
 10%|▉         | 7670/78504 [4:39:44<69:05:57,  3.51s/it] 10%|▉         | 7671/78504 [4:39:46<63:39:44,  3.24s/it]                                                         {'loss': 0.0676, 'grad_norm': 0.3553265631198883, 'learning_rate': 2.9293083683607186e-05, 'epoch': 2.35}
 10%|▉         | 7671/78504 [4:39:46<63:39:44,  3.24s/it] 10%|▉         | 7672/78504 [4:39:49<59:09:37,  3.01s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.4561507999897003, 'learning_rate': 2.9296904852884984e-05, 'epoch': 2.35}
 10%|▉         | 7672/78504 [4:39:49<59:09:37,  3.01s/it] 10%|▉         | 7673/78504 [4:39:51<54:48:54,  2.79s/it]                                                         {'loss': 0.0741, 'grad_norm': 0.4139935076236725, 'learning_rate': 2.9300726022162783e-05, 'epoch': 2.35}
 10%|▉         | 7673/78504 [4:39:51<54:48:54,  2.79s/it] 10%|▉         | 7674/78504 [4:39:53<52:01:40,  2.64s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.395748496055603, 'learning_rate': 2.9304547191440582e-05, 'epoch': 2.35}
 10%|▉         | 7674/78504 [4:39:53<52:01:40,  2.64s/it] 10%|▉         | 7675/78504 [4:39:56<48:48:35,  2.48s/it]                                                         {'loss': 0.0603, 'grad_norm': 0.298657089471817, 'learning_rate': 2.930836836071838e-05, 'epoch': 2.35}
 10%|▉         | 7675/78504 [4:39:56<48:48:35,  2.48s/it] 10%|▉         | 7676/78504 [4:39:58<47:02:30,  2.39s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.3687571883201599, 'learning_rate': 2.931218952999618e-05, 'epoch': 2.35}
 10%|▉         | 7676/78504 [4:39:58<47:02:30,  2.39s/it] 10%|▉         | 7677/78504 [4:40:00<45:36:32,  2.32s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.37362805008888245, 'learning_rate': 2.9316010699273978e-05, 'epoch': 2.35}
 10%|▉         | 7677/78504 [4:40:00<45:36:32,  2.32s/it] 10%|▉         | 7678/78504 [4:40:02<43:52:20,  2.23s/it]                                                         {'loss': 0.1191, 'grad_norm': 0.37502607703208923, 'learning_rate': 2.931983186855178e-05, 'epoch': 2.35}
 10%|▉         | 7678/78504 [4:40:02<43:52:20,  2.23s/it] 10%|▉         | 7679/78504 [4:40:04<42:24:24,  2.16s/it]                                                         {'loss': 0.087, 'grad_norm': 1.1296063661575317, 'learning_rate': 2.932365303782958e-05, 'epoch': 2.35}
 10%|▉         | 7679/78504 [4:40:04<42:24:24,  2.16s/it] 10%|▉         | 7680/78504 [4:40:06<40:50:50,  2.08s/it]                                                         {'loss': 0.1245, 'grad_norm': 0.4415367841720581, 'learning_rate': 2.9327474207107378e-05, 'epoch': 2.35}
 10%|▉         | 7680/78504 [4:40:06<40:50:50,  2.08s/it] 10%|▉         | 7681/78504 [4:40:08<39:35:32,  2.01s/it]                                                         {'loss': 0.1786, 'grad_norm': 0.8839843273162842, 'learning_rate': 2.9331295376385176e-05, 'epoch': 2.35}
 10%|▉         | 7681/78504 [4:40:08<39:35:32,  2.01s/it] 10%|▉         | 7682/78504 [4:40:09<37:51:05,  1.92s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.6249372363090515, 'learning_rate': 2.9335116545662975e-05, 'epoch': 2.35}
 10%|▉         | 7682/78504 [4:40:09<37:51:05,  1.92s/it] 10%|▉         | 7683/78504 [4:40:11<36:13:22,  1.84s/it]                                                         {'loss': 0.1375, 'grad_norm': 0.5088854432106018, 'learning_rate': 2.9338937714940774e-05, 'epoch': 2.35}
 10%|▉         | 7683/78504 [4:40:11<36:13:22,  1.84s/it] 10%|▉         | 7684/78504 [4:40:13<34:28:23,  1.75s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.655959963798523, 'learning_rate': 2.9342758884218573e-05, 'epoch': 2.35}
 10%|▉         | 7684/78504 [4:40:13<34:28:23,  1.75s/it] 10%|▉         | 7685/78504 [4:40:14<32:47:11,  1.67s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.8086658120155334, 'learning_rate': 2.934658005349637e-05, 'epoch': 2.35}
 10%|▉         | 7685/78504 [4:40:14<32:47:11,  1.67s/it] 10%|▉         | 7686/78504 [4:40:15<31:12:30,  1.59s/it]                                                         {'loss': 0.2012, 'grad_norm': 1.1417441368103027, 'learning_rate': 2.935040122277417e-05, 'epoch': 2.35}
 10%|▉         | 7686/78504 [4:40:15<31:12:30,  1.59s/it] 10%|▉         | 7687/78504 [4:40:17<29:24:06,  1.49s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.9045966863632202, 'learning_rate': 2.935422239205197e-05, 'epoch': 2.35}
 10%|▉         | 7687/78504 [4:40:17<29:24:06,  1.49s/it] 10%|▉         | 7688/78504 [4:40:18<27:21:23,  1.39s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.9589837193489075, 'learning_rate': 2.9358043561329768e-05, 'epoch': 2.35}
 10%|▉         | 7688/78504 [4:40:18<27:21:23,  1.39s/it] 10%|▉         | 7689/78504 [4:40:19<25:37:33,  1.30s/it]                                                         {'loss': 0.2065, 'grad_norm': 0.9353507161140442, 'learning_rate': 2.9361864730607566e-05, 'epoch': 2.35}
 10%|▉         | 7689/78504 [4:40:19<25:37:33,  1.30s/it] 10%|▉         | 7690/78504 [4:40:20<24:07:27,  1.23s/it]                                                         {'loss': 0.2238, 'grad_norm': 1.2107058763504028, 'learning_rate': 2.9365685899885365e-05, 'epoch': 2.35}
 10%|▉         | 7690/78504 [4:40:20<24:07:27,  1.23s/it] 10%|▉         | 7691/78504 [4:40:21<22:23:05,  1.14s/it]                                                         {'loss': 0.2606, 'grad_norm': 1.209251880645752, 'learning_rate': 2.9369507069163164e-05, 'epoch': 2.35}
 10%|▉         | 7691/78504 [4:40:21<22:23:05,  1.14s/it] 10%|▉         | 7692/78504 [4:40:22<20:17:08,  1.03s/it]                                                         {'loss': 0.3087, 'grad_norm': 2.5798301696777344, 'learning_rate': 2.9373328238440963e-05, 'epoch': 2.35}
 10%|▉         | 7692/78504 [4:40:22<20:17:08,  1.03s/it] 10%|▉         | 7693/78504 [4:40:32<76:11:59,  3.87s/it]                                                         {'loss': 0.158, 'grad_norm': 0.6411860585212708, 'learning_rate': 2.937714940771876e-05, 'epoch': 2.35}
 10%|▉         | 7693/78504 [4:40:32<76:11:59,  3.87s/it] 10%|▉         | 7694/78504 [4:40:35<71:43:32,  3.65s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.33852314949035645, 'learning_rate': 2.9380970576996563e-05, 'epoch': 2.35}
 10%|▉         | 7694/78504 [4:40:35<71:43:32,  3.65s/it] 10%|▉         | 7695/78504 [4:40:38<65:22:44,  3.32s/it]                                                         {'loss': 0.0952, 'grad_norm': 0.4160299599170685, 'learning_rate': 2.9384791746274362e-05, 'epoch': 2.35}
 10%|▉         | 7695/78504 [4:40:38<65:22:44,  3.32s/it] 10%|▉         | 7696/78504 [4:40:40<60:57:07,  3.10s/it]                                                         {'loss': 0.0553, 'grad_norm': 0.26883184909820557, 'learning_rate': 2.938861291555216e-05, 'epoch': 2.35}
 10%|▉         | 7696/78504 [4:40:41<60:57:07,  3.10s/it] 10%|▉         | 7697/78504 [4:40:43<57:21:11,  2.92s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.30984142422676086, 'learning_rate': 2.939243408482996e-05, 'epoch': 2.35}
 10%|▉         | 7697/78504 [4:40:43<57:21:11,  2.92s/it] 10%|▉         | 7698/78504 [4:40:45<54:30:25,  2.77s/it]                                                         {'loss': 0.093, 'grad_norm': 0.38092926144599915, 'learning_rate': 2.939625525410776e-05, 'epoch': 2.35}
 10%|▉         | 7698/78504 [4:40:45<54:30:25,  2.77s/it] 10%|▉         | 7699/78504 [4:40:48<51:47:03,  2.63s/it]                                                         {'loss': 0.0565, 'grad_norm': 0.3628116250038147, 'learning_rate': 2.9400076423385557e-05, 'epoch': 2.35}
 10%|▉         | 7699/78504 [4:40:48<51:47:03,  2.63s/it] 10%|▉         | 7700/78504 [4:40:50<49:36:43,  2.52s/it]                                                         {'loss': 0.1019, 'grad_norm': 0.5320684909820557, 'learning_rate': 2.9403897592663356e-05, 'epoch': 2.35}
 10%|▉         | 7700/78504 [4:40:50<49:36:43,  2.52s/it] 10%|▉         | 7701/78504 [4:40:52<47:36:37,  2.42s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.3479795753955841, 'learning_rate': 2.9407718761941155e-05, 'epoch': 2.35}
 10%|▉         | 7701/78504 [4:40:52<47:36:37,  2.42s/it] 10%|▉         | 7702/78504 [4:40:54<46:04:57,  2.34s/it]                                                         {'loss': 0.0902, 'grad_norm': 0.3635393977165222, 'learning_rate': 2.9411539931218953e-05, 'epoch': 2.35}
 10%|▉         | 7702/78504 [4:40:54<46:04:57,  2.34s/it] 10%|▉         | 7703/78504 [4:40:56<43:19:52,  2.20s/it]                                                         {'loss': 0.0905, 'grad_norm': 0.579884946346283, 'learning_rate': 2.9415361100496752e-05, 'epoch': 2.35}
 10%|▉         | 7703/78504 [4:40:56<43:19:52,  2.20s/it] 10%|▉         | 7704/78504 [4:40:58<42:01:30,  2.14s/it]                                                         {'loss': 0.1052, 'grad_norm': 0.7475872039794922, 'learning_rate': 2.941918226977455e-05, 'epoch': 2.36}
 10%|▉         | 7704/78504 [4:40:58<42:01:30,  2.14s/it] 10%|▉         | 7705/78504 [4:41:00<40:47:31,  2.07s/it]                                                         {'loss': 0.1447, 'grad_norm': 0.43899768590927124, 'learning_rate': 2.942300343905235e-05, 'epoch': 2.36}
 10%|▉         | 7705/78504 [4:41:00<40:47:31,  2.07s/it] 10%|▉         | 7706/78504 [4:41:02<39:32:30,  2.01s/it]                                                         {'loss': 0.1207, 'grad_norm': 0.4680424928665161, 'learning_rate': 2.942682460833015e-05, 'epoch': 2.36}
 10%|▉         | 7706/78504 [4:41:02<39:32:30,  2.01s/it] 10%|▉         | 7707/78504 [4:41:04<38:02:51,  1.93s/it]                                                         {'loss': 0.141, 'grad_norm': 0.5722905397415161, 'learning_rate': 2.9430645777607947e-05, 'epoch': 2.36}
 10%|▉         | 7707/78504 [4:41:04<38:02:51,  1.93s/it] 10%|▉         | 7708/78504 [4:41:05<35:57:41,  1.83s/it]                                                         {'loss': 0.1434, 'grad_norm': 0.6314733028411865, 'learning_rate': 2.9434466946885746e-05, 'epoch': 2.36}
 10%|▉         | 7708/78504 [4:41:05<35:57:41,  1.83s/it] 10%|▉         | 7709/78504 [4:41:07<34:16:21,  1.74s/it]                                                         {'loss': 0.2127, 'grad_norm': 1.1416436433792114, 'learning_rate': 2.9438288116163548e-05, 'epoch': 2.36}
 10%|▉         | 7709/78504 [4:41:07<34:16:21,  1.74s/it] 10%|▉         | 7710/78504 [4:41:08<32:56:15,  1.67s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.0240765810012817, 'learning_rate': 2.9442109285441347e-05, 'epoch': 2.36}
 10%|▉         | 7710/78504 [4:41:08<32:56:15,  1.67s/it] 10%|▉         | 7711/78504 [4:41:10<31:25:15,  1.60s/it]                                                         {'loss': 0.2187, 'grad_norm': 1.2444096803665161, 'learning_rate': 2.9445930454719146e-05, 'epoch': 2.36}
 10%|▉         | 7711/78504 [4:41:10<31:25:15,  1.60s/it] 10%|▉         | 7712/78504 [4:41:11<29:39:02,  1.51s/it]                                                         {'loss': 0.219, 'grad_norm': 0.9570043683052063, 'learning_rate': 2.9449751623996944e-05, 'epoch': 2.36}
 10%|▉         | 7712/78504 [4:41:11<29:39:02,  1.51s/it] 10%|▉         | 7713/78504 [4:41:12<27:31:05,  1.40s/it]                                                         {'loss': 0.2147, 'grad_norm': 1.1054764986038208, 'learning_rate': 2.9453572793274743e-05, 'epoch': 2.36}
 10%|▉         | 7713/78504 [4:41:12<27:31:05,  1.40s/it] 10%|▉         | 7714/78504 [4:41:13<25:40:49,  1.31s/it]                                                         {'loss': 0.1752, 'grad_norm': 2.2403810024261475, 'learning_rate': 2.9457393962552542e-05, 'epoch': 2.36}
 10%|▉         | 7714/78504 [4:41:13<25:40:49,  1.31s/it] 10%|▉         | 7715/78504 [4:41:14<24:07:57,  1.23s/it]                                                         {'loss': 0.2131, 'grad_norm': 0.8386846780776978, 'learning_rate': 2.946121513183034e-05, 'epoch': 2.36}
 10%|▉         | 7715/78504 [4:41:14<24:07:57,  1.23s/it] 10%|▉         | 7716/78504 [4:41:15<22:19:17,  1.14s/it]                                                         {'loss': 0.2734, 'grad_norm': 1.6433937549591064, 'learning_rate': 2.946503630110814e-05, 'epoch': 2.36}
 10%|▉         | 7716/78504 [4:41:15<22:19:17,  1.14s/it] 10%|▉         | 7717/78504 [4:41:16<20:16:51,  1.03s/it]                                                         {'loss': 0.2862, 'grad_norm': 1.1497381925582886, 'learning_rate': 2.9468857470385938e-05, 'epoch': 2.36}
 10%|▉         | 7717/78504 [4:41:16<20:16:51,  1.03s/it] 10%|▉         | 7718/78504 [4:41:24<63:35:31,  3.23s/it]                                                         {'loss': 0.1901, 'grad_norm': 0.499171644449234, 'learning_rate': 2.9472678639663737e-05, 'epoch': 2.36}
 10%|▉         | 7718/78504 [4:41:24<63:35:31,  3.23s/it] 10%|▉         | 7719/78504 [4:41:28<62:40:00,  3.19s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.2904789447784424, 'learning_rate': 2.9476499808941535e-05, 'epoch': 2.36}
 10%|▉         | 7719/78504 [4:41:28<62:40:00,  3.19s/it] 10%|▉         | 7720/78504 [4:41:30<59:01:56,  3.00s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.5535513162612915, 'learning_rate': 2.9480320978219334e-05, 'epoch': 2.36}
 10%|▉         | 7720/78504 [4:41:30<59:01:56,  3.00s/it] 10%|▉         | 7721/78504 [4:41:33<56:44:52,  2.89s/it]                                                         {'loss': 0.0697, 'grad_norm': 0.24161186814308167, 'learning_rate': 2.9484142147497133e-05, 'epoch': 2.36}
 10%|▉         | 7721/78504 [4:41:33<56:44:52,  2.89s/it] 10%|▉         | 7722/78504 [4:41:35<54:18:40,  2.76s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.518621563911438, 'learning_rate': 2.9487963316774932e-05, 'epoch': 2.36}
 10%|▉         | 7722/78504 [4:41:35<54:18:40,  2.76s/it] 10%|▉         | 7723/78504 [4:41:37<51:22:55,  2.61s/it]                                                         {'loss': 0.0528, 'grad_norm': 0.2682506740093231, 'learning_rate': 2.949178448605273e-05, 'epoch': 2.36}
 10%|▉         | 7723/78504 [4:41:37<51:22:55,  2.61s/it] 10%|▉         | 7724/78504 [4:41:40<49:39:37,  2.53s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.3813106119632721, 'learning_rate': 2.949560565533053e-05, 'epoch': 2.36}
 10%|▉         | 7724/78504 [4:41:40<49:39:37,  2.53s/it] 10%|▉         | 7725/78504 [4:41:42<47:11:15,  2.40s/it]                                                         {'loss': 0.0607, 'grad_norm': 0.42876315116882324, 'learning_rate': 2.949942682460833e-05, 'epoch': 2.36}
 10%|▉         | 7725/78504 [4:41:42<47:11:15,  2.40s/it] 10%|▉         | 7726/78504 [4:41:44<45:55:45,  2.34s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.4104273319244385, 'learning_rate': 2.950324799388613e-05, 'epoch': 2.36}
 10%|▉         | 7726/78504 [4:41:44<45:55:45,  2.34s/it] 10%|▉         | 7727/78504 [4:41:46<44:55:59,  2.29s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.624413251876831, 'learning_rate': 2.950706916316393e-05, 'epoch': 2.36}
 10%|▉         | 7727/78504 [4:41:46<44:55:59,  2.29s/it] 10%|▉         | 7728/78504 [4:41:48<42:23:52,  2.16s/it]                                                         {'loss': 0.1126, 'grad_norm': 0.3929961025714874, 'learning_rate': 2.9510890332441728e-05, 'epoch': 2.36}
 10%|▉         | 7728/78504 [4:41:48<42:23:52,  2.16s/it] 10%|▉         | 7729/78504 [4:41:50<41:25:17,  2.11s/it]                                                         {'loss': 0.098, 'grad_norm': 0.5849949717521667, 'learning_rate': 2.9514711501719526e-05, 'epoch': 2.36}
 10%|▉         | 7729/78504 [4:41:50<41:25:17,  2.11s/it] 10%|▉         | 7730/78504 [4:41:52<40:07:18,  2.04s/it]                                                         {'loss': 0.091, 'grad_norm': 0.42458581924438477, 'learning_rate': 2.9518532670997325e-05, 'epoch': 2.36}
 10%|▉         | 7730/78504 [4:41:52<40:07:18,  2.04s/it] 10%|▉         | 7731/78504 [4:41:54<39:04:15,  1.99s/it]                                                         {'loss': 0.1557, 'grad_norm': 1.1757256984710693, 'learning_rate': 2.9522353840275124e-05, 'epoch': 2.36}
 10%|▉         | 7731/78504 [4:41:54<39:04:15,  1.99s/it] 10%|▉         | 7732/78504 [4:41:56<37:46:46,  1.92s/it]                                                         {'loss': 0.136, 'grad_norm': 0.7519523501396179, 'learning_rate': 2.9526175009552923e-05, 'epoch': 2.36}
 10%|▉         | 7732/78504 [4:41:56<37:46:46,  1.92s/it] 10%|▉         | 7733/78504 [4:41:57<36:12:29,  1.84s/it]                                                         {'loss': 0.1554, 'grad_norm': 0.46436306834220886, 'learning_rate': 2.952999617883072e-05, 'epoch': 2.36}
 10%|▉         | 7733/78504 [4:41:57<36:12:29,  1.84s/it] 10%|▉         | 7734/78504 [4:41:59<34:23:43,  1.75s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.6997377872467041, 'learning_rate': 2.953381734810852e-05, 'epoch': 2.36}
 10%|▉         | 7734/78504 [4:41:59<34:23:43,  1.75s/it] 10%|▉         | 7735/78504 [4:42:00<32:43:52,  1.67s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.7020920515060425, 'learning_rate': 2.953763851738632e-05, 'epoch': 2.36}
 10%|▉         | 7735/78504 [4:42:00<32:43:52,  1.67s/it] 10%|▉         | 7736/78504 [4:42:02<31:19:13,  1.59s/it]                                                         {'loss': 0.1844, 'grad_norm': 0.7478744983673096, 'learning_rate': 2.9541459686664118e-05, 'epoch': 2.37}
 10%|▉         | 7736/78504 [4:42:02<31:19:13,  1.59s/it] 10%|▉         | 7737/78504 [4:42:03<29:28:45,  1.50s/it]                                                         {'loss': 0.2188, 'grad_norm': 0.92518550157547, 'learning_rate': 2.9545280855941916e-05, 'epoch': 2.37}
 10%|▉         | 7737/78504 [4:42:03<29:28:45,  1.50s/it] 10%|▉         | 7738/78504 [4:42:04<27:24:19,  1.39s/it]                                                         {'loss': 0.1884, 'grad_norm': 1.0732873678207397, 'learning_rate': 2.9549102025219715e-05, 'epoch': 2.37}
 10%|▉         | 7738/78504 [4:42:04<27:24:19,  1.39s/it] 10%|▉         | 7739/78504 [4:42:05<25:38:17,  1.30s/it]                                                         {'loss': 0.2079, 'grad_norm': 0.7965973615646362, 'learning_rate': 2.9552923194497514e-05, 'epoch': 2.37}
 10%|▉         | 7739/78504 [4:42:05<25:38:17,  1.30s/it] 10%|▉         | 7740/78504 [4:42:06<24:09:11,  1.23s/it]                                                         {'loss': 0.2245, 'grad_norm': 1.1395421028137207, 'learning_rate': 2.955674436377532e-05, 'epoch': 2.37}
 10%|▉         | 7740/78504 [4:42:06<24:09:11,  1.23s/it] 10%|▉         | 7741/78504 [4:42:07<22:25:38,  1.14s/it]                                                         {'loss': 0.2181, 'grad_norm': 8.838541984558105, 'learning_rate': 2.9560565533053118e-05, 'epoch': 2.37}
 10%|▉         | 7741/78504 [4:42:07<22:25:38,  1.14s/it] 10%|▉         | 7742/78504 [4:42:08<20:18:47,  1.03s/it]                                                         {'loss': 0.3072, 'grad_norm': 2.9786856174468994, 'learning_rate': 2.9564386702330917e-05, 'epoch': 2.37}
 10%|▉         | 7742/78504 [4:42:08<20:18:47,  1.03s/it] 10%|▉         | 7743/78504 [4:42:18<73:52:14,  3.76s/it]                                                         {'loss': 0.1605, 'grad_norm': 0.4444866180419922, 'learning_rate': 2.9568207871608716e-05, 'epoch': 2.37}
 10%|▉         | 7743/78504 [4:42:18<73:52:14,  3.76s/it] 10%|▉         | 7744/78504 [4:42:22<72:05:25,  3.67s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.4697217345237732, 'learning_rate': 2.9572029040886514e-05, 'epoch': 2.37}
 10%|▉         | 7744/78504 [4:42:22<72:05:25,  3.67s/it] 10%|▉         | 7745/78504 [4:42:24<67:41:36,  3.44s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.36243292689323425, 'learning_rate': 2.9575850210164313e-05, 'epoch': 2.37}
 10%|▉         | 7745/78504 [4:42:24<67:41:36,  3.44s/it] 10%|▉         | 7746/78504 [4:42:27<62:33:58,  3.18s/it]                                                         {'loss': 0.0649, 'grad_norm': 0.356790155172348, 'learning_rate': 2.9579671379442112e-05, 'epoch': 2.37}
 10%|▉         | 7746/78504 [4:42:27<62:33:58,  3.18s/it] 10%|▉         | 7747/78504 [4:42:30<58:28:56,  2.98s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.25284257531166077, 'learning_rate': 2.958349254871991e-05, 'epoch': 2.37}
 10%|▉         | 7747/78504 [4:42:30<58:28:56,  2.98s/it] 10%|▉         | 7748/78504 [4:42:32<55:14:31,  2.81s/it]                                                         {'loss': 0.0625, 'grad_norm': 0.3323809504508972, 'learning_rate': 2.958731371799771e-05, 'epoch': 2.37}
 10%|▉         | 7748/78504 [4:42:32<55:14:31,  2.81s/it] 10%|▉         | 7749/78504 [4:42:34<52:19:20,  2.66s/it]                                                         {'loss': 0.0576, 'grad_norm': 0.2998465895652771, 'learning_rate': 2.9591134887275508e-05, 'epoch': 2.37}
 10%|▉         | 7749/78504 [4:42:34<52:19:20,  2.66s/it] 10%|▉         | 7750/78504 [4:42:37<50:12:47,  2.55s/it]                                                         {'loss': 0.1079, 'grad_norm': 0.7803493142127991, 'learning_rate': 2.9594956056553307e-05, 'epoch': 2.37}
 10%|▉         | 7750/78504 [4:42:37<50:12:47,  2.55s/it] 10%|▉         | 7751/78504 [4:42:39<48:05:00,  2.45s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.45762747526168823, 'learning_rate': 2.9598777225831105e-05, 'epoch': 2.37}
 10%|▉         | 7751/78504 [4:42:39<48:05:00,  2.45s/it] 10%|▉         | 7752/78504 [4:42:41<46:26:19,  2.36s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.2939193546772003, 'learning_rate': 2.9602598395108904e-05, 'epoch': 2.37}
 10%|▉         | 7752/78504 [4:42:41<46:26:19,  2.36s/it] 10%|▉         | 7753/78504 [4:42:43<43:25:36,  2.21s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.38261866569519043, 'learning_rate': 2.9606419564386703e-05, 'epoch': 2.37}
 10%|▉         | 7753/78504 [4:42:43<43:25:36,  2.21s/it] 10%|▉         | 7754/78504 [4:42:45<42:08:13,  2.14s/it]                                                         {'loss': 0.1178, 'grad_norm': 0.421844482421875, 'learning_rate': 2.9610240733664502e-05, 'epoch': 2.37}
 10%|▉         | 7754/78504 [4:42:45<42:08:13,  2.14s/it] 10%|▉         | 7755/78504 [4:42:47<40:37:33,  2.07s/it]                                                         {'loss': 0.113, 'grad_norm': 0.4811236262321472, 'learning_rate': 2.96140619029423e-05, 'epoch': 2.37}
 10%|▉         | 7755/78504 [4:42:47<40:37:33,  2.07s/it] 10%|▉         | 7756/78504 [4:42:49<39:27:01,  2.01s/it]                                                         {'loss': 0.1429, 'grad_norm': 0.49473366141319275, 'learning_rate': 2.9617883072220103e-05, 'epoch': 2.37}
 10%|▉         | 7756/78504 [4:42:49<39:27:01,  2.01s/it] 10%|▉         | 7757/78504 [4:42:50<38:00:41,  1.93s/it]                                                         {'loss': 0.1065, 'grad_norm': 0.3837795555591583, 'learning_rate': 2.96217042414979e-05, 'epoch': 2.37}
 10%|▉         | 7757/78504 [4:42:50<38:00:41,  1.93s/it] 10%|▉         | 7758/78504 [4:42:52<36:19:14,  1.85s/it]                                                         {'loss': 0.1484, 'grad_norm': 0.579876720905304, 'learning_rate': 2.96255254107757e-05, 'epoch': 2.37}
 10%|▉         | 7758/78504 [4:42:52<36:19:14,  1.85s/it] 10%|▉         | 7759/78504 [4:42:53<34:30:38,  1.76s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.7959766387939453, 'learning_rate': 2.96293465800535e-05, 'epoch': 2.37}
 10%|▉         | 7759/78504 [4:42:54<34:30:38,  1.76s/it] 10%|▉         | 7760/78504 [4:42:55<32:49:16,  1.67s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.657534658908844, 'learning_rate': 2.9633167749331298e-05, 'epoch': 2.37}
 10%|▉         | 7760/78504 [4:42:55<32:49:16,  1.67s/it] 10%|▉         | 7761/78504 [4:42:56<31:12:31,  1.59s/it]                                                         {'loss': 0.1642, 'grad_norm': 0.5560991764068604, 'learning_rate': 2.9636988918609096e-05, 'epoch': 2.37}
 10%|▉         | 7761/78504 [4:42:56<31:12:31,  1.59s/it] 10%|▉         | 7762/78504 [4:42:58<29:03:16,  1.48s/it]                                                         {'loss': 0.1832, 'grad_norm': 0.9682074189186096, 'learning_rate': 2.9640810087886895e-05, 'epoch': 2.37}
 10%|▉         | 7762/78504 [4:42:58<29:03:16,  1.48s/it] 10%|▉         | 7763/78504 [4:42:59<26:58:23,  1.37s/it]                                                         {'loss': 0.2134, 'grad_norm': 0.9462303519248962, 'learning_rate': 2.9644631257164694e-05, 'epoch': 2.37}
 10%|▉         | 7763/78504 [4:42:59<26:58:23,  1.37s/it] 10%|▉         | 7764/78504 [4:43:00<25:18:25,  1.29s/it]                                                         {'loss': 0.1766, 'grad_norm': 0.7914586663246155, 'learning_rate': 2.9648452426442493e-05, 'epoch': 2.37}
 10%|▉         | 7764/78504 [4:43:00<25:18:25,  1.29s/it] 10%|▉         | 7765/78504 [4:43:01<23:37:27,  1.20s/it]                                                         {'loss': 0.1907, 'grad_norm': 0.7595401406288147, 'learning_rate': 2.965227359572029e-05, 'epoch': 2.37}
 10%|▉         | 7765/78504 [4:43:01<23:37:27,  1.20s/it] 10%|▉         | 7766/78504 [4:43:02<22:06:30,  1.13s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.4057261943817139, 'learning_rate': 2.965609476499809e-05, 'epoch': 2.37}
 10%|▉         | 7766/78504 [4:43:02<22:06:30,  1.13s/it] 10%|▉         | 7767/78504 [4:43:03<20:05:05,  1.02s/it]                                                         {'loss': 0.4024, 'grad_norm': 1.7788912057876587, 'learning_rate': 2.965991593427589e-05, 'epoch': 2.37}
 10%|▉         | 7767/78504 [4:43:03<20:05:05,  1.02s/it] 10%|▉         | 7768/78504 [4:43:12<71:25:16,  3.63s/it]                                                         {'loss': 0.1513, 'grad_norm': 1.635724663734436, 'learning_rate': 2.9663737103553688e-05, 'epoch': 2.37}
 10%|▉         | 7768/78504 [4:43:12<71:25:16,  3.63s/it] 10%|▉         | 7769/78504 [4:43:15<68:27:28,  3.48s/it]                                                         {'loss': 0.0949, 'grad_norm': 0.26561611890792847, 'learning_rate': 2.9667558272831486e-05, 'epoch': 2.38}
 10%|▉         | 7769/78504 [4:43:15<68:27:28,  3.48s/it] 10%|▉         | 7770/78504 [4:43:18<65:30:11,  3.33s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.4580318331718445, 'learning_rate': 2.9671379442109285e-05, 'epoch': 2.38}
 10%|▉         | 7770/78504 [4:43:18<65:30:11,  3.33s/it] 10%|▉         | 7771/78504 [4:43:21<61:06:37,  3.11s/it]                                                         {'loss': 0.061, 'grad_norm': 0.24309439957141876, 'learning_rate': 2.9675200611387087e-05, 'epoch': 2.38}
 10%|▉         | 7771/78504 [4:43:21<61:06:37,  3.11s/it] 10%|▉         | 7772/78504 [4:43:23<57:28:48,  2.93s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.20880085229873657, 'learning_rate': 2.9679021780664886e-05, 'epoch': 2.38}
 10%|▉         | 7772/78504 [4:43:23<57:28:48,  2.93s/it] 10%|▉         | 7773/78504 [4:43:26<53:34:44,  2.73s/it]                                                         {'loss': 0.0501, 'grad_norm': 0.3289095461368561, 'learning_rate': 2.9682842949942685e-05, 'epoch': 2.38}
 10%|▉         | 7773/78504 [4:43:26<53:34:44,  2.73s/it] 10%|▉         | 7774/78504 [4:43:28<51:08:53,  2.60s/it]                                                         {'loss': 0.0626, 'grad_norm': 0.30967921018600464, 'learning_rate': 2.9686664119220483e-05, 'epoch': 2.38}
 10%|▉         | 7774/78504 [4:43:28<51:08:53,  2.60s/it] 10%|▉         | 7775/78504 [4:43:30<48:10:15,  2.45s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.3211393356323242, 'learning_rate': 2.9690485288498282e-05, 'epoch': 2.38}
 10%|▉         | 7775/78504 [4:43:30<48:10:15,  2.45s/it] 10%|▉         | 7776/78504 [4:43:32<45:40:36,  2.32s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.6908048391342163, 'learning_rate': 2.969430645777608e-05, 'epoch': 2.38}
 10%|▉         | 7776/78504 [4:43:32<45:40:36,  2.32s/it] 10%|▉         | 7777/78504 [4:43:34<44:35:50,  2.27s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.6520815491676331, 'learning_rate': 2.969812762705388e-05, 'epoch': 2.38}
 10%|▉         | 7777/78504 [4:43:34<44:35:50,  2.27s/it] 10%|▉         | 7778/78504 [4:43:36<42:57:21,  2.19s/it]                                                         {'loss': 0.0929, 'grad_norm': 0.5455451607704163, 'learning_rate': 2.970194879633168e-05, 'epoch': 2.38}
 10%|▉         | 7778/78504 [4:43:36<42:57:21,  2.19s/it] 10%|▉         | 7779/78504 [4:43:38<40:41:43,  2.07s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.37201622128486633, 'learning_rate': 2.9705769965609477e-05, 'epoch': 2.38}
 10%|▉         | 7779/78504 [4:43:38<40:41:43,  2.07s/it] 10%|▉         | 7780/78504 [4:43:40<39:29:21,  2.01s/it]                                                         {'loss': 0.1136, 'grad_norm': 0.42992374300956726, 'learning_rate': 2.9709591134887276e-05, 'epoch': 2.38}
 10%|▉         | 7780/78504 [4:43:40<39:29:21,  2.01s/it] 10%|▉         | 7781/78504 [4:43:42<38:29:29,  1.96s/it]                                                         {'loss': 0.1142, 'grad_norm': 0.3715883791446686, 'learning_rate': 2.9713412304165075e-05, 'epoch': 2.38}
 10%|▉         | 7781/78504 [4:43:42<38:29:29,  1.96s/it] 10%|▉         | 7782/78504 [4:43:43<36:43:55,  1.87s/it]                                                         {'loss': 0.1395, 'grad_norm': 0.8579406142234802, 'learning_rate': 2.9717233473442873e-05, 'epoch': 2.38}
 10%|▉         | 7782/78504 [4:43:43<36:43:55,  1.87s/it] 10%|▉         | 7783/78504 [4:43:45<35:22:57,  1.80s/it]                                                         {'loss': 0.1589, 'grad_norm': 0.815402626991272, 'learning_rate': 2.9721054642720672e-05, 'epoch': 2.38}
 10%|▉         | 7783/78504 [4:43:45<35:22:57,  1.80s/it] 10%|▉         | 7784/78504 [4:43:47<33:42:55,  1.72s/it]                                                         {'loss': 0.2114, 'grad_norm': 0.711955189704895, 'learning_rate': 2.972487581199847e-05, 'epoch': 2.38}
 10%|▉         | 7784/78504 [4:43:47<33:42:55,  1.72s/it] 10%|▉         | 7785/78504 [4:43:48<32:00:06,  1.63s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.44608908891677856, 'learning_rate': 2.972869698127627e-05, 'epoch': 2.38}
 10%|▉         | 7785/78504 [4:43:48<32:00:06,  1.63s/it] 10%|▉         | 7786/78504 [4:43:49<30:40:01,  1.56s/it]                                                         {'loss': 0.1971, 'grad_norm': 0.9092902541160583, 'learning_rate': 2.973251815055407e-05, 'epoch': 2.38}
 10%|▉         | 7786/78504 [4:43:49<30:40:01,  1.56s/it] 10%|▉         | 7787/78504 [4:43:51<29:03:49,  1.48s/it]                                                         {'loss': 0.2108, 'grad_norm': 0.9152440428733826, 'learning_rate': 2.973633931983187e-05, 'epoch': 2.38}
 10%|▉         | 7787/78504 [4:43:51<29:03:49,  1.48s/it] 10%|▉         | 7788/78504 [4:43:52<27:07:16,  1.38s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.5806522965431213, 'learning_rate': 2.974016048910967e-05, 'epoch': 2.38}
 10%|▉         | 7788/78504 [4:43:52<27:07:16,  1.38s/it] 10%|▉         | 7789/78504 [4:43:53<25:27:25,  1.30s/it]                                                         {'loss': 0.212, 'grad_norm': 0.9436842799186707, 'learning_rate': 2.9743981658387468e-05, 'epoch': 2.38}
 10%|▉         | 7789/78504 [4:43:53<25:27:25,  1.30s/it] 10%|▉         | 7790/78504 [4:43:54<23:41:06,  1.21s/it]                                                         {'loss': 0.2271, 'grad_norm': 3.1907615661621094, 'learning_rate': 2.9747802827665267e-05, 'epoch': 2.38}
 10%|▉         | 7790/78504 [4:43:54<23:41:06,  1.21s/it] 10%|▉         | 7791/78504 [4:43:55<22:03:02,  1.12s/it]                                                         {'loss': 0.2192, 'grad_norm': 1.1838804483413696, 'learning_rate': 2.9751623996943065e-05, 'epoch': 2.38}
 10%|▉         | 7791/78504 [4:43:55<22:03:02,  1.12s/it] 10%|▉         | 7792/78504 [4:43:56<20:09:44,  1.03s/it]                                                         {'loss': 0.2826, 'grad_norm': 1.249245524406433, 'learning_rate': 2.9755445166220864e-05, 'epoch': 2.38}
 10%|▉         | 7792/78504 [4:43:56<20:09:44,  1.03s/it] 10%|▉         | 7793/78504 [4:44:06<72:35:13,  3.70s/it]                                                         {'loss': 0.1586, 'grad_norm': 0.35376352071762085, 'learning_rate': 2.9759266335498663e-05, 'epoch': 2.38}
 10%|▉         | 7793/78504 [4:44:06<72:35:13,  3.70s/it] 10%|▉         | 7794/78504 [4:44:09<69:05:02,  3.52s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.6331285834312439, 'learning_rate': 2.976308750477646e-05, 'epoch': 2.38}
 10%|▉         | 7794/78504 [4:44:09<69:05:02,  3.52s/it] 10%|▉         | 7795/78504 [4:44:11<63:27:34,  3.23s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.36481234431266785, 'learning_rate': 2.976690867405426e-05, 'epoch': 2.38}
 10%|▉         | 7795/78504 [4:44:11<63:27:34,  3.23s/it] 10%|▉         | 7796/78504 [4:44:14<58:41:57,  2.99s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.2747879922389984, 'learning_rate': 2.977072984333206e-05, 'epoch': 2.38}
 10%|▉         | 7796/78504 [4:44:14<58:41:57,  2.99s/it] 10%|▉         | 7797/78504 [4:44:16<55:39:27,  2.83s/it]                                                         {'loss': 0.0804, 'grad_norm': 0.2637726366519928, 'learning_rate': 2.9774551012609858e-05, 'epoch': 2.38}
 10%|▉         | 7797/78504 [4:44:16<55:39:27,  2.83s/it] 10%|▉         | 7798/78504 [4:44:18<52:19:02,  2.66s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.24759918451309204, 'learning_rate': 2.9778372181887657e-05, 'epoch': 2.38}
 10%|▉         | 7798/78504 [4:44:18<52:19:02,  2.66s/it] 10%|▉         | 7799/78504 [4:44:21<50:17:32,  2.56s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.27418452501296997, 'learning_rate': 2.9782193351165455e-05, 'epoch': 2.38}
 10%|▉         | 7799/78504 [4:44:21<50:17:32,  2.56s/it] 10%|▉         | 7800/78504 [4:44:23<47:31:55,  2.42s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.3645658493041992, 'learning_rate': 2.9786014520443254e-05, 'epoch': 2.38}
 10%|▉         | 7800/78504 [4:44:23<47:31:55,  2.42s/it] 10%|▉         | 7801/78504 [4:44:25<46:10:08,  2.35s/it]                                                         {'loss': 0.0686, 'grad_norm': 0.3534906208515167, 'learning_rate': 2.9789835689721053e-05, 'epoch': 2.38}
 10%|▉         | 7801/78504 [4:44:25<46:10:08,  2.35s/it] 10%|▉         | 7802/78504 [4:44:27<44:55:18,  2.29s/it]                                                         {'loss': 0.0947, 'grad_norm': 0.25927022099494934, 'learning_rate': 2.9793656858998855e-05, 'epoch': 2.39}
 10%|▉         | 7802/78504 [4:44:27<44:55:18,  2.29s/it] 10%|▉         | 7803/78504 [4:44:29<43:24:23,  2.21s/it]                                                         {'loss': 0.103, 'grad_norm': 0.3313908874988556, 'learning_rate': 2.9797478028276654e-05, 'epoch': 2.39}
 10%|▉         | 7803/78504 [4:44:29<43:24:23,  2.21s/it] 10%|▉         | 7804/78504 [4:44:31<42:01:22,  2.14s/it]                                                         {'loss': 0.093, 'grad_norm': 0.2760538160800934, 'learning_rate': 2.9801299197554452e-05, 'epoch': 2.39}
 10%|▉         | 7804/78504 [4:44:31<42:01:22,  2.14s/it] 10%|▉         | 7805/78504 [4:44:33<40:30:01,  2.06s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.6388120055198669, 'learning_rate': 2.980512036683225e-05, 'epoch': 2.39}
 10%|▉         | 7805/78504 [4:44:33<40:30:01,  2.06s/it] 10%|▉         | 7806/78504 [4:44:35<39:23:11,  2.01s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.8348307013511658, 'learning_rate': 2.980894153611005e-05, 'epoch': 2.39}
 10%|▉         | 7806/78504 [4:44:35<39:23:11,  2.01s/it] 10%|▉         | 7807/78504 [4:44:37<37:43:34,  1.92s/it]                                                         {'loss': 0.1136, 'grad_norm': 1.0009160041809082, 'learning_rate': 2.981276270538785e-05, 'epoch': 2.39}
 10%|▉         | 7807/78504 [4:44:37<37:43:34,  1.92s/it] 10%|▉         | 7808/78504 [4:44:38<36:06:02,  1.84s/it]                                                         {'loss': 0.1591, 'grad_norm': 0.7642815709114075, 'learning_rate': 2.9816583874665647e-05, 'epoch': 2.39}
 10%|▉         | 7808/78504 [4:44:38<36:06:02,  1.84s/it] 10%|▉         | 7809/78504 [4:44:40<34:24:08,  1.75s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.7109202742576599, 'learning_rate': 2.9820405043943446e-05, 'epoch': 2.39}
 10%|▉         | 7809/78504 [4:44:40<34:24:08,  1.75s/it] 10%|▉         | 7810/78504 [4:44:41<32:29:59,  1.66s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.9207500219345093, 'learning_rate': 2.9824226213221245e-05, 'epoch': 2.39}
 10%|▉         | 7810/78504 [4:44:41<32:29:59,  1.66s/it] 10%|▉         | 7811/78504 [4:44:43<31:07:33,  1.59s/it]                                                         {'loss': 0.1959, 'grad_norm': 0.9279300570487976, 'learning_rate': 2.9828047382499044e-05, 'epoch': 2.39}
 10%|▉         | 7811/78504 [4:44:43<31:07:33,  1.59s/it] 10%|▉         | 7812/78504 [4:44:44<29:19:38,  1.49s/it]                                                         {'loss': 0.1783, 'grad_norm': 1.2232590913772583, 'learning_rate': 2.9831868551776842e-05, 'epoch': 2.39}
 10%|▉         | 7812/78504 [4:44:44<29:19:38,  1.49s/it] 10%|▉         | 7813/78504 [4:44:45<27:20:26,  1.39s/it]                                                         {'loss': 0.1821, 'grad_norm': 0.5695309042930603, 'learning_rate': 2.983568972105464e-05, 'epoch': 2.39}
 10%|▉         | 7813/78504 [4:44:45<27:20:26,  1.39s/it] 10%|▉         | 7814/78504 [4:44:46<25:36:22,  1.30s/it]                                                         {'loss': 0.2059, 'grad_norm': 0.7785462141036987, 'learning_rate': 2.983951089033244e-05, 'epoch': 2.39}
 10%|▉         | 7814/78504 [4:44:46<25:36:22,  1.30s/it] 10%|▉         | 7815/78504 [4:44:47<24:08:01,  1.23s/it]                                                         {'loss': 0.2031, 'grad_norm': 1.188051700592041, 'learning_rate': 2.984333205961024e-05, 'epoch': 2.39}
 10%|▉         | 7815/78504 [4:44:47<24:08:01,  1.23s/it] 10%|▉         | 7816/78504 [4:44:48<22:22:19,  1.14s/it]                                                         {'loss': 0.2405, 'grad_norm': 1.1732114553451538, 'learning_rate': 2.9847153228888037e-05, 'epoch': 2.39}
 10%|▉         | 7816/78504 [4:44:48<22:22:19,  1.14s/it] 10%|▉         | 7817/78504 [4:44:49<20:23:09,  1.04s/it]                                                         {'loss': 0.2892, 'grad_norm': 1.0725369453430176, 'learning_rate': 2.9850974398165836e-05, 'epoch': 2.39}
 10%|▉         | 7817/78504 [4:44:49<20:23:09,  1.04s/it] 10%|▉         | 7818/78504 [4:44:56<56:33:53,  2.88s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.9145435094833374, 'learning_rate': 2.985479556744364e-05, 'epoch': 2.39}
 10%|▉         | 7818/78504 [4:44:56<56:33:53,  2.88s/it] 10%|▉         | 7819/78504 [4:44:59<58:04:47,  2.96s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.5097176432609558, 'learning_rate': 2.985861673672144e-05, 'epoch': 2.39}
 10%|▉         | 7819/78504 [4:44:59<58:04:47,  2.96s/it] 10%|▉         | 7820/78504 [4:45:02<58:27:03,  2.98s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.4430336654186249, 'learning_rate': 2.986243790599924e-05, 'epoch': 2.39}
 10%|▉         | 7820/78504 [4:45:02<58:27:03,  2.98s/it] 10%|▉         | 7821/78504 [4:45:05<56:21:57,  2.87s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.2690974771976471, 'learning_rate': 2.9866259075277038e-05, 'epoch': 2.39}
 10%|▉         | 7821/78504 [4:45:05<56:21:57,  2.87s/it] 10%|▉         | 7822/78504 [4:45:08<54:00:26,  2.75s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.28055012226104736, 'learning_rate': 2.9870080244554837e-05, 'epoch': 2.39}
 10%|▉         | 7822/78504 [4:45:08<54:00:26,  2.75s/it] 10%|▉         | 7823/78504 [4:45:10<52:07:38,  2.65s/it]                                                         {'loss': 0.0654, 'grad_norm': 0.33513012528419495, 'learning_rate': 2.9873901413832635e-05, 'epoch': 2.39}
 10%|▉         | 7823/78504 [4:45:10<52:07:38,  2.65s/it] 10%|▉         | 7824/78504 [4:45:12<50:07:40,  2.55s/it]                                                         {'loss': 0.0698, 'grad_norm': 0.36571359634399414, 'learning_rate': 2.9877722583110434e-05, 'epoch': 2.39}
 10%|▉         | 7824/78504 [4:45:12<50:07:40,  2.55s/it] 10%|▉         | 7825/78504 [4:45:14<47:35:51,  2.42s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.4127984941005707, 'learning_rate': 2.9881543752388233e-05, 'epoch': 2.39}
 10%|▉         | 7825/78504 [4:45:14<47:35:51,  2.42s/it] 10%|▉         | 7826/78504 [4:45:17<46:09:06,  2.35s/it]                                                         {'loss': 0.1342, 'grad_norm': 0.56235671043396, 'learning_rate': 2.988536492166603e-05, 'epoch': 2.39}
 10%|▉         | 7826/78504 [4:45:17<46:09:06,  2.35s/it] 10%|▉         | 7827/78504 [4:45:19<44:55:57,  2.29s/it]                                                         {'loss': 0.0696, 'grad_norm': 0.2840481102466583, 'learning_rate': 2.988918609094383e-05, 'epoch': 2.39}
 10%|▉         | 7827/78504 [4:45:19<44:55:57,  2.29s/it] 10%|▉         | 7828/78504 [4:45:21<42:24:48,  2.16s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.2692835330963135, 'learning_rate': 2.989300726022163e-05, 'epoch': 2.39}
 10%|▉         | 7828/78504 [4:45:21<42:24:48,  2.16s/it] 10%|▉         | 7829/78504 [4:45:23<41:22:54,  2.11s/it]                                                         {'loss': 0.1354, 'grad_norm': 0.6091710329055786, 'learning_rate': 2.9896828429499428e-05, 'epoch': 2.39}
 10%|▉         | 7829/78504 [4:45:23<41:22:54,  2.11s/it] 10%|▉         | 7830/78504 [4:45:24<39:57:40,  2.04s/it]                                                         {'loss': 0.119, 'grad_norm': 0.3428962528705597, 'learning_rate': 2.9900649598777227e-05, 'epoch': 2.39}
 10%|▉         | 7830/78504 [4:45:24<39:57:40,  2.04s/it] 10%|▉         | 7831/78504 [4:45:26<38:47:39,  1.98s/it]                                                         {'loss': 0.1734, 'grad_norm': 0.3623840808868408, 'learning_rate': 2.9904470768055025e-05, 'epoch': 2.39}
 10%|▉         | 7831/78504 [4:45:26<38:47:39,  1.98s/it] 10%|▉         | 7832/78504 [4:45:28<37:18:07,  1.90s/it]                                                         {'loss': 0.1337, 'grad_norm': 0.5049846172332764, 'learning_rate': 2.9908291937332824e-05, 'epoch': 2.39}
 10%|▉         | 7832/78504 [4:45:28<37:18:07,  1.90s/it] 10%|▉         | 7833/78504 [4:45:30<35:48:13,  1.82s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.725912868976593, 'learning_rate': 2.9912113106610626e-05, 'epoch': 2.39}
 10%|▉         | 7833/78504 [4:45:30<35:48:13,  1.82s/it] 10%|▉         | 7834/78504 [4:45:31<34:09:38,  1.74s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.7919042706489563, 'learning_rate': 2.9915934275888425e-05, 'epoch': 2.39}
 10%|▉         | 7834/78504 [4:45:31<34:09:38,  1.74s/it] 10%|▉         | 7835/78504 [4:45:33<32:17:06,  1.64s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.5677649974822998, 'learning_rate': 2.9919755445166224e-05, 'epoch': 2.4}
 10%|▉         | 7835/78504 [4:45:33<32:17:06,  1.64s/it] 10%|▉         | 7836/78504 [4:45:34<30:54:51,  1.57s/it]                                                         {'loss': 0.2038, 'grad_norm': 1.821698784828186, 'learning_rate': 2.9923576614444022e-05, 'epoch': 2.4}
 10%|▉         | 7836/78504 [4:45:34<30:54:51,  1.57s/it] 10%|▉         | 7837/78504 [4:45:35<29:15:50,  1.49s/it]                                                         {'loss': 0.2166, 'grad_norm': 1.3037558794021606, 'learning_rate': 2.992739778372182e-05, 'epoch': 2.4}
 10%|▉         | 7837/78504 [4:45:35<29:15:50,  1.49s/it] 10%|▉         | 7838/78504 [4:45:36<27:12:27,  1.39s/it]                                                         {'loss': 0.2286, 'grad_norm': 0.7371826171875, 'learning_rate': 2.993121895299962e-05, 'epoch': 2.4}
 10%|▉         | 7838/78504 [4:45:36<27:12:27,  1.39s/it] 10%|▉         | 7839/78504 [4:45:38<25:32:46,  1.30s/it]                                                         {'loss': 0.2367, 'grad_norm': 0.9738297462463379, 'learning_rate': 2.993504012227742e-05, 'epoch': 2.4}
 10%|▉         | 7839/78504 [4:45:38<25:32:46,  1.30s/it] 10%|▉         | 7840/78504 [4:45:39<23:42:41,  1.21s/it]                                                         {'loss': 0.1848, 'grad_norm': 2.567676544189453, 'learning_rate': 2.9938861291555217e-05, 'epoch': 2.4}
 10%|▉         | 7840/78504 [4:45:39<23:42:41,  1.21s/it] 10%|▉         | 7841/78504 [4:45:39<22:04:57,  1.13s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.9593561291694641, 'learning_rate': 2.9942682460833016e-05, 'epoch': 2.4}
 10%|▉         | 7841/78504 [4:45:39<22:04:57,  1.13s/it] 10%|▉         | 7842/78504 [4:45:40<20:04:40,  1.02s/it]                                                         {'loss': 0.2784, 'grad_norm': 3.26448655128479, 'learning_rate': 2.9946503630110815e-05, 'epoch': 2.4}
 10%|▉         | 7842/78504 [4:45:40<20:04:40,  1.02s/it] 10%|▉         | 7843/78504 [4:45:48<57:08:43,  2.91s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.3315775692462921, 'learning_rate': 2.9950324799388614e-05, 'epoch': 2.4}
 10%|▉         | 7843/78504 [4:45:48<57:08:43,  2.91s/it] 10%|▉         | 7844/78504 [4:45:51<58:20:31,  2.97s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.3008967638015747, 'learning_rate': 2.9954145968666412e-05, 'epoch': 2.4}
 10%|▉         | 7844/78504 [4:45:51<58:20:31,  2.97s/it] 10%|▉         | 7845/78504 [4:45:54<58:37:16,  2.99s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.30707597732543945, 'learning_rate': 2.995796713794421e-05, 'epoch': 2.4}
 10%|▉         | 7845/78504 [4:45:54<58:37:16,  2.99s/it] 10%|▉         | 7846/78504 [4:45:56<56:23:46,  2.87s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.25790348649024963, 'learning_rate': 2.996178830722201e-05, 'epoch': 2.4}
 10%|▉         | 7846/78504 [4:45:56<56:23:46,  2.87s/it] 10%|▉         | 7847/78504 [4:45:59<53:22:46,  2.72s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.36088502407073975, 'learning_rate': 2.996560947649981e-05, 'epoch': 2.4}
 10%|▉         | 7847/78504 [4:45:59<53:22:46,  2.72s/it] 10%|▉         | 7848/78504 [4:46:01<50:38:58,  2.58s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.44335392117500305, 'learning_rate': 2.9969430645777607e-05, 'epoch': 2.4}
 10%|▉         | 7848/78504 [4:46:01<50:38:58,  2.58s/it] 10%|▉         | 7849/78504 [4:46:03<49:11:49,  2.51s/it]                                                         {'loss': 0.0489, 'grad_norm': 0.4116150140762329, 'learning_rate': 2.997325181505541e-05, 'epoch': 2.4}
 10%|▉         | 7849/78504 [4:46:03<49:11:49,  2.51s/it] 10%|▉         | 7850/78504 [4:46:05<46:44:25,  2.38s/it]                                                         {'loss': 0.0929, 'grad_norm': 0.3575882613658905, 'learning_rate': 2.9977072984333208e-05, 'epoch': 2.4}
 10%|▉         | 7850/78504 [4:46:05<46:44:25,  2.38s/it] 10%|█         | 7851/78504 [4:46:07<44:41:36,  2.28s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.3627317547798157, 'learning_rate': 2.9980894153611007e-05, 'epoch': 2.4}
 10%|█         | 7851/78504 [4:46:07<44:41:36,  2.28s/it] 10%|█         | 7852/78504 [4:46:10<43:54:06,  2.24s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.4984242022037506, 'learning_rate': 2.9984715322888806e-05, 'epoch': 2.4}
 10%|█         | 7852/78504 [4:46:10<43:54:06,  2.24s/it] 10%|█         | 7853/78504 [4:46:12<42:36:51,  2.17s/it]                                                         {'loss': 0.1072, 'grad_norm': 0.44130387902259827, 'learning_rate': 2.9988536492166605e-05, 'epoch': 2.4}
 10%|█         | 7853/78504 [4:46:12<42:36:51,  2.17s/it] 10%|█         | 7854/78504 [4:46:14<41:29:42,  2.11s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.42436203360557556, 'learning_rate': 2.9992357661444403e-05, 'epoch': 2.4}
 10%|█         | 7854/78504 [4:46:14<41:29:42,  2.11s/it] 10%|█         | 7855/78504 [4:46:15<40:04:50,  2.04s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.4140557646751404, 'learning_rate': 2.9996178830722202e-05, 'epoch': 2.4}
 10%|█         | 7855/78504 [4:46:15<40:04:50,  2.04s/it] 10%|█         | 7856/78504 [4:46:17<39:02:47,  1.99s/it]                                                         {'loss': 0.1349, 'grad_norm': 0.4730995297431946, 'learning_rate': 3e-05, 'epoch': 2.4}
 10%|█         | 7856/78504 [4:46:17<39:02:47,  1.99s/it] 10%|█         | 7857/78504 [4:46:19<37:42:36,  1.92s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.6871447563171387, 'learning_rate': 2.999957538958006e-05, 'epoch': 2.4}
 10%|█         | 7857/78504 [4:46:19<37:42:36,  1.92s/it] 10%|█         | 7858/78504 [4:46:21<36:05:25,  1.84s/it]                                                         {'loss': 0.2027, 'grad_norm': 0.7143360376358032, 'learning_rate': 2.999915077916012e-05, 'epoch': 2.4}
 10%|█         | 7858/78504 [4:46:21<36:05:25,  1.84s/it] 10%|█         | 7859/78504 [4:46:22<34:20:48,  1.75s/it]                                                         {'loss': 0.1423, 'grad_norm': 0.6204958558082581, 'learning_rate': 2.999872616874018e-05, 'epoch': 2.4}
 10%|█         | 7859/78504 [4:46:22<34:20:48,  1.75s/it] 10%|█         | 7860/78504 [4:46:24<32:38:53,  1.66s/it]                                                         {'loss': 0.1858, 'grad_norm': 0.5967832207679749, 'learning_rate': 2.9998301558320242e-05, 'epoch': 2.4}
 10%|█         | 7860/78504 [4:46:24<32:38:53,  1.66s/it] 10%|█         | 7861/78504 [4:46:25<31:11:59,  1.59s/it]                                                         {'loss': 0.1989, 'grad_norm': 2.0377302169799805, 'learning_rate': 2.99978769479003e-05, 'epoch': 2.4}
 10%|█         | 7861/78504 [4:46:25<31:11:59,  1.59s/it] 10%|█         | 7862/78504 [4:46:26<29:27:36,  1.50s/it]                                                         {'loss': 0.2254, 'grad_norm': 0.8623858094215393, 'learning_rate': 2.9997452337480363e-05, 'epoch': 2.4}
 10%|█         | 7862/78504 [4:46:26<29:27:36,  1.50s/it] 10%|█         | 7863/78504 [4:46:28<27:24:01,  1.40s/it]                                                         {'loss': 0.2226, 'grad_norm': 0.8867431282997131, 'learning_rate': 2.9997027727060422e-05, 'epoch': 2.4}
 10%|█         | 7863/78504 [4:46:28<27:24:01,  1.40s/it] 10%|█         | 7864/78504 [4:46:29<25:38:11,  1.31s/it]                                                         {'loss': 0.2214, 'grad_norm': 0.8506391644477844, 'learning_rate': 2.9996603116640484e-05, 'epoch': 2.4}
 10%|█         | 7864/78504 [4:46:29<25:38:11,  1.31s/it] 10%|█         | 7865/78504 [4:46:30<23:47:53,  1.21s/it]                                                         {'loss': 0.1803, 'grad_norm': 0.7078743577003479, 'learning_rate': 2.9996178506220543e-05, 'epoch': 2.4}
 10%|█         | 7865/78504 [4:46:30<23:47:53,  1.21s/it] 10%|█         | 7866/78504 [4:46:31<22:10:34,  1.13s/it]                                                         {'loss': 0.2816, 'grad_norm': 0.7849482893943787, 'learning_rate': 2.9995753895800605e-05, 'epoch': 2.4}
 10%|█         | 7866/78504 [4:46:31<22:10:34,  1.13s/it] 10%|█         | 7867/78504 [4:46:31<19:59:22,  1.02s/it]                                                         {'loss': 0.262, 'grad_norm': 1.4631831645965576, 'learning_rate': 2.9995329285380663e-05, 'epoch': 2.41}
 10%|█         | 7867/78504 [4:46:31<19:59:22,  1.02s/it] 10%|█         | 7868/78504 [4:46:39<56:19:45,  2.87s/it]                                                         {'loss': 0.1647, 'grad_norm': 1.1153644323349, 'learning_rate': 2.9994904674960725e-05, 'epoch': 2.41}
 10%|█         | 7868/78504 [4:46:39<56:19:45,  2.87s/it] 10%|█         | 7869/78504 [4:46:41<56:33:58,  2.88s/it]                                                         {'loss': 0.0983, 'grad_norm': 0.26503491401672363, 'learning_rate': 2.9994480064540784e-05, 'epoch': 2.41}
 10%|█         | 7869/78504 [4:46:41<56:33:58,  2.88s/it] 10%|█         | 7870/78504 [4:46:44<56:48:33,  2.90s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.2993394732475281, 'learning_rate': 2.9994055454120843e-05, 'epoch': 2.41}
 10%|█         | 7870/78504 [4:46:44<56:48:33,  2.90s/it] 10%|█         | 7871/78504 [4:46:47<54:56:53,  2.80s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.4350195825099945, 'learning_rate': 2.9993630843700905e-05, 'epoch': 2.41}
 10%|█         | 7871/78504 [4:46:47<54:56:53,  2.80s/it] 10%|█         | 7872/78504 [4:46:49<53:02:53,  2.70s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.2647486627101898, 'learning_rate': 2.9993206233280964e-05, 'epoch': 2.41}
 10%|█         | 7872/78504 [4:46:49<53:02:53,  2.70s/it] 10%|█         | 7873/78504 [4:46:52<50:29:15,  2.57s/it]                                                         {'loss': 0.0662, 'grad_norm': 0.3368365168571472, 'learning_rate': 2.9992781622861026e-05, 'epoch': 2.41}
 10%|█         | 7873/78504 [4:46:52<50:29:15,  2.57s/it] 10%|█         | 7874/78504 [4:46:54<48:58:59,  2.50s/it]                                                         {'loss': 0.0912, 'grad_norm': 0.4832082986831665, 'learning_rate': 2.9992357012441084e-05, 'epoch': 2.41}
 10%|█         | 7874/78504 [4:46:54<48:58:59,  2.50s/it] 10%|█         | 7875/78504 [4:46:56<46:41:25,  2.38s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.24253304302692413, 'learning_rate': 2.9991932402021147e-05, 'epoch': 2.41}
 10%|█         | 7875/78504 [4:46:56<46:41:25,  2.38s/it] 10%|█         | 7876/78504 [4:46:58<45:33:20,  2.32s/it]                                                         {'loss': 0.0947, 'grad_norm': 0.30167150497436523, 'learning_rate': 2.9991507791601205e-05, 'epoch': 2.41}
 10%|█         | 7876/78504 [4:46:58<45:33:20,  2.32s/it] 10%|█         | 7877/78504 [4:47:00<44:30:26,  2.27s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.39894336462020874, 'learning_rate': 2.9991083181181267e-05, 'epoch': 2.41}
 10%|█         | 7877/78504 [4:47:00<44:30:26,  2.27s/it] 10%|█         | 7878/78504 [4:47:02<42:53:52,  2.19s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.3300742506980896, 'learning_rate': 2.9990658570761326e-05, 'epoch': 2.41}
 10%|█         | 7878/78504 [4:47:02<42:53:52,  2.19s/it] 10%|█         | 7879/78504 [4:47:04<41:43:12,  2.13s/it]                                                         {'loss': 0.103, 'grad_norm': 0.7468714714050293, 'learning_rate': 2.9990233960341388e-05, 'epoch': 2.41}
 10%|█         | 7879/78504 [4:47:04<41:43:12,  2.13s/it] 10%|█         | 7880/78504 [4:47:06<40:11:32,  2.05s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.5341529846191406, 'learning_rate': 2.9989809349921447e-05, 'epoch': 2.41}
 10%|█         | 7880/78504 [4:47:06<40:11:32,  2.05s/it] 10%|█         | 7881/78504 [4:47:08<38:56:36,  1.99s/it]                                                         {'loss': 0.1218, 'grad_norm': 0.4732903838157654, 'learning_rate': 2.998938473950151e-05, 'epoch': 2.41}
 10%|█         | 7881/78504 [4:47:08<38:56:36,  1.99s/it] 10%|█         | 7882/78504 [4:47:10<37:03:34,  1.89s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.41536378860473633, 'learning_rate': 2.9988960129081568e-05, 'epoch': 2.41}
 10%|█         | 7882/78504 [4:47:10<37:03:34,  1.89s/it] 10%|█         | 7883/78504 [4:47:11<35:38:48,  1.82s/it]                                                         {'loss': 0.1248, 'grad_norm': 0.5272341966629028, 'learning_rate': 2.9988535518661626e-05, 'epoch': 2.41}
 10%|█         | 7883/78504 [4:47:11<35:38:48,  1.82s/it] 10%|█         | 7884/78504 [4:47:13<33:49:45,  1.72s/it]                                                         {'loss': 0.1497, 'grad_norm': 0.6460676193237305, 'learning_rate': 2.998811090824169e-05, 'epoch': 2.41}
 10%|█         | 7884/78504 [4:47:13<33:49:45,  1.72s/it] 10%|█         | 7885/78504 [4:47:14<32:05:30,  1.64s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.589039146900177, 'learning_rate': 2.9987686297821747e-05, 'epoch': 2.41}
 10%|█         | 7885/78504 [4:47:14<32:05:30,  1.64s/it] 10%|█         | 7886/78504 [4:47:16<30:47:07,  1.57s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.5012587904930115, 'learning_rate': 2.998726168740181e-05, 'epoch': 2.41}
 10%|█         | 7886/78504 [4:47:16<30:47:07,  1.57s/it] 10%|█         | 7887/78504 [4:47:17<28:44:06,  1.46s/it]                                                         {'loss': 0.2017, 'grad_norm': 1.0568959712982178, 'learning_rate': 2.9986837076981868e-05, 'epoch': 2.41}
 10%|█         | 7887/78504 [4:47:17<28:44:06,  1.46s/it] 10%|█         | 7888/78504 [4:47:18<26:43:24,  1.36s/it]                                                         {'loss': 0.1833, 'grad_norm': 0.804967999458313, 'learning_rate': 2.998641246656193e-05, 'epoch': 2.41}
 10%|█         | 7888/78504 [4:47:18<26:43:24,  1.36s/it] 10%|█         | 7889/78504 [4:47:19<25:10:03,  1.28s/it]                                                         {'loss': 0.2397, 'grad_norm': 0.904463529586792, 'learning_rate': 2.998598785614199e-05, 'epoch': 2.41}
 10%|█         | 7889/78504 [4:47:19<25:10:03,  1.28s/it] 10%|█         | 7890/78504 [4:47:20<23:28:37,  1.20s/it]                                                         {'loss': 0.2047, 'grad_norm': 0.809052050113678, 'learning_rate': 2.998556324572205e-05, 'epoch': 2.41}
 10%|█         | 7890/78504 [4:47:20<23:28:37,  1.20s/it] 10%|█         | 7891/78504 [4:47:21<21:58:29,  1.12s/it]                                                         {'loss': 0.2461, 'grad_norm': 0.6560147404670715, 'learning_rate': 2.998513863530211e-05, 'epoch': 2.41}
 10%|█         | 7891/78504 [4:47:21<21:58:29,  1.12s/it] 10%|█         | 7892/78504 [4:47:22<20:05:01,  1.02s/it]                                                         {'loss': 0.2758, 'grad_norm': 0.9436032176017761, 'learning_rate': 2.998471402488217e-05, 'epoch': 2.41}
 10%|█         | 7892/78504 [4:47:22<20:05:01,  1.02s/it] 10%|█         | 7893/78504 [4:47:30<63:01:38,  3.21s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.4606597125530243, 'learning_rate': 2.998428941446223e-05, 'epoch': 2.41}
 10%|█         | 7893/78504 [4:47:30<63:01:38,  3.21s/it] 10%|█         | 7894/78504 [4:47:33<61:15:15,  3.12s/it]                                                         {'loss': 0.1004, 'grad_norm': 0.28019753098487854, 'learning_rate': 2.9983864804042292e-05, 'epoch': 2.41}
 10%|█         | 7894/78504 [4:47:33<61:15:15,  3.12s/it] 10%|█         | 7895/78504 [4:47:36<60:03:49,  3.06s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.4064193069934845, 'learning_rate': 2.998344019362235e-05, 'epoch': 2.41}
 10%|█         | 7895/78504 [4:47:36<60:03:49,  3.06s/it] 10%|█         | 7896/78504 [4:47:39<57:15:22,  2.92s/it]                                                         {'loss': 0.0738, 'grad_norm': 2.58994197845459, 'learning_rate': 2.998301558320241e-05, 'epoch': 2.41}
 10%|█         | 7896/78504 [4:47:39<57:15:22,  2.92s/it] 10%|█         | 7897/78504 [4:47:41<54:38:27,  2.79s/it]                                                         {'loss': 0.0783, 'grad_norm': 0.3530253767967224, 'learning_rate': 2.9982590972782472e-05, 'epoch': 2.41}
 10%|█         | 7897/78504 [4:47:41<54:38:27,  2.79s/it] 10%|█         | 7898/78504 [4:47:43<51:37:57,  2.63s/it]                                                         {'loss': 0.0492, 'grad_norm': 0.23260053992271423, 'learning_rate': 2.998216636236253e-05, 'epoch': 2.41}
 10%|█         | 7898/78504 [4:47:43<51:37:57,  2.63s/it] 10%|█         | 7899/78504 [4:47:46<49:45:38,  2.54s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.35369816422462463, 'learning_rate': 2.9981741751942593e-05, 'epoch': 2.41}
 10%|█         | 7899/78504 [4:47:46<49:45:38,  2.54s/it] 10%|█         | 7900/78504 [4:47:48<47:18:21,  2.41s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.5599589347839355, 'learning_rate': 2.998131714152265e-05, 'epoch': 2.42}
 10%|█         | 7900/78504 [4:47:48<47:18:21,  2.41s/it] 10%|█         | 7901/78504 [4:47:50<45:58:10,  2.34s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.5741417407989502, 'learning_rate': 2.9980892531102713e-05, 'epoch': 2.42}
 10%|█         | 7901/78504 [4:47:50<45:58:10,  2.34s/it] 10%|█         | 7902/78504 [4:47:52<44:55:17,  2.29s/it]                                                         {'loss': 0.0822, 'grad_norm': 0.323655903339386, 'learning_rate': 2.9980467920682772e-05, 'epoch': 2.42}
 10%|█         | 7902/78504 [4:47:52<44:55:17,  2.29s/it] 10%|█         | 7903/78504 [4:47:54<42:24:56,  2.16s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.5502365231513977, 'learning_rate': 2.9980043310262834e-05, 'epoch': 2.42}
 10%|█         | 7903/78504 [4:47:54<42:24:56,  2.16s/it] 10%|█         | 7904/78504 [4:47:56<41:22:11,  2.11s/it]                                                         {'loss': 0.096, 'grad_norm': 0.33435115218162537, 'learning_rate': 2.9979618699842893e-05, 'epoch': 2.42}
 10%|█         | 7904/78504 [4:47:56<41:22:11,  2.11s/it] 10%|█         | 7905/78504 [4:47:58<40:17:15,  2.05s/it]                                                         {'loss': 0.137, 'grad_norm': 0.373270183801651, 'learning_rate': 2.9979194089422955e-05, 'epoch': 2.42}
 10%|█         | 7905/78504 [4:47:58<40:17:15,  2.05s/it] 10%|█         | 7906/78504 [4:48:00<39:10:30,  2.00s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5377856492996216, 'learning_rate': 2.9978769479003014e-05, 'epoch': 2.42}
 10%|█         | 7906/78504 [4:48:00<39:10:30,  2.00s/it] 10%|█         | 7907/78504 [4:48:02<37:47:35,  1.93s/it]                                                         {'loss': 0.1318, 'grad_norm': 1.0153404474258423, 'learning_rate': 2.9978344868583076e-05, 'epoch': 2.42}
 10%|█         | 7907/78504 [4:48:02<37:47:35,  1.93s/it] 10%|█         | 7908/78504 [4:48:03<36:09:30,  1.84s/it]                                                         {'loss': 0.1436, 'grad_norm': 0.6053585410118103, 'learning_rate': 2.9977920258163138e-05, 'epoch': 2.42}
 10%|█         | 7908/78504 [4:48:03<36:09:30,  1.84s/it] 10%|█         | 7909/78504 [4:48:05<34:24:13,  1.75s/it]                                                         {'loss': 0.14, 'grad_norm': 0.822456955909729, 'learning_rate': 2.9977495647743197e-05, 'epoch': 2.42}
 10%|█         | 7909/78504 [4:48:05<34:24:13,  1.75s/it] 10%|█         | 7910/78504 [4:48:06<32:56:43,  1.68s/it]                                                         {'loss': 0.1913, 'grad_norm': 0.7452265024185181, 'learning_rate': 2.997707103732326e-05, 'epoch': 2.42}
 10%|█         | 7910/78504 [4:48:06<32:56:43,  1.68s/it] 10%|█         | 7911/78504 [4:48:08<31:12:58,  1.59s/it]                                                         {'loss': 0.2366, 'grad_norm': 0.6740055084228516, 'learning_rate': 2.9976646426903317e-05, 'epoch': 2.42}
 10%|█         | 7911/78504 [4:48:08<31:12:58,  1.59s/it] 10%|█         | 7912/78504 [4:48:09<29:25:29,  1.50s/it]                                                         {'loss': 0.1804, 'grad_norm': 0.6186607480049133, 'learning_rate': 2.997622181648338e-05, 'epoch': 2.42}
 10%|█         | 7912/78504 [4:48:09<29:25:29,  1.50s/it] 10%|█         | 7913/78504 [4:48:10<27:20:37,  1.39s/it]                                                         {'loss': 0.1878, 'grad_norm': 0.825633704662323, 'learning_rate': 2.9975797206063438e-05, 'epoch': 2.42}
 10%|█         | 7913/78504 [4:48:10<27:20:37,  1.39s/it] 10%|█         | 7914/78504 [4:48:11<25:36:39,  1.31s/it]                                                         {'loss': 0.2148, 'grad_norm': 0.9150055050849915, 'learning_rate': 2.99753725956435e-05, 'epoch': 2.42}
 10%|█         | 7914/78504 [4:48:11<25:36:39,  1.31s/it] 10%|█         | 7915/78504 [4:48:12<24:05:20,  1.23s/it]                                                         {'loss': 0.234, 'grad_norm': 1.8920718431472778, 'learning_rate': 2.997494798522356e-05, 'epoch': 2.42}
 10%|█         | 7915/78504 [4:48:12<24:05:20,  1.23s/it] 10%|█         | 7916/78504 [4:48:13<22:18:02,  1.14s/it]                                                         {'loss': 0.2528, 'grad_norm': 5.506700038909912, 'learning_rate': 2.997452337480362e-05, 'epoch': 2.42}
 10%|█         | 7916/78504 [4:48:13<22:18:02,  1.14s/it] 10%|█         | 7917/78504 [4:48:14<20:12:26,  1.03s/it]                                                         {'loss': 0.2631, 'grad_norm': 2.105818748474121, 'learning_rate': 2.997409876438368e-05, 'epoch': 2.42}
 10%|█         | 7917/78504 [4:48:14<20:12:26,  1.03s/it] 10%|█         | 7918/78504 [4:48:22<61:01:04,  3.11s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.6389627456665039, 'learning_rate': 2.9973674153963742e-05, 'epoch': 2.42}
 10%|█         | 7918/78504 [4:48:22<61:01:04,  3.11s/it] 10%|█         | 7919/78504 [4:48:25<62:07:58,  3.17s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.43795570731163025, 'learning_rate': 2.99732495435438e-05, 'epoch': 2.42}
 10%|█         | 7919/78504 [4:48:25<62:07:58,  3.17s/it] 10%|█         | 7920/78504 [4:48:28<61:02:08,  3.11s/it]                                                         {'loss': 0.0874, 'grad_norm': 0.6183004379272461, 'learning_rate': 2.997282493312386e-05, 'epoch': 2.42}
 10%|█         | 7920/78504 [4:48:28<61:02:08,  3.11s/it] 10%|█         | 7921/78504 [4:48:31<57:57:22,  2.96s/it]                                                         {'loss': 0.072, 'grad_norm': 0.3649000823497772, 'learning_rate': 2.997240032270392e-05, 'epoch': 2.42}
 10%|█         | 7921/78504 [4:48:31<57:57:22,  2.96s/it] 10%|█         | 7922/78504 [4:48:33<55:07:29,  2.81s/it]                                                         {'loss': 0.0722, 'grad_norm': 0.3845837116241455, 'learning_rate': 2.997197571228398e-05, 'epoch': 2.42}
 10%|█         | 7922/78504 [4:48:33<55:07:29,  2.81s/it] 10%|█         | 7923/78504 [4:48:36<51:54:18,  2.65s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.26755014061927795, 'learning_rate': 2.9971551101864042e-05, 'epoch': 2.42}
 10%|█         | 7923/78504 [4:48:36<51:54:18,  2.65s/it] 10%|█         | 7924/78504 [4:48:38<50:01:39,  2.55s/it]                                                         {'loss': 0.0673, 'grad_norm': 0.2732967734336853, 'learning_rate': 2.99711264914441e-05, 'epoch': 2.42}
 10%|█         | 7924/78504 [4:48:38<50:01:39,  2.55s/it] 10%|█         | 7925/78504 [4:48:40<47:17:24,  2.41s/it]                                                         {'loss': 0.0517, 'grad_norm': 0.3199889361858368, 'learning_rate': 2.9970701881024163e-05, 'epoch': 2.42}
 10%|█         | 7925/78504 [4:48:40<47:17:24,  2.41s/it] 10%|█         | 7926/78504 [4:48:42<45:02:13,  2.30s/it]                                                         {'loss': 0.1083, 'grad_norm': 0.3969211280345917, 'learning_rate': 2.997027727060422e-05, 'epoch': 2.42}
 10%|█         | 7926/78504 [4:48:42<45:02:13,  2.30s/it] 10%|█         | 7927/78504 [4:48:44<44:05:51,  2.25s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.3826121687889099, 'learning_rate': 2.9969852660184284e-05, 'epoch': 2.42}
 10%|█         | 7927/78504 [4:48:44<44:05:51,  2.25s/it] 10%|█         | 7928/78504 [4:48:46<42:45:13,  2.18s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.29978135228157043, 'learning_rate': 2.9969428049764342e-05, 'epoch': 2.42}
 10%|█         | 7928/78504 [4:48:46<42:45:13,  2.18s/it] 10%|█         | 7929/78504 [4:48:48<41:35:19,  2.12s/it]                                                         {'loss': 0.0791, 'grad_norm': 0.46011078357696533, 'learning_rate': 2.9969003439344404e-05, 'epoch': 2.42}
 10%|█         | 7929/78504 [4:48:48<41:35:19,  2.12s/it] 10%|█         | 7930/78504 [4:48:50<40:06:15,  2.05s/it]                                                         {'loss': 0.1241, 'grad_norm': 0.47561559081077576, 'learning_rate': 2.9968578828924463e-05, 'epoch': 2.42}
 10%|█         | 7930/78504 [4:48:50<40:06:15,  2.05s/it] 10%|█         | 7931/78504 [4:48:52<38:08:39,  1.95s/it]                                                         {'loss': 0.1048, 'grad_norm': 0.567965030670166, 'learning_rate': 2.9968154218504525e-05, 'epoch': 2.42}
 10%|█         | 7931/78504 [4:48:52<38:08:39,  1.95s/it] 10%|█         | 7932/78504 [4:48:54<37:05:20,  1.89s/it]                                                         {'loss': 0.1669, 'grad_norm': 0.6881142854690552, 'learning_rate': 2.9967729608084584e-05, 'epoch': 2.42}
 10%|█         | 7932/78504 [4:48:54<37:05:20,  1.89s/it] 10%|█         | 7933/78504 [4:48:55<35:35:53,  1.82s/it]                                                         {'loss': 0.1444, 'grad_norm': 2.293203830718994, 'learning_rate': 2.9967304997664643e-05, 'epoch': 2.43}
 10%|█         | 7933/78504 [4:48:55<35:35:53,  1.82s/it] 10%|█         | 7934/78504 [4:48:57<33:48:52,  1.72s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.7049921154975891, 'learning_rate': 2.9966880387244705e-05, 'epoch': 2.43}
 10%|█         | 7934/78504 [4:48:57<33:48:52,  1.72s/it] 10%|█         | 7935/78504 [4:48:58<32:03:38,  1.64s/it]                                                         {'loss': 0.1941, 'grad_norm': 0.6322556734085083, 'learning_rate': 2.9966455776824763e-05, 'epoch': 2.43}
 10%|█         | 7935/78504 [4:48:58<32:03:38,  1.64s/it] 10%|█         | 7936/78504 [4:49:00<30:44:27,  1.57s/it]                                                         {'loss': 0.2269, 'grad_norm': 0.7659299373626709, 'learning_rate': 2.9966031166404826e-05, 'epoch': 2.43}
 10%|█         | 7936/78504 [4:49:00<30:44:27,  1.57s/it] 10%|█         | 7937/78504 [4:49:01<28:43:24,  1.47s/it]                                                         {'loss': 0.1937, 'grad_norm': 0.8418258428573608, 'learning_rate': 2.9965606555984884e-05, 'epoch': 2.43}
 10%|█         | 7937/78504 [4:49:01<28:43:24,  1.47s/it] 10%|█         | 7938/78504 [4:49:02<26:43:55,  1.36s/it]                                                         {'loss': 0.2242, 'grad_norm': 0.6930940747261047, 'learning_rate': 2.9965181945564946e-05, 'epoch': 2.43}
 10%|█         | 7938/78504 [4:49:02<26:43:55,  1.36s/it] 10%|█         | 7939/78504 [4:49:03<25:06:16,  1.28s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.8226381540298462, 'learning_rate': 2.9964757335145005e-05, 'epoch': 2.43}
 10%|█         | 7939/78504 [4:49:03<25:06:16,  1.28s/it] 10%|█         | 7940/78504 [4:49:04<23:27:12,  1.20s/it]                                                         {'loss': 0.2088, 'grad_norm': 1.3652799129486084, 'learning_rate': 2.9964332724725067e-05, 'epoch': 2.43}
 10%|█         | 7940/78504 [4:49:04<23:27:12,  1.20s/it] 10%|█         | 7941/78504 [4:49:05<21:53:27,  1.12s/it]                                                         {'loss': 0.2487, 'grad_norm': 1.1806894540786743, 'learning_rate': 2.9963908114305126e-05, 'epoch': 2.43}
 10%|█         | 7941/78504 [4:49:05<21:53:27,  1.12s/it] 10%|█         | 7942/78504 [4:49:06<19:55:29,  1.02s/it]                                                         {'loss': 0.2783, 'grad_norm': 1.1964823007583618, 'learning_rate': 2.9963483503885188e-05, 'epoch': 2.43}
 10%|█         | 7942/78504 [4:49:06<19:55:29,  1.02s/it] 10%|█         | 7943/78504 [4:49:14<64:45:49,  3.30s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.7758735418319702, 'learning_rate': 2.9963058893465247e-05, 'epoch': 2.43}
 10%|█         | 7943/78504 [4:49:14<64:45:49,  3.30s/it] 10%|█         | 7944/78504 [4:49:17<63:47:26,  3.25s/it]                                                         {'loss': 0.0712, 'grad_norm': 0.6949077844619751, 'learning_rate': 2.996263428304531e-05, 'epoch': 2.43}
 10%|█         | 7944/78504 [4:49:17<63:47:26,  3.25s/it] 10%|█         | 7945/78504 [4:49:20<62:23:02,  3.18s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.36215680837631226, 'learning_rate': 2.9962209672625367e-05, 'epoch': 2.43}
 10%|█         | 7945/78504 [4:49:20<62:23:02,  3.18s/it] 10%|█         | 7946/78504 [4:49:23<58:53:12,  3.00s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.23642532527446747, 'learning_rate': 2.9961785062205426e-05, 'epoch': 2.43}
 10%|█         | 7946/78504 [4:49:23<58:53:12,  3.00s/it] 10%|█         | 7947/78504 [4:49:26<55:49:11,  2.85s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.5168200731277466, 'learning_rate': 2.9961360451785488e-05, 'epoch': 2.43}
 10%|█         | 7947/78504 [4:49:26<55:49:11,  2.85s/it] 10%|█         | 7948/78504 [4:49:28<52:55:50,  2.70s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.2375514954328537, 'learning_rate': 2.9960935841365547e-05, 'epoch': 2.43}
 10%|█         | 7948/78504 [4:49:28<52:55:50,  2.70s/it] 10%|█         | 7949/78504 [4:49:30<50:45:52,  2.59s/it]                                                         {'loss': 0.0504, 'grad_norm': 0.2064887285232544, 'learning_rate': 2.996051123094561e-05, 'epoch': 2.43}
 10%|█         | 7949/78504 [4:49:30<50:45:52,  2.59s/it] 10%|█         | 7950/78504 [4:49:32<47:50:07,  2.44s/it]                                                         {'loss': 0.0488, 'grad_norm': 0.26339274644851685, 'learning_rate': 2.9960086620525668e-05, 'epoch': 2.43}
 10%|█         | 7950/78504 [4:49:32<47:50:07,  2.44s/it] 10%|█         | 7951/78504 [4:49:34<45:24:27,  2.32s/it]                                                         {'loss': 0.0812, 'grad_norm': 0.31709298491477966, 'learning_rate': 2.995966201010573e-05, 'epoch': 2.43}
 10%|█         | 7951/78504 [4:49:34<45:24:27,  2.32s/it] 10%|█         | 7952/78504 [4:49:36<44:18:32,  2.26s/it]                                                         {'loss': 0.0649, 'grad_norm': 0.2175816148519516, 'learning_rate': 2.995923739968579e-05, 'epoch': 2.43}
 10%|█         | 7952/78504 [4:49:37<44:18:32,  2.26s/it] 10%|█         | 7953/78504 [4:49:38<42:40:51,  2.18s/it]                                                         {'loss': 0.0857, 'grad_norm': 0.6387092471122742, 'learning_rate': 2.995881278926585e-05, 'epoch': 2.43}
 10%|█         | 7953/78504 [4:49:38<42:40:51,  2.18s/it] 10%|█         | 7954/78504 [4:49:40<41:10:58,  2.10s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.3984636962413788, 'learning_rate': 2.995838817884591e-05, 'epoch': 2.43}
 10%|█         | 7954/78504 [4:49:40<41:10:58,  2.10s/it] 10%|█         | 7955/78504 [4:49:42<39:46:21,  2.03s/it]                                                         {'loss': 0.1102, 'grad_norm': 0.4509336054325104, 'learning_rate': 2.995796356842597e-05, 'epoch': 2.43}
 10%|█         | 7955/78504 [4:49:42<39:46:21,  2.03s/it] 10%|█         | 7956/78504 [4:49:44<37:57:44,  1.94s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.41080576181411743, 'learning_rate': 2.995753895800603e-05, 'epoch': 2.43}
 10%|█         | 7956/78504 [4:49:44<37:57:44,  1.94s/it] 10%|█         | 7957/78504 [4:49:46<36:57:48,  1.89s/it]                                                         {'loss': 0.1608, 'grad_norm': 1.7031620740890503, 'learning_rate': 2.9957114347586092e-05, 'epoch': 2.43}
 10%|█         | 7957/78504 [4:49:46<36:57:48,  1.89s/it] 10%|█         | 7958/78504 [4:49:47<35:27:51,  1.81s/it]                                                         {'loss': 0.148, 'grad_norm': 0.5393343567848206, 'learning_rate': 2.995668973716615e-05, 'epoch': 2.43}
 10%|█         | 7958/78504 [4:49:47<35:27:51,  1.81s/it] 10%|█         | 7959/78504 [4:49:49<33:46:25,  1.72s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.781764566898346, 'learning_rate': 2.995626512674621e-05, 'epoch': 2.43}
 10%|█         | 7959/78504 [4:49:49<33:46:25,  1.72s/it] 10%|█         | 7960/78504 [4:49:50<32:02:49,  1.64s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.6912841200828552, 'learning_rate': 2.995584051632627e-05, 'epoch': 2.43}
 10%|█         | 7960/78504 [4:49:50<32:02:49,  1.64s/it] 10%|█         | 7961/78504 [4:49:52<30:44:11,  1.57s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.7694900631904602, 'learning_rate': 2.995541590590633e-05, 'epoch': 2.43}
 10%|█         | 7961/78504 [4:49:52<30:44:11,  1.57s/it] 10%|█         | 7962/78504 [4:49:53<29:03:51,  1.48s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.9341328740119934, 'learning_rate': 2.9954991295486392e-05, 'epoch': 2.43}
 10%|█         | 7962/78504 [4:49:53<29:03:51,  1.48s/it] 10%|█         | 7963/78504 [4:49:54<27:09:02,  1.39s/it]                                                         {'loss': 0.2346, 'grad_norm': 1.1374765634536743, 'learning_rate': 2.995456668506645e-05, 'epoch': 2.43}
 10%|█         | 7963/78504 [4:49:54<27:09:02,  1.39s/it] 10%|█         | 7964/78504 [4:49:55<25:28:02,  1.30s/it]                                                         {'loss': 0.2322, 'grad_norm': 0.9107559323310852, 'learning_rate': 2.9954142074646513e-05, 'epoch': 2.43}
 10%|█         | 7964/78504 [4:49:55<25:28:02,  1.30s/it] 10%|█         | 7965/78504 [4:49:56<23:41:51,  1.21s/it]                                                         {'loss': 0.2004, 'grad_norm': 1.9712393283843994, 'learning_rate': 2.9953717464226572e-05, 'epoch': 2.44}
 10%|█         | 7965/78504 [4:49:56<23:41:51,  1.21s/it] 10%|█         | 7966/78504 [4:49:57<22:01:39,  1.12s/it]                                                         {'loss': 0.2201, 'grad_norm': 1.1866203546524048, 'learning_rate': 2.9953292853806634e-05, 'epoch': 2.44}
 10%|█         | 7966/78504 [4:49:57<22:01:39,  1.12s/it] 10%|█         | 7967/78504 [4:49:58<19:58:48,  1.02s/it]                                                         {'loss': 0.2966, 'grad_norm': 1.6260290145874023, 'learning_rate': 2.9952868243386693e-05, 'epoch': 2.44}
 10%|█         | 7967/78504 [4:49:58<19:58:48,  1.02s/it] 10%|█         | 7968/78504 [4:50:06<62:30:45,  3.19s/it]                                                         {'loss': 0.1876, 'grad_norm': 0.8199893236160278, 'learning_rate': 2.9952443632966755e-05, 'epoch': 2.44}
 10%|█         | 7968/78504 [4:50:06<62:30:45,  3.19s/it] 10%|█         | 7969/78504 [4:50:09<62:11:51,  3.17s/it]                                                         {'loss': 0.0975, 'grad_norm': 0.4886553883552551, 'learning_rate': 2.9952019022546813e-05, 'epoch': 2.44}
 10%|█         | 7969/78504 [4:50:09<62:11:51,  3.17s/it] 10%|█         | 7970/78504 [4:50:12<61:17:12,  3.13s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.5316845774650574, 'learning_rate': 2.9951594412126876e-05, 'epoch': 2.44}
 10%|█         | 7970/78504 [4:50:12<61:17:12,  3.13s/it] 10%|█         | 7971/78504 [4:50:15<56:37:47,  2.89s/it]                                                         {'loss': 0.0634, 'grad_norm': 0.39579665660858154, 'learning_rate': 2.9951169801706934e-05, 'epoch': 2.44}
 10%|█         | 7971/78504 [4:50:15<56:37:47,  2.89s/it] 10%|█         | 7972/78504 [4:50:17<54:08:09,  2.76s/it]                                                         {'loss': 0.06, 'grad_norm': 2.8089475631713867, 'learning_rate': 2.9950745191286993e-05, 'epoch': 2.44}
 10%|█         | 7972/78504 [4:50:17<54:08:09,  2.76s/it] 10%|█         | 7973/78504 [4:50:19<51:12:41,  2.61s/it]                                                         {'loss': 0.0476, 'grad_norm': 0.27410802245140076, 'learning_rate': 2.9950320580867055e-05, 'epoch': 2.44}
 10%|█         | 7973/78504 [4:50:19<51:12:41,  2.61s/it] 10%|█         | 7974/78504 [4:50:22<49:27:33,  2.52s/it]                                                         {'loss': 0.061, 'grad_norm': 0.5204256772994995, 'learning_rate': 2.9949895970447114e-05, 'epoch': 2.44}
 10%|█         | 7974/78504 [4:50:22<49:27:33,  2.52s/it] 10%|█         | 7975/78504 [4:50:24<48:09:51,  2.46s/it]                                                         {'loss': 0.0941, 'grad_norm': 0.4446132183074951, 'learning_rate': 2.9949471360027176e-05, 'epoch': 2.44}
 10%|█         | 7975/78504 [4:50:24<48:09:51,  2.46s/it] 10%|█         | 7976/78504 [4:50:26<46:32:32,  2.38s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.38393083214759827, 'learning_rate': 2.9949046749607234e-05, 'epoch': 2.44}
 10%|█         | 7976/78504 [4:50:26<46:32:32,  2.38s/it] 10%|█         | 7977/78504 [4:50:28<45:20:08,  2.31s/it]                                                         {'loss': 0.064, 'grad_norm': 0.5330730080604553, 'learning_rate': 2.9948622139187297e-05, 'epoch': 2.44}
 10%|█         | 7977/78504 [4:50:28<45:20:08,  2.31s/it] 10%|█         | 7978/78504 [4:50:30<42:39:10,  2.18s/it]                                                         {'loss': 0.1216, 'grad_norm': 0.4874364137649536, 'learning_rate': 2.9948197528767355e-05, 'epoch': 2.44}
 10%|█         | 7978/78504 [4:50:30<42:39:10,  2.18s/it] 10%|█         | 7979/78504 [4:50:32<41:29:16,  2.12s/it]                                                         {'loss': 0.091, 'grad_norm': 0.6190516352653503, 'learning_rate': 2.9947772918347417e-05, 'epoch': 2.44}
 10%|█         | 7979/78504 [4:50:32<41:29:16,  2.12s/it] 10%|█         | 7980/78504 [4:50:34<40:20:21,  2.06s/it]                                                         {'loss': 0.1364, 'grad_norm': 0.6935859322547913, 'learning_rate': 2.9947348307927476e-05, 'epoch': 2.44}
 10%|█         | 7980/78504 [4:50:34<40:20:21,  2.06s/it] 10%|█         | 7981/78504 [4:50:36<39:09:35,  2.00s/it]                                                         {'loss': 0.1345, 'grad_norm': 0.6017069220542908, 'learning_rate': 2.9946923697507538e-05, 'epoch': 2.44}
 10%|█         | 7981/78504 [4:50:36<39:09:35,  2.00s/it] 10%|█         | 7982/78504 [4:50:38<37:45:26,  1.93s/it]                                                         {'loss': 0.1772, 'grad_norm': 0.5299845337867737, 'learning_rate': 2.9946499087087597e-05, 'epoch': 2.44}
 10%|█         | 7982/78504 [4:50:38<37:45:26,  1.93s/it] 10%|█         | 7983/78504 [4:50:39<36:10:26,  1.85s/it]                                                         {'loss': 0.1513, 'grad_norm': 0.5342752933502197, 'learning_rate': 2.994607447666766e-05, 'epoch': 2.44}
 10%|█         | 7983/78504 [4:50:39<36:10:26,  1.85s/it] 10%|█         | 7984/78504 [4:50:41<34:21:51,  1.75s/it]                                                         {'loss': 0.1973, 'grad_norm': 1.6347206830978394, 'learning_rate': 2.9945649866247718e-05, 'epoch': 2.44}
 10%|█         | 7984/78504 [4:50:41<34:21:51,  1.75s/it] 10%|█         | 7985/78504 [4:50:42<32:23:56,  1.65s/it]                                                         {'loss': 0.2074, 'grad_norm': 1.4335873126983643, 'learning_rate': 2.9945225255827776e-05, 'epoch': 2.44}
 10%|█         | 7985/78504 [4:50:42<32:23:56,  1.65s/it] 10%|█         | 7986/78504 [4:50:44<31:00:45,  1.58s/it]                                                         {'loss': 0.2239, 'grad_norm': 0.7595264911651611, 'learning_rate': 2.994480064540784e-05, 'epoch': 2.44}
 10%|█         | 7986/78504 [4:50:44<31:00:45,  1.58s/it] 10%|█         | 7987/78504 [4:50:45<28:53:48,  1.48s/it]                                                         {'loss': 0.2135, 'grad_norm': 0.7178658843040466, 'learning_rate': 2.9944376034987897e-05, 'epoch': 2.44}
 10%|█         | 7987/78504 [4:50:45<28:53:48,  1.48s/it] 10%|█         | 7988/78504 [4:50:46<26:59:06,  1.38s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.8540993332862854, 'learning_rate': 2.994395142456796e-05, 'epoch': 2.44}
 10%|█         | 7988/78504 [4:50:46<26:59:06,  1.38s/it] 10%|█         | 7989/78504 [4:50:47<25:18:07,  1.29s/it]                                                         {'loss': 0.2006, 'grad_norm': 0.7493446469306946, 'learning_rate': 2.9943526814148018e-05, 'epoch': 2.44}
 10%|█         | 7989/78504 [4:50:47<25:18:07,  1.29s/it] 10%|█         | 7990/78504 [4:50:48<23:34:24,  1.20s/it]                                                         {'loss': 0.2837, 'grad_norm': 2.12689208984375, 'learning_rate': 2.994310220372808e-05, 'epoch': 2.44}
 10%|█         | 7990/78504 [4:50:48<23:34:24,  1.20s/it] 10%|█         | 7991/78504 [4:50:49<21:55:55,  1.12s/it]                                                         {'loss': 0.232, 'grad_norm': 1.3828213214874268, 'learning_rate': 2.994267759330814e-05, 'epoch': 2.44}
 10%|█         | 7991/78504 [4:50:49<21:55:55,  1.12s/it] 10%|█         | 7992/78504 [4:50:50<19:58:15,  1.02s/it]                                                         {'loss': 0.2718, 'grad_norm': 1.5804284811019897, 'learning_rate': 2.99422529828882e-05, 'epoch': 2.44}
 10%|█         | 7992/78504 [4:50:50<19:58:15,  1.02s/it] 10%|█         | 7993/78504 [4:51:00<69:56:39,  3.57s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.5417662858963013, 'learning_rate': 2.994182837246826e-05, 'epoch': 2.44}
 10%|█         | 7993/78504 [4:51:00<69:56:39,  3.57s/it] 10%|█         | 7994/78504 [4:51:03<66:54:38,  3.42s/it]                                                         {'loss': 0.078, 'grad_norm': 0.297852486371994, 'learning_rate': 2.994140376204832e-05, 'epoch': 2.44}
 10%|█         | 7994/78504 [4:51:03<66:54:38,  3.42s/it] 10%|█         | 7995/78504 [4:51:06<64:32:35,  3.30s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.29042428731918335, 'learning_rate': 2.994097915162838e-05, 'epoch': 2.44}
 10%|█         | 7995/78504 [4:51:06<64:32:35,  3.30s/it] 10%|█         | 7996/78504 [4:51:08<60:32:49,  3.09s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.49607595801353455, 'learning_rate': 2.9940554541208442e-05, 'epoch': 2.44}
 10%|█         | 7996/78504 [4:51:08<60:32:49,  3.09s/it] 10%|█         | 7997/78504 [4:51:11<56:13:43,  2.87s/it]                                                         {'loss': 0.0811, 'grad_norm': 0.3515443205833435, 'learning_rate': 2.99401299307885e-05, 'epoch': 2.44}
 10%|█         | 7997/78504 [4:51:11<56:13:43,  2.87s/it] 10%|█         | 7998/78504 [4:51:13<52:40:05,  2.69s/it]                                                         {'loss': 0.0577, 'grad_norm': 0.4120791554450989, 'learning_rate': 2.993970532036856e-05, 'epoch': 2.45}
 10%|█         | 7998/78504 [4:51:13<52:40:05,  2.69s/it] 10%|█         | 7999/78504 [4:51:15<50:33:12,  2.58s/it]                                                         {'loss': 0.0559, 'grad_norm': 0.2784789800643921, 'learning_rate': 2.9939280709948622e-05, 'epoch': 2.45}
 10%|█         | 7999/78504 [4:51:15<50:33:12,  2.58s/it] 10%|█         | 8000/78504 [4:51:17<47:39:38,  2.43s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.4124196767807007, 'learning_rate': 2.993885609952868e-05, 'epoch': 2.45}
 10%|█         | 8000/78504 [4:51:17<47:39:38,  2.43s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.27it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.53it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.62it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.81it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.10it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.53it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.58it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.82it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.19it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.46it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.63it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.92it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.33it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.22it/s][A                                                         
                                               [A{'eval_loss': 0.2634495496749878, 'eval_wer': 0.34730873439289406, 'eval_cer': 0.19486541629842996, 'eval_runtime': 18.8539, 'eval_samples_per_second': 240.693, 'eval_steps_per_second': 0.796, 'epoch': 2.45}
 10%|█         | 8000/78504 [4:52:22<47:39:38,  2.43s/it]
100%|██████████| 15/15 [00:11<00:00,  1.22it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-8000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-6000] due to args.save_total_limit
 10%|█         | 8001/78504 [4:52:38<507:17:06, 25.90s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.4801124036312103, 'learning_rate': 2.9938431489108743e-05, 'epoch': 2.45}
 10%|█         | 8001/78504 [4:52:38<507:17:06, 25.90s/it] 10%|█         | 8002/78504 [4:52:40<367:46:13, 18.78s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.2977868318557739, 'learning_rate': 2.99380068786888e-05, 'epoch': 2.45}
 10%|█         | 8002/78504 [4:52:40<367:46:13, 18.78s/it] 10%|█         | 8003/78504 [4:52:42<268:18:32, 13.70s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.2926197946071625, 'learning_rate': 2.9937582268268863e-05, 'epoch': 2.45}
 10%|█         | 8003/78504 [4:52:42<268:18:32, 13.70s/it] 10%|█         | 8004/78504 [4:52:44<199:22:04, 10.18s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.40979140996932983, 'learning_rate': 2.9937157657848922e-05, 'epoch': 2.45}
 10%|█         | 8004/78504 [4:52:44<199:22:04, 10.18s/it] 10%|█         | 8005/78504 [4:52:46<150:48:56,  7.70s/it]                                                          {'loss': 0.0879, 'grad_norm': 0.30364710092544556, 'learning_rate': 2.9936733047428984e-05, 'epoch': 2.45}
 10%|█         | 8005/78504 [4:52:46<150:48:56,  7.70s/it] 10%|█         | 8006/78504 [4:52:48<116:30:21,  5.95s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.3705176115036011, 'learning_rate': 2.9936308437009043e-05, 'epoch': 2.45}
 10%|█         | 8006/78504 [4:52:48<116:30:21,  5.95s/it] 10%|█         | 8007/78504 [4:52:49<91:53:37,  4.69s/it]                                                          {'loss': 0.155, 'grad_norm': 0.6467152833938599, 'learning_rate': 2.9935883826589105e-05, 'epoch': 2.45}
 10%|█         | 8007/78504 [4:52:49<91:53:37,  4.69s/it] 10%|█         | 8008/78504 [4:52:51<73:57:45,  3.78s/it]                                                         {'loss': 0.1861, 'grad_norm': 0.7022431492805481, 'learning_rate': 2.9935459216169164e-05, 'epoch': 2.45}
 10%|█         | 8008/78504 [4:52:51<73:57:45,  3.78s/it] 10%|█         | 8009/78504 [4:52:53<60:48:26,  3.11s/it]                                                         {'loss': 0.1544, 'grad_norm': 0.5121182799339294, 'learning_rate': 2.9935034605749226e-05, 'epoch': 2.45}
 10%|█         | 8009/78504 [4:52:53<60:48:26,  3.11s/it] 10%|█         | 8010/78504 [4:52:54<51:08:05,  2.61s/it]                                                         {'loss': 0.1675, 'grad_norm': 1.095749020576477, 'learning_rate': 2.9934609995329288e-05, 'epoch': 2.45}
 10%|█         | 8010/78504 [4:52:54<51:08:05,  2.61s/it] 10%|█         | 8011/78504 [4:52:55<43:56:29,  2.24s/it]                                                         {'loss': 0.1885, 'grad_norm': 1.7698172330856323, 'learning_rate': 2.9934185384909347e-05, 'epoch': 2.45}
 10%|█         | 8011/78504 [4:52:55<43:56:29,  2.24s/it] 10%|█         | 8012/78504 [4:52:57<38:16:18,  1.95s/it]                                                         {'loss': 0.2042, 'grad_norm': 0.8751893639564514, 'learning_rate': 2.993376077448941e-05, 'epoch': 2.45}
 10%|█         | 8012/78504 [4:52:57<38:16:18,  1.95s/it] 10%|█         | 8013/78504 [4:52:58<33:31:57,  1.71s/it]                                                         {'loss': 0.236, 'grad_norm': 1.0434867143630981, 'learning_rate': 2.9933336164069467e-05, 'epoch': 2.45}
 10%|█         | 8013/78504 [4:52:58<33:31:57,  1.71s/it] 10%|█         | 8014/78504 [4:52:59<29:50:04,  1.52s/it]                                                         {'loss': 0.236, 'grad_norm': 0.9864802360534668, 'learning_rate': 2.993291155364953e-05, 'epoch': 2.45}
 10%|█         | 8014/78504 [4:52:59<29:50:04,  1.52s/it] 10%|█         | 8015/78504 [4:53:00<27:01:36,  1.38s/it]                                                         {'loss': 0.2281, 'grad_norm': 1.355552077293396, 'learning_rate': 2.9932486943229588e-05, 'epoch': 2.45}
 10%|█         | 8015/78504 [4:53:00<27:01:36,  1.38s/it] 10%|█         | 8016/78504 [4:53:01<24:24:46,  1.25s/it]                                                         {'loss': 0.244, 'grad_norm': 2.312650203704834, 'learning_rate': 2.993206233280965e-05, 'epoch': 2.45}
 10%|█         | 8016/78504 [4:53:01<24:24:46,  1.25s/it] 10%|█         | 8017/78504 [4:53:02<21:42:18,  1.11s/it]                                                         {'loss': 0.3019, 'grad_norm': 1.6670249700546265, 'learning_rate': 2.993163772238971e-05, 'epoch': 2.45}
 10%|█         | 8017/78504 [4:53:02<21:42:18,  1.11s/it] 10%|█         | 8018/78504 [4:53:12<73:21:17,  3.75s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.5474679470062256, 'learning_rate': 2.993121311196977e-05, 'epoch': 2.45}
 10%|█         | 8018/78504 [4:53:12<73:21:17,  3.75s/it] 10%|█         | 8019/78504 [4:53:15<71:00:45,  3.63s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.42796480655670166, 'learning_rate': 2.993078850154983e-05, 'epoch': 2.45}
 10%|█         | 8019/78504 [4:53:15<71:00:45,  3.63s/it] 10%|█         | 8020/78504 [4:53:18<67:20:43,  3.44s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.30831700563430786, 'learning_rate': 2.9930363891129892e-05, 'epoch': 2.45}
 10%|█         | 8020/78504 [4:53:18<67:20:43,  3.44s/it] 10%|█         | 8021/78504 [4:53:21<62:28:52,  3.19s/it]                                                         {'loss': 0.0713, 'grad_norm': 0.3181995153427124, 'learning_rate': 2.992993928070995e-05, 'epoch': 2.45}
 10%|█         | 8021/78504 [4:53:21<62:28:52,  3.19s/it] 10%|█         | 8022/78504 [4:53:23<58:12:05,  2.97s/it]                                                         {'loss': 0.0926, 'grad_norm': 0.423006534576416, 'learning_rate': 2.9929514670290013e-05, 'epoch': 2.45}
 10%|█         | 8022/78504 [4:53:23<58:12:05,  2.97s/it] 10%|█         | 8023/78504 [4:53:25<53:59:39,  2.76s/it]                                                         {'loss': 0.0604, 'grad_norm': 0.27026137709617615, 'learning_rate': 2.992909005987007e-05, 'epoch': 2.45}
 10%|█         | 8023/78504 [4:53:25<53:59:39,  2.76s/it] 10%|█         | 8024/78504 [4:53:28<51:21:09,  2.62s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.34934931993484497, 'learning_rate': 2.992866544945013e-05, 'epoch': 2.45}
 10%|█         | 8024/78504 [4:53:28<51:21:09,  2.62s/it] 10%|█         | 8025/78504 [4:53:30<48:20:11,  2.47s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.25592413544654846, 'learning_rate': 2.9928240839030192e-05, 'epoch': 2.45}
 10%|█         | 8025/78504 [4:53:30<48:20:11,  2.47s/it] 10%|█         | 8026/78504 [4:53:32<45:41:29,  2.33s/it]                                                         {'loss': 0.117, 'grad_norm': 0.49087315797805786, 'learning_rate': 2.992781622861025e-05, 'epoch': 2.45}
 10%|█         | 8026/78504 [4:53:32<45:41:29,  2.33s/it] 10%|█         | 8027/78504 [4:53:34<44:30:17,  2.27s/it]                                                         {'loss': 0.1172, 'grad_norm': 0.36434975266456604, 'learning_rate': 2.9927391618190313e-05, 'epoch': 2.45}
 10%|█         | 8027/78504 [4:53:34<44:30:17,  2.27s/it] 10%|█         | 8028/78504 [4:53:36<42:50:14,  2.19s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.42360666394233704, 'learning_rate': 2.992696700777037e-05, 'epoch': 2.45}
 10%|█         | 8028/78504 [4:53:36<42:50:14,  2.19s/it] 10%|█         | 8029/78504 [4:53:38<40:30:43,  2.07s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.2884521484375, 'learning_rate': 2.9926542397350434e-05, 'epoch': 2.45}
 10%|█         | 8029/78504 [4:53:38<40:30:43,  2.07s/it] 10%|█         | 8030/78504 [4:53:40<39:16:10,  2.01s/it]                                                         {'loss': 0.1217, 'grad_norm': 0.42677128314971924, 'learning_rate': 2.9926117786930492e-05, 'epoch': 2.45}
 10%|█         | 8030/78504 [4:53:40<39:16:10,  2.01s/it] 10%|█         | 8031/78504 [4:53:41<38:15:29,  1.95s/it]                                                         {'loss': 0.1235, 'grad_norm': 0.49454888701438904, 'learning_rate': 2.9925693176510554e-05, 'epoch': 2.46}
 10%|█         | 8031/78504 [4:53:41<38:15:29,  1.95s/it] 10%|█         | 8032/78504 [4:53:43<36:57:33,  1.89s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.49173295497894287, 'learning_rate': 2.9925268566090613e-05, 'epoch': 2.46}
 10%|█         | 8032/78504 [4:53:43<36:57:33,  1.89s/it] 10%|█         | 8033/78504 [4:53:45<35:26:29,  1.81s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.6854293346405029, 'learning_rate': 2.9924843955670675e-05, 'epoch': 2.46}
 10%|█         | 8033/78504 [4:53:45<35:26:29,  1.81s/it] 10%|█         | 8034/78504 [4:53:46<33:51:22,  1.73s/it]                                                         {'loss': 0.1763, 'grad_norm': 0.8106250762939453, 'learning_rate': 2.9924419345250734e-05, 'epoch': 2.46}
 10%|█         | 8034/78504 [4:53:46<33:51:22,  1.73s/it] 10%|█         | 8035/78504 [4:53:48<32:18:02,  1.65s/it]                                                         {'loss': 0.1814, 'grad_norm': 0.5504964590072632, 'learning_rate': 2.9923994734830793e-05, 'epoch': 2.46}
 10%|█         | 8035/78504 [4:53:48<32:18:02,  1.65s/it] 10%|█         | 8036/78504 [4:53:49<30:53:01,  1.58s/it]                                                         {'loss': 0.181, 'grad_norm': 0.9781885743141174, 'learning_rate': 2.9923570124410855e-05, 'epoch': 2.46}
 10%|█         | 8036/78504 [4:53:49<30:53:01,  1.58s/it] 10%|█         | 8037/78504 [4:53:50<28:44:30,  1.47s/it]                                                         {'loss': 0.1691, 'grad_norm': 1.3313504457473755, 'learning_rate': 2.9923145513990913e-05, 'epoch': 2.46}
 10%|█         | 8037/78504 [4:53:50<28:44:30,  1.47s/it] 10%|█         | 8038/78504 [4:53:51<26:42:20,  1.36s/it]                                                         {'loss': 0.2195, 'grad_norm': 1.1838202476501465, 'learning_rate': 2.9922720903570976e-05, 'epoch': 2.46}
 10%|█         | 8038/78504 [4:53:52<26:42:20,  1.36s/it] 10%|█         | 8039/78504 [4:53:53<25:08:01,  1.28s/it]                                                         {'loss': 0.2265, 'grad_norm': 1.1167725324630737, 'learning_rate': 2.9922296293151034e-05, 'epoch': 2.46}
 10%|█         | 8039/78504 [4:53:53<25:08:01,  1.28s/it] 10%|█         | 8040/78504 [4:53:54<23:24:45,  1.20s/it]                                                         {'loss': 0.279, 'grad_norm': 0.9777399897575378, 'learning_rate': 2.9921871682731096e-05, 'epoch': 2.46}
 10%|█         | 8040/78504 [4:53:54<23:24:45,  1.20s/it] 10%|█         | 8041/78504 [4:53:54<21:49:28,  1.12s/it]                                                         {'loss': 0.2429, 'grad_norm': 1.9793951511383057, 'learning_rate': 2.9921447072311155e-05, 'epoch': 2.46}
 10%|█         | 8041/78504 [4:53:55<21:49:28,  1.12s/it] 10%|█         | 8042/78504 [4:53:55<19:41:24,  1.01s/it]                                                         {'loss': 0.3324, 'grad_norm': 1.2426371574401855, 'learning_rate': 2.9921022461891217e-05, 'epoch': 2.46}
 10%|█         | 8042/78504 [4:53:55<19:41:24,  1.01s/it] 10%|█         | 8043/78504 [4:54:05<71:01:04,  3.63s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.8595341444015503, 'learning_rate': 2.9920597851471276e-05, 'epoch': 2.46}
 10%|█         | 8043/78504 [4:54:05<71:01:04,  3.63s/it] 10%|█         | 8044/78504 [4:54:08<68:07:01,  3.48s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.31563714146614075, 'learning_rate': 2.9920173241051338e-05, 'epoch': 2.46}
 10%|█         | 8044/78504 [4:54:08<68:07:01,  3.48s/it] 10%|█         | 8045/78504 [4:54:11<64:51:35,  3.31s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.2818988561630249, 'learning_rate': 2.9919748630631397e-05, 'epoch': 2.46}
 10%|█         | 8045/78504 [4:54:11<64:51:35,  3.31s/it] 10%|█         | 8046/78504 [4:54:13<59:38:16,  3.05s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.6245784759521484, 'learning_rate': 2.991932402021146e-05, 'epoch': 2.46}
 10%|█         | 8046/78504 [4:54:14<59:38:16,  3.05s/it] 10%|█         | 8047/78504 [4:54:16<56:23:13,  2.88s/it]                                                         {'loss': 0.0589, 'grad_norm': 0.46191713213920593, 'learning_rate': 2.9918899409791517e-05, 'epoch': 2.46}
 10%|█         | 8047/78504 [4:54:16<56:23:13,  2.88s/it] 10%|█         | 8048/78504 [4:54:18<53:43:56,  2.75s/it]                                                         {'loss': 0.0597, 'grad_norm': 0.3702324330806732, 'learning_rate': 2.9918474799371576e-05, 'epoch': 2.46}
 10%|█         | 8048/78504 [4:54:18<53:43:56,  2.75s/it] 10%|█         | 8049/78504 [4:54:21<51:13:46,  2.62s/it]                                                         {'loss': 0.058, 'grad_norm': 0.42403385043144226, 'learning_rate': 2.9918050188951638e-05, 'epoch': 2.46}
 10%|█         | 8049/78504 [4:54:21<51:13:46,  2.62s/it] 10%|█         | 8050/78504 [4:54:23<49:24:08,  2.52s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.28788161277770996, 'learning_rate': 2.9917625578531697e-05, 'epoch': 2.46}
 10%|█         | 8050/78504 [4:54:23<49:24:08,  2.52s/it] 10%|█         | 8051/78504 [4:54:25<47:28:03,  2.43s/it]                                                         {'loss': 0.0608, 'grad_norm': 0.3770267069339752, 'learning_rate': 2.991720096811176e-05, 'epoch': 2.46}
 10%|█         | 8051/78504 [4:54:25<47:28:03,  2.43s/it] 10%|█         | 8052/78504 [4:54:27<45:57:52,  2.35s/it]                                                         {'loss': 0.1151, 'grad_norm': 0.3677668571472168, 'learning_rate': 2.9916776357691818e-05, 'epoch': 2.46}
 10%|█         | 8052/78504 [4:54:27<45:57:52,  2.35s/it] 10%|█         | 8053/78504 [4:54:29<44:03:36,  2.25s/it]                                                         {'loss': 0.1209, 'grad_norm': 0.45261481404304504, 'learning_rate': 2.991635174727188e-05, 'epoch': 2.46}
 10%|█         | 8053/78504 [4:54:29<44:03:36,  2.25s/it] 10%|█         | 8054/78504 [4:54:31<42:26:51,  2.17s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.2829691767692566, 'learning_rate': 2.991592713685194e-05, 'epoch': 2.46}
 10%|█         | 8054/78504 [4:54:31<42:26:51,  2.17s/it] 10%|█         | 8055/78504 [4:54:33<40:38:02,  2.08s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.3819495737552643, 'learning_rate': 2.9915502526432e-05, 'epoch': 2.46}
 10%|█         | 8055/78504 [4:54:33<40:38:02,  2.08s/it] 10%|█         | 8056/78504 [4:54:35<39:27:47,  2.02s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.48958489298820496, 'learning_rate': 2.991507791601206e-05, 'epoch': 2.46}
 10%|█         | 8056/78504 [4:54:35<39:27:47,  2.02s/it] 10%|█         | 8057/78504 [4:54:37<38:00:29,  1.94s/it]                                                         {'loss': 0.1354, 'grad_norm': 2.0266237258911133, 'learning_rate': 2.991465330559212e-05, 'epoch': 2.46}
 10%|█         | 8057/78504 [4:54:37<38:00:29,  1.94s/it] 10%|█         | 8058/78504 [4:54:39<36:21:05,  1.86s/it]                                                         {'loss': 0.1607, 'grad_norm': 0.4574490487575531, 'learning_rate': 2.991422869517218e-05, 'epoch': 2.46}
 10%|█         | 8058/78504 [4:54:39<36:21:05,  1.86s/it] 10%|█         | 8059/78504 [4:54:40<34:29:46,  1.76s/it]                                                         {'loss': 0.1736, 'grad_norm': 0.5634899735450745, 'learning_rate': 2.9913804084752242e-05, 'epoch': 2.46}
 10%|█         | 8059/78504 [4:54:40<34:29:46,  1.76s/it] 10%|█         | 8060/78504 [4:54:42<32:46:01,  1.67s/it]                                                         {'loss': 0.2203, 'grad_norm': 1.4209845066070557, 'learning_rate': 2.99133794743323e-05, 'epoch': 2.46}
 10%|█         | 8060/78504 [4:54:42<32:46:01,  1.67s/it] 10%|█         | 8061/78504 [4:54:43<31:16:01,  1.60s/it]                                                         {'loss': 0.1991, 'grad_norm': 0.9145939350128174, 'learning_rate': 2.991295486391236e-05, 'epoch': 2.46}
 10%|█         | 8061/78504 [4:54:43<31:16:01,  1.60s/it] 10%|█         | 8062/78504 [4:54:44<29:02:26,  1.48s/it]                                                         {'loss': 0.2083, 'grad_norm': 0.7416648268699646, 'learning_rate': 2.991253025349242e-05, 'epoch': 2.46}
 10%|█         | 8062/78504 [4:54:44<29:02:26,  1.48s/it] 10%|█         | 8063/78504 [4:54:45<27:05:05,  1.38s/it]                                                         {'loss': 0.2357, 'grad_norm': 0.9203619956970215, 'learning_rate': 2.991210564307248e-05, 'epoch': 2.46}
 10%|█         | 8063/78504 [4:54:45<27:05:05,  1.38s/it] 10%|█         | 8064/78504 [4:54:46<25:26:14,  1.30s/it]                                                         {'loss': 0.2203, 'grad_norm': 0.7641226649284363, 'learning_rate': 2.9911681032652542e-05, 'epoch': 2.47}
 10%|█         | 8064/78504 [4:54:46<25:26:14,  1.30s/it] 10%|█         | 8065/78504 [4:54:48<24:02:17,  1.23s/it]                                                         {'loss': 0.2712, 'grad_norm': 1.3474775552749634, 'learning_rate': 2.99112564222326e-05, 'epoch': 2.47}
 10%|█         | 8065/78504 [4:54:48<24:02:17,  1.23s/it] 10%|█         | 8066/78504 [4:54:48<22:18:57,  1.14s/it]                                                         {'loss': 0.1904, 'grad_norm': 1.0098296403884888, 'learning_rate': 2.9910831811812663e-05, 'epoch': 2.47}
 10%|█         | 8066/78504 [4:54:48<22:18:57,  1.14s/it] 10%|█         | 8067/78504 [4:54:49<20:10:14,  1.03s/it]                                                         {'loss': 0.3026, 'grad_norm': 3.683748960494995, 'learning_rate': 2.9910407201392722e-05, 'epoch': 2.47}
 10%|█         | 8067/78504 [4:54:49<20:10:14,  1.03s/it] 10%|█         | 8068/78504 [4:54:58<63:00:27,  3.22s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.5322412848472595, 'learning_rate': 2.9909982590972784e-05, 'epoch': 2.47}
 10%|█         | 8068/78504 [4:54:58<63:00:27,  3.22s/it] 10%|█         | 8069/78504 [4:55:01<63:48:16,  3.26s/it]                                                         {'loss': 0.094, 'grad_norm': 0.6744182109832764, 'learning_rate': 2.9909557980552843e-05, 'epoch': 2.47}
 10%|█         | 8069/78504 [4:55:01<63:48:16,  3.26s/it] 10%|█         | 8070/78504 [4:55:03<59:44:38,  3.05s/it]                                                         {'loss': 0.091, 'grad_norm': 0.33919399976730347, 'learning_rate': 2.9909133370132905e-05, 'epoch': 2.47}
 10%|█         | 8070/78504 [4:55:04<59:44:38,  3.05s/it] 10%|█         | 8071/78504 [4:55:06<57:11:01,  2.92s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.2118224948644638, 'learning_rate': 2.9908708759712963e-05, 'epoch': 2.47}
 10%|█         | 8071/78504 [4:55:06<57:11:01,  2.92s/it] 10%|█         | 8072/78504 [4:55:09<54:33:39,  2.79s/it]                                                         {'loss': 0.0545, 'grad_norm': 0.4306458532810211, 'learning_rate': 2.9908284149293026e-05, 'epoch': 2.47}
 10%|█         | 8072/78504 [4:55:09<54:33:39,  2.79s/it] 10%|█         | 8073/78504 [4:55:11<51:30:35,  2.63s/it]                                                         {'loss': 0.0547, 'grad_norm': 0.6232031583786011, 'learning_rate': 2.9907859538873084e-05, 'epoch': 2.47}
 10%|█         | 8073/78504 [4:55:11<51:30:35,  2.63s/it] 10%|█         | 8074/78504 [4:55:13<49:41:17,  2.54s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.851924479007721, 'learning_rate': 2.9907434928453143e-05, 'epoch': 2.47}
 10%|█         | 8074/78504 [4:55:13<49:41:17,  2.54s/it] 10%|█         | 8075/78504 [4:55:15<47:04:36,  2.41s/it]                                                         {'loss': 0.0497, 'grad_norm': 0.3052920997142792, 'learning_rate': 2.9907010318033205e-05, 'epoch': 2.47}
 10%|█         | 8075/78504 [4:55:15<47:04:36,  2.41s/it] 10%|█         | 8076/78504 [4:55:17<44:53:22,  2.29s/it]                                                         {'loss': 0.1002, 'grad_norm': 0.3377465009689331, 'learning_rate': 2.9906585707613264e-05, 'epoch': 2.47}
 10%|█         | 8076/78504 [4:55:17<44:53:22,  2.29s/it] 10%|█         | 8077/78504 [4:55:19<44:00:10,  2.25s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.26802337169647217, 'learning_rate': 2.9906161097193326e-05, 'epoch': 2.47}
 10%|█         | 8077/78504 [4:55:19<44:00:10,  2.25s/it] 10%|█         | 8078/78504 [4:55:21<42:44:07,  2.18s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.47520357370376587, 'learning_rate': 2.9905736486773385e-05, 'epoch': 2.47}
 10%|█         | 8078/78504 [4:55:22<42:44:07,  2.18s/it] 10%|█         | 8079/78504 [4:55:23<41:32:10,  2.12s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.305033415555954, 'learning_rate': 2.9905311876353447e-05, 'epoch': 2.47}
 10%|█         | 8079/78504 [4:55:23<41:32:10,  2.12s/it] 10%|█         | 8080/78504 [4:55:25<40:09:49,  2.05s/it]                                                         {'loss': 0.111, 'grad_norm': 0.6167755126953125, 'learning_rate': 2.9904887265933505e-05, 'epoch': 2.47}
 10%|█         | 8080/78504 [4:55:25<40:09:49,  2.05s/it] 10%|█         | 8081/78504 [4:55:27<39:15:33,  2.01s/it]                                                         {'loss': 0.1267, 'grad_norm': 0.4931790828704834, 'learning_rate': 2.9904462655513567e-05, 'epoch': 2.47}
 10%|█         | 8081/78504 [4:55:27<39:15:33,  2.01s/it] 10%|█         | 8082/78504 [4:55:29<37:48:03,  1.93s/it]                                                         {'loss': 0.1411, 'grad_norm': 0.7526784539222717, 'learning_rate': 2.9904038045093626e-05, 'epoch': 2.47}
 10%|█         | 8082/78504 [4:55:29<37:48:03,  1.93s/it] 10%|█         | 8083/78504 [4:55:31<36:06:59,  1.85s/it]                                                         {'loss': 0.1368, 'grad_norm': 0.8409481048583984, 'learning_rate': 2.9903613434673688e-05, 'epoch': 2.47}
 10%|█         | 8083/78504 [4:55:31<36:06:59,  1.85s/it] 10%|█         | 8084/78504 [4:55:32<34:21:40,  1.76s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.7733150124549866, 'learning_rate': 2.9903188824253747e-05, 'epoch': 2.47}
 10%|█         | 8084/78504 [4:55:32<34:21:40,  1.76s/it] 10%|█         | 8085/78504 [4:55:34<32:52:23,  1.68s/it]                                                         {'loss': 0.195, 'grad_norm': 1.2044223546981812, 'learning_rate': 2.990276421383381e-05, 'epoch': 2.47}
 10%|█         | 8085/78504 [4:55:34<32:52:23,  1.68s/it] 10%|█         | 8086/78504 [4:55:35<31:11:30,  1.59s/it]                                                         {'loss': 0.1637, 'grad_norm': 1.1435072422027588, 'learning_rate': 2.9902339603413868e-05, 'epoch': 2.47}
 10%|█         | 8086/78504 [4:55:35<31:11:30,  1.59s/it] 10%|█         | 8087/78504 [4:55:36<29:19:14,  1.50s/it]                                                         {'loss': 0.1994, 'grad_norm': 1.3542557954788208, 'learning_rate': 2.9901914992993926e-05, 'epoch': 2.47}
 10%|█         | 8087/78504 [4:55:36<29:19:14,  1.50s/it] 10%|█         | 8088/78504 [4:55:38<27:16:24,  1.39s/it]                                                         {'loss': 0.205, 'grad_norm': 1.305058479309082, 'learning_rate': 2.990149038257399e-05, 'epoch': 2.47}
 10%|█         | 8088/78504 [4:55:38<27:16:24,  1.39s/it] 10%|█         | 8089/78504 [4:55:39<25:33:55,  1.31s/it]                                                         {'loss': 0.2211, 'grad_norm': 1.373839020729065, 'learning_rate': 2.9901065772154047e-05, 'epoch': 2.47}
 10%|█         | 8089/78504 [4:55:39<25:33:55,  1.31s/it] 10%|█         | 8090/78504 [4:55:40<23:49:17,  1.22s/it]                                                         {'loss': 0.2173, 'grad_norm': 0.7773467302322388, 'learning_rate': 2.990064116173411e-05, 'epoch': 2.47}
 10%|█         | 8090/78504 [4:55:40<23:49:17,  1.22s/it] 10%|█         | 8091/78504 [4:55:41<22:07:52,  1.13s/it]                                                         {'loss': 0.2261, 'grad_norm': 1.261860728263855, 'learning_rate': 2.9900216551314168e-05, 'epoch': 2.47}
 10%|█         | 8091/78504 [4:55:41<22:07:52,  1.13s/it] 10%|█         | 8092/78504 [4:55:41<20:13:51,  1.03s/it]                                                         {'loss': 0.3032, 'grad_norm': 3.6025936603546143, 'learning_rate': 2.989979194089423e-05, 'epoch': 2.47}
 10%|█         | 8092/78504 [4:55:41<20:13:51,  1.03s/it] 10%|█         | 8093/78504 [4:55:51<72:53:47,  3.73s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.370749831199646, 'learning_rate': 2.989936733047429e-05, 'epoch': 2.47}
 10%|█         | 8093/78504 [4:55:51<72:53:47,  3.73s/it] 10%|█         | 8094/78504 [4:55:55<70:41:21,  3.61s/it]                                                         {'loss': 0.1113, 'grad_norm': 0.5054711699485779, 'learning_rate': 2.989894272005435e-05, 'epoch': 2.47}
 10%|█         | 8094/78504 [4:55:55<70:41:21,  3.61s/it] 10%|█         | 8095/78504 [4:55:57<64:32:42,  3.30s/it]                                                         {'loss': 0.0996, 'grad_norm': 0.3044017553329468, 'learning_rate': 2.989851810963441e-05, 'epoch': 2.47}
 10%|█         | 8095/78504 [4:55:57<64:32:42,  3.30s/it] 10%|█         | 8096/78504 [4:56:00<60:16:45,  3.08s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.25899308919906616, 'learning_rate': 2.989809349921447e-05, 'epoch': 2.48}
 10%|█         | 8096/78504 [4:56:00<60:16:45,  3.08s/it] 10%|█         | 8097/78504 [4:56:02<56:47:06,  2.90s/it]                                                         {'loss': 0.0596, 'grad_norm': 0.39063388109207153, 'learning_rate': 2.989766888879453e-05, 'epoch': 2.48}
 10%|█         | 8097/78504 [4:56:02<56:47:06,  2.90s/it] 10%|█         | 8098/78504 [4:56:05<53:59:35,  2.76s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.2960585653781891, 'learning_rate': 2.9897244278374592e-05, 'epoch': 2.48}
 10%|█         | 8098/78504 [4:56:05<53:59:35,  2.76s/it] 10%|█         | 8099/78504 [4:56:07<51:23:02,  2.63s/it]                                                         {'loss': 0.0852, 'grad_norm': 0.3414613902568817, 'learning_rate': 2.989681966795465e-05, 'epoch': 2.48}
 10%|█         | 8099/78504 [4:56:07<51:23:02,  2.63s/it] 10%|█         | 8100/78504 [4:56:09<48:22:15,  2.47s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.29585352540016174, 'learning_rate': 2.989639505753471e-05, 'epoch': 2.48}
 10%|█         | 8100/78504 [4:56:09<48:22:15,  2.47s/it] 10%|█         | 8101/78504 [4:56:11<46:40:19,  2.39s/it]                                                         {'loss': 0.0753, 'grad_norm': 0.5023000836372375, 'learning_rate': 2.9895970447114772e-05, 'epoch': 2.48}
 10%|█         | 8101/78504 [4:56:11<46:40:19,  2.39s/it] 10%|█         | 8102/78504 [4:56:14<45:21:35,  2.32s/it]                                                         {'loss': 0.066, 'grad_norm': 0.2643120288848877, 'learning_rate': 2.989554583669483e-05, 'epoch': 2.48}
 10%|█         | 8102/78504 [4:56:14<45:21:35,  2.32s/it] 10%|█         | 8103/78504 [4:56:15<42:40:39,  2.18s/it]                                                         {'loss': 0.1365, 'grad_norm': 0.4079147279262543, 'learning_rate': 2.9895121226274893e-05, 'epoch': 2.48}
 10%|█         | 8103/78504 [4:56:15<42:40:39,  2.18s/it] 10%|█         | 8104/78504 [4:56:17<41:30:20,  2.12s/it]                                                         {'loss': 0.083, 'grad_norm': 0.9086787104606628, 'learning_rate': 2.989469661585495e-05, 'epoch': 2.48}
 10%|█         | 8104/78504 [4:56:17<41:30:20,  2.12s/it] 10%|█         | 8105/78504 [4:56:19<40:20:49,  2.06s/it]                                                         {'loss': 0.1082, 'grad_norm': 0.5128028392791748, 'learning_rate': 2.9894272005435013e-05, 'epoch': 2.48}
 10%|█         | 8105/78504 [4:56:19<40:20:49,  2.06s/it] 10%|█         | 8106/78504 [4:56:21<39:19:31,  2.01s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.4218543469905853, 'learning_rate': 2.9893847395015072e-05, 'epoch': 2.48}
 10%|█         | 8106/78504 [4:56:21<39:19:31,  2.01s/it] 10%|█         | 8107/78504 [4:56:23<37:50:56,  1.94s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.8942366242408752, 'learning_rate': 2.9893422784595134e-05, 'epoch': 2.48}
 10%|█         | 8107/78504 [4:56:23<37:50:56,  1.94s/it] 10%|█         | 8108/78504 [4:56:25<35:47:17,  1.83s/it]                                                         {'loss': 0.1738, 'grad_norm': 1.1899642944335938, 'learning_rate': 2.9892998174175193e-05, 'epoch': 2.48}
 10%|█         | 8108/78504 [4:56:25<35:47:17,  1.83s/it] 10%|█         | 8109/78504 [4:56:26<33:44:20,  1.73s/it]                                                         {'loss': 0.1812, 'grad_norm': 0.7334678769111633, 'learning_rate': 2.9892573563755255e-05, 'epoch': 2.48}
 10%|█         | 8109/78504 [4:56:26<33:44:20,  1.73s/it] 10%|█         | 8110/78504 [4:56:28<32:31:53,  1.66s/it]                                                         {'loss': 0.1866, 'grad_norm': 0.6443423628807068, 'learning_rate': 2.9892148953335314e-05, 'epoch': 2.48}
 10%|█         | 8110/78504 [4:56:28<32:31:53,  1.66s/it] 10%|█         | 8111/78504 [4:56:29<31:02:13,  1.59s/it]                                                         {'loss': 0.1634, 'grad_norm': 1.3256182670593262, 'learning_rate': 2.9891724342915376e-05, 'epoch': 2.48}
 10%|█         | 8111/78504 [4:56:29<31:02:13,  1.59s/it] 10%|█         | 8112/78504 [4:56:30<29:16:36,  1.50s/it]                                                         {'loss': 0.189, 'grad_norm': 0.8974039554595947, 'learning_rate': 2.9891299732495438e-05, 'epoch': 2.48}
 10%|█         | 8112/78504 [4:56:30<29:16:36,  1.50s/it] 10%|█         | 8113/78504 [4:56:31<27:14:51,  1.39s/it]                                                         {'loss': 0.1829, 'grad_norm': 0.854267954826355, 'learning_rate': 2.9890875122075497e-05, 'epoch': 2.48}
 10%|█         | 8113/78504 [4:56:31<27:14:51,  1.39s/it] 10%|█         | 8114/78504 [4:56:33<25:32:15,  1.31s/it]                                                         {'loss': 0.2222, 'grad_norm': 0.6669566035270691, 'learning_rate': 2.989045051165556e-05, 'epoch': 2.48}
 10%|█         | 8114/78504 [4:56:33<25:32:15,  1.31s/it] 10%|█         | 8115/78504 [4:56:34<23:42:24,  1.21s/it]                                                         {'loss': 0.2132, 'grad_norm': 1.186930537223816, 'learning_rate': 2.9890025901235617e-05, 'epoch': 2.48}
 10%|█         | 8115/78504 [4:56:34<23:42:24,  1.21s/it] 10%|█         | 8116/78504 [4:56:34<22:03:29,  1.13s/it]                                                         {'loss': 0.281, 'grad_norm': 1.0336806774139404, 'learning_rate': 2.988960129081568e-05, 'epoch': 2.48}
 10%|█         | 8116/78504 [4:56:34<22:03:29,  1.13s/it] 10%|█         | 8117/78504 [4:56:35<20:00:43,  1.02s/it]                                                         {'loss': 0.3374, 'grad_norm': 1.9817763566970825, 'learning_rate': 2.9889176680395738e-05, 'epoch': 2.48}
 10%|█         | 8117/78504 [4:56:35<20:00:43,  1.02s/it] 10%|█         | 8118/78504 [4:56:44<66:44:10,  3.41s/it]                                                         {'loss': 0.1619, 'grad_norm': 0.43890684843063354, 'learning_rate': 2.98887520699758e-05, 'epoch': 2.48}
 10%|█         | 8118/78504 [4:56:44<66:44:10,  3.41s/it] 10%|█         | 8119/78504 [4:56:47<64:52:49,  3.32s/it]                                                         {'loss': 0.0818, 'grad_norm': 0.41629424691200256, 'learning_rate': 2.988832745955586e-05, 'epoch': 2.48}
 10%|█         | 8119/78504 [4:56:47<64:52:49,  3.32s/it] 10%|█         | 8120/78504 [4:56:50<62:34:01,  3.20s/it]                                                         {'loss': 0.1025, 'grad_norm': 0.31545135378837585, 'learning_rate': 2.988790284913592e-05, 'epoch': 2.48}
 10%|█         | 8120/78504 [4:56:50<62:34:01,  3.20s/it] 10%|█         | 8121/78504 [4:56:53<58:54:34,  3.01s/it]                                                         {'loss': 0.0897, 'grad_norm': 0.40616732835769653, 'learning_rate': 2.988747823871598e-05, 'epoch': 2.48}
 10%|█         | 8121/78504 [4:56:53<58:54:34,  3.01s/it] 10%|█         | 8122/78504 [4:56:55<55:52:42,  2.86s/it]                                                         {'loss': 0.0681, 'grad_norm': 0.2437174767255783, 'learning_rate': 2.9887053628296042e-05, 'epoch': 2.48}
 10%|█         | 8122/78504 [4:56:55<55:52:42,  2.86s/it] 10%|█         | 8123/78504 [4:56:58<53:21:14,  2.73s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.6808393597602844, 'learning_rate': 2.98866290178761e-05, 'epoch': 2.48}
 10%|█         | 8123/78504 [4:56:58<53:21:14,  2.73s/it] 10%|█         | 8124/78504 [4:57:00<51:01:14,  2.61s/it]                                                         {'loss': 0.0502, 'grad_norm': 0.1995892971754074, 'learning_rate': 2.9886204407456163e-05, 'epoch': 2.48}
 10%|█         | 8124/78504 [4:57:00<51:01:14,  2.61s/it] 10%|█         | 8125/78504 [4:57:02<49:13:36,  2.52s/it]                                                         {'loss': 0.0856, 'grad_norm': 0.2971232235431671, 'learning_rate': 2.988577979703622e-05, 'epoch': 2.48}
 10%|█         | 8125/78504 [4:57:02<49:13:36,  2.52s/it] 10%|█         | 8126/78504 [4:57:05<47:16:04,  2.42s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.23098136484622955, 'learning_rate': 2.988535518661628e-05, 'epoch': 2.48}
 10%|█         | 8126/78504 [4:57:05<47:16:04,  2.42s/it] 10%|█         | 8127/78504 [4:57:07<45:46:50,  2.34s/it]                                                         {'loss': 0.0596, 'grad_norm': 0.28700312972068787, 'learning_rate': 2.9884930576196342e-05, 'epoch': 2.48}
 10%|█         | 8127/78504 [4:57:07<45:46:50,  2.34s/it] 10%|█         | 8128/78504 [4:57:09<42:54:05,  2.19s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.5390397310256958, 'learning_rate': 2.98845059657764e-05, 'epoch': 2.48}
 10%|█         | 8128/78504 [4:57:09<42:54:05,  2.19s/it] 10%|█         | 8129/78504 [4:57:11<41:40:34,  2.13s/it]                                                         {'loss': 0.0731, 'grad_norm': 0.28998181223869324, 'learning_rate': 2.9884081355356463e-05, 'epoch': 2.49}
 10%|█         | 8129/78504 [4:57:11<41:40:34,  2.13s/it] 10%|█         | 8130/78504 [4:57:12<40:15:29,  2.06s/it]                                                         {'loss': 0.1019, 'grad_norm': 0.3749183118343353, 'learning_rate': 2.988365674493652e-05, 'epoch': 2.49}
 10%|█         | 8130/78504 [4:57:12<40:15:29,  2.06s/it] 10%|█         | 8131/78504 [4:57:14<39:10:21,  2.00s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.39201775193214417, 'learning_rate': 2.9883232134516584e-05, 'epoch': 2.49}
 10%|█         | 8131/78504 [4:57:14<39:10:21,  2.00s/it] 10%|█         | 8132/78504 [4:57:16<37:46:33,  1.93s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.6529495120048523, 'learning_rate': 2.9882807524096642e-05, 'epoch': 2.49}
 10%|█         | 8132/78504 [4:57:16<37:46:33,  1.93s/it] 10%|█         | 8133/78504 [4:57:18<36:06:15,  1.85s/it]                                                         {'loss': 0.1385, 'grad_norm': 0.43685534596443176, 'learning_rate': 2.9882382913676705e-05, 'epoch': 2.49}
 10%|█         | 8133/78504 [4:57:18<36:06:15,  1.85s/it] 10%|█         | 8134/78504 [4:57:19<34:18:14,  1.75s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.8120418190956116, 'learning_rate': 2.9881958303256763e-05, 'epoch': 2.49}
 10%|█         | 8134/78504 [4:57:19<34:18:14,  1.75s/it] 10%|█         | 8135/78504 [4:57:21<32:39:05,  1.67s/it]                                                         {'loss': 0.1994, 'grad_norm': 1.0740480422973633, 'learning_rate': 2.9881533692836825e-05, 'epoch': 2.49}
 10%|█         | 8135/78504 [4:57:21<32:39:05,  1.67s/it] 10%|█         | 8136/78504 [4:57:22<31:03:36,  1.59s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.720079243183136, 'learning_rate': 2.9881109082416884e-05, 'epoch': 2.49}
 10%|█         | 8136/78504 [4:57:22<31:03:36,  1.59s/it] 10%|█         | 8137/78504 [4:57:23<29:14:29,  1.50s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.9188902974128723, 'learning_rate': 2.9880684471996946e-05, 'epoch': 2.49}
 10%|█         | 8137/78504 [4:57:23<29:14:29,  1.50s/it] 10%|█         | 8138/78504 [4:57:25<27:10:30,  1.39s/it]                                                         {'loss': 0.2072, 'grad_norm': 1.1299188137054443, 'learning_rate': 2.9880259861577005e-05, 'epoch': 2.49}
 10%|█         | 8138/78504 [4:57:25<27:10:30,  1.39s/it] 10%|█         | 8139/78504 [4:57:26<25:25:58,  1.30s/it]                                                         {'loss': 0.202, 'grad_norm': 1.0614205598831177, 'learning_rate': 2.9879835251157063e-05, 'epoch': 2.49}
 10%|█         | 8139/78504 [4:57:26<25:25:58,  1.30s/it] 10%|█         | 8140/78504 [4:57:27<23:57:02,  1.23s/it]                                                         {'loss': 0.2368, 'grad_norm': 1.0254994630813599, 'learning_rate': 2.9879410640737126e-05, 'epoch': 2.49}
 10%|█         | 8140/78504 [4:57:27<23:57:02,  1.23s/it] 10%|█         | 8141/78504 [4:57:28<22:12:54,  1.14s/it]                                                         {'loss': 0.224, 'grad_norm': 1.403084635734558, 'learning_rate': 2.9878986030317184e-05, 'epoch': 2.49}
 10%|█         | 8141/78504 [4:57:28<22:12:54,  1.14s/it] 10%|█         | 8142/78504 [4:57:28<20:06:49,  1.03s/it]                                                         {'loss': 0.3376, 'grad_norm': 1.6502310037612915, 'learning_rate': 2.9878561419897246e-05, 'epoch': 2.49}
 10%|█         | 8142/78504 [4:57:28<20:06:49,  1.03s/it] 10%|█         | 8143/78504 [4:57:39<73:51:30,  3.78s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.4400444030761719, 'learning_rate': 2.9878136809477305e-05, 'epoch': 2.49}
 10%|█         | 8143/78504 [4:57:39<73:51:30,  3.78s/it] 10%|█         | 8144/78504 [4:57:42<68:41:24,  3.51s/it]                                                         {'loss': 0.133, 'grad_norm': 0.3651316165924072, 'learning_rate': 2.9877712199057367e-05, 'epoch': 2.49}
 10%|█         | 8144/78504 [4:57:42<68:41:24,  3.51s/it] 10%|█         | 8145/78504 [4:57:44<65:13:36,  3.34s/it]                                                         {'loss': 0.0666, 'grad_norm': 0.5037561058998108, 'learning_rate': 2.9877287588637426e-05, 'epoch': 2.49}
 10%|█         | 8145/78504 [4:57:44<65:13:36,  3.34s/it] 10%|█         | 8146/78504 [4:57:47<60:44:25,  3.11s/it]                                                         {'loss': 0.0916, 'grad_norm': 0.30046266317367554, 'learning_rate': 2.9876862978217488e-05, 'epoch': 2.49}
 10%|█         | 8146/78504 [4:57:47<60:44:25,  3.11s/it] 10%|█         | 8147/78504 [4:57:50<57:09:46,  2.92s/it]                                                         {'loss': 0.054, 'grad_norm': 0.23663875460624695, 'learning_rate': 2.9876438367797547e-05, 'epoch': 2.49}
 10%|█         | 8147/78504 [4:57:50<57:09:46,  2.92s/it] 10%|█         | 8148/78504 [4:57:52<54:15:03,  2.78s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.38444381952285767, 'learning_rate': 2.987601375737761e-05, 'epoch': 2.49}
 10%|█         | 8148/78504 [4:57:52<54:15:03,  2.78s/it] 10%|█         | 8149/78504 [4:57:54<51:35:31,  2.64s/it]                                                         {'loss': 0.0534, 'grad_norm': 0.25683626532554626, 'learning_rate': 2.9875589146957667e-05, 'epoch': 2.49}
 10%|█         | 8149/78504 [4:57:54<51:35:31,  2.64s/it] 10%|█         | 8150/78504 [4:57:56<48:29:05,  2.48s/it]                                                         {'loss': 0.0915, 'grad_norm': 0.3372156620025635, 'learning_rate': 2.987516453653773e-05, 'epoch': 2.49}
 10%|█         | 8150/78504 [4:57:56<48:29:05,  2.48s/it] 10%|█         | 8151/78504 [4:57:59<46:44:16,  2.39s/it]                                                         {'loss': 0.0639, 'grad_norm': 0.4763500690460205, 'learning_rate': 2.9874739926117788e-05, 'epoch': 2.49}
 10%|█         | 8151/78504 [4:57:59<46:44:16,  2.39s/it] 10%|█         | 8152/78504 [4:58:01<45:26:13,  2.33s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.4594251811504364, 'learning_rate': 2.9874315315697847e-05, 'epoch': 2.49}
 10%|█         | 8152/78504 [4:58:01<45:26:13,  2.33s/it] 10%|█         | 8153/78504 [4:58:03<43:39:05,  2.23s/it]                                                         {'loss': 0.1168, 'grad_norm': 0.48200979828834534, 'learning_rate': 2.987389070527791e-05, 'epoch': 2.49}
 10%|█         | 8153/78504 [4:58:03<43:39:05,  2.23s/it] 10%|█         | 8154/78504 [4:58:05<42:10:01,  2.16s/it]                                                         {'loss': 0.0915, 'grad_norm': 0.4657181203365326, 'learning_rate': 2.9873466094857968e-05, 'epoch': 2.49}
 10%|█         | 8154/78504 [4:58:05<42:10:01,  2.16s/it] 10%|█         | 8155/78504 [4:58:07<40:47:30,  2.09s/it]                                                         {'loss': 0.132, 'grad_norm': 0.7003732919692993, 'learning_rate': 2.987304148443803e-05, 'epoch': 2.49}
 10%|█         | 8155/78504 [4:58:07<40:47:30,  2.09s/it] 10%|█         | 8156/78504 [4:58:09<39:32:50,  2.02s/it]                                                         {'loss': 0.0987, 'grad_norm': 0.44913017749786377, 'learning_rate': 2.987261687401809e-05, 'epoch': 2.49}
 10%|█         | 8156/78504 [4:58:09<39:32:50,  2.02s/it] 10%|█         | 8157/78504 [4:58:10<37:59:15,  1.94s/it]                                                         {'loss': 0.1704, 'grad_norm': 1.2006720304489136, 'learning_rate': 2.987219226359815e-05, 'epoch': 2.49}
 10%|█         | 8157/78504 [4:58:10<37:59:15,  1.94s/it] 10%|█         | 8158/78504 [4:58:12<36:17:16,  1.86s/it]                                                         {'loss': 0.1835, 'grad_norm': 0.8639605641365051, 'learning_rate': 2.987176765317821e-05, 'epoch': 2.49}
 10%|█         | 8158/78504 [4:58:12<36:17:16,  1.86s/it] 10%|█         | 8159/78504 [4:58:13<34:26:53,  1.76s/it]                                                         {'loss': 0.1824, 'grad_norm': 0.5814498066902161, 'learning_rate': 2.987134304275827e-05, 'epoch': 2.49}
 10%|█         | 8159/78504 [4:58:14<34:26:53,  1.76s/it] 10%|█         | 8160/78504 [4:58:15<32:43:05,  1.67s/it]                                                         {'loss': 0.1883, 'grad_norm': 0.7426087856292725, 'learning_rate': 2.987091843233833e-05, 'epoch': 2.49}
 10%|█         | 8160/78504 [4:58:15<32:43:05,  1.67s/it] 10%|█         | 8161/78504 [4:58:16<31:00:01,  1.59s/it]                                                         {'loss': 0.1914, 'grad_norm': 3.1375324726104736, 'learning_rate': 2.9870493821918392e-05, 'epoch': 2.49}
 10%|█         | 8161/78504 [4:58:16<31:00:01,  1.59s/it] 10%|█         | 8162/78504 [4:58:18<29:13:49,  1.50s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.8503732085227966, 'learning_rate': 2.987006921149845e-05, 'epoch': 2.5}
 10%|█         | 8162/78504 [4:58:18<29:13:49,  1.50s/it] 10%|█         | 8163/78504 [4:58:19<27:09:58,  1.39s/it]                                                         {'loss': 0.1936, 'grad_norm': 1.084751844406128, 'learning_rate': 2.986964460107851e-05, 'epoch': 2.5}
 10%|█         | 8163/78504 [4:58:19<27:09:58,  1.39s/it] 10%|█         | 8164/78504 [4:58:20<25:25:10,  1.30s/it]                                                         {'loss': 0.2224, 'grad_norm': 0.8584094047546387, 'learning_rate': 2.986921999065857e-05, 'epoch': 2.5}
 10%|█         | 8164/78504 [4:58:20<25:25:10,  1.30s/it] 10%|█         | 8165/78504 [4:58:21<23:57:10,  1.23s/it]                                                         {'loss': 0.2386, 'grad_norm': 0.9529433250427246, 'learning_rate': 2.986879538023863e-05, 'epoch': 2.5}
 10%|█         | 8165/78504 [4:58:21<23:57:10,  1.23s/it] 10%|█         | 8166/78504 [4:58:22<22:12:30,  1.14s/it]                                                         {'loss': 0.233, 'grad_norm': 1.5423064231872559, 'learning_rate': 2.9868370769818692e-05, 'epoch': 2.5}
 10%|█         | 8166/78504 [4:58:22<22:12:30,  1.14s/it] 10%|█         | 8167/78504 [4:58:23<20:07:25,  1.03s/it]                                                         {'loss': 0.2821, 'grad_norm': 1.4095007181167603, 'learning_rate': 2.986794615939875e-05, 'epoch': 2.5}
 10%|█         | 8167/78504 [4:58:23<20:07:25,  1.03s/it] 10%|█         | 8168/78504 [4:58:32<69:13:30,  3.54s/it]                                                         {'loss': 0.1469, 'grad_norm': 0.4204067885875702, 'learning_rate': 2.9867521548978813e-05, 'epoch': 2.5}
 10%|█         | 8168/78504 [4:58:32<69:13:30,  3.54s/it] 10%|█         | 8169/78504 [4:58:35<66:44:23,  3.42s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.3563932478427887, 'learning_rate': 2.9867096938558872e-05, 'epoch': 2.5}
 10%|█         | 8169/78504 [4:58:35<66:44:23,  3.42s/it] 10%|█         | 8170/78504 [4:58:38<64:12:33,  3.29s/it]                                                         {'loss': 0.0618, 'grad_norm': 0.4515950381755829, 'learning_rate': 2.9866672328138934e-05, 'epoch': 2.5}
 10%|█         | 8170/78504 [4:58:38<64:12:33,  3.29s/it] 10%|█         | 8171/78504 [4:58:41<60:06:58,  3.08s/it]                                                         {'loss': 0.0573, 'grad_norm': 0.17495939135551453, 'learning_rate': 2.9866247717718993e-05, 'epoch': 2.5}
 10%|█         | 8171/78504 [4:58:41<60:06:58,  3.08s/it] 10%|█         | 8172/78504 [4:58:43<56:40:23,  2.90s/it]                                                         {'loss': 0.0682, 'grad_norm': 0.3572370409965515, 'learning_rate': 2.9865823107299055e-05, 'epoch': 2.5}
 10%|█         | 8172/78504 [4:58:43<56:40:23,  2.90s/it] 10%|█         | 8173/78504 [4:58:46<53:27:30,  2.74s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.3583231270313263, 'learning_rate': 2.9865398496879113e-05, 'epoch': 2.5}
 10%|█         | 8173/78504 [4:58:46<53:27:30,  2.74s/it] 10%|█         | 8174/78504 [4:58:48<51:03:33,  2.61s/it]                                                         {'loss': 0.0496, 'grad_norm': 0.34016773104667664, 'learning_rate': 2.9864973886459176e-05, 'epoch': 2.5}
 10%|█         | 8174/78504 [4:58:48<51:03:33,  2.61s/it] 10%|█         | 8175/78504 [4:58:50<47:59:58,  2.46s/it]                                                         {'loss': 0.0844, 'grad_norm': 1.0242594480514526, 'learning_rate': 2.9864549276039234e-05, 'epoch': 2.5}
 10%|█         | 8175/78504 [4:58:50<47:59:58,  2.46s/it] 10%|█         | 8176/78504 [4:58:52<46:22:41,  2.37s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.2601062059402466, 'learning_rate': 2.9864124665619293e-05, 'epoch': 2.5}
 10%|█         | 8176/78504 [4:58:52<46:22:41,  2.37s/it] 10%|█         | 8177/78504 [4:58:54<45:02:04,  2.31s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.3201124966144562, 'learning_rate': 2.9863700055199355e-05, 'epoch': 2.5}
 10%|█         | 8177/78504 [4:58:54<45:02:04,  2.31s/it] 10%|█         | 8178/78504 [4:58:56<43:28:20,  2.23s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.28455668687820435, 'learning_rate': 2.9863275444779414e-05, 'epoch': 2.5}
 10%|█         | 8178/78504 [4:58:56<43:28:20,  2.23s/it] 10%|█         | 8179/78504 [4:58:58<42:00:10,  2.15s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.3280475437641144, 'learning_rate': 2.9862850834359476e-05, 'epoch': 2.5}
 10%|█         | 8179/78504 [4:58:58<42:00:10,  2.15s/it] 10%|█         | 8180/78504 [4:59:00<40:21:40,  2.07s/it]                                                         {'loss': 0.117, 'grad_norm': 0.355910062789917, 'learning_rate': 2.9862426223939535e-05, 'epoch': 2.5}
 10%|█         | 8180/78504 [4:59:00<40:21:40,  2.07s/it] 10%|█         | 8181/78504 [4:59:02<38:20:25,  1.96s/it]                                                         {'loss': 0.1483, 'grad_norm': 0.5658973455429077, 'learning_rate': 2.9862001613519597e-05, 'epoch': 2.5}
 10%|█         | 8181/78504 [4:59:02<38:20:25,  1.96s/it] 10%|█         | 8182/78504 [4:59:04<36:31:56,  1.87s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.5414937138557434, 'learning_rate': 2.9861577003099655e-05, 'epoch': 2.5}
 10%|█         | 8182/78504 [4:59:04<36:31:56,  1.87s/it] 10%|█         | 8183/78504 [4:59:05<35:15:15,  1.80s/it]                                                         {'loss': 0.1349, 'grad_norm': 1.120459794998169, 'learning_rate': 2.9861152392679717e-05, 'epoch': 2.5}
 10%|█         | 8183/78504 [4:59:05<35:15:15,  1.80s/it] 10%|█         | 8184/78504 [4:59:07<33:42:29,  1.73s/it]                                                         {'loss': 0.1994, 'grad_norm': 0.49005326628685, 'learning_rate': 2.9860727782259776e-05, 'epoch': 2.5}
 10%|█         | 8184/78504 [4:59:07<33:42:29,  1.73s/it] 10%|█         | 8185/78504 [4:59:08<32:10:00,  1.65s/it]                                                         {'loss': 0.192, 'grad_norm': 0.5188384056091309, 'learning_rate': 2.9860303171839838e-05, 'epoch': 2.5}
 10%|█         | 8185/78504 [4:59:08<32:10:00,  1.65s/it] 10%|█         | 8186/78504 [4:59:10<30:40:35,  1.57s/it]                                                         {'loss': 0.1939, 'grad_norm': 0.5886049270629883, 'learning_rate': 2.9859878561419897e-05, 'epoch': 2.5}
 10%|█         | 8186/78504 [4:59:10<30:40:35,  1.57s/it] 10%|█         | 8187/78504 [4:59:11<29:04:53,  1.49s/it]                                                         {'loss': 0.2098, 'grad_norm': 1.052263855934143, 'learning_rate': 2.985945395099996e-05, 'epoch': 2.5}
 10%|█         | 8187/78504 [4:59:11<29:04:53,  1.49s/it] 10%|█         | 8188/78504 [4:59:12<27:05:55,  1.39s/it]                                                         {'loss': 0.2368, 'grad_norm': 0.757007896900177, 'learning_rate': 2.9859029340580018e-05, 'epoch': 2.5}
 10%|█         | 8188/78504 [4:59:12<27:05:55,  1.39s/it] 10%|█         | 8189/78504 [4:59:13<25:20:40,  1.30s/it]                                                         {'loss': 0.1884, 'grad_norm': 1.0162047147750854, 'learning_rate': 2.9858604730160076e-05, 'epoch': 2.5}
 10%|█         | 8189/78504 [4:59:13<25:20:40,  1.30s/it] 10%|█         | 8190/78504 [4:59:14<23:30:00,  1.20s/it]                                                         {'loss': 0.2247, 'grad_norm': 0.9662662744522095, 'learning_rate': 2.985818011974014e-05, 'epoch': 2.5}
 10%|█         | 8190/78504 [4:59:14<23:30:00,  1.20s/it] 10%|█         | 8191/78504 [4:59:15<21:52:49,  1.12s/it]                                                         {'loss': 0.242, 'grad_norm': 2.116555690765381, 'learning_rate': 2.9857755509320197e-05, 'epoch': 2.5}
 10%|█         | 8191/78504 [4:59:15<21:52:49,  1.12s/it] 10%|█         | 8192/78504 [4:59:16<19:54:47,  1.02s/it]                                                         {'loss': 0.2611, 'grad_norm': 3.0055603981018066, 'learning_rate': 2.985733089890026e-05, 'epoch': 2.5}
 10%|█         | 8192/78504 [4:59:16<19:54:47,  1.02s/it] 10%|█         | 8193/78504 [4:59:25<67:59:23,  3.48s/it]                                                         {'loss': 0.129, 'grad_norm': 0.3485099673271179, 'learning_rate': 2.9856906288480318e-05, 'epoch': 2.5}
 10%|█         | 8193/78504 [4:59:25<67:59:23,  3.48s/it] 10%|█         | 8194/78504 [4:59:28<66:40:32,  3.41s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.2692350149154663, 'learning_rate': 2.985648167806038e-05, 'epoch': 2.51}
 10%|█         | 8194/78504 [4:59:28<66:40:32,  3.41s/it] 10%|█         | 8195/78504 [4:59:31<64:07:25,  3.28s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.2597716152667999, 'learning_rate': 2.985605706764044e-05, 'epoch': 2.51}
 10%|█         | 8195/78504 [4:59:31<64:07:25,  3.28s/it] 10%|█         | 8196/78504 [4:59:34<60:12:41,  3.08s/it]                                                         {'loss': 0.0626, 'grad_norm': 0.5010417103767395, 'learning_rate': 2.98556324572205e-05, 'epoch': 2.51}
 10%|█         | 8196/78504 [4:59:34<60:12:41,  3.08s/it] 10%|█         | 8197/78504 [4:59:36<56:35:04,  2.90s/it]                                                         {'loss': 0.0542, 'grad_norm': 0.281341016292572, 'learning_rate': 2.985520784680056e-05, 'epoch': 2.51}
 10%|█         | 8197/78504 [4:59:36<56:35:04,  2.90s/it] 10%|█         | 8198/78504 [4:59:39<52:55:07,  2.71s/it]                                                         {'loss': 0.056, 'grad_norm': 0.21585173904895782, 'learning_rate': 2.985478323638062e-05, 'epoch': 2.51}
 10%|█         | 8198/78504 [4:59:39<52:55:07,  2.71s/it] 10%|█         | 8199/78504 [4:59:41<50:36:26,  2.59s/it]                                                         {'loss': 0.0591, 'grad_norm': 0.26932182908058167, 'learning_rate': 2.985435862596068e-05, 'epoch': 2.51}
 10%|█         | 8199/78504 [4:59:41<50:36:26,  2.59s/it] 10%|█         | 8200/78504 [4:59:43<47:47:20,  2.45s/it]                                                         {'loss': 0.0912, 'grad_norm': 0.5158606171607971, 'learning_rate': 2.9853934015540742e-05, 'epoch': 2.51}
 10%|█         | 8200/78504 [4:59:43<47:47:20,  2.45s/it] 10%|█         | 8201/78504 [4:59:45<46:14:21,  2.37s/it]                                                         {'loss': 0.1137, 'grad_norm': 0.3262871503829956, 'learning_rate': 2.98535094051208e-05, 'epoch': 2.51}
 10%|█         | 8201/78504 [4:59:45<46:14:21,  2.37s/it] 10%|█         | 8202/78504 [4:59:47<44:54:37,  2.30s/it]                                                         {'loss': 0.0749, 'grad_norm': 0.35113435983657837, 'learning_rate': 2.985308479470086e-05, 'epoch': 2.51}
 10%|█         | 8202/78504 [4:59:47<44:54:37,  2.30s/it] 10%|█         | 8203/78504 [4:59:49<43:22:59,  2.22s/it]                                                         {'loss': 0.1002, 'grad_norm': 0.29659560322761536, 'learning_rate': 2.9852660184280922e-05, 'epoch': 2.51}
 10%|█         | 8203/78504 [4:59:49<43:22:59,  2.22s/it] 10%|█         | 8204/78504 [4:59:51<42:02:21,  2.15s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.36187613010406494, 'learning_rate': 2.985223557386098e-05, 'epoch': 2.51}
 10%|█         | 8204/78504 [4:59:51<42:02:21,  2.15s/it] 10%|█         | 8205/78504 [4:59:53<40:29:16,  2.07s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.47664764523506165, 'learning_rate': 2.9851810963441043e-05, 'epoch': 2.51}
 10%|█         | 8205/78504 [4:59:53<40:29:16,  2.07s/it] 10%|█         | 8206/78504 [4:59:55<39:18:49,  2.01s/it]                                                         {'loss': 0.1443, 'grad_norm': 0.9715594053268433, 'learning_rate': 2.98513863530211e-05, 'epoch': 2.51}
 10%|█         | 8206/78504 [4:59:55<39:18:49,  2.01s/it] 10%|█         | 8207/78504 [4:59:57<37:38:16,  1.93s/it]                                                         {'loss': 0.1287, 'grad_norm': 0.505963146686554, 'learning_rate': 2.9850961742601163e-05, 'epoch': 2.51}
 10%|█         | 8207/78504 [4:59:57<37:38:16,  1.93s/it] 10%|█         | 8208/78504 [4:59:59<35:56:47,  1.84s/it]                                                         {'loss': 0.163, 'grad_norm': 0.7940978407859802, 'learning_rate': 2.9850537132181222e-05, 'epoch': 2.51}
 10%|█         | 8208/78504 [4:59:59<35:56:47,  1.84s/it] 10%|█         | 8209/78504 [5:00:00<34:12:35,  1.75s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.6197808980941772, 'learning_rate': 2.9850112521761284e-05, 'epoch': 2.51}
 10%|█         | 8209/78504 [5:00:00<34:12:35,  1.75s/it] 10%|█         | 8210/78504 [5:00:02<32:33:48,  1.67s/it]                                                         {'loss': 0.2409, 'grad_norm': 0.5839415788650513, 'learning_rate': 2.9849687911341343e-05, 'epoch': 2.51}
 10%|█         | 8210/78504 [5:00:02<32:33:48,  1.67s/it] 10%|█         | 8211/78504 [5:00:03<31:05:59,  1.59s/it]                                                         {'loss': 0.1731, 'grad_norm': 0.9139887690544128, 'learning_rate': 2.9849263300921405e-05, 'epoch': 2.51}
 10%|█         | 8211/78504 [5:00:03<31:05:59,  1.59s/it] 10%|█         | 8212/78504 [5:00:04<29:14:17,  1.50s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.860094428062439, 'learning_rate': 2.9848838690501464e-05, 'epoch': 2.51}
 10%|█         | 8212/78504 [5:00:04<29:14:17,  1.50s/it] 10%|█         | 8213/78504 [5:00:05<27:12:45,  1.39s/it]                                                         {'loss': 0.2053, 'grad_norm': 1.169443130493164, 'learning_rate': 2.9848414080081526e-05, 'epoch': 2.51}
 10%|█         | 8213/78504 [5:00:05<27:12:45,  1.39s/it] 10%|█         | 8214/78504 [5:00:07<25:31:02,  1.31s/it]                                                         {'loss': 0.2273, 'grad_norm': 0.7011336088180542, 'learning_rate': 2.9847989469661588e-05, 'epoch': 2.51}
 10%|█         | 8214/78504 [5:00:07<25:31:02,  1.31s/it] 10%|█         | 8215/78504 [5:00:08<24:00:40,  1.23s/it]                                                         {'loss': 0.197, 'grad_norm': 0.5953391790390015, 'learning_rate': 2.9847564859241647e-05, 'epoch': 2.51}
 10%|█         | 8215/78504 [5:00:08<24:00:40,  1.23s/it] 10%|█         | 8216/78504 [5:00:08<22:11:52,  1.14s/it]                                                         {'loss': 0.205, 'grad_norm': 1.177841305732727, 'learning_rate': 2.984714024882171e-05, 'epoch': 2.51}
 10%|█         | 8216/78504 [5:00:09<22:11:52,  1.14s/it] 10%|█         | 8217/78504 [5:00:09<20:13:45,  1.04s/it]                                                         {'loss': 0.3035, 'grad_norm': 1.6545377969741821, 'learning_rate': 2.9846715638401767e-05, 'epoch': 2.51}
 10%|█         | 8217/78504 [5:00:09<20:13:45,  1.04s/it] 10%|█         | 8218/78504 [5:00:19<73:19:18,  3.76s/it]                                                         {'loss': 0.1769, 'grad_norm': 0.3953278064727783, 'learning_rate': 2.984629102798183e-05, 'epoch': 2.51}
 10%|█         | 8218/78504 [5:00:19<73:19:18,  3.76s/it] 10%|█         | 8219/78504 [5:00:23<69:40:13,  3.57s/it]                                                         {'loss': 0.0959, 'grad_norm': 0.2814268469810486, 'learning_rate': 2.9845866417561888e-05, 'epoch': 2.51}
 10%|█         | 8219/78504 [5:00:23<69:40:13,  3.57s/it] 10%|█         | 8220/78504 [5:00:25<63:49:15,  3.27s/it]                                                         {'loss': 0.0965, 'grad_norm': 0.2814735174179077, 'learning_rate': 2.984544180714195e-05, 'epoch': 2.51}
 10%|█         | 8220/78504 [5:00:25<63:49:15,  3.27s/it] 10%|█         | 8221/78504 [5:00:28<59:58:23,  3.07s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.2844310998916626, 'learning_rate': 2.984501719672201e-05, 'epoch': 2.51}
 10%|█         | 8221/78504 [5:00:28<59:58:23,  3.07s/it] 10%|█         | 8222/78504 [5:00:30<56:26:06,  2.89s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.23908013105392456, 'learning_rate': 2.984459258630207e-05, 'epoch': 2.51}
 10%|█         | 8222/78504 [5:00:30<56:26:06,  2.89s/it] 10%|█         | 8223/78504 [5:00:32<52:46:15,  2.70s/it]                                                         {'loss': 0.0518, 'grad_norm': 0.24714802205562592, 'learning_rate': 2.984416797588213e-05, 'epoch': 2.51}
 10%|█         | 8223/78504 [5:00:32<52:46:15,  2.70s/it] 10%|█         | 8224/78504 [5:00:35<50:32:14,  2.59s/it]                                                         {'loss': 0.0658, 'grad_norm': 0.29408925771713257, 'learning_rate': 2.9843743365462192e-05, 'epoch': 2.51}
 10%|█         | 8224/78504 [5:00:35<50:32:14,  2.59s/it] 10%|█         | 8225/78504 [5:00:37<47:37:36,  2.44s/it]                                                         {'loss': 0.0626, 'grad_norm': 0.20400071144104004, 'learning_rate': 2.984331875504225e-05, 'epoch': 2.51}
 10%|█         | 8225/78504 [5:00:37<47:37:36,  2.44s/it] 10%|█         | 8226/78504 [5:00:39<45:14:39,  2.32s/it]                                                         {'loss': 0.0842, 'grad_norm': 0.29126647114753723, 'learning_rate': 2.9842894144622313e-05, 'epoch': 2.51}
 10%|█         | 8226/78504 [5:00:39<45:14:39,  2.32s/it] 10%|█         | 8227/78504 [5:00:41<44:11:19,  2.26s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.33118027448654175, 'learning_rate': 2.984246953420237e-05, 'epoch': 2.52}
 10%|█         | 8227/78504 [5:00:41<44:11:19,  2.26s/it] 10%|█         | 8228/78504 [5:00:43<42:44:38,  2.19s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.4015538990497589, 'learning_rate': 2.984204492378243e-05, 'epoch': 2.52}
 10%|█         | 8228/78504 [5:00:43<42:44:38,  2.19s/it] 10%|█         | 8229/78504 [5:00:45<41:33:26,  2.13s/it]                                                         {'loss': 0.08, 'grad_norm': 0.5148810744285583, 'learning_rate': 2.9841620313362492e-05, 'epoch': 2.52}
 10%|█         | 8229/78504 [5:00:45<41:33:26,  2.13s/it] 10%|█         | 8230/78504 [5:00:47<39:59:56,  2.05s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.2989797592163086, 'learning_rate': 2.984119570294255e-05, 'epoch': 2.52}
 10%|█         | 8230/78504 [5:00:47<39:59:56,  2.05s/it] 10%|█         | 8231/78504 [5:00:49<38:56:25,  1.99s/it]                                                         {'loss': 0.1368, 'grad_norm': 0.4284929931163788, 'learning_rate': 2.9840771092522613e-05, 'epoch': 2.52}
 10%|█         | 8231/78504 [5:00:49<38:56:25,  1.99s/it] 10%|█         | 8232/78504 [5:00:50<37:21:43,  1.91s/it]                                                         {'loss': 0.1371, 'grad_norm': 1.0821263790130615, 'learning_rate': 2.984034648210267e-05, 'epoch': 2.52}
 10%|█         | 8232/78504 [5:00:51<37:21:43,  1.91s/it] 10%|█         | 8233/78504 [5:00:52<35:49:17,  1.84s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.7700421214103699, 'learning_rate': 2.9839921871682734e-05, 'epoch': 2.52}
 10%|█         | 8233/78504 [5:00:52<35:49:17,  1.84s/it] 10%|█         | 8234/78504 [5:00:54<34:15:10,  1.75s/it]                                                         {'loss': 0.177, 'grad_norm': 0.4994412660598755, 'learning_rate': 2.9839497261262792e-05, 'epoch': 2.52}
 10%|█         | 8234/78504 [5:00:54<34:15:10,  1.75s/it] 10%|█         | 8235/78504 [5:00:55<32:22:40,  1.66s/it]                                                         {'loss': 0.2035, 'grad_norm': 0.5895884037017822, 'learning_rate': 2.9839072650842855e-05, 'epoch': 2.52}
 10%|█         | 8235/78504 [5:00:55<32:22:40,  1.66s/it] 10%|█         | 8236/78504 [5:00:57<31:00:11,  1.59s/it]                                                         {'loss': 0.2005, 'grad_norm': 0.7206140756607056, 'learning_rate': 2.9838648040422913e-05, 'epoch': 2.52}
 10%|█         | 8236/78504 [5:00:57<31:00:11,  1.59s/it] 10%|█         | 8237/78504 [5:00:58<28:52:50,  1.48s/it]                                                         {'loss': 0.1984, 'grad_norm': 1.0324969291687012, 'learning_rate': 2.9838223430002975e-05, 'epoch': 2.52}
 10%|█         | 8237/78504 [5:00:58<28:52:50,  1.48s/it] 10%|█         | 8238/78504 [5:00:59<26:50:35,  1.38s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.0590180158615112, 'learning_rate': 2.9837798819583034e-05, 'epoch': 2.52}
 10%|█         | 8238/78504 [5:00:59<26:50:35,  1.38s/it] 10%|█         | 8239/78504 [5:01:00<25:16:05,  1.29s/it]                                                         {'loss': 0.2277, 'grad_norm': 1.1967159509658813, 'learning_rate': 2.9837374209163096e-05, 'epoch': 2.52}
 10%|█         | 8239/78504 [5:01:00<25:16:05,  1.29s/it] 10%|█         | 8240/78504 [5:01:01<23:33:17,  1.21s/it]                                                         {'loss': 0.2046, 'grad_norm': 1.0025639533996582, 'learning_rate': 2.9836949598743155e-05, 'epoch': 2.52}
 10%|█         | 8240/78504 [5:01:01<23:33:17,  1.21s/it] 10%|█         | 8241/78504 [5:01:02<21:57:16,  1.12s/it]                                                         {'loss': 0.2465, 'grad_norm': 1.696621060371399, 'learning_rate': 2.9836524988323214e-05, 'epoch': 2.52}
 10%|█         | 8241/78504 [5:01:02<21:57:16,  1.12s/it] 10%|█         | 8242/78504 [5:01:03<19:56:02,  1.02s/it]                                                         {'loss': 0.3398, 'grad_norm': 2.018003225326538, 'learning_rate': 2.9836100377903276e-05, 'epoch': 2.52}
 10%|█         | 8242/78504 [5:01:03<19:56:02,  1.02s/it] 11%|█         | 8243/78504 [5:01:13<71:10:34,  3.65s/it]                                                         {'loss': 0.1472, 'grad_norm': 0.4338679313659668, 'learning_rate': 2.9835675767483334e-05, 'epoch': 2.52}
 11%|█         | 8243/78504 [5:01:13<71:10:34,  3.65s/it] 11%|█         | 8244/78504 [5:01:16<68:53:57,  3.53s/it]                                                         {'loss': 0.0754, 'grad_norm': 0.3432902693748474, 'learning_rate': 2.9835251157063396e-05, 'epoch': 2.52}
 11%|█         | 8244/78504 [5:01:16<68:53:57,  3.53s/it] 11%|█         | 8245/78504 [5:01:18<64:08:35,  3.29s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.26066339015960693, 'learning_rate': 2.9834826546643455e-05, 'epoch': 2.52}
 11%|█         | 8245/78504 [5:01:19<64:08:35,  3.29s/it] 11%|█         | 8246/78504 [5:01:21<60:02:58,  3.08s/it]                                                         {'loss': 0.0668, 'grad_norm': 0.2564464509487152, 'learning_rate': 2.9834401936223517e-05, 'epoch': 2.52}
 11%|█         | 8246/78504 [5:01:21<60:02:58,  3.08s/it] 11%|█         | 8247/78504 [5:01:24<56:37:40,  2.90s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.717294454574585, 'learning_rate': 2.9833977325803576e-05, 'epoch': 2.52}
 11%|█         | 8247/78504 [5:01:24<56:37:40,  2.90s/it] 11%|█         | 8248/78504 [5:01:26<52:53:40,  2.71s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.2764582931995392, 'learning_rate': 2.9833552715383638e-05, 'epoch': 2.52}
 11%|█         | 8248/78504 [5:01:26<52:53:40,  2.71s/it] 11%|█         | 8249/78504 [5:01:28<50:35:42,  2.59s/it]                                                         {'loss': 0.0543, 'grad_norm': 1.7376078367233276, 'learning_rate': 2.9833128104963697e-05, 'epoch': 2.52}
 11%|█         | 8249/78504 [5:01:28<50:35:42,  2.59s/it] 11%|█         | 8250/78504 [5:01:30<47:43:23,  2.45s/it]                                                         {'loss': 0.0748, 'grad_norm': 0.409488320350647, 'learning_rate': 2.983270349454376e-05, 'epoch': 2.52}
 11%|█         | 8250/78504 [5:01:30<47:43:23,  2.45s/it] 11%|█         | 8251/78504 [5:01:32<46:09:56,  2.37s/it]                                                         {'loss': 0.0856, 'grad_norm': 0.4496593177318573, 'learning_rate': 2.9832278884123817e-05, 'epoch': 2.52}
 11%|█         | 8251/78504 [5:01:32<46:09:56,  2.37s/it] 11%|█         | 8252/78504 [5:01:35<44:54:17,  2.30s/it]                                                         {'loss': 0.089, 'grad_norm': 0.7741529941558838, 'learning_rate': 2.983185427370388e-05, 'epoch': 2.52}
 11%|█         | 8252/78504 [5:01:35<44:54:17,  2.30s/it] 11%|█         | 8253/78504 [5:01:37<43:15:35,  2.22s/it]                                                         {'loss': 0.1112, 'grad_norm': 0.3832903504371643, 'learning_rate': 2.9831429663283938e-05, 'epoch': 2.52}
 11%|█         | 8253/78504 [5:01:37<43:15:35,  2.22s/it] 11%|█         | 8254/78504 [5:01:39<41:51:52,  2.15s/it]                                                         {'loss': 0.103, 'grad_norm': 0.5615965127944946, 'learning_rate': 2.9831005052863997e-05, 'epoch': 2.52}
 11%|█         | 8254/78504 [5:01:39<41:51:52,  2.15s/it] 11%|█         | 8255/78504 [5:01:40<40:22:05,  2.07s/it]                                                         {'loss': 0.102, 'grad_norm': 0.5559606552124023, 'learning_rate': 2.983058044244406e-05, 'epoch': 2.52}
 11%|█         | 8255/78504 [5:01:41<40:22:05,  2.07s/it] 11%|█         | 8256/78504 [5:01:42<39:13:48,  2.01s/it]                                                         {'loss': 0.1588, 'grad_norm': 0.3977636396884918, 'learning_rate': 2.9830155832024118e-05, 'epoch': 2.52}
 11%|█         | 8256/78504 [5:01:42<39:13:48,  2.01s/it] 11%|█         | 8257/78504 [5:01:44<37:32:07,  1.92s/it]                                                         {'loss': 0.1418, 'grad_norm': 0.6968163251876831, 'learning_rate': 2.982973122160418e-05, 'epoch': 2.52}
 11%|█         | 8257/78504 [5:01:44<37:32:07,  1.92s/it] 11%|█         | 8258/78504 [5:01:46<35:54:39,  1.84s/it]                                                         {'loss': 0.156, 'grad_norm': 0.4829663932323456, 'learning_rate': 2.982930661118424e-05, 'epoch': 2.52}
 11%|█         | 8258/78504 [5:01:46<35:54:39,  1.84s/it] 11%|█         | 8259/78504 [5:01:47<34:01:33,  1.74s/it]                                                         {'loss': 0.1725, 'grad_norm': 0.6877796053886414, 'learning_rate': 2.98288820007643e-05, 'epoch': 2.52}
 11%|█         | 8259/78504 [5:01:47<34:01:33,  1.74s/it] 11%|█         | 8260/78504 [5:01:49<32:10:42,  1.65s/it]                                                         {'loss': 0.1949, 'grad_norm': 0.553942859172821, 'learning_rate': 2.982845739034436e-05, 'epoch': 2.53}
 11%|█         | 8260/78504 [5:01:49<32:10:42,  1.65s/it] 11%|█         | 8261/78504 [5:01:50<30:47:20,  1.58s/it]                                                         {'loss': 0.2025, 'grad_norm': 1.058703064918518, 'learning_rate': 2.982803277992442e-05, 'epoch': 2.53}
 11%|█         | 8261/78504 [5:01:50<30:47:20,  1.58s/it] 11%|█         | 8262/78504 [5:01:51<29:02:54,  1.49s/it]                                                         {'loss': 0.1939, 'grad_norm': 1.2359654903411865, 'learning_rate': 2.982760816950448e-05, 'epoch': 2.53}
 11%|█         | 8262/78504 [5:01:51<29:02:54,  1.49s/it] 11%|█         | 8263/78504 [5:01:52<26:55:35,  1.38s/it]                                                         {'loss': 0.1839, 'grad_norm': 0.6291717290878296, 'learning_rate': 2.9827183559084542e-05, 'epoch': 2.53}
 11%|█         | 8263/78504 [5:01:53<26:55:35,  1.38s/it] 11%|█         | 8264/78504 [5:01:54<25:16:53,  1.30s/it]                                                         {'loss': 0.2117, 'grad_norm': 0.7424638867378235, 'learning_rate': 2.98267589486646e-05, 'epoch': 2.53}
 11%|█         | 8264/78504 [5:01:54<25:16:53,  1.30s/it] 11%|█         | 8265/78504 [5:01:55<23:28:56,  1.20s/it]                                                         {'loss': 0.2412, 'grad_norm': 0.9145022034645081, 'learning_rate': 2.9826334338244663e-05, 'epoch': 2.53}
 11%|█         | 8265/78504 [5:01:55<23:28:56,  1.20s/it] 11%|█         | 8266/78504 [5:01:56<21:55:33,  1.12s/it]                                                         {'loss': 0.2038, 'grad_norm': 0.8807359337806702, 'learning_rate': 2.982590972782472e-05, 'epoch': 2.53}
 11%|█         | 8266/78504 [5:01:56<21:55:33,  1.12s/it] 11%|█         | 8267/78504 [5:01:56<19:55:21,  1.02s/it]                                                         {'loss': 0.283, 'grad_norm': 1.3597893714904785, 'learning_rate': 2.982548511740478e-05, 'epoch': 2.53}
 11%|█         | 8267/78504 [5:01:56<19:55:21,  1.02s/it] 11%|█         | 8268/78504 [5:02:04<60:21:14,  3.09s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.35436996817588806, 'learning_rate': 2.9825060506984842e-05, 'epoch': 2.53}
 11%|█         | 8268/78504 [5:02:04<60:21:14,  3.09s/it] 11%|█         | 8269/78504 [5:02:08<61:34:08,  3.16s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.2724387049674988, 'learning_rate': 2.98246358965649e-05, 'epoch': 2.53}
 11%|█         | 8269/78504 [5:02:08<61:34:08,  3.16s/it] 11%|█         | 8270/78504 [5:02:10<60:32:12,  3.10s/it]                                                         {'loss': 0.0968, 'grad_norm': 0.4919244945049286, 'learning_rate': 2.9824211286144963e-05, 'epoch': 2.53}
 11%|█         | 8270/78504 [5:02:11<60:32:12,  3.10s/it] 11%|█         | 8271/78504 [5:02:13<57:41:50,  2.96s/it]                                                         {'loss': 0.0685, 'grad_norm': 0.3246879279613495, 'learning_rate': 2.9823786675725022e-05, 'epoch': 2.53}
 11%|█         | 8271/78504 [5:02:13<57:41:50,  2.96s/it] 11%|█         | 8272/78504 [5:02:16<54:50:32,  2.81s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.2692434787750244, 'learning_rate': 2.9823362065305084e-05, 'epoch': 2.53}
 11%|█         | 8272/78504 [5:02:16<54:50:32,  2.81s/it] 11%|█         | 8273/78504 [5:02:18<52:37:31,  2.70s/it]                                                         {'loss': 0.0625, 'grad_norm': 0.42069604992866516, 'learning_rate': 2.9822937454885143e-05, 'epoch': 2.53}
 11%|█         | 8273/78504 [5:02:18<52:37:31,  2.70s/it] 11%|█         | 8274/78504 [5:02:20<50:24:50,  2.58s/it]                                                         {'loss': 0.0787, 'grad_norm': 0.45744431018829346, 'learning_rate': 2.9822512844465205e-05, 'epoch': 2.53}
 11%|█         | 8274/78504 [5:02:20<50:24:50,  2.58s/it] 11%|█         | 8275/78504 [5:02:22<47:38:16,  2.44s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.2663906514644623, 'learning_rate': 2.9822088234045264e-05, 'epoch': 2.53}
 11%|█         | 8275/78504 [5:02:22<47:38:16,  2.44s/it] 11%|█         | 8276/78504 [5:02:25<46:11:35,  2.37s/it]                                                         {'loss': 0.0781, 'grad_norm': 0.36570125818252563, 'learning_rate': 2.9821663623625326e-05, 'epoch': 2.53}
 11%|█         | 8276/78504 [5:02:25<46:11:35,  2.37s/it] 11%|█         | 8277/78504 [5:02:27<44:58:56,  2.31s/it]                                                         {'loss': 0.0638, 'grad_norm': 0.5177819728851318, 'learning_rate': 2.9821239013205384e-05, 'epoch': 2.53}
 11%|█         | 8277/78504 [5:02:27<44:58:56,  2.31s/it] 11%|█         | 8278/78504 [5:02:29<42:21:07,  2.17s/it]                                                         {'loss': 0.116, 'grad_norm': 0.4565875828266144, 'learning_rate': 2.9820814402785443e-05, 'epoch': 2.53}
 11%|█         | 8278/78504 [5:02:29<42:21:07,  2.17s/it] 11%|█         | 8279/78504 [5:02:31<41:17:37,  2.12s/it]                                                         {'loss': 0.0716, 'grad_norm': 0.3411373496055603, 'learning_rate': 2.9820389792365505e-05, 'epoch': 2.53}
 11%|█         | 8279/78504 [5:02:31<41:17:37,  2.12s/it] 11%|█         | 8280/78504 [5:02:33<40:09:36,  2.06s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.3001583516597748, 'learning_rate': 2.9819965181945564e-05, 'epoch': 2.53}
 11%|█         | 8280/78504 [5:02:33<40:09:36,  2.06s/it] 11%|█         | 8281/78504 [5:02:34<39:01:12,  2.00s/it]                                                         {'loss': 0.1275, 'grad_norm': 0.4873327314853668, 'learning_rate': 2.9819540571525626e-05, 'epoch': 2.53}
 11%|█         | 8281/78504 [5:02:34<39:01:12,  2.00s/it] 11%|█         | 8282/78504 [5:02:36<37:37:46,  1.93s/it]                                                         {'loss': 0.1185, 'grad_norm': 0.40379413962364197, 'learning_rate': 2.9819115961105685e-05, 'epoch': 2.53}
 11%|█         | 8282/78504 [5:02:36<37:37:46,  1.93s/it] 11%|█         | 8283/78504 [5:02:38<35:57:35,  1.84s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.6715131998062134, 'learning_rate': 2.9818691350685747e-05, 'epoch': 2.53}
 11%|█         | 8283/78504 [5:02:38<35:57:35,  1.84s/it] 11%|█         | 8284/78504 [5:02:39<34:15:05,  1.76s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.6229904294013977, 'learning_rate': 2.9818266740265805e-05, 'epoch': 2.53}
 11%|█         | 8284/78504 [5:02:39<34:15:05,  1.76s/it] 11%|█         | 8285/78504 [5:02:41<32:34:13,  1.67s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.6395179629325867, 'learning_rate': 2.9817842129845867e-05, 'epoch': 2.53}
 11%|█         | 8285/78504 [5:02:41<32:34:13,  1.67s/it] 11%|█         | 8286/78504 [5:02:42<31:04:43,  1.59s/it]                                                         {'loss': 0.2054, 'grad_norm': 0.606717586517334, 'learning_rate': 2.9817417519425926e-05, 'epoch': 2.53}
 11%|█         | 8286/78504 [5:02:42<31:04:43,  1.59s/it] 11%|█         | 8287/78504 [5:02:44<29:13:32,  1.50s/it]                                                         {'loss': 0.2256, 'grad_norm': 0.7289931774139404, 'learning_rate': 2.9816992909005988e-05, 'epoch': 2.53}
 11%|█         | 8287/78504 [5:02:44<29:13:32,  1.50s/it] 11%|█         | 8288/78504 [5:02:45<27:09:23,  1.39s/it]                                                         {'loss': 0.194, 'grad_norm': 0.842157781124115, 'learning_rate': 2.9816568298586047e-05, 'epoch': 2.53}
 11%|█         | 8288/78504 [5:02:45<27:09:23,  1.39s/it] 11%|█         | 8289/78504 [5:02:46<25:27:10,  1.31s/it]                                                         {'loss': 0.2193, 'grad_norm': 0.8633816242218018, 'learning_rate': 2.981614368816611e-05, 'epoch': 2.53}
 11%|█         | 8289/78504 [5:02:46<25:27:10,  1.31s/it] 11%|█         | 8290/78504 [5:02:47<23:57:28,  1.23s/it]                                                         {'loss': 0.2585, 'grad_norm': 1.0040735006332397, 'learning_rate': 2.9815719077746168e-05, 'epoch': 2.53}
 11%|█         | 8290/78504 [5:02:47<23:57:28,  1.23s/it] 11%|█         | 8291/78504 [5:02:48<22:13:08,  1.14s/it]                                                         {'loss': 0.2162, 'grad_norm': 1.171146035194397, 'learning_rate': 2.9815294467326226e-05, 'epoch': 2.53}
 11%|█         | 8291/78504 [5:02:48<22:13:08,  1.14s/it] 11%|█         | 8292/78504 [5:02:49<19:57:01,  1.02s/it]                                                         {'loss': 0.3284, 'grad_norm': 1.4983220100402832, 'learning_rate': 2.981486985690629e-05, 'epoch': 2.54}
 11%|█         | 8292/78504 [5:02:49<19:57:01,  1.02s/it] 11%|█         | 8293/78504 [5:02:59<73:03:21,  3.75s/it]                                                         {'loss': 0.1357, 'grad_norm': 0.3469662070274353, 'learning_rate': 2.9814445246486347e-05, 'epoch': 2.54}
 11%|█         | 8293/78504 [5:02:59<73:03:21,  3.75s/it] 11%|█         | 8294/78504 [5:03:02<69:27:34,  3.56s/it]                                                         {'loss': 0.0755, 'grad_norm': 0.2670593559741974, 'learning_rate': 2.981402063606641e-05, 'epoch': 2.54}
 11%|█         | 8294/78504 [5:03:02<69:27:34,  3.56s/it] 11%|█         | 8295/78504 [5:03:05<66:16:49,  3.40s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.3231266438961029, 'learning_rate': 2.9813596025646468e-05, 'epoch': 2.54}
 11%|█         | 8295/78504 [5:03:05<66:16:49,  3.40s/it] 11%|█         | 8296/78504 [5:03:07<61:32:01,  3.16s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.5060835480690002, 'learning_rate': 2.981317141522653e-05, 'epoch': 2.54}
 11%|█         | 8296/78504 [5:03:07<61:32:01,  3.16s/it] 11%|█         | 8297/78504 [5:03:10<57:39:32,  2.96s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.4575967788696289, 'learning_rate': 2.981274680480659e-05, 'epoch': 2.54}
 11%|█         | 8297/78504 [5:03:10<57:39:32,  2.96s/it] 11%|█         | 8298/78504 [5:03:12<53:33:50,  2.75s/it]                                                         {'loss': 0.0874, 'grad_norm': 0.7774275541305542, 'learning_rate': 2.981232219438665e-05, 'epoch': 2.54}
 11%|█         | 8298/78504 [5:03:12<53:33:50,  2.75s/it] 11%|█         | 8299/78504 [5:03:14<51:07:06,  2.62s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.3194688558578491, 'learning_rate': 2.981189758396671e-05, 'epoch': 2.54}
 11%|█         | 8299/78504 [5:03:14<51:07:06,  2.62s/it] 11%|█         | 8300/78504 [5:03:17<47:59:20,  2.46s/it]                                                         {'loss': 0.0533, 'grad_norm': 0.27617400884628296, 'learning_rate': 2.981147297354677e-05, 'epoch': 2.54}
 11%|█         | 8300/78504 [5:03:17<47:59:20,  2.46s/it] 11%|█         | 8301/78504 [5:03:19<46:14:10,  2.37s/it]                                                         {'loss': 0.118, 'grad_norm': 0.7751598954200745, 'learning_rate': 2.981104836312683e-05, 'epoch': 2.54}
 11%|█         | 8301/78504 [5:03:19<46:14:10,  2.37s/it] 11%|█         | 8302/78504 [5:03:21<44:54:53,  2.30s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.4135259687900543, 'learning_rate': 2.9810623752706892e-05, 'epoch': 2.54}
 11%|█         | 8302/78504 [5:03:21<44:54:53,  2.30s/it] 11%|█         | 8303/78504 [5:03:23<43:02:12,  2.21s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.5565584897994995, 'learning_rate': 2.981019914228695e-05, 'epoch': 2.54}
 11%|█         | 8303/78504 [5:03:23<43:02:12,  2.21s/it] 11%|█         | 8304/78504 [5:03:25<41:24:25,  2.12s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.43647587299346924, 'learning_rate': 2.980977453186701e-05, 'epoch': 2.54}
 11%|█         | 8304/78504 [5:03:25<41:24:25,  2.12s/it] 11%|█         | 8305/78504 [5:03:27<39:53:50,  2.05s/it]                                                         {'loss': 0.1578, 'grad_norm': 0.5247365236282349, 'learning_rate': 2.9809349921447072e-05, 'epoch': 2.54}
 11%|█         | 8305/78504 [5:03:27<39:53:50,  2.05s/it] 11%|█         | 8306/78504 [5:03:28<37:58:29,  1.95s/it]                                                         {'loss': 0.1266, 'grad_norm': 0.7619134783744812, 'learning_rate': 2.980892531102713e-05, 'epoch': 2.54}
 11%|█         | 8306/78504 [5:03:28<37:58:29,  1.95s/it] 11%|█         | 8307/78504 [5:03:30<36:41:55,  1.88s/it]                                                         {'loss': 0.1452, 'grad_norm': 0.9530573487281799, 'learning_rate': 2.9808500700607193e-05, 'epoch': 2.54}
 11%|█         | 8307/78504 [5:03:30<36:41:55,  1.88s/it] 11%|█         | 8308/78504 [5:03:32<35:19:22,  1.81s/it]                                                         {'loss': 0.1733, 'grad_norm': 9.588468551635742, 'learning_rate': 2.980807609018725e-05, 'epoch': 2.54}
 11%|█         | 8308/78504 [5:03:32<35:19:22,  1.81s/it] 11%|█         | 8309/78504 [5:03:33<33:34:26,  1.72s/it]                                                         {'loss': 0.1846, 'grad_norm': 0.5728113055229187, 'learning_rate': 2.9807651479767314e-05, 'epoch': 2.54}
 11%|█         | 8309/78504 [5:03:33<33:34:26,  1.72s/it] 11%|█         | 8310/78504 [5:03:35<31:53:17,  1.64s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.6969230771064758, 'learning_rate': 2.9807226869347372e-05, 'epoch': 2.54}
 11%|█         | 8310/78504 [5:03:35<31:53:17,  1.64s/it] 11%|█         | 8311/78504 [5:03:36<30:34:58,  1.57s/it]                                                         {'loss': 0.2091, 'grad_norm': 1.2693716287612915, 'learning_rate': 2.9806802258927434e-05, 'epoch': 2.54}
 11%|█         | 8311/78504 [5:03:36<30:34:58,  1.57s/it] 11%|█         | 8312/78504 [5:03:37<28:32:40,  1.46s/it]                                                         {'loss': 0.2115, 'grad_norm': 0.8405194282531738, 'learning_rate': 2.9806377648507493e-05, 'epoch': 2.54}
 11%|█         | 8312/78504 [5:03:37<28:32:40,  1.46s/it] 11%|█         | 8313/78504 [5:03:38<26:41:37,  1.37s/it]                                                         {'loss': 0.2491, 'grad_norm': 1.0496915578842163, 'learning_rate': 2.9805953038087555e-05, 'epoch': 2.54}
 11%|█         | 8313/78504 [5:03:38<26:41:37,  1.37s/it] 11%|█         | 8314/78504 [5:03:40<25:06:42,  1.29s/it]                                                         {'loss': 0.208, 'grad_norm': 1.1696054935455322, 'learning_rate': 2.9805528427667614e-05, 'epoch': 2.54}
 11%|█         | 8314/78504 [5:03:40<25:06:42,  1.29s/it] 11%|█         | 8315/78504 [5:03:41<23:24:39,  1.20s/it]                                                         {'loss': 0.2285, 'grad_norm': 1.437209963798523, 'learning_rate': 2.9805103817247676e-05, 'epoch': 2.54}
 11%|█         | 8315/78504 [5:03:41<23:24:39,  1.20s/it] 11%|█         | 8316/78504 [5:03:41<21:51:27,  1.12s/it]                                                         {'loss': 0.2246, 'grad_norm': 0.8782382011413574, 'learning_rate': 2.9804679206827735e-05, 'epoch': 2.54}
 11%|█         | 8316/78504 [5:03:41<21:51:27,  1.12s/it] 11%|█         | 8317/78504 [5:03:42<19:52:38,  1.02s/it]                                                         {'loss': 0.2501, 'grad_norm': 1.3908655643463135, 'learning_rate': 2.9804254596407797e-05, 'epoch': 2.54}
 11%|█         | 8317/78504 [5:03:42<19:52:38,  1.02s/it] 11%|█         | 8318/78504 [5:03:51<63:12:49,  3.24s/it]                                                         {'loss': 0.1618, 'grad_norm': 0.4094943106174469, 'learning_rate': 2.980382998598786e-05, 'epoch': 2.54}
 11%|█         | 8318/78504 [5:03:51<63:12:49,  3.24s/it] 11%|█         | 8319/78504 [5:03:54<63:18:59,  3.25s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.29834458231925964, 'learning_rate': 2.9803405375567917e-05, 'epoch': 2.54}
 11%|█         | 8319/78504 [5:03:54<63:18:59,  3.25s/it] 11%|█         | 8320/78504 [5:03:57<61:45:36,  3.17s/it]                                                         {'loss': 0.0981, 'grad_norm': 0.33155274391174316, 'learning_rate': 2.980298076514798e-05, 'epoch': 2.54}
 11%|█         | 8320/78504 [5:03:57<61:45:36,  3.17s/it] 11%|█         | 8321/78504 [5:04:00<58:31:40,  3.00s/it]                                                         {'loss': 0.1003, 'grad_norm': 0.6615211367607117, 'learning_rate': 2.9802556154728038e-05, 'epoch': 2.54}
 11%|█         | 8321/78504 [5:04:00<58:31:40,  3.00s/it] 11%|█         | 8322/78504 [5:04:02<55:23:12,  2.84s/it]                                                         {'loss': 0.077, 'grad_norm': 0.18501843512058258, 'learning_rate': 2.98021315443081e-05, 'epoch': 2.54}
 11%|█         | 8322/78504 [5:04:02<55:23:12,  2.84s/it] 11%|█         | 8323/78504 [5:04:04<52:03:15,  2.67s/it]                                                         {'loss': 0.0592, 'grad_norm': 0.27717822790145874, 'learning_rate': 2.980170693388816e-05, 'epoch': 2.54}
 11%|█         | 8323/78504 [5:04:04<52:03:15,  2.67s/it] 11%|█         | 8324/78504 [5:04:07<49:58:49,  2.56s/it]                                                         {'loss': 0.0632, 'grad_norm': 0.33657944202423096, 'learning_rate': 2.980128232346822e-05, 'epoch': 2.54}
 11%|█         | 8324/78504 [5:04:07<49:58:49,  2.56s/it] 11%|█         | 8325/78504 [5:04:09<47:22:43,  2.43s/it]                                                         {'loss': 0.0646, 'grad_norm': 0.21840722858905792, 'learning_rate': 2.980085771304828e-05, 'epoch': 2.55}
 11%|█         | 8325/78504 [5:04:09<47:22:43,  2.43s/it] 11%|█         | 8326/78504 [5:04:11<45:56:37,  2.36s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.4799385666847229, 'learning_rate': 2.9800433102628342e-05, 'epoch': 2.55}
 11%|█         | 8326/78504 [5:04:11<45:56:37,  2.36s/it] 11%|█         | 8327/78504 [5:04:13<44:42:01,  2.29s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.5146706700325012, 'learning_rate': 2.98000084922084e-05, 'epoch': 2.55}
 11%|█         | 8327/78504 [5:04:13<44:42:01,  2.29s/it] 11%|█         | 8328/78504 [5:04:15<43:07:43,  2.21s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.4751254618167877, 'learning_rate': 2.9799583881788463e-05, 'epoch': 2.55}
 11%|█         | 8328/78504 [5:04:15<43:07:43,  2.21s/it] 11%|█         | 8329/78504 [5:04:17<40:43:09,  2.09s/it]                                                         {'loss': 0.1282, 'grad_norm': 0.3808456063270569, 'learning_rate': 2.979915927136852e-05, 'epoch': 2.55}
 11%|█         | 8329/78504 [5:04:17<40:43:09,  2.09s/it] 11%|█         | 8330/78504 [5:04:19<39:25:19,  2.02s/it]                                                         {'loss': 0.119, 'grad_norm': 0.5662547945976257, 'learning_rate': 2.979873466094858e-05, 'epoch': 2.55}
 11%|█         | 8330/78504 [5:04:19<39:25:19,  2.02s/it] 11%|█         | 8331/78504 [5:04:20<37:43:29,  1.94s/it]                                                         {'loss': 0.1303, 'grad_norm': 0.5493873357772827, 'learning_rate': 2.9798310050528642e-05, 'epoch': 2.55}
 11%|█         | 8331/78504 [5:04:20<37:43:29,  1.94s/it] 11%|█         | 8332/78504 [5:04:22<36:05:43,  1.85s/it]                                                         {'loss': 0.1188, 'grad_norm': 0.49144700169563293, 'learning_rate': 2.97978854401087e-05, 'epoch': 2.55}
 11%|█         | 8332/78504 [5:04:22<36:05:43,  1.85s/it] 11%|█         | 8333/78504 [5:04:24<34:50:58,  1.79s/it]                                                         {'loss': 0.1323, 'grad_norm': 0.5319558382034302, 'learning_rate': 2.9797460829688763e-05, 'epoch': 2.55}
 11%|█         | 8333/78504 [5:04:24<34:50:58,  1.79s/it] 11%|█         | 8334/78504 [5:04:25<33:18:32,  1.71s/it]                                                         {'loss': 0.2163, 'grad_norm': 0.5926159024238586, 'learning_rate': 2.979703621926882e-05, 'epoch': 2.55}
 11%|█         | 8334/78504 [5:04:25<33:18:32,  1.71s/it] 11%|█         | 8335/78504 [5:04:27<31:40:31,  1.63s/it]                                                         {'loss': 0.185, 'grad_norm': 0.5070227980613708, 'learning_rate': 2.9796611608848884e-05, 'epoch': 2.55}
 11%|█         | 8335/78504 [5:04:27<31:40:31,  1.63s/it] 11%|█         | 8336/78504 [5:04:28<30:24:02,  1.56s/it]                                                         {'loss': 0.2072, 'grad_norm': 0.8654133081436157, 'learning_rate': 2.9796186998428942e-05, 'epoch': 2.55}
 11%|█         | 8336/78504 [5:04:28<30:24:02,  1.56s/it] 11%|█         | 8337/78504 [5:04:29<28:27:38,  1.46s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.7669133543968201, 'learning_rate': 2.9795762388009005e-05, 'epoch': 2.55}
 11%|█         | 8337/78504 [5:04:29<28:27:38,  1.46s/it] 11%|█         | 8338/78504 [5:04:30<26:33:52,  1.36s/it]                                                         {'loss': 0.2076, 'grad_norm': 1.138536810874939, 'learning_rate': 2.9795337777589063e-05, 'epoch': 2.55}
 11%|█         | 8338/78504 [5:04:31<26:33:52,  1.36s/it] 11%|█         | 8339/78504 [5:04:32<24:58:51,  1.28s/it]                                                         {'loss': 0.2387, 'grad_norm': 0.8293712735176086, 'learning_rate': 2.9794913167169125e-05, 'epoch': 2.55}
 11%|█         | 8339/78504 [5:04:32<24:58:51,  1.28s/it] 11%|█         | 8340/78504 [5:04:33<23:15:30,  1.19s/it]                                                         {'loss': 0.2086, 'grad_norm': 0.8053146600723267, 'learning_rate': 2.9794488556749184e-05, 'epoch': 2.55}
 11%|█         | 8340/78504 [5:04:33<23:15:30,  1.19s/it] 11%|█         | 8341/78504 [5:04:33<21:41:59,  1.11s/it]                                                         {'loss': 0.2367, 'grad_norm': 1.8234024047851562, 'learning_rate': 2.9794063946329246e-05, 'epoch': 2.55}
 11%|█         | 8341/78504 [5:04:34<21:41:59,  1.11s/it] 11%|█         | 8342/78504 [5:04:34<19:44:22,  1.01s/it]                                                         {'loss': 0.2434, 'grad_norm': 1.3816311359405518, 'learning_rate': 2.9793639335909305e-05, 'epoch': 2.55}
 11%|█         | 8342/78504 [5:04:34<19:44:22,  1.01s/it] 11%|█         | 8343/78504 [5:04:43<64:17:17,  3.30s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.4278380870819092, 'learning_rate': 2.9793214725489364e-05, 'epoch': 2.55}
 11%|█         | 8343/78504 [5:04:43<64:17:17,  3.30s/it] 11%|█         | 8344/78504 [5:04:46<63:22:32,  3.25s/it]                                                         {'loss': 0.1039, 'grad_norm': 0.4531414806842804, 'learning_rate': 2.9792790115069426e-05, 'epoch': 2.55}
 11%|█         | 8344/78504 [5:04:46<63:22:32,  3.25s/it] 11%|█         | 8345/78504 [5:04:49<61:26:54,  3.15s/it]                                                         {'loss': 0.078, 'grad_norm': 0.30998945236206055, 'learning_rate': 2.9792365504649484e-05, 'epoch': 2.55}
 11%|█         | 8345/78504 [5:04:49<61:26:54,  3.15s/it] 11%|█         | 8346/78504 [5:04:51<57:35:00,  2.95s/it]                                                         {'loss': 0.0512, 'grad_norm': 0.28420960903167725, 'learning_rate': 2.9791940894229546e-05, 'epoch': 2.55}
 11%|█         | 8346/78504 [5:04:51<57:35:00,  2.95s/it] 11%|█         | 8347/78504 [5:04:54<54:45:46,  2.81s/it]                                                         {'loss': 0.0855, 'grad_norm': 0.33427852392196655, 'learning_rate': 2.9791516283809605e-05, 'epoch': 2.55}
 11%|█         | 8347/78504 [5:04:54<54:45:46,  2.81s/it] 11%|█         | 8348/78504 [5:04:56<52:31:11,  2.70s/it]                                                         {'loss': 0.0769, 'grad_norm': 0.36205968260765076, 'learning_rate': 2.9791091673389667e-05, 'epoch': 2.55}
 11%|█         | 8348/78504 [5:04:56<52:31:11,  2.70s/it] 11%|█         | 8349/78504 [5:04:59<50:19:25,  2.58s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.21905508637428284, 'learning_rate': 2.9790667062969726e-05, 'epoch': 2.55}
 11%|█         | 8349/78504 [5:04:59<50:19:25,  2.58s/it] 11%|█         | 8350/78504 [5:05:01<47:34:08,  2.44s/it]                                                         {'loss': 0.0829, 'grad_norm': 0.40163519978523254, 'learning_rate': 2.9790242452549788e-05, 'epoch': 2.55}
 11%|█         | 8350/78504 [5:05:01<47:34:08,  2.44s/it] 11%|█         | 8351/78504 [5:05:03<46:04:22,  2.36s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.2783992290496826, 'learning_rate': 2.9789817842129847e-05, 'epoch': 2.55}
 11%|█         | 8351/78504 [5:05:03<46:04:22,  2.36s/it] 11%|█         | 8352/78504 [5:05:05<44:46:51,  2.30s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.2616511285305023, 'learning_rate': 2.978939323170991e-05, 'epoch': 2.55}
 11%|█         | 8352/78504 [5:05:05<44:46:51,  2.30s/it] 11%|█         | 8353/78504 [5:05:07<43:12:22,  2.22s/it]                                                         {'loss': 0.0728, 'grad_norm': 0.4878736734390259, 'learning_rate': 2.9788968621289967e-05, 'epoch': 2.55}
 11%|█         | 8353/78504 [5:05:07<43:12:22,  2.22s/it] 11%|█         | 8354/78504 [5:05:09<41:49:56,  2.15s/it]                                                         {'loss': 0.0987, 'grad_norm': 0.3684738278388977, 'learning_rate': 2.978854401087003e-05, 'epoch': 2.55}
 11%|█         | 8354/78504 [5:05:09<41:49:56,  2.15s/it] 11%|█         | 8355/78504 [5:05:11<40:12:57,  2.06s/it]                                                         {'loss': 0.1203, 'grad_norm': 0.39749687910079956, 'learning_rate': 2.9788119400450088e-05, 'epoch': 2.55}
 11%|█         | 8355/78504 [5:05:11<40:12:57,  2.06s/it] 11%|█         | 8356/78504 [5:05:13<38:54:57,  2.00s/it]                                                         {'loss': 0.1371, 'grad_norm': 0.33960145711898804, 'learning_rate': 2.9787694790030147e-05, 'epoch': 2.55}
 11%|█         | 8356/78504 [5:05:13<38:54:57,  2.00s/it] 11%|█         | 8357/78504 [5:05:15<37:21:50,  1.92s/it]                                                         {'loss': 0.1384, 'grad_norm': 0.7304810285568237, 'learning_rate': 2.978727017961021e-05, 'epoch': 2.55}
 11%|█         | 8357/78504 [5:05:15<37:21:50,  1.92s/it] 11%|█         | 8358/78504 [5:05:16<35:48:24,  1.84s/it]                                                         {'loss': 0.1892, 'grad_norm': 0.5567790865898132, 'learning_rate': 2.9786845569190268e-05, 'epoch': 2.56}
 11%|█         | 8358/78504 [5:05:16<35:48:24,  1.84s/it] 11%|█         | 8359/78504 [5:05:18<34:03:05,  1.75s/it]                                                         {'loss': 0.1641, 'grad_norm': 0.5488064289093018, 'learning_rate': 2.978642095877033e-05, 'epoch': 2.56}
 11%|█         | 8359/78504 [5:05:18<34:03:05,  1.75s/it] 11%|█         | 8360/78504 [5:05:19<32:10:59,  1.65s/it]                                                         {'loss': 0.1753, 'grad_norm': 0.7058230638504028, 'learning_rate': 2.978599634835039e-05, 'epoch': 2.56}
 11%|█         | 8360/78504 [5:05:19<32:10:59,  1.65s/it] 11%|█         | 8361/78504 [5:05:21<30:48:10,  1.58s/it]                                                         {'loss': 0.1938, 'grad_norm': 1.0510905981063843, 'learning_rate': 2.978557173793045e-05, 'epoch': 2.56}
 11%|█         | 8361/78504 [5:05:21<30:48:10,  1.58s/it] 11%|█         | 8362/78504 [5:05:22<29:01:58,  1.49s/it]                                                         {'loss': 0.209, 'grad_norm': 0.8958444595336914, 'learning_rate': 2.978514712751051e-05, 'epoch': 2.56}
 11%|█         | 8362/78504 [5:05:22<29:01:58,  1.49s/it] 11%|█         | 8363/78504 [5:05:23<27:01:06,  1.39s/it]                                                         {'loss': 0.206, 'grad_norm': 0.7192044854164124, 'learning_rate': 2.978472251709057e-05, 'epoch': 2.56}
 11%|█         | 8363/78504 [5:05:23<27:01:06,  1.39s/it] 11%|█         | 8364/78504 [5:05:24<25:14:52,  1.30s/it]                                                         {'loss': 0.216, 'grad_norm': 0.8918411135673523, 'learning_rate': 2.978429790667063e-05, 'epoch': 2.56}
 11%|█         | 8364/78504 [5:05:24<25:14:52,  1.30s/it] 11%|█         | 8365/78504 [5:05:25<23:48:24,  1.22s/it]                                                         {'loss': 0.2179, 'grad_norm': 1.4857861995697021, 'learning_rate': 2.9783873296250692e-05, 'epoch': 2.56}
 11%|█         | 8365/78504 [5:05:25<23:48:24,  1.22s/it] 11%|█         | 8366/78504 [5:05:26<22:06:38,  1.13s/it]                                                         {'loss': 0.224, 'grad_norm': 1.1071372032165527, 'learning_rate': 2.978344868583075e-05, 'epoch': 2.56}
 11%|█         | 8366/78504 [5:05:26<22:06:38,  1.13s/it] 11%|█         | 8367/78504 [5:05:27<20:04:30,  1.03s/it]                                                         {'loss': 0.3075, 'grad_norm': 1.326225996017456, 'learning_rate': 2.9783024075410813e-05, 'epoch': 2.56}
 11%|█         | 8367/78504 [5:05:27<20:04:30,  1.03s/it] 11%|█         | 8368/78504 [5:05:35<63:08:18,  3.24s/it]                                                         {'loss': 0.1414, 'grad_norm': 0.45578625798225403, 'learning_rate': 2.978259946499087e-05, 'epoch': 2.56}
 11%|█         | 8368/78504 [5:05:35<63:08:18,  3.24s/it] 11%|█         | 8369/78504 [5:05:39<63:29:32,  3.26s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.4510904550552368, 'learning_rate': 2.978217485457093e-05, 'epoch': 2.56}
 11%|█         | 8369/78504 [5:05:39<63:29:32,  3.26s/it] 11%|█         | 8370/78504 [5:05:41<59:26:27,  3.05s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.43607500195503235, 'learning_rate': 2.9781750244150992e-05, 'epoch': 2.56}
 11%|█         | 8370/78504 [5:05:41<59:26:27,  3.05s/it] 11%|█         | 8371/78504 [5:05:44<56:53:23,  2.92s/it]                                                         {'loss': 0.1118, 'grad_norm': 0.37792545557022095, 'learning_rate': 2.978132563373105e-05, 'epoch': 2.56}
 11%|█         | 8371/78504 [5:05:44<56:53:23,  2.92s/it] 11%|█         | 8372/78504 [5:05:46<54:13:34,  2.78s/it]                                                         {'loss': 0.069, 'grad_norm': 0.36639291048049927, 'learning_rate': 2.9780901023311113e-05, 'epoch': 2.56}
 11%|█         | 8372/78504 [5:05:46<54:13:34,  2.78s/it] 11%|█         | 8373/78504 [5:05:48<51:13:31,  2.63s/it]                                                         {'loss': 0.0476, 'grad_norm': 0.40852612257003784, 'learning_rate': 2.9780476412891172e-05, 'epoch': 2.56}
 11%|█         | 8373/78504 [5:05:49<51:13:31,  2.63s/it] 11%|█         | 8374/78504 [5:05:51<49:23:57,  2.54s/it]                                                         {'loss': 0.064, 'grad_norm': 0.2316218465566635, 'learning_rate': 2.9780051802471234e-05, 'epoch': 2.56}
 11%|█         | 8374/78504 [5:05:51<49:23:57,  2.54s/it] 11%|█         | 8375/78504 [5:05:53<46:56:58,  2.41s/it]                                                         {'loss': 0.0754, 'grad_norm': 0.32115593552589417, 'learning_rate': 2.9779627192051293e-05, 'epoch': 2.56}
 11%|█         | 8375/78504 [5:05:53<46:56:58,  2.41s/it] 11%|█         | 8376/78504 [5:05:55<45:38:35,  2.34s/it]                                                         {'loss': 0.0516, 'grad_norm': 0.22614265978336334, 'learning_rate': 2.9779202581631355e-05, 'epoch': 2.56}
 11%|█         | 8376/78504 [5:05:55<45:38:35,  2.34s/it] 11%|█         | 8377/78504 [5:05:57<44:27:19,  2.28s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.38804614543914795, 'learning_rate': 2.9778777971211414e-05, 'epoch': 2.56}
 11%|█         | 8377/78504 [5:05:57<44:27:19,  2.28s/it] 11%|█         | 8378/78504 [5:05:59<42:00:28,  2.16s/it]                                                         {'loss': 0.109, 'grad_norm': 0.5522410869598389, 'learning_rate': 2.9778353360791476e-05, 'epoch': 2.56}
 11%|█         | 8378/78504 [5:05:59<42:00:28,  2.16s/it] 11%|█         | 8379/78504 [5:06:01<41:01:17,  2.11s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.4360395669937134, 'learning_rate': 2.9777928750371534e-05, 'epoch': 2.56}
 11%|█         | 8379/78504 [5:06:01<41:01:17,  2.11s/it] 11%|█         | 8380/78504 [5:06:03<39:43:20,  2.04s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.378873735666275, 'learning_rate': 2.9777504139951596e-05, 'epoch': 2.56}
 11%|█         | 8380/78504 [5:06:03<39:43:20,  2.04s/it] 11%|█         | 8381/78504 [5:06:05<38:44:40,  1.99s/it]                                                         {'loss': 0.1413, 'grad_norm': 1.0197346210479736, 'learning_rate': 2.9777079529531655e-05, 'epoch': 2.56}
 11%|█         | 8381/78504 [5:06:05<38:44:40,  1.99s/it] 11%|█         | 8382/78504 [5:06:07<37:25:47,  1.92s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.5122418999671936, 'learning_rate': 2.9776654919111714e-05, 'epoch': 2.56}
 11%|█         | 8382/78504 [5:06:07<37:25:47,  1.92s/it] 11%|█         | 8383/78504 [5:06:08<35:49:56,  1.84s/it]                                                         {'loss': 0.1808, 'grad_norm': 0.8548694849014282, 'learning_rate': 2.9776230308691776e-05, 'epoch': 2.56}
 11%|█         | 8383/78504 [5:06:08<35:49:56,  1.84s/it] 11%|█         | 8384/78504 [5:06:10<34:05:56,  1.75s/it]                                                         {'loss': 0.1657, 'grad_norm': 0.7412512898445129, 'learning_rate': 2.9775805698271835e-05, 'epoch': 2.56}
 11%|█         | 8384/78504 [5:06:10<34:05:56,  1.75s/it] 11%|█         | 8385/78504 [5:06:11<32:40:05,  1.68s/it]                                                         {'loss': 0.1764, 'grad_norm': 0.5393138527870178, 'learning_rate': 2.9775381087851897e-05, 'epoch': 2.56}
 11%|█         | 8385/78504 [5:06:11<32:40:05,  1.68s/it] 11%|█         | 8386/78504 [5:06:13<30:58:42,  1.59s/it]                                                         {'loss': 0.1934, 'grad_norm': 0.9220337271690369, 'learning_rate': 2.9774956477431955e-05, 'epoch': 2.56}
 11%|█         | 8386/78504 [5:06:13<30:58:42,  1.59s/it] 11%|█         | 8387/78504 [5:06:14<29:11:56,  1.50s/it]                                                         {'loss': 0.1856, 'grad_norm': 0.6774190664291382, 'learning_rate': 2.9774531867012017e-05, 'epoch': 2.56}
 11%|█         | 8387/78504 [5:06:14<29:11:56,  1.50s/it] 11%|█         | 8388/78504 [5:06:15<27:11:51,  1.40s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.7669955492019653, 'learning_rate': 2.9774107256592076e-05, 'epoch': 2.56}
 11%|█         | 8388/78504 [5:06:15<27:11:51,  1.40s/it] 11%|█         | 8389/78504 [5:06:16<25:30:36,  1.31s/it]                                                         {'loss': 0.25, 'grad_norm': 3.855278968811035, 'learning_rate': 2.9773682646172138e-05, 'epoch': 2.56}
 11%|█         | 8389/78504 [5:06:16<25:30:36,  1.31s/it] 11%|█         | 8390/78504 [5:06:17<24:01:52,  1.23s/it]                                                         {'loss': 0.2139, 'grad_norm': 0.8770455121994019, 'learning_rate': 2.9773258035752197e-05, 'epoch': 2.56}
 11%|█         | 8390/78504 [5:06:17<24:01:52,  1.23s/it] 11%|█         | 8391/78504 [5:06:18<22:19:07,  1.15s/it]                                                         {'loss': 0.2934, 'grad_norm': 1.9386475086212158, 'learning_rate': 2.977283342533226e-05, 'epoch': 2.57}
 11%|█         | 8391/78504 [5:06:18<22:19:07,  1.15s/it] 11%|█         | 8392/78504 [5:06:19<20:10:20,  1.04s/it]                                                         {'loss': 0.3019, 'grad_norm': 5.064486503601074, 'learning_rate': 2.9772408814912318e-05, 'epoch': 2.57}
 11%|█         | 8392/78504 [5:06:19<20:10:20,  1.04s/it] 11%|█         | 8393/78504 [5:06:27<62:49:34,  3.23s/it]                                                         {'loss': 0.1614, 'grad_norm': 0.3207942843437195, 'learning_rate': 2.9771984204492376e-05, 'epoch': 2.57}
 11%|█         | 8393/78504 [5:06:27<62:49:34,  3.23s/it] 11%|█         | 8394/78504 [5:06:30<62:10:47,  3.19s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.40152978897094727, 'learning_rate': 2.977155959407244e-05, 'epoch': 2.57}
 11%|█         | 8394/78504 [5:06:31<62:10:47,  3.19s/it] 11%|█         | 8395/78504 [5:06:33<58:33:57,  3.01s/it]                                                         {'loss': 0.1002, 'grad_norm': 0.4153764843940735, 'learning_rate': 2.9771134983652497e-05, 'epoch': 2.57}
 11%|█         | 8395/78504 [5:06:33<58:33:57,  3.01s/it] 11%|█         | 8396/78504 [5:06:36<56:14:22,  2.89s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.26214075088500977, 'learning_rate': 2.977071037323256e-05, 'epoch': 2.57}
 11%|█         | 8396/78504 [5:06:36<56:14:22,  2.89s/it] 11%|█         | 8397/78504 [5:06:38<53:49:25,  2.76s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.4014420509338379, 'learning_rate': 2.9770285762812618e-05, 'epoch': 2.57}
 11%|█         | 8397/78504 [5:06:38<53:49:25,  2.76s/it] 11%|█         | 8398/78504 [5:06:40<50:55:07,  2.61s/it]                                                         {'loss': 0.055, 'grad_norm': 0.2207091897726059, 'learning_rate': 2.976986115239268e-05, 'epoch': 2.57}
 11%|█         | 8398/78504 [5:06:40<50:55:07,  2.61s/it] 11%|█         | 8399/78504 [5:06:43<49:12:40,  2.53s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.3176036477088928, 'learning_rate': 2.976943654197274e-05, 'epoch': 2.57}
 11%|█         | 8399/78504 [5:06:43<49:12:40,  2.53s/it] 11%|█         | 8400/78504 [5:06:45<46:40:09,  2.40s/it]                                                         {'loss': 0.0466, 'grad_norm': 0.23526357114315033, 'learning_rate': 2.97690119315528e-05, 'epoch': 2.57}
 11%|█         | 8400/78504 [5:06:45<46:40:09,  2.40s/it] 11%|█         | 8401/78504 [5:06:47<44:28:55,  2.28s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.32100674510002136, 'learning_rate': 2.976858732113286e-05, 'epoch': 2.57}
 11%|█         | 8401/78504 [5:06:47<44:28:55,  2.28s/it] 11%|█         | 8402/78504 [5:06:49<43:38:46,  2.24s/it]                                                         {'loss': 0.0588, 'grad_norm': 0.2992071807384491, 'learning_rate': 2.9768162710712922e-05, 'epoch': 2.57}
 11%|█         | 8402/78504 [5:06:49<43:38:46,  2.24s/it] 11%|█         | 8403/78504 [5:06:51<42:22:04,  2.18s/it]                                                         {'loss': 0.116, 'grad_norm': 0.40845388174057007, 'learning_rate': 2.976773810029298e-05, 'epoch': 2.57}
 11%|█         | 8403/78504 [5:06:51<42:22:04,  2.18s/it] 11%|█         | 8404/78504 [5:06:53<41:14:56,  2.12s/it]                                                         {'loss': 0.0932, 'grad_norm': 0.41498035192489624, 'learning_rate': 2.9767313489873042e-05, 'epoch': 2.57}
 11%|█         | 8404/78504 [5:06:53<41:14:56,  2.12s/it] 11%|█         | 8405/78504 [5:06:55<39:47:31,  2.04s/it]                                                         {'loss': 0.1077, 'grad_norm': 0.3922388553619385, 'learning_rate': 2.97668888794531e-05, 'epoch': 2.57}
 11%|█         | 8405/78504 [5:06:55<39:47:31,  2.04s/it] 11%|█         | 8406/78504 [5:06:57<38:37:22,  1.98s/it]                                                         {'loss': 0.1612, 'grad_norm': 0.5820786952972412, 'learning_rate': 2.976646426903316e-05, 'epoch': 2.57}
 11%|█         | 8406/78504 [5:06:57<38:37:22,  1.98s/it] 11%|█         | 8407/78504 [5:06:58<37:08:36,  1.91s/it]                                                         {'loss': 0.1173, 'grad_norm': 0.46122246980667114, 'learning_rate': 2.9766039658613222e-05, 'epoch': 2.57}
 11%|█         | 8407/78504 [5:06:58<37:08:36,  1.91s/it] 11%|█         | 8408/78504 [5:07:00<35:38:36,  1.83s/it]                                                         {'loss': 0.202, 'grad_norm': 0.8741685152053833, 'learning_rate': 2.976561504819328e-05, 'epoch': 2.57}
 11%|█         | 8408/78504 [5:07:00<35:38:36,  1.83s/it] 11%|█         | 8409/78504 [5:07:02<33:57:29,  1.74s/it]                                                         {'loss': 0.1713, 'grad_norm': 0.8338782787322998, 'learning_rate': 2.9765190437773343e-05, 'epoch': 2.57}
 11%|█         | 8409/78504 [5:07:02<33:57:29,  1.74s/it] 11%|█         | 8410/78504 [5:07:03<32:17:46,  1.66s/it]                                                         {'loss': 0.1493, 'grad_norm': 1.753347635269165, 'learning_rate': 2.97647658273534e-05, 'epoch': 2.57}
 11%|█         | 8410/78504 [5:07:03<32:17:46,  1.66s/it] 11%|█         | 8411/78504 [5:07:04<30:47:03,  1.58s/it]                                                         {'loss': 0.1951, 'grad_norm': 0.8196293115615845, 'learning_rate': 2.9764341216933464e-05, 'epoch': 2.57}
 11%|█         | 8411/78504 [5:07:05<30:47:03,  1.58s/it] 11%|█         | 8412/78504 [5:07:06<29:04:12,  1.49s/it]                                                         {'loss': 0.2067, 'grad_norm': 0.978943407535553, 'learning_rate': 2.9763916606513522e-05, 'epoch': 2.57}
 11%|█         | 8412/78504 [5:07:06<29:04:12,  1.49s/it] 11%|█         | 8413/78504 [5:07:07<27:06:07,  1.39s/it]                                                         {'loss': 0.2307, 'grad_norm': 0.6682287454605103, 'learning_rate': 2.9763491996093584e-05, 'epoch': 2.57}
 11%|█         | 8413/78504 [5:07:07<27:06:07,  1.39s/it] 11%|█         | 8414/78504 [5:07:08<25:18:29,  1.30s/it]                                                         {'loss': 0.2442, 'grad_norm': 0.8417865633964539, 'learning_rate': 2.9763067385673643e-05, 'epoch': 2.57}
 11%|█         | 8414/78504 [5:07:08<25:18:29,  1.30s/it] 11%|█         | 8415/78504 [5:07:09<23:29:26,  1.21s/it]                                                         {'loss': 0.232, 'grad_norm': 1.095544695854187, 'learning_rate': 2.9762642775253705e-05, 'epoch': 2.57}
 11%|█         | 8415/78504 [5:07:09<23:29:26,  1.21s/it] 11%|█         | 8416/78504 [5:07:10<21:54:25,  1.13s/it]                                                         {'loss': 0.1884, 'grad_norm': 1.9070682525634766, 'learning_rate': 2.9762218164833764e-05, 'epoch': 2.57}
 11%|█         | 8416/78504 [5:07:10<21:54:25,  1.13s/it] 11%|█         | 8417/78504 [5:07:11<19:55:25,  1.02s/it]                                                         {'loss': 0.2947, 'grad_norm': 1.4511562585830688, 'learning_rate': 2.9761793554413826e-05, 'epoch': 2.57}
 11%|█         | 8417/78504 [5:07:11<19:55:25,  1.02s/it] 11%|█         | 8418/78504 [5:07:19<63:13:48,  3.25s/it]                                                         {'loss': 0.1367, 'grad_norm': 0.6764416694641113, 'learning_rate': 2.9761368943993885e-05, 'epoch': 2.57}
 11%|█         | 8418/78504 [5:07:19<63:13:48,  3.25s/it] 11%|█         | 8419/78504 [5:07:22<62:36:01,  3.22s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.4172336757183075, 'learning_rate': 2.9760944333573947e-05, 'epoch': 2.57}
 11%|█         | 8419/78504 [5:07:22<62:36:01,  3.22s/it] 11%|█         | 8420/78504 [5:07:25<61:14:43,  3.15s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.36573344469070435, 'learning_rate': 2.976051972315401e-05, 'epoch': 2.57}
 11%|█         | 8420/78504 [5:07:25<61:14:43,  3.15s/it] 11%|█         | 8421/78504 [5:07:28<58:11:28,  2.99s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.30138587951660156, 'learning_rate': 2.9760095112734067e-05, 'epoch': 2.57}
 11%|█         | 8421/78504 [5:07:28<58:11:28,  2.99s/it] 11%|█         | 8422/78504 [5:07:30<55:14:46,  2.84s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.35846513509750366, 'learning_rate': 2.975967050231413e-05, 'epoch': 2.57}
 11%|█         | 8422/78504 [5:07:30<55:14:46,  2.84s/it] 11%|█         | 8423/78504 [5:07:33<52:53:07,  2.72s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.24846430122852325, 'learning_rate': 2.9759245891894188e-05, 'epoch': 2.58}
 11%|█         | 8423/78504 [5:07:33<52:53:07,  2.72s/it] 11%|█         | 8424/78504 [5:07:35<50:33:41,  2.60s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.29507747292518616, 'learning_rate': 2.975882128147425e-05, 'epoch': 2.58}
 11%|█         | 8424/78504 [5:07:35<50:33:41,  2.60s/it] 11%|█         | 8425/78504 [5:07:37<47:44:55,  2.45s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.47675418853759766, 'learning_rate': 2.975839667105431e-05, 'epoch': 2.58}
 11%|█         | 8425/78504 [5:07:37<47:44:55,  2.45s/it] 11%|█         | 8426/78504 [5:07:39<46:15:21,  2.38s/it]                                                         {'loss': 0.0676, 'grad_norm': 0.29754170775413513, 'learning_rate': 2.975797206063437e-05, 'epoch': 2.58}
 11%|█         | 8426/78504 [5:07:39<46:15:21,  2.38s/it] 11%|█         | 8427/78504 [5:07:42<45:00:16,  2.31s/it]                                                         {'loss': 0.0802, 'grad_norm': 0.30687016248703003, 'learning_rate': 2.975754745021443e-05, 'epoch': 2.58}
 11%|█         | 8427/78504 [5:07:42<45:00:16,  2.31s/it] 11%|█         | 8428/78504 [5:07:44<43:21:01,  2.23s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.6567064523696899, 'learning_rate': 2.9757122839794492e-05, 'epoch': 2.58}
 11%|█         | 8428/78504 [5:07:44<43:21:01,  2.23s/it] 11%|█         | 8429/78504 [5:07:46<41:55:57,  2.15s/it]                                                         {'loss': 0.0948, 'grad_norm': 0.45685499906539917, 'learning_rate': 2.975669822937455e-05, 'epoch': 2.58}
 11%|█         | 8429/78504 [5:07:46<41:55:57,  2.15s/it] 11%|█         | 8430/78504 [5:07:48<40:11:48,  2.07s/it]                                                         {'loss': 0.1062, 'grad_norm': 0.32021093368530273, 'learning_rate': 2.9756273618954613e-05, 'epoch': 2.58}
 11%|█         | 8430/78504 [5:07:48<40:11:48,  2.07s/it] 11%|█         | 8431/78504 [5:07:49<38:16:47,  1.97s/it]                                                         {'loss': 0.1117, 'grad_norm': 0.3298240602016449, 'learning_rate': 2.975584900853467e-05, 'epoch': 2.58}
 11%|█         | 8431/78504 [5:07:49<38:16:47,  1.97s/it] 11%|█         | 8432/78504 [5:07:51<37:06:58,  1.91s/it]                                                         {'loss': 0.1673, 'grad_norm': 2.9173026084899902, 'learning_rate': 2.975542439811473e-05, 'epoch': 2.58}
 11%|█         | 8432/78504 [5:07:51<37:06:58,  1.91s/it] 11%|█         | 8433/78504 [5:07:53<35:31:39,  1.83s/it]                                                         {'loss': 0.2001, 'grad_norm': 0.6476272344589233, 'learning_rate': 2.9754999787694792e-05, 'epoch': 2.58}
 11%|█         | 8433/78504 [5:07:53<35:31:39,  1.83s/it] 11%|█         | 8434/78504 [5:07:54<33:46:29,  1.74s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.6420387029647827, 'learning_rate': 2.975457517727485e-05, 'epoch': 2.58}
 11%|█         | 8434/78504 [5:07:54<33:46:29,  1.74s/it] 11%|█         | 8435/78504 [5:07:56<31:59:05,  1.64s/it]                                                         {'loss': 0.1696, 'grad_norm': 1.0298134088516235, 'learning_rate': 2.9754150566854913e-05, 'epoch': 2.58}
 11%|█         | 8435/78504 [5:07:56<31:59:05,  1.64s/it] 11%|█         | 8436/78504 [5:07:57<30:38:32,  1.57s/it]                                                         {'loss': 0.2103, 'grad_norm': 0.673408567905426, 'learning_rate': 2.9753725956434972e-05, 'epoch': 2.58}
 11%|█         | 8436/78504 [5:07:57<30:38:32,  1.57s/it] 11%|█         | 8437/78504 [5:07:58<28:33:10,  1.47s/it]                                                         {'loss': 0.2006, 'grad_norm': 1.4648151397705078, 'learning_rate': 2.9753301346015034e-05, 'epoch': 2.58}
 11%|█         | 8437/78504 [5:07:58<28:33:10,  1.47s/it] 11%|█         | 8438/78504 [5:07:59<26:38:52,  1.37s/it]                                                         {'loss': 0.1916, 'grad_norm': 0.7139231562614441, 'learning_rate': 2.9752876735595093e-05, 'epoch': 2.58}
 11%|█         | 8438/78504 [5:07:59<26:38:52,  1.37s/it] 11%|█         | 8439/78504 [5:08:00<25:04:56,  1.29s/it]                                                         {'loss': 0.2209, 'grad_norm': 0.8316459059715271, 'learning_rate': 2.9752452125175155e-05, 'epoch': 2.58}
 11%|█         | 8439/78504 [5:08:00<25:04:56,  1.29s/it] 11%|█         | 8440/78504 [5:08:01<23:22:31,  1.20s/it]                                                         {'loss': 0.2293, 'grad_norm': 0.7570959329605103, 'learning_rate': 2.9752027514755213e-05, 'epoch': 2.58}
 11%|█         | 8440/78504 [5:08:01<23:22:31,  1.20s/it] 11%|█         | 8441/78504 [5:08:02<21:50:07,  1.12s/it]                                                         {'loss': 0.2017, 'grad_norm': 1.0263348817825317, 'learning_rate': 2.9751602904335275e-05, 'epoch': 2.58}
 11%|█         | 8441/78504 [5:08:02<21:50:07,  1.12s/it] 11%|█         | 8442/78504 [5:08:03<19:50:01,  1.02s/it]                                                         {'loss': 0.291, 'grad_norm': 1.347184658050537, 'learning_rate': 2.9751178293915334e-05, 'epoch': 2.58}
 11%|█         | 8442/78504 [5:08:03<19:50:01,  1.02s/it] 11%|█         | 8443/78504 [5:08:13<70:11:27,  3.61s/it]                                                         {'loss': 0.1784, 'grad_norm': 0.8507481217384338, 'learning_rate': 2.9750753683495396e-05, 'epoch': 2.58}
 11%|█         | 8443/78504 [5:08:13<70:11:27,  3.61s/it] 11%|█         | 8444/78504 [5:08:16<68:43:28,  3.53s/it]                                                         {'loss': 0.136, 'grad_norm': 0.34178033471107483, 'learning_rate': 2.9750329073075455e-05, 'epoch': 2.58}
 11%|█         | 8444/78504 [5:08:16<68:43:28,  3.53s/it] 11%|█         | 8445/78504 [5:08:19<65:11:36,  3.35s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.345165878534317, 'learning_rate': 2.9749904462655514e-05, 'epoch': 2.58}
 11%|█         | 8445/78504 [5:08:19<65:11:36,  3.35s/it] 11%|█         | 8446/78504 [5:08:22<60:47:36,  3.12s/it]                                                         {'loss': 0.0667, 'grad_norm': 0.25209009647369385, 'learning_rate': 2.9749479852235576e-05, 'epoch': 2.58}
 11%|█         | 8446/78504 [5:08:22<60:47:36,  3.12s/it] 11%|█         | 8447/78504 [5:08:24<57:24:23,  2.95s/it]                                                         {'loss': 0.0715, 'grad_norm': 0.33090993762016296, 'learning_rate': 2.9749055241815634e-05, 'epoch': 2.58}
 11%|█         | 8447/78504 [5:08:24<57:24:23,  2.95s/it] 11%|█         | 8448/78504 [5:08:27<54:27:26,  2.80s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.22804392874240875, 'learning_rate': 2.9748630631395696e-05, 'epoch': 2.58}
 11%|█         | 8448/78504 [5:08:27<54:27:26,  2.80s/it] 11%|█         | 8449/78504 [5:08:29<51:53:38,  2.67s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.30860376358032227, 'learning_rate': 2.9748206020975755e-05, 'epoch': 2.58}
 11%|█         | 8449/78504 [5:08:29<51:53:38,  2.67s/it] 11%|█         | 8450/78504 [5:08:31<49:44:00,  2.56s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.43181705474853516, 'learning_rate': 2.9747781410555817e-05, 'epoch': 2.58}
 11%|█         | 8450/78504 [5:08:31<49:44:00,  2.56s/it] 11%|█         | 8451/78504 [5:08:33<46:48:27,  2.41s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.3905654549598694, 'learning_rate': 2.9747356800135876e-05, 'epoch': 2.58}
 11%|█         | 8451/78504 [5:08:33<46:48:27,  2.41s/it] 11%|█         | 8452/78504 [5:08:36<45:13:56,  2.32s/it]                                                         {'loss': 0.0895, 'grad_norm': 1.1268526315689087, 'learning_rate': 2.9746932189715938e-05, 'epoch': 2.58}
 11%|█         | 8452/78504 [5:08:36<45:13:56,  2.32s/it] 11%|█         | 8453/78504 [5:08:38<43:31:35,  2.24s/it]                                                         {'loss': 0.0685, 'grad_norm': 0.38513848185539246, 'learning_rate': 2.9746507579295997e-05, 'epoch': 2.58}
 11%|█         | 8453/78504 [5:08:38<43:31:35,  2.24s/it] 11%|█         | 8454/78504 [5:08:40<42:09:50,  2.17s/it]                                                         {'loss': 0.1317, 'grad_norm': 0.35875675082206726, 'learning_rate': 2.974608296887606e-05, 'epoch': 2.58}
 11%|█         | 8454/78504 [5:08:40<42:09:50,  2.17s/it] 11%|█         | 8455/78504 [5:08:41<39:57:03,  2.05s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.4370126724243164, 'learning_rate': 2.9745658358456118e-05, 'epoch': 2.58}
 11%|█         | 8455/78504 [5:08:41<39:57:03,  2.05s/it] 11%|█         | 8456/78504 [5:08:43<38:58:23,  2.00s/it]                                                         {'loss': 0.1139, 'grad_norm': 0.6696600914001465, 'learning_rate': 2.974523374803618e-05, 'epoch': 2.59}
 11%|█         | 8456/78504 [5:08:43<38:58:23,  2.00s/it] 11%|█         | 8457/78504 [5:08:45<37:57:16,  1.95s/it]                                                         {'loss': 0.1208, 'grad_norm': 0.5439867377281189, 'learning_rate': 2.9744809137616238e-05, 'epoch': 2.59}
 11%|█         | 8457/78504 [5:08:45<37:57:16,  1.95s/it] 11%|█         | 8458/78504 [5:08:47<36:35:56,  1.88s/it]                                                         {'loss': 0.1546, 'grad_norm': 0.515100359916687, 'learning_rate': 2.9744384527196297e-05, 'epoch': 2.59}
 11%|█         | 8458/78504 [5:08:47<36:35:56,  1.88s/it] 11%|█         | 8459/78504 [5:08:48<34:14:58,  1.76s/it]                                                         {'loss': 0.1908, 'grad_norm': 0.5268304944038391, 'learning_rate': 2.974395991677636e-05, 'epoch': 2.59}
 11%|█         | 8459/78504 [5:08:48<34:14:58,  1.76s/it] 11%|█         | 8460/78504 [5:08:50<32:51:56,  1.69s/it]                                                         {'loss': 0.2144, 'grad_norm': 1.186877965927124, 'learning_rate': 2.9743535306356418e-05, 'epoch': 2.59}
 11%|█         | 8460/78504 [5:08:50<32:51:56,  1.69s/it] 11%|█         | 8461/78504 [5:08:51<31:16:54,  1.61s/it]                                                         {'loss': 0.1835, 'grad_norm': 1.508428931236267, 'learning_rate': 2.974311069593648e-05, 'epoch': 2.59}
 11%|█         | 8461/78504 [5:08:51<31:16:54,  1.61s/it] 11%|█         | 8462/78504 [5:08:52<29:21:23,  1.51s/it]                                                         {'loss': 0.2175, 'grad_norm': 1.5133506059646606, 'learning_rate': 2.974268608551654e-05, 'epoch': 2.59}
 11%|█         | 8462/78504 [5:08:53<29:21:23,  1.51s/it] 11%|█         | 8463/78504 [5:08:54<27:36:03,  1.42s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.6428373456001282, 'learning_rate': 2.97422614750966e-05, 'epoch': 2.59}
 11%|█         | 8463/78504 [5:08:54<27:36:03,  1.42s/it] 11%|█         | 8464/78504 [5:08:55<25:48:47,  1.33s/it]                                                         {'loss': 0.2157, 'grad_norm': 0.7333836555480957, 'learning_rate': 2.974183686467666e-05, 'epoch': 2.59}
 11%|█         | 8464/78504 [5:08:55<25:48:47,  1.33s/it] 11%|█         | 8465/78504 [5:08:56<24:13:35,  1.25s/it]                                                         {'loss': 0.2048, 'grad_norm': 1.2339098453521729, 'learning_rate': 2.974141225425672e-05, 'epoch': 2.59}
 11%|█         | 8465/78504 [5:08:56<24:13:35,  1.25s/it] 11%|█         | 8466/78504 [5:08:57<22:24:05,  1.15s/it]                                                         {'loss': 0.2454, 'grad_norm': 1.6550978422164917, 'learning_rate': 2.974098764383678e-05, 'epoch': 2.59}
 11%|█         | 8466/78504 [5:08:57<22:24:05,  1.15s/it] 11%|█         | 8467/78504 [5:08:58<20:19:23,  1.04s/it]                                                         {'loss': 0.2519, 'grad_norm': 8.434856414794922, 'learning_rate': 2.9740563033416842e-05, 'epoch': 2.59}
 11%|█         | 8467/78504 [5:08:58<20:19:23,  1.04s/it] 11%|█         | 8468/78504 [5:09:05<56:09:28,  2.89s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.4033075273036957, 'learning_rate': 2.97401384229969e-05, 'epoch': 2.59}
 11%|█         | 8468/78504 [5:09:05<56:09:28,  2.89s/it] 11%|█         | 8469/78504 [5:09:08<57:25:23,  2.95s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.41242608428001404, 'learning_rate': 2.9739713812576963e-05, 'epoch': 2.59}
 11%|█         | 8469/78504 [5:09:08<57:25:23,  2.95s/it] 11%|█         | 8470/78504 [5:09:11<57:14:42,  2.94s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.25879716873168945, 'learning_rate': 2.9739289202157022e-05, 'epoch': 2.59}
 11%|█         | 8470/78504 [5:09:11<57:14:42,  2.94s/it] 11%|█         | 8471/78504 [5:09:13<55:07:31,  2.83s/it]                                                         {'loss': 0.07, 'grad_norm': 0.24608129262924194, 'learning_rate': 2.973886459173708e-05, 'epoch': 2.59}
 11%|█         | 8471/78504 [5:09:13<55:07:31,  2.83s/it] 11%|█         | 8472/78504 [5:09:16<53:07:14,  2.73s/it]                                                         {'loss': 0.0596, 'grad_norm': 0.3211709260940552, 'learning_rate': 2.9738439981317143e-05, 'epoch': 2.59}
 11%|█         | 8472/78504 [5:09:16<53:07:14,  2.73s/it] 11%|█         | 8473/78504 [5:09:18<51:22:57,  2.64s/it]                                                         {'loss': 0.0806, 'grad_norm': 0.32334068417549133, 'learning_rate': 2.97380153708972e-05, 'epoch': 2.59}
 11%|█         | 8473/78504 [5:09:18<51:22:57,  2.64s/it] 11%|█         | 8474/78504 [5:09:21<49:28:41,  2.54s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.3146856427192688, 'learning_rate': 2.9737590760477263e-05, 'epoch': 2.59}
 11%|█         | 8474/78504 [5:09:21<49:28:41,  2.54s/it] 11%|█         | 8475/78504 [5:09:23<46:59:18,  2.42s/it]                                                         {'loss': 0.0769, 'grad_norm': 0.35783594846725464, 'learning_rate': 2.9737166150057322e-05, 'epoch': 2.59}
 11%|█         | 8475/78504 [5:09:23<46:59:18,  2.42s/it] 11%|█         | 8476/78504 [5:09:25<45:37:07,  2.35s/it]                                                         {'loss': 0.1141, 'grad_norm': 0.41958364844322205, 'learning_rate': 2.9736741539637384e-05, 'epoch': 2.59}
 11%|█         | 8476/78504 [5:09:25<45:37:07,  2.35s/it] 11%|█         | 8477/78504 [5:09:27<44:27:26,  2.29s/it]                                                         {'loss': 0.1027, 'grad_norm': 0.38858047127723694, 'learning_rate': 2.9736316929217443e-05, 'epoch': 2.59}
 11%|█         | 8477/78504 [5:09:27<44:27:26,  2.29s/it] 11%|█         | 8478/78504 [5:09:29<42:57:19,  2.21s/it]                                                         {'loss': 0.0964, 'grad_norm': 0.29130494594573975, 'learning_rate': 2.9735892318797505e-05, 'epoch': 2.59}
 11%|█         | 8478/78504 [5:09:29<42:57:19,  2.21s/it] 11%|█         | 8479/78504 [5:09:31<40:32:31,  2.08s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.7420637607574463, 'learning_rate': 2.9735467708377564e-05, 'epoch': 2.59}
 11%|█         | 8479/78504 [5:09:31<40:32:31,  2.08s/it] 11%|█         | 8480/78504 [5:09:33<39:14:20,  2.02s/it]                                                         {'loss': 0.1176, 'grad_norm': 0.38296282291412354, 'learning_rate': 2.9735043097957626e-05, 'epoch': 2.59}
 11%|█         | 8480/78504 [5:09:33<39:14:20,  2.02s/it] 11%|█         | 8481/78504 [5:09:34<37:26:41,  1.93s/it]                                                         {'loss': 0.1104, 'grad_norm': 0.43452051281929016, 'learning_rate': 2.9734618487537684e-05, 'epoch': 2.59}
 11%|█         | 8481/78504 [5:09:34<37:26:41,  1.93s/it] 11%|█         | 8482/78504 [5:09:36<36:30:43,  1.88s/it]                                                         {'loss': 0.1802, 'grad_norm': 0.988491952419281, 'learning_rate': 2.9734193877117746e-05, 'epoch': 2.59}
 11%|█         | 8482/78504 [5:09:36<36:30:43,  1.88s/it] 11%|█         | 8483/78504 [5:09:38<34:39:18,  1.78s/it]                                                         {'loss': 0.1533, 'grad_norm': 0.41661128401756287, 'learning_rate': 2.9733769266697805e-05, 'epoch': 2.59}
 11%|█         | 8483/78504 [5:09:38<34:39:18,  1.78s/it] 11%|█         | 8484/78504 [5:09:39<33:08:47,  1.70s/it]                                                         {'loss': 0.1956, 'grad_norm': 0.5945215821266174, 'learning_rate': 2.9733344656277864e-05, 'epoch': 2.59}
 11%|█         | 8484/78504 [5:09:39<33:08:47,  1.70s/it] 11%|█         | 8485/78504 [5:09:41<32:19:37,  1.66s/it]                                                         {'loss': 0.2117, 'grad_norm': 0.6246954798698425, 'learning_rate': 2.9732920045857926e-05, 'epoch': 2.59}
 11%|█         | 8485/78504 [5:09:41<32:19:37,  1.66s/it] 11%|█         | 8486/78504 [5:09:42<30:48:02,  1.58s/it]                                                         {'loss': 0.2089, 'grad_norm': 0.7516672015190125, 'learning_rate': 2.9732495435437985e-05, 'epoch': 2.59}
 11%|█         | 8486/78504 [5:09:42<30:48:02,  1.58s/it] 11%|█         | 8487/78504 [5:09:44<28:44:33,  1.48s/it]                                                         {'loss': 0.1972, 'grad_norm': 0.5626375079154968, 'learning_rate': 2.9732070825018047e-05, 'epoch': 2.59}
 11%|█         | 8487/78504 [5:09:44<28:44:33,  1.48s/it] 11%|█         | 8488/78504 [5:09:45<26:50:53,  1.38s/it]                                                         {'loss': 0.1742, 'grad_norm': 0.9884100556373596, 'learning_rate': 2.9731646214598105e-05, 'epoch': 2.59}
 11%|█         | 8488/78504 [5:09:45<26:50:53,  1.38s/it] 11%|█         | 8489/78504 [5:09:46<25:17:24,  1.30s/it]                                                         {'loss': 0.2276, 'grad_norm': 0.8531062006950378, 'learning_rate': 2.9731221604178168e-05, 'epoch': 2.6}
 11%|█         | 8489/78504 [5:09:46<25:17:24,  1.30s/it] 11%|█         | 8490/78504 [5:09:47<23:34:14,  1.21s/it]                                                         {'loss': 0.2242, 'grad_norm': 1.5098134279251099, 'learning_rate': 2.9730796993758226e-05, 'epoch': 2.6}
 11%|█         | 8490/78504 [5:09:47<23:34:14,  1.21s/it] 11%|█         | 8491/78504 [5:09:48<21:56:44,  1.13s/it]                                                         {'loss': 0.2734, 'grad_norm': 1.3657336235046387, 'learning_rate': 2.9730372383338288e-05, 'epoch': 2.6}
 11%|█         | 8491/78504 [5:09:48<21:56:44,  1.13s/it] 11%|█         | 8492/78504 [5:09:49<19:55:59,  1.02s/it]                                                         {'loss': 0.2793, 'grad_norm': 2.1050004959106445, 'learning_rate': 2.9729947772918347e-05, 'epoch': 2.6}
 11%|█         | 8492/78504 [5:09:49<19:55:59,  1.02s/it] 11%|█         | 8493/78504 [5:09:55<52:35:52,  2.70s/it]                                                         {'loss': 0.1356, 'grad_norm': 1.2834982872009277, 'learning_rate': 2.972952316249841e-05, 'epoch': 2.6}
 11%|█         | 8493/78504 [5:09:55<52:35:52,  2.70s/it] 11%|█         | 8494/78504 [5:09:58<55:08:40,  2.84s/it]                                                         {'loss': 0.0808, 'grad_norm': 0.26599714159965515, 'learning_rate': 2.9729098552078468e-05, 'epoch': 2.6}
 11%|█         | 8494/78504 [5:09:58<55:08:40,  2.84s/it] 11%|█         | 8495/78504 [5:10:01<56:13:35,  2.89s/it]                                                         {'loss': 0.0954, 'grad_norm': 0.29217350482940674, 'learning_rate': 2.972867394165853e-05, 'epoch': 2.6}
 11%|█         | 8495/78504 [5:10:01<56:13:35,  2.89s/it] 11%|█         | 8496/78504 [5:10:04<54:38:11,  2.81s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.1835613250732422, 'learning_rate': 2.972824933123859e-05, 'epoch': 2.6}
 11%|█         | 8496/78504 [5:10:04<54:38:11,  2.81s/it] 11%|█         | 8497/78504 [5:10:06<52:42:07,  2.71s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.24072949588298798, 'learning_rate': 2.9727824720818647e-05, 'epoch': 2.6}
 11%|█         | 8497/78504 [5:10:06<52:42:07,  2.71s/it] 11%|█         | 8498/78504 [5:10:09<50:09:09,  2.58s/it]                                                         {'loss': 0.0503, 'grad_norm': 0.24964024126529694, 'learning_rate': 2.972740011039871e-05, 'epoch': 2.6}
 11%|█         | 8498/78504 [5:10:09<50:09:09,  2.58s/it] 11%|█         | 8499/78504 [5:10:11<48:37:39,  2.50s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.23911963403224945, 'learning_rate': 2.9726975499978768e-05, 'epoch': 2.6}
 11%|█         | 8499/78504 [5:10:11<48:37:39,  2.50s/it] 11%|█         | 8500/78504 [5:10:13<46:16:00,  2.38s/it]                                                         {'loss': 0.0615, 'grad_norm': 0.26345688104629517, 'learning_rate': 2.972655088955883e-05, 'epoch': 2.6}
 11%|█         | 8500/78504 [5:10:13<46:16:00,  2.38s/it] 11%|█         | 8501/78504 [5:10:15<45:06:24,  2.32s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.4567795991897583, 'learning_rate': 2.972612627913889e-05, 'epoch': 2.6}
 11%|█         | 8501/78504 [5:10:15<45:06:24,  2.32s/it] 11%|█         | 8502/78504 [5:10:17<44:06:34,  2.27s/it]                                                         {'loss': 0.0583, 'grad_norm': 0.36205148696899414, 'learning_rate': 2.972570166871895e-05, 'epoch': 2.6}
 11%|█         | 8502/78504 [5:10:17<44:06:34,  2.27s/it] 11%|█         | 8503/78504 [5:10:19<42:41:33,  2.20s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.32154348492622375, 'learning_rate': 2.972527705829901e-05, 'epoch': 2.6}
 11%|█         | 8503/78504 [5:10:19<42:41:33,  2.20s/it] 11%|█         | 8504/78504 [5:10:21<40:21:06,  2.08s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.4154849946498871, 'learning_rate': 2.9724852447879072e-05, 'epoch': 2.6}
 11%|█         | 8504/78504 [5:10:21<40:21:06,  2.08s/it] 11%|█         | 8505/78504 [5:10:23<39:07:16,  2.01s/it]                                                         {'loss': 0.116, 'grad_norm': 0.3088824152946472, 'learning_rate': 2.972442783745913e-05, 'epoch': 2.6}
 11%|█         | 8505/78504 [5:10:23<39:07:16,  2.01s/it] 11%|█         | 8506/78504 [5:10:25<38:08:04,  1.96s/it]                                                         {'loss': 0.1664, 'grad_norm': 0.6277368068695068, 'learning_rate': 2.9724003227039193e-05, 'epoch': 2.6}
 11%|█         | 8506/78504 [5:10:25<38:08:04,  1.96s/it] 11%|█         | 8507/78504 [5:10:27<36:43:10,  1.89s/it]                                                         {'loss': 0.1628, 'grad_norm': 0.49403685331344604, 'learning_rate': 2.972357861661925e-05, 'epoch': 2.6}
 11%|█         | 8507/78504 [5:10:27<36:43:10,  1.89s/it] 11%|█         | 8508/78504 [5:10:28<35:17:46,  1.82s/it]                                                         {'loss': 0.1374, 'grad_norm': 0.6313951015472412, 'learning_rate': 2.972315400619931e-05, 'epoch': 2.6}
 11%|█         | 8508/78504 [5:10:28<35:17:46,  1.82s/it] 11%|█         | 8509/78504 [5:10:30<33:33:28,  1.73s/it]                                                         {'loss': 0.1706, 'grad_norm': 0.6936460733413696, 'learning_rate': 2.9722729395779372e-05, 'epoch': 2.6}
 11%|█         | 8509/78504 [5:10:30<33:33:28,  1.73s/it] 11%|█         | 8510/78504 [5:10:31<31:48:00,  1.64s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.8249213695526123, 'learning_rate': 2.972230478535943e-05, 'epoch': 2.6}
 11%|█         | 8510/78504 [5:10:31<31:48:00,  1.64s/it] 11%|█         | 8511/78504 [5:10:33<30:25:53,  1.57s/it]                                                         {'loss': 0.2048, 'grad_norm': 0.6251870393753052, 'learning_rate': 2.9721880174939493e-05, 'epoch': 2.6}
 11%|█         | 8511/78504 [5:10:33<30:25:53,  1.57s/it] 11%|█         | 8512/78504 [5:10:34<28:46:54,  1.48s/it]                                                         {'loss': 0.2204, 'grad_norm': 0.7805861234664917, 'learning_rate': 2.972145556451955e-05, 'epoch': 2.6}
 11%|█         | 8512/78504 [5:10:34<28:46:54,  1.48s/it] 11%|█         | 8513/78504 [5:10:35<26:48:14,  1.38s/it]                                                         {'loss': 0.2146, 'grad_norm': 1.1009514331817627, 'learning_rate': 2.9721030954099614e-05, 'epoch': 2.6}
 11%|█         | 8513/78504 [5:10:35<26:48:14,  1.38s/it] 11%|█         | 8514/78504 [5:10:36<25:07:41,  1.29s/it]                                                         {'loss': 0.2121, 'grad_norm': 0.6578028798103333, 'learning_rate': 2.9720606343679672e-05, 'epoch': 2.6}
 11%|█         | 8514/78504 [5:10:36<25:07:41,  1.29s/it] 11%|█         | 8515/78504 [5:10:37<23:21:16,  1.20s/it]                                                         {'loss': 0.2095, 'grad_norm': 1.2539424896240234, 'learning_rate': 2.9720181733259734e-05, 'epoch': 2.6}
 11%|█         | 8515/78504 [5:10:37<23:21:16,  1.20s/it] 11%|█         | 8516/78504 [5:10:38<21:45:29,  1.12s/it]                                                         {'loss': 0.2853, 'grad_norm': 1.3532443046569824, 'learning_rate': 2.9719757122839793e-05, 'epoch': 2.6}
 11%|█         | 8516/78504 [5:10:38<21:45:29,  1.12s/it] 11%|█         | 8517/78504 [5:10:39<19:46:58,  1.02s/it]                                                         {'loss': 0.285, 'grad_norm': 1.5525014400482178, 'learning_rate': 2.9719332512419855e-05, 'epoch': 2.6}
 11%|█         | 8517/78504 [5:10:39<19:46:58,  1.02s/it] 11%|█         | 8518/78504 [5:10:47<63:02:44,  3.24s/it]                                                         {'loss': 0.1331, 'grad_norm': 0.42061835527420044, 'learning_rate': 2.9718907901999914e-05, 'epoch': 2.6}
 11%|█         | 8518/78504 [5:10:47<63:02:44,  3.24s/it] 11%|█         | 8519/78504 [5:10:50<61:04:37,  3.14s/it]                                                         {'loss': 0.0948, 'grad_norm': 0.4974418878555298, 'learning_rate': 2.9718483291579976e-05, 'epoch': 2.6}
 11%|█         | 8519/78504 [5:10:50<61:04:37,  3.14s/it] 11%|█         | 8520/78504 [5:10:53<60:11:54,  3.10s/it]                                                         {'loss': 0.0738, 'grad_norm': 0.31529608368873596, 'learning_rate': 2.9718058681160035e-05, 'epoch': 2.6}
 11%|█         | 8520/78504 [5:10:53<60:11:54,  3.10s/it] 11%|█         | 8521/78504 [5:10:56<57:22:23,  2.95s/it]                                                         {'loss': 0.066, 'grad_norm': 0.36245498061180115, 'learning_rate': 2.9717634070740097e-05, 'epoch': 2.61}
 11%|█         | 8521/78504 [5:10:56<57:22:23,  2.95s/it] 11%|█         | 8522/78504 [5:10:58<54:34:00,  2.81s/it]                                                         {'loss': 0.0656, 'grad_norm': 0.23762482404708862, 'learning_rate': 2.971720946032016e-05, 'epoch': 2.61}
 11%|█         | 8522/78504 [5:10:58<54:34:00,  2.81s/it] 11%|█         | 8523/78504 [5:11:01<51:23:22,  2.64s/it]                                                         {'loss': 0.0725, 'grad_norm': 0.4538615047931671, 'learning_rate': 2.9716784849900218e-05, 'epoch': 2.61}
 11%|█         | 8523/78504 [5:11:01<51:23:22,  2.64s/it] 11%|█         | 8524/78504 [5:11:03<49:30:51,  2.55s/it]                                                         {'loss': 0.0642, 'grad_norm': 0.22536928951740265, 'learning_rate': 2.971636023948028e-05, 'epoch': 2.61}
 11%|█         | 8524/78504 [5:11:03<49:30:51,  2.55s/it] 11%|█         | 8525/78504 [5:11:05<46:52:26,  2.41s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.4438013434410095, 'learning_rate': 2.971593562906034e-05, 'epoch': 2.61}
 11%|█         | 8525/78504 [5:11:05<46:52:26,  2.41s/it] 11%|█         | 8526/78504 [5:11:07<44:40:23,  2.30s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.4771289527416229, 'learning_rate': 2.97155110186404e-05, 'epoch': 2.61}
 11%|█         | 8526/78504 [5:11:07<44:40:23,  2.30s/it] 11%|█         | 8527/78504 [5:11:09<43:45:45,  2.25s/it]                                                         {'loss': 0.078, 'grad_norm': 0.6300597190856934, 'learning_rate': 2.971508640822046e-05, 'epoch': 2.61}
 11%|█         | 8527/78504 [5:11:09<43:45:45,  2.25s/it] 11%|█         | 8528/78504 [5:11:11<42:14:46,  2.17s/it]                                                         {'loss': 0.085, 'grad_norm': 0.8395363092422485, 'learning_rate': 2.971466179780052e-05, 'epoch': 2.61}
 11%|█         | 8528/78504 [5:11:11<42:14:46,  2.17s/it] 11%|█         | 8529/78504 [5:11:13<40:06:30,  2.06s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.40986567735671997, 'learning_rate': 2.971423718738058e-05, 'epoch': 2.61}
 11%|█         | 8529/78504 [5:11:13<40:06:30,  2.06s/it] 11%|█         | 8530/78504 [5:11:15<38:57:17,  2.00s/it]                                                         {'loss': 0.0999, 'grad_norm': 0.2969958186149597, 'learning_rate': 2.9713812576960642e-05, 'epoch': 2.61}
 11%|█         | 8530/78504 [5:11:15<38:57:17,  2.00s/it] 11%|█         | 8531/78504 [5:11:17<37:58:02,  1.95s/it]                                                         {'loss': 0.1855, 'grad_norm': 0.8749004006385803, 'learning_rate': 2.97133879665407e-05, 'epoch': 2.61}
 11%|█         | 8531/78504 [5:11:17<37:58:02,  1.95s/it] 11%|█         | 8532/78504 [5:11:18<36:18:07,  1.87s/it]                                                         {'loss': 0.1274, 'grad_norm': 0.6670631170272827, 'learning_rate': 2.9712963356120763e-05, 'epoch': 2.61}
 11%|█         | 8532/78504 [5:11:18<36:18:07,  1.87s/it] 11%|█         | 8533/78504 [5:11:20<34:58:25,  1.80s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.49505311250686646, 'learning_rate': 2.971253874570082e-05, 'epoch': 2.61}
 11%|█         | 8533/78504 [5:11:20<34:58:25,  1.80s/it] 11%|█         | 8534/78504 [5:11:21<33:18:45,  1.71s/it]                                                         {'loss': 0.1609, 'grad_norm': 2.2334020137786865, 'learning_rate': 2.971211413528088e-05, 'epoch': 2.61}
 11%|█         | 8534/78504 [5:11:21<33:18:45,  1.71s/it] 11%|█         | 8535/78504 [5:11:23<31:54:21,  1.64s/it]                                                         {'loss': 0.1823, 'grad_norm': 0.9813356995582581, 'learning_rate': 2.9711689524860942e-05, 'epoch': 2.61}
 11%|█         | 8535/78504 [5:11:23<31:54:21,  1.64s/it] 11%|█         | 8536/78504 [5:11:24<30:37:27,  1.58s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.6206424236297607, 'learning_rate': 2.9711264914441e-05, 'epoch': 2.61}
 11%|█         | 8536/78504 [5:11:24<30:37:27,  1.58s/it] 11%|█         | 8537/78504 [5:11:26<28:55:10,  1.49s/it]                                                         {'loss': 0.2216, 'grad_norm': 0.8848998546600342, 'learning_rate': 2.9710840304021063e-05, 'epoch': 2.61}
 11%|█         | 8537/78504 [5:11:26<28:55:10,  1.49s/it] 11%|█         | 8538/78504 [5:11:27<26:54:47,  1.38s/it]                                                         {'loss': 0.2063, 'grad_norm': 0.8287000060081482, 'learning_rate': 2.9710415693601122e-05, 'epoch': 2.61}
 11%|█         | 8538/78504 [5:11:27<26:54:47,  1.38s/it] 11%|█         | 8539/78504 [5:11:28<25:13:19,  1.30s/it]                                                         {'loss': 0.2437, 'grad_norm': 1.1269668340682983, 'learning_rate': 2.9709991083181184e-05, 'epoch': 2.61}
 11%|█         | 8539/78504 [5:11:28<25:13:19,  1.30s/it] 11%|█         | 8540/78504 [5:11:29<23:30:17,  1.21s/it]                                                         {'loss': 0.2255, 'grad_norm': 0.893991231918335, 'learning_rate': 2.9709566472761243e-05, 'epoch': 2.61}
 11%|█         | 8540/78504 [5:11:29<23:30:17,  1.21s/it] 11%|█         | 8541/78504 [5:11:30<21:52:48,  1.13s/it]                                                         {'loss': 0.2123, 'grad_norm': 1.3230037689208984, 'learning_rate': 2.9709141862341305e-05, 'epoch': 2.61}
 11%|█         | 8541/78504 [5:11:30<21:52:48,  1.13s/it] 11%|█         | 8542/78504 [5:11:31<19:53:47,  1.02s/it]                                                         {'loss': 0.2989, 'grad_norm': 2.1103501319885254, 'learning_rate': 2.9708717251921363e-05, 'epoch': 2.61}
 11%|█         | 8542/78504 [5:11:31<19:53:47,  1.02s/it] 11%|█         | 8543/78504 [5:11:40<67:19:43,  3.46s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.6613329648971558, 'learning_rate': 2.9708292641501425e-05, 'epoch': 2.61}
 11%|█         | 8543/78504 [5:11:40<67:19:43,  3.46s/it] 11%|█         | 8544/78504 [5:11:43<66:42:05,  3.43s/it]                                                         {'loss': 0.1154, 'grad_norm': 0.3463899493217468, 'learning_rate': 2.9707868031081484e-05, 'epoch': 2.61}
 11%|█         | 8544/78504 [5:11:43<66:42:05,  3.43s/it] 11%|█         | 8545/78504 [5:11:46<63:43:29,  3.28s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.2667384743690491, 'learning_rate': 2.9707443420661546e-05, 'epoch': 2.61}
 11%|█         | 8545/78504 [5:11:46<63:43:29,  3.28s/it] 11%|█         | 8546/78504 [5:11:49<59:53:25,  3.08s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.3839867413043976, 'learning_rate': 2.9707018810241605e-05, 'epoch': 2.61}
 11%|█         | 8546/78504 [5:11:49<59:53:25,  3.08s/it] 11%|█         | 8547/78504 [5:11:51<56:26:26,  2.90s/it]                                                         {'loss': 0.0509, 'grad_norm': 0.5980815291404724, 'learning_rate': 2.9706594199821664e-05, 'epoch': 2.61}
 11%|█         | 8547/78504 [5:11:51<56:26:26,  2.90s/it] 11%|█         | 8548/78504 [5:11:54<53:48:22,  2.77s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.3227832317352295, 'learning_rate': 2.9706169589401726e-05, 'epoch': 2.61}
 11%|█         | 8548/78504 [5:11:54<53:48:22,  2.77s/it] 11%|█         | 8549/78504 [5:11:56<51:09:33,  2.63s/it]                                                         {'loss': 0.0814, 'grad_norm': 0.501562237739563, 'learning_rate': 2.9705744978981784e-05, 'epoch': 2.61}
 11%|█         | 8549/78504 [5:11:56<51:09:33,  2.63s/it] 11%|█         | 8550/78504 [5:11:58<48:09:28,  2.48s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.6239759922027588, 'learning_rate': 2.9705320368561846e-05, 'epoch': 2.61}
 11%|█         | 8550/78504 [5:11:58<48:09:28,  2.48s/it] 11%|█         | 8551/78504 [5:12:00<46:26:13,  2.39s/it]                                                         {'loss': 0.0631, 'grad_norm': 0.3278788924217224, 'learning_rate': 2.9704895758141905e-05, 'epoch': 2.61}
 11%|█         | 8551/78504 [5:12:00<46:26:13,  2.39s/it] 11%|█         | 8552/78504 [5:12:02<45:01:01,  2.32s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.46961814165115356, 'learning_rate': 2.9704471147721967e-05, 'epoch': 2.61}
 11%|█         | 8552/78504 [5:12:02<45:01:01,  2.32s/it] 11%|█         | 8553/78504 [5:12:04<43:21:50,  2.23s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.5853075981140137, 'learning_rate': 2.9704046537302026e-05, 'epoch': 2.61}
 11%|█         | 8553/78504 [5:12:04<43:21:50,  2.23s/it] 11%|█         | 8554/78504 [5:12:06<41:51:35,  2.15s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.4029936194419861, 'learning_rate': 2.9703621926882088e-05, 'epoch': 2.62}
 11%|█         | 8554/78504 [5:12:06<41:51:35,  2.15s/it] 11%|█         | 8555/78504 [5:12:08<40:11:55,  2.07s/it]                                                         {'loss': 0.1015, 'grad_norm': 1.046021580696106, 'learning_rate': 2.9703197316462147e-05, 'epoch': 2.62}
 11%|█         | 8555/78504 [5:12:08<40:11:55,  2.07s/it] 11%|█         | 8556/78504 [5:12:10<39:03:06,  2.01s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.7036014199256897, 'learning_rate': 2.970277270604221e-05, 'epoch': 2.62}
 11%|█         | 8556/78504 [5:12:10<39:03:06,  2.01s/it] 11%|█         | 8557/78504 [5:12:12<37:36:31,  1.94s/it]                                                         {'loss': 0.1171, 'grad_norm': 0.49654754996299744, 'learning_rate': 2.9702348095622268e-05, 'epoch': 2.62}
 11%|█         | 8557/78504 [5:12:12<37:36:31,  1.94s/it] 11%|█         | 8558/78504 [5:12:14<35:58:39,  1.85s/it]                                                         {'loss': 0.1608, 'grad_norm': 0.5514814853668213, 'learning_rate': 2.970192348520233e-05, 'epoch': 2.62}
 11%|█         | 8558/78504 [5:12:14<35:58:39,  1.85s/it] 11%|█         | 8559/78504 [5:12:15<34:11:51,  1.76s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.9212284684181213, 'learning_rate': 2.970149887478239e-05, 'epoch': 2.62}
 11%|█         | 8559/78504 [5:12:15<34:11:51,  1.76s/it] 11%|█         | 8560/78504 [5:12:17<32:27:23,  1.67s/it]                                                         {'loss': 0.1489, 'grad_norm': 0.7529193758964539, 'learning_rate': 2.9701074264362447e-05, 'epoch': 2.62}
 11%|█         | 8560/78504 [5:12:17<32:27:23,  1.67s/it] 11%|█         | 8561/78504 [5:12:18<30:59:29,  1.60s/it]                                                         {'loss': 0.1716, 'grad_norm': 1.215707778930664, 'learning_rate': 2.970064965394251e-05, 'epoch': 2.62}
 11%|█         | 8561/78504 [5:12:18<30:59:29,  1.60s/it] 11%|█         | 8562/78504 [5:12:19<29:10:00,  1.50s/it]                                                         {'loss': 0.1871, 'grad_norm': 3.098513603210449, 'learning_rate': 2.9700225043522568e-05, 'epoch': 2.62}
 11%|█         | 8562/78504 [5:12:19<29:10:00,  1.50s/it] 11%|█         | 8563/78504 [5:12:20<27:07:46,  1.40s/it]                                                         {'loss': 0.2402, 'grad_norm': 0.6928406953811646, 'learning_rate': 2.969980043310263e-05, 'epoch': 2.62}
 11%|█         | 8563/78504 [5:12:20<27:07:46,  1.40s/it] 11%|█         | 8564/78504 [5:12:21<25:22:54,  1.31s/it]                                                         {'loss': 0.1976, 'grad_norm': 0.7188504338264465, 'learning_rate': 2.969937582268269e-05, 'epoch': 2.62}
 11%|█         | 8564/78504 [5:12:21<25:22:54,  1.31s/it] 11%|█         | 8565/78504 [5:12:23<23:51:02,  1.23s/it]                                                         {'loss': 0.2522, 'grad_norm': 1.6386858224868774, 'learning_rate': 2.969895121226275e-05, 'epoch': 2.62}
 11%|█         | 8565/78504 [5:12:23<23:51:02,  1.23s/it] 11%|█         | 8566/78504 [5:12:23<22:06:53,  1.14s/it]                                                         {'loss': 0.2664, 'grad_norm': 0.8024870157241821, 'learning_rate': 2.969852660184281e-05, 'epoch': 2.62}
 11%|█         | 8566/78504 [5:12:23<22:06:53,  1.14s/it] 11%|█         | 8567/78504 [5:12:24<19:52:25,  1.02s/it]                                                         {'loss': 0.3503, 'grad_norm': 1.8278521299362183, 'learning_rate': 2.969810199142287e-05, 'epoch': 2.62}
 11%|█         | 8567/78504 [5:12:24<19:52:25,  1.02s/it] 11%|█         | 8568/78504 [5:12:31<56:14:47,  2.90s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.3977953791618347, 'learning_rate': 2.969767738100293e-05, 'epoch': 2.62}
 11%|█         | 8568/78504 [5:12:31<56:14:47,  2.90s/it] 11%|█         | 8569/78504 [5:12:35<58:54:12,  3.03s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.47853052616119385, 'learning_rate': 2.9697252770582992e-05, 'epoch': 2.62}
 11%|█         | 8569/78504 [5:12:35<58:54:12,  3.03s/it] 11%|█         | 8570/78504 [5:12:38<58:47:17,  3.03s/it]                                                         {'loss': 0.0688, 'grad_norm': 0.24232834577560425, 'learning_rate': 2.969682816016305e-05, 'epoch': 2.62}
 11%|█         | 8570/78504 [5:12:38<58:47:17,  3.03s/it] 11%|█         | 8571/78504 [5:12:40<56:25:10,  2.90s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.30544281005859375, 'learning_rate': 2.9696403549743113e-05, 'epoch': 2.62}
 11%|█         | 8571/78504 [5:12:40<56:25:10,  2.90s/it] 11%|█         | 8572/78504 [5:12:43<53:53:29,  2.77s/it]                                                         {'loss': 0.0601, 'grad_norm': 0.21605946123600006, 'learning_rate': 2.9695978939323172e-05, 'epoch': 2.62}
 11%|█         | 8572/78504 [5:12:43<53:53:29,  2.77s/it] 11%|█         | 8573/78504 [5:12:45<50:55:12,  2.62s/it]                                                         {'loss': 0.056, 'grad_norm': 0.23732371628284454, 'learning_rate': 2.969555432890323e-05, 'epoch': 2.62}
 11%|█         | 8573/78504 [5:12:45<50:55:12,  2.62s/it] 11%|█         | 8574/78504 [5:12:48<49:16:01,  2.54s/it]                                                         {'loss': 0.0732, 'grad_norm': 0.2833145260810852, 'learning_rate': 2.9695129718483293e-05, 'epoch': 2.62}
 11%|█         | 8574/78504 [5:12:48<49:16:01,  2.54s/it] 11%|█         | 8575/78504 [5:12:50<46:38:06,  2.40s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.32865288853645325, 'learning_rate': 2.969470510806335e-05, 'epoch': 2.62}
 11%|█         | 8575/78504 [5:12:50<46:38:06,  2.40s/it] 11%|█         | 8576/78504 [5:12:52<44:29:50,  2.29s/it]                                                         {'loss': 0.0844, 'grad_norm': 0.6622116565704346, 'learning_rate': 2.9694280497643413e-05, 'epoch': 2.62}
 11%|█         | 8576/78504 [5:12:52<44:29:50,  2.29s/it] 11%|█         | 8577/78504 [5:12:54<43:37:06,  2.25s/it]                                                         {'loss': 0.0941, 'grad_norm': 0.30271613597869873, 'learning_rate': 2.9693855887223472e-05, 'epoch': 2.62}
 11%|█         | 8577/78504 [5:12:54<43:37:06,  2.25s/it] 11%|█         | 8578/78504 [5:12:56<42:08:40,  2.17s/it]                                                         {'loss': 0.1169, 'grad_norm': 0.43935641646385193, 'learning_rate': 2.9693431276803534e-05, 'epoch': 2.62}
 11%|█         | 8578/78504 [5:12:56<42:08:40,  2.17s/it] 11%|█         | 8579/78504 [5:12:58<40:02:07,  2.06s/it]                                                         {'loss': 0.0805, 'grad_norm': 0.45595598220825195, 'learning_rate': 2.9693006666383593e-05, 'epoch': 2.62}
 11%|█         | 8579/78504 [5:12:58<40:02:07,  2.06s/it] 11%|█         | 8580/78504 [5:12:59<38:55:36,  2.00s/it]                                                         {'loss': 0.0991, 'grad_norm': 0.3661307394504547, 'learning_rate': 2.9692582055963655e-05, 'epoch': 2.62}
 11%|█         | 8580/78504 [5:12:59<38:55:36,  2.00s/it] 11%|█         | 8581/78504 [5:13:01<37:59:58,  1.96s/it]                                                         {'loss': 0.139, 'grad_norm': 0.48602449893951416, 'learning_rate': 2.9692157445543714e-05, 'epoch': 2.62}
 11%|█         | 8581/78504 [5:13:01<37:59:58,  1.96s/it] 11%|█         | 8582/78504 [5:13:03<36:55:56,  1.90s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.41564351320266724, 'learning_rate': 2.9691732835123776e-05, 'epoch': 2.62}
 11%|█         | 8582/78504 [5:13:03<36:55:56,  1.90s/it] 11%|█         | 8583/78504 [5:13:05<35:28:25,  1.83s/it]                                                         {'loss': 0.2022, 'grad_norm': 0.7646878957748413, 'learning_rate': 2.9691308224703834e-05, 'epoch': 2.62}
 11%|█         | 8583/78504 [5:13:05<35:28:25,  1.83s/it] 11%|█         | 8584/78504 [5:13:06<33:46:00,  1.74s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.48512572050094604, 'learning_rate': 2.9690883614283896e-05, 'epoch': 2.62}
 11%|█         | 8584/78504 [5:13:06<33:46:00,  1.74s/it] 11%|█         | 8585/78504 [5:13:08<31:58:07,  1.65s/it]                                                         {'loss': 0.1962, 'grad_norm': 0.6463525891304016, 'learning_rate': 2.9690459003863955e-05, 'epoch': 2.62}
 11%|█         | 8585/78504 [5:13:08<31:58:07,  1.65s/it] 11%|█         | 8586/78504 [5:13:09<30:38:37,  1.58s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.6615551710128784, 'learning_rate': 2.9690034393444014e-05, 'epoch': 2.62}
 11%|█         | 8586/78504 [5:13:09<30:38:37,  1.58s/it] 11%|█         | 8587/78504 [5:13:10<28:57:16,  1.49s/it]                                                         {'loss': 0.1951, 'grad_norm': 1.1649295091629028, 'learning_rate': 2.9689609783024076e-05, 'epoch': 2.63}
 11%|█         | 8587/78504 [5:13:10<28:57:16,  1.49s/it] 11%|█         | 8588/78504 [5:13:12<26:54:57,  1.39s/it]                                                         {'loss': 0.2127, 'grad_norm': 0.653557538986206, 'learning_rate': 2.9689185172604135e-05, 'epoch': 2.63}
 11%|█         | 8588/78504 [5:13:12<26:54:57,  1.39s/it] 11%|█         | 8589/78504 [5:13:13<25:15:16,  1.30s/it]                                                         {'loss': 0.2178, 'grad_norm': 0.9054247736930847, 'learning_rate': 2.9688760562184197e-05, 'epoch': 2.63}
 11%|█         | 8589/78504 [5:13:13<25:15:16,  1.30s/it] 11%|█         | 8590/78504 [5:13:14<23:49:21,  1.23s/it]                                                         {'loss': 0.2171, 'grad_norm': 3.1743268966674805, 'learning_rate': 2.9688335951764255e-05, 'epoch': 2.63}
 11%|█         | 8590/78504 [5:13:14<23:49:21,  1.23s/it] 11%|█         | 8591/78504 [5:13:15<22:06:08,  1.14s/it]                                                         {'loss': 0.2577, 'grad_norm': 1.5842610597610474, 'learning_rate': 2.9687911341344318e-05, 'epoch': 2.63}
 11%|█         | 8591/78504 [5:13:15<22:06:08,  1.14s/it] 11%|█         | 8592/78504 [5:13:15<20:02:02,  1.03s/it]                                                         {'loss': 0.2511, 'grad_norm': 1.8628991842269897, 'learning_rate': 2.9687486730924376e-05, 'epoch': 2.63}
 11%|█         | 8592/78504 [5:13:15<20:02:02,  1.03s/it] 11%|█         | 8593/78504 [5:13:22<54:19:57,  2.80s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.35634610056877136, 'learning_rate': 2.968706212050444e-05, 'epoch': 2.63}
 11%|█         | 8593/78504 [5:13:22<54:19:57,  2.80s/it] 11%|█         | 8594/78504 [5:13:25<56:12:02,  2.89s/it]                                                         {'loss': 0.0891, 'grad_norm': 0.42580997943878174, 'learning_rate': 2.9686637510084497e-05, 'epoch': 2.63}
 11%|█         | 8594/78504 [5:13:25<56:12:02,  2.89s/it] 11%|█         | 8595/78504 [5:13:28<56:43:20,  2.92s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.2237730473279953, 'learning_rate': 2.968621289966456e-05, 'epoch': 2.63}
 11%|█         | 8595/78504 [5:13:28<56:43:20,  2.92s/it] 11%|█         | 8596/78504 [5:13:31<54:57:50,  2.83s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.3148725926876068, 'learning_rate': 2.9685788289244618e-05, 'epoch': 2.63}
 11%|█         | 8596/78504 [5:13:31<54:57:50,  2.83s/it] 11%|█         | 8597/78504 [5:13:34<52:51:03,  2.72s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.44228431582450867, 'learning_rate': 2.968536367882468e-05, 'epoch': 2.63}
 11%|█         | 8597/78504 [5:13:34<52:51:03,  2.72s/it] 11%|█         | 8598/78504 [5:13:36<50:12:09,  2.59s/it]                                                         {'loss': 0.057, 'grad_norm': 0.3575983941555023, 'learning_rate': 2.968493906840474e-05, 'epoch': 2.63}
 11%|█         | 8598/78504 [5:13:36<50:12:09,  2.59s/it] 11%|█         | 8599/78504 [5:13:38<48:39:06,  2.51s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.5221765637397766, 'learning_rate': 2.9684514457984797e-05, 'epoch': 2.63}
 11%|█         | 8599/78504 [5:13:38<48:39:06,  2.51s/it] 11%|█         | 8600/78504 [5:13:40<46:13:32,  2.38s/it]                                                         {'loss': 0.0622, 'grad_norm': 0.2508810758590698, 'learning_rate': 2.968408984756486e-05, 'epoch': 2.63}
 11%|█         | 8600/78504 [5:13:40<46:13:32,  2.38s/it] 11%|█         | 8601/78504 [5:13:42<45:06:58,  2.32s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.5007632374763489, 'learning_rate': 2.9683665237144918e-05, 'epoch': 2.63}
 11%|█         | 8601/78504 [5:13:42<45:06:58,  2.32s/it] 11%|█         | 8602/78504 [5:13:45<44:10:54,  2.28s/it]                                                         {'loss': 0.089, 'grad_norm': 0.40118762850761414, 'learning_rate': 2.968324062672498e-05, 'epoch': 2.63}
 11%|█         | 8602/78504 [5:13:45<44:10:54,  2.28s/it] 11%|█         | 8603/78504 [5:13:46<41:45:08,  2.15s/it]                                                         {'loss': 0.125, 'grad_norm': 0.4074676036834717, 'learning_rate': 2.968281601630504e-05, 'epoch': 2.63}
 11%|█         | 8603/78504 [5:13:46<41:45:08,  2.15s/it] 11%|█         | 8604/78504 [5:13:48<40:50:25,  2.10s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.3921993672847748, 'learning_rate': 2.96823914058851e-05, 'epoch': 2.63}
 11%|█         | 8604/78504 [5:13:48<40:50:25,  2.10s/it] 11%|█         | 8605/78504 [5:13:50<39:46:53,  2.05s/it]                                                         {'loss': 0.144, 'grad_norm': 0.4544733464717865, 'learning_rate': 2.968196679546516e-05, 'epoch': 2.63}
 11%|█         | 8605/78504 [5:13:50<39:46:53,  2.05s/it] 11%|█         | 8606/78504 [5:13:52<38:50:39,  2.00s/it]                                                         {'loss': 0.1266, 'grad_norm': 1.362690806388855, 'learning_rate': 2.9681542185045222e-05, 'epoch': 2.63}
 11%|█         | 8606/78504 [5:13:52<38:50:39,  2.00s/it] 11%|█         | 8607/78504 [5:13:54<37:28:16,  1.93s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.432939738035202, 'learning_rate': 2.968111757462528e-05, 'epoch': 2.63}
 11%|█         | 8607/78504 [5:13:54<37:28:16,  1.93s/it] 11%|█         | 8608/78504 [5:13:56<35:25:05,  1.82s/it]                                                         {'loss': 0.1491, 'grad_norm': 0.5383768081665039, 'learning_rate': 2.9680692964205343e-05, 'epoch': 2.63}
 11%|█         | 8608/78504 [5:13:56<35:25:05,  1.82s/it] 11%|█         | 8609/78504 [5:13:57<33:47:35,  1.74s/it]                                                         {'loss': 0.1643, 'grad_norm': 1.9243006706237793, 'learning_rate': 2.96802683537854e-05, 'epoch': 2.63}
 11%|█         | 8609/78504 [5:13:57<33:47:35,  1.74s/it] 11%|█         | 8610/78504 [5:13:59<32:14:12,  1.66s/it]                                                         {'loss': 0.1905, 'grad_norm': 0.6111827492713928, 'learning_rate': 2.9679843743365463e-05, 'epoch': 2.63}
 11%|█         | 8610/78504 [5:13:59<32:14:12,  1.66s/it] 11%|█         | 8611/78504 [5:14:00<30:43:08,  1.58s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.1429818868637085, 'learning_rate': 2.9679419132945522e-05, 'epoch': 2.63}
 11%|█         | 8611/78504 [5:14:00<30:43:08,  1.58s/it] 11%|█         | 8612/78504 [5:14:01<28:57:26,  1.49s/it]                                                         {'loss': 0.2104, 'grad_norm': 1.4672199487686157, 'learning_rate': 2.967899452252558e-05, 'epoch': 2.63}
 11%|█         | 8612/78504 [5:14:01<28:57:26,  1.49s/it] 11%|█         | 8613/78504 [5:14:02<26:57:41,  1.39s/it]                                                         {'loss': 0.2011, 'grad_norm': 0.8789923787117004, 'learning_rate': 2.9678569912105643e-05, 'epoch': 2.63}
 11%|█         | 8613/78504 [5:14:02<26:57:41,  1.39s/it] 11%|█         | 8614/78504 [5:14:03<25:14:30,  1.30s/it]                                                         {'loss': 0.1977, 'grad_norm': 0.926796019077301, 'learning_rate': 2.96781453016857e-05, 'epoch': 2.63}
 11%|█         | 8614/78504 [5:14:03<25:14:30,  1.30s/it] 11%|█         | 8615/78504 [5:14:05<23:46:42,  1.22s/it]                                                         {'loss': 0.2412, 'grad_norm': 1.185886263847351, 'learning_rate': 2.9677720691265764e-05, 'epoch': 2.63}
 11%|█         | 8615/78504 [5:14:05<23:46:42,  1.22s/it] 11%|█         | 8616/78504 [5:14:05<22:05:42,  1.14s/it]                                                         {'loss': 0.2749, 'grad_norm': 3.4306282997131348, 'learning_rate': 2.9677296080845822e-05, 'epoch': 2.63}
 11%|█         | 8616/78504 [5:14:05<22:05:42,  1.14s/it] 11%|█         | 8617/78504 [5:14:06<20:00:28,  1.03s/it]                                                         {'loss': 0.2887, 'grad_norm': 1.8130711317062378, 'learning_rate': 2.9676871470425884e-05, 'epoch': 2.63}
 11%|█         | 8617/78504 [5:14:06<20:00:28,  1.03s/it] 11%|█         | 8618/78504 [5:14:13<54:19:40,  2.80s/it]                                                         {'loss': 0.1718, 'grad_norm': 1.1386090517044067, 'learning_rate': 2.9676446860005943e-05, 'epoch': 2.63}
 11%|█         | 8618/78504 [5:14:13<54:19:40,  2.80s/it] 11%|█         | 8619/78504 [5:14:16<57:17:30,  2.95s/it]                                                         {'loss': 0.1124, 'grad_norm': 0.3043757975101471, 'learning_rate': 2.9676022249586005e-05, 'epoch': 2.63}
 11%|█         | 8619/78504 [5:14:16<57:17:30,  2.95s/it] 11%|█         | 8620/78504 [5:14:19<57:39:21,  2.97s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.29354891180992126, 'learning_rate': 2.9675597639166064e-05, 'epoch': 2.64}
 11%|█         | 8620/78504 [5:14:20<57:39:21,  2.97s/it] 11%|█         | 8621/78504 [5:14:22<55:26:48,  2.86s/it]                                                         {'loss': 0.0504, 'grad_norm': 0.2799992859363556, 'learning_rate': 2.9675173028746126e-05, 'epoch': 2.64}
 11%|█         | 8621/78504 [5:14:22<55:26:48,  2.86s/it] 11%|█         | 8622/78504 [5:14:24<52:32:45,  2.71s/it]                                                         {'loss': 0.0561, 'grad_norm': 0.3703312575817108, 'learning_rate': 2.9674748418326185e-05, 'epoch': 2.64}
 11%|█         | 8622/78504 [5:14:24<52:32:45,  2.71s/it] 11%|█         | 8623/78504 [5:14:27<49:59:11,  2.58s/it]                                                         {'loss': 0.0741, 'grad_norm': 0.2539896070957184, 'learning_rate': 2.9674323807906247e-05, 'epoch': 2.64}
 11%|█         | 8623/78504 [5:14:27<49:59:11,  2.58s/it] 11%|█         | 8624/78504 [5:14:29<48:29:07,  2.50s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.34051960706710815, 'learning_rate': 2.967389919748631e-05, 'epoch': 2.64}
 11%|█         | 8624/78504 [5:14:29<48:29:07,  2.50s/it] 11%|█         | 8625/78504 [5:14:31<46:16:21,  2.38s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.24028125405311584, 'learning_rate': 2.9673474587066368e-05, 'epoch': 2.64}
 11%|█         | 8625/78504 [5:14:31<46:16:21,  2.38s/it] 11%|█         | 8626/78504 [5:14:33<45:07:03,  2.32s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.3603823781013489, 'learning_rate': 2.967304997664643e-05, 'epoch': 2.64}
 11%|█         | 8626/78504 [5:14:33<45:07:03,  2.32s/it] 11%|█         | 8627/78504 [5:14:36<44:14:37,  2.28s/it]                                                         {'loss': 0.0935, 'grad_norm': 0.43803825974464417, 'learning_rate': 2.967262536622649e-05, 'epoch': 2.64}
 11%|█         | 8627/78504 [5:14:36<44:14:37,  2.28s/it] 11%|█         | 8628/78504 [5:14:38<42:47:01,  2.20s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.40671107172966003, 'learning_rate': 2.967220075580655e-05, 'epoch': 2.64}
 11%|█         | 8628/78504 [5:14:38<42:47:01,  2.20s/it] 11%|█         | 8629/78504 [5:14:40<41:28:09,  2.14s/it]                                                         {'loss': 0.0919, 'grad_norm': 0.9123678207397461, 'learning_rate': 2.967177614538661e-05, 'epoch': 2.64}
 11%|█         | 8629/78504 [5:14:40<41:28:09,  2.14s/it] 11%|█         | 8630/78504 [5:14:41<40:01:47,  2.06s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.4045836925506592, 'learning_rate': 2.967135153496667e-05, 'epoch': 2.64}
 11%|█         | 8630/78504 [5:14:41<40:01:47,  2.06s/it] 11%|█         | 8631/78504 [5:14:43<38:56:47,  2.01s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.4297780692577362, 'learning_rate': 2.967092692454673e-05, 'epoch': 2.64}
 11%|█         | 8631/78504 [5:14:43<38:56:47,  2.01s/it] 11%|█         | 8632/78504 [5:14:45<37:31:19,  1.93s/it]                                                         {'loss': 0.1238, 'grad_norm': 3.049506425857544, 'learning_rate': 2.9670502314126792e-05, 'epoch': 2.64}
 11%|█         | 8632/78504 [5:14:45<37:31:19,  1.93s/it] 11%|█         | 8633/78504 [5:14:47<35:27:36,  1.83s/it]                                                         {'loss': 0.1378, 'grad_norm': 0.5087599754333496, 'learning_rate': 2.967007770370685e-05, 'epoch': 2.64}
 11%|█         | 8633/78504 [5:14:47<35:27:36,  1.83s/it] 11%|█         | 8634/78504 [5:14:48<33:49:04,  1.74s/it]                                                         {'loss': 0.1798, 'grad_norm': 0.5534583926200867, 'learning_rate': 2.9669653093286913e-05, 'epoch': 2.64}
 11%|█         | 8634/78504 [5:14:48<33:49:04,  1.74s/it] 11%|█         | 8635/78504 [5:14:50<32:13:30,  1.66s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.7822840213775635, 'learning_rate': 2.966922848286697e-05, 'epoch': 2.64}
 11%|█         | 8635/78504 [5:14:50<32:13:30,  1.66s/it] 11%|█         | 8636/78504 [5:14:51<30:45:30,  1.58s/it]                                                         {'loss': 0.193, 'grad_norm': 0.7019453048706055, 'learning_rate': 2.966880387244703e-05, 'epoch': 2.64}
 11%|█         | 8636/78504 [5:14:51<30:45:30,  1.58s/it] 11%|█         | 8637/78504 [5:14:52<29:00:09,  1.49s/it]                                                         {'loss': 0.2399, 'grad_norm': 1.2457667589187622, 'learning_rate': 2.9668379262027092e-05, 'epoch': 2.64}
 11%|█         | 8637/78504 [5:14:52<29:00:09,  1.49s/it] 11%|█         | 8638/78504 [5:14:53<26:59:42,  1.39s/it]                                                         {'loss': 0.2247, 'grad_norm': 3.342904567718506, 'learning_rate': 2.966795465160715e-05, 'epoch': 2.64}
 11%|█         | 8638/78504 [5:14:53<26:59:42,  1.39s/it] 11%|█         | 8639/78504 [5:14:55<25:13:25,  1.30s/it]                                                         {'loss': 0.2427, 'grad_norm': 1.483022689819336, 'learning_rate': 2.9667530041187213e-05, 'epoch': 2.64}
 11%|█         | 8639/78504 [5:14:55<25:13:25,  1.30s/it] 11%|█         | 8640/78504 [5:14:56<23:43:32,  1.22s/it]                                                         {'loss': 0.2249, 'grad_norm': 1.2786924839019775, 'learning_rate': 2.9667105430767272e-05, 'epoch': 2.64}
 11%|█         | 8640/78504 [5:14:56<23:43:32,  1.22s/it] 11%|█         | 8641/78504 [5:14:57<22:04:08,  1.14s/it]                                                         {'loss': 0.2831, 'grad_norm': 1.5413908958435059, 'learning_rate': 2.9666680820347334e-05, 'epoch': 2.64}
 11%|█         | 8641/78504 [5:14:57<22:04:08,  1.14s/it] 11%|█         | 8642/78504 [5:14:57<19:57:46,  1.03s/it]                                                         {'loss': 0.2645, 'grad_norm': 1.578609824180603, 'learning_rate': 2.9666256209927393e-05, 'epoch': 2.64}
 11%|█         | 8642/78504 [5:14:57<19:57:46,  1.03s/it] 11%|█         | 8643/78504 [5:15:05<56:35:14,  2.92s/it]                                                         {'loss': 0.1613, 'grad_norm': 0.5322411060333252, 'learning_rate': 2.9665831599507455e-05, 'epoch': 2.64}
 11%|█         | 8643/78504 [5:15:05<56:35:14,  2.92s/it] 11%|█         | 8644/78504 [5:15:08<57:31:53,  2.96s/it]                                                         {'loss': 0.0937, 'grad_norm': 0.32171595096588135, 'learning_rate': 2.9665406989087513e-05, 'epoch': 2.64}
 11%|█         | 8644/78504 [5:15:08<57:31:53,  2.96s/it] 11%|█         | 8645/78504 [5:15:10<55:13:41,  2.85s/it]                                                         {'loss': 0.067, 'grad_norm': 0.2899972200393677, 'learning_rate': 2.9664982378667575e-05, 'epoch': 2.64}
 11%|█         | 8645/78504 [5:15:10<55:13:41,  2.85s/it] 11%|█         | 8646/78504 [5:15:13<53:52:45,  2.78s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.2625688910484314, 'learning_rate': 2.9664557768247634e-05, 'epoch': 2.64}
 11%|█         | 8646/78504 [5:15:13<53:52:45,  2.78s/it] 11%|█         | 8647/78504 [5:15:15<52:11:34,  2.69s/it]                                                         {'loss': 0.0566, 'grad_norm': 0.2987097203731537, 'learning_rate': 2.9664133157827696e-05, 'epoch': 2.64}
 11%|█         | 8647/78504 [5:15:15<52:11:34,  2.69s/it] 11%|█         | 8648/78504 [5:15:18<50:42:03,  2.61s/it]                                                         {'loss': 0.0642, 'grad_norm': 0.2989177405834198, 'learning_rate': 2.9663708547407755e-05, 'epoch': 2.64}
 11%|█         | 8648/78504 [5:15:18<50:42:03,  2.61s/it] 11%|█         | 8649/78504 [5:15:20<48:58:10,  2.52s/it]                                                         {'loss': 0.0609, 'grad_norm': 0.2329387068748474, 'learning_rate': 2.9663283936987814e-05, 'epoch': 2.64}
 11%|█         | 8649/78504 [5:15:20<48:58:10,  2.52s/it] 11%|█         | 8650/78504 [5:15:22<47:43:29,  2.46s/it]                                                         {'loss': 0.1012, 'grad_norm': 0.3325488269329071, 'learning_rate': 2.9662859326567876e-05, 'epoch': 2.64}
 11%|█         | 8650/78504 [5:15:22<47:43:29,  2.46s/it] 11%|█         | 8651/78504 [5:15:25<46:09:46,  2.38s/it]                                                         {'loss': 0.0614, 'grad_norm': 0.25173285603523254, 'learning_rate': 2.9662434716147934e-05, 'epoch': 2.64}
 11%|█         | 8651/78504 [5:15:25<46:09:46,  2.38s/it] 11%|█         | 8652/78504 [5:15:27<44:56:11,  2.32s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.358030766248703, 'learning_rate': 2.9662010105727997e-05, 'epoch': 2.65}
 11%|█         | 8652/78504 [5:15:27<44:56:11,  2.32s/it] 11%|█         | 8653/78504 [5:15:29<42:41:47,  2.20s/it]                                                         {'loss': 0.1199, 'grad_norm': 0.6611920595169067, 'learning_rate': 2.9661585495308055e-05, 'epoch': 2.65}
 11%|█         | 8653/78504 [5:15:29<42:41:47,  2.20s/it] 11%|█         | 8654/78504 [5:15:31<41:26:00,  2.14s/it]                                                         {'loss': 0.1222, 'grad_norm': 0.3945160210132599, 'learning_rate': 2.9661160884888117e-05, 'epoch': 2.65}
 11%|█         | 8654/78504 [5:15:31<41:26:00,  2.14s/it] 11%|█         | 8655/78504 [5:15:33<40:10:33,  2.07s/it]                                                         {'loss': 0.0968, 'grad_norm': 0.3250751495361328, 'learning_rate': 2.9660736274468176e-05, 'epoch': 2.65}
 11%|█         | 8655/78504 [5:15:33<40:10:33,  2.07s/it] 11%|█         | 8656/78504 [5:15:34<38:55:09,  2.01s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.4507169723510742, 'learning_rate': 2.9660311664048238e-05, 'epoch': 2.65}
 11%|█         | 8656/78504 [5:15:35<38:55:09,  2.01s/it] 11%|█         | 8657/78504 [5:15:36<37:29:55,  1.93s/it]                                                         {'loss': 0.1522, 'grad_norm': 0.5498884320259094, 'learning_rate': 2.9659887053628297e-05, 'epoch': 2.65}
 11%|█         | 8657/78504 [5:15:36<37:29:55,  1.93s/it] 11%|█         | 8658/78504 [5:15:38<35:53:12,  1.85s/it]                                                         {'loss': 0.1595, 'grad_norm': 0.5433641076087952, 'learning_rate': 2.965946244320836e-05, 'epoch': 2.65}
 11%|█         | 8658/78504 [5:15:38<35:53:12,  1.85s/it] 11%|█         | 8659/78504 [5:15:39<34:06:26,  1.76s/it]                                                         {'loss': 0.1593, 'grad_norm': 0.7312982678413391, 'learning_rate': 2.9659037832788418e-05, 'epoch': 2.65}
 11%|█         | 8659/78504 [5:15:39<34:06:26,  1.76s/it] 11%|█         | 8660/78504 [5:15:41<32:08:26,  1.66s/it]                                                         {'loss': 0.1632, 'grad_norm': 0.8162384033203125, 'learning_rate': 2.965861322236848e-05, 'epoch': 2.65}
 11%|█         | 8660/78504 [5:15:41<32:08:26,  1.66s/it] 11%|█         | 8661/78504 [5:15:42<30:43:00,  1.58s/it]                                                         {'loss': 0.1701, 'grad_norm': 1.0408000946044922, 'learning_rate': 2.965818861194854e-05, 'epoch': 2.65}
 11%|█         | 8661/78504 [5:15:42<30:43:00,  1.58s/it] 11%|█         | 8662/78504 [5:15:44<28:35:59,  1.47s/it]                                                         {'loss': 0.1668, 'grad_norm': 6.761633396148682, 'learning_rate': 2.9657764001528597e-05, 'epoch': 2.65}
 11%|█         | 8662/78504 [5:15:44<28:35:59,  1.47s/it] 11%|█         | 8663/78504 [5:15:45<26:42:32,  1.38s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.6771640777587891, 'learning_rate': 2.965733939110866e-05, 'epoch': 2.65}
 11%|█         | 8663/78504 [5:15:45<26:42:32,  1.38s/it] 11%|█         | 8664/78504 [5:15:46<25:00:42,  1.29s/it]                                                         {'loss': 0.2139, 'grad_norm': 0.7572241425514221, 'learning_rate': 2.9656914780688718e-05, 'epoch': 2.65}
 11%|█         | 8664/78504 [5:15:46<25:00:42,  1.29s/it] 11%|█         | 8665/78504 [5:15:47<23:18:11,  1.20s/it]                                                         {'loss': 0.2236, 'grad_norm': 0.7600659728050232, 'learning_rate': 2.965649017026878e-05, 'epoch': 2.65}
 11%|█         | 8665/78504 [5:15:47<23:18:11,  1.20s/it] 11%|█         | 8666/78504 [5:15:48<21:45:07,  1.12s/it]                                                         {'loss': 0.2591, 'grad_norm': 1.7104971408843994, 'learning_rate': 2.965606555984884e-05, 'epoch': 2.65}
 11%|█         | 8666/78504 [5:15:48<21:45:07,  1.12s/it] 11%|█         | 8667/78504 [5:15:48<19:48:19,  1.02s/it]                                                         {'loss': 0.3298, 'grad_norm': 1.9577242136001587, 'learning_rate': 2.96556409494289e-05, 'epoch': 2.65}
 11%|█         | 8667/78504 [5:15:48<19:48:19,  1.02s/it] 11%|█         | 8668/78504 [5:15:56<59:04:46,  3.05s/it]                                                         {'loss': 0.1655, 'grad_norm': 0.406866192817688, 'learning_rate': 2.965521633900896e-05, 'epoch': 2.65}
 11%|█         | 8668/78504 [5:15:56<59:04:46,  3.05s/it] 11%|█         | 8669/78504 [5:15:59<59:28:37,  3.07s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.33536919951438904, 'learning_rate': 2.965479172858902e-05, 'epoch': 2.65}
 11%|█         | 8669/78504 [5:15:59<59:28:37,  3.07s/it] 11%|█         | 8670/78504 [5:16:02<59:00:58,  3.04s/it]                                                         {'loss': 0.0734, 'grad_norm': 0.30185258388519287, 'learning_rate': 2.965436711816908e-05, 'epoch': 2.65}
 11%|█         | 8670/78504 [5:16:02<59:00:58,  3.04s/it] 11%|█         | 8671/78504 [5:16:05<56:23:23,  2.91s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.2917187213897705, 'learning_rate': 2.9653942507749142e-05, 'epoch': 2.65}
 11%|█         | 8671/78504 [5:16:05<56:23:23,  2.91s/it] 11%|█         | 8672/78504 [5:16:07<53:12:21,  2.74s/it]                                                         {'loss': 0.0664, 'grad_norm': 0.2556661367416382, 'learning_rate': 2.96535178973292e-05, 'epoch': 2.65}
 11%|█         | 8672/78504 [5:16:07<53:12:21,  2.74s/it] 11%|█         | 8673/78504 [5:16:10<50:25:57,  2.60s/it]                                                         {'loss': 0.0729, 'grad_norm': 0.27571621537208557, 'learning_rate': 2.9653093286909263e-05, 'epoch': 2.65}
 11%|█         | 8673/78504 [5:16:10<50:25:57,  2.60s/it] 11%|█         | 8674/78504 [5:16:12<48:47:41,  2.52s/it]                                                         {'loss': 0.0856, 'grad_norm': 0.3383842408657074, 'learning_rate': 2.9652668676489322e-05, 'epoch': 2.65}
 11%|█         | 8674/78504 [5:16:12<48:47:41,  2.52s/it] 11%|█         | 8675/78504 [5:16:14<46:20:04,  2.39s/it]                                                         {'loss': 0.076, 'grad_norm': 0.36779066920280457, 'learning_rate': 2.965224406606938e-05, 'epoch': 2.65}
 11%|█         | 8675/78504 [5:16:14<46:20:04,  2.39s/it] 11%|█         | 8676/78504 [5:16:16<45:08:33,  2.33s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.2316930592060089, 'learning_rate': 2.9651819455649443e-05, 'epoch': 2.65}
 11%|█         | 8676/78504 [5:16:16<45:08:33,  2.33s/it] 11%|█         | 8677/78504 [5:16:18<44:05:26,  2.27s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.2973344326019287, 'learning_rate': 2.96513948452295e-05, 'epoch': 2.65}
 11%|█         | 8677/78504 [5:16:18<44:05:26,  2.27s/it] 11%|█         | 8678/78504 [5:16:20<42:39:05,  2.20s/it]                                                         {'loss': 0.0694, 'grad_norm': 0.2571130394935608, 'learning_rate': 2.9650970234809563e-05, 'epoch': 2.65}
 11%|█         | 8678/78504 [5:16:20<42:39:05,  2.20s/it] 11%|█         | 8679/78504 [5:16:22<40:20:22,  2.08s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.28444766998291016, 'learning_rate': 2.9650545624389622e-05, 'epoch': 2.65}
 11%|█         | 8679/78504 [5:16:22<40:20:22,  2.08s/it] 11%|█         | 8680/78504 [5:16:24<39:05:42,  2.02s/it]                                                         {'loss': 0.1272, 'grad_norm': 0.467174768447876, 'learning_rate': 2.9650121013969684e-05, 'epoch': 2.65}
 11%|█         | 8680/78504 [5:16:24<39:05:42,  2.02s/it] 11%|█         | 8681/78504 [5:16:26<37:22:37,  1.93s/it]                                                         {'loss': 0.1457, 'grad_norm': 0.47461938858032227, 'learning_rate': 2.9649696403549743e-05, 'epoch': 2.65}
 11%|█         | 8681/78504 [5:16:26<37:22:37,  1.93s/it] 11%|█         | 8682/78504 [5:16:27<35:50:44,  1.85s/it]                                                         {'loss': 0.154, 'grad_norm': 0.3564741015434265, 'learning_rate': 2.9649271793129805e-05, 'epoch': 2.65}
 11%|█         | 8682/78504 [5:16:27<35:50:44,  1.85s/it] 11%|█         | 8683/78504 [5:16:29<34:39:02,  1.79s/it]                                                         {'loss': 0.1534, 'grad_norm': 0.4470134973526001, 'learning_rate': 2.9648847182709864e-05, 'epoch': 2.65}
 11%|█         | 8683/78504 [5:16:29<34:39:02,  1.79s/it] 11%|█         | 8684/78504 [5:16:31<33:10:07,  1.71s/it]                                                         {'loss': 0.1718, 'grad_norm': 0.538486123085022, 'learning_rate': 2.9648422572289926e-05, 'epoch': 2.65}
 11%|█         | 8684/78504 [5:16:31<33:10:07,  1.71s/it] 11%|█         | 8685/78504 [5:16:32<31:31:24,  1.63s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.6164297461509705, 'learning_rate': 2.9647997961869984e-05, 'epoch': 2.66}
 11%|█         | 8685/78504 [5:16:32<31:31:24,  1.63s/it] 11%|█         | 8686/78504 [5:16:33<30:19:03,  1.56s/it]                                                         {'loss': 0.1681, 'grad_norm': 0.6920440793037415, 'learning_rate': 2.9647573351450047e-05, 'epoch': 2.66}
 11%|█         | 8686/78504 [5:16:33<30:19:03,  1.56s/it] 11%|█         | 8687/78504 [5:16:35<28:19:23,  1.46s/it]                                                         {'loss': 0.208, 'grad_norm': 0.6287400126457214, 'learning_rate': 2.9647148741030105e-05, 'epoch': 2.66}
 11%|█         | 8687/78504 [5:16:35<28:19:23,  1.46s/it] 11%|█         | 8688/78504 [5:16:36<26:28:28,  1.37s/it]                                                         {'loss': 0.1967, 'grad_norm': 0.7870118618011475, 'learning_rate': 2.9646724130610164e-05, 'epoch': 2.66}
 11%|█         | 8688/78504 [5:16:36<26:28:28,  1.37s/it] 11%|█         | 8689/78504 [5:16:37<24:56:47,  1.29s/it]                                                         {'loss': 0.2176, 'grad_norm': 0.8157984614372253, 'learning_rate': 2.9646299520190226e-05, 'epoch': 2.66}
 11%|█         | 8689/78504 [5:16:37<24:56:47,  1.29s/it] 11%|█         | 8690/78504 [5:16:38<23:35:12,  1.22s/it]                                                         {'loss': 0.231, 'grad_norm': 1.04789137840271, 'learning_rate': 2.9645874909770285e-05, 'epoch': 2.66}
 11%|█         | 8690/78504 [5:16:38<23:35:12,  1.22s/it] 11%|█         | 8691/78504 [5:16:39<21:54:20,  1.13s/it]                                                         {'loss': 0.2284, 'grad_norm': 0.9876081943511963, 'learning_rate': 2.9645450299350347e-05, 'epoch': 2.66}
 11%|█         | 8691/78504 [5:16:39<21:54:20,  1.13s/it] 11%|█         | 8692/78504 [5:16:40<19:51:01,  1.02s/it]                                                         {'loss': 0.268, 'grad_norm': 0.8478752970695496, 'learning_rate': 2.9645025688930405e-05, 'epoch': 2.66}
 11%|█         | 8692/78504 [5:16:40<19:51:01,  1.02s/it] 11%|█         | 8693/78504 [5:16:49<67:49:01,  3.50s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.3035908639431, 'learning_rate': 2.9644601078510468e-05, 'epoch': 2.66}
 11%|█         | 8693/78504 [5:16:49<67:49:01,  3.50s/it] 11%|█         | 8694/78504 [5:16:52<66:58:43,  3.45s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.6852359175682068, 'learning_rate': 2.9644176468090526e-05, 'epoch': 2.66}
 11%|█         | 8694/78504 [5:16:52<66:58:43,  3.45s/it] 11%|█         | 8695/78504 [5:16:55<61:49:14,  3.19s/it]                                                         {'loss': 0.0983, 'grad_norm': 0.4001828134059906, 'learning_rate': 2.964375185767059e-05, 'epoch': 2.66}
 11%|█         | 8695/78504 [5:16:55<61:49:14,  3.19s/it] 11%|█         | 8696/78504 [5:16:57<57:20:26,  2.96s/it]                                                         {'loss': 0.0639, 'grad_norm': 0.35365843772888184, 'learning_rate': 2.9643327247250647e-05, 'epoch': 2.66}
 11%|█         | 8696/78504 [5:16:57<57:20:26,  2.96s/it] 11%|█         | 8697/78504 [5:17:00<54:31:46,  2.81s/it]                                                         {'loss': 0.0563, 'grad_norm': 0.3101315498352051, 'learning_rate': 2.964290263683071e-05, 'epoch': 2.66}
 11%|█         | 8697/78504 [5:17:00<54:31:46,  2.81s/it] 11%|█         | 8698/78504 [5:17:02<52:18:24,  2.70s/it]                                                         {'loss': 0.0574, 'grad_norm': 0.34632694721221924, 'learning_rate': 2.9642478026410768e-05, 'epoch': 2.66}
 11%|█         | 8698/78504 [5:17:02<52:18:24,  2.70s/it] 11%|█         | 8699/78504 [5:17:04<50:05:37,  2.58s/it]                                                         {'loss': 0.0969, 'grad_norm': 0.36748966574668884, 'learning_rate': 2.964205341599083e-05, 'epoch': 2.66}
 11%|█         | 8699/78504 [5:17:04<50:05:37,  2.58s/it] 11%|█         | 8700/78504 [5:17:07<47:23:34,  2.44s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.2971348166465759, 'learning_rate': 2.964162880557089e-05, 'epoch': 2.66}
 11%|█         | 8700/78504 [5:17:07<47:23:34,  2.44s/it] 11%|█         | 8701/78504 [5:17:09<45:51:42,  2.37s/it]                                                         {'loss': 0.0938, 'grad_norm': 0.32078561186790466, 'learning_rate': 2.9641204195150947e-05, 'epoch': 2.66}
 11%|█         | 8701/78504 [5:17:09<45:51:42,  2.37s/it] 11%|█         | 8702/78504 [5:17:11<44:35:23,  2.30s/it]                                                         {'loss': 0.0905, 'grad_norm': 0.41197019815444946, 'learning_rate': 2.964077958473101e-05, 'epoch': 2.66}
 11%|█         | 8702/78504 [5:17:11<44:35:23,  2.30s/it] 11%|█         | 8703/78504 [5:17:13<42:59:05,  2.22s/it]                                                         {'loss': 0.1113, 'grad_norm': 0.5784210562705994, 'learning_rate': 2.9640354974311068e-05, 'epoch': 2.66}
 11%|█         | 8703/78504 [5:17:13<42:59:05,  2.22s/it] 11%|█         | 8704/78504 [5:17:15<41:34:16,  2.14s/it]                                                         {'loss': 0.1038, 'grad_norm': 0.5140787363052368, 'learning_rate': 2.963993036389113e-05, 'epoch': 2.66}
 11%|█         | 8704/78504 [5:17:15<41:34:16,  2.14s/it] 11%|█         | 8705/78504 [5:17:17<39:56:39,  2.06s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.4545873999595642, 'learning_rate': 2.963950575347119e-05, 'epoch': 2.66}
 11%|█         | 8705/78504 [5:17:17<39:56:39,  2.06s/it] 11%|█         | 8706/78504 [5:17:19<38:50:09,  2.00s/it]                                                         {'loss': 0.1409, 'grad_norm': 0.8718081116676331, 'learning_rate': 2.963908114305125e-05, 'epoch': 2.66}
 11%|█         | 8706/78504 [5:17:19<38:50:09,  2.00s/it] 11%|█         | 8707/78504 [5:17:20<37:25:43,  1.93s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.42968958616256714, 'learning_rate': 2.963865653263131e-05, 'epoch': 2.66}
 11%|█         | 8707/78504 [5:17:20<37:25:43,  1.93s/it] 11%|█         | 8708/78504 [5:17:22<35:50:54,  1.85s/it]                                                         {'loss': 0.1512, 'grad_norm': 0.5840100646018982, 'learning_rate': 2.9638231922211372e-05, 'epoch': 2.66}
 11%|█         | 8708/78504 [5:17:22<35:50:54,  1.85s/it] 11%|█         | 8709/78504 [5:17:24<34:03:48,  1.76s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.4727324843406677, 'learning_rate': 2.963780731179143e-05, 'epoch': 2.66}
 11%|█         | 8709/78504 [5:17:24<34:03:48,  1.76s/it] 11%|█         | 8710/78504 [5:17:25<32:21:25,  1.67s/it]                                                         {'loss': 0.1882, 'grad_norm': 0.5152813196182251, 'learning_rate': 2.9637382701371493e-05, 'epoch': 2.66}
 11%|█         | 8710/78504 [5:17:25<32:21:25,  1.67s/it] 11%|█         | 8711/78504 [5:17:26<30:46:15,  1.59s/it]                                                         {'loss': 0.1882, 'grad_norm': 1.0978182554244995, 'learning_rate': 2.963695809095155e-05, 'epoch': 2.66}
 11%|█         | 8711/78504 [5:17:26<30:46:15,  1.59s/it] 11%|█         | 8712/78504 [5:17:28<29:00:56,  1.50s/it]                                                         {'loss': 0.2008, 'grad_norm': 0.6089798808097839, 'learning_rate': 2.9636533480531613e-05, 'epoch': 2.66}
 11%|█         | 8712/78504 [5:17:28<29:00:56,  1.50s/it] 11%|█         | 8713/78504 [5:17:29<27:02:14,  1.39s/it]                                                         {'loss': 0.2374, 'grad_norm': 0.9035851955413818, 'learning_rate': 2.9636108870111672e-05, 'epoch': 2.66}
 11%|█         | 8713/78504 [5:17:29<27:02:14,  1.39s/it] 11%|█         | 8714/78504 [5:17:30<25:21:02,  1.31s/it]                                                         {'loss': 0.2168, 'grad_norm': 0.9974417090415955, 'learning_rate': 2.963568425969173e-05, 'epoch': 2.66}
 11%|█         | 8714/78504 [5:17:30<25:21:02,  1.31s/it] 11%|█         | 8715/78504 [5:17:31<23:53:52,  1.23s/it]                                                         {'loss': 0.1957, 'grad_norm': 1.064261794090271, 'learning_rate': 2.9635259649271793e-05, 'epoch': 2.66}
 11%|█         | 8715/78504 [5:17:31<23:53:52,  1.23s/it] 11%|█         | 8716/78504 [5:17:32<22:09:53,  1.14s/it]                                                         {'loss': 0.2384, 'grad_norm': 1.3394023180007935, 'learning_rate': 2.963483503885185e-05, 'epoch': 2.66}
 11%|█         | 8716/78504 [5:17:32<22:09:53,  1.14s/it] 11%|█         | 8717/78504 [5:17:33<20:08:51,  1.04s/it]                                                         {'loss': 0.2582, 'grad_norm': 2.0445258617401123, 'learning_rate': 2.9634410428431914e-05, 'epoch': 2.66}
 11%|█         | 8717/78504 [5:17:33<20:08:51,  1.04s/it] 11%|█         | 8718/78504 [5:17:41<62:30:01,  3.22s/it]                                                         {'loss': 0.1612, 'grad_norm': 0.3464461863040924, 'learning_rate': 2.9633985818011972e-05, 'epoch': 2.67}
 11%|█         | 8718/78504 [5:17:41<62:30:01,  3.22s/it] 11%|█         | 8719/78504 [5:17:44<61:40:01,  3.18s/it]                                                         {'loss': 0.1101, 'grad_norm': 0.3175399601459503, 'learning_rate': 2.9633561207592034e-05, 'epoch': 2.67}
 11%|█         | 8719/78504 [5:17:44<61:40:01,  3.18s/it] 11%|█         | 8720/78504 [5:17:47<60:42:08,  3.13s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.2845843434333801, 'learning_rate': 2.9633136597172093e-05, 'epoch': 2.67}
 11%|█         | 8720/78504 [5:17:47<60:42:08,  3.13s/it] 11%|█         | 8721/78504 [5:17:50<57:35:05,  2.97s/it]                                                         {'loss': 0.0649, 'grad_norm': 0.20462743937969208, 'learning_rate': 2.9632711986752155e-05, 'epoch': 2.67}
 11%|█         | 8721/78504 [5:17:50<57:35:05,  2.97s/it] 11%|█         | 8722/78504 [5:17:52<54:40:32,  2.82s/it]                                                         {'loss': 0.0842, 'grad_norm': 0.28023403882980347, 'learning_rate': 2.9632287376332214e-05, 'epoch': 2.67}
 11%|█         | 8722/78504 [5:17:52<54:40:32,  2.82s/it] 11%|█         | 8723/78504 [5:17:55<51:28:06,  2.66s/it]                                                         {'loss': 0.0489, 'grad_norm': 0.2974439561367035, 'learning_rate': 2.9631862765912276e-05, 'epoch': 2.67}
 11%|█         | 8723/78504 [5:17:55<51:28:06,  2.66s/it] 11%|█         | 8724/78504 [5:17:57<49:31:01,  2.55s/it]                                                         {'loss': 0.0659, 'grad_norm': 0.3944622874259949, 'learning_rate': 2.9631438155492335e-05, 'epoch': 2.67}
 11%|█         | 8724/78504 [5:17:57<49:31:01,  2.55s/it] 11%|█         | 8725/78504 [5:17:59<46:55:19,  2.42s/it]                                                         {'loss': 0.0796, 'grad_norm': 0.2649383544921875, 'learning_rate': 2.9631013545072397e-05, 'epoch': 2.67}
 11%|█         | 8725/78504 [5:17:59<46:55:19,  2.42s/it] 11%|█         | 8726/78504 [5:18:01<45:34:22,  2.35s/it]                                                         {'loss': 0.0879, 'grad_norm': 0.25376400351524353, 'learning_rate': 2.963058893465246e-05, 'epoch': 2.67}
 11%|█         | 8726/78504 [5:18:01<45:34:22,  2.35s/it] 11%|█         | 8727/78504 [5:18:03<44:21:53,  2.29s/it]                                                         {'loss': 0.0553, 'grad_norm': 0.6196922063827515, 'learning_rate': 2.9630164324232518e-05, 'epoch': 2.67}
 11%|█         | 8727/78504 [5:18:03<44:21:53,  2.29s/it] 11%|█         | 8728/78504 [5:18:05<41:50:36,  2.16s/it]                                                         {'loss': 0.1092, 'grad_norm': 0.38557982444763184, 'learning_rate': 2.962973971381258e-05, 'epoch': 2.67}
 11%|█         | 8728/78504 [5:18:05<41:50:36,  2.16s/it] 11%|█         | 8729/78504 [5:18:07<40:50:22,  2.11s/it]                                                         {'loss': 0.094, 'grad_norm': 0.36017584800720215, 'learning_rate': 2.962931510339264e-05, 'epoch': 2.67}
 11%|█         | 8729/78504 [5:18:07<40:50:22,  2.11s/it] 11%|█         | 8730/78504 [5:18:09<39:34:13,  2.04s/it]                                                         {'loss': 0.1055, 'grad_norm': 0.3923839032649994, 'learning_rate': 2.96288904929727e-05, 'epoch': 2.67}
 11%|█         | 8730/78504 [5:18:09<39:34:13,  2.04s/it] 11%|█         | 8731/78504 [5:18:11<38:41:57,  2.00s/it]                                                         {'loss': 0.1413, 'grad_norm': 0.5420852899551392, 'learning_rate': 2.962846588255276e-05, 'epoch': 2.67}
 11%|█         | 8731/78504 [5:18:11<38:41:57,  2.00s/it] 11%|█         | 8732/78504 [5:18:13<37:22:36,  1.93s/it]                                                         {'loss': 0.1188, 'grad_norm': 0.6210389733314514, 'learning_rate': 2.962804127213282e-05, 'epoch': 2.67}
 11%|█         | 8732/78504 [5:18:13<37:22:36,  1.93s/it] 11%|█         | 8733/78504 [5:18:14<35:19:00,  1.82s/it]                                                         {'loss': 0.1597, 'grad_norm': 0.49754586815834045, 'learning_rate': 2.962761666171288e-05, 'epoch': 2.67}
 11%|█         | 8733/78504 [5:18:14<35:19:00,  1.82s/it] 11%|█         | 8734/78504 [5:18:16<33:39:55,  1.74s/it]                                                         {'loss': 0.1907, 'grad_norm': 1.1040213108062744, 'learning_rate': 2.9627192051292942e-05, 'epoch': 2.67}
 11%|█         | 8734/78504 [5:18:16<33:39:55,  1.74s/it] 11%|█         | 8735/78504 [5:18:17<32:07:57,  1.66s/it]                                                         {'loss': 0.1822, 'grad_norm': 0.5792959928512573, 'learning_rate': 2.9626767440873e-05, 'epoch': 2.67}
 11%|█         | 8735/78504 [5:18:17<32:07:57,  1.66s/it] 11%|█         | 8736/78504 [5:18:19<30:45:08,  1.59s/it]                                                         {'loss': 0.1893, 'grad_norm': 0.8374557495117188, 'learning_rate': 2.9626342830453063e-05, 'epoch': 2.67}
 11%|█         | 8736/78504 [5:18:19<30:45:08,  1.59s/it] 11%|█         | 8737/78504 [5:18:20<28:36:58,  1.48s/it]                                                         {'loss': 0.2026, 'grad_norm': 0.6214209794998169, 'learning_rate': 2.962591822003312e-05, 'epoch': 2.67}
 11%|█         | 8737/78504 [5:18:20<28:36:58,  1.48s/it] 11%|█         | 8738/78504 [5:18:21<26:35:29,  1.37s/it]                                                         {'loss': 0.2474, 'grad_norm': 1.197262167930603, 'learning_rate': 2.9625493609613184e-05, 'epoch': 2.67}
 11%|█         | 8738/78504 [5:18:21<26:35:29,  1.37s/it] 11%|█         | 8739/78504 [5:18:22<24:58:35,  1.29s/it]                                                         {'loss': 0.1922, 'grad_norm': 1.3350852727890015, 'learning_rate': 2.9625068999193242e-05, 'epoch': 2.67}
 11%|█         | 8739/78504 [5:18:22<24:58:35,  1.29s/it] 11%|█         | 8740/78504 [5:18:23<23:16:05,  1.20s/it]                                                         {'loss': 0.2063, 'grad_norm': 1.2598234415054321, 'learning_rate': 2.96246443887733e-05, 'epoch': 2.67}
 11%|█         | 8740/78504 [5:18:23<23:16:05,  1.20s/it] 11%|█         | 8741/78504 [5:18:24<21:41:16,  1.12s/it]                                                         {'loss': 0.2545, 'grad_norm': 1.3052809238433838, 'learning_rate': 2.9624219778353363e-05, 'epoch': 2.67}
 11%|█         | 8741/78504 [5:18:24<21:41:16,  1.12s/it] 11%|█         | 8742/78504 [5:18:25<19:40:19,  1.02s/it]                                                         {'loss': 0.2805, 'grad_norm': inf, 'learning_rate': 2.9624219778353363e-05, 'epoch': 2.67}
 11%|█         | 8742/78504 [5:18:25<19:40:19,  1.02s/it] 11%|█         | 8743/78504 [5:18:35<72:24:12,  3.74s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.6236213445663452, 'learning_rate': 2.9623795167933422e-05, 'epoch': 2.67}
 11%|█         | 8743/78504 [5:18:35<72:24:12,  3.74s/it] 11%|█         | 8744/78504 [5:18:38<70:10:07,  3.62s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.3056718111038208, 'learning_rate': 2.9623370557513484e-05, 'epoch': 2.67}
 11%|█         | 8744/78504 [5:18:38<70:10:07,  3.62s/it] 11%|█         | 8745/78504 [5:18:41<66:35:49,  3.44s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.32516196370124817, 'learning_rate': 2.9622945947093543e-05, 'epoch': 2.67}
 11%|█         | 8745/78504 [5:18:41<66:35:49,  3.44s/it] 11%|█         | 8746/78504 [5:18:44<61:47:11,  3.19s/it]                                                         {'loss': 0.0542, 'grad_norm': 0.2560531198978424, 'learning_rate': 2.9622521336673605e-05, 'epoch': 2.67}
 11%|█         | 8746/78504 [5:18:44<61:47:11,  3.19s/it] 11%|█         | 8747/78504 [5:18:46<57:43:00,  2.98s/it]                                                         {'loss': 0.0603, 'grad_norm': 0.30375370383262634, 'learning_rate': 2.9622096726253663e-05, 'epoch': 2.67}
 11%|█         | 8747/78504 [5:18:46<57:43:00,  2.98s/it] 11%|█         | 8748/78504 [5:18:49<54:04:48,  2.79s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.2839861810207367, 'learning_rate': 2.9621672115833725e-05, 'epoch': 2.67}
 11%|█         | 8748/78504 [5:18:49<54:04:48,  2.79s/it] 11%|█         | 8749/78504 [5:18:51<51:25:48,  2.65s/it]                                                         {'loss': 0.0745, 'grad_norm': 0.36806926131248474, 'learning_rate': 2.9621247505413784e-05, 'epoch': 2.67}
 11%|█         | 8749/78504 [5:18:51<51:25:48,  2.65s/it] 11%|█         | 8750/78504 [5:18:53<48:06:44,  2.48s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.42150363326072693, 'learning_rate': 2.9620822894993846e-05, 'epoch': 2.68}
 11%|█         | 8750/78504 [5:18:53<48:06:44,  2.48s/it] 11%|█         | 8751/78504 [5:18:55<46:23:02,  2.39s/it]                                                         {'loss': 0.0947, 'grad_norm': 0.36842623353004456, 'learning_rate': 2.9620398284573905e-05, 'epoch': 2.68}
 11%|█         | 8751/78504 [5:18:55<46:23:02,  2.39s/it] 11%|█         | 8752/78504 [5:18:57<44:55:49,  2.32s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.5829852819442749, 'learning_rate': 2.9619973674153964e-05, 'epoch': 2.68}
 11%|█         | 8752/78504 [5:18:57<44:55:49,  2.32s/it] 11%|█         | 8753/78504 [5:18:59<43:11:52,  2.23s/it]                                                         {'loss': 0.1186, 'grad_norm': 1.0651925802230835, 'learning_rate': 2.9619549063734026e-05, 'epoch': 2.68}
 11%|█         | 8753/78504 [5:19:00<43:11:52,  2.23s/it] 11%|█         | 8754/78504 [5:19:01<41:45:33,  2.16s/it]                                                         {'loss': 0.1106, 'grad_norm': 0.46841371059417725, 'learning_rate': 2.9619124453314084e-05, 'epoch': 2.68}
 11%|█         | 8754/78504 [5:19:01<41:45:33,  2.16s/it] 11%|█         | 8755/78504 [5:19:03<40:13:09,  2.08s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.35390594601631165, 'learning_rate': 2.9618699842894147e-05, 'epoch': 2.68}
 11%|█         | 8755/78504 [5:19:03<40:13:09,  2.08s/it] 11%|█         | 8756/78504 [5:19:05<39:00:25,  2.01s/it]                                                         {'loss': 0.128, 'grad_norm': 0.4478570222854614, 'learning_rate': 2.9618275232474205e-05, 'epoch': 2.68}
 11%|█         | 8756/78504 [5:19:05<39:00:25,  2.01s/it] 11%|█         | 8757/78504 [5:19:07<37:35:24,  1.94s/it]                                                         {'loss': 0.1234, 'grad_norm': 0.42261365056037903, 'learning_rate': 2.9617850622054267e-05, 'epoch': 2.68}
 11%|█         | 8757/78504 [5:19:07<37:35:24,  1.94s/it] 11%|█         | 8758/78504 [5:19:09<35:53:47,  1.85s/it]                                                         {'loss': 0.1493, 'grad_norm': 0.44504716992378235, 'learning_rate': 2.9617426011634326e-05, 'epoch': 2.68}
 11%|█         | 8758/78504 [5:19:09<35:53:47,  1.85s/it] 11%|█         | 8759/78504 [5:19:10<34:04:38,  1.76s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.8467711806297302, 'learning_rate': 2.9617001401214388e-05, 'epoch': 2.68}
 11%|█         | 8759/78504 [5:19:10<34:04:38,  1.76s/it] 11%|█         | 8760/78504 [5:19:12<32:21:44,  1.67s/it]                                                         {'loss': 0.15, 'grad_norm': 0.5870293378829956, 'learning_rate': 2.9616576790794447e-05, 'epoch': 2.68}
 11%|█         | 8760/78504 [5:19:12<32:21:44,  1.67s/it] 11%|█         | 8761/78504 [5:19:13<30:54:47,  1.60s/it]                                                         {'loss': 0.2174, 'grad_norm': 0.9207030534744263, 'learning_rate': 2.961615218037451e-05, 'epoch': 2.68}
 11%|█         | 8761/78504 [5:19:13<30:54:47,  1.60s/it] 11%|█         | 8762/78504 [5:19:14<28:43:30,  1.48s/it]                                                         {'loss': 0.1911, 'grad_norm': 1.0931932926177979, 'learning_rate': 2.9615727569954568e-05, 'epoch': 2.68}
 11%|█         | 8762/78504 [5:19:14<28:43:30,  1.48s/it] 11%|█         | 8763/78504 [5:19:15<26:38:48,  1.38s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.8416117429733276, 'learning_rate': 2.961530295953463e-05, 'epoch': 2.68}
 11%|█         | 8763/78504 [5:19:15<26:38:48,  1.38s/it] 11%|█         | 8764/78504 [5:19:17<25:01:04,  1.29s/it]                                                         {'loss': 0.1997, 'grad_norm': 0.8003458380699158, 'learning_rate': 2.961487834911469e-05, 'epoch': 2.68}
 11%|█         | 8764/78504 [5:19:17<25:01:04,  1.29s/it] 11%|█         | 8765/78504 [5:19:18<23:16:44,  1.20s/it]                                                         {'loss': 0.2423, 'grad_norm': 1.6099694967269897, 'learning_rate': 2.9614453738694747e-05, 'epoch': 2.68}
 11%|█         | 8765/78504 [5:19:18<23:16:44,  1.20s/it] 11%|█         | 8766/78504 [5:19:18<21:42:59,  1.12s/it]                                                         {'loss': 0.2343, 'grad_norm': 1.1497273445129395, 'learning_rate': 2.961402912827481e-05, 'epoch': 2.68}
 11%|█         | 8766/78504 [5:19:18<21:42:59,  1.12s/it] 11%|█         | 8767/78504 [5:19:19<19:44:42,  1.02s/it]                                                         {'loss': 0.297, 'grad_norm': 1.4872350692749023, 'learning_rate': 2.9613604517854868e-05, 'epoch': 2.68}
 11%|█         | 8767/78504 [5:19:19<19:44:42,  1.02s/it] 11%|█         | 8768/78504 [5:19:28<67:35:57,  3.49s/it]                                                         {'loss': 0.1661, 'grad_norm': 0.5393873453140259, 'learning_rate': 2.961317990743493e-05, 'epoch': 2.68}
 11%|█         | 8768/78504 [5:19:28<67:35:57,  3.49s/it] 11%|█         | 8769/78504 [5:19:32<66:52:35,  3.45s/it]                                                         {'loss': 0.0816, 'grad_norm': 0.22769683599472046, 'learning_rate': 2.961275529701499e-05, 'epoch': 2.68}
 11%|█         | 8769/78504 [5:19:32<66:52:35,  3.45s/it] 11%|█         | 8770/78504 [5:19:34<61:44:20,  3.19s/it]                                                         {'loss': 0.1294, 'grad_norm': 0.37363749742507935, 'learning_rate': 2.961233068659505e-05, 'epoch': 2.68}
 11%|█         | 8770/78504 [5:19:34<61:44:20,  3.19s/it] 11%|█         | 8771/78504 [5:19:37<58:24:31,  3.02s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.25159430503845215, 'learning_rate': 2.961190607617511e-05, 'epoch': 2.68}
 11%|█         | 8771/78504 [5:19:37<58:24:31,  3.02s/it] 11%|█         | 8772/78504 [5:19:39<54:35:58,  2.82s/it]                                                         {'loss': 0.0542, 'grad_norm': 0.23555095493793488, 'learning_rate': 2.961148146575517e-05, 'epoch': 2.68}
 11%|█         | 8772/78504 [5:19:39<54:35:58,  2.82s/it] 11%|█         | 8773/78504 [5:19:42<51:55:25,  2.68s/it]                                                         {'loss': 0.0939, 'grad_norm': 0.419158935546875, 'learning_rate': 2.961105685533523e-05, 'epoch': 2.68}
 11%|█         | 8773/78504 [5:19:42<51:55:25,  2.68s/it] 11%|█         | 8774/78504 [5:19:44<49:56:04,  2.58s/it]                                                         {'loss': 0.0616, 'grad_norm': 0.5319674015045166, 'learning_rate': 2.9610632244915292e-05, 'epoch': 2.68}
 11%|█         | 8774/78504 [5:19:44<49:56:04,  2.58s/it] 11%|█         | 8775/78504 [5:19:46<47:06:43,  2.43s/it]                                                         {'loss': 0.0736, 'grad_norm': 0.33960604667663574, 'learning_rate': 2.961020763449535e-05, 'epoch': 2.68}
 11%|█         | 8775/78504 [5:19:46<47:06:43,  2.43s/it] 11%|█         | 8776/78504 [5:19:48<44:45:43,  2.31s/it]                                                         {'loss': 0.0987, 'grad_norm': 0.5030962824821472, 'learning_rate': 2.9609783024075413e-05, 'epoch': 2.68}
 11%|█         | 8776/78504 [5:19:48<44:45:43,  2.31s/it] 11%|█         | 8777/78504 [5:19:50<43:45:25,  2.26s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.2494470626115799, 'learning_rate': 2.9609358413655472e-05, 'epoch': 2.68}
 11%|█         | 8777/78504 [5:19:50<43:45:25,  2.26s/it] 11%|█         | 8778/78504 [5:19:52<42:23:56,  2.19s/it]                                                         {'loss': 0.1066, 'grad_norm': 0.32995739579200745, 'learning_rate': 2.960893380323553e-05, 'epoch': 2.68}
 11%|█         | 8778/78504 [5:19:52<42:23:56,  2.19s/it] 11%|█         | 8779/78504 [5:19:54<41:09:08,  2.12s/it]                                                         {'loss': 0.1062, 'grad_norm': 0.3553001880645752, 'learning_rate': 2.9608509192815593e-05, 'epoch': 2.68}
 11%|█         | 8779/78504 [5:19:54<41:09:08,  2.12s/it] 11%|█         | 8780/78504 [5:19:56<39:46:30,  2.05s/it]                                                         {'loss': 0.0947, 'grad_norm': 0.6593840718269348, 'learning_rate': 2.960808458239565e-05, 'epoch': 2.68}
 11%|█         | 8780/78504 [5:19:56<39:46:30,  2.05s/it] 11%|█         | 8781/78504 [5:19:58<38:45:02,  2.00s/it]                                                         {'loss': 0.151, 'grad_norm': 0.43652668595314026, 'learning_rate': 2.9607659971975713e-05, 'epoch': 2.68}
 11%|█         | 8781/78504 [5:19:58<38:45:02,  2.00s/it] 11%|█         | 8782/78504 [5:20:00<37:21:37,  1.93s/it]                                                         {'loss': 0.1039, 'grad_norm': 1.1349679231643677, 'learning_rate': 2.9607235361555772e-05, 'epoch': 2.68}
 11%|█         | 8782/78504 [5:20:00<37:21:37,  1.93s/it] 11%|█         | 8783/78504 [5:20:02<35:45:37,  1.85s/it]                                                         {'loss': 0.1592, 'grad_norm': 0.6505615711212158, 'learning_rate': 2.9606810751135834e-05, 'epoch': 2.69}
 11%|█         | 8783/78504 [5:20:02<35:45:37,  1.85s/it] 11%|█         | 8784/78504 [5:20:03<33:59:18,  1.75s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.7366223335266113, 'learning_rate': 2.9606386140715893e-05, 'epoch': 2.69}
 11%|█         | 8784/78504 [5:20:03<33:59:18,  1.75s/it] 11%|█         | 8785/78504 [5:20:05<32:18:03,  1.67s/it]                                                         {'loss': 0.1671, 'grad_norm': 0.6934099197387695, 'learning_rate': 2.9605961530295955e-05, 'epoch': 2.69}
 11%|█         | 8785/78504 [5:20:05<32:18:03,  1.67s/it] 11%|█         | 8786/78504 [5:20:06<30:43:35,  1.59s/it]                                                         {'loss': 0.1955, 'grad_norm': 0.737497091293335, 'learning_rate': 2.9605536919876014e-05, 'epoch': 2.69}
 11%|█         | 8786/78504 [5:20:06<30:43:35,  1.59s/it] 11%|█         | 8787/78504 [5:20:07<28:57:35,  1.50s/it]                                                         {'loss': 0.1899, 'grad_norm': 0.7408062815666199, 'learning_rate': 2.9605112309456076e-05, 'epoch': 2.69}
 11%|█         | 8787/78504 [5:20:07<28:57:35,  1.50s/it] 11%|█         | 8788/78504 [5:20:08<26:51:01,  1.39s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.7858190536499023, 'learning_rate': 2.9604687699036134e-05, 'epoch': 2.69}
 11%|█         | 8788/78504 [5:20:08<26:51:01,  1.39s/it] 11%|█         | 8789/78504 [5:20:09<25:09:00,  1.30s/it]                                                         {'loss': 0.2086, 'grad_norm': 1.2000923156738281, 'learning_rate': 2.9604263088616197e-05, 'epoch': 2.69}
 11%|█         | 8789/78504 [5:20:09<25:09:00,  1.30s/it] 11%|█         | 8790/78504 [5:20:10<23:18:35,  1.20s/it]                                                         {'loss': 0.2023, 'grad_norm': 0.7699568867683411, 'learning_rate': 2.9603838478196255e-05, 'epoch': 2.69}
 11%|█         | 8790/78504 [5:20:10<23:18:35,  1.20s/it] 11%|█         | 8791/78504 [5:20:11<21:42:40,  1.12s/it]                                                         {'loss': 0.2086, 'grad_norm': 3.005228281021118, 'learning_rate': 2.9603413867776314e-05, 'epoch': 2.69}
 11%|█         | 8791/78504 [5:20:11<21:42:40,  1.12s/it] 11%|█         | 8792/78504 [5:20:12<19:47:19,  1.02s/it]                                                         {'loss': 0.3019, 'grad_norm': 6.151845455169678, 'learning_rate': 2.9602989257356376e-05, 'epoch': 2.69}
 11%|█         | 8792/78504 [5:20:12<19:47:19,  1.02s/it] 11%|█         | 8793/78504 [5:20:22<69:37:09,  3.60s/it]                                                         {'loss': 0.1665, 'grad_norm': 0.5889263153076172, 'learning_rate': 2.9602564646936435e-05, 'epoch': 2.69}
 11%|█         | 8793/78504 [5:20:22<69:37:09,  3.60s/it] 11%|█         | 8794/78504 [5:20:25<68:38:45,  3.55s/it]                                                         {'loss': 0.12, 'grad_norm': 0.6188045740127563, 'learning_rate': 2.9602140036516497e-05, 'epoch': 2.69}
 11%|█         | 8794/78504 [5:20:25<68:38:45,  3.55s/it] 11%|█         | 8795/78504 [5:20:28<65:52:21,  3.40s/it]                                                         {'loss': 0.067, 'grad_norm': 1.2032710313796997, 'learning_rate': 2.9601715426096556e-05, 'epoch': 2.69}
 11%|█         | 8795/78504 [5:20:28<65:52:21,  3.40s/it] 11%|█         | 8796/78504 [5:20:31<61:02:54,  3.15s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.35831645131111145, 'learning_rate': 2.9601290815676618e-05, 'epoch': 2.69}
 11%|█         | 8796/78504 [5:20:31<61:02:54,  3.15s/it] 11%|█         | 8797/78504 [5:20:33<57:08:49,  2.95s/it]                                                         {'loss': 0.0511, 'grad_norm': 0.2701244056224823, 'learning_rate': 2.9600866205256676e-05, 'epoch': 2.69}
 11%|█         | 8797/78504 [5:20:33<57:08:49,  2.95s/it] 11%|█         | 8798/78504 [5:20:36<54:06:28,  2.79s/it]                                                         {'loss': 0.0778, 'grad_norm': 0.48703956604003906, 'learning_rate': 2.960044159483674e-05, 'epoch': 2.69}
 11%|█         | 8798/78504 [5:20:36<54:06:28,  2.79s/it] 11%|█         | 8799/78504 [5:20:38<51:18:53,  2.65s/it]                                                         {'loss': 0.0818, 'grad_norm': 0.3510128855705261, 'learning_rate': 2.9600016984416797e-05, 'epoch': 2.69}
 11%|█         | 8799/78504 [5:20:38<51:18:53,  2.65s/it] 11%|█         | 8800/78504 [5:20:40<48:11:03,  2.49s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.6919806003570557, 'learning_rate': 2.959959237399686e-05, 'epoch': 2.69}
 11%|█         | 8800/78504 [5:20:40<48:11:03,  2.49s/it] 11%|█         | 8801/78504 [5:20:42<46:24:21,  2.40s/it]                                                         {'loss': 0.0689, 'grad_norm': 0.4305296540260315, 'learning_rate': 2.9599167763576918e-05, 'epoch': 2.69}
 11%|█         | 8801/78504 [5:20:42<46:24:21,  2.40s/it] 11%|█         | 8802/78504 [5:20:44<45:02:42,  2.33s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.32082653045654297, 'learning_rate': 2.959874315315698e-05, 'epoch': 2.69}
 11%|█         | 8802/78504 [5:20:45<45:02:42,  2.33s/it] 11%|█         | 8803/78504 [5:20:47<43:18:27,  2.24s/it]                                                         {'loss': 0.106, 'grad_norm': 0.4591390788555145, 'learning_rate': 2.959831854273704e-05, 'epoch': 2.69}
 11%|█         | 8803/78504 [5:20:47<43:18:27,  2.24s/it] 11%|█         | 8804/78504 [5:20:48<41:47:56,  2.16s/it]                                                         {'loss': 0.0818, 'grad_norm': 0.27082228660583496, 'learning_rate': 2.9597893932317097e-05, 'epoch': 2.69}
 11%|█         | 8804/78504 [5:20:49<41:47:56,  2.16s/it] 11%|█         | 8805/78504 [5:20:50<40:07:26,  2.07s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.22924673557281494, 'learning_rate': 2.959746932189716e-05, 'epoch': 2.69}
 11%|█         | 8805/78504 [5:20:50<40:07:26,  2.07s/it] 11%|█         | 8806/78504 [5:20:52<38:58:43,  2.01s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5057762265205383, 'learning_rate': 2.9597044711477218e-05, 'epoch': 2.69}
 11%|█         | 8806/78504 [5:20:52<38:58:43,  2.01s/it] 11%|█         | 8807/78504 [5:20:54<37:31:58,  1.94s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.44534680247306824, 'learning_rate': 2.959662010105728e-05, 'epoch': 2.69}
 11%|█         | 8807/78504 [5:20:54<37:31:58,  1.94s/it] 11%|█         | 8808/78504 [5:20:56<35:52:09,  1.85s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.6412291526794434, 'learning_rate': 2.959619549063734e-05, 'epoch': 2.69}
 11%|█         | 8808/78504 [5:20:56<35:52:09,  1.85s/it] 11%|█         | 8809/78504 [5:20:57<34:03:27,  1.76s/it]                                                         {'loss': 0.1709, 'grad_norm': 0.6175499558448792, 'learning_rate': 2.95957708802174e-05, 'epoch': 2.69}
 11%|█         | 8809/78504 [5:20:57<34:03:27,  1.76s/it] 11%|█         | 8810/78504 [5:20:59<32:34:12,  1.68s/it]                                                         {'loss': 0.2251, 'grad_norm': 0.7595847845077515, 'learning_rate': 2.959534626979746e-05, 'epoch': 2.69}
 11%|█         | 8810/78504 [5:20:59<32:34:12,  1.68s/it] 11%|█         | 8811/78504 [5:21:00<30:53:56,  1.60s/it]                                                         {'loss': 0.2079, 'grad_norm': 1.1453533172607422, 'learning_rate': 2.9594921659377522e-05, 'epoch': 2.69}
 11%|█         | 8811/78504 [5:21:00<30:53:56,  1.60s/it] 11%|█         | 8812/78504 [5:21:01<29:05:08,  1.50s/it]                                                         {'loss': 0.2315, 'grad_norm': 0.7410081028938293, 'learning_rate': 2.959449704895758e-05, 'epoch': 2.69}
 11%|█         | 8812/78504 [5:21:01<29:05:08,  1.50s/it] 11%|█         | 8813/78504 [5:21:03<27:05:01,  1.40s/it]                                                         {'loss': 0.2351, 'grad_norm': 0.8825443387031555, 'learning_rate': 2.9594072438537643e-05, 'epoch': 2.69}
 11%|█         | 8813/78504 [5:21:03<27:05:01,  1.40s/it] 11%|█         | 8814/78504 [5:21:04<25:21:52,  1.31s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.7469035387039185, 'learning_rate': 2.95936478281177e-05, 'epoch': 2.69}
 11%|█         | 8814/78504 [5:21:04<25:21:52,  1.31s/it] 11%|█         | 8815/78504 [5:21:05<23:49:41,  1.23s/it]                                                         {'loss': 0.2187, 'grad_norm': 1.0586669445037842, 'learning_rate': 2.9593223217697763e-05, 'epoch': 2.69}
 11%|█         | 8815/78504 [5:21:05<23:49:41,  1.23s/it] 11%|█         | 8816/78504 [5:21:06<22:03:03,  1.14s/it]                                                         {'loss': 0.2725, 'grad_norm': 1.5875682830810547, 'learning_rate': 2.9592798607277822e-05, 'epoch': 2.7}
 11%|█         | 8816/78504 [5:21:06<22:03:03,  1.14s/it] 11%|█         | 8817/78504 [5:21:06<19:47:35,  1.02s/it]                                                         {'loss': 0.3323, 'grad_norm': 4.964749813079834, 'learning_rate': 2.959237399685788e-05, 'epoch': 2.7}
 11%|█         | 8817/78504 [5:21:06<19:47:35,  1.02s/it] 11%|█         | 8818/78504 [5:21:13<53:11:46,  2.75s/it]                                                         {'loss': 0.1453, 'grad_norm': 0.3892293870449066, 'learning_rate': 2.9591949386437943e-05, 'epoch': 2.7}
 11%|█         | 8818/78504 [5:21:13<53:11:46,  2.75s/it] 11%|█         | 8819/78504 [5:21:16<55:26:16,  2.86s/it]                                                         {'loss': 0.105, 'grad_norm': 0.3777379095554352, 'learning_rate': 2.9591524776018e-05, 'epoch': 2.7}
 11%|█         | 8819/78504 [5:21:16<55:26:16,  2.86s/it] 11%|█         | 8820/78504 [5:21:19<55:48:23,  2.88s/it]                                                         {'loss': 0.0809, 'grad_norm': 0.37327396869659424, 'learning_rate': 2.9591100165598064e-05, 'epoch': 2.7}
 11%|█         | 8820/78504 [5:21:19<55:48:23,  2.88s/it] 11%|█         | 8821/78504 [5:21:22<53:59:34,  2.79s/it]                                                         {'loss': 0.0719, 'grad_norm': 0.35781872272491455, 'learning_rate': 2.9590675555178122e-05, 'epoch': 2.7}
 11%|█         | 8821/78504 [5:21:22<53:59:34,  2.79s/it] 11%|█         | 8822/78504 [5:21:24<52:10:07,  2.70s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.29866716265678406, 'learning_rate': 2.9590250944758184e-05, 'epoch': 2.7}
 11%|█         | 8822/78504 [5:21:24<52:10:07,  2.70s/it] 11%|█         | 8823/78504 [5:21:27<50:37:27,  2.62s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.1973126381635666, 'learning_rate': 2.9589826334338243e-05, 'epoch': 2.7}
 11%|█         | 8823/78504 [5:21:27<50:37:27,  2.62s/it] 11%|█         | 8824/78504 [5:21:29<48:53:20,  2.53s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.47214964032173157, 'learning_rate': 2.9589401723918305e-05, 'epoch': 2.7}
 11%|█         | 8824/78504 [5:21:29<48:53:20,  2.53s/it] 11%|█         | 8825/78504 [5:21:31<47:21:28,  2.45s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.32050275802612305, 'learning_rate': 2.9588977113498364e-05, 'epoch': 2.7}
 11%|█         | 8825/78504 [5:21:31<47:21:28,  2.45s/it] 11%|█         | 8826/78504 [5:21:33<45:49:57,  2.37s/it]                                                         {'loss': 0.0762, 'grad_norm': 0.39584362506866455, 'learning_rate': 2.9588552503078426e-05, 'epoch': 2.7}
 11%|█         | 8826/78504 [5:21:33<45:49:57,  2.37s/it] 11%|█         | 8827/78504 [5:21:36<44:40:49,  2.31s/it]                                                         {'loss': 0.0848, 'grad_norm': 0.4037152826786041, 'learning_rate': 2.9588127892658485e-05, 'epoch': 2.7}
 11%|█         | 8827/78504 [5:21:36<44:40:49,  2.31s/it] 11%|█         | 8828/78504 [5:21:37<42:03:59,  2.17s/it]                                                         {'loss': 0.118, 'grad_norm': 0.2855997681617737, 'learning_rate': 2.9587703282238547e-05, 'epoch': 2.7}
 11%|█         | 8828/78504 [5:21:37<42:03:59,  2.17s/it] 11%|█         | 8829/78504 [5:21:39<40:58:10,  2.12s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.4274437725543976, 'learning_rate': 2.958727867181861e-05, 'epoch': 2.7}
 11%|█         | 8829/78504 [5:21:39<40:58:10,  2.12s/it] 11%|█         | 8830/78504 [5:21:41<39:31:51,  2.04s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.3429509103298187, 'learning_rate': 2.9586854061398668e-05, 'epoch': 2.7}
 11%|█         | 8830/78504 [5:21:41<39:31:51,  2.04s/it] 11%|█         | 8831/78504 [5:21:43<38:29:57,  1.99s/it]                                                         {'loss': 0.1541, 'grad_norm': 0.5152809023857117, 'learning_rate': 2.958642945097873e-05, 'epoch': 2.7}
 11%|█         | 8831/78504 [5:21:43<38:29:57,  1.99s/it] 11%|█▏        | 8832/78504 [5:21:45<37:11:22,  1.92s/it]                                                         {'loss': 0.1594, 'grad_norm': 0.7246895432472229, 'learning_rate': 2.958600484055879e-05, 'epoch': 2.7}
 11%|█▏        | 8832/78504 [5:21:45<37:11:22,  1.92s/it] 11%|█▏        | 8833/78504 [5:21:47<35:39:00,  1.84s/it]                                                         {'loss': 0.1503, 'grad_norm': 0.4222801625728607, 'learning_rate': 2.958558023013885e-05, 'epoch': 2.7}
 11%|█▏        | 8833/78504 [5:21:47<35:39:00,  1.84s/it] 11%|█▏        | 8834/78504 [5:21:48<33:56:08,  1.75s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.7025434970855713, 'learning_rate': 2.958515561971891e-05, 'epoch': 2.7}
 11%|█▏        | 8834/78504 [5:21:48<33:56:08,  1.75s/it] 11%|█▏        | 8835/78504 [5:21:50<32:15:36,  1.67s/it]                                                         {'loss': 0.1757, 'grad_norm': 0.5024028420448303, 'learning_rate': 2.958473100929897e-05, 'epoch': 2.7}
 11%|█▏        | 8835/78504 [5:21:50<32:15:36,  1.67s/it] 11%|█▏        | 8836/78504 [5:21:51<30:46:17,  1.59s/it]                                                         {'loss': 0.2275, 'grad_norm': 0.6324949860572815, 'learning_rate': 2.958430639887903e-05, 'epoch': 2.7}
 11%|█▏        | 8836/78504 [5:21:51<30:46:17,  1.59s/it] 11%|█▏        | 8837/78504 [5:21:52<29:01:00,  1.50s/it]                                                         {'loss': 0.2405, 'grad_norm': 0.8538098335266113, 'learning_rate': 2.9583881788459092e-05, 'epoch': 2.7}
 11%|█▏        | 8837/78504 [5:21:52<29:01:00,  1.50s/it] 11%|█▏        | 8838/78504 [5:21:53<27:01:45,  1.40s/it]                                                         {'loss': 0.1909, 'grad_norm': 0.5674062371253967, 'learning_rate': 2.958345717803915e-05, 'epoch': 2.7}
 11%|█▏        | 8838/78504 [5:21:53<27:01:45,  1.40s/it] 11%|█▏        | 8839/78504 [5:21:55<25:13:39,  1.30s/it]                                                         {'loss': 0.2, 'grad_norm': 1.2629491090774536, 'learning_rate': 2.9583032567619213e-05, 'epoch': 2.7}
 11%|█▏        | 8839/78504 [5:21:55<25:13:39,  1.30s/it] 11%|█▏        | 8840/78504 [5:21:56<23:23:36,  1.21s/it]                                                         {'loss': 0.2075, 'grad_norm': 1.5076920986175537, 'learning_rate': 2.958260795719927e-05, 'epoch': 2.7}
 11%|█▏        | 8840/78504 [5:21:56<23:23:36,  1.21s/it] 11%|█▏        | 8841/78504 [5:21:56<21:48:54,  1.13s/it]                                                         {'loss': 0.2652, 'grad_norm': 0.922971248626709, 'learning_rate': 2.9582183346779334e-05, 'epoch': 2.7}
 11%|█▏        | 8841/78504 [5:21:56<21:48:54,  1.13s/it] 11%|█▏        | 8842/78504 [5:21:57<19:47:24,  1.02s/it]                                                         {'loss': 0.295, 'grad_norm': 1.2445710897445679, 'learning_rate': 2.9581758736359392e-05, 'epoch': 2.7}
 11%|█▏        | 8842/78504 [5:21:57<19:47:24,  1.02s/it] 11%|█▏        | 8843/78504 [5:22:04<55:35:10,  2.87s/it]                                                         {'loss': 0.1513, 'grad_norm': 0.8428782224655151, 'learning_rate': 2.958133412593945e-05, 'epoch': 2.7}
 11%|█▏        | 8843/78504 [5:22:04<55:35:10,  2.87s/it] 11%|█▏        | 8844/78504 [5:22:08<58:02:37,  3.00s/it]                                                         {'loss': 0.1218, 'grad_norm': 0.33668839931488037, 'learning_rate': 2.9580909515519513e-05, 'epoch': 2.7}
 11%|█▏        | 8844/78504 [5:22:08<58:02:37,  3.00s/it] 11%|█▏        | 8845/78504 [5:22:11<57:54:13,  2.99s/it]                                                         {'loss': 0.0773, 'grad_norm': 0.38433313369750977, 'learning_rate': 2.9580484905099572e-05, 'epoch': 2.7}
 11%|█▏        | 8845/78504 [5:22:11<57:54:13,  2.99s/it] 11%|█▏        | 8846/78504 [5:22:13<55:42:04,  2.88s/it]                                                         {'loss': 0.084, 'grad_norm': 0.4841252565383911, 'learning_rate': 2.9580060294679634e-05, 'epoch': 2.7}
 11%|█▏        | 8846/78504 [5:22:13<55:42:04,  2.88s/it] 11%|█▏        | 8847/78504 [5:22:16<53:19:36,  2.76s/it]                                                         {'loss': 0.0551, 'grad_norm': 0.2929609715938568, 'learning_rate': 2.9579635684259693e-05, 'epoch': 2.7}
 11%|█▏        | 8847/78504 [5:22:16<53:19:36,  2.76s/it] 11%|█▏        | 8848/78504 [5:22:18<50:28:51,  2.61s/it]                                                         {'loss': 0.063, 'grad_norm': 0.3374837338924408, 'learning_rate': 2.9579211073839755e-05, 'epoch': 2.7}
 11%|█▏        | 8848/78504 [5:22:18<50:28:51,  2.61s/it] 11%|█▏        | 8849/78504 [5:22:20<48:47:03,  2.52s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.8478454351425171, 'learning_rate': 2.9578786463419813e-05, 'epoch': 2.71}
 11%|█▏        | 8849/78504 [5:22:20<48:47:03,  2.52s/it] 11%|█▏        | 8850/78504 [5:22:22<46:23:45,  2.40s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.2535572946071625, 'learning_rate': 2.9578361852999875e-05, 'epoch': 2.71}
 11%|█▏        | 8850/78504 [5:22:23<46:23:45,  2.40s/it] 11%|█▏        | 8851/78504 [5:22:25<45:08:38,  2.33s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.28957599401474, 'learning_rate': 2.9577937242579934e-05, 'epoch': 2.71}
 11%|█▏        | 8851/78504 [5:22:25<45:08:38,  2.33s/it] 11%|█▏        | 8852/78504 [5:22:27<44:10:01,  2.28s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.6146442294120789, 'learning_rate': 2.9577512632159996e-05, 'epoch': 2.71}
 11%|█▏        | 8852/78504 [5:22:27<44:10:01,  2.28s/it] 11%|█▏        | 8853/78504 [5:22:29<42:37:13,  2.20s/it]                                                         {'loss': 0.0972, 'grad_norm': 0.5600945353507996, 'learning_rate': 2.9577088021740055e-05, 'epoch': 2.71}
 11%|█▏        | 8853/78504 [5:22:29<42:37:13,  2.20s/it] 11%|█▏        | 8854/78504 [5:22:31<41:20:15,  2.14s/it]                                                         {'loss': 0.1059, 'grad_norm': 0.7215248942375183, 'learning_rate': 2.9576663411320117e-05, 'epoch': 2.71}
 11%|█▏        | 8854/78504 [5:22:31<41:20:15,  2.14s/it] 11%|█▏        | 8855/78504 [5:22:33<39:53:09,  2.06s/it]                                                         {'loss': 0.107, 'grad_norm': 0.32065945863723755, 'learning_rate': 2.9576238800900176e-05, 'epoch': 2.71}
 11%|█▏        | 8855/78504 [5:22:33<39:53:09,  2.06s/it] 11%|█▏        | 8856/78504 [5:22:35<38:44:20,  2.00s/it]                                                         {'loss': 0.1366, 'grad_norm': 0.3924027681350708, 'learning_rate': 2.9575814190480234e-05, 'epoch': 2.71}
 11%|█▏        | 8856/78504 [5:22:35<38:44:20,  2.00s/it] 11%|█▏        | 8857/78504 [5:22:36<37:21:08,  1.93s/it]                                                         {'loss': 0.1437, 'grad_norm': 0.4357604384422302, 'learning_rate': 2.9575389580060297e-05, 'epoch': 2.71}
 11%|█▏        | 8857/78504 [5:22:36<37:21:08,  1.93s/it] 11%|█▏        | 8858/78504 [5:22:38<35:44:24,  1.85s/it]                                                         {'loss': 0.1522, 'grad_norm': 0.5384348034858704, 'learning_rate': 2.9574964969640355e-05, 'epoch': 2.71}
 11%|█▏        | 8858/78504 [5:22:38<35:44:24,  1.85s/it] 11%|█▏        | 8859/78504 [5:22:40<33:54:45,  1.75s/it]                                                         {'loss': 0.1701, 'grad_norm': 0.5754145383834839, 'learning_rate': 2.9574540359220417e-05, 'epoch': 2.71}
 11%|█▏        | 8859/78504 [5:22:40<33:54:45,  1.75s/it] 11%|█▏        | 8860/78504 [5:22:41<32:27:48,  1.68s/it]                                                         {'loss': 0.2152, 'grad_norm': 0.5559586882591248, 'learning_rate': 2.9574115748800476e-05, 'epoch': 2.71}
 11%|█▏        | 8860/78504 [5:22:41<32:27:48,  1.68s/it] 11%|█▏        | 8861/78504 [5:22:42<30:48:40,  1.59s/it]                                                         {'loss': 0.1708, 'grad_norm': 0.8741341829299927, 'learning_rate': 2.9573691138380538e-05, 'epoch': 2.71}
 11%|█▏        | 8861/78504 [5:22:42<30:48:40,  1.59s/it] 11%|█▏        | 8862/78504 [5:22:44<29:00:50,  1.50s/it]                                                         {'loss': 0.1915, 'grad_norm': 0.6337645053863525, 'learning_rate': 2.9573266527960597e-05, 'epoch': 2.71}
 11%|█▏        | 8862/78504 [5:22:44<29:00:50,  1.50s/it] 11%|█▏        | 8863/78504 [5:22:45<26:57:12,  1.39s/it]                                                         {'loss': 0.1896, 'grad_norm': 1.1169265508651733, 'learning_rate': 2.957284191754066e-05, 'epoch': 2.71}
 11%|█▏        | 8863/78504 [5:22:45<26:57:12,  1.39s/it] 11%|█▏        | 8864/78504 [5:22:46<25:10:37,  1.30s/it]                                                         {'loss': 0.2319, 'grad_norm': 0.890170156955719, 'learning_rate': 2.9572417307120718e-05, 'epoch': 2.71}
 11%|█▏        | 8864/78504 [5:22:46<25:10:37,  1.30s/it] 11%|█▏        | 8865/78504 [5:22:47<23:21:56,  1.21s/it]                                                         {'loss': 0.2092, 'grad_norm': 0.8638143539428711, 'learning_rate': 2.957199269670078e-05, 'epoch': 2.71}
 11%|█▏        | 8865/78504 [5:22:47<23:21:56,  1.21s/it] 11%|█▏        | 8866/78504 [5:22:48<21:47:12,  1.13s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.9246222376823425, 'learning_rate': 2.957156808628084e-05, 'epoch': 2.71}
 11%|█▏        | 8866/78504 [5:22:48<21:47:12,  1.13s/it] 11%|█▏        | 8867/78504 [5:22:49<19:45:55,  1.02s/it]                                                         {'loss': 0.2889, 'grad_norm': 1.2546696662902832, 'learning_rate': 2.9571143475860897e-05, 'epoch': 2.71}
 11%|█▏        | 8867/78504 [5:22:49<19:45:55,  1.02s/it] 11%|█▏        | 8868/78504 [5:22:57<61:39:30,  3.19s/it]                                                         {'loss': 0.1705, 'grad_norm': 0.38382813334465027, 'learning_rate': 2.957071886544096e-05, 'epoch': 2.71}
 11%|█▏        | 8868/78504 [5:22:57<61:39:30,  3.19s/it] 11%|█▏        | 8869/78504 [5:23:00<61:15:05,  3.17s/it]                                                         {'loss': 0.0718, 'grad_norm': 0.28760892152786255, 'learning_rate': 2.9570294255021018e-05, 'epoch': 2.71}
 11%|█▏        | 8869/78504 [5:23:00<61:15:05,  3.17s/it] 11%|█▏        | 8870/78504 [5:23:03<60:10:07,  3.11s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.25527772307395935, 'learning_rate': 2.956986964460108e-05, 'epoch': 2.71}
 11%|█▏        | 8870/78504 [5:23:03<60:10:07,  3.11s/it] 11%|█▏        | 8871/78504 [5:23:06<57:17:04,  2.96s/it]                                                         {'loss': 0.0655, 'grad_norm': 0.34373828768730164, 'learning_rate': 2.956944503418114e-05, 'epoch': 2.71}
 11%|█▏        | 8871/78504 [5:23:06<57:17:04,  2.96s/it] 11%|█▏        | 8872/78504 [5:23:08<54:23:58,  2.81s/it]                                                         {'loss': 0.0516, 'grad_norm': 0.29131895303726196, 'learning_rate': 2.95690204237612e-05, 'epoch': 2.71}
 11%|█▏        | 8872/78504 [5:23:08<54:23:58,  2.81s/it] 11%|█▏        | 8873/78504 [5:23:10<51:14:04,  2.65s/it]                                                         {'loss': 0.0643, 'grad_norm': 0.24687030911445618, 'learning_rate': 2.956859581334126e-05, 'epoch': 2.71}
 11%|█▏        | 8873/78504 [5:23:10<51:14:04,  2.65s/it] 11%|█▏        | 8874/78504 [5:23:13<49:17:19,  2.55s/it]                                                         {'loss': 0.07, 'grad_norm': 0.3280605375766754, 'learning_rate': 2.956817120292132e-05, 'epoch': 2.71}
 11%|█▏        | 8874/78504 [5:23:13<49:17:19,  2.55s/it] 11%|█▏        | 8875/78504 [5:23:15<46:39:40,  2.41s/it]                                                         {'loss': 0.0537, 'grad_norm': 0.4379046857357025, 'learning_rate': 2.956774659250138e-05, 'epoch': 2.71}
 11%|█▏        | 8875/78504 [5:23:15<46:39:40,  2.41s/it] 11%|█▏        | 8876/78504 [5:23:17<45:20:22,  2.34s/it]                                                         {'loss': 0.0826, 'grad_norm': 0.2661430239677429, 'learning_rate': 2.9567321982081442e-05, 'epoch': 2.71}
 11%|█▏        | 8876/78504 [5:23:17<45:20:22,  2.34s/it] 11%|█▏        | 8877/78504 [5:23:19<44:09:15,  2.28s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.33354848623275757, 'learning_rate': 2.95668973716615e-05, 'epoch': 2.71}
 11%|█▏        | 8877/78504 [5:23:19<44:09:15,  2.28s/it] 11%|█▏        | 8878/78504 [5:23:21<42:39:50,  2.21s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.35732489824295044, 'learning_rate': 2.9566472761241563e-05, 'epoch': 2.71}
 11%|█▏        | 8878/78504 [5:23:21<42:39:50,  2.21s/it] 11%|█▏        | 8879/78504 [5:23:23<41:19:33,  2.14s/it]                                                         {'loss': 0.109, 'grad_norm': 0.38735705614089966, 'learning_rate': 2.9566048150821622e-05, 'epoch': 2.71}
 11%|█▏        | 8879/78504 [5:23:23<41:19:33,  2.14s/it] 11%|█▏        | 8880/78504 [5:23:25<39:45:14,  2.06s/it]                                                         {'loss': 0.1056, 'grad_norm': 0.41104158759117126, 'learning_rate': 2.956562354040168e-05, 'epoch': 2.71}
 11%|█▏        | 8880/78504 [5:23:25<39:45:14,  2.06s/it] 11%|█▏        | 8881/78504 [5:23:27<38:34:27,  1.99s/it]                                                         {'loss': 0.1336, 'grad_norm': 0.5232689380645752, 'learning_rate': 2.9565198929981743e-05, 'epoch': 2.72}
 11%|█▏        | 8881/78504 [5:23:27<38:34:27,  1.99s/it] 11%|█▏        | 8882/78504 [5:23:29<37:01:11,  1.91s/it]                                                         {'loss': 0.1239, 'grad_norm': 0.4056643545627594, 'learning_rate': 2.95647743195618e-05, 'epoch': 2.72}
 11%|█▏        | 8882/78504 [5:23:29<37:01:11,  1.91s/it] 11%|█▏        | 8883/78504 [5:23:30<35:24:51,  1.83s/it]                                                         {'loss': 0.1682, 'grad_norm': 0.5337862372398376, 'learning_rate': 2.9564349709141863e-05, 'epoch': 2.72}
 11%|█▏        | 8883/78504 [5:23:30<35:24:51,  1.83s/it] 11%|█▏        | 8884/78504 [5:23:32<33:49:06,  1.75s/it]                                                         {'loss': 0.1548, 'grad_norm': 0.554460883140564, 'learning_rate': 2.9563925098721922e-05, 'epoch': 2.72}
 11%|█▏        | 8884/78504 [5:23:32<33:49:06,  1.75s/it] 11%|█▏        | 8885/78504 [5:23:33<32:10:47,  1.66s/it]                                                         {'loss': 0.1922, 'grad_norm': 0.5066083669662476, 'learning_rate': 2.9563500488301984e-05, 'epoch': 2.72}
 11%|█▏        | 8885/78504 [5:23:33<32:10:47,  1.66s/it] 11%|█▏        | 8886/78504 [5:23:35<30:27:28,  1.57s/it]                                                         {'loss': 0.2001, 'grad_norm': 3.4592275619506836, 'learning_rate': 2.9563075877882043e-05, 'epoch': 2.72}
 11%|█▏        | 8886/78504 [5:23:35<30:27:28,  1.57s/it] 11%|█▏        | 8887/78504 [5:23:36<28:47:07,  1.49s/it]                                                         {'loss': 0.1917, 'grad_norm': 0.7689265608787537, 'learning_rate': 2.9562651267462105e-05, 'epoch': 2.72}
 11%|█▏        | 8887/78504 [5:23:36<28:47:07,  1.49s/it] 11%|█▏        | 8888/78504 [5:23:37<26:51:02,  1.39s/it]                                                         {'loss': 0.206, 'grad_norm': 0.7712385058403015, 'learning_rate': 2.9562226657042164e-05, 'epoch': 2.72}
 11%|█▏        | 8888/78504 [5:23:37<26:51:02,  1.39s/it] 11%|█▏        | 8889/78504 [5:23:38<25:10:09,  1.30s/it]                                                         {'loss': 0.1762, 'grad_norm': 0.9354832172393799, 'learning_rate': 2.9561802046622226e-05, 'epoch': 2.72}
 11%|█▏        | 8889/78504 [5:23:38<25:10:09,  1.30s/it] 11%|█▏        | 8890/78504 [5:23:39<23:44:11,  1.23s/it]                                                         {'loss': 0.2385, 'grad_norm': 1.329920768737793, 'learning_rate': 2.9561377436202284e-05, 'epoch': 2.72}
 11%|█▏        | 8890/78504 [5:23:39<23:44:11,  1.23s/it] 11%|█▏        | 8891/78504 [5:23:40<21:57:43,  1.14s/it]                                                         {'loss': 0.211, 'grad_norm': 1.35783052444458, 'learning_rate': 2.9560952825782347e-05, 'epoch': 2.72}
 11%|█▏        | 8891/78504 [5:23:40<21:57:43,  1.14s/it] 11%|█▏        | 8892/78504 [5:23:41<19:54:13,  1.03s/it]                                                         {'loss': 0.2917, 'grad_norm': 1.3804950714111328, 'learning_rate': 2.9560528215362405e-05, 'epoch': 2.72}
 11%|█▏        | 8892/78504 [5:23:41<19:54:13,  1.03s/it] 11%|█▏        | 8893/78504 [5:23:47<50:11:38,  2.60s/it]                                                         {'loss': 0.1699, 'grad_norm': 0.3331294357776642, 'learning_rate': 2.9560103604942464e-05, 'epoch': 2.72}
 11%|█▏        | 8893/78504 [5:23:47<50:11:38,  2.60s/it] 11%|█▏        | 8894/78504 [5:23:50<52:49:14,  2.73s/it]                                                         {'loss': 0.0985, 'grad_norm': 0.2714889943599701, 'learning_rate': 2.9559678994522526e-05, 'epoch': 2.72}
 11%|█▏        | 8894/78504 [5:23:50<52:49:14,  2.73s/it] 11%|█▏        | 8895/78504 [5:23:53<54:27:26,  2.82s/it]                                                         {'loss': 0.0909, 'grad_norm': 0.382799357175827, 'learning_rate': 2.9559254384102585e-05, 'epoch': 2.72}
 11%|█▏        | 8895/78504 [5:23:53<54:27:26,  2.82s/it] 11%|█▏        | 8896/78504 [5:23:56<53:16:16,  2.76s/it]                                                         {'loss': 0.0659, 'grad_norm': 0.40621551871299744, 'learning_rate': 2.9558829773682647e-05, 'epoch': 2.72}
 11%|█▏        | 8896/78504 [5:23:56<53:16:16,  2.76s/it] 11%|█▏        | 8897/78504 [5:23:58<51:35:12,  2.67s/it]                                                         {'loss': 0.085, 'grad_norm': 0.3989184498786926, 'learning_rate': 2.9558405163262706e-05, 'epoch': 2.72}
 11%|█▏        | 8897/78504 [5:23:58<51:35:12,  2.67s/it] 11%|█▏        | 8898/78504 [5:24:01<49:17:23,  2.55s/it]                                                         {'loss': 0.0564, 'grad_norm': 0.2284633219242096, 'learning_rate': 2.9557980552842768e-05, 'epoch': 2.72}
 11%|█▏        | 8898/78504 [5:24:01<49:17:23,  2.55s/it] 11%|█▏        | 8899/78504 [5:24:03<47:56:12,  2.48s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.361341655254364, 'learning_rate': 2.9557555942422826e-05, 'epoch': 2.72}
 11%|█▏        | 8899/78504 [5:24:03<47:56:12,  2.48s/it] 11%|█▏        | 8900/78504 [5:24:05<45:41:42,  2.36s/it]                                                         {'loss': 0.0574, 'grad_norm': 0.2702975273132324, 'learning_rate': 2.955713133200289e-05, 'epoch': 2.72}
 11%|█▏        | 8900/78504 [5:24:05<45:41:42,  2.36s/it] 11%|█▏        | 8901/78504 [5:24:07<44:38:23,  2.31s/it]                                                         {'loss': 0.09, 'grad_norm': 0.3364415168762207, 'learning_rate': 2.9556706721582947e-05, 'epoch': 2.72}
 11%|█▏        | 8901/78504 [5:24:07<44:38:23,  2.31s/it] 11%|█▏        | 8902/78504 [5:24:09<43:39:23,  2.26s/it]                                                         {'loss': 0.0623, 'grad_norm': 0.3383548855781555, 'learning_rate': 2.955628211116301e-05, 'epoch': 2.72}
 11%|█▏        | 8902/78504 [5:24:09<43:39:23,  2.26s/it] 11%|█▏        | 8903/78504 [5:24:11<42:21:16,  2.19s/it]                                                         {'loss': 0.1208, 'grad_norm': 0.4209989607334137, 'learning_rate': 2.9555857500743068e-05, 'epoch': 2.72}
 11%|█▏        | 8903/78504 [5:24:11<42:21:16,  2.19s/it] 11%|█▏        | 8904/78504 [5:24:13<41:05:38,  2.13s/it]                                                         {'loss': 0.0923, 'grad_norm': 0.2763955891132355, 'learning_rate': 2.955543289032313e-05, 'epoch': 2.72}
 11%|█▏        | 8904/78504 [5:24:13<41:05:38,  2.13s/it] 11%|█▏        | 8905/78504 [5:24:15<39:34:23,  2.05s/it]                                                         {'loss': 0.111, 'grad_norm': 0.32311055064201355, 'learning_rate': 2.955500827990319e-05, 'epoch': 2.72}
 11%|█▏        | 8905/78504 [5:24:15<39:34:23,  2.05s/it] 11%|█▏        | 8906/78504 [5:24:17<38:21:58,  1.98s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.7019002437591553, 'learning_rate': 2.9554583669483247e-05, 'epoch': 2.72}
 11%|█▏        | 8906/78504 [5:24:17<38:21:58,  1.98s/it] 11%|█▏        | 8907/78504 [5:24:19<37:05:24,  1.92s/it]                                                         {'loss': 0.1366, 'grad_norm': 1.6213916540145874, 'learning_rate': 2.955415905906331e-05, 'epoch': 2.72}
 11%|█▏        | 8907/78504 [5:24:19<37:05:24,  1.92s/it] 11%|█▏        | 8908/78504 [5:24:20<35:34:33,  1.84s/it]                                                         {'loss': 0.1719, 'grad_norm': 0.5734357237815857, 'learning_rate': 2.9553734448643368e-05, 'epoch': 2.72}
 11%|█▏        | 8908/78504 [5:24:20<35:34:33,  1.84s/it] 11%|█▏        | 8909/78504 [5:24:22<33:50:47,  1.75s/it]                                                         {'loss': 0.1881, 'grad_norm': 0.7067188024520874, 'learning_rate': 2.955330983822343e-05, 'epoch': 2.72}
 11%|█▏        | 8909/78504 [5:24:22<33:50:47,  1.75s/it] 11%|█▏        | 8910/78504 [5:24:23<32:10:24,  1.66s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.6177224516868591, 'learning_rate': 2.955288522780349e-05, 'epoch': 2.72}
 11%|█▏        | 8910/78504 [5:24:23<32:10:24,  1.66s/it] 11%|█▏        | 8911/78504 [5:24:25<30:42:05,  1.59s/it]                                                         {'loss': 0.2339, 'grad_norm': 0.8981925249099731, 'learning_rate': 2.955246061738355e-05, 'epoch': 2.72}
 11%|█▏        | 8911/78504 [5:24:25<30:42:05,  1.59s/it] 11%|█▏        | 8912/78504 [5:24:26<28:59:44,  1.50s/it]                                                         {'loss': 0.2221, 'grad_norm': 0.9672415852546692, 'learning_rate': 2.955203600696361e-05, 'epoch': 2.72}
 11%|█▏        | 8912/78504 [5:24:26<28:59:44,  1.50s/it] 11%|█▏        | 8913/78504 [5:24:27<26:57:51,  1.39s/it]                                                         {'loss': 0.1904, 'grad_norm': 0.9189679026603699, 'learning_rate': 2.9551611396543672e-05, 'epoch': 2.72}
 11%|█▏        | 8913/78504 [5:24:27<26:57:51,  1.39s/it] 11%|█▏        | 8914/78504 [5:24:28<25:13:51,  1.31s/it]                                                         {'loss': 0.2262, 'grad_norm': 1.4959415197372437, 'learning_rate': 2.955118678612373e-05, 'epoch': 2.73}
 11%|█▏        | 8914/78504 [5:24:28<25:13:51,  1.31s/it] 11%|█▏        | 8915/78504 [5:24:29<23:26:05,  1.21s/it]                                                         {'loss': 0.202, 'grad_norm': 0.9269125461578369, 'learning_rate': 2.9550762175703793e-05, 'epoch': 2.73}
 11%|█▏        | 8915/78504 [5:24:29<23:26:05,  1.21s/it] 11%|█▏        | 8916/78504 [5:24:30<21:51:46,  1.13s/it]                                                         {'loss': 0.2507, 'grad_norm': 1.3292993307113647, 'learning_rate': 2.955033756528385e-05, 'epoch': 2.73}
 11%|█▏        | 8916/78504 [5:24:30<21:51:46,  1.13s/it] 11%|█▏        | 8917/78504 [5:24:31<19:50:36,  1.03s/it]                                                         {'loss': 0.3573, 'grad_norm': 2.167597770690918, 'learning_rate': 2.9549912954863913e-05, 'epoch': 2.73}
 11%|█▏        | 8917/78504 [5:24:31<19:50:36,  1.03s/it] 11%|█▏        | 8918/78504 [5:24:39<61:07:03,  3.16s/it]                                                         {'loss': 0.1675, 'grad_norm': 0.7289736270904541, 'learning_rate': 2.9549488344443972e-05, 'epoch': 2.73}
 11%|█▏        | 8918/78504 [5:24:39<61:07:03,  3.16s/it] 11%|█▏        | 8919/78504 [5:24:42<60:44:10,  3.14s/it]                                                         {'loss': 0.1006, 'grad_norm': 0.2969193160533905, 'learning_rate': 2.954906373402403e-05, 'epoch': 2.73}
 11%|█▏        | 8919/78504 [5:24:42<60:44:10,  3.14s/it] 11%|█▏        | 8920/78504 [5:24:45<57:23:32,  2.97s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.2221265435218811, 'learning_rate': 2.9548639123604093e-05, 'epoch': 2.73}
 11%|█▏        | 8920/78504 [5:24:45<57:23:32,  2.97s/it] 11%|█▏        | 8921/78504 [5:24:47<55:19:37,  2.86s/it]                                                         {'loss': 0.0562, 'grad_norm': 0.37762650847435, 'learning_rate': 2.954821451318415e-05, 'epoch': 2.73}
 11%|█▏        | 8921/78504 [5:24:47<55:19:37,  2.86s/it] 11%|█▏        | 8922/78504 [5:24:50<53:02:44,  2.74s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.3681592345237732, 'learning_rate': 2.9547789902764214e-05, 'epoch': 2.73}
 11%|█▏        | 8922/78504 [5:24:50<53:02:44,  2.74s/it] 11%|█▏        | 8923/78504 [5:24:52<51:12:47,  2.65s/it]                                                         {'loss': 0.0651, 'grad_norm': 0.42542171478271484, 'learning_rate': 2.9547365292344272e-05, 'epoch': 2.73}
 11%|█▏        | 8923/78504 [5:24:52<51:12:47,  2.65s/it] 11%|█▏        | 8924/78504 [5:24:55<49:17:36,  2.55s/it]                                                         {'loss': 0.064, 'grad_norm': 0.36794573068618774, 'learning_rate': 2.9546940681924334e-05, 'epoch': 2.73}
 11%|█▏        | 8924/78504 [5:24:55<49:17:36,  2.55s/it] 11%|█▏        | 8925/78504 [5:24:57<46:44:18,  2.42s/it]                                                         {'loss': 0.111, 'grad_norm': 0.5130842924118042, 'learning_rate': 2.9546516071504393e-05, 'epoch': 2.73}
 11%|█▏        | 8925/78504 [5:24:57<46:44:18,  2.42s/it] 11%|█▏        | 8926/78504 [5:24:59<45:24:37,  2.35s/it]                                                         {'loss': 0.0555, 'grad_norm': 0.29345470666885376, 'learning_rate': 2.9546091461084455e-05, 'epoch': 2.73}
 11%|█▏        | 8926/78504 [5:24:59<45:24:37,  2.35s/it] 11%|█▏        | 8927/78504 [5:25:01<44:21:39,  2.30s/it]                                                         {'loss': 0.0859, 'grad_norm': 0.45940858125686646, 'learning_rate': 2.9545666850664514e-05, 'epoch': 2.73}
 11%|█▏        | 8927/78504 [5:25:01<44:21:39,  2.30s/it] 11%|█▏        | 8928/78504 [5:25:03<42:45:04,  2.21s/it]                                                         {'loss': 0.1389, 'grad_norm': 0.5929442048072815, 'learning_rate': 2.9545242240244576e-05, 'epoch': 2.73}
 11%|█▏        | 8928/78504 [5:25:03<42:45:04,  2.21s/it] 11%|█▏        | 8929/78504 [5:25:05<41:25:14,  2.14s/it]                                                         {'loss': 0.0964, 'grad_norm': 0.30663174390792847, 'learning_rate': 2.9544817629824635e-05, 'epoch': 2.73}
 11%|█▏        | 8929/78504 [5:25:05<41:25:14,  2.14s/it] 11%|█▏        | 8930/78504 [5:25:07<39:56:51,  2.07s/it]                                                         {'loss': 0.0889, 'grad_norm': 0.44828304648399353, 'learning_rate': 2.9544393019404697e-05, 'epoch': 2.73}
 11%|█▏        | 8930/78504 [5:25:07<39:56:51,  2.07s/it] 11%|█▏        | 8931/78504 [5:25:09<38:46:09,  2.01s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5692293047904968, 'learning_rate': 2.954396840898476e-05, 'epoch': 2.73}
 11%|█▏        | 8931/78504 [5:25:09<38:46:09,  2.01s/it] 11%|█▏        | 8932/78504 [5:25:11<37:23:01,  1.93s/it]                                                         {'loss': 0.1342, 'grad_norm': 1.150504231452942, 'learning_rate': 2.9543543798564818e-05, 'epoch': 2.73}
 11%|█▏        | 8932/78504 [5:25:11<37:23:01,  1.93s/it] 11%|█▏        | 8933/78504 [5:25:12<35:18:17,  1.83s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.39157330989837646, 'learning_rate': 2.954311918814488e-05, 'epoch': 2.73}
 11%|█▏        | 8933/78504 [5:25:12<35:18:17,  1.83s/it] 11%|█▏        | 8934/78504 [5:25:14<33:36:18,  1.74s/it]                                                         {'loss': 0.1695, 'grad_norm': 0.47620639204978943, 'learning_rate': 2.954269457772494e-05, 'epoch': 2.73}
 11%|█▏        | 8934/78504 [5:25:14<33:36:18,  1.74s/it] 11%|█▏        | 8935/78504 [5:25:15<32:18:42,  1.67s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.6399511694908142, 'learning_rate': 2.9542269967305e-05, 'epoch': 2.73}
 11%|█▏        | 8935/78504 [5:25:15<32:18:42,  1.67s/it] 11%|█▏        | 8936/78504 [5:25:17<30:51:31,  1.60s/it]                                                         {'loss': 0.1844, 'grad_norm': 1.5325757265090942, 'learning_rate': 2.954184535688506e-05, 'epoch': 2.73}
 11%|█▏        | 8936/78504 [5:25:17<30:51:31,  1.60s/it] 11%|█▏        | 8937/78504 [5:25:18<29:03:39,  1.50s/it]                                                         {'loss': 0.1747, 'grad_norm': 0.5406950116157532, 'learning_rate': 2.954142074646512e-05, 'epoch': 2.73}
 11%|█▏        | 8937/78504 [5:25:18<29:03:39,  1.50s/it] 11%|█▏        | 8938/78504 [5:25:19<27:19:03,  1.41s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.1743888854980469, 'learning_rate': 2.954099613604518e-05, 'epoch': 2.73}
 11%|█▏        | 8938/78504 [5:25:19<27:19:03,  1.41s/it] 11%|█▏        | 8939/78504 [5:25:20<25:24:26,  1.31s/it]                                                         {'loss': 0.2174, 'grad_norm': 2.830111503601074, 'learning_rate': 2.9540571525625242e-05, 'epoch': 2.73}
 11%|█▏        | 8939/78504 [5:25:20<25:24:26,  1.31s/it] 11%|█▏        | 8940/78504 [5:25:21<23:55:08,  1.24s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.6311935782432556, 'learning_rate': 2.95401469152053e-05, 'epoch': 2.73}
 11%|█▏        | 8940/78504 [5:25:21<23:55:08,  1.24s/it] 11%|█▏        | 8941/78504 [5:25:22<22:07:52,  1.15s/it]                                                         {'loss': 0.2269, 'grad_norm': 0.973463237285614, 'learning_rate': 2.9539722304785363e-05, 'epoch': 2.73}
 11%|█▏        | 8941/78504 [5:25:22<22:07:52,  1.15s/it] 11%|█▏        | 8942/78504 [5:25:23<20:12:30,  1.05s/it]                                                         {'loss': 0.3051, 'grad_norm': 1.560346245765686, 'learning_rate': 2.953929769436542e-05, 'epoch': 2.73}
 11%|█▏        | 8942/78504 [5:25:23<20:12:30,  1.05s/it] 11%|█▏        | 8943/78504 [5:25:32<63:34:36,  3.29s/it]                                                         {'loss': 0.142, 'grad_norm': 0.4503558576107025, 'learning_rate': 2.9538873083945484e-05, 'epoch': 2.73}
 11%|█▏        | 8943/78504 [5:25:32<63:34:36,  3.29s/it] 11%|█▏        | 8944/78504 [5:25:35<63:22:59,  3.28s/it]                                                         {'loss': 0.0938, 'grad_norm': 0.5899693965911865, 'learning_rate': 2.9538448473525542e-05, 'epoch': 2.73}
 11%|█▏        | 8944/78504 [5:25:35<63:22:59,  3.28s/it] 11%|█▏        | 8945/78504 [5:25:38<61:49:01,  3.20s/it]                                                         {'loss': 0.0671, 'grad_norm': 0.41330525279045105, 'learning_rate': 2.95380238631056e-05, 'epoch': 2.73}
 11%|█▏        | 8945/78504 [5:25:38<61:49:01,  3.20s/it] 11%|█▏        | 8946/78504 [5:25:40<58:24:22,  3.02s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.4042695164680481, 'learning_rate': 2.9537599252685663e-05, 'epoch': 2.73}
 11%|█▏        | 8946/78504 [5:25:41<58:24:22,  3.02s/it] 11%|█▏        | 8947/78504 [5:25:43<55:09:56,  2.86s/it]                                                         {'loss': 0.0554, 'grad_norm': 0.21299080550670624, 'learning_rate': 2.9537174642265722e-05, 'epoch': 2.74}
 11%|█▏        | 8947/78504 [5:25:43<55:09:56,  2.86s/it] 11%|█▏        | 8948/78504 [5:25:45<51:45:43,  2.68s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.4766937494277954, 'learning_rate': 2.9536750031845784e-05, 'epoch': 2.74}
 11%|█▏        | 8948/78504 [5:25:45<51:45:43,  2.68s/it] 11%|█▏        | 8949/78504 [5:25:48<49:41:44,  2.57s/it]                                                         {'loss': 0.0532, 'grad_norm': 0.259302020072937, 'learning_rate': 2.9536325421425843e-05, 'epoch': 2.74}
 11%|█▏        | 8949/78504 [5:25:48<49:41:44,  2.57s/it] 11%|█▏        | 8950/78504 [5:25:50<46:54:04,  2.43s/it]                                                         {'loss': 0.0678, 'grad_norm': 0.33531638979911804, 'learning_rate': 2.9535900811005905e-05, 'epoch': 2.74}
 11%|█▏        | 8950/78504 [5:25:50<46:54:04,  2.43s/it] 11%|█▏        | 8951/78504 [5:25:52<44:37:19,  2.31s/it]                                                         {'loss': 0.0704, 'grad_norm': 0.39097487926483154, 'learning_rate': 2.9535476200585963e-05, 'epoch': 2.74}
 11%|█▏        | 8951/78504 [5:25:52<44:37:19,  2.31s/it] 11%|█▏        | 8952/78504 [5:25:54<43:36:12,  2.26s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.3441881537437439, 'learning_rate': 2.9535051590166026e-05, 'epoch': 2.74}
 11%|█▏        | 8952/78504 [5:25:54<43:36:12,  2.26s/it] 11%|█▏        | 8953/78504 [5:25:56<42:16:44,  2.19s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.5173120498657227, 'learning_rate': 2.9534626979746084e-05, 'epoch': 2.74}
 11%|█▏        | 8953/78504 [5:25:56<42:16:44,  2.19s/it] 11%|█▏        | 8954/78504 [5:25:58<41:02:39,  2.12s/it]                                                         {'loss': 0.0928, 'grad_norm': 0.30571407079696655, 'learning_rate': 2.9534202369326146e-05, 'epoch': 2.74}
 11%|█▏        | 8954/78504 [5:25:58<41:02:39,  2.12s/it] 11%|█▏        | 8955/78504 [5:26:00<39:41:30,  2.05s/it]                                                         {'loss': 0.1031, 'grad_norm': 0.5133305788040161, 'learning_rate': 2.9533777758906205e-05, 'epoch': 2.74}
 11%|█▏        | 8955/78504 [5:26:00<39:41:30,  2.05s/it] 11%|█▏        | 8956/78504 [5:26:02<38:25:25,  1.99s/it]                                                         {'loss': 0.1402, 'grad_norm': 0.5291617512702942, 'learning_rate': 2.9533353148486267e-05, 'epoch': 2.74}
 11%|█▏        | 8956/78504 [5:26:02<38:25:25,  1.99s/it] 11%|█▏        | 8957/78504 [5:26:03<37:07:50,  1.92s/it]                                                         {'loss': 0.128, 'grad_norm': 0.4506904184818268, 'learning_rate': 2.9532928538066326e-05, 'epoch': 2.74}
 11%|█▏        | 8957/78504 [5:26:03<37:07:50,  1.92s/it] 11%|█▏        | 8958/78504 [5:26:05<35:32:36,  1.84s/it]                                                         {'loss': 0.1636, 'grad_norm': 1.1799556016921997, 'learning_rate': 2.9532503927646384e-05, 'epoch': 2.74}
 11%|█▏        | 8958/78504 [5:26:05<35:32:36,  1.84s/it] 11%|█▏        | 8959/78504 [5:26:06<33:48:33,  1.75s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.5274310111999512, 'learning_rate': 2.9532079317226447e-05, 'epoch': 2.74}
 11%|█▏        | 8959/78504 [5:26:07<33:48:33,  1.75s/it] 11%|█▏        | 8960/78504 [5:26:08<32:21:50,  1.68s/it]                                                         {'loss': 0.1741, 'grad_norm': 0.8847830891609192, 'learning_rate': 2.9531654706806505e-05, 'epoch': 2.74}
 11%|█▏        | 8960/78504 [5:26:08<32:21:50,  1.68s/it] 11%|█▏        | 8961/78504 [5:26:09<30:41:15,  1.59s/it]                                                         {'loss': 0.1929, 'grad_norm': 0.881223201751709, 'learning_rate': 2.9531230096386567e-05, 'epoch': 2.74}
 11%|█▏        | 8961/78504 [5:26:09<30:41:15,  1.59s/it] 11%|█▏        | 8962/78504 [5:26:11<28:57:41,  1.50s/it]                                                         {'loss': 0.1873, 'grad_norm': 0.8177556395530701, 'learning_rate': 2.9530805485966626e-05, 'epoch': 2.74}
 11%|█▏        | 8962/78504 [5:26:11<28:57:41,  1.50s/it] 11%|█▏        | 8963/78504 [5:26:12<26:58:15,  1.40s/it]                                                         {'loss': 0.2133, 'grad_norm': 1.8757119178771973, 'learning_rate': 2.9530380875546688e-05, 'epoch': 2.74}
 11%|█▏        | 8963/78504 [5:26:12<26:58:15,  1.40s/it] 11%|█▏        | 8964/78504 [5:26:13<25:10:48,  1.30s/it]                                                         {'loss': 0.1908, 'grad_norm': 1.017235517501831, 'learning_rate': 2.9529956265126747e-05, 'epoch': 2.74}
 11%|█▏        | 8964/78504 [5:26:13<25:10:48,  1.30s/it] 11%|█▏        | 8965/78504 [5:26:14<23:41:32,  1.23s/it]                                                         {'loss': 0.1826, 'grad_norm': 1.0044530630111694, 'learning_rate': 2.952953165470681e-05, 'epoch': 2.74}
 11%|█▏        | 8965/78504 [5:26:14<23:41:32,  1.23s/it] 11%|█▏        | 8966/78504 [5:26:15<21:59:11,  1.14s/it]                                                         {'loss': 0.2164, 'grad_norm': 1.1419589519500732, 'learning_rate': 2.9529107044286868e-05, 'epoch': 2.74}
 11%|█▏        | 8966/78504 [5:26:15<21:59:11,  1.14s/it] 11%|█▏        | 8967/78504 [5:26:16<20:07:13,  1.04s/it]                                                         {'loss': 0.2801, 'grad_norm': 1.1615439653396606, 'learning_rate': 2.952868243386693e-05, 'epoch': 2.74}
 11%|█▏        | 8967/78504 [5:26:16<20:07:13,  1.04s/it] 11%|█▏        | 8968/78504 [5:26:24<60:50:47,  3.15s/it]                                                         {'loss': 0.157, 'grad_norm': 0.3924882411956787, 'learning_rate': 2.952825782344699e-05, 'epoch': 2.74}
 11%|█▏        | 8968/78504 [5:26:24<60:50:47,  3.15s/it] 11%|█▏        | 8969/78504 [5:26:27<62:05:20,  3.21s/it]                                                         {'loss': 0.0642, 'grad_norm': 0.3198155164718628, 'learning_rate': 2.952783321302705e-05, 'epoch': 2.74}
 11%|█▏        | 8969/78504 [5:26:27<62:05:20,  3.21s/it] 11%|█▏        | 8970/78504 [5:26:30<58:19:01,  3.02s/it]                                                         {'loss': 0.0679, 'grad_norm': 0.7029460072517395, 'learning_rate': 2.952740860260711e-05, 'epoch': 2.74}
 11%|█▏        | 8970/78504 [5:26:30<58:19:01,  3.02s/it] 11%|█▏        | 8971/78504 [5:26:32<55:49:42,  2.89s/it]                                                         {'loss': 0.0828, 'grad_norm': 0.35470131039619446, 'learning_rate': 2.9526983992187168e-05, 'epoch': 2.74}
 11%|█▏        | 8971/78504 [5:26:32<55:49:42,  2.89s/it] 11%|█▏        | 8972/78504 [5:26:35<52:45:43,  2.73s/it]                                                         {'loss': 0.058, 'grad_norm': 0.30400604009628296, 'learning_rate': 2.952655938176723e-05, 'epoch': 2.74}
 11%|█▏        | 8972/78504 [5:26:35<52:45:43,  2.73s/it] 11%|█▏        | 8973/78504 [5:26:37<50:32:28,  2.62s/it]                                                         {'loss': 0.0643, 'grad_norm': 0.22630620002746582, 'learning_rate': 2.952613477134729e-05, 'epoch': 2.74}
 11%|█▏        | 8973/78504 [5:26:37<50:32:28,  2.62s/it] 11%|█▏        | 8974/78504 [5:26:39<48:56:11,  2.53s/it]                                                         {'loss': 0.0547, 'grad_norm': 0.18172794580459595, 'learning_rate': 2.952571016092735e-05, 'epoch': 2.74}
 11%|█▏        | 8974/78504 [5:26:39<48:56:11,  2.53s/it] 11%|█▏        | 8975/78504 [5:26:41<46:21:54,  2.40s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.3796636164188385, 'learning_rate': 2.952528555050741e-05, 'epoch': 2.74}
 11%|█▏        | 8975/78504 [5:26:41<46:21:54,  2.40s/it] 11%|█▏        | 8976/78504 [5:26:43<44:16:11,  2.29s/it]                                                         {'loss': 0.1016, 'grad_norm': 0.3629956841468811, 'learning_rate': 2.952486094008747e-05, 'epoch': 2.74}
 11%|█▏        | 8976/78504 [5:26:43<44:16:11,  2.29s/it] 11%|█▏        | 8977/78504 [5:26:46<43:21:53,  2.25s/it]                                                         {'loss': 0.1087, 'grad_norm': 0.4247543513774872, 'learning_rate': 2.952443632966753e-05, 'epoch': 2.74}
 11%|█▏        | 8977/78504 [5:26:46<43:21:53,  2.25s/it] 11%|█▏        | 8978/78504 [5:26:48<42:02:56,  2.18s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.6533893346786499, 'learning_rate': 2.9524011719247592e-05, 'epoch': 2.74}
 11%|█▏        | 8978/78504 [5:26:48<42:02:56,  2.18s/it] 11%|█▏        | 8979/78504 [5:26:49<39:53:32,  2.07s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.34743732213974, 'learning_rate': 2.952358710882765e-05, 'epoch': 2.75}
 11%|█▏        | 8979/78504 [5:26:49<39:53:32,  2.07s/it] 11%|█▏        | 8980/78504 [5:26:51<38:43:38,  2.01s/it]                                                         {'loss': 0.1075, 'grad_norm': 0.4860205054283142, 'learning_rate': 2.9523162498407713e-05, 'epoch': 2.75}
 11%|█▏        | 8980/78504 [5:26:51<38:43:38,  2.01s/it] 11%|█▏        | 8981/78504 [5:26:53<37:43:22,  1.95s/it]                                                         {'loss': 0.1408, 'grad_norm': 0.7481884956359863, 'learning_rate': 2.9522737887987772e-05, 'epoch': 2.75}
 11%|█▏        | 8981/78504 [5:26:53<37:43:22,  1.95s/it] 11%|█▏        | 8982/78504 [5:26:55<36:40:29,  1.90s/it]                                                         {'loss': 0.1377, 'grad_norm': 0.3811589479446411, 'learning_rate': 2.952231327756783e-05, 'epoch': 2.75}
 11%|█▏        | 8982/78504 [5:26:55<36:40:29,  1.90s/it] 11%|█▏        | 8983/78504 [5:26:57<35:15:12,  1.83s/it]                                                         {'loss': 0.1403, 'grad_norm': 0.49341949820518494, 'learning_rate': 2.9521888667147893e-05, 'epoch': 2.75}
 11%|█▏        | 8983/78504 [5:26:57<35:15:12,  1.83s/it] 11%|█▏        | 8984/78504 [5:26:58<33:34:38,  1.74s/it]                                                         {'loss': 0.1585, 'grad_norm': 1.750240445137024, 'learning_rate': 2.952146405672795e-05, 'epoch': 2.75}
 11%|█▏        | 8984/78504 [5:26:58<33:34:38,  1.74s/it] 11%|█▏        | 8985/78504 [5:27:00<31:59:45,  1.66s/it]                                                         {'loss': 0.2013, 'grad_norm': 1.8921160697937012, 'learning_rate': 2.9521039446308013e-05, 'epoch': 2.75}
 11%|█▏        | 8985/78504 [5:27:00<31:59:45,  1.66s/it] 11%|█▏        | 8986/78504 [5:27:01<30:29:43,  1.58s/it]                                                         {'loss': 0.202, 'grad_norm': 0.7457348108291626, 'learning_rate': 2.9520614835888072e-05, 'epoch': 2.75}
 11%|█▏        | 8986/78504 [5:27:01<30:29:43,  1.58s/it] 11%|█▏        | 8987/78504 [5:27:02<28:48:07,  1.49s/it]                                                         {'loss': 0.1973, 'grad_norm': 0.9164198637008667, 'learning_rate': 2.9520190225468134e-05, 'epoch': 2.75}
 11%|█▏        | 8987/78504 [5:27:02<28:48:07,  1.49s/it] 11%|█▏        | 8988/78504 [5:27:03<26:48:08,  1.39s/it]                                                         {'loss': 0.1973, 'grad_norm': 1.2575277090072632, 'learning_rate': 2.9519765615048193e-05, 'epoch': 2.75}
 11%|█▏        | 8988/78504 [5:27:03<26:48:08,  1.39s/it] 11%|█▏        | 8989/78504 [5:27:04<25:04:34,  1.30s/it]                                                         {'loss': 0.1838, 'grad_norm': 0.7955787181854248, 'learning_rate': 2.9519341004628255e-05, 'epoch': 2.75}
 11%|█▏        | 8989/78504 [5:27:05<25:04:34,  1.30s/it] 11%|█▏        | 8990/78504 [5:27:06<23:38:08,  1.22s/it]                                                         {'loss': 0.2394, 'grad_norm': 0.786929190158844, 'learning_rate': 2.9518916394208314e-05, 'epoch': 2.75}
 11%|█▏        | 8990/78504 [5:27:06<23:38:08,  1.22s/it] 11%|█▏        | 8991/78504 [5:27:06<21:57:36,  1.14s/it]                                                         {'loss': 0.2347, 'grad_norm': 0.8670465350151062, 'learning_rate': 2.9518491783788376e-05, 'epoch': 2.75}
 11%|█▏        | 8991/78504 [5:27:06<21:57:36,  1.14s/it] 11%|█▏        | 8992/78504 [5:27:07<20:00:52,  1.04s/it]                                                         {'loss': 0.2638, 'grad_norm': 1.0498706102371216, 'learning_rate': 2.9518067173368435e-05, 'epoch': 2.75}
 11%|█▏        | 8992/78504 [5:27:07<20:00:52,  1.04s/it] 11%|█▏        | 8993/78504 [5:27:16<62:13:06,  3.22s/it]                                                         {'loss': 0.1788, 'grad_norm': 0.39317432045936584, 'learning_rate': 2.9517642562948497e-05, 'epoch': 2.75}
 11%|█▏        | 8993/78504 [5:27:16<62:13:06,  3.22s/it] 11%|█▏        | 8994/78504 [5:27:19<61:15:48,  3.17s/it]                                                         {'loss': 0.0691, 'grad_norm': 0.28476881980895996, 'learning_rate': 2.9517217952528555e-05, 'epoch': 2.75}
 11%|█▏        | 8994/78504 [5:27:19<61:15:48,  3.17s/it] 11%|█▏        | 8995/78504 [5:27:21<58:36:05,  3.04s/it]                                                         {'loss': 0.1112, 'grad_norm': 0.29670849442481995, 'learning_rate': 2.9516793342108614e-05, 'epoch': 2.75}
 11%|█▏        | 8995/78504 [5:27:21<58:36:05,  3.04s/it] 11%|█▏        | 8996/78504 [5:27:24<56:03:12,  2.90s/it]                                                         {'loss': 0.0571, 'grad_norm': 0.310567706823349, 'learning_rate': 2.9516368731688676e-05, 'epoch': 2.75}
 11%|█▏        | 8996/78504 [5:27:24<56:03:12,  2.90s/it] 11%|█▏        | 8997/78504 [5:27:26<53:38:04,  2.78s/it]                                                         {'loss': 0.0599, 'grad_norm': 0.2643621861934662, 'learning_rate': 2.9515944121268735e-05, 'epoch': 2.75}
 11%|█▏        | 8997/78504 [5:27:26<53:38:04,  2.78s/it] 11%|█▏        | 8998/78504 [5:27:29<51:12:37,  2.65s/it]                                                         {'loss': 0.076, 'grad_norm': 0.2515692710876465, 'learning_rate': 2.9515519510848797e-05, 'epoch': 2.75}
 11%|█▏        | 8998/78504 [5:27:29<51:12:37,  2.65s/it] 11%|█▏        | 8999/78504 [5:27:31<49:18:38,  2.55s/it]                                                         {'loss': 0.041, 'grad_norm': 0.14842955768108368, 'learning_rate': 2.9515094900428856e-05, 'epoch': 2.75}
 11%|█▏        | 8999/78504 [5:27:31<49:18:38,  2.55s/it] 11%|█▏        | 9000/78504 [5:27:33<46:37:07,  2.41s/it]                                                         {'loss': 0.0627, 'grad_norm': 0.6587350964546204, 'learning_rate': 2.9514670290008918e-05, 'epoch': 2.75}
 11%|█▏        | 9000/78504 [5:27:33<46:37:07,  2.41s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.57it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.72it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.64it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.82it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.12it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.57it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.49it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.70it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.06it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.56it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.84it/s][A
 93%|█████████▎| 14/15 [00:07<00:00,  2.24it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.18it/s][A                                                         
                                               [A{'eval_loss': 0.25483831763267517, 'eval_wer': 0.3412753833691796, 'eval_cer': 0.19201771900537898, 'eval_runtime': 19.0005, 'eval_samples_per_second': 238.836, 'eval_steps_per_second': 0.789, 'epoch': 2.75}
 11%|█▏        | 9000/78504 [5:28:39<46:37:07,  2.41s/it]
100%|██████████| 15/15 [00:11<00:00,  1.18it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-9000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-7000] due to args.save_total_limit
 11%|█▏        | 9001/78504 [5:28:56<513:37:55, 26.60s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.49182531237602234, 'learning_rate': 2.9514245679588976e-05, 'epoch': 2.75}
 11%|█▏        | 9001/78504 [5:28:56<513:37:55, 26.60s/it] 11%|█▏        | 9002/78504 [5:28:58<371:50:55, 19.26s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.8678860664367676, 'learning_rate': 2.951382106916904e-05, 'epoch': 2.75}
 11%|█▏        | 9002/78504 [5:28:58<371:50:55, 19.26s/it] 11%|█▏        | 9003/78504 [5:29:00<271:47:47, 14.08s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.6429328322410583, 'learning_rate': 2.9513396458749097e-05, 'epoch': 2.75}
 11%|█▏        | 9003/78504 [5:29:00<271:47:47, 14.08s/it] 11%|█▏        | 9004/78504 [5:29:02<201:19:42, 10.43s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.4217776656150818, 'learning_rate': 2.951297184832916e-05, 'epoch': 2.75}
 11%|█▏        | 9004/78504 [5:29:02<201:19:42, 10.43s/it] 11%|█▏        | 9005/78504 [5:29:04<151:45:22,  7.86s/it]                                                          {'loss': 0.1043, 'grad_norm': 0.7343816757202148, 'learning_rate': 2.9512547237909218e-05, 'epoch': 2.75}
 11%|█▏        | 9005/78504 [5:29:04<151:45:22,  7.86s/it] 11%|█▏        | 9006/78504 [5:29:06<116:52:12,  6.05s/it]                                                          {'loss': 0.1602, 'grad_norm': 0.4483078420162201, 'learning_rate': 2.951212262748928e-05, 'epoch': 2.75}
 11%|█▏        | 9006/78504 [5:29:06<116:52:12,  6.05s/it] 11%|█▏        | 9007/78504 [5:29:08<91:49:32,  4.76s/it]                                                          {'loss': 0.1404, 'grad_norm': 0.5138184428215027, 'learning_rate': 2.951169801706934e-05, 'epoch': 2.75}
 11%|█▏        | 9007/78504 [5:29:08<91:49:32,  4.76s/it] 11%|█▏        | 9008/78504 [5:29:09<73:42:46,  3.82s/it]                                                         {'loss': 0.1424, 'grad_norm': 0.4661647379398346, 'learning_rate': 2.9511273406649397e-05, 'epoch': 2.75}
 11%|█▏        | 9008/78504 [5:29:09<73:42:46,  3.82s/it] 11%|█▏        | 9009/78504 [5:29:11<60:22:04,  3.13s/it]                                                         {'loss': 0.171, 'grad_norm': 0.5417746901512146, 'learning_rate': 2.951084879622946e-05, 'epoch': 2.75}
 11%|█▏        | 9009/78504 [5:29:11<60:22:04,  3.13s/it] 11%|█▏        | 9010/78504 [5:29:12<50:47:57,  2.63s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.6665751338005066, 'learning_rate': 2.9510424185809518e-05, 'epoch': 2.75}
 11%|█▏        | 9010/78504 [5:29:12<50:47:57,  2.63s/it] 11%|█▏        | 9011/78504 [5:29:14<43:42:37,  2.26s/it]                                                         {'loss': 0.23, 'grad_norm': 0.8331485390663147, 'learning_rate': 2.950999957538958e-05, 'epoch': 2.75}
 11%|█▏        | 9011/78504 [5:29:14<43:42:37,  2.26s/it] 11%|█▏        | 9012/78504 [5:29:15<38:00:27,  1.97s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.5234645009040833, 'learning_rate': 2.950957496496964e-05, 'epoch': 2.76}
 11%|█▏        | 9012/78504 [5:29:15<38:00:27,  1.97s/it] 11%|█▏        | 9013/78504 [5:29:16<33:15:51,  1.72s/it]                                                         {'loss': 0.1994, 'grad_norm': 1.4614323377609253, 'learning_rate': 2.95091503545497e-05, 'epoch': 2.76}
 11%|█▏        | 9013/78504 [5:29:16<33:15:51,  1.72s/it] 11%|█▏        | 9014/78504 [5:29:17<29:43:48,  1.54s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.8737764954566956, 'learning_rate': 2.950872574412976e-05, 'epoch': 2.76}
 11%|█▏        | 9014/78504 [5:29:17<29:43:48,  1.54s/it] 11%|█▏        | 9015/78504 [5:29:18<27:02:06,  1.40s/it]                                                         {'loss': 0.2049, 'grad_norm': 1.5223280191421509, 'learning_rate': 2.9508301133709822e-05, 'epoch': 2.76}
 11%|█▏        | 9015/78504 [5:29:18<27:02:06,  1.40s/it] 11%|█▏        | 9016/78504 [5:29:19<24:16:11,  1.26s/it]                                                         {'loss': 0.2047, 'grad_norm': 1.0963563919067383, 'learning_rate': 2.950787652328988e-05, 'epoch': 2.76}
 11%|█▏        | 9016/78504 [5:29:19<24:16:11,  1.26s/it] 11%|█▏        | 9017/78504 [5:29:20<21:36:27,  1.12s/it]                                                         {'loss': 0.2804, 'grad_norm': 2.179558038711548, 'learning_rate': 2.9507451912869943e-05, 'epoch': 2.76}
 11%|█▏        | 9017/78504 [5:29:20<21:36:27,  1.12s/it] 11%|█▏        | 9018/78504 [5:29:30<71:11:28,  3.69s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.4392877519130707, 'learning_rate': 2.950702730245e-05, 'epoch': 2.76}
 11%|█▏        | 9018/78504 [5:29:30<71:11:28,  3.69s/it] 11%|█▏        | 9019/78504 [5:29:33<67:48:45,  3.51s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.3778644800186157, 'learning_rate': 2.9506602692030063e-05, 'epoch': 2.76}
 11%|█▏        | 9019/78504 [5:29:33<67:48:45,  3.51s/it] 11%|█▏        | 9020/78504 [5:29:36<64:41:41,  3.35s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.49859246611595154, 'learning_rate': 2.9506178081610122e-05, 'epoch': 2.76}
 11%|█▏        | 9020/78504 [5:29:36<64:41:41,  3.35s/it] 11%|█▏        | 9021/78504 [5:29:38<60:12:23,  3.12s/it]                                                         {'loss': 0.0557, 'grad_norm': 0.2865770757198334, 'learning_rate': 2.950575347119018e-05, 'epoch': 2.76}
 11%|█▏        | 9021/78504 [5:29:38<60:12:23,  3.12s/it] 11%|█▏        | 9022/78504 [5:29:41<55:44:47,  2.89s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.6657822132110596, 'learning_rate': 2.9505328860770243e-05, 'epoch': 2.76}
 11%|█▏        | 9022/78504 [5:29:41<55:44:47,  2.89s/it] 11%|█▏        | 9023/78504 [5:29:43<52:02:14,  2.70s/it]                                                         {'loss': 0.0619, 'grad_norm': 0.24784083664417267, 'learning_rate': 2.95049042503503e-05, 'epoch': 2.76}
 11%|█▏        | 9023/78504 [5:29:43<52:02:14,  2.70s/it] 11%|█▏        | 9024/78504 [5:29:45<49:52:34,  2.58s/it]                                                         {'loss': 0.0468, 'grad_norm': 0.266912579536438, 'learning_rate': 2.9504479639930364e-05, 'epoch': 2.76}
 11%|█▏        | 9024/78504 [5:29:45<49:52:34,  2.58s/it] 11%|█▏        | 9025/78504 [5:29:47<46:57:31,  2.43s/it]                                                         {'loss': 0.0586, 'grad_norm': 0.38388293981552124, 'learning_rate': 2.9504055029510422e-05, 'epoch': 2.76}
 11%|█▏        | 9025/78504 [5:29:47<46:57:31,  2.43s/it] 11%|█▏        | 9026/78504 [5:29:50<45:29:06,  2.36s/it]                                                         {'loss': 0.0711, 'grad_norm': 0.3397732675075531, 'learning_rate': 2.9503630419090485e-05, 'epoch': 2.76}
 11%|█▏        | 9026/78504 [5:29:50<45:29:06,  2.36s/it] 11%|█▏        | 9027/78504 [5:29:52<44:14:51,  2.29s/it]                                                         {'loss': 0.0958, 'grad_norm': 0.4340386688709259, 'learning_rate': 2.9503205808670543e-05, 'epoch': 2.76}
 11%|█▏        | 9027/78504 [5:29:52<44:14:51,  2.29s/it] 12%|█▏        | 9028/78504 [5:29:54<42:29:40,  2.20s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.4739077091217041, 'learning_rate': 2.9502781198250605e-05, 'epoch': 2.76}
 12%|█▏        | 9028/78504 [5:29:54<42:29:40,  2.20s/it] 12%|█▏        | 9029/78504 [5:29:56<40:09:48,  2.08s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.45212918519973755, 'learning_rate': 2.9502356587830664e-05, 'epoch': 2.76}
 12%|█▏        | 9029/78504 [5:29:56<40:09:48,  2.08s/it] 12%|█▏        | 9030/78504 [5:29:57<38:54:45,  2.02s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.49291208386421204, 'learning_rate': 2.9501931977410726e-05, 'epoch': 2.76}
 12%|█▏        | 9030/78504 [5:29:57<38:54:45,  2.02s/it] 12%|█▏        | 9031/78504 [5:29:59<37:53:47,  1.96s/it]                                                         {'loss': 0.114, 'grad_norm': 0.6840059757232666, 'learning_rate': 2.9501507366990785e-05, 'epoch': 2.76}
 12%|█▏        | 9031/78504 [5:29:59<37:53:47,  1.96s/it] 12%|█▏        | 9032/78504 [5:30:01<36:07:14,  1.87s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.5912116169929504, 'learning_rate': 2.9501082756570847e-05, 'epoch': 2.76}
 12%|█▏        | 9032/78504 [5:30:01<36:07:14,  1.87s/it] 12%|█▏        | 9033/78504 [5:30:03<34:45:33,  1.80s/it]                                                         {'loss': 0.1849, 'grad_norm': 1.0287690162658691, 'learning_rate': 2.950065814615091e-05, 'epoch': 2.76}
 12%|█▏        | 9033/78504 [5:30:03<34:45:33,  1.80s/it] 12%|█▏        | 9034/78504 [5:30:04<33:06:41,  1.72s/it]                                                         {'loss': 0.149, 'grad_norm': 0.7677445411682129, 'learning_rate': 2.9500233535730968e-05, 'epoch': 2.76}
 12%|█▏        | 9034/78504 [5:30:04<33:06:41,  1.72s/it] 12%|█▏        | 9035/78504 [5:30:05<31:25:11,  1.63s/it]                                                         {'loss': 0.1625, 'grad_norm': 0.7305231690406799, 'learning_rate': 2.949980892531103e-05, 'epoch': 2.76}
 12%|█▏        | 9035/78504 [5:30:06<31:25:11,  1.63s/it] 12%|█▏        | 9036/78504 [5:30:07<30:10:12,  1.56s/it]                                                         {'loss': 0.1748, 'grad_norm': 0.9717433452606201, 'learning_rate': 2.949938431489109e-05, 'epoch': 2.76}
 12%|█▏        | 9036/78504 [5:30:07<30:10:12,  1.56s/it] 12%|█▏        | 9037/78504 [5:30:08<28:10:04,  1.46s/it]                                                         {'loss': 0.2231, 'grad_norm': 1.2862850427627563, 'learning_rate': 2.949895970447115e-05, 'epoch': 2.76}
 12%|█▏        | 9037/78504 [5:30:08<28:10:04,  1.46s/it] 12%|█▏        | 9038/78504 [5:30:09<26:15:43,  1.36s/it]                                                         {'loss': 0.1989, 'grad_norm': 0.7835288643836975, 'learning_rate': 2.949853509405121e-05, 'epoch': 2.76}
 12%|█▏        | 9038/78504 [5:30:09<26:15:43,  1.36s/it] 12%|█▏        | 9039/78504 [5:30:10<24:41:03,  1.28s/it]                                                         {'loss': 0.2474, 'grad_norm': 0.9725880026817322, 'learning_rate': 2.949811048363127e-05, 'epoch': 2.76}
 12%|█▏        | 9039/78504 [5:30:10<24:41:03,  1.28s/it] 12%|█▏        | 9040/78504 [5:30:11<22:59:52,  1.19s/it]                                                         {'loss': 0.2292, 'grad_norm': 1.2709404230117798, 'learning_rate': 2.949768587321133e-05, 'epoch': 2.76}
 12%|█▏        | 9040/78504 [5:30:11<22:59:52,  1.19s/it] 12%|█▏        | 9041/78504 [5:30:12<21:30:18,  1.11s/it]                                                         {'loss': 0.2924, 'grad_norm': 1.3110207319259644, 'learning_rate': 2.9497261262791392e-05, 'epoch': 2.76}
 12%|█▏        | 9041/78504 [5:30:12<21:30:18,  1.11s/it] 12%|█▏        | 9042/78504 [5:30:13<19:34:13,  1.01s/it]                                                         {'loss': 0.2951, 'grad_norm': 1.3591563701629639, 'learning_rate': 2.949683665237145e-05, 'epoch': 2.76}
 12%|█▏        | 9042/78504 [5:30:13<19:34:13,  1.01s/it] 12%|█▏        | 9043/78504 [5:30:20<56:48:53,  2.94s/it]                                                         {'loss': 0.1606, 'grad_norm': 0.4792231619358063, 'learning_rate': 2.9496412041951513e-05, 'epoch': 2.76}
 12%|█▏        | 9043/78504 [5:30:21<56:48:53,  2.94s/it] 12%|█▏        | 9044/78504 [5:30:24<58:51:52,  3.05s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.5724527835845947, 'learning_rate': 2.949598743153157e-05, 'epoch': 2.76}
 12%|█▏        | 9044/78504 [5:30:24<58:51:52,  3.05s/it] 12%|█▏        | 9045/78504 [5:30:27<58:28:28,  3.03s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.29675379395484924, 'learning_rate': 2.9495562821111634e-05, 'epoch': 2.77}
 12%|█▏        | 9045/78504 [5:30:27<58:28:28,  3.03s/it] 12%|█▏        | 9046/78504 [5:30:29<56:03:03,  2.91s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.2943418323993683, 'learning_rate': 2.9495138210691692e-05, 'epoch': 2.77}
 12%|█▏        | 9046/78504 [5:30:29<56:03:03,  2.91s/it] 12%|█▏        | 9047/78504 [5:30:32<53:28:05,  2.77s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.702014148235321, 'learning_rate': 2.949471360027175e-05, 'epoch': 2.77}
 12%|█▏        | 9047/78504 [5:30:32<53:28:05,  2.77s/it] 12%|█▏        | 9048/78504 [5:30:34<51:28:26,  2.67s/it]                                                         {'loss': 0.0424, 'grad_norm': 0.2939695417881012, 'learning_rate': 2.9494288989851813e-05, 'epoch': 2.77}
 12%|█▏        | 9048/78504 [5:30:34<51:28:26,  2.67s/it] 12%|█▏        | 9049/78504 [5:30:37<49:28:48,  2.56s/it]                                                         {'loss': 0.0709, 'grad_norm': 0.35690099000930786, 'learning_rate': 2.9493864379431872e-05, 'epoch': 2.77}
 12%|█▏        | 9049/78504 [5:30:37<49:28:48,  2.56s/it] 12%|█▏        | 9050/78504 [5:30:39<47:55:18,  2.48s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.5490335822105408, 'learning_rate': 2.9493439769011934e-05, 'epoch': 2.77}
 12%|█▏        | 9050/78504 [5:30:39<47:55:18,  2.48s/it] 12%|█▏        | 9051/78504 [5:30:41<46:14:46,  2.40s/it]                                                         {'loss': 0.0951, 'grad_norm': 0.48634272813796997, 'learning_rate': 2.9493015158591993e-05, 'epoch': 2.77}
 12%|█▏        | 9051/78504 [5:30:41<46:14:46,  2.40s/it] 12%|█▏        | 9052/78504 [5:30:43<44:52:18,  2.33s/it]                                                         {'loss': 0.0646, 'grad_norm': 0.26974642276763916, 'learning_rate': 2.9492590548172055e-05, 'epoch': 2.77}
 12%|█▏        | 9052/78504 [5:30:43<44:52:18,  2.33s/it] 12%|█▏        | 9053/78504 [5:30:45<42:13:11,  2.19s/it]                                                         {'loss': 0.1005, 'grad_norm': 0.574059784412384, 'learning_rate': 2.9492165937752113e-05, 'epoch': 2.77}
 12%|█▏        | 9053/78504 [5:30:45<42:13:11,  2.19s/it] 12%|█▏        | 9054/78504 [5:30:47<41:01:37,  2.13s/it]                                                         {'loss': 0.1098, 'grad_norm': 0.5247287750244141, 'learning_rate': 2.9491741327332176e-05, 'epoch': 2.77}
 12%|█▏        | 9054/78504 [5:30:47<41:01:37,  2.13s/it] 12%|█▏        | 9055/78504 [5:30:49<39:36:26,  2.05s/it]                                                         {'loss': 0.0823, 'grad_norm': 0.6501248478889465, 'learning_rate': 2.9491316716912234e-05, 'epoch': 2.77}
 12%|█▏        | 9055/78504 [5:30:49<39:36:26,  2.05s/it] 12%|█▏        | 9056/78504 [5:30:51<38:23:11,  1.99s/it]                                                         {'loss': 0.1356, 'grad_norm': 0.6826670169830322, 'learning_rate': 2.9490892106492296e-05, 'epoch': 2.77}
 12%|█▏        | 9056/78504 [5:30:51<38:23:11,  1.99s/it] 12%|█▏        | 9057/78504 [5:30:53<36:51:58,  1.91s/it]                                                         {'loss': 0.1158, 'grad_norm': 0.8570169806480408, 'learning_rate': 2.9490467496072355e-05, 'epoch': 2.77}
 12%|█▏        | 9057/78504 [5:30:53<36:51:58,  1.91s/it] 12%|█▏        | 9058/78504 [5:30:54<35:23:33,  1.83s/it]                                                         {'loss': 0.1476, 'grad_norm': 0.5930564403533936, 'learning_rate': 2.9490042885652417e-05, 'epoch': 2.77}
 12%|█▏        | 9058/78504 [5:30:54<35:23:33,  1.83s/it] 12%|█▏        | 9059/78504 [5:30:56<33:40:46,  1.75s/it]                                                         {'loss': 0.173, 'grad_norm': 0.9929170608520508, 'learning_rate': 2.9489618275232476e-05, 'epoch': 2.77}
 12%|█▏        | 9059/78504 [5:30:56<33:40:46,  1.75s/it] 12%|█▏        | 9060/78504 [5:30:57<32:05:42,  1.66s/it]                                                         {'loss': 0.1723, 'grad_norm': 0.6578879356384277, 'learning_rate': 2.9489193664812535e-05, 'epoch': 2.77}
 12%|█▏        | 9060/78504 [5:30:57<32:05:42,  1.66s/it] 12%|█▏        | 9061/78504 [5:30:59<30:32:47,  1.58s/it]                                                         {'loss': 0.2019, 'grad_norm': 0.7910533547401428, 'learning_rate': 2.9488769054392597e-05, 'epoch': 2.77}
 12%|█▏        | 9061/78504 [5:30:59<30:32:47,  1.58s/it] 12%|█▏        | 9062/78504 [5:31:00<28:47:01,  1.49s/it]                                                         {'loss': 0.1954, 'grad_norm': 0.6556119322776794, 'learning_rate': 2.9488344443972655e-05, 'epoch': 2.77}
 12%|█▏        | 9062/78504 [5:31:00<28:47:01,  1.49s/it] 12%|█▏        | 9063/78504 [5:31:01<26:50:30,  1.39s/it]                                                         {'loss': 0.2206, 'grad_norm': 1.0392369031906128, 'learning_rate': 2.9487919833552717e-05, 'epoch': 2.77}
 12%|█▏        | 9063/78504 [5:31:01<26:50:30,  1.39s/it] 12%|█▏        | 9064/78504 [5:31:02<25:08:34,  1.30s/it]                                                         {'loss': 0.1973, 'grad_norm': 1.0344281196594238, 'learning_rate': 2.9487495223132776e-05, 'epoch': 2.77}
 12%|█▏        | 9064/78504 [5:31:02<25:08:34,  1.30s/it] 12%|█▏        | 9065/78504 [5:31:03<23:40:48,  1.23s/it]                                                         {'loss': 0.2755, 'grad_norm': 1.1121858358383179, 'learning_rate': 2.9487070612712838e-05, 'epoch': 2.77}
 12%|█▏        | 9065/78504 [5:31:03<23:40:48,  1.23s/it] 12%|█▏        | 9066/78504 [5:31:04<22:01:56,  1.14s/it]                                                         {'loss': 0.2, 'grad_norm': 1.2131853103637695, 'learning_rate': 2.9486646002292897e-05, 'epoch': 2.77}
 12%|█▏        | 9066/78504 [5:31:04<22:01:56,  1.14s/it] 12%|█▏        | 9067/78504 [5:31:05<20:01:56,  1.04s/it]                                                         {'loss': 0.311, 'grad_norm': 1.9921181201934814, 'learning_rate': 2.948622139187296e-05, 'epoch': 2.77}
 12%|█▏        | 9067/78504 [5:31:05<20:01:56,  1.04s/it] 12%|█▏        | 9068/78504 [5:31:14<66:56:57,  3.47s/it]                                                         {'loss': 0.162, 'grad_norm': 0.464420348405838, 'learning_rate': 2.9485796781453018e-05, 'epoch': 2.77}
 12%|█▏        | 9068/78504 [5:31:14<66:56:57,  3.47s/it] 12%|█▏        | 9069/78504 [5:31:17<64:29:47,  3.34s/it]                                                         {'loss': 0.0766, 'grad_norm': 0.36489415168762207, 'learning_rate': 2.948537217103308e-05, 'epoch': 2.77}
 12%|█▏        | 9069/78504 [5:31:17<64:29:47,  3.34s/it] 12%|█▏        | 9070/78504 [5:31:20<62:24:04,  3.24s/it]                                                         {'loss': 0.0592, 'grad_norm': 0.25489723682403564, 'learning_rate': 2.948494756061314e-05, 'epoch': 2.77}
 12%|█▏        | 9070/78504 [5:31:20<62:24:04,  3.24s/it] 12%|█▏        | 9071/78504 [5:31:23<58:47:01,  3.05s/it]                                                         {'loss': 0.081, 'grad_norm': 0.48280516266822815, 'learning_rate': 2.94845229501932e-05, 'epoch': 2.77}
 12%|█▏        | 9071/78504 [5:31:23<58:47:01,  3.05s/it] 12%|█▏        | 9072/78504 [5:31:25<55:29:03,  2.88s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.43164074420928955, 'learning_rate': 2.948409833977326e-05, 'epoch': 2.77}
 12%|█▏        | 9072/78504 [5:31:25<55:29:03,  2.88s/it] 12%|█▏        | 9073/78504 [5:31:27<51:56:02,  2.69s/it]                                                         {'loss': 0.063, 'grad_norm': 0.3071483373641968, 'learning_rate': 2.9483673729353318e-05, 'epoch': 2.77}
 12%|█▏        | 9073/78504 [5:31:27<51:56:02,  2.69s/it] 12%|█▏        | 9074/78504 [5:31:30<49:46:43,  2.58s/it]                                                         {'loss': 0.0709, 'grad_norm': 0.31256306171417236, 'learning_rate': 2.948324911893338e-05, 'epoch': 2.77}
 12%|█▏        | 9074/78504 [5:31:30<49:46:43,  2.58s/it] 12%|█▏        | 9075/78504 [5:31:32<46:58:09,  2.44s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.26656582951545715, 'learning_rate': 2.948282450851344e-05, 'epoch': 2.77}
 12%|█▏        | 9075/78504 [5:31:32<46:58:09,  2.44s/it] 12%|█▏        | 9076/78504 [5:31:34<44:37:03,  2.31s/it]                                                         {'loss': 0.1015, 'grad_norm': 0.43348684906959534, 'learning_rate': 2.94823998980935e-05, 'epoch': 2.77}
 12%|█▏        | 9076/78504 [5:31:34<44:37:03,  2.31s/it] 12%|█▏        | 9077/78504 [5:31:36<43:37:01,  2.26s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.3962317705154419, 'learning_rate': 2.948197528767356e-05, 'epoch': 2.77}
 12%|█▏        | 9077/78504 [5:31:36<43:37:01,  2.26s/it] 12%|█▏        | 9078/78504 [5:31:38<42:13:19,  2.19s/it]                                                         {'loss': 0.0924, 'grad_norm': 0.45140698552131653, 'learning_rate': 2.948155067725362e-05, 'epoch': 2.78}
 12%|█▏        | 9078/78504 [5:31:38<42:13:19,  2.19s/it] 12%|█▏        | 9079/78504 [5:31:40<39:57:22,  2.07s/it]                                                         {'loss': 0.0911, 'grad_norm': 0.6072771549224854, 'learning_rate': 2.948112606683368e-05, 'epoch': 2.78}
 12%|█▏        | 9079/78504 [5:31:40<39:57:22,  2.07s/it] 12%|█▏        | 9080/78504 [5:31:42<38:46:48,  2.01s/it]                                                         {'loss': 0.1002, 'grad_norm': 0.38498011231422424, 'learning_rate': 2.9480701456413742e-05, 'epoch': 2.78}
 12%|█▏        | 9080/78504 [5:31:42<38:46:48,  2.01s/it] 12%|█▏        | 9081/78504 [5:31:43<37:04:11,  1.92s/it]                                                         {'loss': 0.1235, 'grad_norm': 0.43087249994277954, 'learning_rate': 2.94802768459938e-05, 'epoch': 2.78}
 12%|█▏        | 9081/78504 [5:31:43<37:04:11,  1.92s/it] 12%|█▏        | 9082/78504 [5:31:45<36:10:06,  1.88s/it]                                                         {'loss': 0.1355, 'grad_norm': 0.7773375511169434, 'learning_rate': 2.9479852235573863e-05, 'epoch': 2.78}
 12%|█▏        | 9082/78504 [5:31:45<36:10:06,  1.88s/it] 12%|█▏        | 9083/78504 [5:31:47<34:51:28,  1.81s/it]                                                         {'loss': 0.155, 'grad_norm': 0.5676358342170715, 'learning_rate': 2.9479427625153922e-05, 'epoch': 2.78}
 12%|█▏        | 9083/78504 [5:31:47<34:51:28,  1.81s/it] 12%|█▏        | 9084/78504 [5:31:48<33:12:28,  1.72s/it]                                                         {'loss': 0.1811, 'grad_norm': 0.6001033186912537, 'learning_rate': 2.9479003014733984e-05, 'epoch': 2.78}
 12%|█▏        | 9084/78504 [5:31:48<33:12:28,  1.72s/it] 12%|█▏        | 9085/78504 [5:31:50<31:31:30,  1.63s/it]                                                         {'loss': 0.1601, 'grad_norm': 0.7846354842185974, 'learning_rate': 2.9478578404314043e-05, 'epoch': 2.78}
 12%|█▏        | 9085/78504 [5:31:50<31:31:30,  1.63s/it] 12%|█▏        | 9086/78504 [5:31:51<30:17:54,  1.57s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.9073473811149597, 'learning_rate': 2.94781537938941e-05, 'epoch': 2.78}
 12%|█▏        | 9086/78504 [5:31:51<30:17:54,  1.57s/it] 12%|█▏        | 9087/78504 [5:31:52<28:17:21,  1.47s/it]                                                         {'loss': 0.2202, 'grad_norm': 0.7661173939704895, 'learning_rate': 2.9477729183474163e-05, 'epoch': 2.78}
 12%|█▏        | 9087/78504 [5:31:52<28:17:21,  1.47s/it] 12%|█▏        | 9088/78504 [5:31:54<26:19:14,  1.37s/it]                                                         {'loss': 0.2036, 'grad_norm': 0.9624272584915161, 'learning_rate': 2.9477304573054222e-05, 'epoch': 2.78}
 12%|█▏        | 9088/78504 [5:31:54<26:19:14,  1.37s/it] 12%|█▏        | 9089/78504 [5:31:55<24:44:06,  1.28s/it]                                                         {'loss': 0.2146, 'grad_norm': 0.8020376563072205, 'learning_rate': 2.9476879962634284e-05, 'epoch': 2.78}
 12%|█▏        | 9089/78504 [5:31:55<24:44:06,  1.28s/it] 12%|█▏        | 9090/78504 [5:31:56<23:00:06,  1.19s/it]                                                         {'loss': 0.2324, 'grad_norm': 0.9402657151222229, 'learning_rate': 2.9476455352214343e-05, 'epoch': 2.78}
 12%|█▏        | 9090/78504 [5:31:56<23:00:06,  1.19s/it] 12%|█▏        | 9091/78504 [5:31:57<21:28:23,  1.11s/it]                                                         {'loss': 0.2354, 'grad_norm': 1.2601616382598877, 'learning_rate': 2.9476030741794405e-05, 'epoch': 2.78}
 12%|█▏        | 9091/78504 [5:31:57<21:28:23,  1.11s/it] 12%|█▏        | 9092/78504 [5:31:57<19:35:01,  1.02s/it]                                                         {'loss': 0.2965, 'grad_norm': 1.3935338258743286, 'learning_rate': 2.9475606131374464e-05, 'epoch': 2.78}
 12%|█▏        | 9092/78504 [5:31:57<19:35:01,  1.02s/it] 12%|█▏        | 9093/78504 [5:32:08<73:10:25,  3.80s/it]                                                         {'loss': 0.1498, 'grad_norm': 0.338405042886734, 'learning_rate': 2.9475181520954526e-05, 'epoch': 2.78}
 12%|█▏        | 9093/78504 [5:32:08<73:10:25,  3.80s/it] 12%|█▏        | 9094/78504 [5:32:11<69:13:58,  3.59s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.23259153962135315, 'learning_rate': 2.9474756910534585e-05, 'epoch': 2.78}
 12%|█▏        | 9094/78504 [5:32:11<69:13:58,  3.59s/it] 12%|█▏        | 9095/78504 [5:32:14<65:54:55,  3.42s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.6153401732444763, 'learning_rate': 2.9474332300114647e-05, 'epoch': 2.78}
 12%|█▏        | 9095/78504 [5:32:14<65:54:55,  3.42s/it] 12%|█▏        | 9096/78504 [5:32:16<61:16:00,  3.18s/it]                                                         {'loss': 0.0665, 'grad_norm': 0.26105669140815735, 'learning_rate': 2.9473907689694705e-05, 'epoch': 2.78}
 12%|█▏        | 9096/78504 [5:32:16<61:16:00,  3.18s/it] 12%|█▏        | 9097/78504 [5:32:19<57:06:50,  2.96s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.2677977383136749, 'learning_rate': 2.9473483079274764e-05, 'epoch': 2.78}
 12%|█▏        | 9097/78504 [5:32:19<57:06:50,  2.96s/it] 12%|█▏        | 9098/78504 [5:32:21<53:06:20,  2.75s/it]                                                         {'loss': 0.0599, 'grad_norm': 0.23994605243206024, 'learning_rate': 2.9473058468854826e-05, 'epoch': 2.78}
 12%|█▏        | 9098/78504 [5:32:21<53:06:20,  2.75s/it] 12%|█▏        | 9099/78504 [5:32:23<50:32:14,  2.62s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.3067789077758789, 'learning_rate': 2.9472633858434885e-05, 'epoch': 2.78}
 12%|█▏        | 9099/78504 [5:32:23<50:32:14,  2.62s/it] 12%|█▏        | 9100/78504 [5:32:26<47:28:38,  2.46s/it]                                                         {'loss': 0.0521, 'grad_norm': 0.3816576302051544, 'learning_rate': 2.9472209248014947e-05, 'epoch': 2.78}
 12%|█▏        | 9100/78504 [5:32:26<47:28:38,  2.46s/it] 12%|█▏        | 9101/78504 [5:32:28<44:58:59,  2.33s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.5895141959190369, 'learning_rate': 2.9471784637595006e-05, 'epoch': 2.78}
 12%|█▏        | 9101/78504 [5:32:28<44:58:59,  2.33s/it] 12%|█▏        | 9102/78504 [5:32:30<43:50:20,  2.27s/it]                                                         {'loss': 0.0875, 'grad_norm': 0.8460770845413208, 'learning_rate': 2.9471360027175068e-05, 'epoch': 2.78}
 12%|█▏        | 9102/78504 [5:32:30<43:50:20,  2.27s/it] 12%|█▏        | 9103/78504 [5:32:32<42:20:47,  2.20s/it]                                                         {'loss': 0.097, 'grad_norm': 0.3949074149131775, 'learning_rate': 2.9470935416755126e-05, 'epoch': 2.78}
 12%|█▏        | 9103/78504 [5:32:32<42:20:47,  2.20s/it] 12%|█▏        | 9104/78504 [5:32:34<41:07:39,  2.13s/it]                                                         {'loss': 0.1028, 'grad_norm': 0.3166978359222412, 'learning_rate': 2.947051080633519e-05, 'epoch': 2.78}
 12%|█▏        | 9104/78504 [5:32:34<41:07:39,  2.13s/it] 12%|█▏        | 9105/78504 [5:32:36<39:39:58,  2.06s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.31610217690467834, 'learning_rate': 2.9470086195915247e-05, 'epoch': 2.78}
 12%|█▏        | 9105/78504 [5:32:36<39:39:58,  2.06s/it] 12%|█▏        | 9106/78504 [5:32:37<38:36:45,  2.00s/it]                                                         {'loss': 0.1647, 'grad_norm': 0.3321707844734192, 'learning_rate': 2.946966158549531e-05, 'epoch': 2.78}
 12%|█▏        | 9106/78504 [5:32:37<38:36:45,  2.00s/it] 12%|█▏        | 9107/78504 [5:32:39<37:17:41,  1.93s/it]                                                         {'loss': 0.1085, 'grad_norm': 0.77250736951828, 'learning_rate': 2.9469236975075368e-05, 'epoch': 2.78}
 12%|█▏        | 9107/78504 [5:32:39<37:17:41,  1.93s/it] 12%|█▏        | 9108/78504 [5:32:41<35:37:16,  1.85s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.383654922246933, 'learning_rate': 2.946881236465543e-05, 'epoch': 2.78}
 12%|█▏        | 9108/78504 [5:32:41<35:37:16,  1.85s/it] 12%|█▏        | 9109/78504 [5:32:42<33:54:25,  1.76s/it]                                                         {'loss': 0.1636, 'grad_norm': 0.5074355602264404, 'learning_rate': 2.946838775423549e-05, 'epoch': 2.78}
 12%|█▏        | 9109/78504 [5:32:42<33:54:25,  1.76s/it] 12%|█▏        | 9110/78504 [5:32:44<31:56:51,  1.66s/it]                                                         {'loss': 0.183, 'grad_norm': 0.6937918663024902, 'learning_rate': 2.9467963143815547e-05, 'epoch': 2.79}
 12%|█▏        | 9110/78504 [5:32:44<31:56:51,  1.66s/it] 12%|█▏        | 9111/78504 [5:32:45<30:32:15,  1.58s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.8772748112678528, 'learning_rate': 2.946753853339561e-05, 'epoch': 2.79}
 12%|█▏        | 9111/78504 [5:32:45<30:32:15,  1.58s/it] 12%|█▏        | 9112/78504 [5:32:46<28:28:42,  1.48s/it]                                                         {'loss': 0.2189, 'grad_norm': 0.6041117906570435, 'learning_rate': 2.9467113922975668e-05, 'epoch': 2.79}
 12%|█▏        | 9112/78504 [5:32:47<28:28:42,  1.48s/it] 12%|█▏        | 9113/78504 [5:32:48<26:38:03,  1.38s/it]                                                         {'loss': 0.2601, 'grad_norm': 1.5182812213897705, 'learning_rate': 2.946668931255573e-05, 'epoch': 2.79}
 12%|█▏        | 9113/78504 [5:32:48<26:38:03,  1.38s/it] 12%|█▏        | 9114/78504 [5:32:49<25:00:31,  1.30s/it]                                                         {'loss': 0.1616, 'grad_norm': 0.496177613735199, 'learning_rate': 2.946626470213579e-05, 'epoch': 2.79}
 12%|█▏        | 9114/78504 [5:32:49<25:00:31,  1.30s/it] 12%|█▏        | 9115/78504 [5:32:50<23:13:52,  1.21s/it]                                                         {'loss': 0.2291, 'grad_norm': 0.793789267539978, 'learning_rate': 2.946584009171585e-05, 'epoch': 2.79}
 12%|█▏        | 9115/78504 [5:32:50<23:13:52,  1.21s/it] 12%|█▏        | 9116/78504 [5:32:51<21:39:40,  1.12s/it]                                                         {'loss': 0.2155, 'grad_norm': 1.1444648504257202, 'learning_rate': 2.946541548129591e-05, 'epoch': 2.79}
 12%|█▏        | 9116/78504 [5:32:51<21:39:40,  1.12s/it] 12%|█▏        | 9117/78504 [5:32:51<19:41:59,  1.02s/it]                                                         {'loss': 0.2341, 'grad_norm': 1.9690715074539185, 'learning_rate': 2.9464990870875972e-05, 'epoch': 2.79}
 12%|█▏        | 9117/78504 [5:32:51<19:41:59,  1.02s/it] 12%|█▏        | 9118/78504 [5:33:00<64:18:49,  3.34s/it]                                                         {'loss': 0.1926, 'grad_norm': 0.46023908257484436, 'learning_rate': 2.946456626045603e-05, 'epoch': 2.79}
 12%|█▏        | 9118/78504 [5:33:00<64:18:49,  3.34s/it] 12%|█▏        | 9119/78504 [5:33:03<63:06:48,  3.27s/it]                                                         {'loss': 0.0597, 'grad_norm': 0.2575492858886719, 'learning_rate': 2.9464141650036093e-05, 'epoch': 2.79}
 12%|█▏        | 9119/78504 [5:33:03<63:06:48,  3.27s/it] 12%|█▏        | 9120/78504 [5:33:06<61:37:22,  3.20s/it]                                                         {'loss': 0.0754, 'grad_norm': 0.7502312064170837, 'learning_rate': 2.946371703961615e-05, 'epoch': 2.79}
 12%|█▏        | 9120/78504 [5:33:06<61:37:22,  3.20s/it] 12%|█▏        | 9121/78504 [5:33:09<58:06:04,  3.01s/it]                                                         {'loss': 0.0559, 'grad_norm': 0.2641070783138275, 'learning_rate': 2.9463292429196213e-05, 'epoch': 2.79}
 12%|█▏        | 9121/78504 [5:33:09<58:06:04,  3.01s/it] 12%|█▏        | 9122/78504 [5:33:11<54:57:21,  2.85s/it]                                                         {'loss': 0.0509, 'grad_norm': 0.23605790734291077, 'learning_rate': 2.9462867818776272e-05, 'epoch': 2.79}
 12%|█▏        | 9122/78504 [5:33:11<54:57:21,  2.85s/it] 12%|█▏        | 9123/78504 [5:33:14<51:33:59,  2.68s/it]                                                         {'loss': 0.0524, 'grad_norm': 0.2565252482891083, 'learning_rate': 2.946244320835633e-05, 'epoch': 2.79}
 12%|█▏        | 9123/78504 [5:33:14<51:33:59,  2.68s/it] 12%|█▏        | 9124/78504 [5:33:16<49:31:07,  2.57s/it]                                                         {'loss': 0.045, 'grad_norm': 0.34217673540115356, 'learning_rate': 2.9462018597936393e-05, 'epoch': 2.79}
 12%|█▏        | 9124/78504 [5:33:16<49:31:07,  2.57s/it] 12%|█▏        | 9125/78504 [5:33:18<46:44:53,  2.43s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.3018718957901001, 'learning_rate': 2.946159398751645e-05, 'epoch': 2.79}
 12%|█▏        | 9125/78504 [5:33:18<46:44:53,  2.43s/it] 12%|█▏        | 9126/78504 [5:33:20<45:22:54,  2.35s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.48900216817855835, 'learning_rate': 2.9461169377096514e-05, 'epoch': 2.79}
 12%|█▏        | 9126/78504 [5:33:20<45:22:54,  2.35s/it] 12%|█▏        | 9127/78504 [5:33:22<44:10:43,  2.29s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.4745106101036072, 'learning_rate': 2.9460744766676572e-05, 'epoch': 2.79}
 12%|█▏        | 9127/78504 [5:33:22<44:10:43,  2.29s/it] 12%|█▏        | 9128/78504 [5:33:24<42:36:32,  2.21s/it]                                                         {'loss': 0.1141, 'grad_norm': 1.3188917636871338, 'learning_rate': 2.9460320156256635e-05, 'epoch': 2.79}
 12%|█▏        | 9128/78504 [5:33:24<42:36:32,  2.21s/it] 12%|█▏        | 9129/78504 [5:33:26<41:20:13,  2.15s/it]                                                         {'loss': 0.1214, 'grad_norm': 1.3194125890731812, 'learning_rate': 2.9459895545836693e-05, 'epoch': 2.79}
 12%|█▏        | 9129/78504 [5:33:26<41:20:13,  2.15s/it] 12%|█▏        | 9130/78504 [5:33:28<40:04:05,  2.08s/it]                                                         {'loss': 0.0907, 'grad_norm': 0.8253881931304932, 'learning_rate': 2.9459470935416755e-05, 'epoch': 2.79}
 12%|█▏        | 9130/78504 [5:33:28<40:04:05,  2.08s/it] 12%|█▏        | 9131/78504 [5:33:30<38:48:39,  2.01s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.9033648371696472, 'learning_rate': 2.9459046324996814e-05, 'epoch': 2.79}
 12%|█▏        | 9131/78504 [5:33:30<38:48:39,  2.01s/it] 12%|█▏        | 9132/78504 [5:33:32<37:24:08,  1.94s/it]                                                         {'loss': 0.1172, 'grad_norm': 0.6259943842887878, 'learning_rate': 2.9458621714576876e-05, 'epoch': 2.79}
 12%|█▏        | 9132/78504 [5:33:32<37:24:08,  1.94s/it] 12%|█▏        | 9133/78504 [5:33:34<35:44:47,  1.86s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.4866819977760315, 'learning_rate': 2.9458197104156935e-05, 'epoch': 2.79}
 12%|█▏        | 9133/78504 [5:33:34<35:44:47,  1.86s/it] 12%|█▏        | 9134/78504 [5:33:35<33:55:06,  1.76s/it]                                                         {'loss': 0.1843, 'grad_norm': 0.6190839409828186, 'learning_rate': 2.9457772493736997e-05, 'epoch': 2.79}
 12%|█▏        | 9134/78504 [5:33:35<33:55:06,  1.76s/it] 12%|█▏        | 9135/78504 [5:33:37<32:12:50,  1.67s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.5989601612091064, 'learning_rate': 2.9457347883317056e-05, 'epoch': 2.79}
 12%|█▏        | 9135/78504 [5:33:37<32:12:50,  1.67s/it] 12%|█▏        | 9136/78504 [5:33:38<31:59:59,  1.66s/it]                                                         {'loss': 0.2228, 'grad_norm': 1.3023109436035156, 'learning_rate': 2.9456923272897118e-05, 'epoch': 2.79}
 12%|█▏        | 9136/78504 [5:33:38<31:59:59,  1.66s/it] 12%|█▏        | 9137/78504 [5:33:40<29:49:12,  1.55s/it]                                                         {'loss': 0.1771, 'grad_norm': 0.6002767086029053, 'learning_rate': 2.945649866247718e-05, 'epoch': 2.79}
 12%|█▏        | 9137/78504 [5:33:40<29:49:12,  1.55s/it] 12%|█▏        | 9138/78504 [5:33:41<27:29:33,  1.43s/it]                                                         {'loss': 0.1732, 'grad_norm': 1.314915418624878, 'learning_rate': 2.945607405205724e-05, 'epoch': 2.79}
 12%|█▏        | 9138/78504 [5:33:41<27:29:33,  1.43s/it] 12%|█▏        | 9139/78504 [5:33:42<25:32:45,  1.33s/it]                                                         {'loss': 0.1635, 'grad_norm': 0.623480498790741, 'learning_rate': 2.94556494416373e-05, 'epoch': 2.79}
 12%|█▏        | 9139/78504 [5:33:42<25:32:45,  1.33s/it] 12%|█▏        | 9140/78504 [5:33:43<23:55:55,  1.24s/it]                                                         {'loss': 0.2112, 'grad_norm': 1.5098024606704712, 'learning_rate': 2.945522483121736e-05, 'epoch': 2.79}
 12%|█▏        | 9140/78504 [5:33:43<23:55:55,  1.24s/it] 12%|█▏        | 9141/78504 [5:33:44<22:11:32,  1.15s/it]                                                         {'loss': 0.2447, 'grad_norm': 0.9926416277885437, 'learning_rate': 2.945480022079742e-05, 'epoch': 2.79}
 12%|█▏        | 9141/78504 [5:33:44<22:11:32,  1.15s/it] 12%|█▏        | 9142/78504 [5:33:45<20:03:25,  1.04s/it]                                                         {'loss': 0.2398, 'grad_norm': 2.298102617263794, 'learning_rate': 2.945437561037748e-05, 'epoch': 2.79}
 12%|█▏        | 9142/78504 [5:33:45<20:03:25,  1.04s/it] 12%|█▏        | 9143/78504 [5:33:52<57:34:32,  2.99s/it]                                                         {'loss': 0.17, 'grad_norm': 0.48549219965934753, 'learning_rate': 2.9453950999957542e-05, 'epoch': 2.8}
 12%|█▏        | 9143/78504 [5:33:52<57:34:32,  2.99s/it] 12%|█▏        | 9144/78504 [5:33:55<58:06:50,  3.02s/it]                                                         {'loss': 0.0864, 'grad_norm': 0.3633997440338135, 'learning_rate': 2.94535263895376e-05, 'epoch': 2.8}
 12%|█▏        | 9144/78504 [5:33:55<58:06:50,  3.02s/it] 12%|█▏        | 9145/78504 [5:33:58<58:05:45,  3.02s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.21263819932937622, 'learning_rate': 2.9453101779117663e-05, 'epoch': 2.8}
 12%|█▏        | 9145/78504 [5:33:58<58:05:45,  3.02s/it] 12%|█▏        | 9146/78504 [5:34:01<55:40:34,  2.89s/it]                                                         {'loss': 0.0724, 'grad_norm': 0.2491714060306549, 'learning_rate': 2.945267716869772e-05, 'epoch': 2.8}
 12%|█▏        | 9146/78504 [5:34:01<55:40:34,  2.89s/it] 12%|█▏        | 9147/78504 [5:34:03<53:14:48,  2.76s/it]                                                         {'loss': 0.0648, 'grad_norm': 0.9555745720863342, 'learning_rate': 2.9452252558277784e-05, 'epoch': 2.8}
 12%|█▏        | 9147/78504 [5:34:03<53:14:48,  2.76s/it] 12%|█▏        | 9148/78504 [5:34:06<51:19:49,  2.66s/it]                                                         {'loss': 0.0415, 'grad_norm': 0.16992482542991638, 'learning_rate': 2.9451827947857842e-05, 'epoch': 2.8}
 12%|█▏        | 9148/78504 [5:34:06<51:19:49,  2.66s/it] 12%|█▏        | 9149/78504 [5:34:08<49:18:52,  2.56s/it]                                                         {'loss': 0.087, 'grad_norm': 0.30638179183006287, 'learning_rate': 2.94514033374379e-05, 'epoch': 2.8}
 12%|█▏        | 9149/78504 [5:34:08<49:18:52,  2.56s/it] 12%|█▏        | 9150/78504 [5:34:10<46:44:16,  2.43s/it]                                                         {'loss': 0.0697, 'grad_norm': 1.1486810445785522, 'learning_rate': 2.9450978727017963e-05, 'epoch': 2.8}
 12%|█▏        | 9150/78504 [5:34:10<46:44:16,  2.43s/it] 12%|█▏        | 9151/78504 [5:34:12<45:20:32,  2.35s/it]                                                         {'loss': 0.1022, 'grad_norm': 0.5087655782699585, 'learning_rate': 2.9450554116598022e-05, 'epoch': 2.8}
 12%|█▏        | 9151/78504 [5:34:12<45:20:32,  2.35s/it] 12%|█▏        | 9152/78504 [5:34:14<44:08:31,  2.29s/it]                                                         {'loss': 0.0616, 'grad_norm': 0.2412012219429016, 'learning_rate': 2.9450129506178084e-05, 'epoch': 2.8}
 12%|█▏        | 9152/78504 [5:34:14<44:08:31,  2.29s/it] 12%|█▏        | 9153/78504 [5:34:16<41:38:59,  2.16s/it]                                                         {'loss': 0.1014, 'grad_norm': 0.375735878944397, 'learning_rate': 2.9449704895758143e-05, 'epoch': 2.8}
 12%|█▏        | 9153/78504 [5:34:16<41:38:59,  2.16s/it] 12%|█▏        | 9154/78504 [5:34:18<40:37:15,  2.11s/it]                                                         {'loss': 0.1018, 'grad_norm': 0.41409480571746826, 'learning_rate': 2.9449280285338205e-05, 'epoch': 2.8}
 12%|█▏        | 9154/78504 [5:34:18<40:37:15,  2.11s/it] 12%|█▏        | 9155/78504 [5:34:20<39:34:15,  2.05s/it]                                                         {'loss': 0.105, 'grad_norm': 0.3772088885307312, 'learning_rate': 2.9448855674918263e-05, 'epoch': 2.8}
 12%|█▏        | 9155/78504 [5:34:20<39:34:15,  2.05s/it] 12%|█▏        | 9156/78504 [5:34:22<38:27:22,  2.00s/it]                                                         {'loss': 0.1354, 'grad_norm': 1.7011767625808716, 'learning_rate': 2.9448431064498326e-05, 'epoch': 2.8}
 12%|█▏        | 9156/78504 [5:34:22<38:27:22,  2.00s/it] 12%|█▏        | 9157/78504 [5:34:24<37:07:15,  1.93s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.42013275623321533, 'learning_rate': 2.9448006454078384e-05, 'epoch': 2.8}
 12%|█▏        | 9157/78504 [5:34:24<37:07:15,  1.93s/it] 12%|█▏        | 9158/78504 [5:34:26<35:28:36,  1.84s/it]                                                         {'loss': 0.1585, 'grad_norm': 0.620156466960907, 'learning_rate': 2.9447581843658446e-05, 'epoch': 2.8}
 12%|█▏        | 9158/78504 [5:34:26<35:28:36,  1.84s/it] 12%|█▏        | 9159/78504 [5:34:27<33:35:44,  1.74s/it]                                                         {'loss': 0.1828, 'grad_norm': 0.6288834810256958, 'learning_rate': 2.9447157233238505e-05, 'epoch': 2.8}
 12%|█▏        | 9159/78504 [5:34:27<33:35:44,  1.74s/it] 12%|█▏        | 9160/78504 [5:34:28<32:03:25,  1.66s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.5806153416633606, 'learning_rate': 2.9446732622818567e-05, 'epoch': 2.8}
 12%|█▏        | 9160/78504 [5:34:29<32:03:25,  1.66s/it] 12%|█▏        | 9161/78504 [5:34:30<30:30:02,  1.58s/it]                                                         {'loss': 0.1867, 'grad_norm': 0.9978366494178772, 'learning_rate': 2.9446308012398626e-05, 'epoch': 2.8}
 12%|█▏        | 9161/78504 [5:34:30<30:30:02,  1.58s/it] 12%|█▏        | 9162/78504 [5:34:31<28:46:31,  1.49s/it]                                                         {'loss': 0.2063, 'grad_norm': 0.8078206181526184, 'learning_rate': 2.9445883401978685e-05, 'epoch': 2.8}
 12%|█▏        | 9162/78504 [5:34:31<28:46:31,  1.49s/it] 12%|█▏        | 9163/78504 [5:34:32<26:46:49,  1.39s/it]                                                         {'loss': 0.1677, 'grad_norm': 4.702993392944336, 'learning_rate': 2.9445458791558747e-05, 'epoch': 2.8}
 12%|█▏        | 9163/78504 [5:34:32<26:46:49,  1.39s/it] 12%|█▏        | 9164/78504 [5:34:33<25:03:44,  1.30s/it]                                                         {'loss': 0.169, 'grad_norm': 1.0795179605484009, 'learning_rate': 2.9445034181138805e-05, 'epoch': 2.8}
 12%|█▏        | 9164/78504 [5:34:33<25:03:44,  1.30s/it] 12%|█▏        | 9165/78504 [5:34:34<23:37:08,  1.23s/it]                                                         {'loss': 0.2469, 'grad_norm': 1.2695293426513672, 'learning_rate': 2.9444609570718867e-05, 'epoch': 2.8}
 12%|█▏        | 9165/78504 [5:34:34<23:37:08,  1.23s/it] 12%|█▏        | 9166/78504 [5:34:35<21:52:05,  1.14s/it]                                                         {'loss': 0.3301, 'grad_norm': 1.1602694988250732, 'learning_rate': 2.9444184960298926e-05, 'epoch': 2.8}
 12%|█▏        | 9166/78504 [5:34:35<21:52:05,  1.14s/it] 12%|█▏        | 9167/78504 [5:34:36<19:48:49,  1.03s/it]                                                         {'loss': 0.2857, 'grad_norm': 1.485474705696106, 'learning_rate': 2.9443760349878988e-05, 'epoch': 2.8}
 12%|█▏        | 9167/78504 [5:34:36<19:48:49,  1.03s/it] 12%|█▏        | 9168/78504 [5:34:45<66:11:00,  3.44s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.5019502639770508, 'learning_rate': 2.9443335739459047e-05, 'epoch': 2.8}
 12%|█▏        | 9168/78504 [5:34:45<66:11:00,  3.44s/it] 12%|█▏        | 9169/78504 [5:34:48<63:56:28,  3.32s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.3384079337120056, 'learning_rate': 2.944291112903911e-05, 'epoch': 2.8}
 12%|█▏        | 9169/78504 [5:34:48<63:56:28,  3.32s/it] 12%|█▏        | 9170/78504 [5:34:51<61:39:55,  3.20s/it]                                                         {'loss': 0.0715, 'grad_norm': 0.2961510419845581, 'learning_rate': 2.9442486518619168e-05, 'epoch': 2.8}
 12%|█▏        | 9170/78504 [5:34:51<61:39:55,  3.20s/it] 12%|█▏        | 9171/78504 [5:34:54<58:04:14,  3.02s/it]                                                         {'loss': 0.0666, 'grad_norm': 0.5455858707427979, 'learning_rate': 2.944206190819923e-05, 'epoch': 2.8}
 12%|█▏        | 9171/78504 [5:34:54<58:04:14,  3.02s/it] 12%|█▏        | 9172/78504 [5:34:56<55:02:21,  2.86s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.2870481610298157, 'learning_rate': 2.944163729777929e-05, 'epoch': 2.8}
 12%|█▏        | 9172/78504 [5:34:56<55:02:21,  2.86s/it] 12%|█▏        | 9173/78504 [5:34:59<52:39:15,  2.73s/it]                                                         {'loss': 0.0633, 'grad_norm': 0.3050087094306946, 'learning_rate': 2.944121268735935e-05, 'epoch': 2.8}
 12%|█▏        | 9173/78504 [5:34:59<52:39:15,  2.73s/it] 12%|█▏        | 9174/78504 [5:35:01<50:15:10,  2.61s/it]                                                         {'loss': 0.0567, 'grad_norm': 0.3560301661491394, 'learning_rate': 2.944078807693941e-05, 'epoch': 2.8}
 12%|█▏        | 9174/78504 [5:35:01<50:15:10,  2.61s/it] 12%|█▏        | 9175/78504 [5:35:03<48:12:54,  2.50s/it]                                                         {'loss': 0.1097, 'grad_norm': 0.42825883626937866, 'learning_rate': 2.9440363466519468e-05, 'epoch': 2.8}
 12%|█▏        | 9175/78504 [5:35:03<48:12:54,  2.50s/it] 12%|█▏        | 9176/78504 [5:35:05<46:29:18,  2.41s/it]                                                         {'loss': 0.0594, 'grad_norm': 0.3266555964946747, 'learning_rate': 2.943993885609953e-05, 'epoch': 2.81}
 12%|█▏        | 9176/78504 [5:35:06<46:29:18,  2.41s/it] 12%|█▏        | 9177/78504 [5:35:08<45:01:29,  2.34s/it]                                                         {'loss': 0.0644, 'grad_norm': 0.2456534206867218, 'learning_rate': 2.943951424567959e-05, 'epoch': 2.81}
 12%|█▏        | 9177/78504 [5:35:08<45:01:29,  2.34s/it] 12%|█▏        | 9178/78504 [5:35:10<42:39:20,  2.22s/it]                                                         {'loss': 0.0944, 'grad_norm': 0.640224814414978, 'learning_rate': 2.943908963525965e-05, 'epoch': 2.81}
 12%|█▏        | 9178/78504 [5:35:10<42:39:20,  2.22s/it] 12%|█▏        | 9179/78504 [5:35:12<41:17:20,  2.14s/it]                                                         {'loss': 0.079, 'grad_norm': 0.389900267124176, 'learning_rate': 2.943866502483971e-05, 'epoch': 2.81}
 12%|█▏        | 9179/78504 [5:35:12<41:17:20,  2.14s/it] 12%|█▏        | 9180/78504 [5:35:13<39:59:19,  2.08s/it]                                                         {'loss': 0.1507, 'grad_norm': 1.0564411878585815, 'learning_rate': 2.943824041441977e-05, 'epoch': 2.81}
 12%|█▏        | 9180/78504 [5:35:14<39:59:19,  2.08s/it] 12%|█▏        | 9181/78504 [5:35:15<38:52:32,  2.02s/it]                                                         {'loss': 0.1391, 'grad_norm': 0.41925305128097534, 'learning_rate': 2.943781580399983e-05, 'epoch': 2.81}
 12%|█▏        | 9181/78504 [5:35:15<38:52:32,  2.02s/it] 12%|█▏        | 9182/78504 [5:35:17<37:23:35,  1.94s/it]                                                         {'loss': 0.119, 'grad_norm': 0.5505188703536987, 'learning_rate': 2.9437391193579892e-05, 'epoch': 2.81}
 12%|█▏        | 9182/78504 [5:35:17<37:23:35,  1.94s/it] 12%|█▏        | 9183/78504 [5:35:19<35:17:46,  1.83s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.6211351156234741, 'learning_rate': 2.943696658315995e-05, 'epoch': 2.81}
 12%|█▏        | 9183/78504 [5:35:19<35:17:46,  1.83s/it] 12%|█▏        | 9184/78504 [5:35:20<33:35:38,  1.74s/it]                                                         {'loss': 0.1717, 'grad_norm': 0.43405136466026306, 'learning_rate': 2.9436541972740013e-05, 'epoch': 2.81}
 12%|█▏        | 9184/78504 [5:35:20<33:35:38,  1.74s/it] 12%|█▏        | 9185/78504 [5:35:22<32:14:07,  1.67s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.6671894192695618, 'learning_rate': 2.9436117362320072e-05, 'epoch': 2.81}
 12%|█▏        | 9185/78504 [5:35:22<32:14:07,  1.67s/it] 12%|█▏        | 9186/78504 [5:35:23<30:37:02,  1.59s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.7860468626022339, 'learning_rate': 2.9435692751900134e-05, 'epoch': 2.81}
 12%|█▏        | 9186/78504 [5:35:23<30:37:02,  1.59s/it] 12%|█▏        | 9187/78504 [5:35:24<28:49:07,  1.50s/it]                                                         {'loss': 0.1816, 'grad_norm': 0.7573533058166504, 'learning_rate': 2.9435268141480193e-05, 'epoch': 2.81}
 12%|█▏        | 9187/78504 [5:35:24<28:49:07,  1.50s/it] 12%|█▏        | 9188/78504 [5:35:26<26:50:57,  1.39s/it]                                                         {'loss': 0.188, 'grad_norm': 0.7623786330223083, 'learning_rate': 2.943484353106025e-05, 'epoch': 2.81}
 12%|█▏        | 9188/78504 [5:35:26<26:50:57,  1.39s/it] 12%|█▏        | 9189/78504 [5:35:27<25:08:33,  1.31s/it]                                                         {'loss': 0.2392, 'grad_norm': 0.646364152431488, 'learning_rate': 2.9434418920640314e-05, 'epoch': 2.81}
 12%|█▏        | 9189/78504 [5:35:27<25:08:33,  1.31s/it] 12%|█▏        | 9190/78504 [5:35:28<23:18:19,  1.21s/it]                                                         {'loss': 0.1759, 'grad_norm': 0.9237139821052551, 'learning_rate': 2.9433994310220372e-05, 'epoch': 2.81}
 12%|█▏        | 9190/78504 [5:35:28<23:18:19,  1.21s/it] 12%|█▏        | 9191/78504 [5:35:29<21:42:10,  1.13s/it]                                                         {'loss': 0.21, 'grad_norm': 1.2606315612792969, 'learning_rate': 2.9433569699800434e-05, 'epoch': 2.81}
 12%|█▏        | 9191/78504 [5:35:29<21:42:10,  1.13s/it] 12%|█▏        | 9192/78504 [5:35:29<19:41:55,  1.02s/it]                                                         {'loss': 0.2101, 'grad_norm': 1.1647380590438843, 'learning_rate': 2.9433145089380493e-05, 'epoch': 2.81}
 12%|█▏        | 9192/78504 [5:35:29<19:41:55,  1.02s/it] 12%|█▏        | 9193/78504 [5:35:40<73:09:41,  3.80s/it]                                                         {'loss': 0.1692, 'grad_norm': 0.3667152225971222, 'learning_rate': 2.9432720478960555e-05, 'epoch': 2.81}
 12%|█▏        | 9193/78504 [5:35:40<73:09:41,  3.80s/it] 12%|█▏        | 9194/78504 [5:35:43<70:38:14,  3.67s/it]                                                         {'loss': 0.1479, 'grad_norm': 0.5493492484092712, 'learning_rate': 2.9432295868540614e-05, 'epoch': 2.81}
 12%|█▏        | 9194/78504 [5:35:43<70:38:14,  3.67s/it] 12%|█▏        | 9195/78504 [5:35:46<66:53:04,  3.47s/it]                                                         {'loss': 0.0786, 'grad_norm': 0.4163355231285095, 'learning_rate': 2.9431871258120676e-05, 'epoch': 2.81}
 12%|█▏        | 9195/78504 [5:35:46<66:53:04,  3.47s/it] 12%|█▏        | 9196/78504 [5:35:49<61:55:05,  3.22s/it]                                                         {'loss': 0.0844, 'grad_norm': 0.35091593861579895, 'learning_rate': 2.9431446647700735e-05, 'epoch': 2.81}
 12%|█▏        | 9196/78504 [5:35:49<61:55:05,  3.22s/it] 12%|█▏        | 9197/78504 [5:35:51<56:57:54,  2.96s/it]                                                         {'loss': 0.0577, 'grad_norm': 0.2441929280757904, 'learning_rate': 2.9431022037280797e-05, 'epoch': 2.81}
 12%|█▏        | 9197/78504 [5:35:51<56:57:54,  2.96s/it] 12%|█▏        | 9198/78504 [5:35:53<52:54:26,  2.75s/it]                                                         {'loss': 0.0531, 'grad_norm': 0.24336065351963043, 'learning_rate': 2.9430597426860855e-05, 'epoch': 2.81}
 12%|█▏        | 9198/78504 [5:35:53<52:54:26,  2.75s/it] 12%|█▏        | 9199/78504 [5:35:56<50:29:58,  2.62s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.2049088031053543, 'learning_rate': 2.9430172816440917e-05, 'epoch': 2.81}
 12%|█▏        | 9199/78504 [5:35:56<50:29:58,  2.62s/it] 12%|█▏        | 9200/78504 [5:35:58<47:31:36,  2.47s/it]                                                         {'loss': 0.0498, 'grad_norm': 0.42569050192832947, 'learning_rate': 2.9429748206020976e-05, 'epoch': 2.81}
 12%|█▏        | 9200/78504 [5:35:58<47:31:36,  2.47s/it] 12%|█▏        | 9201/78504 [5:36:00<45:52:05,  2.38s/it]                                                         {'loss': 0.077, 'grad_norm': 0.41998741030693054, 'learning_rate': 2.9429323595601035e-05, 'epoch': 2.81}
 12%|█▏        | 9201/78504 [5:36:00<45:52:05,  2.38s/it] 12%|█▏        | 9202/78504 [5:36:02<44:28:06,  2.31s/it]                                                         {'loss': 0.0693, 'grad_norm': 0.38017669320106506, 'learning_rate': 2.9428898985181097e-05, 'epoch': 2.81}
 12%|█▏        | 9202/78504 [5:36:02<44:28:06,  2.31s/it] 12%|█▏        | 9203/78504 [5:36:04<42:47:11,  2.22s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.6832528114318848, 'learning_rate': 2.9428474374761156e-05, 'epoch': 2.81}
 12%|█▏        | 9203/78504 [5:36:04<42:47:11,  2.22s/it] 12%|█▏        | 9204/78504 [5:36:06<41:25:16,  2.15s/it]                                                         {'loss': 0.0901, 'grad_norm': 0.3462420403957367, 'learning_rate': 2.9428049764341218e-05, 'epoch': 2.81}
 12%|█▏        | 9204/78504 [5:36:06<41:25:16,  2.15s/it] 12%|█▏        | 9205/78504 [5:36:08<39:44:36,  2.06s/it]                                                         {'loss': 0.1187, 'grad_norm': 0.5087888836860657, 'learning_rate': 2.9427625153921276e-05, 'epoch': 2.81}
 12%|█▏        | 9205/78504 [5:36:08<39:44:36,  2.06s/it] 12%|█▏        | 9206/78504 [5:36:10<38:22:59,  1.99s/it]                                                         {'loss': 0.1353, 'grad_norm': 0.8404026031494141, 'learning_rate': 2.942720054350134e-05, 'epoch': 2.81}
 12%|█▏        | 9206/78504 [5:36:10<38:22:59,  1.99s/it] 12%|█▏        | 9207/78504 [5:36:12<37:07:29,  1.93s/it]                                                         {'loss': 0.1454, 'grad_norm': 0.5535116791725159, 'learning_rate': 2.9426775933081397e-05, 'epoch': 2.81}
 12%|█▏        | 9207/78504 [5:36:12<37:07:29,  1.93s/it] 12%|█▏        | 9208/78504 [5:36:13<35:32:37,  1.85s/it]                                                         {'loss': 0.1694, 'grad_norm': 1.1997708082199097, 'learning_rate': 2.942635132266146e-05, 'epoch': 2.82}
 12%|█▏        | 9208/78504 [5:36:13<35:32:37,  1.85s/it] 12%|█▏        | 9209/78504 [5:36:15<33:45:39,  1.75s/it]                                                         {'loss': 0.1874, 'grad_norm': 0.48186609148979187, 'learning_rate': 2.9425926712241518e-05, 'epoch': 2.82}
 12%|█▏        | 9209/78504 [5:36:15<33:45:39,  1.75s/it] 12%|█▏        | 9210/78504 [5:36:16<31:56:26,  1.66s/it]                                                         {'loss': 0.1562, 'grad_norm': 0.5714230537414551, 'learning_rate': 2.942550210182158e-05, 'epoch': 2.82}
 12%|█▏        | 9210/78504 [5:36:16<31:56:26,  1.66s/it] 12%|█▏        | 9211/78504 [5:36:18<30:32:20,  1.59s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.6950520873069763, 'learning_rate': 2.942507749140164e-05, 'epoch': 2.82}
 12%|█▏        | 9211/78504 [5:36:18<30:32:20,  1.59s/it] 12%|█▏        | 9212/78504 [5:36:19<28:50:39,  1.50s/it]                                                         {'loss': 0.1579, 'grad_norm': 1.5516431331634521, 'learning_rate': 2.94246528809817e-05, 'epoch': 2.82}
 12%|█▏        | 9212/78504 [5:36:19<28:50:39,  1.50s/it] 12%|█▏        | 9213/78504 [5:36:20<26:49:54,  1.39s/it]                                                         {'loss': 0.2341, 'grad_norm': 1.5693957805633545, 'learning_rate': 2.942422827056176e-05, 'epoch': 2.82}
 12%|█▏        | 9213/78504 [5:36:20<26:49:54,  1.39s/it] 12%|█▏        | 9214/78504 [5:36:21<25:08:10,  1.31s/it]                                                         {'loss': 0.2219, 'grad_norm': 0.9654374718666077, 'learning_rate': 2.9423803660141818e-05, 'epoch': 2.82}
 12%|█▏        | 9214/78504 [5:36:21<25:08:10,  1.31s/it] 12%|█▏        | 9215/78504 [5:36:22<23:21:57,  1.21s/it]                                                         {'loss': 0.2002, 'grad_norm': 1.3613910675048828, 'learning_rate': 2.942337904972188e-05, 'epoch': 2.82}
 12%|█▏        | 9215/78504 [5:36:22<23:21:57,  1.21s/it] 12%|█▏        | 9216/78504 [5:36:23<21:45:18,  1.13s/it]                                                         {'loss': 0.2299, 'grad_norm': 0.8023858070373535, 'learning_rate': 2.942295443930194e-05, 'epoch': 2.82}
 12%|█▏        | 9216/78504 [5:36:23<21:45:18,  1.13s/it] 12%|█▏        | 9217/78504 [5:36:24<19:42:52,  1.02s/it]                                                         {'loss': 0.2462, 'grad_norm': 1.5474176406860352, 'learning_rate': 2.9422529828882e-05, 'epoch': 2.82}
 12%|█▏        | 9217/78504 [5:36:24<19:42:52,  1.02s/it] 12%|█▏        | 9218/78504 [5:36:33<69:31:09,  3.61s/it]                                                         {'loss': 0.1677, 'grad_norm': 0.4818096458911896, 'learning_rate': 2.942210521846206e-05, 'epoch': 2.82}
 12%|█▏        | 9218/78504 [5:36:33<69:31:09,  3.61s/it] 12%|█▏        | 9219/78504 [5:36:37<67:27:11,  3.50s/it]                                                         {'loss': 0.0791, 'grad_norm': 0.28879210352897644, 'learning_rate': 2.9421680608042122e-05, 'epoch': 2.82}
 12%|█▏        | 9219/78504 [5:36:37<67:27:11,  3.50s/it] 12%|█▏        | 9220/78504 [5:36:40<64:28:15,  3.35s/it]                                                         {'loss': 0.0716, 'grad_norm': 0.268905907869339, 'learning_rate': 2.942125599762218e-05, 'epoch': 2.82}
 12%|█▏        | 9220/78504 [5:36:40<64:28:15,  3.35s/it] 12%|█▏        | 9221/78504 [5:36:42<60:11:55,  3.13s/it]                                                         {'loss': 0.0701, 'grad_norm': 0.21558430790901184, 'learning_rate': 2.9420831387202243e-05, 'epoch': 2.82}
 12%|█▏        | 9221/78504 [5:36:42<60:11:55,  3.13s/it] 12%|█▏        | 9222/78504 [5:36:45<55:47:11,  2.90s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.2588721215724945, 'learning_rate': 2.94204067767823e-05, 'epoch': 2.82}
 12%|█▏        | 9222/78504 [5:36:45<55:47:11,  2.90s/it] 12%|█▏        | 9223/78504 [5:36:47<52:07:17,  2.71s/it]                                                         {'loss': 0.0543, 'grad_norm': 0.24985797703266144, 'learning_rate': 2.9419982166362364e-05, 'epoch': 2.82}
 12%|█▏        | 9223/78504 [5:36:47<52:07:17,  2.71s/it] 12%|█▏        | 9224/78504 [5:36:49<49:52:41,  2.59s/it]                                                         {'loss': 0.082, 'grad_norm': 0.2880270481109619, 'learning_rate': 2.9419557555942422e-05, 'epoch': 2.82}
 12%|█▏        | 9224/78504 [5:36:49<49:52:41,  2.59s/it] 12%|█▏        | 9225/78504 [5:36:51<47:03:01,  2.44s/it]                                                         {'loss': 0.0552, 'grad_norm': 0.30928659439086914, 'learning_rate': 2.941913294552248e-05, 'epoch': 2.82}
 12%|█▏        | 9225/78504 [5:36:51<47:03:01,  2.44s/it] 12%|█▏        | 9226/78504 [5:36:53<44:38:45,  2.32s/it]                                                         {'loss': 0.0928, 'grad_norm': 0.3307630121707916, 'learning_rate': 2.9418708335102543e-05, 'epoch': 2.82}
 12%|█▏        | 9226/78504 [5:36:53<44:38:45,  2.32s/it] 12%|█▏        | 9227/78504 [5:36:56<43:36:41,  2.27s/it]                                                         {'loss': 0.0549, 'grad_norm': 0.37016212940216064, 'learning_rate': 2.9418283724682602e-05, 'epoch': 2.82}
 12%|█▏        | 9227/78504 [5:36:56<43:36:41,  2.27s/it] 12%|█▏        | 9228/78504 [5:36:58<42:14:10,  2.19s/it]                                                         {'loss': 0.1292, 'grad_norm': 0.44208770990371704, 'learning_rate': 2.9417859114262664e-05, 'epoch': 2.82}
 12%|█▏        | 9228/78504 [5:36:58<42:14:10,  2.19s/it] 12%|█▏        | 9229/78504 [5:37:00<40:58:58,  2.13s/it]                                                         {'loss': 0.104, 'grad_norm': 0.7620301246643066, 'learning_rate': 2.9417434503842722e-05, 'epoch': 2.82}
 12%|█▏        | 9229/78504 [5:37:00<40:58:58,  2.13s/it] 12%|█▏        | 9230/78504 [5:37:01<39:47:41,  2.07s/it]                                                         {'loss': 0.1055, 'grad_norm': 0.3696455657482147, 'learning_rate': 2.9417009893422785e-05, 'epoch': 2.82}
 12%|█▏        | 9230/78504 [5:37:01<39:47:41,  2.07s/it] 12%|█▏        | 9231/78504 [5:37:03<38:36:28,  2.01s/it]                                                         {'loss': 0.1352, 'grad_norm': 0.46407485008239746, 'learning_rate': 2.9416585283002843e-05, 'epoch': 2.82}
 12%|█▏        | 9231/78504 [5:37:03<38:36:28,  2.01s/it] 12%|█▏        | 9232/78504 [5:37:05<36:56:35,  1.92s/it]                                                         {'loss': 0.1075, 'grad_norm': 0.3409471809864044, 'learning_rate': 2.9416160672582905e-05, 'epoch': 2.82}
 12%|█▏        | 9232/78504 [5:37:05<36:56:35,  1.92s/it] 12%|█▏        | 9233/78504 [5:37:07<35:24:54,  1.84s/it]                                                         {'loss': 0.1463, 'grad_norm': 0.3833938539028168, 'learning_rate': 2.9415736062162964e-05, 'epoch': 2.82}
 12%|█▏        | 9233/78504 [5:37:07<35:24:54,  1.84s/it] 12%|█▏        | 9234/78504 [5:37:08<33:41:14,  1.75s/it]                                                         {'loss': 0.1494, 'grad_norm': 0.4025406539440155, 'learning_rate': 2.9415311451743026e-05, 'epoch': 2.82}
 12%|█▏        | 9234/78504 [5:37:08<33:41:14,  1.75s/it] 12%|█▏        | 9235/78504 [5:37:10<31:46:22,  1.65s/it]                                                         {'loss': 0.1842, 'grad_norm': 0.9446231126785278, 'learning_rate': 2.9414886841323085e-05, 'epoch': 2.82}
 12%|█▏        | 9235/78504 [5:37:10<31:46:22,  1.65s/it] 12%|█▏        | 9236/78504 [5:37:11<30:24:10,  1.58s/it]                                                         {'loss': 0.205, 'grad_norm': 0.4738118648529053, 'learning_rate': 2.9414462230903147e-05, 'epoch': 2.82}
 12%|█▏        | 9236/78504 [5:37:11<30:24:10,  1.58s/it] 12%|█▏        | 9237/78504 [5:37:12<28:19:16,  1.47s/it]                                                         {'loss': 0.2172, 'grad_norm': 1.6123896837234497, 'learning_rate': 2.9414037620483206e-05, 'epoch': 2.82}
 12%|█▏        | 9237/78504 [5:37:12<28:19:16,  1.47s/it] 12%|█▏        | 9238/78504 [5:37:13<26:21:46,  1.37s/it]                                                         {'loss': 0.2157, 'grad_norm': 0.765811026096344, 'learning_rate': 2.9413613010063268e-05, 'epoch': 2.82}
 12%|█▏        | 9238/78504 [5:37:13<26:21:46,  1.37s/it] 12%|█▏        | 9239/78504 [5:37:15<24:47:31,  1.29s/it]                                                         {'loss': 0.213, 'grad_norm': 0.7256080508232117, 'learning_rate': 2.941318839964333e-05, 'epoch': 2.82}
 12%|█▏        | 9239/78504 [5:37:15<24:47:31,  1.29s/it] 12%|█▏        | 9240/78504 [5:37:16<23:01:10,  1.20s/it]                                                         {'loss': 0.1829, 'grad_norm': 1.0747121572494507, 'learning_rate': 2.941276378922339e-05, 'epoch': 2.82}
 12%|█▏        | 9240/78504 [5:37:16<23:01:10,  1.20s/it] 12%|█▏        | 9241/78504 [5:37:16<21:29:27,  1.12s/it]                                                         {'loss': 0.2218, 'grad_norm': 0.8751523494720459, 'learning_rate': 2.941233917880345e-05, 'epoch': 2.83}
 12%|█▏        | 9241/78504 [5:37:16<21:29:27,  1.12s/it] 12%|█▏        | 9242/78504 [5:37:17<19:33:02,  1.02s/it]                                                         {'loss': 0.2785, 'grad_norm': 1.6202682256698608, 'learning_rate': 2.941191456838351e-05, 'epoch': 2.83}
 12%|█▏        | 9242/78504 [5:37:17<19:33:02,  1.02s/it] 12%|█▏        | 9243/78504 [5:37:26<67:00:37,  3.48s/it]                                                         {'loss': 0.1862, 'grad_norm': 0.49705302715301514, 'learning_rate': 2.941148995796357e-05, 'epoch': 2.83}
 12%|█▏        | 9243/78504 [5:37:26<67:00:37,  3.48s/it] 12%|█▏        | 9244/78504 [5:37:30<66:17:00,  3.45s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.2921295464038849, 'learning_rate': 2.941106534754363e-05, 'epoch': 2.83}
 12%|█▏        | 9244/78504 [5:37:30<66:17:00,  3.45s/it] 12%|█▏        | 9245/78504 [5:37:33<63:15:00,  3.29s/it]                                                         {'loss': 0.0849, 'grad_norm': 0.4073435068130493, 'learning_rate': 2.9410640737123692e-05, 'epoch': 2.83}
 12%|█▏        | 9245/78504 [5:37:33<63:15:00,  3.29s/it] 12%|█▏        | 9246/78504 [5:37:35<59:10:31,  3.08s/it]                                                         {'loss': 0.0774, 'grad_norm': 0.34708723425865173, 'learning_rate': 2.941021612670375e-05, 'epoch': 2.83}
 12%|█▏        | 9246/78504 [5:37:35<59:10:31,  3.08s/it] 12%|█▏        | 9247/78504 [5:37:38<55:45:57,  2.90s/it]                                                         {'loss': 0.06, 'grad_norm': 0.22792288661003113, 'learning_rate': 2.9409791516283813e-05, 'epoch': 2.83}
 12%|█▏        | 9247/78504 [5:37:38<55:45:57,  2.90s/it] 12%|█▏        | 9248/78504 [5:37:40<53:12:00,  2.77s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.3800932466983795, 'learning_rate': 2.940936690586387e-05, 'epoch': 2.83}
 12%|█▏        | 9248/78504 [5:37:40<53:12:00,  2.77s/it] 12%|█▏        | 9249/78504 [5:37:43<50:37:02,  2.63s/it]                                                         {'loss': 0.0702, 'grad_norm': 0.2800470292568207, 'learning_rate': 2.9408942295443934e-05, 'epoch': 2.83}
 12%|█▏        | 9249/78504 [5:37:43<50:37:02,  2.63s/it] 12%|█▏        | 9250/78504 [5:37:45<48:43:51,  2.53s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.38396212458610535, 'learning_rate': 2.9408517685023992e-05, 'epoch': 2.83}
 12%|█▏        | 9250/78504 [5:37:45<48:43:51,  2.53s/it] 12%|█▏        | 9251/78504 [5:37:47<46:48:15,  2.43s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.30783554911613464, 'learning_rate': 2.940809307460405e-05, 'epoch': 2.83}
 12%|█▏        | 9251/78504 [5:37:47<46:48:15,  2.43s/it] 12%|█▏        | 9252/78504 [5:37:49<45:08:28,  2.35s/it]                                                         {'loss': 0.0931, 'grad_norm': 0.3546639084815979, 'learning_rate': 2.9407668464184113e-05, 'epoch': 2.83}
 12%|█▏        | 9252/78504 [5:37:49<45:08:28,  2.35s/it] 12%|█▏        | 9253/78504 [5:37:51<42:48:45,  2.23s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.33912888169288635, 'learning_rate': 2.9407243853764172e-05, 'epoch': 2.83}
 12%|█▏        | 9253/78504 [5:37:51<42:48:45,  2.23s/it] 12%|█▏        | 9254/78504 [5:37:53<41:26:26,  2.15s/it]                                                         {'loss': 0.0754, 'grad_norm': 5.974740505218506, 'learning_rate': 2.9406819243344234e-05, 'epoch': 2.83}
 12%|█▏        | 9254/78504 [5:37:53<41:26:26,  2.15s/it] 12%|█▏        | 9255/78504 [5:37:55<39:19:08,  2.04s/it]                                                         {'loss': 0.1254, 'grad_norm': 0.40314948558807373, 'learning_rate': 2.9406394632924293e-05, 'epoch': 2.83}
 12%|█▏        | 9255/78504 [5:37:55<39:19:08,  2.04s/it] 12%|█▏        | 9256/78504 [5:37:57<38:24:59,  2.00s/it]                                                         {'loss': 0.1243, 'grad_norm': 0.3585081100463867, 'learning_rate': 2.9405970022504355e-05, 'epoch': 2.83}
 12%|█▏        | 9256/78504 [5:37:57<38:24:59,  2.00s/it] 12%|█▏        | 9257/78504 [5:37:59<37:27:34,  1.95s/it]                                                         {'loss': 0.1227, 'grad_norm': 0.351232647895813, 'learning_rate': 2.9405545412084414e-05, 'epoch': 2.83}
 12%|█▏        | 9257/78504 [5:37:59<37:27:34,  1.95s/it] 12%|█▏        | 9258/78504 [5:38:00<36:09:13,  1.88s/it]                                                         {'loss': 0.1847, 'grad_norm': 0.8052029609680176, 'learning_rate': 2.9405120801664476e-05, 'epoch': 2.83}
 12%|█▏        | 9258/78504 [5:38:00<36:09:13,  1.88s/it] 12%|█▏        | 9259/78504 [5:38:02<33:56:16,  1.76s/it]                                                         {'loss': 0.1799, 'grad_norm': 2.062041759490967, 'learning_rate': 2.9404696191244534e-05, 'epoch': 2.83}
 12%|█▏        | 9259/78504 [5:38:02<33:56:16,  1.76s/it] 12%|█▏        | 9260/78504 [5:38:03<32:28:45,  1.69s/it]                                                         {'loss': 0.1576, 'grad_norm': 3.1157004833221436, 'learning_rate': 2.9404271580824596e-05, 'epoch': 2.83}
 12%|█▏        | 9260/78504 [5:38:03<32:28:45,  1.69s/it] 12%|█▏        | 9261/78504 [5:38:05<30:51:04,  1.60s/it]                                                         {'loss': 0.2145, 'grad_norm': 0.651469886302948, 'learning_rate': 2.9403846970404655e-05, 'epoch': 2.83}
 12%|█▏        | 9261/78504 [5:38:05<30:51:04,  1.60s/it] 12%|█▏        | 9262/78504 [5:38:06<28:44:03,  1.49s/it]                                                         {'loss': 0.1911, 'grad_norm': 0.6753536462783813, 'learning_rate': 2.9403422359984717e-05, 'epoch': 2.83}
 12%|█▏        | 9262/78504 [5:38:06<28:44:03,  1.49s/it] 12%|█▏        | 9263/78504 [5:38:07<27:05:15,  1.41s/it]                                                         {'loss': 0.2166, 'grad_norm': 0.9763350486755371, 'learning_rate': 2.9402997749564776e-05, 'epoch': 2.83}
 12%|█▏        | 9263/78504 [5:38:07<27:05:15,  1.41s/it] 12%|█▏        | 9264/78504 [5:38:08<25:18:14,  1.32s/it]                                                         {'loss': 0.2036, 'grad_norm': 1.0122578144073486, 'learning_rate': 2.9402573139144835e-05, 'epoch': 2.83}
 12%|█▏        | 9264/78504 [5:38:08<25:18:14,  1.32s/it] 12%|█▏        | 9265/78504 [5:38:09<23:47:34,  1.24s/it]                                                         {'loss': 0.2242, 'grad_norm': 2.9091219902038574, 'learning_rate': 2.9402148528724897e-05, 'epoch': 2.83}
 12%|█▏        | 9265/78504 [5:38:09<23:47:34,  1.24s/it] 12%|█▏        | 9266/78504 [5:38:10<21:56:49,  1.14s/it]                                                         {'loss': 0.2525, 'grad_norm': 1.960984230041504, 'learning_rate': 2.9401723918304955e-05, 'epoch': 2.83}
 12%|█▏        | 9266/78504 [5:38:10<21:56:49,  1.14s/it] 12%|█▏        | 9267/78504 [5:38:11<19:57:59,  1.04s/it]                                                         {'loss': 0.3303, 'grad_norm': 2.0184824466705322, 'learning_rate': 2.9401299307885017e-05, 'epoch': 2.83}
 12%|█▏        | 9267/78504 [5:38:11<19:57:59,  1.04s/it] 12%|█▏        | 9268/78504 [5:38:19<60:54:21,  3.17s/it]                                                         {'loss': 0.1889, 'grad_norm': 0.5924866199493408, 'learning_rate': 2.9400874697465076e-05, 'epoch': 2.83}
 12%|█▏        | 9268/78504 [5:38:19<60:54:21,  3.17s/it] 12%|█▏        | 9269/78504 [5:38:23<61:56:58,  3.22s/it]                                                         {'loss': 0.1121, 'grad_norm': 0.30335038900375366, 'learning_rate': 2.9400450087045138e-05, 'epoch': 2.83}
 12%|█▏        | 9269/78504 [5:38:23<61:56:58,  3.22s/it] 12%|█▏        | 9270/78504 [5:38:25<58:09:42,  3.02s/it]                                                         {'loss': 0.0854, 'grad_norm': 0.26109376549720764, 'learning_rate': 2.9400025476625197e-05, 'epoch': 2.83}
 12%|█▏        | 9270/78504 [5:38:25<58:09:42,  3.02s/it] 12%|█▏        | 9271/78504 [5:38:28<55:47:40,  2.90s/it]                                                         {'loss': 0.0722, 'grad_norm': 0.7717112302780151, 'learning_rate': 2.939960086620526e-05, 'epoch': 2.83}
 12%|█▏        | 9271/78504 [5:38:28<55:47:40,  2.90s/it] 12%|█▏        | 9272/78504 [5:38:30<53:18:21,  2.77s/it]                                                         {'loss': 0.067, 'grad_norm': 0.2522926330566406, 'learning_rate': 2.9399176255785318e-05, 'epoch': 2.83}
 12%|█▏        | 9272/78504 [5:38:30<53:18:21,  2.77s/it] 12%|█▏        | 9273/78504 [5:38:33<50:20:40,  2.62s/it]                                                         {'loss': 0.053, 'grad_norm': 0.4380214512348175, 'learning_rate': 2.939875164536538e-05, 'epoch': 2.83}
 12%|█▏        | 9273/78504 [5:38:33<50:20:40,  2.62s/it] 12%|█▏        | 9274/78504 [5:38:35<48:36:40,  2.53s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.33541813492774963, 'learning_rate': 2.939832703494544e-05, 'epoch': 2.84}
 12%|█▏        | 9274/78504 [5:38:35<48:36:40,  2.53s/it] 12%|█▏        | 9275/78504 [5:38:37<46:04:32,  2.40s/it]                                                         {'loss': 0.0771, 'grad_norm': 0.31845518946647644, 'learning_rate': 2.93979024245255e-05, 'epoch': 2.84}
 12%|█▏        | 9275/78504 [5:38:37<46:04:32,  2.40s/it] 12%|█▏        | 9276/78504 [5:38:39<44:49:26,  2.33s/it]                                                         {'loss': 0.0848, 'grad_norm': 0.31087958812713623, 'learning_rate': 2.939747781410556e-05, 'epoch': 2.84}
 12%|█▏        | 9276/78504 [5:38:39<44:49:26,  2.33s/it] 12%|█▏        | 9277/78504 [5:38:41<43:45:30,  2.28s/it]                                                         {'loss': 0.0932, 'grad_norm': 0.2835655212402344, 'learning_rate': 2.9397053203685618e-05, 'epoch': 2.84}
 12%|█▏        | 9277/78504 [5:38:41<43:45:30,  2.28s/it] 12%|█▏        | 9278/78504 [5:38:43<42:15:42,  2.20s/it]                                                         {'loss': 0.1134, 'grad_norm': 0.7332214713096619, 'learning_rate': 2.939662859326568e-05, 'epoch': 2.84}
 12%|█▏        | 9278/78504 [5:38:43<42:15:42,  2.20s/it] 12%|█▏        | 9279/78504 [5:38:45<41:01:34,  2.13s/it]                                                         {'loss': 0.1203, 'grad_norm': 0.5354810953140259, 'learning_rate': 2.939620398284574e-05, 'epoch': 2.84}
 12%|█▏        | 9279/78504 [5:38:45<41:01:34,  2.13s/it] 12%|█▏        | 9280/78504 [5:38:47<39:29:41,  2.05s/it]                                                         {'loss': 0.1044, 'grad_norm': 0.44387590885162354, 'learning_rate': 2.93957793724258e-05, 'epoch': 2.84}
 12%|█▏        | 9280/78504 [5:38:47<39:29:41,  2.05s/it] 12%|█▏        | 9281/78504 [5:38:49<38:25:00,  2.00s/it]                                                         {'loss': 0.1258, 'grad_norm': 0.49641290307044983, 'learning_rate': 2.939535476200586e-05, 'epoch': 2.84}
 12%|█▏        | 9281/78504 [5:38:49<38:25:00,  2.00s/it] 12%|█▏        | 9282/78504 [5:38:51<36:49:41,  1.92s/it]                                                         {'loss': 0.1304, 'grad_norm': 0.42640188336372375, 'learning_rate': 2.939493015158592e-05, 'epoch': 2.84}
 12%|█▏        | 9282/78504 [5:38:51<36:49:41,  1.92s/it] 12%|█▏        | 9283/78504 [5:38:52<35:16:54,  1.83s/it]                                                         {'loss': 0.1875, 'grad_norm': 0.7955858707427979, 'learning_rate': 2.939450554116598e-05, 'epoch': 2.84}
 12%|█▏        | 9283/78504 [5:38:52<35:16:54,  1.83s/it] 12%|█▏        | 9284/78504 [5:38:54<33:33:47,  1.75s/it]                                                         {'loss': 0.1538, 'grad_norm': 0.6774759292602539, 'learning_rate': 2.9394080930746042e-05, 'epoch': 2.84}
 12%|█▏        | 9284/78504 [5:38:54<33:33:47,  1.75s/it] 12%|█▏        | 9285/78504 [5:38:55<31:58:58,  1.66s/it]                                                         {'loss': 0.1575, 'grad_norm': 0.6606000661849976, 'learning_rate': 2.93936563203261e-05, 'epoch': 2.84}
 12%|█▏        | 9285/78504 [5:38:55<31:58:58,  1.66s/it] 12%|█▏        | 9286/78504 [5:38:57<30:25:34,  1.58s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.8051173090934753, 'learning_rate': 2.9393231709906163e-05, 'epoch': 2.84}
 12%|█▏        | 9286/78504 [5:38:57<30:25:34,  1.58s/it] 12%|█▏        | 9287/78504 [5:38:58<28:42:48,  1.49s/it]                                                         {'loss': 0.1775, 'grad_norm': 0.6663312911987305, 'learning_rate': 2.9392807099486222e-05, 'epoch': 2.84}
 12%|█▏        | 9287/78504 [5:38:58<28:42:48,  1.49s/it] 12%|█▏        | 9288/78504 [5:38:59<26:46:10,  1.39s/it]                                                         {'loss': 0.1912, 'grad_norm': 1.358551025390625, 'learning_rate': 2.9392382489066284e-05, 'epoch': 2.84}
 12%|█▏        | 9288/78504 [5:38:59<26:46:10,  1.39s/it] 12%|█▏        | 9289/78504 [5:39:00<25:02:58,  1.30s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.7614307403564453, 'learning_rate': 2.9391957878646343e-05, 'epoch': 2.84}
 12%|█▏        | 9289/78504 [5:39:00<25:02:58,  1.30s/it] 12%|█▏        | 9290/78504 [5:39:01<23:18:58,  1.21s/it]                                                         {'loss': 0.2289, 'grad_norm': 0.8926811218261719, 'learning_rate': 2.93915332682264e-05, 'epoch': 2.84}
 12%|█▏        | 9290/78504 [5:39:01<23:18:58,  1.21s/it] 12%|█▏        | 9291/78504 [5:39:02<21:45:39,  1.13s/it]                                                         {'loss': 0.3022, 'grad_norm': 1.5036985874176025, 'learning_rate': 2.9391108657806464e-05, 'epoch': 2.84}
 12%|█▏        | 9291/78504 [5:39:02<21:45:39,  1.13s/it] 12%|█▏        | 9292/78504 [5:39:03<19:45:03,  1.03s/it]                                                         {'loss': 0.2587, 'grad_norm': 1.0525542497634888, 'learning_rate': 2.9390684047386522e-05, 'epoch': 2.84}
 12%|█▏        | 9292/78504 [5:39:03<19:45:03,  1.03s/it] 12%|█▏        | 9293/78504 [5:39:11<61:21:19,  3.19s/it]                                                         {'loss': 0.1561, 'grad_norm': 0.39394938945770264, 'learning_rate': 2.9390259436966584e-05, 'epoch': 2.84}
 12%|█▏        | 9293/78504 [5:39:11<61:21:19,  3.19s/it] 12%|█▏        | 9294/78504 [5:39:15<62:22:23,  3.24s/it]                                                         {'loss': 0.076, 'grad_norm': 0.3693227767944336, 'learning_rate': 2.9389834826546643e-05, 'epoch': 2.84}
 12%|█▏        | 9294/78504 [5:39:15<62:22:23,  3.24s/it] 12%|█▏        | 9295/78504 [5:39:18<60:31:04,  3.15s/it]                                                         {'loss': 0.076, 'grad_norm': 0.318780779838562, 'learning_rate': 2.9389410216126705e-05, 'epoch': 2.84}
 12%|█▏        | 9295/78504 [5:39:18<60:31:04,  3.15s/it] 12%|█▏        | 9296/78504 [5:39:20<56:21:04,  2.93s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.3036315441131592, 'learning_rate': 2.9388985605706764e-05, 'epoch': 2.84}
 12%|█▏        | 9296/78504 [5:39:20<56:21:04,  2.93s/it] 12%|█▏        | 9297/78504 [5:39:22<53:39:55,  2.79s/it]                                                         {'loss': 0.059, 'grad_norm': 0.5437350869178772, 'learning_rate': 2.9388560995286826e-05, 'epoch': 2.84}
 12%|█▏        | 9297/78504 [5:39:22<53:39:55,  2.79s/it] 12%|█▏        | 9298/78504 [5:39:25<51:36:36,  2.68s/it]                                                         {'loss': 0.0646, 'grad_norm': 0.38995444774627686, 'learning_rate': 2.9388136384866885e-05, 'epoch': 2.84}
 12%|█▏        | 9298/78504 [5:39:25<51:36:36,  2.68s/it] 12%|█▏        | 9299/78504 [5:39:27<49:31:15,  2.58s/it]                                                         {'loss': 0.043, 'grad_norm': 0.2822433114051819, 'learning_rate': 2.9387711774446947e-05, 'epoch': 2.84}
 12%|█▏        | 9299/78504 [5:39:27<49:31:15,  2.58s/it] 12%|█▏        | 9300/78504 [5:39:29<47:57:50,  2.50s/it]                                                         {'loss': 0.071, 'grad_norm': 1.017906904220581, 'learning_rate': 2.9387287164027005e-05, 'epoch': 2.84}
 12%|█▏        | 9300/78504 [5:39:30<47:57:50,  2.50s/it] 12%|█▏        | 9301/78504 [5:39:32<46:12:47,  2.40s/it]                                                         {'loss': 0.0994, 'grad_norm': 0.5862139463424683, 'learning_rate': 2.9386862553607067e-05, 'epoch': 2.84}
 12%|█▏        | 9301/78504 [5:39:32<46:12:47,  2.40s/it] 12%|█▏        | 9302/78504 [5:39:34<44:47:47,  2.33s/it]                                                         {'loss': 0.067, 'grad_norm': 0.3634767234325409, 'learning_rate': 2.9386437943187126e-05, 'epoch': 2.84}
 12%|█▏        | 9302/78504 [5:39:34<44:47:47,  2.33s/it] 12%|█▏        | 9303/78504 [5:39:36<42:10:37,  2.19s/it]                                                         {'loss': 0.1382, 'grad_norm': 0.744791567325592, 'learning_rate': 2.9386013332767185e-05, 'epoch': 2.84}
 12%|█▏        | 9303/78504 [5:39:36<42:10:37,  2.19s/it] 12%|█▏        | 9304/78504 [5:39:38<40:56:09,  2.13s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.3116419315338135, 'learning_rate': 2.9385588722347247e-05, 'epoch': 2.84}
 12%|█▏        | 9304/78504 [5:39:38<40:56:09,  2.13s/it] 12%|█▏        | 9305/78504 [5:39:40<39:43:46,  2.07s/it]                                                         {'loss': 0.0976, 'grad_norm': 0.4783865809440613, 'learning_rate': 2.9385164111927306e-05, 'epoch': 2.84}
 12%|█▏        | 9305/78504 [5:39:40<39:43:46,  2.07s/it] 12%|█▏        | 9306/78504 [5:39:41<38:34:58,  2.01s/it]                                                         {'loss': 0.1206, 'grad_norm': 0.46315646171569824, 'learning_rate': 2.9384739501507368e-05, 'epoch': 2.85}
 12%|█▏        | 9306/78504 [5:39:42<38:34:58,  2.01s/it] 12%|█▏        | 9307/78504 [5:39:43<37:09:51,  1.93s/it]                                                         {'loss': 0.1228, 'grad_norm': 0.4426887035369873, 'learning_rate': 2.9384314891087426e-05, 'epoch': 2.85}
 12%|█▏        | 9307/78504 [5:39:43<37:09:51,  1.93s/it] 12%|█▏        | 9308/78504 [5:39:45<35:30:49,  1.85s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.5174416899681091, 'learning_rate': 2.938389028066749e-05, 'epoch': 2.85}
 12%|█▏        | 9308/78504 [5:39:45<35:30:49,  1.85s/it] 12%|█▏        | 9309/78504 [5:39:46<33:44:32,  1.76s/it]                                                         {'loss': 0.132, 'grad_norm': 0.5482811331748962, 'learning_rate': 2.9383465670247547e-05, 'epoch': 2.85}
 12%|█▏        | 9309/78504 [5:39:46<33:44:32,  1.76s/it] 12%|█▏        | 9310/78504 [5:39:48<32:20:18,  1.68s/it]                                                         {'loss': 0.2062, 'grad_norm': 0.660132884979248, 'learning_rate': 2.938304105982761e-05, 'epoch': 2.85}
 12%|█▏        | 9310/78504 [5:39:48<32:20:18,  1.68s/it] 12%|█▏        | 9311/78504 [5:39:49<30:38:49,  1.59s/it]                                                         {'loss': 0.1974, 'grad_norm': 0.48538199067115784, 'learning_rate': 2.9382616449407668e-05, 'epoch': 2.85}
 12%|█▏        | 9311/78504 [5:39:49<30:38:49,  1.59s/it] 12%|█▏        | 9312/78504 [5:39:51<28:50:55,  1.50s/it]                                                         {'loss': 0.1715, 'grad_norm': 0.7513828277587891, 'learning_rate': 2.938219183898773e-05, 'epoch': 2.85}
 12%|█▏        | 9312/78504 [5:39:51<28:50:55,  1.50s/it] 12%|█▏        | 9313/78504 [5:39:52<26:52:36,  1.40s/it]                                                         {'loss': 0.2084, 'grad_norm': 0.8947213292121887, 'learning_rate': 2.938176722856779e-05, 'epoch': 2.85}
 12%|█▏        | 9313/78504 [5:39:52<26:52:36,  1.40s/it] 12%|█▏        | 9314/78504 [5:39:53<25:06:46,  1.31s/it]                                                         {'loss': 0.2451, 'grad_norm': 0.7549887299537659, 'learning_rate': 2.938134261814785e-05, 'epoch': 2.85}
 12%|█▏        | 9314/78504 [5:39:53<25:06:46,  1.31s/it] 12%|█▏        | 9315/78504 [5:39:54<23:18:47,  1.21s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.7803683280944824, 'learning_rate': 2.938091800772791e-05, 'epoch': 2.85}
 12%|█▏        | 9315/78504 [5:39:54<23:18:47,  1.21s/it] 12%|█▏        | 9316/78504 [5:39:55<21:41:33,  1.13s/it]                                                         {'loss': 0.2577, 'grad_norm': 0.9259335398674011, 'learning_rate': 2.9380493397307968e-05, 'epoch': 2.85}
 12%|█▏        | 9316/78504 [5:39:55<21:41:33,  1.13s/it] 12%|█▏        | 9317/78504 [5:39:56<19:40:16,  1.02s/it]                                                         {'loss': 0.2959, 'grad_norm': 1.524087905883789, 'learning_rate': 2.938006878688803e-05, 'epoch': 2.85}
 12%|█▏        | 9317/78504 [5:39:56<19:40:16,  1.02s/it] 12%|█▏        | 9318/78504 [5:40:04<63:34:09,  3.31s/it]                                                         {'loss': 0.1486, 'grad_norm': 0.3407677710056305, 'learning_rate': 2.937964417646809e-05, 'epoch': 2.85}
 12%|█▏        | 9318/78504 [5:40:04<63:34:09,  3.31s/it] 12%|█▏        | 9319/78504 [5:40:07<62:22:15,  3.25s/it]                                                         {'loss': 0.1128, 'grad_norm': 0.43380704522132874, 'learning_rate': 2.937921956604815e-05, 'epoch': 2.85}
 12%|█▏        | 9319/78504 [5:40:07<62:22:15,  3.25s/it] 12%|█▏        | 9320/78504 [5:40:10<59:41:19,  3.11s/it]                                                         {'loss': 0.0758, 'grad_norm': 0.4031316339969635, 'learning_rate': 2.937879495562821e-05, 'epoch': 2.85}
 12%|█▏        | 9320/78504 [5:40:10<59:41:19,  3.11s/it] 12%|█▏        | 9321/78504 [5:40:13<55:42:41,  2.90s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.2456720769405365, 'learning_rate': 2.9378370345208272e-05, 'epoch': 2.85}
 12%|█▏        | 9321/78504 [5:40:13<55:42:41,  2.90s/it] 12%|█▏        | 9322/78504 [5:40:15<53:16:40,  2.77s/it]                                                         {'loss': 0.0913, 'grad_norm': 0.24485449492931366, 'learning_rate': 2.937794573478833e-05, 'epoch': 2.85}
 12%|█▏        | 9322/78504 [5:40:15<53:16:40,  2.77s/it] 12%|█▏        | 9323/78504 [5:40:17<50:20:11,  2.62s/it]                                                         {'loss': 0.0435, 'grad_norm': 0.3120526075363159, 'learning_rate': 2.9377521124368393e-05, 'epoch': 2.85}
 12%|█▏        | 9323/78504 [5:40:17<50:20:11,  2.62s/it] 12%|█▏        | 9324/78504 [5:40:20<48:36:19,  2.53s/it]                                                         {'loss': 0.0636, 'grad_norm': 0.41041645407676697, 'learning_rate': 2.937709651394845e-05, 'epoch': 2.85}
 12%|█▏        | 9324/78504 [5:40:20<48:36:19,  2.53s/it] 12%|█▏        | 9325/78504 [5:40:22<47:18:27,  2.46s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.35619476437568665, 'learning_rate': 2.9376671903528514e-05, 'epoch': 2.85}
 12%|█▏        | 9325/78504 [5:40:22<47:18:27,  2.46s/it] 12%|█▏        | 9326/78504 [5:40:24<45:45:30,  2.38s/it]                                                         {'loss': 0.0865, 'grad_norm': 0.3049534857273102, 'learning_rate': 2.9376247293108572e-05, 'epoch': 2.85}
 12%|█▏        | 9326/78504 [5:40:24<45:45:30,  2.38s/it] 12%|█▏        | 9327/78504 [5:40:26<44:31:19,  2.32s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.5125890374183655, 'learning_rate': 2.9375822682688634e-05, 'epoch': 2.85}
 12%|█▏        | 9327/78504 [5:40:26<44:31:19,  2.32s/it] 12%|█▏        | 9328/78504 [5:40:28<41:57:31,  2.18s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.5877946615219116, 'learning_rate': 2.9375398072268693e-05, 'epoch': 2.85}
 12%|█▏        | 9328/78504 [5:40:28<41:57:31,  2.18s/it] 12%|█▏        | 9329/78504 [5:40:30<40:49:31,  2.12s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.9857901334762573, 'learning_rate': 2.9374973461848752e-05, 'epoch': 2.85}
 12%|█▏        | 9329/78504 [5:40:30<40:49:31,  2.12s/it] 12%|█▏        | 9330/78504 [5:40:32<39:18:55,  2.05s/it]                                                         {'loss': 0.1242, 'grad_norm': 0.6976868510246277, 'learning_rate': 2.9374548851428814e-05, 'epoch': 2.85}
 12%|█▏        | 9330/78504 [5:40:32<39:18:55,  2.05s/it] 12%|█▏        | 9331/78504 [5:40:34<38:16:29,  1.99s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.5126802921295166, 'learning_rate': 2.9374124241008873e-05, 'epoch': 2.85}
 12%|█▏        | 9331/78504 [5:40:34<38:16:29,  1.99s/it] 12%|█▏        | 9332/78504 [5:40:36<36:57:26,  1.92s/it]                                                         {'loss': 0.1461, 'grad_norm': 0.4874782860279083, 'learning_rate': 2.9373699630588935e-05, 'epoch': 2.85}
 12%|█▏        | 9332/78504 [5:40:36<36:57:26,  1.92s/it] 12%|█▏        | 9333/78504 [5:40:37<35:20:27,  1.84s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.38353681564331055, 'learning_rate': 2.9373275020168993e-05, 'epoch': 2.85}
 12%|█▏        | 9333/78504 [5:40:37<35:20:27,  1.84s/it] 12%|█▏        | 9334/78504 [5:40:39<33:38:34,  1.75s/it]                                                         {'loss': 0.1781, 'grad_norm': 0.5358685255050659, 'learning_rate': 2.9372850409749055e-05, 'epoch': 2.85}
 12%|█▏        | 9334/78504 [5:40:39<33:38:34,  1.75s/it] 12%|█▏        | 9335/78504 [5:40:40<31:46:01,  1.65s/it]                                                         {'loss': 0.2301, 'grad_norm': 0.5760524868965149, 'learning_rate': 2.9372425799329114e-05, 'epoch': 2.85}
 12%|█▏        | 9335/78504 [5:40:40<31:46:01,  1.65s/it] 12%|█▏        | 9336/78504 [5:40:42<30:24:50,  1.58s/it]                                                         {'loss': 0.2222, 'grad_norm': 1.1444388628005981, 'learning_rate': 2.9372001188909176e-05, 'epoch': 2.85}
 12%|█▏        | 9336/78504 [5:40:42<30:24:50,  1.58s/it] 12%|█▏        | 9337/78504 [5:40:43<28:21:46,  1.48s/it]                                                         {'loss': 0.1774, 'grad_norm': 0.6019194722175598, 'learning_rate': 2.9371576578489235e-05, 'epoch': 2.85}
 12%|█▏        | 9337/78504 [5:40:43<28:21:46,  1.48s/it] 12%|█▏        | 9338/78504 [5:40:44<26:21:49,  1.37s/it]                                                         {'loss': 0.2125, 'grad_norm': 0.8618525266647339, 'learning_rate': 2.9371151968069297e-05, 'epoch': 2.85}
 12%|█▏        | 9338/78504 [5:40:44<26:21:49,  1.37s/it] 12%|█▏        | 9339/78504 [5:40:45<24:44:37,  1.29s/it]                                                         {'loss': 0.2256, 'grad_norm': 1.6781893968582153, 'learning_rate': 2.9370727357649356e-05, 'epoch': 2.86}
 12%|█▏        | 9339/78504 [5:40:45<24:44:37,  1.29s/it] 12%|█▏        | 9340/78504 [5:40:46<23:03:38,  1.20s/it]                                                         {'loss': 0.2344, 'grad_norm': 0.6802992820739746, 'learning_rate': 2.9370302747229418e-05, 'epoch': 2.86}
 12%|█▏        | 9340/78504 [5:40:46<23:03:38,  1.20s/it] 12%|█▏        | 9341/78504 [5:40:47<21:32:07,  1.12s/it]                                                         {'loss': 0.2688, 'grad_norm': 2.523951530456543, 'learning_rate': 2.936987813680948e-05, 'epoch': 2.86}
 12%|█▏        | 9341/78504 [5:40:47<21:32:07,  1.12s/it] 12%|█▏        | 9342/78504 [5:40:48<19:37:39,  1.02s/it]                                                         {'loss': 0.2999, 'grad_norm': 3.396601676940918, 'learning_rate': 2.936945352638954e-05, 'epoch': 2.86}
 12%|█▏        | 9342/78504 [5:40:48<19:37:39,  1.02s/it] 12%|█▏        | 9343/78504 [5:40:56<62:17:20,  3.24s/it]                                                         {'loss': 0.1257, 'grad_norm': 0.3948565423488617, 'learning_rate': 2.93690289159696e-05, 'epoch': 2.86}
 12%|█▏        | 9343/78504 [5:40:56<62:17:20,  3.24s/it] 12%|█▏        | 9344/78504 [5:40:59<60:23:58,  3.14s/it]                                                         {'loss': 0.096, 'grad_norm': 0.2988635301589966, 'learning_rate': 2.936860430554966e-05, 'epoch': 2.86}
 12%|█▏        | 9344/78504 [5:40:59<60:23:58,  3.14s/it] 12%|█▏        | 9345/78504 [5:41:02<57:03:29,  2.97s/it]                                                         {'loss': 0.091, 'grad_norm': 0.37700942158699036, 'learning_rate': 2.936817969512972e-05, 'epoch': 2.86}
 12%|█▏        | 9345/78504 [5:41:02<57:03:29,  2.97s/it] 12%|█▏        | 9346/78504 [5:41:04<55:02:36,  2.87s/it]                                                         {'loss': 0.0497, 'grad_norm': 0.24543876945972443, 'learning_rate': 2.936775508470978e-05, 'epoch': 2.86}
 12%|█▏        | 9346/78504 [5:41:04<55:02:36,  2.87s/it] 12%|█▏        | 9347/78504 [5:41:07<52:50:23,  2.75s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.2470775842666626, 'learning_rate': 2.9367330474289842e-05, 'epoch': 2.86}
 12%|█▏        | 9347/78504 [5:41:07<52:50:23,  2.75s/it] 12%|█▏        | 9348/78504 [5:41:09<51:01:24,  2.66s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.2829510271549225, 'learning_rate': 2.93669058638699e-05, 'epoch': 2.86}
 12%|█▏        | 9348/78504 [5:41:09<51:01:24,  2.66s/it] 12%|█▏        | 9349/78504 [5:41:12<49:03:24,  2.55s/it]                                                         {'loss': 0.0516, 'grad_norm': 0.22487083077430725, 'learning_rate': 2.9366481253449963e-05, 'epoch': 2.86}
 12%|█▏        | 9349/78504 [5:41:12<49:03:24,  2.55s/it] 12%|█▏        | 9350/78504 [5:41:14<47:38:35,  2.48s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.3188299536705017, 'learning_rate': 2.9366056643030022e-05, 'epoch': 2.86}
 12%|█▏        | 9350/78504 [5:41:14<47:38:35,  2.48s/it] 12%|█▏        | 9351/78504 [5:41:16<45:56:45,  2.39s/it]                                                         {'loss': 0.0684, 'grad_norm': 0.2807416021823883, 'learning_rate': 2.9365632032610084e-05, 'epoch': 2.86}
 12%|█▏        | 9351/78504 [5:41:16<45:56:45,  2.39s/it] 12%|█▏        | 9352/78504 [5:41:18<44:36:36,  2.32s/it]                                                         {'loss': 0.0731, 'grad_norm': 0.38296815752983093, 'learning_rate': 2.9365207422190142e-05, 'epoch': 2.86}
 12%|█▏        | 9352/78504 [5:41:18<44:36:36,  2.32s/it] 12%|█▏        | 9353/78504 [5:41:20<42:54:42,  2.23s/it]                                                         {'loss': 0.1302, 'grad_norm': 0.345012366771698, 'learning_rate': 2.93647828117702e-05, 'epoch': 2.86}
 12%|█▏        | 9353/78504 [5:41:20<42:54:42,  2.23s/it] 12%|█▏        | 9354/78504 [5:41:22<41:26:13,  2.16s/it]                                                         {'loss': 0.0869, 'grad_norm': 0.531414806842804, 'learning_rate': 2.9364358201350263e-05, 'epoch': 2.86}
 12%|█▏        | 9354/78504 [5:41:22<41:26:13,  2.16s/it] 12%|█▏        | 9355/78504 [5:41:24<39:50:51,  2.07s/it]                                                         {'loss': 0.0814, 'grad_norm': 0.2881336510181427, 'learning_rate': 2.9363933590930322e-05, 'epoch': 2.86}
 12%|█▏        | 9355/78504 [5:41:24<39:50:51,  2.07s/it] 12%|█▏        | 9356/78504 [5:41:26<38:40:59,  2.01s/it]                                                         {'loss': 0.1572, 'grad_norm': 0.5646059513092041, 'learning_rate': 2.9363508980510384e-05, 'epoch': 2.86}
 12%|█▏        | 9356/78504 [5:41:26<38:40:59,  2.01s/it] 12%|█▏        | 9357/78504 [5:41:28<37:13:01,  1.94s/it]                                                         {'loss': 0.1103, 'grad_norm': 0.4812685549259186, 'learning_rate': 2.9363084370090443e-05, 'epoch': 2.86}
 12%|█▏        | 9357/78504 [5:41:28<37:13:01,  1.94s/it] 12%|█▏        | 9358/78504 [5:41:29<35:28:50,  1.85s/it]                                                         {'loss': 0.1565, 'grad_norm': 0.41516298055648804, 'learning_rate': 2.9362659759670505e-05, 'epoch': 2.86}
 12%|█▏        | 9358/78504 [5:41:29<35:28:50,  1.85s/it] 12%|█▏        | 9359/78504 [5:41:31<33:39:29,  1.75s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.6346100568771362, 'learning_rate': 2.9362235149250564e-05, 'epoch': 2.86}
 12%|█▏        | 9359/78504 [5:41:31<33:39:29,  1.75s/it] 12%|█▏        | 9360/78504 [5:41:32<32:02:34,  1.67s/it]                                                         {'loss': 0.1687, 'grad_norm': 1.2757924795150757, 'learning_rate': 2.9361810538830626e-05, 'epoch': 2.86}
 12%|█▏        | 9360/78504 [5:41:32<32:02:34,  1.67s/it] 12%|█▏        | 9361/78504 [5:41:34<30:26:43,  1.59s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.7485183477401733, 'learning_rate': 2.9361385928410684e-05, 'epoch': 2.86}
 12%|█▏        | 9361/78504 [5:41:34<30:26:43,  1.59s/it] 12%|█▏        | 9362/78504 [5:41:35<28:40:41,  1.49s/it]                                                         {'loss': 0.1711, 'grad_norm': 0.6038838028907776, 'learning_rate': 2.9360961317990746e-05, 'epoch': 2.86}
 12%|█▏        | 9362/78504 [5:41:35<28:40:41,  1.49s/it] 12%|█▏        | 9363/78504 [5:41:36<26:33:46,  1.38s/it]                                                         {'loss': 0.2101, 'grad_norm': 0.6524444818496704, 'learning_rate': 2.9360536707570805e-05, 'epoch': 2.86}
 12%|█▏        | 9363/78504 [5:41:36<26:33:46,  1.38s/it] 12%|█▏        | 9364/78504 [5:41:37<24:54:31,  1.30s/it]                                                         {'loss': 0.1871, 'grad_norm': 0.771824836730957, 'learning_rate': 2.9360112097150867e-05, 'epoch': 2.86}
 12%|█▏        | 9364/78504 [5:41:37<24:54:31,  1.30s/it] 12%|█▏        | 9365/78504 [5:41:38<23:07:23,  1.20s/it]                                                         {'loss': 0.2158, 'grad_norm': 0.9809243083000183, 'learning_rate': 2.9359687486730926e-05, 'epoch': 2.86}
 12%|█▏        | 9365/78504 [5:41:38<23:07:23,  1.20s/it] 12%|█▏        | 9366/78504 [5:41:39<21:39:56,  1.13s/it]                                                         {'loss': 0.242, 'grad_norm': 1.5384182929992676, 'learning_rate': 2.9359262876310985e-05, 'epoch': 2.86}
 12%|█▏        | 9366/78504 [5:41:39<21:39:56,  1.13s/it] 12%|█▏        | 9367/78504 [5:41:40<19:40:08,  1.02s/it]                                                         {'loss': 0.2531, 'grad_norm': 1.138316035270691, 'learning_rate': 2.9358838265891047e-05, 'epoch': 2.86}
 12%|█▏        | 9367/78504 [5:41:40<19:40:08,  1.02s/it] 12%|█▏        | 9368/78504 [5:41:47<55:54:23,  2.91s/it]                                                         {'loss': 0.1345, 'grad_norm': 0.33694931864738464, 'learning_rate': 2.9358413655471105e-05, 'epoch': 2.86}
 12%|█▏        | 9368/78504 [5:41:47<55:54:23,  2.91s/it] 12%|█▏        | 9369/78504 [5:41:50<56:57:54,  2.97s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.35651901364326477, 'learning_rate': 2.9357989045051167e-05, 'epoch': 2.86}
 12%|█▏        | 9369/78504 [5:41:50<56:57:54,  2.97s/it] 12%|█▏        | 9370/78504 [5:41:53<56:41:49,  2.95s/it]                                                         {'loss': 0.0651, 'grad_norm': 0.2543579936027527, 'learning_rate': 2.9357564434631226e-05, 'epoch': 2.86}
 12%|█▏        | 9370/78504 [5:41:53<56:41:49,  2.95s/it] 12%|█▏        | 9371/78504 [5:41:56<54:29:09,  2.84s/it]                                                         {'loss': 0.0839, 'grad_norm': 0.29807227849960327, 'learning_rate': 2.9357139824211288e-05, 'epoch': 2.86}
 12%|█▏        | 9371/78504 [5:41:56<54:29:09,  2.84s/it] 12%|█▏        | 9372/78504 [5:41:58<52:21:47,  2.73s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.43762946128845215, 'learning_rate': 2.9356715213791347e-05, 'epoch': 2.87}
 12%|█▏        | 9372/78504 [5:41:58<52:21:47,  2.73s/it] 12%|█▏        | 9373/78504 [5:42:01<50:38:41,  2.64s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.28190964460372925, 'learning_rate': 2.935629060337141e-05, 'epoch': 2.87}
 12%|█▏        | 9373/78504 [5:42:01<50:38:41,  2.64s/it] 12%|█▏        | 9374/78504 [5:42:03<48:46:00,  2.54s/it]                                                         {'loss': 0.0486, 'grad_norm': 0.2562788128852844, 'learning_rate': 2.9355865992951468e-05, 'epoch': 2.87}
 12%|█▏        | 9374/78504 [5:42:03<48:46:00,  2.54s/it] 12%|█▏        | 9375/78504 [5:42:05<47:25:54,  2.47s/it]                                                         {'loss': 0.0988, 'grad_norm': 0.42456334829330444, 'learning_rate': 2.935544138253153e-05, 'epoch': 2.87}
 12%|█▏        | 9375/78504 [5:42:05<47:25:54,  2.47s/it] 12%|█▏        | 9376/78504 [5:42:08<45:45:04,  2.38s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.5119654536247253, 'learning_rate': 2.935501677211159e-05, 'epoch': 2.87}
 12%|█▏        | 9376/78504 [5:42:08<45:45:04,  2.38s/it] 12%|█▏        | 9377/78504 [5:42:10<44:30:25,  2.32s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.2819218635559082, 'learning_rate': 2.935459216169165e-05, 'epoch': 2.87}
 12%|█▏        | 9377/78504 [5:42:10<44:30:25,  2.32s/it] 12%|█▏        | 9378/78504 [5:42:12<41:50:37,  2.18s/it]                                                         {'loss': 0.1268, 'grad_norm': 0.25208020210266113, 'learning_rate': 2.935416755127171e-05, 'epoch': 2.87}
 12%|█▏        | 9378/78504 [5:42:12<41:50:37,  2.18s/it] 12%|█▏        | 9379/78504 [5:42:14<40:42:24,  2.12s/it]                                                         {'loss': 0.093, 'grad_norm': 0.376184344291687, 'learning_rate': 2.9353742940851768e-05, 'epoch': 2.87}
 12%|█▏        | 9379/78504 [5:42:14<40:42:24,  2.12s/it] 12%|█▏        | 9380/78504 [5:42:15<39:37:43,  2.06s/it]                                                         {'loss': 0.1156, 'grad_norm': 0.34701624512672424, 'learning_rate': 2.935331833043183e-05, 'epoch': 2.87}
 12%|█▏        | 9380/78504 [5:42:16<39:37:43,  2.06s/it] 12%|█▏        | 9381/78504 [5:42:17<38:38:00,  2.01s/it]                                                         {'loss': 0.1069, 'grad_norm': 0.43348759412765503, 'learning_rate': 2.935289372001189e-05, 'epoch': 2.87}
 12%|█▏        | 9381/78504 [5:42:17<38:38:00,  2.01s/it] 12%|█▏        | 9382/78504 [5:42:19<37:11:00,  1.94s/it]                                                         {'loss': 0.1515, 'grad_norm': 0.9236341714859009, 'learning_rate': 2.935246910959195e-05, 'epoch': 2.87}
 12%|█▏        | 9382/78504 [5:42:19<37:11:00,  1.94s/it] 12%|█▏        | 9383/78504 [5:42:21<35:37:10,  1.86s/it]                                                         {'loss': 0.1809, 'grad_norm': 0.4919392466545105, 'learning_rate': 2.935204449917201e-05, 'epoch': 2.87}
 12%|█▏        | 9383/78504 [5:42:21<35:37:10,  1.86s/it] 12%|█▏        | 9384/78504 [5:42:22<33:49:07,  1.76s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.4783887565135956, 'learning_rate': 2.9351619888752072e-05, 'epoch': 2.87}
 12%|█▏        | 9384/78504 [5:42:22<33:49:07,  1.76s/it] 12%|█▏        | 9385/78504 [5:42:24<32:18:04,  1.68s/it]                                                         {'loss': 0.1819, 'grad_norm': 0.6934040188789368, 'learning_rate': 2.935119527833213e-05, 'epoch': 2.87}
 12%|█▏        | 9385/78504 [5:42:24<32:18:04,  1.68s/it] 12%|█▏        | 9386/78504 [5:42:25<30:41:17,  1.60s/it]                                                         {'loss': 0.1986, 'grad_norm': 1.3298730850219727, 'learning_rate': 2.9350770667912192e-05, 'epoch': 2.87}
 12%|█▏        | 9386/78504 [5:42:25<30:41:17,  1.60s/it] 12%|█▏        | 9387/78504 [5:42:27<28:52:55,  1.50s/it]                                                         {'loss': 0.2128, 'grad_norm': 0.612007737159729, 'learning_rate': 2.935034605749225e-05, 'epoch': 2.87}
 12%|█▏        | 9387/78504 [5:42:27<28:52:55,  1.50s/it] 12%|█▏        | 9388/78504 [5:42:28<26:50:37,  1.40s/it]                                                         {'loss': 0.1914, 'grad_norm': 1.034974217414856, 'learning_rate': 2.9349921447072313e-05, 'epoch': 2.87}
 12%|█▏        | 9388/78504 [5:42:28<26:50:37,  1.40s/it] 12%|█▏        | 9389/78504 [5:42:29<25:04:41,  1.31s/it]                                                         {'loss': 0.2018, 'grad_norm': 0.7899174094200134, 'learning_rate': 2.9349496836652372e-05, 'epoch': 2.87}
 12%|█▏        | 9389/78504 [5:42:29<25:04:41,  1.31s/it] 12%|█▏        | 9390/78504 [5:42:30<23:33:47,  1.23s/it]                                                         {'loss': 0.2218, 'grad_norm': 0.6865609288215637, 'learning_rate': 2.9349072226232434e-05, 'epoch': 2.87}
 12%|█▏        | 9390/78504 [5:42:30<23:33:47,  1.23s/it] 12%|█▏        | 9391/78504 [5:42:31<21:50:51,  1.14s/it]                                                         {'loss': 0.2418, 'grad_norm': 1.4801985025405884, 'learning_rate': 2.9348647615812493e-05, 'epoch': 2.87}
 12%|█▏        | 9391/78504 [5:42:31<21:50:51,  1.14s/it] 12%|█▏        | 9392/78504 [5:42:32<19:53:09,  1.04s/it]                                                         {'loss': 0.2654, 'grad_norm': 3.4522109031677246, 'learning_rate': 2.934822300539255e-05, 'epoch': 2.87}
 12%|█▏        | 9392/78504 [5:42:32<19:53:09,  1.04s/it] 12%|█▏        | 9393/78504 [5:42:39<58:43:28,  3.06s/it]                                                         {'loss': 0.1578, 'grad_norm': 0.5717837810516357, 'learning_rate': 2.9347798394972614e-05, 'epoch': 2.87}
 12%|█▏        | 9393/78504 [5:42:39<58:43:28,  3.06s/it] 12%|█▏        | 9394/78504 [5:42:43<60:08:05,  3.13s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.6548184156417847, 'learning_rate': 2.9347373784552672e-05, 'epoch': 2.87}
 12%|█▏        | 9394/78504 [5:42:43<60:08:05,  3.13s/it] 12%|█▏        | 9395/78504 [5:42:46<59:26:47,  3.10s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.2801792621612549, 'learning_rate': 2.9346949174132734e-05, 'epoch': 2.87}
 12%|█▏        | 9395/78504 [5:42:46<59:26:47,  3.10s/it] 12%|█▏        | 9396/78504 [5:42:48<56:40:07,  2.95s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.37702786922454834, 'learning_rate': 2.9346524563712793e-05, 'epoch': 2.87}
 12%|█▏        | 9396/78504 [5:42:48<56:40:07,  2.95s/it] 12%|█▏        | 9397/78504 [5:42:51<54:00:01,  2.81s/it]                                                         {'loss': 0.0751, 'grad_norm': 0.510862410068512, 'learning_rate': 2.9346099953292855e-05, 'epoch': 2.87}
 12%|█▏        | 9397/78504 [5:42:51<54:00:01,  2.81s/it] 12%|█▏        | 9398/78504 [5:42:53<51:47:57,  2.70s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.25974610447883606, 'learning_rate': 2.9345675342872914e-05, 'epoch': 2.87}
 12%|█▏        | 9398/78504 [5:42:53<51:47:57,  2.70s/it] 12%|█▏        | 9399/78504 [5:42:56<49:39:01,  2.59s/it]                                                         {'loss': 0.0515, 'grad_norm': 1.3639581203460693, 'learning_rate': 2.9345250732452976e-05, 'epoch': 2.87}
 12%|█▏        | 9399/78504 [5:42:56<49:39:01,  2.59s/it] 12%|█▏        | 9400/78504 [5:42:58<48:00:41,  2.50s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.21518273651599884, 'learning_rate': 2.9344826122033035e-05, 'epoch': 2.87}
 12%|█▏        | 9400/78504 [5:42:58<48:00:41,  2.50s/it] 12%|█▏        | 9401/78504 [5:43:00<46:11:27,  2.41s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.25976938009262085, 'learning_rate': 2.9344401511613097e-05, 'epoch': 2.87}
 12%|█▏        | 9401/78504 [5:43:00<46:11:27,  2.41s/it] 12%|█▏        | 9402/78504 [5:43:02<44:47:46,  2.33s/it]                                                         {'loss': 0.0789, 'grad_norm': 0.31919941306114197, 'learning_rate': 2.9343976901193155e-05, 'epoch': 2.87}
 12%|█▏        | 9402/78504 [5:43:02<44:47:46,  2.33s/it] 12%|█▏        | 9403/78504 [5:43:04<42:29:06,  2.21s/it]                                                         {'loss': 0.0725, 'grad_norm': 0.36618906259536743, 'learning_rate': 2.9343552290773218e-05, 'epoch': 2.87}
 12%|█▏        | 9403/78504 [5:43:04<42:29:06,  2.21s/it] 12%|█▏        | 9404/78504 [5:43:06<41:09:53,  2.14s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.3844805955886841, 'learning_rate': 2.9343127680353276e-05, 'epoch': 2.87}
 12%|█▏        | 9404/78504 [5:43:06<41:09:53,  2.14s/it] 12%|█▏        | 9405/78504 [5:43:08<39:52:00,  2.08s/it]                                                         {'loss': 0.0922, 'grad_norm': 0.35622552037239075, 'learning_rate': 2.9342703069933335e-05, 'epoch': 2.88}
 12%|█▏        | 9405/78504 [5:43:08<39:52:00,  2.08s/it] 12%|█▏        | 9406/78504 [5:43:10<38:39:17,  2.01s/it]                                                         {'loss': 0.127, 'grad_norm': 0.5648289322853088, 'learning_rate': 2.9342278459513397e-05, 'epoch': 2.88}
 12%|█▏        | 9406/78504 [5:43:10<38:39:17,  2.01s/it] 12%|█▏        | 9407/78504 [5:43:12<37:15:55,  1.94s/it]                                                         {'loss': 0.121, 'grad_norm': 0.5306695699691772, 'learning_rate': 2.9341853849093456e-05, 'epoch': 2.88}
 12%|█▏        | 9407/78504 [5:43:12<37:15:55,  1.94s/it] 12%|█▏        | 9408/78504 [5:43:13<35:36:28,  1.86s/it]                                                         {'loss': 0.1459, 'grad_norm': 0.5191173553466797, 'learning_rate': 2.9341429238673518e-05, 'epoch': 2.88}
 12%|█▏        | 9408/78504 [5:43:13<35:36:28,  1.86s/it] 12%|█▏        | 9409/78504 [5:43:15<34:13:41,  1.78s/it]                                                         {'loss': 0.1495, 'grad_norm': 0.5780380964279175, 'learning_rate': 2.9341004628253576e-05, 'epoch': 2.88}
 12%|█▏        | 9409/78504 [5:43:15<34:13:41,  1.78s/it] 12%|█▏        | 9410/78504 [5:43:16<32:27:04,  1.69s/it]                                                         {'loss': 0.1735, 'grad_norm': 0.6245042085647583, 'learning_rate': 2.934058001783364e-05, 'epoch': 2.88}
 12%|█▏        | 9410/78504 [5:43:16<32:27:04,  1.69s/it] 12%|█▏        | 9411/78504 [5:43:18<30:53:04,  1.61s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.6149858236312866, 'learning_rate': 2.9340155407413697e-05, 'epoch': 2.88}
 12%|█▏        | 9411/78504 [5:43:18<30:53:04,  1.61s/it] 12%|█▏        | 9412/78504 [5:43:19<29:06:12,  1.52s/it]                                                         {'loss': 0.2374, 'grad_norm': 1.2681620121002197, 'learning_rate': 2.933973079699376e-05, 'epoch': 2.88}
 12%|█▏        | 9412/78504 [5:43:19<29:06:12,  1.52s/it] 12%|█▏        | 9413/78504 [5:43:20<26:52:01,  1.40s/it]                                                         {'loss': 0.2157, 'grad_norm': 0.5481357574462891, 'learning_rate': 2.9339306186573818e-05, 'epoch': 2.88}
 12%|█▏        | 9413/78504 [5:43:20<26:52:01,  1.40s/it] 12%|█▏        | 9414/78504 [5:43:21<25:07:35,  1.31s/it]                                                         {'loss': 0.2437, 'grad_norm': 0.7910399436950684, 'learning_rate': 2.933888157615388e-05, 'epoch': 2.88}
 12%|█▏        | 9414/78504 [5:43:21<25:07:35,  1.31s/it] 12%|█▏        | 9415/78504 [5:43:22<23:17:58,  1.21s/it]                                                         {'loss': 0.2134, 'grad_norm': 1.1935598850250244, 'learning_rate': 2.933845696573394e-05, 'epoch': 2.88}
 12%|█▏        | 9415/78504 [5:43:22<23:17:58,  1.21s/it] 12%|█▏        | 9416/78504 [5:43:23<21:43:29,  1.13s/it]                                                         {'loss': 0.2296, 'grad_norm': 1.6344749927520752, 'learning_rate': 2.9338032355314e-05, 'epoch': 2.88}
 12%|█▏        | 9416/78504 [5:43:23<21:43:29,  1.13s/it] 12%|█▏        | 9417/78504 [5:43:24<19:37:36,  1.02s/it]                                                         {'loss': 0.2602, 'grad_norm': 1.0975459814071655, 'learning_rate': 2.933760774489406e-05, 'epoch': 2.88}
 12%|█▏        | 9417/78504 [5:43:24<19:37:36,  1.02s/it] 12%|█▏        | 9418/78504 [5:43:34<72:56:56,  3.80s/it]                                                         {'loss': 0.1577, 'grad_norm': 0.3950599730014801, 'learning_rate': 2.933718313447412e-05, 'epoch': 2.88}
 12%|█▏        | 9418/78504 [5:43:34<72:56:56,  3.80s/it] 12%|█▏        | 9419/78504 [5:43:37<69:00:01,  3.60s/it]                                                         {'loss': 0.1095, 'grad_norm': 0.31424272060394287, 'learning_rate': 2.933675852405418e-05, 'epoch': 2.88}
 12%|█▏        | 9419/78504 [5:43:37<69:00:01,  3.60s/it] 12%|█▏        | 9420/78504 [5:43:40<65:28:42,  3.41s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.2665090262889862, 'learning_rate': 2.933633391363424e-05, 'epoch': 2.88}
 12%|█▏        | 9420/78504 [5:43:40<65:28:42,  3.41s/it] 12%|█▏        | 9421/78504 [5:43:43<60:53:07,  3.17s/it]                                                         {'loss': 0.0548, 'grad_norm': 0.20060937106609344, 'learning_rate': 2.93359093032143e-05, 'epoch': 2.88}
 12%|█▏        | 9421/78504 [5:43:43<60:53:07,  3.17s/it] 12%|█▏        | 9422/78504 [5:43:45<56:47:21,  2.96s/it]                                                         {'loss': 0.0549, 'grad_norm': 0.215310201048851, 'learning_rate': 2.933548469279436e-05, 'epoch': 2.88}
 12%|█▏        | 9422/78504 [5:43:46<56:47:21,  2.96s/it] 12%|█▏        | 9423/78504 [5:43:48<52:46:58,  2.75s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.39521628618240356, 'learning_rate': 2.9335060082374422e-05, 'epoch': 2.88}
 12%|█▏        | 9423/78504 [5:43:48<52:46:58,  2.75s/it] 12%|█▏        | 9424/78504 [5:43:50<50:16:01,  2.62s/it]                                                         {'loss': 0.0667, 'grad_norm': 0.3869701325893402, 'learning_rate': 2.933463547195448e-05, 'epoch': 2.88}
 12%|█▏        | 9424/78504 [5:43:50<50:16:01,  2.62s/it] 12%|█▏        | 9425/78504 [5:43:52<47:12:40,  2.46s/it]                                                         {'loss': 0.0496, 'grad_norm': 0.284091979265213, 'learning_rate': 2.9334210861534543e-05, 'epoch': 2.88}
 12%|█▏        | 9425/78504 [5:43:52<47:12:40,  2.46s/it] 12%|█▏        | 9426/78504 [5:43:54<45:37:13,  2.38s/it]                                                         {'loss': 0.0783, 'grad_norm': 1.0732332468032837, 'learning_rate': 2.93337862511146e-05, 'epoch': 2.88}
 12%|█▏        | 9426/78504 [5:43:54<45:37:13,  2.38s/it] 12%|█▏        | 9427/78504 [5:43:56<44:14:49,  2.31s/it]                                                         {'loss': 0.0895, 'grad_norm': 0.6570401787757874, 'learning_rate': 2.9333361640694664e-05, 'epoch': 2.88}
 12%|█▏        | 9427/78504 [5:43:56<44:14:49,  2.31s/it] 12%|█▏        | 9428/78504 [5:43:58<42:35:06,  2.22s/it]                                                         {'loss': 0.0841, 'grad_norm': 0.3570442795753479, 'learning_rate': 2.9332937030274722e-05, 'epoch': 2.88}
 12%|█▏        | 9428/78504 [5:43:59<42:35:06,  2.22s/it] 12%|█▏        | 9429/78504 [5:44:00<41:14:12,  2.15s/it]                                                         {'loss': 0.0963, 'grad_norm': 0.4200623631477356, 'learning_rate': 2.9332512419854784e-05, 'epoch': 2.88}
 12%|█▏        | 9429/78504 [5:44:01<41:14:12,  2.15s/it] 12%|█▏        | 9430/78504 [5:44:02<39:33:29,  2.06s/it]                                                         {'loss': 0.1188, 'grad_norm': 0.4682164788246155, 'learning_rate': 2.9332087809434843e-05, 'epoch': 2.88}
 12%|█▏        | 9430/78504 [5:44:02<39:33:29,  2.06s/it] 12%|█▏        | 9431/78504 [5:44:04<38:17:06,  2.00s/it]                                                         {'loss': 0.1393, 'grad_norm': 0.3601558804512024, 'learning_rate': 2.9331663199014902e-05, 'epoch': 2.88}
 12%|█▏        | 9431/78504 [5:44:04<38:17:06,  2.00s/it] 12%|█▏        | 9432/78504 [5:44:06<36:45:13,  1.92s/it]                                                         {'loss': 0.138, 'grad_norm': 0.5151785612106323, 'learning_rate': 2.9331238588594964e-05, 'epoch': 2.88}
 12%|█▏        | 9432/78504 [5:44:06<36:45:13,  1.92s/it] 12%|█▏        | 9433/78504 [5:44:08<35:15:06,  1.84s/it]                                                         {'loss': 0.1634, 'grad_norm': 0.4781738817691803, 'learning_rate': 2.9330813978175023e-05, 'epoch': 2.88}
 12%|█▏        | 9433/78504 [5:44:08<35:15:06,  1.84s/it] 12%|█▏        | 9434/78504 [5:44:09<33:30:32,  1.75s/it]                                                         {'loss': 0.2053, 'grad_norm': 0.745117723941803, 'learning_rate': 2.9330389367755085e-05, 'epoch': 2.88}
 12%|█▏        | 9434/78504 [5:44:09<33:30:32,  1.75s/it] 12%|█▏        | 9435/78504 [5:44:11<31:54:47,  1.66s/it]                                                         {'loss': 0.1957, 'grad_norm': 0.7245194911956787, 'learning_rate': 2.9329964757335143e-05, 'epoch': 2.88}
 12%|█▏        | 9435/78504 [5:44:11<31:54:47,  1.66s/it] 12%|█▏        | 9436/78504 [5:44:12<30:31:20,  1.59s/it]                                                         {'loss': 0.2002, 'grad_norm': 0.8676335215568542, 'learning_rate': 2.9329540146915205e-05, 'epoch': 2.88}
 12%|█▏        | 9436/78504 [5:44:12<30:31:20,  1.59s/it] 12%|█▏        | 9437/78504 [5:44:13<28:44:11,  1.50s/it]                                                         {'loss': 0.2023, 'grad_norm': 1.4087234735488892, 'learning_rate': 2.9329115536495264e-05, 'epoch': 2.89}
 12%|█▏        | 9437/78504 [5:44:13<28:44:11,  1.50s/it] 12%|█▏        | 9438/78504 [5:44:14<26:40:54,  1.39s/it]                                                         {'loss': 0.1737, 'grad_norm': 1.0741760730743408, 'learning_rate': 2.9328690926075326e-05, 'epoch': 2.89}
 12%|█▏        | 9438/78504 [5:44:14<26:40:54,  1.39s/it] 12%|█▏        | 9439/78504 [5:44:16<25:01:35,  1.30s/it]                                                         {'loss': 0.2076, 'grad_norm': 0.7978000044822693, 'learning_rate': 2.9328266315655385e-05, 'epoch': 2.89}
 12%|█▏        | 9439/78504 [5:44:16<25:01:35,  1.30s/it] 12%|█▏        | 9440/78504 [5:44:17<23:12:39,  1.21s/it]                                                         {'loss': 0.2268, 'grad_norm': 0.8916339874267578, 'learning_rate': 2.9327841705235447e-05, 'epoch': 2.89}
 12%|█▏        | 9440/78504 [5:44:17<23:12:39,  1.21s/it] 12%|█▏        | 9441/78504 [5:44:17<21:36:35,  1.13s/it]                                                         {'loss': 0.2161, 'grad_norm': 1.2061653137207031, 'learning_rate': 2.9327417094815506e-05, 'epoch': 2.89}
 12%|█▏        | 9441/78504 [5:44:17<21:36:35,  1.13s/it] 12%|█▏        | 9442/78504 [5:44:18<19:35:48,  1.02s/it]                                                         {'loss': 0.2803, 'grad_norm': 1.2071104049682617, 'learning_rate': 2.9326992484395568e-05, 'epoch': 2.89}
 12%|█▏        | 9442/78504 [5:44:18<19:35:48,  1.02s/it] 12%|█▏        | 9443/78504 [5:44:27<63:21:44,  3.30s/it]                                                         {'loss': 0.1755, 'grad_norm': 1.0914556980133057, 'learning_rate': 2.932656787397563e-05, 'epoch': 2.89}
 12%|█▏        | 9443/78504 [5:44:27<63:21:44,  3.30s/it] 12%|█▏        | 9444/78504 [5:44:30<62:24:28,  3.25s/it]                                                         {'loss': 0.0942, 'grad_norm': 0.41432756185531616, 'learning_rate': 2.932614326355569e-05, 'epoch': 2.89}
 12%|█▏        | 9444/78504 [5:44:30<62:24:28,  3.25s/it] 12%|█▏        | 9445/78504 [5:44:33<61:22:12,  3.20s/it]                                                         {'loss': 0.0754, 'grad_norm': 0.3114290237426758, 'learning_rate': 2.932571865313575e-05, 'epoch': 2.89}
 12%|█▏        | 9445/78504 [5:44:33<61:22:12,  3.20s/it] 12%|█▏        | 9446/78504 [5:44:36<57:45:00,  3.01s/it]                                                         {'loss': 0.0588, 'grad_norm': 0.5128924250602722, 'learning_rate': 2.932529404271581e-05, 'epoch': 2.89}
 12%|█▏        | 9446/78504 [5:44:36<57:45:00,  3.01s/it] 12%|█▏        | 9447/78504 [5:44:38<54:46:55,  2.86s/it]                                                         {'loss': 0.0661, 'grad_norm': 0.2502950131893158, 'learning_rate': 2.932486943229587e-05, 'epoch': 2.89}
 12%|█▏        | 9447/78504 [5:44:38<54:46:55,  2.86s/it] 12%|█▏        | 9448/78504 [5:44:41<52:20:53,  2.73s/it]                                                         {'loss': 0.0531, 'grad_norm': 0.25631266832351685, 'learning_rate': 2.932444482187593e-05, 'epoch': 2.89}
 12%|█▏        | 9448/78504 [5:44:41<52:20:53,  2.73s/it] 12%|█▏        | 9449/78504 [5:44:43<49:57:52,  2.60s/it]                                                         {'loss': 0.0687, 'grad_norm': 0.2562286853790283, 'learning_rate': 2.9324020211455992e-05, 'epoch': 2.89}
 12%|█▏        | 9449/78504 [5:44:43<49:57:52,  2.60s/it] 12%|█▏        | 9450/78504 [5:44:45<48:00:44,  2.50s/it]                                                         {'loss': 0.0933, 'grad_norm': 0.31203731894493103, 'learning_rate': 2.932359560103605e-05, 'epoch': 2.89}
 12%|█▏        | 9450/78504 [5:44:45<48:00:44,  2.50s/it] 12%|█▏        | 9451/78504 [5:44:47<46:12:04,  2.41s/it]                                                         {'loss': 0.0614, 'grad_norm': 0.2307712733745575, 'learning_rate': 2.9323170990616113e-05, 'epoch': 2.89}
 12%|█▏        | 9451/78504 [5:44:47<46:12:04,  2.41s/it] 12%|█▏        | 9452/78504 [5:44:49<44:49:20,  2.34s/it]                                                         {'loss': 0.0788, 'grad_norm': 0.47585350275039673, 'learning_rate': 2.9322746380196172e-05, 'epoch': 2.89}
 12%|█▏        | 9452/78504 [5:44:50<44:49:20,  2.34s/it] 12%|█▏        | 9453/78504 [5:44:51<42:10:16,  2.20s/it]                                                         {'loss': 0.0538, 'grad_norm': 0.2532622814178467, 'learning_rate': 2.9322321769776234e-05, 'epoch': 2.89}
 12%|█▏        | 9453/78504 [5:44:51<42:10:16,  2.20s/it] 12%|█▏        | 9454/78504 [5:44:53<40:55:23,  2.13s/it]                                                         {'loss': 0.0971, 'grad_norm': 0.46241241693496704, 'learning_rate': 2.9321897159356293e-05, 'epoch': 2.89}
 12%|█▏        | 9454/78504 [5:44:53<40:55:23,  2.13s/it] 12%|█▏        | 9455/78504 [5:44:55<39:43:16,  2.07s/it]                                                         {'loss': 0.1088, 'grad_norm': 0.2705094516277313, 'learning_rate': 2.932147254893635e-05, 'epoch': 2.89}
 12%|█▏        | 9455/78504 [5:44:55<39:43:16,  2.07s/it] 12%|█▏        | 9456/78504 [5:44:57<38:36:10,  2.01s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.5919674634933472, 'learning_rate': 2.9321047938516413e-05, 'epoch': 2.89}
 12%|█▏        | 9456/78504 [5:44:57<38:36:10,  2.01s/it] 12%|█▏        | 9457/78504 [5:44:59<37:09:19,  1.94s/it]                                                         {'loss': 0.1297, 'grad_norm': 0.4188600480556488, 'learning_rate': 2.9320623328096472e-05, 'epoch': 2.89}
 12%|█▏        | 9457/78504 [5:44:59<37:09:19,  1.94s/it] 12%|█▏        | 9458/78504 [5:45:00<35:08:21,  1.83s/it]                                                         {'loss': 0.1372, 'grad_norm': 0.35346519947052, 'learning_rate': 2.9320198717676534e-05, 'epoch': 2.89}
 12%|█▏        | 9458/78504 [5:45:01<35:08:21,  1.83s/it] 12%|█▏        | 9459/78504 [5:45:02<33:27:08,  1.74s/it]                                                         {'loss': 0.1724, 'grad_norm': 0.6553148627281189, 'learning_rate': 2.9319774107256593e-05, 'epoch': 2.89}
 12%|█▏        | 9459/78504 [5:45:02<33:27:08,  1.74s/it] 12%|█▏        | 9460/78504 [5:45:04<32:06:16,  1.67s/it]                                                         {'loss': 0.1402, 'grad_norm': 0.4959946870803833, 'learning_rate': 2.9319349496836655e-05, 'epoch': 2.89}
 12%|█▏        | 9460/78504 [5:45:04<32:06:16,  1.67s/it] 12%|█▏        | 9461/78504 [5:45:05<30:37:22,  1.60s/it]                                                         {'loss': 0.1897, 'grad_norm': 0.9400476217269897, 'learning_rate': 2.9318924886416714e-05, 'epoch': 2.89}
 12%|█▏        | 9461/78504 [5:45:05<30:37:22,  1.60s/it] 12%|█▏        | 9462/78504 [5:45:06<28:51:59,  1.51s/it]                                                         {'loss': 0.1673, 'grad_norm': 0.47316303849220276, 'learning_rate': 2.9318500275996776e-05, 'epoch': 2.89}
 12%|█▏        | 9462/78504 [5:45:06<28:51:59,  1.51s/it] 12%|█▏        | 9463/78504 [5:45:07<27:10:15,  1.42s/it]                                                         {'loss': 0.1739, 'grad_norm': 0.9790865182876587, 'learning_rate': 2.9318075665576834e-05, 'epoch': 2.89}
 12%|█▏        | 9463/78504 [5:45:07<27:10:15,  1.42s/it] 12%|█▏        | 9464/78504 [5:45:09<25:17:38,  1.32s/it]                                                         {'loss': 0.196, 'grad_norm': 1.2235937118530273, 'learning_rate': 2.9317651055156896e-05, 'epoch': 2.89}
 12%|█▏        | 9464/78504 [5:45:09<25:17:38,  1.32s/it] 12%|█▏        | 9465/78504 [5:45:10<23:45:29,  1.24s/it]                                                         {'loss': 0.1932, 'grad_norm': 0.7811759114265442, 'learning_rate': 2.9317226444736955e-05, 'epoch': 2.89}
 12%|█▏        | 9465/78504 [5:45:10<23:45:29,  1.24s/it] 12%|█▏        | 9466/78504 [5:45:11<21:58:29,  1.15s/it]                                                         {'loss': 0.1889, 'grad_norm': 1.3016515970230103, 'learning_rate': 2.9316801834317017e-05, 'epoch': 2.89}
 12%|█▏        | 9466/78504 [5:45:11<21:58:29,  1.15s/it] 12%|█▏        | 9467/78504 [5:45:11<20:00:13,  1.04s/it]                                                         {'loss': 0.2594, 'grad_norm': 1.520200490951538, 'learning_rate': 2.9316377223897076e-05, 'epoch': 2.89}
 12%|█▏        | 9467/78504 [5:45:11<20:00:13,  1.04s/it] 12%|█▏        | 9468/78504 [5:45:22<74:58:23,  3.91s/it]                                                         {'loss': 0.176, 'grad_norm': 0.39950552582740784, 'learning_rate': 2.9315952613477135e-05, 'epoch': 2.89}
 12%|█▏        | 9468/78504 [5:45:22<74:58:23,  3.91s/it] 12%|█▏        | 9469/78504 [5:45:25<71:12:56,  3.71s/it]                                                         {'loss': 0.084, 'grad_norm': 0.29610830545425415, 'learning_rate': 2.9315528003057197e-05, 'epoch': 2.89}
 12%|█▏        | 9469/78504 [5:45:25<71:12:56,  3.71s/it] 12%|█▏        | 9470/78504 [5:45:28<67:10:44,  3.50s/it]                                                         {'loss': 0.0667, 'grad_norm': 0.7358863949775696, 'learning_rate': 2.9315103392637255e-05, 'epoch': 2.9}
 12%|█▏        | 9470/78504 [5:45:28<67:10:44,  3.50s/it] 12%|█▏        | 9471/78504 [5:45:31<62:01:50,  3.23s/it]                                                         {'loss': 0.0589, 'grad_norm': 0.4801211655139923, 'learning_rate': 2.9314678782217318e-05, 'epoch': 2.9}
 12%|█▏        | 9471/78504 [5:45:31<62:01:50,  3.23s/it] 12%|█▏        | 9472/78504 [5:45:33<57:43:34,  3.01s/it]                                                         {'loss': 0.0667, 'grad_norm': 0.6334547400474548, 'learning_rate': 2.9314254171797376e-05, 'epoch': 2.9}
 12%|█▏        | 9472/78504 [5:45:33<57:43:34,  3.01s/it] 12%|█▏        | 9473/78504 [5:45:36<53:55:04,  2.81s/it]                                                         {'loss': 0.0566, 'grad_norm': 0.24267077445983887, 'learning_rate': 2.931382956137744e-05, 'epoch': 2.9}
 12%|█▏        | 9473/78504 [5:45:36<53:55:04,  2.81s/it] 12%|█▏        | 9474/78504 [5:45:38<51:07:36,  2.67s/it]                                                         {'loss': 0.0677, 'grad_norm': 0.6073476076126099, 'learning_rate': 2.9313404950957497e-05, 'epoch': 2.9}
 12%|█▏        | 9474/78504 [5:45:38<51:07:36,  2.67s/it] 12%|█▏        | 9475/78504 [5:45:40<47:49:05,  2.49s/it]                                                         {'loss': 0.0563, 'grad_norm': 0.2238348424434662, 'learning_rate': 2.931298034053756e-05, 'epoch': 2.9}
 12%|█▏        | 9475/78504 [5:45:40<47:49:05,  2.49s/it] 12%|█▏        | 9476/78504 [5:45:42<45:06:44,  2.35s/it]                                                         {'loss': 0.0861, 'grad_norm': 0.32006755471229553, 'learning_rate': 2.9312555730117618e-05, 'epoch': 2.9}
 12%|█▏        | 9476/78504 [5:45:42<45:06:44,  2.35s/it] 12%|█▏        | 9477/78504 [5:45:44<43:53:55,  2.29s/it]                                                         {'loss': 0.0747, 'grad_norm': 0.2989276945590973, 'learning_rate': 2.931213111969768e-05, 'epoch': 2.9}
 12%|█▏        | 9477/78504 [5:45:44<43:53:55,  2.29s/it] 12%|█▏        | 9478/78504 [5:45:46<42:10:31,  2.20s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.4777471125125885, 'learning_rate': 2.931170650927774e-05, 'epoch': 2.9}
 12%|█▏        | 9478/78504 [5:45:46<42:10:31,  2.20s/it] 12%|█▏        | 9479/78504 [5:45:48<40:52:58,  2.13s/it]                                                         {'loss': 0.0943, 'grad_norm': 0.603314995765686, 'learning_rate': 2.93112818988578e-05, 'epoch': 2.9}
 12%|█▏        | 9479/78504 [5:45:48<40:52:58,  2.13s/it] 12%|█▏        | 9480/78504 [5:45:50<39:23:56,  2.05s/it]                                                         {'loss': 0.0915, 'grad_norm': 0.3409748077392578, 'learning_rate': 2.931085728843786e-05, 'epoch': 2.9}
 12%|█▏        | 9480/78504 [5:45:50<39:23:56,  2.05s/it] 12%|█▏        | 9481/78504 [5:45:52<38:09:18,  1.99s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.8656413555145264, 'learning_rate': 2.9310432678017918e-05, 'epoch': 2.9}
 12%|█▏        | 9481/78504 [5:45:52<38:09:18,  1.99s/it] 12%|█▏        | 9482/78504 [5:45:54<36:51:30,  1.92s/it]                                                         {'loss': 0.142, 'grad_norm': 0.5296049118041992, 'learning_rate': 2.931000806759798e-05, 'epoch': 2.9}
 12%|█▏        | 9482/78504 [5:45:54<36:51:30,  1.92s/it] 12%|█▏        | 9483/78504 [5:45:55<35:58:04,  1.88s/it]                                                         {'loss': 0.168, 'grad_norm': 0.5345261693000793, 'learning_rate': 2.930958345717804e-05, 'epoch': 2.9}
 12%|█▏        | 9483/78504 [5:45:55<35:58:04,  1.88s/it] 12%|█▏        | 9484/78504 [5:45:57<33:55:39,  1.77s/it]                                                         {'loss': 0.1947, 'grad_norm': 0.7198222875595093, 'learning_rate': 2.93091588467581e-05, 'epoch': 2.9}
 12%|█▏        | 9484/78504 [5:45:57<33:55:39,  1.77s/it] 12%|█▏        | 9485/78504 [5:45:58<32:11:08,  1.68s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.7645419239997864, 'learning_rate': 2.930873423633816e-05, 'epoch': 2.9}
 12%|█▏        | 9485/78504 [5:45:58<32:11:08,  1.68s/it] 12%|█▏        | 9486/78504 [5:46:00<30:43:30,  1.60s/it]                                                         {'loss': 0.1933, 'grad_norm': 0.7308936715126038, 'learning_rate': 2.9308309625918222e-05, 'epoch': 2.9}
 12%|█▏        | 9486/78504 [5:46:00<30:43:30,  1.60s/it] 12%|█▏        | 9487/78504 [5:46:01<28:54:37,  1.51s/it]                                                         {'loss': 0.2134, 'grad_norm': 1.1526949405670166, 'learning_rate': 2.930788501549828e-05, 'epoch': 2.9}
 12%|█▏        | 9487/78504 [5:46:01<28:54:37,  1.51s/it] 12%|█▏        | 9488/78504 [5:46:02<26:52:26,  1.40s/it]                                                         {'loss': 0.185, 'grad_norm': 0.953068733215332, 'learning_rate': 2.9307460405078343e-05, 'epoch': 2.9}
 12%|█▏        | 9488/78504 [5:46:02<26:52:26,  1.40s/it] 12%|█▏        | 9489/78504 [5:46:03<25:07:03,  1.31s/it]                                                         {'loss': 0.2246, 'grad_norm': 0.950156569480896, 'learning_rate': 2.93070357946584e-05, 'epoch': 2.9}
 12%|█▏        | 9489/78504 [5:46:03<25:07:03,  1.31s/it] 12%|█▏        | 9490/78504 [5:46:04<23:18:40,  1.22s/it]                                                         {'loss': 0.3712, 'grad_norm': 2.238238573074341, 'learning_rate': 2.9306611184238463e-05, 'epoch': 2.9}
 12%|█▏        | 9490/78504 [5:46:04<23:18:40,  1.22s/it] 12%|█▏        | 9491/78504 [5:46:05<21:53:36,  1.14s/it]                                                         {'loss': 0.1978, 'grad_norm': 1.2850456237792969, 'learning_rate': 2.9306186573818522e-05, 'epoch': 2.9}
 12%|█▏        | 9491/78504 [5:46:05<21:53:36,  1.14s/it] 12%|█▏        | 9492/78504 [5:46:06<19:40:24,  1.03s/it]                                                         {'loss': 0.2978, 'grad_norm': 1.321852684020996, 'learning_rate': 2.9305761963398584e-05, 'epoch': 2.9}
 12%|█▏        | 9492/78504 [5:46:06<19:40:24,  1.03s/it] 12%|█▏        | 9493/78504 [5:46:15<66:58:06,  3.49s/it]                                                         {'loss': 0.1672, 'grad_norm': 0.4139690399169922, 'learning_rate': 2.9305337352978643e-05, 'epoch': 2.9}
 12%|█▏        | 9493/78504 [5:46:15<66:58:06,  3.49s/it] 12%|█▏        | 9494/78504 [5:46:19<66:13:17,  3.45s/it]                                                         {'loss': 0.089, 'grad_norm': 0.3234795331954956, 'learning_rate': 2.93049127425587e-05, 'epoch': 2.9}
 12%|█▏        | 9494/78504 [5:46:19<66:13:17,  3.45s/it] 12%|█▏        | 9495/78504 [5:46:22<63:28:42,  3.31s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.4606790244579315, 'learning_rate': 2.9304488132138764e-05, 'epoch': 2.9}
 12%|█▏        | 9495/78504 [5:46:22<63:28:42,  3.31s/it] 12%|█▏        | 9496/78504 [5:46:24<59:28:55,  3.10s/it]                                                         {'loss': 0.0578, 'grad_norm': 0.3908299207687378, 'learning_rate': 2.9304063521718822e-05, 'epoch': 2.9}
 12%|█▏        | 9496/78504 [5:46:24<59:28:55,  3.10s/it] 12%|█▏        | 9497/78504 [5:46:27<55:49:10,  2.91s/it]                                                         {'loss': 0.0677, 'grad_norm': 0.8974146842956543, 'learning_rate': 2.9303638911298884e-05, 'epoch': 2.9}
 12%|█▏        | 9497/78504 [5:46:27<55:49:10,  2.91s/it] 12%|█▏        | 9498/78504 [5:46:29<52:07:59,  2.72s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.30248603224754333, 'learning_rate': 2.9303214300878943e-05, 'epoch': 2.9}
 12%|█▏        | 9498/78504 [5:46:29<52:07:59,  2.72s/it] 12%|█▏        | 9499/78504 [5:46:31<49:48:33,  2.60s/it]                                                         {'loss': 0.0776, 'grad_norm': 0.23517438769340515, 'learning_rate': 2.9302789690459005e-05, 'epoch': 2.9}
 12%|█▏        | 9499/78504 [5:46:31<49:48:33,  2.60s/it] 12%|█▏        | 9500/78504 [5:46:33<46:55:56,  2.45s/it]                                                         {'loss': 0.0599, 'grad_norm': 0.22657829523086548, 'learning_rate': 2.9302365080039064e-05, 'epoch': 2.9}
 12%|█▏        | 9500/78504 [5:46:33<46:55:56,  2.45s/it] 12%|█▏        | 9501/78504 [5:46:35<44:30:18,  2.32s/it]                                                         {'loss': 0.0779, 'grad_norm': 0.3924674987792969, 'learning_rate': 2.9301940469619126e-05, 'epoch': 2.9}
 12%|█▏        | 9501/78504 [5:46:36<44:30:18,  2.32s/it] 12%|█▏        | 9502/78504 [5:46:38<43:25:02,  2.27s/it]                                                         {'loss': 0.0887, 'grad_norm': 0.3648838996887207, 'learning_rate': 2.9301515859199185e-05, 'epoch': 2.9}
 12%|█▏        | 9502/78504 [5:46:38<43:25:02,  2.27s/it] 12%|█▏        | 9503/78504 [5:46:40<42:03:44,  2.19s/it]                                                         {'loss': 0.0873, 'grad_norm': 0.5795908570289612, 'learning_rate': 2.9301091248779247e-05, 'epoch': 2.91}
 12%|█▏        | 9503/78504 [5:46:40<42:03:44,  2.19s/it] 12%|█▏        | 9504/78504 [5:46:42<40:48:40,  2.13s/it]                                                         {'loss': 0.0927, 'grad_norm': 0.37225741147994995, 'learning_rate': 2.9300666638359305e-05, 'epoch': 2.91}
 12%|█▏        | 9504/78504 [5:46:42<40:48:40,  2.13s/it] 12%|█▏        | 9505/78504 [5:46:44<39:18:43,  2.05s/it]                                                         {'loss': 0.129, 'grad_norm': 0.4438576400279999, 'learning_rate': 2.9300242027939368e-05, 'epoch': 2.91}
 12%|█▏        | 9505/78504 [5:46:44<39:18:43,  2.05s/it] 12%|█▏        | 9506/78504 [5:46:45<37:27:00,  1.95s/it]                                                         {'loss': 0.1013, 'grad_norm': 0.6251547336578369, 'learning_rate': 2.9299817417519426e-05, 'epoch': 2.91}
 12%|█▏        | 9506/78504 [5:46:45<37:27:00,  1.95s/it] 12%|█▏        | 9507/78504 [5:46:47<36:22:21,  1.90s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.7763168811798096, 'learning_rate': 2.9299392807099485e-05, 'epoch': 2.91}
 12%|█▏        | 9507/78504 [5:46:47<36:22:21,  1.90s/it] 12%|█▏        | 9508/78504 [5:46:49<34:51:24,  1.82s/it]                                                         {'loss': 0.1751, 'grad_norm': 1.3129101991653442, 'learning_rate': 2.9298968196679547e-05, 'epoch': 2.91}
 12%|█▏        | 9508/78504 [5:46:49<34:51:24,  1.82s/it] 12%|█▏        | 9509/78504 [5:46:50<33:08:10,  1.73s/it]                                                         {'loss': 0.179, 'grad_norm': 0.7433951497077942, 'learning_rate': 2.9298543586259606e-05, 'epoch': 2.91}
 12%|█▏        | 9509/78504 [5:46:50<33:08:10,  1.73s/it] 12%|█▏        | 9510/78504 [5:46:52<31:25:24,  1.64s/it]                                                         {'loss': 0.1646, 'grad_norm': 0.5733801126480103, 'learning_rate': 2.9298118975839668e-05, 'epoch': 2.91}
 12%|█▏        | 9510/78504 [5:46:52<31:25:24,  1.64s/it] 12%|█▏        | 9511/78504 [5:46:53<30:06:09,  1.57s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.6603352427482605, 'learning_rate': 2.9297694365419727e-05, 'epoch': 2.91}
 12%|█▏        | 9511/78504 [5:46:53<30:06:09,  1.57s/it] 12%|█▏        | 9512/78504 [5:46:54<28:07:00,  1.47s/it]                                                         {'loss': 0.2028, 'grad_norm': 1.1890414953231812, 'learning_rate': 2.929726975499979e-05, 'epoch': 2.91}
 12%|█▏        | 9512/78504 [5:46:54<28:07:00,  1.47s/it] 12%|█▏        | 9513/78504 [5:46:55<26:14:08,  1.37s/it]                                                         {'loss': 0.1722, 'grad_norm': 0.6553481817245483, 'learning_rate': 2.9296845144579847e-05, 'epoch': 2.91}
 12%|█▏        | 9513/78504 [5:46:55<26:14:08,  1.37s/it] 12%|█▏        | 9514/78504 [5:46:56<24:39:41,  1.29s/it]                                                         {'loss': 0.2266, 'grad_norm': 0.7633565664291382, 'learning_rate': 2.929642053415991e-05, 'epoch': 2.91}
 12%|█▏        | 9514/78504 [5:46:56<24:39:41,  1.29s/it] 12%|█▏        | 9515/78504 [5:46:57<22:54:20,  1.20s/it]                                                         {'loss': 0.1995, 'grad_norm': 0.8858582377433777, 'learning_rate': 2.9295995923739968e-05, 'epoch': 2.91}
 12%|█▏        | 9515/78504 [5:46:57<22:54:20,  1.20s/it] 12%|█▏        | 9516/78504 [5:46:58<21:22:50,  1.12s/it]                                                         {'loss': 0.2084, 'grad_norm': 1.4052703380584717, 'learning_rate': 2.929557131332003e-05, 'epoch': 2.91}
 12%|█▏        | 9516/78504 [5:46:58<21:22:50,  1.12s/it] 12%|█▏        | 9517/78504 [5:46:59<19:27:02,  1.02s/it]                                                         {'loss': 0.2795, 'grad_norm': 4.411797523498535, 'learning_rate': 2.929514670290009e-05, 'epoch': 2.91}
 12%|█▏        | 9517/78504 [5:46:59<19:27:02,  1.02s/it] 12%|█▏        | 9518/78504 [5:47:07<59:20:19,  3.10s/it]                                                         {'loss': 0.16, 'grad_norm': 0.42636868357658386, 'learning_rate': 2.929472209248015e-05, 'epoch': 2.91}
 12%|█▏        | 9518/78504 [5:47:07<59:20:19,  3.10s/it] 12%|█▏        | 9519/78504 [5:47:10<60:49:27,  3.17s/it]                                                         {'loss': 0.0739, 'grad_norm': 0.256923109292984, 'learning_rate': 2.929429748206021e-05, 'epoch': 2.91}
 12%|█▏        | 9519/78504 [5:47:10<60:49:27,  3.17s/it] 12%|█▏        | 9520/78504 [5:47:13<59:56:16,  3.13s/it]                                                         {'loss': 0.0699, 'grad_norm': 0.31801077723503113, 'learning_rate': 2.929387287164027e-05, 'epoch': 2.91}
 12%|█▏        | 9520/78504 [5:47:13<59:56:16,  3.13s/it] 12%|█▏        | 9521/78504 [5:47:16<56:58:37,  2.97s/it]                                                         {'loss': 0.0705, 'grad_norm': 0.5439955592155457, 'learning_rate': 2.929344826122033e-05, 'epoch': 2.91}
 12%|█▏        | 9521/78504 [5:47:16<56:58:37,  2.97s/it] 12%|█▏        | 9522/78504 [5:47:19<54:04:02,  2.82s/it]                                                         {'loss': 0.064, 'grad_norm': 0.2303752899169922, 'learning_rate': 2.929302365080039e-05, 'epoch': 2.91}
 12%|█▏        | 9522/78504 [5:47:19<54:04:02,  2.82s/it] 12%|█▏        | 9523/78504 [5:47:21<50:50:30,  2.65s/it]                                                         {'loss': 0.064, 'grad_norm': 0.2621385157108307, 'learning_rate': 2.929259904038045e-05, 'epoch': 2.91}
 12%|█▏        | 9523/78504 [5:47:21<50:50:30,  2.65s/it] 12%|█▏        | 9524/78504 [5:47:23<48:54:30,  2.55s/it]                                                         {'loss': 0.0821, 'grad_norm': 0.41638481616973877, 'learning_rate': 2.929217442996051e-05, 'epoch': 2.91}
 12%|█▏        | 9524/78504 [5:47:23<48:54:30,  2.55s/it] 12%|█▏        | 9525/78504 [5:47:25<46:16:20,  2.41s/it]                                                         {'loss': 0.0626, 'grad_norm': 0.3954157829284668, 'learning_rate': 2.9291749819540572e-05, 'epoch': 2.91}
 12%|█▏        | 9525/78504 [5:47:25<46:16:20,  2.41s/it] 12%|█▏        | 9526/78504 [5:47:27<44:54:02,  2.34s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.34886598587036133, 'learning_rate': 2.929132520912063e-05, 'epoch': 2.91}
 12%|█▏        | 9526/78504 [5:47:27<44:54:02,  2.34s/it] 12%|█▏        | 9527/78504 [5:47:30<43:45:46,  2.28s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.2501238286495209, 'learning_rate': 2.9290900598700693e-05, 'epoch': 2.91}
 12%|█▏        | 9527/78504 [5:47:30<43:45:46,  2.28s/it] 12%|█▏        | 9528/78504 [5:47:32<42:15:36,  2.21s/it]                                                         {'loss': 0.0836, 'grad_norm': 0.35949888825416565, 'learning_rate': 2.929047598828075e-05, 'epoch': 2.91}
 12%|█▏        | 9528/78504 [5:47:32<42:15:36,  2.21s/it] 12%|█▏        | 9529/78504 [5:47:34<40:56:42,  2.14s/it]                                                         {'loss': 0.082, 'grad_norm': 0.419342964887619, 'learning_rate': 2.9290051377860814e-05, 'epoch': 2.91}
 12%|█▏        | 9529/78504 [5:47:34<40:56:42,  2.14s/it] 12%|█▏        | 9530/78504 [5:47:35<39:22:21,  2.05s/it]                                                         {'loss': 0.085, 'grad_norm': 0.28890928626060486, 'learning_rate': 2.9289626767440872e-05, 'epoch': 2.91}
 12%|█▏        | 9530/78504 [5:47:35<39:22:21,  2.05s/it] 12%|█▏        | 9531/78504 [5:47:37<38:19:23,  2.00s/it]                                                         {'loss': 0.1568, 'grad_norm': 1.0739959478378296, 'learning_rate': 2.9289202157020934e-05, 'epoch': 2.91}
 12%|█▏        | 9531/78504 [5:47:37<38:19:23,  2.00s/it] 12%|█▏        | 9532/78504 [5:47:39<36:41:02,  1.91s/it]                                                         {'loss': 0.1335, 'grad_norm': 0.32217293977737427, 'learning_rate': 2.9288777546600993e-05, 'epoch': 2.91}
 12%|█▏        | 9532/78504 [5:47:39<36:41:02,  1.91s/it] 12%|█▏        | 9533/78504 [5:47:41<35:09:41,  1.84s/it]                                                         {'loss': 0.1317, 'grad_norm': 0.560753583908081, 'learning_rate': 2.9288352936181052e-05, 'epoch': 2.91}
 12%|█▏        | 9533/78504 [5:47:41<35:09:41,  1.84s/it] 12%|█▏        | 9534/78504 [5:47:42<33:29:49,  1.75s/it]                                                         {'loss': 0.194, 'grad_norm': 0.6119731664657593, 'learning_rate': 2.9287928325761114e-05, 'epoch': 2.91}
 12%|█▏        | 9534/78504 [5:47:42<33:29:49,  1.75s/it] 12%|█▏        | 9535/78504 [5:47:44<31:52:35,  1.66s/it]                                                         {'loss': 0.1666, 'grad_norm': 0.9606346487998962, 'learning_rate': 2.9287503715341173e-05, 'epoch': 2.92}
 12%|█▏        | 9535/78504 [5:47:44<31:52:35,  1.66s/it] 12%|█▏        | 9536/78504 [5:47:45<30:30:10,  1.59s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.6155529618263245, 'learning_rate': 2.9287079104921235e-05, 'epoch': 2.92}
 12%|█▏        | 9536/78504 [5:47:45<30:30:10,  1.59s/it] 12%|█▏        | 9537/78504 [5:47:46<28:22:00,  1.48s/it]                                                         {'loss': 0.1984, 'grad_norm': 0.9791519045829773, 'learning_rate': 2.9286654494501293e-05, 'epoch': 2.92}
 12%|█▏        | 9537/78504 [5:47:46<28:22:00,  1.48s/it] 12%|█▏        | 9538/78504 [5:47:47<26:21:57,  1.38s/it]                                                         {'loss': 0.2214, 'grad_norm': 1.1439716815948486, 'learning_rate': 2.9286229884081355e-05, 'epoch': 2.92}
 12%|█▏        | 9538/78504 [5:47:47<26:21:57,  1.38s/it] 12%|█▏        | 9539/78504 [5:47:49<24:43:42,  1.29s/it]                                                         {'loss': 0.1859, 'grad_norm': 1.194287896156311, 'learning_rate': 2.9285805273661414e-05, 'epoch': 2.92}
 12%|█▏        | 9539/78504 [5:47:49<24:43:42,  1.29s/it] 12%|█▏        | 9540/78504 [5:47:50<23:03:50,  1.20s/it]                                                         {'loss': 0.2202, 'grad_norm': 0.9337407350540161, 'learning_rate': 2.9285380663241476e-05, 'epoch': 2.92}
 12%|█▏        | 9540/78504 [5:47:50<23:03:50,  1.20s/it] 12%|█▏        | 9541/78504 [5:47:50<21:31:49,  1.12s/it]                                                         {'loss': 0.1952, 'grad_norm': 0.882502555847168, 'learning_rate': 2.9284956052821535e-05, 'epoch': 2.92}
 12%|█▏        | 9541/78504 [5:47:50<21:31:49,  1.12s/it] 12%|█▏        | 9542/78504 [5:47:51<19:33:43,  1.02s/it]                                                         {'loss': 0.2924, 'grad_norm': 1.7699084281921387, 'learning_rate': 2.9284531442401597e-05, 'epoch': 2.92}
 12%|█▏        | 9542/78504 [5:47:51<19:33:43,  1.02s/it] 12%|█▏        | 9543/78504 [5:48:00<63:21:29,  3.31s/it]                                                         {'loss': 0.1603, 'grad_norm': 0.50885409116745, 'learning_rate': 2.9284106831981656e-05, 'epoch': 2.92}
 12%|█▏        | 9543/78504 [5:48:00<63:21:29,  3.31s/it] 12%|█▏        | 9544/78504 [5:48:03<63:43:48,  3.33s/it]                                                         {'loss': 0.1001, 'grad_norm': 0.3810670077800751, 'learning_rate': 2.9283682221561718e-05, 'epoch': 2.92}
 12%|█▏        | 9544/78504 [5:48:03<63:43:48,  3.33s/it] 12%|█▏        | 9545/78504 [5:48:06<61:23:05,  3.20s/it]                                                         {'loss': 0.0817, 'grad_norm': 0.2724936306476593, 'learning_rate': 2.928325761114178e-05, 'epoch': 2.92}
 12%|█▏        | 9545/78504 [5:48:06<61:23:05,  3.20s/it] 12%|█▏        | 9546/78504 [5:48:09<57:46:45,  3.02s/it]                                                         {'loss': 0.0594, 'grad_norm': 0.3512064218521118, 'learning_rate': 2.928283300072184e-05, 'epoch': 2.92}
 12%|█▏        | 9546/78504 [5:48:09<57:46:45,  3.02s/it] 12%|█▏        | 9547/78504 [5:48:11<54:44:54,  2.86s/it]                                                         {'loss': 0.0686, 'grad_norm': 0.248258575797081, 'learning_rate': 2.92824083903019e-05, 'epoch': 2.92}
 12%|█▏        | 9547/78504 [5:48:11<54:44:54,  2.86s/it] 12%|█▏        | 9548/78504 [5:48:14<52:24:59,  2.74s/it]                                                         {'loss': 0.0514, 'grad_norm': 0.28581956028938293, 'learning_rate': 2.928198377988196e-05, 'epoch': 2.92}
 12%|█▏        | 9548/78504 [5:48:14<52:24:59,  2.74s/it] 12%|█▏        | 9549/78504 [5:48:16<49:59:11,  2.61s/it]                                                         {'loss': 0.0733, 'grad_norm': 0.39892300963401794, 'learning_rate': 2.928155916946202e-05, 'epoch': 2.92}
 12%|█▏        | 9549/78504 [5:48:16<49:59:11,  2.61s/it] 12%|█▏        | 9550/78504 [5:48:18<47:07:37,  2.46s/it]                                                         {'loss': 0.0696, 'grad_norm': 0.29443350434303284, 'learning_rate': 2.928113455904208e-05, 'epoch': 2.92}
 12%|█▏        | 9550/78504 [5:48:18<47:07:37,  2.46s/it] 12%|█▏        | 9551/78504 [5:48:20<45:32:56,  2.38s/it]                                                         {'loss': 0.0989, 'grad_norm': 0.586995005607605, 'learning_rate': 2.9280709948622142e-05, 'epoch': 2.92}
 12%|█▏        | 9551/78504 [5:48:20<45:32:56,  2.38s/it] 12%|█▏        | 9552/78504 [5:48:22<44:10:20,  2.31s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.3335859775543213, 'learning_rate': 2.92802853382022e-05, 'epoch': 2.92}
 12%|█▏        | 9552/78504 [5:48:22<44:10:20,  2.31s/it] 12%|█▏        | 9553/78504 [5:48:24<42:37:39,  2.23s/it]                                                         {'loss': 0.1362, 'grad_norm': 0.7376115918159485, 'learning_rate': 2.9279860727782263e-05, 'epoch': 2.92}
 12%|█▏        | 9553/78504 [5:48:25<42:37:39,  2.23s/it] 12%|█▏        | 9554/78504 [5:48:26<41:11:01,  2.15s/it]                                                         {'loss': 0.1141, 'grad_norm': 0.30719152092933655, 'learning_rate': 2.9279436117362322e-05, 'epoch': 2.92}
 12%|█▏        | 9554/78504 [5:48:26<41:11:01,  2.15s/it] 12%|█▏        | 9555/78504 [5:48:28<39:38:12,  2.07s/it]                                                         {'loss': 0.1048, 'grad_norm': 0.42819657921791077, 'learning_rate': 2.9279011506942384e-05, 'epoch': 2.92}
 12%|█▏        | 9555/78504 [5:48:28<39:38:12,  2.07s/it] 12%|█▏        | 9556/78504 [5:48:30<38:29:18,  2.01s/it]                                                         {'loss': 0.1535, 'grad_norm': 0.9159184098243713, 'learning_rate': 2.9278586896522443e-05, 'epoch': 2.92}
 12%|█▏        | 9556/78504 [5:48:30<38:29:18,  2.01s/it] 12%|█▏        | 9557/78504 [5:48:32<37:03:08,  1.93s/it]                                                         {'loss': 0.1067, 'grad_norm': 0.8380901217460632, 'learning_rate': 2.9278162286102505e-05, 'epoch': 2.92}
 12%|█▏        | 9557/78504 [5:48:32<37:03:08,  1.93s/it] 12%|█▏        | 9558/78504 [5:48:34<35:23:05,  1.85s/it]                                                         {'loss': 0.1536, 'grad_norm': 0.9876824617385864, 'learning_rate': 2.9277737675682563e-05, 'epoch': 2.92}
 12%|█▏        | 9558/78504 [5:48:34<35:23:05,  1.85s/it] 12%|█▏        | 9559/78504 [5:48:35<33:38:34,  1.76s/it]                                                         {'loss': 0.1689, 'grad_norm': 1.3185901641845703, 'learning_rate': 2.9277313065262622e-05, 'epoch': 2.92}
 12%|█▏        | 9559/78504 [5:48:35<33:38:34,  1.76s/it] 12%|█▏        | 9560/78504 [5:48:37<32:00:54,  1.67s/it]                                                         {'loss': 0.1452, 'grad_norm': 0.636849582195282, 'learning_rate': 2.9276888454842684e-05, 'epoch': 2.92}
 12%|█▏        | 9560/78504 [5:48:37<32:00:54,  1.67s/it] 12%|█▏        | 9561/78504 [5:48:38<30:23:44,  1.59s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.8813018202781677, 'learning_rate': 2.9276463844422743e-05, 'epoch': 2.92}
 12%|█▏        | 9561/78504 [5:48:38<30:23:44,  1.59s/it] 12%|█▏        | 9562/78504 [5:48:39<28:37:54,  1.50s/it]                                                         {'loss': 0.1975, 'grad_norm': 0.6528657674789429, 'learning_rate': 2.9276039234002805e-05, 'epoch': 2.92}
 12%|█▏        | 9562/78504 [5:48:39<28:37:54,  1.50s/it] 12%|█▏        | 9563/78504 [5:48:40<26:38:53,  1.39s/it]                                                         {'loss': 0.2105, 'grad_norm': 1.499597191810608, 'learning_rate': 2.9275614623582864e-05, 'epoch': 2.92}
 12%|█▏        | 9563/78504 [5:48:40<26:38:53,  1.39s/it] 12%|█▏        | 9564/78504 [5:48:42<25:00:05,  1.31s/it]                                                         {'loss': 0.1703, 'grad_norm': 1.1166744232177734, 'learning_rate': 2.9275190013162926e-05, 'epoch': 2.92}
 12%|█▏        | 9564/78504 [5:48:42<25:00:05,  1.31s/it] 12%|█▏        | 9565/78504 [5:48:43<23:10:44,  1.21s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.3889509439468384, 'learning_rate': 2.9274765402742984e-05, 'epoch': 2.92}
 12%|█▏        | 9565/78504 [5:48:43<23:10:44,  1.21s/it] 12%|█▏        | 9566/78504 [5:48:43<21:35:38,  1.13s/it]                                                         {'loss': 0.2016, 'grad_norm': 2.0468854904174805, 'learning_rate': 2.9274340792323046e-05, 'epoch': 2.92}
 12%|█▏        | 9566/78504 [5:48:44<21:35:38,  1.13s/it] 12%|█▏        | 9567/78504 [5:48:44<19:38:40,  1.03s/it]                                                         {'loss': 0.2799, 'grad_norm': 1.1911295652389526, 'learning_rate': 2.9273916181903105e-05, 'epoch': 2.92}
 12%|█▏        | 9567/78504 [5:48:44<19:38:40,  1.03s/it] 12%|█▏        | 9568/78504 [5:48:51<53:29:26,  2.79s/it]                                                         {'loss': 0.1626, 'grad_norm': 0.531600296497345, 'learning_rate': 2.9273491571483167e-05, 'epoch': 2.93}
 12%|█▏        | 9568/78504 [5:48:51<53:29:26,  2.79s/it] 12%|█▏        | 9569/78504 [5:48:54<55:00:05,  2.87s/it]                                                         {'loss': 0.0886, 'grad_norm': 0.29791873693466187, 'learning_rate': 2.9273066961063226e-05, 'epoch': 2.93}
 12%|█▏        | 9569/78504 [5:48:54<55:00:05,  2.87s/it] 12%|█▏        | 9570/78504 [5:48:57<55:38:27,  2.91s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.8431077599525452, 'learning_rate': 2.9272642350643285e-05, 'epoch': 2.93}
 12%|█▏        | 9570/78504 [5:48:57<55:38:27,  2.91s/it] 12%|█▏        | 9571/78504 [5:49:00<53:58:26,  2.82s/it]                                                         {'loss': 0.0664, 'grad_norm': 0.421640008687973, 'learning_rate': 2.9272217740223347e-05, 'epoch': 2.93}
 12%|█▏        | 9571/78504 [5:49:00<53:58:26,  2.82s/it] 12%|█▏        | 9572/78504 [5:49:02<52:01:15,  2.72s/it]                                                         {'loss': 0.0597, 'grad_norm': 0.19654053449630737, 'learning_rate': 2.9271793129803405e-05, 'epoch': 2.93}
 12%|█▏        | 9572/78504 [5:49:02<52:01:15,  2.72s/it] 12%|█▏        | 9573/78504 [5:49:05<50:22:37,  2.63s/it]                                                         {'loss': 0.0608, 'grad_norm': 0.38030102849006653, 'learning_rate': 2.9271368519383468e-05, 'epoch': 2.93}
 12%|█▏        | 9573/78504 [5:49:05<50:22:37,  2.63s/it] 12%|█▏        | 9574/78504 [5:49:07<48:37:46,  2.54s/it]                                                         {'loss': 0.0536, 'grad_norm': 0.445823609828949, 'learning_rate': 2.9270943908963526e-05, 'epoch': 2.93}
 12%|█▏        | 9574/78504 [5:49:07<48:37:46,  2.54s/it] 12%|█▏        | 9575/78504 [5:49:09<47:17:04,  2.47s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.37717175483703613, 'learning_rate': 2.927051929854359e-05, 'epoch': 2.93}
 12%|█▏        | 9575/78504 [5:49:09<47:17:04,  2.47s/it] 12%|█▏        | 9576/78504 [5:49:12<45:37:55,  2.38s/it]                                                         {'loss': 0.0635, 'grad_norm': 0.24588361382484436, 'learning_rate': 2.9270094688123647e-05, 'epoch': 2.93}
 12%|█▏        | 9576/78504 [5:49:12<45:37:55,  2.38s/it] 12%|█▏        | 9577/78504 [5:49:14<44:14:35,  2.31s/it]                                                         {'loss': 0.0756, 'grad_norm': 0.3426460325717926, 'learning_rate': 2.926967007770371e-05, 'epoch': 2.93}
 12%|█▏        | 9577/78504 [5:49:14<44:14:35,  2.31s/it] 12%|█▏        | 9578/78504 [5:49:16<42:35:26,  2.22s/it]                                                         {'loss': 0.0992, 'grad_norm': 0.47611966729164124, 'learning_rate': 2.9269245467283768e-05, 'epoch': 2.93}
 12%|█▏        | 9578/78504 [5:49:16<42:35:26,  2.22s/it] 12%|█▏        | 9579/78504 [5:49:18<41:11:07,  2.15s/it]                                                         {'loss': 0.0835, 'grad_norm': 0.28266358375549316, 'learning_rate': 2.926882085686383e-05, 'epoch': 2.93}
 12%|█▏        | 9579/78504 [5:49:18<41:11:07,  2.15s/it] 12%|█▏        | 9580/78504 [5:49:20<39:40:47,  2.07s/it]                                                         {'loss': 0.0974, 'grad_norm': 0.543343722820282, 'learning_rate': 2.926839624644389e-05, 'epoch': 2.93}
 12%|█▏        | 9580/78504 [5:49:20<39:40:47,  2.07s/it] 12%|█▏        | 9581/78504 [5:49:21<38:21:37,  2.00s/it]                                                         {'loss': 0.17, 'grad_norm': 1.984086275100708, 'learning_rate': 2.926797163602395e-05, 'epoch': 2.93}
 12%|█▏        | 9581/78504 [5:49:21<38:21:37,  2.00s/it] 12%|█▏        | 9582/78504 [5:49:23<36:45:16,  1.92s/it]                                                         {'loss': 0.1449, 'grad_norm': 0.5063874125480652, 'learning_rate': 2.926754702560401e-05, 'epoch': 2.93}
 12%|█▏        | 9582/78504 [5:49:23<36:45:16,  1.92s/it] 12%|█▏        | 9583/78504 [5:49:25<35:12:36,  1.84s/it]                                                         {'loss': 0.1927, 'grad_norm': 0.589968740940094, 'learning_rate': 2.9267122415184068e-05, 'epoch': 2.93}
 12%|█▏        | 9583/78504 [5:49:25<35:12:36,  1.84s/it] 12%|█▏        | 9584/78504 [5:49:26<33:23:35,  1.74s/it]                                                         {'loss': 0.155, 'grad_norm': 0.503560483455658, 'learning_rate': 2.926669780476413e-05, 'epoch': 2.93}
 12%|█▏        | 9584/78504 [5:49:26<33:23:35,  1.74s/it] 12%|█▏        | 9585/78504 [5:49:28<31:49:37,  1.66s/it]                                                         {'loss': 0.1514, 'grad_norm': 2.1099300384521484, 'learning_rate': 2.926627319434419e-05, 'epoch': 2.93}
 12%|█▏        | 9585/78504 [5:49:28<31:49:37,  1.66s/it] 12%|█▏        | 9586/78504 [5:49:29<30:14:08,  1.58s/it]                                                         {'loss': 0.1869, 'grad_norm': 0.7924941182136536, 'learning_rate': 2.926584858392425e-05, 'epoch': 2.93}
 12%|█▏        | 9586/78504 [5:49:29<30:14:08,  1.58s/it] 12%|█▏        | 9587/78504 [5:49:30<28:33:28,  1.49s/it]                                                         {'loss': 0.178, 'grad_norm': 1.0975288152694702, 'learning_rate': 2.926542397350431e-05, 'epoch': 2.93}
 12%|█▏        | 9587/78504 [5:49:31<28:33:28,  1.49s/it] 12%|█▏        | 9588/78504 [5:49:32<26:36:16,  1.39s/it]                                                         {'loss': 0.1632, 'grad_norm': 1.2116334438323975, 'learning_rate': 2.9264999363084372e-05, 'epoch': 2.93}
 12%|█▏        | 9588/78504 [5:49:32<26:36:16,  1.39s/it] 12%|█▏        | 9589/78504 [5:49:33<25:00:42,  1.31s/it]                                                         {'loss': 0.1734, 'grad_norm': 1.0730246305465698, 'learning_rate': 2.926457475266443e-05, 'epoch': 2.93}
 12%|█▏        | 9589/78504 [5:49:33<25:00:42,  1.31s/it] 12%|█▏        | 9590/78504 [5:49:34<23:32:00,  1.23s/it]                                                         {'loss': 0.2235, 'grad_norm': 0.8630696535110474, 'learning_rate': 2.9264150142244493e-05, 'epoch': 2.93}
 12%|█▏        | 9590/78504 [5:49:34<23:32:00,  1.23s/it] 12%|█▏        | 9591/78504 [5:49:35<21:49:14,  1.14s/it]                                                         {'loss': 0.2119, 'grad_norm': 1.8164535760879517, 'learning_rate': 2.926372553182455e-05, 'epoch': 2.93}
 12%|█▏        | 9591/78504 [5:49:35<21:49:14,  1.14s/it] 12%|█▏        | 9592/78504 [5:49:36<19:58:19,  1.04s/it]                                                         {'loss': 0.2746, 'grad_norm': 1.5318471193313599, 'learning_rate': 2.9263300921404613e-05, 'epoch': 2.93}
 12%|█▏        | 9592/78504 [5:49:36<19:58:19,  1.04s/it] 12%|█▏        | 9593/78504 [5:49:43<58:24:59,  3.05s/it]                                                         {'loss': 0.1615, 'grad_norm': 0.41075077652931213, 'learning_rate': 2.9262876310984672e-05, 'epoch': 2.93}
 12%|█▏        | 9593/78504 [5:49:43<58:24:59,  3.05s/it] 12%|█▏        | 9594/78504 [5:49:47<59:36:06,  3.11s/it]                                                         {'loss': 0.0715, 'grad_norm': 0.3874537944793701, 'learning_rate': 2.9262451700564734e-05, 'epoch': 2.93}
 12%|█▏        | 9594/78504 [5:49:47<59:36:06,  3.11s/it] 12%|█▏        | 9595/78504 [5:49:50<58:49:10,  3.07s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.3434481918811798, 'learning_rate': 2.9262027090144793e-05, 'epoch': 2.93}
 12%|█▏        | 9595/78504 [5:49:50<58:49:10,  3.07s/it] 12%|█▏        | 9596/78504 [5:49:52<56:02:49,  2.93s/it]                                                         {'loss': 0.0577, 'grad_norm': 1.0147613286972046, 'learning_rate': 2.926160247972485e-05, 'epoch': 2.93}
 12%|█▏        | 9596/78504 [5:49:52<56:02:49,  2.93s/it] 12%|█▏        | 9597/78504 [5:49:55<53:16:48,  2.78s/it]                                                         {'loss': 0.0413, 'grad_norm': 0.36902227997779846, 'learning_rate': 2.9261177869304914e-05, 'epoch': 2.93}
 12%|█▏        | 9597/78504 [5:49:55<53:16:48,  2.78s/it] 12%|█▏        | 9598/78504 [5:49:57<50:50:00,  2.66s/it]                                                         {'loss': 0.0899, 'grad_norm': 0.500054121017456, 'learning_rate': 2.9260753258884972e-05, 'epoch': 2.93}
 12%|█▏        | 9598/78504 [5:49:57<50:50:00,  2.66s/it] 12%|█▏        | 9599/78504 [5:49:59<48:59:42,  2.56s/it]                                                         {'loss': 0.0838, 'grad_norm': 0.5876935124397278, 'learning_rate': 2.9260328648465034e-05, 'epoch': 2.93}
 12%|█▏        | 9599/78504 [5:49:59<48:59:42,  2.56s/it] 12%|█▏        | 9600/78504 [5:50:01<46:15:55,  2.42s/it]                                                         {'loss': 0.0694, 'grad_norm': 0.3902348577976227, 'learning_rate': 2.9259904038045093e-05, 'epoch': 2.93}
 12%|█▏        | 9600/78504 [5:50:01<46:15:55,  2.42s/it] 12%|█▏        | 9601/78504 [5:50:03<44:05:52,  2.30s/it]                                                         {'loss': 0.0876, 'grad_norm': 0.5652562975883484, 'learning_rate': 2.9259479427625155e-05, 'epoch': 2.94}
 12%|█▏        | 9601/78504 [5:50:03<44:05:52,  2.30s/it] 12%|█▏        | 9602/78504 [5:50:06<43:06:57,  2.25s/it]                                                         {'loss': 0.0847, 'grad_norm': 0.9254360795021057, 'learning_rate': 2.9259054817205214e-05, 'epoch': 2.94}
 12%|█▏        | 9602/78504 [5:50:06<43:06:57,  2.25s/it] 12%|█▏        | 9603/78504 [5:50:08<41:40:04,  2.18s/it]                                                         {'loss': 0.1006, 'grad_norm': 0.40137431025505066, 'learning_rate': 2.9258630206785276e-05, 'epoch': 2.94}
 12%|█▏        | 9603/78504 [5:50:08<41:40:04,  2.18s/it] 12%|█▏        | 9604/78504 [5:50:09<40:14:15,  2.10s/it]                                                         {'loss': 0.1076, 'grad_norm': 0.9886817932128906, 'learning_rate': 2.9258205596365335e-05, 'epoch': 2.94}
 12%|█▏        | 9604/78504 [5:50:09<40:14:15,  2.10s/it] 12%|█▏        | 9605/78504 [5:50:11<38:53:58,  2.03s/it]                                                         {'loss': 0.1248, 'grad_norm': 0.8787093162536621, 'learning_rate': 2.9257780985945397e-05, 'epoch': 2.94}
 12%|█▏        | 9605/78504 [5:50:11<38:53:58,  2.03s/it] 12%|█▏        | 9606/78504 [5:50:13<37:02:24,  1.94s/it]                                                         {'loss': 0.1071, 'grad_norm': 0.43787881731987, 'learning_rate': 2.9257356375525455e-05, 'epoch': 2.94}
 12%|█▏        | 9606/78504 [5:50:13<37:02:24,  1.94s/it] 12%|█▏        | 9607/78504 [5:50:15<36:05:36,  1.89s/it]                                                         {'loss': 0.1712, 'grad_norm': 0.7101043462753296, 'learning_rate': 2.9256931765105518e-05, 'epoch': 2.94}
 12%|█▏        | 9607/78504 [5:50:15<36:05:36,  1.89s/it] 12%|█▏        | 9608/78504 [5:50:16<34:41:18,  1.81s/it]                                                         {'loss': 0.1364, 'grad_norm': 1.4172983169555664, 'learning_rate': 2.9256507154685576e-05, 'epoch': 2.94}
 12%|█▏        | 9608/78504 [5:50:16<34:41:18,  1.81s/it] 12%|█▏        | 9609/78504 [5:50:18<32:58:30,  1.72s/it]                                                         {'loss': 0.1464, 'grad_norm': 0.616346001625061, 'learning_rate': 2.9256082544265635e-05, 'epoch': 2.94}
 12%|█▏        | 9609/78504 [5:50:18<32:58:30,  1.72s/it] 12%|█▏        | 9610/78504 [5:50:19<31:21:37,  1.64s/it]                                                         {'loss': 0.2629, 'grad_norm': 1.3580348491668701, 'learning_rate': 2.9255657933845697e-05, 'epoch': 2.94}
 12%|█▏        | 9610/78504 [5:50:19<31:21:37,  1.64s/it] 12%|█▏        | 9611/78504 [5:50:21<30:08:22,  1.57s/it]                                                         {'loss': 0.192, 'grad_norm': 3.2972400188446045, 'learning_rate': 2.9255233323425756e-05, 'epoch': 2.94}
 12%|█▏        | 9611/78504 [5:50:21<30:08:22,  1.57s/it] 12%|█▏        | 9612/78504 [5:50:22<28:28:06,  1.49s/it]                                                         {'loss': 0.2129, 'grad_norm': 15.364459037780762, 'learning_rate': 2.9254808713005818e-05, 'epoch': 2.94}
 12%|█▏        | 9612/78504 [5:50:22<28:28:06,  1.49s/it] 12%|█▏        | 9613/78504 [5:50:23<26:30:19,  1.39s/it]                                                         {'loss': 0.2051, 'grad_norm': 1.3109256029129028, 'learning_rate': 2.9254384102585877e-05, 'epoch': 2.94}
 12%|█▏        | 9613/78504 [5:50:23<26:30:19,  1.39s/it] 12%|█▏        | 9614/78504 [5:50:24<24:53:17,  1.30s/it]                                                         {'loss': 0.1988, 'grad_norm': 0.8432818651199341, 'learning_rate': 2.925395949216594e-05, 'epoch': 2.94}
 12%|█▏        | 9614/78504 [5:50:24<24:53:17,  1.30s/it] 12%|█▏        | 9615/78504 [5:50:25<23:06:46,  1.21s/it]                                                         {'loss': 0.1807, 'grad_norm': 6.274487018585205, 'learning_rate': 2.9253534881745997e-05, 'epoch': 2.94}
 12%|█▏        | 9615/78504 [5:50:25<23:06:46,  1.21s/it] 12%|█▏        | 9616/78504 [5:50:26<21:31:51,  1.13s/it]                                                         {'loss': 0.2427, 'grad_norm': 11.974018096923828, 'learning_rate': 2.925311027132606e-05, 'epoch': 2.94}
 12%|█▏        | 9616/78504 [5:50:26<21:31:51,  1.13s/it] 12%|█▏        | 9617/78504 [5:50:27<19:35:45,  1.02s/it]                                                         {'loss': 0.2657, 'grad_norm': 1.485700249671936, 'learning_rate': 2.9252685660906118e-05, 'epoch': 2.94}
 12%|█▏        | 9617/78504 [5:50:27<19:35:45,  1.02s/it] 12%|█▏        | 9618/78504 [5:50:35<58:10:20,  3.04s/it]                                                         {'loss': 0.2, 'grad_norm': 0.6357463598251343, 'learning_rate': 2.925226105048618e-05, 'epoch': 2.94}
 12%|█▏        | 9618/78504 [5:50:35<58:10:20,  3.04s/it] 12%|█▏        | 9619/78504 [5:50:38<60:00:05,  3.14s/it]                                                         {'loss': 0.0647, 'grad_norm': 0.35212117433547974, 'learning_rate': 2.925183644006624e-05, 'epoch': 2.94}
 12%|█▏        | 9619/78504 [5:50:38<60:00:05,  3.14s/it] 12%|█▏        | 9620/78504 [5:50:41<56:43:51,  2.96s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.384356290102005, 'learning_rate': 2.92514118296463e-05, 'epoch': 2.94}
 12%|█▏        | 9620/78504 [5:50:41<56:43:51,  2.96s/it] 12%|█▏        | 9621/78504 [5:50:43<54:42:12,  2.86s/it]                                                         {'loss': 0.0706, 'grad_norm': 0.3798381984233856, 'learning_rate': 2.925098721922636e-05, 'epoch': 2.94}
 12%|█▏        | 9621/78504 [5:50:43<54:42:12,  2.86s/it] 12%|█▏        | 9622/78504 [5:50:46<52:26:04,  2.74s/it]                                                         {'loss': 0.0527, 'grad_norm': 0.5643787384033203, 'learning_rate': 2.925056260880642e-05, 'epoch': 2.94}
 12%|█▏        | 9622/78504 [5:50:46<52:26:04,  2.74s/it] 12%|█▏        | 9623/78504 [5:50:48<50:40:18,  2.65s/it]                                                         {'loss': 0.0554, 'grad_norm': 0.5512122511863708, 'learning_rate': 2.925013799838648e-05, 'epoch': 2.94}
 12%|█▏        | 9623/78504 [5:50:48<50:40:18,  2.65s/it] 12%|█▏        | 9624/78504 [5:50:51<48:45:15,  2.55s/it]                                                         {'loss': 0.0893, 'grad_norm': 0.32106801867485046, 'learning_rate': 2.924971338796654e-05, 'epoch': 2.94}
 12%|█▏        | 9624/78504 [5:50:51<48:45:15,  2.55s/it] 12%|█▏        | 9625/78504 [5:50:53<46:09:00,  2.41s/it]                                                         {'loss': 0.0502, 'grad_norm': 0.33639660477638245, 'learning_rate': 2.92492887775466e-05, 'epoch': 2.94}
 12%|█▏        | 9625/78504 [5:50:53<46:09:00,  2.41s/it] 12%|█▏        | 9626/78504 [5:50:55<44:51:07,  2.34s/it]                                                         {'loss': 0.1009, 'grad_norm': 1.2884845733642578, 'learning_rate': 2.924886416712666e-05, 'epoch': 2.94}
 12%|█▏        | 9626/78504 [5:50:55<44:51:07,  2.34s/it] 12%|█▏        | 9627/78504 [5:50:57<43:39:37,  2.28s/it]                                                         {'loss': 0.0656, 'grad_norm': 0.32614773511886597, 'learning_rate': 2.9248439556706722e-05, 'epoch': 2.94}
 12%|█▏        | 9627/78504 [5:50:57<43:39:37,  2.28s/it] 12%|█▏        | 9628/78504 [5:50:59<42:11:25,  2.21s/it]                                                         {'loss': 0.0904, 'grad_norm': 0.6083450317382812, 'learning_rate': 2.924801494628678e-05, 'epoch': 2.94}
 12%|█▏        | 9628/78504 [5:50:59<42:11:25,  2.21s/it] 12%|█▏        | 9629/78504 [5:51:01<40:51:55,  2.14s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.6526762843132019, 'learning_rate': 2.9247590335866843e-05, 'epoch': 2.94}
 12%|█▏        | 9629/78504 [5:51:01<40:51:55,  2.14s/it] 12%|█▏        | 9630/78504 [5:51:03<39:16:16,  2.05s/it]                                                         {'loss': 0.1015, 'grad_norm': 0.5361718535423279, 'learning_rate': 2.92471657254469e-05, 'epoch': 2.94}
 12%|█▏        | 9630/78504 [5:51:03<39:16:16,  2.05s/it] 12%|█▏        | 9631/78504 [5:51:05<38:02:47,  1.99s/it]                                                         {'loss': 0.1475, 'grad_norm': 0.738547146320343, 'learning_rate': 2.9246741115026964e-05, 'epoch': 2.94}
 12%|█▏        | 9631/78504 [5:51:05<38:02:47,  1.99s/it] 12%|█▏        | 9632/78504 [5:51:06<36:10:46,  1.89s/it]                                                         {'loss': 0.1347, 'grad_norm': 0.5734702944755554, 'learning_rate': 2.9246316504607022e-05, 'epoch': 2.94}
 12%|█▏        | 9632/78504 [5:51:06<36:10:46,  1.89s/it] 12%|█▏        | 9633/78504 [5:51:08<34:45:26,  1.82s/it]                                                         {'loss': 0.1479, 'grad_norm': 1.1149710416793823, 'learning_rate': 2.9245891894187084e-05, 'epoch': 2.94}
 12%|█▏        | 9633/78504 [5:51:08<34:45:26,  1.82s/it] 12%|█▏        | 9634/78504 [5:51:10<33:03:05,  1.73s/it]                                                         {'loss': 0.1992, 'grad_norm': 0.6299647688865662, 'learning_rate': 2.9245467283767143e-05, 'epoch': 2.95}
 12%|█▏        | 9634/78504 [5:51:10<33:03:05,  1.73s/it] 12%|█▏        | 9635/78504 [5:51:11<31:22:19,  1.64s/it]                                                         {'loss': 0.1776, 'grad_norm': 0.7792457938194275, 'learning_rate': 2.9245042673347202e-05, 'epoch': 2.95}
 12%|█▏        | 9635/78504 [5:51:11<31:22:19,  1.64s/it] 12%|█▏        | 9636/78504 [5:51:12<30:03:28,  1.57s/it]                                                         {'loss': 0.2032, 'grad_norm': 1.2495981454849243, 'learning_rate': 2.9244618062927264e-05, 'epoch': 2.95}
 12%|█▏        | 9636/78504 [5:51:12<30:03:28,  1.57s/it] 12%|█▏        | 9637/78504 [5:51:14<28:26:29,  1.49s/it]                                                         {'loss': 0.2121, 'grad_norm': 0.961858332157135, 'learning_rate': 2.9244193452507323e-05, 'epoch': 2.95}
 12%|█▏        | 9637/78504 [5:51:14<28:26:29,  1.49s/it] 12%|█▏        | 9638/78504 [5:51:15<26:31:49,  1.39s/it]                                                         {'loss': 0.2038, 'grad_norm': 0.9031283855438232, 'learning_rate': 2.9243768842087385e-05, 'epoch': 2.95}
 12%|█▏        | 9638/78504 [5:51:15<26:31:49,  1.39s/it] 12%|█▏        | 9639/78504 [5:51:16<24:54:14,  1.30s/it]                                                         {'loss': 0.2481, 'grad_norm': 0.8768535852432251, 'learning_rate': 2.9243344231667443e-05, 'epoch': 2.95}
 12%|█▏        | 9639/78504 [5:51:16<24:54:14,  1.30s/it] 12%|█▏        | 9640/78504 [5:51:17<23:06:27,  1.21s/it]                                                         {'loss': 0.2387, 'grad_norm': 1.7492749691009521, 'learning_rate': 2.9242919621247505e-05, 'epoch': 2.95}
 12%|█▏        | 9640/78504 [5:51:17<23:06:27,  1.21s/it] 12%|█▏        | 9641/78504 [5:51:18<21:35:21,  1.13s/it]                                                         {'loss': 0.2309, 'grad_norm': 0.9024081230163574, 'learning_rate': 2.9242495010827564e-05, 'epoch': 2.95}
 12%|█▏        | 9641/78504 [5:51:18<21:35:21,  1.13s/it] 12%|█▏        | 9642/78504 [5:51:19<19:33:44,  1.02s/it]                                                         {'loss': 0.3043, 'grad_norm': 1.5755265951156616, 'learning_rate': 2.9242070400407626e-05, 'epoch': 2.95}
 12%|█▏        | 9642/78504 [5:51:19<19:33:44,  1.02s/it] 12%|█▏        | 9643/78504 [5:51:28<67:39:26,  3.54s/it]                                                         {'loss': 0.1571, 'grad_norm': 0.7126705050468445, 'learning_rate': 2.9241645789987685e-05, 'epoch': 2.95}
 12%|█▏        | 9643/78504 [5:51:28<67:39:26,  3.54s/it] 12%|█▏        | 9644/78504 [5:51:31<66:17:40,  3.47s/it]                                                         {'loss': 0.095, 'grad_norm': 0.27792900800704956, 'learning_rate': 2.9241221179567747e-05, 'epoch': 2.95}
 12%|█▏        | 9644/78504 [5:51:31<66:17:40,  3.47s/it] 12%|█▏        | 9645/78504 [5:51:34<63:28:54,  3.32s/it]                                                         {'loss': 0.07, 'grad_norm': 0.35485681891441345, 'learning_rate': 2.9240796569147806e-05, 'epoch': 2.95}
 12%|█▏        | 9645/78504 [5:51:34<63:28:54,  3.32s/it] 12%|█▏        | 9646/78504 [5:51:37<59:18:50,  3.10s/it]                                                         {'loss': 0.0525, 'grad_norm': 0.35442617535591125, 'learning_rate': 2.9240371958727868e-05, 'epoch': 2.95}
 12%|█▏        | 9646/78504 [5:51:37<59:18:50,  3.10s/it] 12%|█▏        | 9647/78504 [5:51:39<55:48:42,  2.92s/it]                                                         {'loss': 0.0888, 'grad_norm': 0.2754741311073303, 'learning_rate': 2.923994734830793e-05, 'epoch': 2.95}
 12%|█▏        | 9647/78504 [5:51:39<55:48:42,  2.92s/it] 12%|█▏        | 9648/78504 [5:51:42<52:03:07,  2.72s/it]                                                         {'loss': 0.0663, 'grad_norm': 0.2898331880569458, 'learning_rate': 2.923952273788799e-05, 'epoch': 2.95}
 12%|█▏        | 9648/78504 [5:51:42<52:03:07,  2.72s/it] 12%|█▏        | 9649/78504 [5:51:44<49:48:11,  2.60s/it]                                                         {'loss': 0.0523, 'grad_norm': 0.33339443802833557, 'learning_rate': 2.923909812746805e-05, 'epoch': 2.95}
 12%|█▏        | 9649/78504 [5:51:44<49:48:11,  2.60s/it] 12%|█▏        | 9650/78504 [5:51:46<46:48:58,  2.45s/it]                                                         {'loss': 0.074, 'grad_norm': 0.24895340204238892, 'learning_rate': 2.923867351704811e-05, 'epoch': 2.95}
 12%|█▏        | 9650/78504 [5:51:46<46:48:58,  2.45s/it] 12%|█▏        | 9651/78504 [5:51:48<44:27:56,  2.32s/it]                                                         {'loss': 0.057, 'grad_norm': 0.845832347869873, 'learning_rate': 2.923824890662817e-05, 'epoch': 2.95}
 12%|█▏        | 9651/78504 [5:51:48<44:27:56,  2.32s/it] 12%|█▏        | 9652/78504 [5:51:50<43:23:18,  2.27s/it]                                                         {'loss': 0.0846, 'grad_norm': 0.24557135999202728, 'learning_rate': 2.923782429620823e-05, 'epoch': 2.95}
 12%|█▏        | 9652/78504 [5:51:50<43:23:18,  2.27s/it] 12%|█▏        | 9653/78504 [5:51:52<41:47:29,  2.19s/it]                                                         {'loss': 0.1006, 'grad_norm': 0.43398383259773254, 'learning_rate': 2.9237399685788292e-05, 'epoch': 2.95}
 12%|█▏        | 9653/78504 [5:51:52<41:47:29,  2.19s/it] 12%|█▏        | 9654/78504 [5:51:54<39:37:15,  2.07s/it]                                                         {'loss': 0.0945, 'grad_norm': 0.49457624554634094, 'learning_rate': 2.923697507536835e-05, 'epoch': 2.95}
 12%|█▏        | 9654/78504 [5:51:54<39:37:15,  2.07s/it] 12%|█▏        | 9655/78504 [5:51:56<38:24:28,  2.01s/it]                                                         {'loss': 0.1247, 'grad_norm': 0.5440248847007751, 'learning_rate': 2.9236550464948413e-05, 'epoch': 2.95}
 12%|█▏        | 9655/78504 [5:51:56<38:24:28,  2.01s/it] 12%|█▏        | 9656/78504 [5:51:58<36:44:26,  1.92s/it]                                                         {'loss': 0.1152, 'grad_norm': 0.5774962902069092, 'learning_rate': 2.9236125854528472e-05, 'epoch': 2.95}
 12%|█▏        | 9656/78504 [5:51:58<36:44:26,  1.92s/it] 12%|█▏        | 9657/78504 [5:51:59<35:38:26,  1.86s/it]                                                         {'loss': 0.1275, 'grad_norm': 1.3235417604446411, 'learning_rate': 2.9235701244108534e-05, 'epoch': 2.95}
 12%|█▏        | 9657/78504 [5:51:59<35:38:26,  1.86s/it] 12%|█▏        | 9658/78504 [5:52:01<34:24:43,  1.80s/it]                                                         {'loss': 0.151, 'grad_norm': 0.573714017868042, 'learning_rate': 2.9235276633688593e-05, 'epoch': 2.95}
 12%|█▏        | 9658/78504 [5:52:01<34:24:43,  1.80s/it] 12%|█▏        | 9659/78504 [5:52:03<32:53:15,  1.72s/it]                                                         {'loss': 0.1555, 'grad_norm': 0.751115620136261, 'learning_rate': 2.9234852023268655e-05, 'epoch': 2.95}
 12%|█▏        | 9659/78504 [5:52:03<32:53:15,  1.72s/it] 12%|█▏        | 9660/78504 [5:52:04<31:13:15,  1.63s/it]                                                         {'loss': 0.2162, 'grad_norm': 5.768263816833496, 'learning_rate': 2.9234427412848713e-05, 'epoch': 2.95}
 12%|█▏        | 9660/78504 [5:52:04<31:13:15,  1.63s/it] 12%|█▏        | 9661/78504 [5:52:05<29:57:22,  1.57s/it]                                                         {'loss': 0.1904, 'grad_norm': 0.6129060387611389, 'learning_rate': 2.9234002802428772e-05, 'epoch': 2.95}
 12%|█▏        | 9661/78504 [5:52:05<29:57:22,  1.57s/it] 12%|█▏        | 9662/78504 [5:52:07<28:18:34,  1.48s/it]                                                         {'loss': 0.2017, 'grad_norm': 0.9399309158325195, 'learning_rate': 2.9233578192008834e-05, 'epoch': 2.95}
 12%|█▏        | 9662/78504 [5:52:07<28:18:34,  1.48s/it] 12%|█▏        | 9663/78504 [5:52:08<26:22:00,  1.38s/it]                                                         {'loss': 0.2378, 'grad_norm': 0.9905286431312561, 'learning_rate': 2.9233153581588893e-05, 'epoch': 2.95}
 12%|█▏        | 9663/78504 [5:52:08<26:22:00,  1.38s/it] 12%|█▏        | 9664/78504 [5:52:09<24:47:10,  1.30s/it]                                                         {'loss': 0.2151, 'grad_norm': 1.1140319108963013, 'learning_rate': 2.9232728971168955e-05, 'epoch': 2.95}
 12%|█▏        | 9664/78504 [5:52:09<24:47:10,  1.30s/it] 12%|█▏        | 9665/78504 [5:52:10<23:29:07,  1.23s/it]                                                         {'loss': 0.1836, 'grad_norm': 1.0224595069885254, 'learning_rate': 2.9232304360749014e-05, 'epoch': 2.95}
 12%|█▏        | 9665/78504 [5:52:10<23:29:07,  1.23s/it] 12%|█▏        | 9666/78504 [5:52:11<21:48:26,  1.14s/it]                                                         {'loss': 0.2281, 'grad_norm': 1.2752197980880737, 'learning_rate': 2.9231879750329076e-05, 'epoch': 2.96}
 12%|█▏        | 9666/78504 [5:52:11<21:48:26,  1.14s/it] 12%|█▏        | 9667/78504 [5:52:12<19:46:38,  1.03s/it]                                                         {'loss': 0.2194, 'grad_norm': 1.9820750951766968, 'learning_rate': 2.9231455139909134e-05, 'epoch': 2.96}
 12%|█▏        | 9667/78504 [5:52:12<19:46:38,  1.03s/it] 12%|█▏        | 9668/78504 [5:52:21<68:14:46,  3.57s/it]                                                         {'loss': 0.156, 'grad_norm': 0.3858889043331146, 'learning_rate': 2.9231030529489197e-05, 'epoch': 2.96}
 12%|█▏        | 9668/78504 [5:52:21<68:14:46,  3.57s/it] 12%|█▏        | 9669/78504 [5:52:24<66:26:44,  3.48s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.4256429970264435, 'learning_rate': 2.9230605919069255e-05, 'epoch': 2.96}
 12%|█▏        | 9669/78504 [5:52:24<66:26:44,  3.48s/it] 12%|█▏        | 9670/78504 [5:52:27<63:37:27,  3.33s/it]                                                         {'loss': 0.0767, 'grad_norm': 0.2064121961593628, 'learning_rate': 2.9230181308649317e-05, 'epoch': 2.96}
 12%|█▏        | 9670/78504 [5:52:27<63:37:27,  3.33s/it] 12%|█▏        | 9671/78504 [5:52:30<59:21:43,  3.10s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.43793705105781555, 'learning_rate': 2.9229756698229376e-05, 'epoch': 2.96}
 12%|█▏        | 9671/78504 [5:52:30<59:21:43,  3.10s/it] 12%|█▏        | 9672/78504 [5:52:32<55:43:39,  2.91s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.7234390377998352, 'learning_rate': 2.9229332087809438e-05, 'epoch': 2.96}
 12%|█▏        | 9672/78504 [5:52:32<55:43:39,  2.91s/it] 12%|█▏        | 9673/78504 [5:52:35<51:59:25,  2.72s/it]                                                         {'loss': 0.0621, 'grad_norm': 0.2895190119743347, 'learning_rate': 2.9228907477389497e-05, 'epoch': 2.96}
 12%|█▏        | 9673/78504 [5:52:35<51:59:25,  2.72s/it] 12%|█▏        | 9674/78504 [5:52:37<49:42:18,  2.60s/it]                                                         {'loss': 0.0697, 'grad_norm': 0.21968385577201843, 'learning_rate': 2.9228482866969555e-05, 'epoch': 2.96}
 12%|█▏        | 9674/78504 [5:52:37<49:42:18,  2.60s/it] 12%|█▏        | 9675/78504 [5:52:39<46:47:51,  2.45s/it]                                                         {'loss': 0.0611, 'grad_norm': 0.3578644096851349, 'learning_rate': 2.9228058256549618e-05, 'epoch': 2.96}
 12%|█▏        | 9675/78504 [5:52:39<46:47:51,  2.45s/it] 12%|█▏        | 9676/78504 [5:52:41<45:14:46,  2.37s/it]                                                         {'loss': 0.068, 'grad_norm': 0.5867796540260315, 'learning_rate': 2.9227633646129676e-05, 'epoch': 2.96}
 12%|█▏        | 9676/78504 [5:52:41<45:14:46,  2.37s/it] 12%|█▏        | 9677/78504 [5:52:43<44:06:36,  2.31s/it]                                                         {'loss': 0.0637, 'grad_norm': 0.3145062029361725, 'learning_rate': 2.922720903570974e-05, 'epoch': 2.96}
 12%|█▏        | 9677/78504 [5:52:43<44:06:36,  2.31s/it] 12%|█▏        | 9678/78504 [5:52:45<42:31:11,  2.22s/it]                                                         {'loss': 0.0986, 'grad_norm': 0.35029488801956177, 'learning_rate': 2.9226784425289797e-05, 'epoch': 2.96}
 12%|█▏        | 9678/78504 [5:52:46<42:31:11,  2.22s/it] 12%|█▏        | 9679/78504 [5:52:47<41:07:12,  2.15s/it]                                                         {'loss': 0.0831, 'grad_norm': 0.35104143619537354, 'learning_rate': 2.922635981486986e-05, 'epoch': 2.96}
 12%|█▏        | 9679/78504 [5:52:47<41:07:12,  2.15s/it] 12%|█▏        | 9680/78504 [5:52:49<39:29:01,  2.07s/it]                                                         {'loss': 0.1019, 'grad_norm': 1.1221952438354492, 'learning_rate': 2.9225935204449918e-05, 'epoch': 2.96}
 12%|█▏        | 9680/78504 [5:52:49<39:29:01,  2.07s/it] 12%|█▏        | 9681/78504 [5:52:51<38:23:43,  2.01s/it]                                                         {'loss': 0.1152, 'grad_norm': 5.187539577484131, 'learning_rate': 2.922551059402998e-05, 'epoch': 2.96}
 12%|█▏        | 9681/78504 [5:52:51<38:23:43,  2.01s/it] 12%|█▏        | 9682/78504 [5:52:53<36:58:00,  1.93s/it]                                                         {'loss': 0.1115, 'grad_norm': 0.33511701226234436, 'learning_rate': 2.922508598361004e-05, 'epoch': 2.96}
 12%|█▏        | 9682/78504 [5:52:53<36:58:00,  1.93s/it] 12%|█▏        | 9683/78504 [5:52:55<35:18:04,  1.85s/it]                                                         {'loss': 0.1728, 'grad_norm': 1.9611514806747437, 'learning_rate': 2.92246613731901e-05, 'epoch': 2.96}
 12%|█▏        | 9683/78504 [5:52:55<35:18:04,  1.85s/it] 12%|█▏        | 9684/78504 [5:52:56<33:31:57,  1.75s/it]                                                         {'loss': 0.1707, 'grad_norm': 0.5222477912902832, 'learning_rate': 2.922423676277016e-05, 'epoch': 2.96}
 12%|█▏        | 9684/78504 [5:52:56<33:31:57,  1.75s/it] 12%|█▏        | 9685/78504 [5:52:58<31:54:13,  1.67s/it]                                                         {'loss': 0.1684, 'grad_norm': 1.2353956699371338, 'learning_rate': 2.922381215235022e-05, 'epoch': 2.96}
 12%|█▏        | 9685/78504 [5:52:58<31:54:13,  1.67s/it] 12%|█▏        | 9686/78504 [5:52:59<30:22:07,  1.59s/it]                                                         {'loss': 0.1863, 'grad_norm': 0.6053135991096497, 'learning_rate': 2.922338754193028e-05, 'epoch': 2.96}
 12%|█▏        | 9686/78504 [5:52:59<30:22:07,  1.59s/it] 12%|█▏        | 9687/78504 [5:53:00<28:37:37,  1.50s/it]                                                         {'loss': 0.2074, 'grad_norm': 0.7403700351715088, 'learning_rate': 2.922296293151034e-05, 'epoch': 2.96}
 12%|█▏        | 9687/78504 [5:53:00<28:37:37,  1.50s/it] 12%|█▏        | 9688/78504 [5:53:01<26:39:14,  1.39s/it]                                                         {'loss': 0.2556, 'grad_norm': 1.0289249420166016, 'learning_rate': 2.92225383210904e-05, 'epoch': 2.96}
 12%|█▏        | 9688/78504 [5:53:01<26:39:14,  1.39s/it] 12%|█▏        | 9689/78504 [5:53:03<24:53:55,  1.30s/it]                                                         {'loss': 0.1645, 'grad_norm': 0.7201842069625854, 'learning_rate': 2.922211371067046e-05, 'epoch': 2.96}
 12%|█▏        | 9689/78504 [5:53:03<24:53:55,  1.30s/it] 12%|█▏        | 9690/78504 [5:53:04<23:25:55,  1.23s/it]                                                         {'loss': 0.2015, 'grad_norm': 1.5951884984970093, 'learning_rate': 2.9221689100250522e-05, 'epoch': 2.96}
 12%|█▏        | 9690/78504 [5:53:04<23:25:55,  1.23s/it] 12%|█▏        | 9691/78504 [5:53:05<21:45:59,  1.14s/it]                                                         {'loss': 0.2507, 'grad_norm': 1.1410032510757446, 'learning_rate': 2.922126448983058e-05, 'epoch': 2.96}
 12%|█▏        | 9691/78504 [5:53:05<21:45:59,  1.14s/it] 12%|█▏        | 9692/78504 [5:53:05<19:52:05,  1.04s/it]                                                         {'loss': 0.2722, 'grad_norm': 2.889763355255127, 'learning_rate': 2.9220839879410643e-05, 'epoch': 2.96}
 12%|█▏        | 9692/78504 [5:53:05<19:52:05,  1.04s/it] 12%|█▏        | 9693/78504 [5:53:14<61:51:01,  3.24s/it]                                                         {'loss': 0.1663, 'grad_norm': 0.3931080102920532, 'learning_rate': 2.92204152689907e-05, 'epoch': 2.96}
 12%|█▏        | 9693/78504 [5:53:14<61:51:01,  3.24s/it] 12%|█▏        | 9694/78504 [5:53:17<62:33:43,  3.27s/it]                                                         {'loss': 0.113, 'grad_norm': 0.5349857211112976, 'learning_rate': 2.9219990658570763e-05, 'epoch': 2.96}
 12%|█▏        | 9694/78504 [5:53:17<62:33:43,  3.27s/it] 12%|█▏        | 9695/78504 [5:53:20<60:32:04,  3.17s/it]                                                         {'loss': 0.0797, 'grad_norm': 0.2731051743030548, 'learning_rate': 2.9219566048150822e-05, 'epoch': 2.96}
 12%|█▏        | 9695/78504 [5:53:20<60:32:04,  3.17s/it] 12%|█▏        | 9696/78504 [5:53:23<57:09:09,  2.99s/it]                                                         {'loss': 0.0574, 'grad_norm': 0.2531861364841461, 'learning_rate': 2.9219141437730884e-05, 'epoch': 2.96}
 12%|█▏        | 9696/78504 [5:53:23<57:09:09,  2.99s/it] 12%|█▏        | 9697/78504 [5:53:25<54:15:40,  2.84s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.24530918896198273, 'learning_rate': 2.9218716827310943e-05, 'epoch': 2.96}
 12%|█▏        | 9697/78504 [5:53:25<54:15:40,  2.84s/it] 12%|█▏        | 9698/78504 [5:53:27<51:55:51,  2.72s/it]                                                         {'loss': 0.0795, 'grad_norm': 0.4258497655391693, 'learning_rate': 2.9218292216891e-05, 'epoch': 2.96}
 12%|█▏        | 9698/78504 [5:53:28<51:55:51,  2.72s/it] 12%|█▏        | 9699/78504 [5:53:30<49:39:43,  2.60s/it]                                                         {'loss': 0.063, 'grad_norm': 0.2433251440525055, 'learning_rate': 2.9217867606471064e-05, 'epoch': 2.97}
 12%|█▏        | 9699/78504 [5:53:30<49:39:43,  2.60s/it] 12%|█▏        | 9700/78504 [5:53:32<46:54:00,  2.45s/it]                                                         {'loss': 0.0902, 'grad_norm': 1.3875195980072021, 'learning_rate': 2.9217442996051122e-05, 'epoch': 2.97}
 12%|█▏        | 9700/78504 [5:53:32<46:54:00,  2.45s/it] 12%|█▏        | 9701/78504 [5:53:34<45:20:57,  2.37s/it]                                                         {'loss': 0.0713, 'grad_norm': 0.5258328914642334, 'learning_rate': 2.9217018385631184e-05, 'epoch': 2.97}
 12%|█▏        | 9701/78504 [5:53:34<45:20:57,  2.37s/it] 12%|█▏        | 9702/78504 [5:53:36<44:08:01,  2.31s/it]                                                         {'loss': 0.0752, 'grad_norm': 0.3151976466178894, 'learning_rate': 2.9216593775211243e-05, 'epoch': 2.97}
 12%|█▏        | 9702/78504 [5:53:36<44:08:01,  2.31s/it] 12%|█▏        | 9703/78504 [5:53:38<41:34:02,  2.18s/it]                                                         {'loss': 0.1346, 'grad_norm': 0.48111051321029663, 'learning_rate': 2.9216169164791305e-05, 'epoch': 2.97}
 12%|█▏        | 9703/78504 [5:53:38<41:34:02,  2.18s/it] 12%|█▏        | 9704/78504 [5:53:40<40:28:43,  2.12s/it]                                                         {'loss': 0.0966, 'grad_norm': 0.3140221834182739, 'learning_rate': 2.9215744554371364e-05, 'epoch': 2.97}
 12%|█▏        | 9704/78504 [5:53:40<40:28:43,  2.12s/it] 12%|█▏        | 9705/78504 [5:53:42<39:21:17,  2.06s/it]                                                         {'loss': 0.1152, 'grad_norm': 0.6748590469360352, 'learning_rate': 2.9215319943951426e-05, 'epoch': 2.97}
 12%|█▏        | 9705/78504 [5:53:42<39:21:17,  2.06s/it] 12%|█▏        | 9706/78504 [5:53:44<38:23:02,  2.01s/it]                                                         {'loss': 0.1198, 'grad_norm': 0.6426633596420288, 'learning_rate': 2.9214895333531485e-05, 'epoch': 2.97}
 12%|█▏        | 9706/78504 [5:53:44<38:23:02,  2.01s/it] 12%|█▏        | 9707/78504 [5:53:46<36:58:05,  1.93s/it]                                                         {'loss': 0.1468, 'grad_norm': 0.692663848400116, 'learning_rate': 2.9214470723111547e-05, 'epoch': 2.97}
 12%|█▏        | 9707/78504 [5:53:46<36:58:05,  1.93s/it] 12%|█▏        | 9708/78504 [5:53:47<34:53:31,  1.83s/it]                                                         {'loss': 0.1122, 'grad_norm': 0.40378281474113464, 'learning_rate': 2.9214046112691606e-05, 'epoch': 2.97}
 12%|█▏        | 9708/78504 [5:53:47<34:53:31,  1.83s/it] 12%|█▏        | 9709/78504 [5:53:49<33:17:04,  1.74s/it]                                                         {'loss': 0.1793, 'grad_norm': 0.5635777711868286, 'learning_rate': 2.9213621502271668e-05, 'epoch': 2.97}
 12%|█▏        | 9709/78504 [5:53:49<33:17:04,  1.74s/it] 12%|█▏        | 9710/78504 [5:53:50<31:30:36,  1.65s/it]                                                         {'loss': 0.1994, 'grad_norm': 1.0573458671569824, 'learning_rate': 2.9213196891851726e-05, 'epoch': 2.97}
 12%|█▏        | 9710/78504 [5:53:50<31:30:36,  1.65s/it] 12%|█▏        | 9711/78504 [5:53:52<30:11:35,  1.58s/it]                                                         {'loss': 0.2103, 'grad_norm': 0.8386842608451843, 'learning_rate': 2.9212772281431785e-05, 'epoch': 2.97}
 12%|█▏        | 9711/78504 [5:53:52<30:11:35,  1.58s/it] 12%|█▏        | 9712/78504 [5:53:53<28:26:30,  1.49s/it]                                                         {'loss': 0.1887, 'grad_norm': 1.9114612340927124, 'learning_rate': 2.9212347671011847e-05, 'epoch': 2.97}
 12%|█▏        | 9712/78504 [5:53:53<28:26:30,  1.49s/it] 12%|█▏        | 9713/78504 [5:53:54<26:34:38,  1.39s/it]                                                         {'loss': 0.185, 'grad_norm': 0.8270473480224609, 'learning_rate': 2.9211923060591906e-05, 'epoch': 2.97}
 12%|█▏        | 9713/78504 [5:53:54<26:34:38,  1.39s/it] 12%|█▏        | 9714/78504 [5:53:55<24:49:54,  1.30s/it]                                                         {'loss': 0.1968, 'grad_norm': 0.7191406488418579, 'learning_rate': 2.9211498450171968e-05, 'epoch': 2.97}
 12%|█▏        | 9714/78504 [5:53:55<24:49:54,  1.30s/it] 12%|█▏        | 9715/78504 [5:53:56<23:00:55,  1.20s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.0168871879577637, 'learning_rate': 2.9211073839752027e-05, 'epoch': 2.97}
 12%|█▏        | 9715/78504 [5:53:56<23:00:55,  1.20s/it] 12%|█▏        | 9716/78504 [5:53:57<21:28:15,  1.12s/it]                                                         {'loss': 0.231, 'grad_norm': 1.4609034061431885, 'learning_rate': 2.921064922933209e-05, 'epoch': 2.97}
 12%|█▏        | 9716/78504 [5:53:57<21:28:15,  1.12s/it] 12%|█▏        | 9717/78504 [5:53:58<19:29:17,  1.02s/it]                                                         {'loss': 0.2256, 'grad_norm': 1.1511629819869995, 'learning_rate': 2.9210224618912147e-05, 'epoch': 2.97}
 12%|█▏        | 9717/78504 [5:53:58<19:29:17,  1.02s/it] 12%|█▏        | 9718/78504 [5:54:05<54:49:09,  2.87s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.6515172719955444, 'learning_rate': 2.920980000849221e-05, 'epoch': 2.97}
 12%|█▏        | 9718/78504 [5:54:05<54:49:09,  2.87s/it] 12%|█▏        | 9719/78504 [5:54:08<57:35:49,  3.01s/it]                                                         {'loss': 0.0879, 'grad_norm': 0.2903732657432556, 'learning_rate': 2.9209375398072268e-05, 'epoch': 2.97}
 12%|█▏        | 9719/78504 [5:54:08<57:35:49,  3.01s/it] 12%|█▏        | 9720/78504 [5:54:11<57:04:06,  2.99s/it]                                                         {'loss': 0.0735, 'grad_norm': 0.36117124557495117, 'learning_rate': 2.920895078765233e-05, 'epoch': 2.97}
 12%|█▏        | 9720/78504 [5:54:11<57:04:06,  2.99s/it] 12%|█▏        | 9721/78504 [5:54:14<53:50:13,  2.82s/it]                                                         {'loss': 0.0867, 'grad_norm': 0.3154255449771881, 'learning_rate': 2.920852617723239e-05, 'epoch': 2.97}
 12%|█▏        | 9721/78504 [5:54:14<53:50:13,  2.82s/it] 12%|█▏        | 9722/78504 [5:54:16<51:51:09,  2.71s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.42956000566482544, 'learning_rate': 2.920810156681245e-05, 'epoch': 2.97}
 12%|█▏        | 9722/78504 [5:54:16<51:51:09,  2.71s/it] 12%|█▏        | 9723/78504 [5:54:19<50:13:45,  2.63s/it]                                                         {'loss': 0.0724, 'grad_norm': 0.365443617105484, 'learning_rate': 2.920767695639251e-05, 'epoch': 2.97}
 12%|█▏        | 9723/78504 [5:54:19<50:13:45,  2.63s/it] 12%|█▏        | 9724/78504 [5:54:21<48:36:12,  2.54s/it]                                                         {'loss': 0.069, 'grad_norm': 0.2845870554447174, 'learning_rate': 2.920725234597257e-05, 'epoch': 2.97}
 12%|█▏        | 9724/78504 [5:54:21<48:36:12,  2.54s/it] 12%|█▏        | 9725/78504 [5:54:23<46:10:35,  2.42s/it]                                                         {'loss': 0.0645, 'grad_norm': 0.3234858810901642, 'learning_rate': 2.920682773555263e-05, 'epoch': 2.97}
 12%|█▏        | 9725/78504 [5:54:23<46:10:35,  2.42s/it] 12%|█▏        | 9726/78504 [5:54:25<44:49:05,  2.35s/it]                                                         {'loss': 0.0982, 'grad_norm': 0.3770597577095032, 'learning_rate': 2.920640312513269e-05, 'epoch': 2.97}
 12%|█▏        | 9726/78504 [5:54:25<44:49:05,  2.35s/it] 12%|█▏        | 9727/78504 [5:54:27<43:39:27,  2.29s/it]                                                         {'loss': 0.0887, 'grad_norm': 0.5215054154396057, 'learning_rate': 2.920597851471275e-05, 'epoch': 2.97}
 12%|█▏        | 9727/78504 [5:54:27<43:39:27,  2.29s/it] 12%|█▏        | 9728/78504 [5:54:29<42:10:01,  2.21s/it]                                                         {'loss': 0.076, 'grad_norm': 0.31996265053749084, 'learning_rate': 2.920555390429281e-05, 'epoch': 2.97}
 12%|█▏        | 9728/78504 [5:54:29<42:10:01,  2.21s/it] 12%|█▏        | 9729/78504 [5:54:31<40:50:03,  2.14s/it]                                                         {'loss': 0.0681, 'grad_norm': 1.06072199344635, 'learning_rate': 2.9205129293872872e-05, 'epoch': 2.97}
 12%|█▏        | 9729/78504 [5:54:31<40:50:03,  2.14s/it] 12%|█▏        | 9730/78504 [5:54:33<39:14:15,  2.05s/it]                                                         {'loss': 0.1166, 'grad_norm': 0.8706464171409607, 'learning_rate': 2.920470468345293e-05, 'epoch': 2.97}
 12%|█▏        | 9730/78504 [5:54:33<39:14:15,  2.05s/it] 12%|█▏        | 9731/78504 [5:54:35<37:54:13,  1.98s/it]                                                         {'loss': 0.131, 'grad_norm': 0.4362679719924927, 'learning_rate': 2.9204280073032993e-05, 'epoch': 2.97}
 12%|█▏        | 9731/78504 [5:54:35<37:54:13,  1.98s/it] 12%|█▏        | 9732/78504 [5:54:37<36:36:59,  1.92s/it]                                                         {'loss': 0.1261, 'grad_norm': 0.4954105615615845, 'learning_rate': 2.920385546261305e-05, 'epoch': 2.98}
 12%|█▏        | 9732/78504 [5:54:37<36:36:59,  1.92s/it] 12%|█▏        | 9733/78504 [5:54:39<35:04:59,  1.84s/it]                                                         {'loss': 0.1543, 'grad_norm': 0.38442936539649963, 'learning_rate': 2.9203430852193114e-05, 'epoch': 2.98}
 12%|█▏        | 9733/78504 [5:54:39<35:04:59,  1.84s/it] 12%|█▏        | 9734/78504 [5:54:40<33:20:45,  1.75s/it]                                                         {'loss': 0.1511, 'grad_norm': 0.5791740417480469, 'learning_rate': 2.9203006241773172e-05, 'epoch': 2.98}
 12%|█▏        | 9734/78504 [5:54:40<33:20:45,  1.75s/it] 12%|█▏        | 9735/78504 [5:54:42<31:40:04,  1.66s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.8343188762664795, 'learning_rate': 2.9202581631353234e-05, 'epoch': 2.98}
 12%|█▏        | 9735/78504 [5:54:42<31:40:04,  1.66s/it] 12%|█▏        | 9736/78504 [5:54:43<30:18:08,  1.59s/it]                                                         {'loss': 0.2028, 'grad_norm': 0.916337788105011, 'learning_rate': 2.9202157020933293e-05, 'epoch': 2.98}
 12%|█▏        | 9736/78504 [5:54:43<30:18:08,  1.59s/it] 12%|█▏        | 9737/78504 [5:54:44<28:32:14,  1.49s/it]                                                         {'loss': 0.1996, 'grad_norm': 1.1443713903427124, 'learning_rate': 2.9201732410513352e-05, 'epoch': 2.98}
 12%|█▏        | 9737/78504 [5:54:44<28:32:14,  1.49s/it] 12%|█▏        | 9738/78504 [5:54:45<26:31:37,  1.39s/it]                                                         {'loss': 0.1884, 'grad_norm': 0.8155877590179443, 'learning_rate': 2.9201307800093414e-05, 'epoch': 2.98}
 12%|█▏        | 9738/78504 [5:54:45<26:31:37,  1.39s/it] 12%|█▏        | 9739/78504 [5:54:46<24:47:27,  1.30s/it]                                                         {'loss': 0.1872, 'grad_norm': 0.9262773990631104, 'learning_rate': 2.9200883189673473e-05, 'epoch': 2.98}
 12%|█▏        | 9739/78504 [5:54:46<24:47:27,  1.30s/it] 12%|█▏        | 9740/78504 [5:54:47<23:16:40,  1.22s/it]                                                         {'loss': 0.2355, 'grad_norm': 1.2127101421356201, 'learning_rate': 2.9200458579253535e-05, 'epoch': 2.98}
 12%|█▏        | 9740/78504 [5:54:48<23:16:40,  1.22s/it] 12%|█▏        | 9741/78504 [5:54:48<21:34:32,  1.13s/it]                                                         {'loss': 0.2753, 'grad_norm': 1.7077219486236572, 'learning_rate': 2.9200033968833593e-05, 'epoch': 2.98}
 12%|█▏        | 9741/78504 [5:54:48<21:34:32,  1.13s/it] 12%|█▏        | 9742/78504 [5:54:49<19:33:30,  1.02s/it]                                                         {'loss': 0.2741, 'grad_norm': 1.5671055316925049, 'learning_rate': 2.9199609358413656e-05, 'epoch': 2.98}
 12%|█▏        | 9742/78504 [5:54:49<19:33:30,  1.02s/it] 12%|█▏        | 9743/78504 [5:54:57<59:07:42,  3.10s/it]                                                         {'loss': 0.1654, 'grad_norm': 0.8227390050888062, 'learning_rate': 2.9199184747993714e-05, 'epoch': 2.98}
 12%|█▏        | 9743/78504 [5:54:57<59:07:42,  3.10s/it] 12%|█▏        | 9744/78504 [5:55:00<58:01:52,  3.04s/it]                                                         {'loss': 0.0832, 'grad_norm': 0.3199424147605896, 'learning_rate': 2.9198760137573776e-05, 'epoch': 2.98}
 12%|█▏        | 9744/78504 [5:55:00<58:01:52,  3.04s/it] 12%|█▏        | 9745/78504 [5:55:03<55:17:49,  2.90s/it]                                                         {'loss': 0.0588, 'grad_norm': 0.3443079888820648, 'learning_rate': 2.9198335527153835e-05, 'epoch': 2.98}
 12%|█▏        | 9745/78504 [5:55:03<55:17:49,  2.90s/it] 12%|█▏        | 9746/78504 [5:55:05<53:38:59,  2.81s/it]                                                         {'loss': 0.0714, 'grad_norm': 0.47367164492607117, 'learning_rate': 2.9197910916733897e-05, 'epoch': 2.98}
 12%|█▏        | 9746/78504 [5:55:05<53:38:59,  2.81s/it] 12%|█▏        | 9747/78504 [5:55:08<51:41:23,  2.71s/it]                                                         {'loss': 0.054, 'grad_norm': 0.4252077043056488, 'learning_rate': 2.9197486306313956e-05, 'epoch': 2.98}
 12%|█▏        | 9747/78504 [5:55:08<51:41:23,  2.71s/it] 12%|█▏        | 9748/78504 [5:55:10<49:07:50,  2.57s/it]                                                         {'loss': 0.0606, 'grad_norm': 0.5180029273033142, 'learning_rate': 2.9197061695894018e-05, 'epoch': 2.98}
 12%|█▏        | 9748/78504 [5:55:10<49:07:50,  2.57s/it] 12%|█▏        | 9749/78504 [5:55:12<47:40:23,  2.50s/it]                                                         {'loss': 0.0692, 'grad_norm': 0.7167211771011353, 'learning_rate': 2.919663708547408e-05, 'epoch': 2.98}
 12%|█▏        | 9749/78504 [5:55:12<47:40:23,  2.50s/it] 12%|█▏        | 9750/78504 [5:55:14<45:20:35,  2.37s/it]                                                         {'loss': 0.098, 'grad_norm': 0.5415371656417847, 'learning_rate': 2.919621247505414e-05, 'epoch': 2.98}
 12%|█▏        | 9750/78504 [5:55:14<45:20:35,  2.37s/it] 12%|█▏        | 9751/78504 [5:55:16<44:12:09,  2.31s/it]                                                         {'loss': 0.082, 'grad_norm': 0.2757478356361389, 'learning_rate': 2.91957878646342e-05, 'epoch': 2.98}
 12%|█▏        | 9751/78504 [5:55:17<44:12:09,  2.31s/it] 12%|█▏        | 9752/78504 [5:55:19<43:13:05,  2.26s/it]                                                         {'loss': 0.0777, 'grad_norm': 0.45699435472488403, 'learning_rate': 2.919536325421426e-05, 'epoch': 2.98}
 12%|█▏        | 9752/78504 [5:55:19<43:13:05,  2.26s/it] 12%|█▏        | 9753/78504 [5:55:21<41:50:48,  2.19s/it]                                                         {'loss': 0.0918, 'grad_norm': 0.5351483225822449, 'learning_rate': 2.919493864379432e-05, 'epoch': 2.98}
 12%|█▏        | 9753/78504 [5:55:21<41:50:48,  2.19s/it] 12%|█▏        | 9754/78504 [5:55:23<40:39:17,  2.13s/it]                                                         {'loss': 0.0741, 'grad_norm': 0.5953289866447449, 'learning_rate': 2.919451403337438e-05, 'epoch': 2.98}
 12%|█▏        | 9754/78504 [5:55:23<40:39:17,  2.13s/it] 12%|█▏        | 9755/78504 [5:55:25<39:13:23,  2.05s/it]                                                         {'loss': 0.0995, 'grad_norm': 0.8466144800186157, 'learning_rate': 2.9194089422954442e-05, 'epoch': 2.98}
 12%|█▏        | 9755/78504 [5:55:25<39:13:23,  2.05s/it] 12%|█▏        | 9756/78504 [5:55:26<37:51:37,  1.98s/it]                                                         {'loss': 0.1247, 'grad_norm': 0.8070288896560669, 'learning_rate': 2.91936648125345e-05, 'epoch': 2.98}
 12%|█▏        | 9756/78504 [5:55:26<37:51:37,  1.98s/it] 12%|█▏        | 9757/78504 [5:55:28<36:21:36,  1.90s/it]                                                         {'loss': 0.1138, 'grad_norm': 1.1744111776351929, 'learning_rate': 2.9193240202114563e-05, 'epoch': 2.98}
 12%|█▏        | 9757/78504 [5:55:28<36:21:36,  1.90s/it] 12%|█▏        | 9758/78504 [5:55:30<34:49:25,  1.82s/it]                                                         {'loss': 0.1799, 'grad_norm': 0.7191773653030396, 'learning_rate': 2.9192815591694622e-05, 'epoch': 2.98}
 12%|█▏        | 9758/78504 [5:55:30<34:49:25,  1.82s/it] 12%|█▏        | 9759/78504 [5:55:31<33:08:06,  1.74s/it]                                                         {'loss': 0.1758, 'grad_norm': 0.6184241771697998, 'learning_rate': 2.9192390981274684e-05, 'epoch': 2.98}
 12%|█▏        | 9759/78504 [5:55:31<33:08:06,  1.74s/it] 12%|█▏        | 9760/78504 [5:55:33<31:31:57,  1.65s/it]                                                         {'loss': 0.1566, 'grad_norm': 0.7951871752738953, 'learning_rate': 2.9191966370854743e-05, 'epoch': 2.98}
 12%|█▏        | 9760/78504 [5:55:33<31:31:57,  1.65s/it] 12%|█▏        | 9761/78504 [5:55:34<30:14:08,  1.58s/it]                                                         {'loss': 0.1679, 'grad_norm': 1.35600745677948, 'learning_rate': 2.9191541760434805e-05, 'epoch': 2.98}
 12%|█▏        | 9761/78504 [5:55:34<30:14:08,  1.58s/it] 12%|█▏        | 9762/78504 [5:55:35<28:28:17,  1.49s/it]                                                         {'loss': 0.2331, 'grad_norm': 1.2044991254806519, 'learning_rate': 2.9191117150014863e-05, 'epoch': 2.98}
 12%|█▏        | 9762/78504 [5:55:35<28:28:17,  1.49s/it] 12%|█▏        | 9763/78504 [5:55:37<26:21:25,  1.38s/it]                                                         {'loss': 0.2149, 'grad_norm': 1.2498493194580078, 'learning_rate': 2.9190692539594922e-05, 'epoch': 2.98}
 12%|█▏        | 9763/78504 [5:55:37<26:21:25,  1.38s/it] 12%|█▏        | 9764/78504 [5:55:38<24:39:40,  1.29s/it]                                                         {'loss': 0.1959, 'grad_norm': 1.3298674821853638, 'learning_rate': 2.9190267929174984e-05, 'epoch': 2.99}
 12%|█▏        | 9764/78504 [5:55:38<24:39:40,  1.29s/it] 12%|█▏        | 9765/78504 [5:55:39<22:54:52,  1.20s/it]                                                         {'loss': 0.2433, 'grad_norm': 1.2377568483352661, 'learning_rate': 2.9189843318755043e-05, 'epoch': 2.99}
 12%|█▏        | 9765/78504 [5:55:39<22:54:52,  1.20s/it] 12%|█▏        | 9766/78504 [5:55:40<21:25:26,  1.12s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.9111335277557373, 'learning_rate': 2.9189418708335105e-05, 'epoch': 2.99}
 12%|█▏        | 9766/78504 [5:55:40<21:25:26,  1.12s/it] 12%|█▏        | 9767/78504 [5:55:40<19:29:00,  1.02s/it]                                                         {'loss': 0.2663, 'grad_norm': 1.4288768768310547, 'learning_rate': 2.9188994097915164e-05, 'epoch': 2.99}
 12%|█▏        | 9767/78504 [5:55:40<19:29:00,  1.02s/it] 12%|█▏        | 9768/78504 [5:55:47<53:18:22,  2.79s/it]                                                         {'loss': 0.1813, 'grad_norm': 0.7578693628311157, 'learning_rate': 2.9188569487495226e-05, 'epoch': 2.99}
 12%|█▏        | 9768/78504 [5:55:47<53:18:22,  2.79s/it] 12%|█▏        | 9769/78504 [5:55:51<56:32:44,  2.96s/it]                                                         {'loss': 0.0764, 'grad_norm': 0.5141378045082092, 'learning_rate': 2.9188144877075284e-05, 'epoch': 2.99}
 12%|█▏        | 9769/78504 [5:55:51<56:32:44,  2.96s/it] 12%|█▏        | 9770/78504 [5:55:53<54:15:17,  2.84s/it]                                                         {'loss': 0.0892, 'grad_norm': 0.35434073209762573, 'learning_rate': 2.9187720266655347e-05, 'epoch': 2.99}
 12%|█▏        | 9770/78504 [5:55:53<54:15:17,  2.84s/it] 12%|█▏        | 9771/78504 [5:55:56<52:56:59,  2.77s/it]                                                         {'loss': 0.0883, 'grad_norm': 0.4904114305973053, 'learning_rate': 2.9187295656235405e-05, 'epoch': 2.99}
 12%|█▏        | 9771/78504 [5:55:56<52:56:59,  2.77s/it] 12%|█▏        | 9772/78504 [5:55:58<50:32:46,  2.65s/it]                                                         {'loss': 0.0612, 'grad_norm': 0.7036105394363403, 'learning_rate': 2.9186871045815467e-05, 'epoch': 2.99}
 12%|█▏        | 9772/78504 [5:55:58<50:32:46,  2.65s/it] 12%|█▏        | 9773/78504 [5:56:00<48:19:48,  2.53s/it]                                                         {'loss': 0.0605, 'grad_norm': 0.5539510846138, 'learning_rate': 2.9186446435395526e-05, 'epoch': 2.99}
 12%|█▏        | 9773/78504 [5:56:00<48:19:48,  2.53s/it] 12%|█▏        | 9774/78504 [5:56:03<47:06:39,  2.47s/it]                                                         {'loss': 0.0815, 'grad_norm': 0.28424811363220215, 'learning_rate': 2.9186021824975588e-05, 'epoch': 2.99}
 12%|█▏        | 9774/78504 [5:56:03<47:06:39,  2.47s/it] 12%|█▏        | 9775/78504 [5:56:05<45:03:20,  2.36s/it]                                                         {'loss': 0.0868, 'grad_norm': 0.56105637550354, 'learning_rate': 2.9185597214555647e-05, 'epoch': 2.99}
 12%|█▏        | 9775/78504 [5:56:05<45:03:20,  2.36s/it] 12%|█▏        | 9776/78504 [5:56:07<44:03:41,  2.31s/it]                                                         {'loss': 0.0742, 'grad_norm': 0.28852495551109314, 'learning_rate': 2.9185172604135706e-05, 'epoch': 2.99}
 12%|█▏        | 9776/78504 [5:56:07<44:03:41,  2.31s/it] 12%|█▏        | 9777/78504 [5:56:09<43:05:57,  2.26s/it]                                                         {'loss': 0.0746, 'grad_norm': 0.4019556939601898, 'learning_rate': 2.9184747993715768e-05, 'epoch': 2.99}
 12%|█▏        | 9777/78504 [5:56:09<43:05:57,  2.26s/it] 12%|█▏        | 9778/78504 [5:56:11<41:44:05,  2.19s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.2910701632499695, 'learning_rate': 2.9184323383295826e-05, 'epoch': 2.99}
 12%|█▏        | 9778/78504 [5:56:11<41:44:05,  2.19s/it] 12%|█▏        | 9779/78504 [5:56:13<40:33:09,  2.12s/it]                                                         {'loss': 0.0748, 'grad_norm': 0.610960841178894, 'learning_rate': 2.918389877287589e-05, 'epoch': 2.99}
 12%|█▏        | 9779/78504 [5:56:13<40:33:09,  2.12s/it] 12%|█▏        | 9780/78504 [5:56:15<39:02:07,  2.04s/it]                                                         {'loss': 0.0996, 'grad_norm': 0.4478066563606262, 'learning_rate': 2.9183474162455947e-05, 'epoch': 2.99}
 12%|█▏        | 9780/78504 [5:56:15<39:02:07,  2.04s/it] 12%|█▏        | 9781/78504 [5:56:17<37:45:20,  1.98s/it]                                                         {'loss': 0.1473, 'grad_norm': 0.3964863419532776, 'learning_rate': 2.918304955203601e-05, 'epoch': 2.99}
 12%|█▏        | 9781/78504 [5:56:17<37:45:20,  1.98s/it] 12%|█▏        | 9782/78504 [5:56:19<36:16:27,  1.90s/it]                                                         {'loss': 0.1105, 'grad_norm': 0.608395516872406, 'learning_rate': 2.9182624941616068e-05, 'epoch': 2.99}
 12%|█▏        | 9782/78504 [5:56:19<36:16:27,  1.90s/it] 12%|█▏        | 9783/78504 [5:56:20<34:44:36,  1.82s/it]                                                         {'loss': 0.1467, 'grad_norm': 1.4929276704788208, 'learning_rate': 2.918220033119613e-05, 'epoch': 2.99}
 12%|█▏        | 9783/78504 [5:56:20<34:44:36,  1.82s/it] 12%|█▏        | 9784/78504 [5:56:22<32:57:45,  1.73s/it]                                                         {'loss': 0.1704, 'grad_norm': 0.6170409321784973, 'learning_rate': 2.918177572077619e-05, 'epoch': 2.99}
 12%|█▏        | 9784/78504 [5:56:22<32:57:45,  1.73s/it] 12%|█▏        | 9785/78504 [5:56:23<31:15:42,  1.64s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.7112331390380859, 'learning_rate': 2.918135111035625e-05, 'epoch': 2.99}
 12%|█▏        | 9785/78504 [5:56:23<31:15:42,  1.64s/it] 12%|█▏        | 9786/78504 [5:56:25<29:56:59,  1.57s/it]                                                         {'loss': 0.1767, 'grad_norm': 3.6701245307922363, 'learning_rate': 2.918092649993631e-05, 'epoch': 2.99}
 12%|█▏        | 9786/78504 [5:56:25<29:56:59,  1.57s/it] 12%|█▏        | 9787/78504 [5:56:26<27:53:40,  1.46s/it]                                                         {'loss': 0.1886, 'grad_norm': 0.9564414620399475, 'learning_rate': 2.918050188951637e-05, 'epoch': 2.99}
 12%|█▏        | 9787/78504 [5:56:26<27:53:40,  1.46s/it] 12%|█▏        | 9788/78504 [5:56:27<25:55:03,  1.36s/it]                                                         {'loss': 0.1993, 'grad_norm': 0.8200288414955139, 'learning_rate': 2.918007727909643e-05, 'epoch': 2.99}
 12%|█▏        | 9788/78504 [5:56:27<25:55:03,  1.36s/it] 12%|█▏        | 9789/78504 [5:56:28<24:23:22,  1.28s/it]                                                         {'loss': 0.2254, 'grad_norm': 0.8599677085876465, 'learning_rate': 2.917965266867649e-05, 'epoch': 2.99}
 12%|█▏        | 9789/78504 [5:56:28<24:23:22,  1.28s/it] 12%|█▏        | 9790/78504 [5:56:29<22:40:58,  1.19s/it]                                                         {'loss': 0.226, 'grad_norm': 1.6989431381225586, 'learning_rate': 2.917922805825655e-05, 'epoch': 2.99}
 12%|█▏        | 9790/78504 [5:56:29<22:40:58,  1.19s/it] 12%|█▏        | 9791/78504 [5:56:30<21:13:31,  1.11s/it]                                                         {'loss': 0.2175, 'grad_norm': 0.8747321367263794, 'learning_rate': 2.917880344783661e-05, 'epoch': 2.99}
 12%|█▏        | 9791/78504 [5:56:30<21:13:31,  1.11s/it] 12%|█▏        | 9792/78504 [5:56:31<19:05:45,  1.00s/it]                                                         {'loss': 0.3064, 'grad_norm': 1.2007137537002563, 'learning_rate': 2.9178378837416672e-05, 'epoch': 2.99}
 12%|█▏        | 9792/78504 [5:56:31<19:05:45,  1.00s/it] 12%|█▏        | 9793/78504 [5:56:38<57:37:25,  3.02s/it]                                                         {'loss': 0.1492, 'grad_norm': 0.48190832138061523, 'learning_rate': 2.917795422699673e-05, 'epoch': 2.99}
 12%|█▏        | 9793/78504 [5:56:38<57:37:25,  3.02s/it] 12%|█▏        | 9794/78504 [5:56:41<57:10:43,  3.00s/it]                                                         {'loss': 0.1015, 'grad_norm': 0.5143500566482544, 'learning_rate': 2.9177529616576793e-05, 'epoch': 2.99}
 12%|█▏        | 9794/78504 [5:56:41<57:10:43,  3.00s/it] 12%|█▏        | 9795/78504 [5:56:44<56:46:54,  2.98s/it]                                                         {'loss': 0.0575, 'grad_norm': 0.328666627407074, 'learning_rate': 2.917710500615685e-05, 'epoch': 2.99}
 12%|█▏        | 9795/78504 [5:56:44<56:46:54,  2.98s/it] 12%|█▏        | 9796/78504 [5:56:47<53:58:13,  2.83s/it]                                                         {'loss': 0.0689, 'grad_norm': 0.28606873750686646, 'learning_rate': 2.9176680395736913e-05, 'epoch': 2.99}
 12%|█▏        | 9796/78504 [5:56:47<53:58:13,  2.83s/it] 12%|█▏        | 9797/78504 [5:56:49<51:39:26,  2.71s/it]                                                         {'loss': 0.0533, 'grad_norm': 0.3853461742401123, 'learning_rate': 2.9176255785316972e-05, 'epoch': 3.0}
 12%|█▏        | 9797/78504 [5:56:49<51:39:26,  2.71s/it] 12%|█▏        | 9798/78504 [5:56:51<49:29:54,  2.59s/it]                                                         {'loss': 0.0633, 'grad_norm': 0.47320476174354553, 'learning_rate': 2.9175831174897034e-05, 'epoch': 3.0}
 12%|█▏        | 9798/78504 [5:56:51<49:29:54,  2.59s/it] 12%|█▏        | 9799/78504 [5:56:53<46:12:31,  2.42s/it]                                                         {'loss': 0.1023, 'grad_norm': 0.4859251379966736, 'learning_rate': 2.9175406564477093e-05, 'epoch': 3.0}
 12%|█▏        | 9799/78504 [5:56:53<46:12:31,  2.42s/it] 12%|█▏        | 9800/78504 [5:56:56<44:37:30,  2.34s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.3544001877307892, 'learning_rate': 2.9174981954057155e-05, 'epoch': 3.0}
 12%|█▏        | 9800/78504 [5:56:56<44:37:30,  2.34s/it] 12%|█▏        | 9801/78504 [5:56:57<41:52:45,  2.19s/it]                                                         {'loss': 0.1054, 'grad_norm': 1.1854215860366821, 'learning_rate': 2.9174557343637214e-05, 'epoch': 3.0}
 12%|█▏        | 9801/78504 [5:56:57<41:52:45,  2.19s/it] 12%|█▏        | 9802/78504 [5:56:59<40:39:24,  2.13s/it]                                                         {'loss': 0.1266, 'grad_norm': 0.514259397983551, 'learning_rate': 2.9174132733217272e-05, 'epoch': 3.0}
 12%|█▏        | 9802/78504 [5:56:59<40:39:24,  2.13s/it] 12%|█▏        | 9803/78504 [5:57:01<39:07:47,  2.05s/it]                                                         {'loss': 0.1012, 'grad_norm': 0.450078547000885, 'learning_rate': 2.9173708122797334e-05, 'epoch': 3.0}
 12%|█▏        | 9803/78504 [5:57:01<39:07:47,  2.05s/it] 12%|█▏        | 9804/78504 [5:57:03<37:50:07,  1.98s/it]                                                         {'loss': 0.1285, 'grad_norm': 0.47836050391197205, 'learning_rate': 2.9173283512377393e-05, 'epoch': 3.0}
 12%|█▏        | 9804/78504 [5:57:03<37:50:07,  1.98s/it] 12%|█▏        | 9805/78504 [5:57:05<35:25:46,  1.86s/it]                                                         {'loss': 0.1433, 'grad_norm': 0.5224893093109131, 'learning_rate': 2.9172858901957455e-05, 'epoch': 3.0}
 12%|█▏        | 9805/78504 [5:57:05<35:25:46,  1.86s/it] 12%|█▏        | 9806/78504 [5:57:06<33:36:18,  1.76s/it]                                                         {'loss': 0.181, 'grad_norm': 0.6325882077217102, 'learning_rate': 2.9172434291537514e-05, 'epoch': 3.0}
 12%|█▏        | 9806/78504 [5:57:06<33:36:18,  1.76s/it] 12%|█▏        | 9807/78504 [5:57:08<31:39:04,  1.66s/it]                                                         {'loss': 0.1825, 'grad_norm': 0.7013418078422546, 'learning_rate': 2.9172009681117576e-05, 'epoch': 3.0}
 12%|█▏        | 9807/78504 [5:57:08<31:39:04,  1.66s/it] 12%|█▏        | 9808/78504 [5:57:09<30:11:25,  1.58s/it]                                                         {'loss': 0.1659, 'grad_norm': 0.8652428388595581, 'learning_rate': 2.9171585070697635e-05, 'epoch': 3.0}
 12%|█▏        | 9808/78504 [5:57:09<30:11:25,  1.58s/it] 12%|█▏        | 9809/78504 [5:57:10<27:58:06,  1.47s/it]                                                         {'loss': 0.206, 'grad_norm': 0.8708938956260681, 'learning_rate': 2.9171160460277697e-05, 'epoch': 3.0}
 12%|█▏        | 9809/78504 [5:57:10<27:58:06,  1.47s/it] 12%|█▏        | 9810/78504 [5:57:11<25:46:32,  1.35s/it]                                                         {'loss': 0.2193, 'grad_norm': 1.0328105688095093, 'learning_rate': 2.9170735849857756e-05, 'epoch': 3.0}
 12%|█▏        | 9810/78504 [5:57:11<25:46:32,  1.35s/it] 12%|█▏        | 9811/78504 [5:57:12<24:03:32,  1.26s/it]                                                         {'loss': 0.1795, 'grad_norm': 0.8087608218193054, 'learning_rate': 2.9170311239437818e-05, 'epoch': 3.0}
 12%|█▏        | 9811/78504 [5:57:12<24:03:32,  1.26s/it] 12%|█▏        | 9812/78504 [5:57:13<21:47:22,  1.14s/it]                                                         {'loss': 0.2212, 'grad_norm': 1.4317342042922974, 'learning_rate': 2.9169886629017876e-05, 'epoch': 3.0}
 12%|█▏        | 9812/78504 [5:57:13<21:47:22,  1.14s/it] 12%|█▎        | 9813/78504 [5:57:27<91:48:59,  4.81s/it]                                                         {'loss': 0.202, 'grad_norm': 0.8346335887908936, 'learning_rate': 2.9169462018597935e-05, 'epoch': 3.0}
 12%|█▎        | 9813/78504 [5:57:27<91:48:59,  4.81s/it] 13%|█▎        | 9814/78504 [5:57:55<227:04:25, 11.90s/it]                                                          {'loss': 0.1628, 'grad_norm': 0.42346978187561035, 'learning_rate': 2.9169037408177997e-05, 'epoch': 3.0}
 13%|█▎        | 9814/78504 [5:57:55<227:04:25, 11.90s/it] 13%|█▎        | 9815/78504 [5:57:58<178:10:49,  9.34s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.31085702776908875, 'learning_rate': 2.9168612797758056e-05, 'epoch': 3.0}
 13%|█▎        | 9815/78504 [5:57:58<178:10:49,  9.34s/it] 13%|█▎        | 9816/78504 [5:58:01<139:19:02,  7.30s/it]                                                          {'loss': 0.0719, 'grad_norm': 0.44277313351631165, 'learning_rate': 2.9168188187338118e-05, 'epoch': 3.0}
 13%|█▎        | 9816/78504 [5:58:01<139:19:02,  7.30s/it] 13%|█▎        | 9817/78504 [5:58:04<112:27:36,  5.89s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.3740095794200897, 'learning_rate': 2.9167763576918177e-05, 'epoch': 3.0}
 13%|█▎        | 9817/78504 [5:58:04<112:27:36,  5.89s/it] 13%|█▎        | 9818/78504 [5:58:06<92:47:54,  4.86s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.3693801164627075, 'learning_rate': 2.916733896649824e-05, 'epoch': 3.0}
 13%|█▎        | 9818/78504 [5:58:06<92:47:54,  4.86s/it] 13%|█▎        | 9819/78504 [5:58:08<78:50:53,  4.13s/it]                                                         {'loss': 0.0761, 'grad_norm': 0.42890655994415283, 'learning_rate': 2.9166914356078297e-05, 'epoch': 3.0}
 13%|█▎        | 9819/78504 [5:58:08<78:50:53,  4.13s/it] 13%|█▎        | 9820/78504 [5:58:11<68:25:54,  3.59s/it]                                                         {'loss': 0.0759, 'grad_norm': 0.29669684171676636, 'learning_rate': 2.916648974565836e-05, 'epoch': 3.0}
 13%|█▎        | 9820/78504 [5:58:11<68:25:54,  3.59s/it] 13%|█▎        | 9821/78504 [5:58:13<59:55:47,  3.14s/it]                                                         {'loss': 0.0577, 'grad_norm': 0.4185309112071991, 'learning_rate': 2.9166065135238418e-05, 'epoch': 3.0}
 13%|█▎        | 9821/78504 [5:58:13<59:55:47,  3.14s/it] 13%|█▎        | 9822/78504 [5:58:15<54:26:16,  2.85s/it]                                                         {'loss': 0.0703, 'grad_norm': 0.4702351689338684, 'learning_rate': 2.916564052481848e-05, 'epoch': 3.0}
 13%|█▎        | 9822/78504 [5:58:15<54:26:16,  2.85s/it] 13%|█▎        | 9823/78504 [5:58:17<50:27:35,  2.64s/it]                                                         {'loss': 0.0841, 'grad_norm': 0.42210209369659424, 'learning_rate': 2.916521591439854e-05, 'epoch': 3.0}
 13%|█▎        | 9823/78504 [5:58:17<50:27:35,  2.64s/it] 13%|█▎        | 9824/78504 [5:58:19<46:56:15,  2.46s/it]                                                         {'loss': 0.1116, 'grad_norm': 0.5109655261039734, 'learning_rate': 2.91647913039786e-05, 'epoch': 3.0}
 13%|█▎        | 9824/78504 [5:58:19<46:56:15,  2.46s/it] 13%|█▎        | 9825/78504 [5:58:21<44:08:31,  2.31s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.8710323572158813, 'learning_rate': 2.916436669355866e-05, 'epoch': 3.0}
 13%|█▎        | 9825/78504 [5:58:21<44:08:31,  2.31s/it] 13%|█▎        | 9826/78504 [5:58:23<41:39:49,  2.18s/it]                                                         {'loss': 0.1078, 'grad_norm': 0.5578445792198181, 'learning_rate': 2.916394208313872e-05, 'epoch': 3.0}
 13%|█▎        | 9826/78504 [5:58:23<41:39:49,  2.18s/it] 13%|█▎        | 9827/78504 [5:58:25<39:57:22,  2.09s/it]                                                         {'loss': 0.1326, 'grad_norm': 0.3646198809146881, 'learning_rate': 2.916351747271878e-05, 'epoch': 3.0}
 13%|█▎        | 9827/78504 [5:58:25<39:57:22,  2.09s/it] 13%|█▎        | 9828/78504 [5:58:27<38:05:32,  2.00s/it]                                                         {'loss': 0.1348, 'grad_norm': 0.5661798715591431, 'learning_rate': 2.916309286229884e-05, 'epoch': 3.0}
 13%|█▎        | 9828/78504 [5:58:27<38:05:32,  2.00s/it] 13%|█▎        | 9829/78504 [5:58:28<35:39:12,  1.87s/it]                                                         {'loss': 0.1293, 'grad_norm': 0.3833496570587158, 'learning_rate': 2.91626682518789e-05, 'epoch': 3.0}
 13%|█▎        | 9829/78504 [5:58:28<35:39:12,  1.87s/it] 13%|█▎        | 9830/78504 [5:58:30<33:48:56,  1.77s/it]                                                         {'loss': 0.2015, 'grad_norm': 0.6193963289260864, 'learning_rate': 2.916224364145896e-05, 'epoch': 3.01}
 13%|█▎        | 9830/78504 [5:58:30<33:48:56,  1.77s/it] 13%|█▎        | 9831/78504 [5:58:31<32:15:53,  1.69s/it]                                                         {'loss': 0.189, 'grad_norm': 2.260901689529419, 'learning_rate': 2.9161819031039022e-05, 'epoch': 3.01}
 13%|█▎        | 9831/78504 [5:58:31<32:15:53,  1.69s/it] 13%|█▎        | 9832/78504 [5:58:33<30:39:41,  1.61s/it]                                                         {'loss': 0.1702, 'grad_norm': 0.60114586353302, 'learning_rate': 2.916139442061908e-05, 'epoch': 3.01}
 13%|█▎        | 9832/78504 [5:58:33<30:39:41,  1.61s/it] 13%|█▎        | 9833/78504 [5:58:34<28:47:38,  1.51s/it]                                                         {'loss': 0.1622, 'grad_norm': 1.8134087324142456, 'learning_rate': 2.9160969810199143e-05, 'epoch': 3.01}
 13%|█▎        | 9833/78504 [5:58:34<28:47:38,  1.51s/it] 13%|█▎        | 9834/78504 [5:58:35<26:42:34,  1.40s/it]                                                         {'loss': 0.1648, 'grad_norm': 0.6778774857521057, 'learning_rate': 2.91605451997792e-05, 'epoch': 3.01}
 13%|█▎        | 9834/78504 [5:58:35<26:42:34,  1.40s/it] 13%|█▎        | 9835/78504 [5:58:36<24:59:19,  1.31s/it]                                                         {'loss': 0.1657, 'grad_norm': 1.268831729888916, 'learning_rate': 2.9160120589359264e-05, 'epoch': 3.01}
 13%|█▎        | 9835/78504 [5:58:36<24:59:19,  1.31s/it] 13%|█▎        | 9836/78504 [5:58:37<23:09:32,  1.21s/it]                                                         {'loss': 0.2346, 'grad_norm': 1.2071192264556885, 'learning_rate': 2.9159695978939322e-05, 'epoch': 3.01}
 13%|█▎        | 9836/78504 [5:58:37<23:09:32,  1.21s/it] 13%|█▎        | 9837/78504 [5:58:38<21:32:24,  1.13s/it]                                                         {'loss': 0.1903, 'grad_norm': 0.9194573163986206, 'learning_rate': 2.9159271368519384e-05, 'epoch': 3.01}
 13%|█▎        | 9837/78504 [5:58:38<21:32:24,  1.13s/it] 13%|█▎        | 9838/78504 [5:58:39<19:30:55,  1.02s/it]                                                         {'loss': 0.2312, 'grad_norm': 3.0787129402160645, 'learning_rate': 2.9158846758099443e-05, 'epoch': 3.01}
 13%|█▎        | 9838/78504 [5:58:39<19:30:55,  1.02s/it] 13%|█▎        | 9839/78504 [5:58:49<69:15:17,  3.63s/it]                                                         {'loss': 0.1684, 'grad_norm': 0.8229395747184753, 'learning_rate': 2.9158422147679502e-05, 'epoch': 3.01}
 13%|█▎        | 9839/78504 [5:58:49<69:15:17,  3.63s/it] 13%|█▎        | 9840/78504 [5:58:52<67:37:45,  3.55s/it]                                                         {'loss': 0.0765, 'grad_norm': 0.266791433095932, 'learning_rate': 2.9157997537259564e-05, 'epoch': 3.01}
 13%|█▎        | 9840/78504 [5:58:52<67:37:45,  3.55s/it] 13%|█▎        | 9841/78504 [5:58:55<61:57:45,  3.25s/it]                                                         {'loss': 0.0655, 'grad_norm': 0.7054421901702881, 'learning_rate': 2.9157572926839623e-05, 'epoch': 3.01}
 13%|█▎        | 9841/78504 [5:58:55<61:57:45,  3.25s/it] 13%|█▎        | 9842/78504 [5:58:57<58:17:11,  3.06s/it]                                                         {'loss': 0.0599, 'grad_norm': 0.4697444438934326, 'learning_rate': 2.9157148316419685e-05, 'epoch': 3.01}
 13%|█▎        | 9842/78504 [5:58:57<58:17:11,  3.06s/it] 13%|█▎        | 9843/78504 [5:59:00<54:53:33,  2.88s/it]                                                         {'loss': 0.0468, 'grad_norm': 0.23402822017669678, 'learning_rate': 2.9156723705999743e-05, 'epoch': 3.01}
 13%|█▎        | 9843/78504 [5:59:00<54:53:33,  2.88s/it] 13%|█▎        | 9844/78504 [5:59:02<51:19:59,  2.69s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.3201437294483185, 'learning_rate': 2.9156299095579806e-05, 'epoch': 3.01}
 13%|█▎        | 9844/78504 [5:59:02<51:19:59,  2.69s/it] 13%|█▎        | 9845/78504 [5:59:04<49:11:19,  2.58s/it]                                                         {'loss': 0.0757, 'grad_norm': 0.310086190700531, 'learning_rate': 2.9155874485159864e-05, 'epoch': 3.01}
 13%|█▎        | 9845/78504 [5:59:04<49:11:19,  2.58s/it] 13%|█▎        | 9846/78504 [5:59:06<46:20:46,  2.43s/it]                                                         {'loss': 0.0581, 'grad_norm': 0.2650007903575897, 'learning_rate': 2.9155449874739926e-05, 'epoch': 3.01}
 13%|█▎        | 9846/78504 [5:59:06<46:20:46,  2.43s/it] 13%|█▎        | 9847/78504 [5:59:09<44:54:59,  2.36s/it]                                                         {'loss': 0.074, 'grad_norm': 0.43977412581443787, 'learning_rate': 2.9155025264319985e-05, 'epoch': 3.01}
 13%|█▎        | 9847/78504 [5:59:09<44:54:59,  2.36s/it] 13%|█▎        | 9848/78504 [5:59:11<43:41:02,  2.29s/it]                                                         {'loss': 0.0726, 'grad_norm': 0.33258381485939026, 'learning_rate': 2.9154600653900047e-05, 'epoch': 3.01}
 13%|█▎        | 9848/78504 [5:59:11<43:41:02,  2.29s/it] 13%|█▎        | 9849/78504 [5:59:13<42:06:13,  2.21s/it]                                                         {'loss': 0.1063, 'grad_norm': 0.26298239827156067, 'learning_rate': 2.9154176043480106e-05, 'epoch': 3.01}
 13%|█▎        | 9849/78504 [5:59:13<42:06:13,  2.21s/it] 13%|█▎        | 9850/78504 [5:59:15<40:48:00,  2.14s/it]                                                         {'loss': 0.1032, 'grad_norm': 0.33632028102874756, 'learning_rate': 2.9153751433060168e-05, 'epoch': 3.01}
 13%|█▎        | 9850/78504 [5:59:15<40:48:00,  2.14s/it] 13%|█▎        | 9851/78504 [5:59:17<39:11:51,  2.06s/it]                                                         {'loss': 0.133, 'grad_norm': 0.5470579862594604, 'learning_rate': 2.915332682264023e-05, 'epoch': 3.01}
 13%|█▎        | 9851/78504 [5:59:17<39:11:51,  2.06s/it] 13%|█▎        | 9852/78504 [5:59:18<37:56:31,  1.99s/it]                                                         {'loss': 0.1123, 'grad_norm': 0.4657822847366333, 'learning_rate': 2.915290221222029e-05, 'epoch': 3.01}
 13%|█▎        | 9852/78504 [5:59:18<37:56:31,  1.99s/it] 13%|█▎        | 9853/78504 [5:59:20<36:28:35,  1.91s/it]                                                         {'loss': 0.1103, 'grad_norm': 0.41752779483795166, 'learning_rate': 2.915247760180035e-05, 'epoch': 3.01}
 13%|█▎        | 9853/78504 [5:59:20<36:28:35,  1.91s/it] 13%|█▎        | 9854/78504 [5:59:22<34:56:15,  1.83s/it]                                                         {'loss': 0.1538, 'grad_norm': 1.182564616203308, 'learning_rate': 2.915205299138041e-05, 'epoch': 3.01}
 13%|█▎        | 9854/78504 [5:59:22<34:56:15,  1.83s/it] 13%|█▎        | 9855/78504 [5:59:23<33:07:04,  1.74s/it]                                                         {'loss': 0.1622, 'grad_norm': 0.5873005986213684, 'learning_rate': 2.915162838096047e-05, 'epoch': 3.01}
 13%|█▎        | 9855/78504 [5:59:23<33:07:04,  1.74s/it] 13%|█▎        | 9856/78504 [5:59:25<31:34:56,  1.66s/it]                                                         {'loss': 0.1545, 'grad_norm': 1.1239440441131592, 'learning_rate': 2.915120377054053e-05, 'epoch': 3.01}
 13%|█▎        | 9856/78504 [5:59:25<31:34:56,  1.66s/it] 13%|█▎        | 9857/78504 [5:59:26<30:10:40,  1.58s/it]                                                         {'loss': 0.1795, 'grad_norm': 2.016841173171997, 'learning_rate': 2.9150779160120592e-05, 'epoch': 3.01}
 13%|█▎        | 9857/78504 [5:59:26<30:10:40,  1.58s/it] 13%|█▎        | 9858/78504 [5:59:27<28:27:20,  1.49s/it]                                                         {'loss': 0.2081, 'grad_norm': 0.9573583006858826, 'learning_rate': 2.915035454970065e-05, 'epoch': 3.01}
 13%|█▎        | 9858/78504 [5:59:27<28:27:20,  1.49s/it] 13%|█▎        | 9859/78504 [5:59:29<26:17:53,  1.38s/it]                                                         {'loss': 0.251, 'grad_norm': 0.8239682912826538, 'learning_rate': 2.9149929939280713e-05, 'epoch': 3.01}
 13%|█▎        | 9859/78504 [5:59:29<26:17:53,  1.38s/it] 13%|█▎        | 9860/78504 [5:59:30<24:39:42,  1.29s/it]                                                         {'loss': 0.1834, 'grad_norm': 0.8684477806091309, 'learning_rate': 2.9149505328860772e-05, 'epoch': 3.01}
 13%|█▎        | 9860/78504 [5:59:30<24:39:42,  1.29s/it] 13%|█▎        | 9861/78504 [5:59:31<22:56:05,  1.20s/it]                                                         {'loss': 0.2116, 'grad_norm': 1.8513543605804443, 'learning_rate': 2.9149080718440834e-05, 'epoch': 3.01}
 13%|█▎        | 9861/78504 [5:59:31<22:56:05,  1.20s/it] 13%|█▎        | 9862/78504 [5:59:32<21:24:00,  1.12s/it]                                                         {'loss': 0.2286, 'grad_norm': 3.9151082038879395, 'learning_rate': 2.9148656108020893e-05, 'epoch': 3.01}
 13%|█▎        | 9862/78504 [5:59:32<21:24:00,  1.12s/it] 13%|█▎        | 9863/78504 [5:59:32<19:25:45,  1.02s/it]                                                         {'loss': 0.3277, 'grad_norm': 1.8443140983581543, 'learning_rate': 2.9148231497600955e-05, 'epoch': 3.02}
 13%|█▎        | 9863/78504 [5:59:32<19:25:45,  1.02s/it] 13%|█▎        | 9864/78504 [5:59:39<54:08:12,  2.84s/it]                                                         {'loss': 0.1549, 'grad_norm': 0.4562356770038605, 'learning_rate': 2.9147806887181013e-05, 'epoch': 3.02}
 13%|█▎        | 9864/78504 [5:59:39<54:08:12,  2.84s/it] 13%|█▎        | 9865/78504 [5:59:43<57:29:18,  3.02s/it]                                                         {'loss': 0.1073, 'grad_norm': 0.2976401746273041, 'learning_rate': 2.9147382276761072e-05, 'epoch': 3.02}
 13%|█▎        | 9865/78504 [5:59:43<57:29:18,  3.02s/it] 13%|█▎        | 9866/78504 [5:59:46<56:57:18,  2.99s/it]                                                         {'loss': 0.0603, 'grad_norm': 0.2427670657634735, 'learning_rate': 2.9146957666341134e-05, 'epoch': 3.02}
 13%|█▎        | 9866/78504 [5:59:46<56:57:18,  2.99s/it] 13%|█▎        | 9867/78504 [5:59:48<54:36:41,  2.86s/it]                                                         {'loss': 0.0573, 'grad_norm': 0.32457560300827026, 'learning_rate': 2.9146533055921193e-05, 'epoch': 3.02}
 13%|█▎        | 9867/78504 [5:59:48<54:36:41,  2.86s/it] 13%|█▎        | 9868/78504 [5:59:51<52:25:28,  2.75s/it]                                                         {'loss': 0.0604, 'grad_norm': 0.5805197358131409, 'learning_rate': 2.9146108445501255e-05, 'epoch': 3.02}
 13%|█▎        | 9868/78504 [5:59:51<52:25:28,  2.75s/it] 13%|█▎        | 9869/78504 [5:59:53<50:32:46,  2.65s/it]                                                         {'loss': 0.0709, 'grad_norm': 0.36472517251968384, 'learning_rate': 2.9145683835081314e-05, 'epoch': 3.02}
 13%|█▎        | 9869/78504 [5:59:53<50:32:46,  2.65s/it] 13%|█▎        | 9870/78504 [5:59:56<48:34:43,  2.55s/it]                                                         {'loss': 0.0792, 'grad_norm': 0.5427183508872986, 'learning_rate': 2.9145259224661376e-05, 'epoch': 3.02}
 13%|█▎        | 9870/78504 [5:59:56<48:34:43,  2.55s/it] 13%|█▎        | 9871/78504 [5:59:58<46:02:42,  2.42s/it]                                                         {'loss': 0.0841, 'grad_norm': 0.3784457743167877, 'learning_rate': 2.9144834614241434e-05, 'epoch': 3.02}
 13%|█▎        | 9871/78504 [5:59:58<46:02:42,  2.42s/it] 13%|█▎        | 9872/78504 [6:00:00<44:40:53,  2.34s/it]                                                         {'loss': 0.0657, 'grad_norm': 0.3116036057472229, 'learning_rate': 2.9144410003821497e-05, 'epoch': 3.02}
 13%|█▎        | 9872/78504 [6:00:00<44:40:53,  2.34s/it] 13%|█▎        | 9873/78504 [6:00:02<43:28:54,  2.28s/it]                                                         {'loss': 0.0813, 'grad_norm': 0.3434503376483917, 'learning_rate': 2.9143985393401555e-05, 'epoch': 3.02}
 13%|█▎        | 9873/78504 [6:00:02<43:28:54,  2.28s/it] 13%|█▎        | 9874/78504 [6:00:04<41:59:57,  2.20s/it]                                                         {'loss': 0.0973, 'grad_norm': 0.3164171576499939, 'learning_rate': 2.9143560782981617e-05, 'epoch': 3.02}
 13%|█▎        | 9874/78504 [6:00:04<41:59:57,  2.20s/it] 13%|█▎        | 9875/78504 [6:00:06<40:43:33,  2.14s/it]                                                         {'loss': 0.0744, 'grad_norm': 0.3757691979408264, 'learning_rate': 2.9143136172561676e-05, 'epoch': 3.02}
 13%|█▎        | 9875/78504 [6:00:06<40:43:33,  2.14s/it] 13%|█▎        | 9876/78504 [6:00:08<39:28:24,  2.07s/it]                                                         {'loss': 0.1125, 'grad_norm': 0.6157011389732361, 'learning_rate': 2.9142711562141738e-05, 'epoch': 3.02}
 13%|█▎        | 9876/78504 [6:00:08<39:28:24,  2.07s/it] 13%|█▎        | 9877/78504 [6:00:10<38:19:32,  2.01s/it]                                                         {'loss': 0.1361, 'grad_norm': 0.40145501494407654, 'learning_rate': 2.9142286951721797e-05, 'epoch': 3.02}
 13%|█▎        | 9877/78504 [6:00:10<38:19:32,  2.01s/it] 13%|█▎        | 9878/78504 [6:00:12<36:55:11,  1.94s/it]                                                         {'loss': 0.1879, 'grad_norm': 0.44051530957221985, 'learning_rate': 2.9141862341301856e-05, 'epoch': 3.02}
 13%|█▎        | 9878/78504 [6:00:12<36:55:11,  1.94s/it] 13%|█▎        | 9879/78504 [6:00:13<35:12:17,  1.85s/it]                                                         {'loss': 0.1528, 'grad_norm': 0.5468085408210754, 'learning_rate': 2.9141437730881918e-05, 'epoch': 3.02}
 13%|█▎        | 9879/78504 [6:00:13<35:12:17,  1.85s/it] 13%|█▎        | 9880/78504 [6:00:15<33:26:50,  1.75s/it]                                                         {'loss': 0.1519, 'grad_norm': 0.5161142349243164, 'learning_rate': 2.9141013120461976e-05, 'epoch': 3.02}
 13%|█▎        | 9880/78504 [6:00:15<33:26:50,  1.75s/it] 13%|█▎        | 9881/78504 [6:00:16<31:35:41,  1.66s/it]                                                         {'loss': 0.1767, 'grad_norm': 0.9319376349449158, 'learning_rate': 2.914058851004204e-05, 'epoch': 3.02}
 13%|█▎        | 9881/78504 [6:00:16<31:35:41,  1.66s/it] 13%|█▎        | 9882/78504 [6:00:18<30:10:56,  1.58s/it]                                                         {'loss': 0.1777, 'grad_norm': 1.1544052362442017, 'learning_rate': 2.9140163899622097e-05, 'epoch': 3.02}
 13%|█▎        | 9882/78504 [6:00:18<30:10:56,  1.58s/it] 13%|█▎        | 9883/78504 [6:00:19<28:28:26,  1.49s/it]                                                         {'loss': 0.1805, 'grad_norm': 0.7025966644287109, 'learning_rate': 2.913973928920216e-05, 'epoch': 3.02}
 13%|█▎        | 9883/78504 [6:00:19<28:28:26,  1.49s/it] 13%|█▎        | 9884/78504 [6:00:20<26:29:05,  1.39s/it]                                                         {'loss': 0.1903, 'grad_norm': 1.2526135444641113, 'learning_rate': 2.9139314678782218e-05, 'epoch': 3.02}
 13%|█▎        | 9884/78504 [6:00:20<26:29:05,  1.39s/it] 13%|█▎        | 9885/78504 [6:00:21<24:52:28,  1.31s/it]                                                         {'loss': 0.1953, 'grad_norm': 1.3519750833511353, 'learning_rate': 2.913889006836228e-05, 'epoch': 3.02}
 13%|█▎        | 9885/78504 [6:00:21<24:52:28,  1.31s/it] 13%|█▎        | 9886/78504 [6:00:22<23:05:40,  1.21s/it]                                                         {'loss': 0.1758, 'grad_norm': 1.4668052196502686, 'learning_rate': 2.913846545794234e-05, 'epoch': 3.02}
 13%|█▎        | 9886/78504 [6:00:22<23:05:40,  1.21s/it] 13%|█▎        | 9887/78504 [6:00:23<21:28:55,  1.13s/it]                                                         {'loss': 0.2616, 'grad_norm': 1.5399457216262817, 'learning_rate': 2.91380408475224e-05, 'epoch': 3.02}
 13%|█▎        | 9887/78504 [6:00:23<21:28:55,  1.13s/it] 13%|█▎        | 9888/78504 [6:00:24<19:30:19,  1.02s/it]                                                         {'loss': 0.253, 'grad_norm': 2.248068332672119, 'learning_rate': 2.913761623710246e-05, 'epoch': 3.02}
 13%|█▎        | 9888/78504 [6:00:24<19:30:19,  1.02s/it] 13%|█▎        | 9889/78504 [6:00:33<67:27:24,  3.54s/it]                                                         {'loss': 0.1517, 'grad_norm': 0.4327199161052704, 'learning_rate': 2.913719162668252e-05, 'epoch': 3.02}
 13%|█▎        | 9889/78504 [6:00:33<67:27:24,  3.54s/it] 13%|█▎        | 9890/78504 [6:00:36<65:07:32,  3.42s/it]                                                         {'loss': 0.0837, 'grad_norm': 0.35614001750946045, 'learning_rate': 2.913676701626258e-05, 'epoch': 3.02}
 13%|█▎        | 9890/78504 [6:00:36<65:07:32,  3.42s/it] 13%|█▎        | 9891/78504 [6:00:39<62:50:18,  3.30s/it]                                                         {'loss': 0.0898, 'grad_norm': 0.26878878474235535, 'learning_rate': 2.913634240584264e-05, 'epoch': 3.02}
 13%|█▎        | 9891/78504 [6:00:39<62:50:18,  3.30s/it] 13%|█▎        | 9892/78504 [6:00:42<58:46:17,  3.08s/it]                                                         {'loss': 0.0652, 'grad_norm': 0.20473748445510864, 'learning_rate': 2.91359177954227e-05, 'epoch': 3.02}
 13%|█▎        | 9892/78504 [6:00:42<58:46:17,  3.08s/it] 13%|█▎        | 9893/78504 [6:00:44<55:16:20,  2.90s/it]                                                         {'loss': 0.0576, 'grad_norm': 0.2138693779706955, 'learning_rate': 2.913549318500276e-05, 'epoch': 3.02}
 13%|█▎        | 9893/78504 [6:00:44<55:16:20,  2.90s/it] 13%|█▎        | 9894/78504 [6:00:47<51:37:58,  2.71s/it]                                                         {'loss': 0.0557, 'grad_norm': 0.21835742890834808, 'learning_rate': 2.9135068574582822e-05, 'epoch': 3.02}
 13%|█▎        | 9894/78504 [6:00:47<51:37:58,  2.71s/it] 13%|█▎        | 9895/78504 [6:00:49<49:22:47,  2.59s/it]                                                         {'loss': 0.0552, 'grad_norm': 0.30302757024765015, 'learning_rate': 2.913464396416288e-05, 'epoch': 3.03}
 13%|█▎        | 9895/78504 [6:00:49<49:22:47,  2.59s/it] 13%|█▎        | 9896/78504 [6:00:51<46:31:45,  2.44s/it]                                                         {'loss': 0.0782, 'grad_norm': 0.735779345035553, 'learning_rate': 2.9134219353742943e-05, 'epoch': 3.03}
 13%|█▎        | 9896/78504 [6:00:51<46:31:45,  2.44s/it] 13%|█▎        | 9897/78504 [6:00:53<44:09:30,  2.32s/it]                                                         {'loss': 0.0867, 'grad_norm': 0.6538363695144653, 'learning_rate': 2.9133794743323e-05, 'epoch': 3.03}
 13%|█▎        | 9897/78504 [6:00:53<44:09:30,  2.32s/it] 13%|█▎        | 9898/78504 [6:00:55<43:08:45,  2.26s/it]                                                         {'loss': 0.1024, 'grad_norm': 0.5421738624572754, 'learning_rate': 2.9133370132903063e-05, 'epoch': 3.03}
 13%|█▎        | 9898/78504 [6:00:55<43:08:45,  2.26s/it] 13%|█▎        | 9899/78504 [6:00:57<41:33:02,  2.18s/it]                                                         {'loss': 0.0925, 'grad_norm': 0.4476008713245392, 'learning_rate': 2.9132945522483122e-05, 'epoch': 3.03}
 13%|█▎        | 9899/78504 [6:00:57<41:33:02,  2.18s/it] 13%|█▎        | 9900/78504 [6:00:59<39:25:01,  2.07s/it]                                                         {'loss': 0.0908, 'grad_norm': 0.3618099093437195, 'learning_rate': 2.9132520912063184e-05, 'epoch': 3.03}
 13%|█▎        | 9900/78504 [6:00:59<39:25:01,  2.07s/it] 13%|█▎        | 9901/78504 [6:01:01<38:14:40,  2.01s/it]                                                         {'loss': 0.1332, 'grad_norm': 0.5626158714294434, 'learning_rate': 2.9132096301643243e-05, 'epoch': 3.03}
 13%|█▎        | 9901/78504 [6:01:01<38:14:40,  2.01s/it] 13%|█▎        | 9902/78504 [6:01:03<36:35:59,  1.92s/it]                                                         {'loss': 0.107, 'grad_norm': 0.43226227164268494, 'learning_rate': 2.9131671691223305e-05, 'epoch': 3.03}
 13%|█▎        | 9902/78504 [6:01:03<36:35:59,  1.92s/it] 13%|█▎        | 9903/78504 [6:01:04<35:43:32,  1.87s/it]                                                         {'loss': 0.1446, 'grad_norm': 0.5577691793441772, 'learning_rate': 2.9131247080803364e-05, 'epoch': 3.03}
 13%|█▎        | 9903/78504 [6:01:04<35:43:32,  1.87s/it] 13%|█▎        | 9904/78504 [6:01:06<33:49:59,  1.78s/it]                                                         {'loss': 0.1416, 'grad_norm': 0.7113911509513855, 'learning_rate': 2.9130822470383422e-05, 'epoch': 3.03}
 13%|█▎        | 9904/78504 [6:01:06<33:49:59,  1.78s/it] 13%|█▎        | 9905/78504 [6:01:07<32:19:42,  1.70s/it]                                                         {'loss': 0.1639, 'grad_norm': 0.7310557961463928, 'learning_rate': 2.9130397859963484e-05, 'epoch': 3.03}
 13%|█▎        | 9905/78504 [6:01:07<32:19:42,  1.70s/it] 13%|█▎        | 9906/78504 [6:01:09<31:02:41,  1.63s/it]                                                         {'loss': 0.178, 'grad_norm': 0.7257323265075684, 'learning_rate': 2.9129973249543543e-05, 'epoch': 3.03}
 13%|█▎        | 9906/78504 [6:01:09<31:02:41,  1.63s/it] 13%|█▎        | 9907/78504 [6:01:10<29:48:08,  1.56s/it]                                                         {'loss': 0.1794, 'grad_norm': 0.8134094476699829, 'learning_rate': 2.9129548639123605e-05, 'epoch': 3.03}
 13%|█▎        | 9907/78504 [6:01:10<29:48:08,  1.56s/it] 13%|█▎        | 9908/78504 [6:01:12<27:50:45,  1.46s/it]                                                         {'loss': 0.2002, 'grad_norm': 1.0326179265975952, 'learning_rate': 2.9129124028703664e-05, 'epoch': 3.03}
 13%|█▎        | 9908/78504 [6:01:12<27:50:45,  1.46s/it] 13%|█▎        | 9909/78504 [6:01:13<25:54:20,  1.36s/it]                                                         {'loss': 0.2212, 'grad_norm': 1.2176483869552612, 'learning_rate': 2.9128699418283726e-05, 'epoch': 3.03}
 13%|█▎        | 9909/78504 [6:01:13<25:54:20,  1.36s/it] 13%|█▎        | 9910/78504 [6:01:14<24:21:19,  1.28s/it]                                                         {'loss': 0.2, 'grad_norm': 1.395903468132019, 'learning_rate': 2.9128274807863785e-05, 'epoch': 3.03}
 13%|█▎        | 9910/78504 [6:01:14<24:21:19,  1.28s/it] 13%|█▎        | 9911/78504 [6:01:15<22:42:48,  1.19s/it]                                                         {'loss': 0.2057, 'grad_norm': 0.7877084612846375, 'learning_rate': 2.9127850197443847e-05, 'epoch': 3.03}
 13%|█▎        | 9911/78504 [6:01:15<22:42:48,  1.19s/it] 13%|█▎        | 9912/78504 [6:01:16<21:13:46,  1.11s/it]                                                         {'loss': 0.2242, 'grad_norm': 3.748426675796509, 'learning_rate': 2.9127425587023906e-05, 'epoch': 3.03}
 13%|█▎        | 9912/78504 [6:01:16<21:13:46,  1.11s/it] 13%|█▎        | 9913/78504 [6:01:16<19:23:22,  1.02s/it]                                                         {'loss': 0.254, 'grad_norm': 1.3642346858978271, 'learning_rate': 2.9127000976603968e-05, 'epoch': 3.03}
 13%|█▎        | 9913/78504 [6:01:16<19:23:22,  1.02s/it] 13%|█▎        | 9914/78504 [6:01:26<65:22:26,  3.43s/it]                                                         {'loss': 0.153, 'grad_norm': 0.5494166612625122, 'learning_rate': 2.9126576366184026e-05, 'epoch': 3.03}
 13%|█▎        | 9914/78504 [6:01:26<65:22:26,  3.43s/it] 13%|█▎        | 9915/78504 [6:01:29<63:41:48,  3.34s/it]                                                         {'loss': 0.0853, 'grad_norm': 0.46273288130760193, 'learning_rate': 2.912615175576409e-05, 'epoch': 3.03}
 13%|█▎        | 9915/78504 [6:01:29<63:41:48,  3.34s/it] 13%|█▎        | 9916/78504 [6:01:32<61:17:01,  3.22s/it]                                                         {'loss': 0.1002, 'grad_norm': 1.5637967586517334, 'learning_rate': 2.9125727145344147e-05, 'epoch': 3.03}
 13%|█▎        | 9916/78504 [6:01:32<61:17:01,  3.22s/it] 13%|█▎        | 9917/78504 [6:01:34<57:38:21,  3.03s/it]                                                         {'loss': 0.0687, 'grad_norm': 0.2746178209781647, 'learning_rate': 2.9125302534924206e-05, 'epoch': 3.03}
 13%|█▎        | 9917/78504 [6:01:34<57:38:21,  3.03s/it] 13%|█▎        | 9918/78504 [6:01:37<54:35:57,  2.87s/it]                                                         {'loss': 0.0622, 'grad_norm': 0.22988256812095642, 'learning_rate': 2.9124877924504268e-05, 'epoch': 3.03}
 13%|█▎        | 9918/78504 [6:01:37<54:35:57,  2.87s/it] 13%|█▎        | 9919/78504 [6:01:39<52:14:22,  2.74s/it]                                                         {'loss': 0.0721, 'grad_norm': 0.4319975972175598, 'learning_rate': 2.9124453314084327e-05, 'epoch': 3.03}
 13%|█▎        | 9919/78504 [6:01:39<52:14:22,  2.74s/it] 13%|█▎        | 9920/78504 [6:01:41<49:46:10,  2.61s/it]                                                         {'loss': 0.0466, 'grad_norm': 0.39087164402008057, 'learning_rate': 2.912402870366439e-05, 'epoch': 3.03}
 13%|█▎        | 9920/78504 [6:01:41<49:46:10,  2.61s/it] 13%|█▎        | 9921/78504 [6:01:44<48:03:58,  2.52s/it]                                                         {'loss': 0.0928, 'grad_norm': 0.34156617522239685, 'learning_rate': 2.9123604093244447e-05, 'epoch': 3.03}
 13%|█▎        | 9921/78504 [6:01:44<48:03:58,  2.52s/it] 13%|█▎        | 9922/78504 [6:01:46<46:05:48,  2.42s/it]                                                         {'loss': 0.0669, 'grad_norm': 0.2406630963087082, 'learning_rate': 2.912317948282451e-05, 'epoch': 3.03}
 13%|█▎        | 9922/78504 [6:01:46<46:05:48,  2.42s/it] 13%|█▎        | 9923/78504 [6:01:48<44:38:29,  2.34s/it]                                                         {'loss': 0.0641, 'grad_norm': 0.5155388116836548, 'learning_rate': 2.9122754872404568e-05, 'epoch': 3.03}
 13%|█▎        | 9923/78504 [6:01:48<44:38:29,  2.34s/it] 13%|█▎        | 9924/78504 [6:01:50<41:51:25,  2.20s/it]                                                         {'loss': 0.1051, 'grad_norm': 0.35716712474823, 'learning_rate': 2.912233026198463e-05, 'epoch': 3.03}
 13%|█▎        | 9924/78504 [6:01:50<41:51:25,  2.20s/it] 13%|█▎        | 9925/78504 [6:01:52<40:35:40,  2.13s/it]                                                         {'loss': 0.0806, 'grad_norm': 0.38639330863952637, 'learning_rate': 2.912190565156469e-05, 'epoch': 3.03}
 13%|█▎        | 9925/78504 [6:01:52<40:35:40,  2.13s/it] 13%|█▎        | 9926/78504 [6:01:54<39:24:44,  2.07s/it]                                                         {'loss': 0.1028, 'grad_norm': 0.7412813901901245, 'learning_rate': 2.912148104114475e-05, 'epoch': 3.03}
 13%|█▎        | 9926/78504 [6:01:54<39:24:44,  2.07s/it] 13%|█▎        | 9927/78504 [6:01:56<38:13:26,  2.01s/it]                                                         {'loss': 0.1299, 'grad_norm': 0.5582312941551208, 'learning_rate': 2.912105643072481e-05, 'epoch': 3.03}
 13%|█▎        | 9927/78504 [6:01:56<38:13:26,  2.01s/it] 13%|█▎        | 9928/78504 [6:01:57<36:48:56,  1.93s/it]                                                         {'loss': 0.0964, 'grad_norm': 1.0793581008911133, 'learning_rate': 2.912063182030487e-05, 'epoch': 3.04}
 13%|█▎        | 9928/78504 [6:01:57<36:48:56,  1.93s/it] 13%|█▎        | 9929/78504 [6:01:59<35:14:33,  1.85s/it]                                                         {'loss': 0.1306, 'grad_norm': 0.47238636016845703, 'learning_rate': 2.912020720988493e-05, 'epoch': 3.04}
 13%|█▎        | 9929/78504 [6:01:59<35:14:33,  1.85s/it] 13%|█▎        | 9930/78504 [6:02:01<33:29:19,  1.76s/it]                                                         {'loss': 0.1383, 'grad_norm': 0.7725540399551392, 'learning_rate': 2.911978259946499e-05, 'epoch': 3.04}
 13%|█▎        | 9930/78504 [6:02:01<33:29:19,  1.76s/it] 13%|█▎        | 9931/78504 [6:02:02<31:48:59,  1.67s/it]                                                         {'loss': 0.1694, 'grad_norm': 0.8116467595100403, 'learning_rate': 2.911935798904505e-05, 'epoch': 3.04}
 13%|█▎        | 9931/78504 [6:02:02<31:48:59,  1.67s/it] 13%|█▎        | 9932/78504 [6:02:04<30:11:59,  1.59s/it]                                                         {'loss': 0.2335, 'grad_norm': 1.1140550374984741, 'learning_rate': 2.911893337862511e-05, 'epoch': 3.04}
 13%|█▎        | 9932/78504 [6:02:04<30:11:59,  1.59s/it] 13%|█▎        | 9933/78504 [6:02:05<28:28:29,  1.49s/it]                                                         {'loss': 0.2119, 'grad_norm': 0.5806221961975098, 'learning_rate': 2.9118508768205172e-05, 'epoch': 3.04}
 13%|█▎        | 9933/78504 [6:02:05<28:28:29,  1.49s/it] 13%|█▎        | 9934/78504 [6:02:06<26:30:46,  1.39s/it]                                                         {'loss': 0.2082, 'grad_norm': 0.6003894209861755, 'learning_rate': 2.911808415778523e-05, 'epoch': 3.04}
 13%|█▎        | 9934/78504 [6:02:06<26:30:46,  1.39s/it] 13%|█▎        | 9935/78504 [6:02:07<24:49:30,  1.30s/it]                                                         {'loss': 0.2161, 'grad_norm': 0.7746021747589111, 'learning_rate': 2.9117659547365293e-05, 'epoch': 3.04}
 13%|█▎        | 9935/78504 [6:02:07<24:49:30,  1.30s/it] 13%|█▎        | 9936/78504 [6:02:08<23:21:32,  1.23s/it]                                                         {'loss': 0.2251, 'grad_norm': 1.1458995342254639, 'learning_rate': 2.911723493694535e-05, 'epoch': 3.04}
 13%|█▎        | 9936/78504 [6:02:08<23:21:32,  1.23s/it] 13%|█▎        | 9937/78504 [6:02:09<21:39:09,  1.14s/it]                                                         {'loss': 0.2454, 'grad_norm': 1.239461064338684, 'learning_rate': 2.9116810326525414e-05, 'epoch': 3.04}
 13%|█▎        | 9937/78504 [6:02:09<21:39:09,  1.14s/it] 13%|█▎        | 9938/78504 [6:02:10<19:37:52,  1.03s/it]                                                         {'loss': 0.3295, 'grad_norm': 2.2767932415008545, 'learning_rate': 2.9116385716105472e-05, 'epoch': 3.04}
 13%|█▎        | 9938/78504 [6:02:10<19:37:52,  1.03s/it] 13%|█▎        | 9939/78504 [6:02:20<71:32:56,  3.76s/it]                                                         {'loss': 0.1591, 'grad_norm': 0.3298475444316864, 'learning_rate': 2.9115961105685535e-05, 'epoch': 3.04}
 13%|█▎        | 9939/78504 [6:02:20<71:32:56,  3.76s/it] 13%|█▎        | 9940/78504 [6:02:23<67:53:18,  3.56s/it]                                                         {'loss': 0.0845, 'grad_norm': 0.25040575861930847, 'learning_rate': 2.9115536495265593e-05, 'epoch': 3.04}
 13%|█▎        | 9940/78504 [6:02:23<67:53:18,  3.56s/it] 13%|█▎        | 9941/78504 [6:02:26<64:45:29,  3.40s/it]                                                         {'loss': 0.0996, 'grad_norm': 0.29983171820640564, 'learning_rate': 2.9115111884845652e-05, 'epoch': 3.04}
 13%|█▎        | 9941/78504 [6:02:26<64:45:29,  3.40s/it] 13%|█▎        | 9942/78504 [6:02:28<59:08:27,  3.11s/it]                                                         {'loss': 0.0651, 'grad_norm': 0.22631274163722992, 'learning_rate': 2.9114687274425714e-05, 'epoch': 3.04}
 13%|█▎        | 9942/78504 [6:02:28<59:08:27,  3.11s/it] 13%|█▎        | 9943/78504 [6:02:31<55:31:20,  2.92s/it]                                                         {'loss': 0.0504, 'grad_norm': 0.21979133784770966, 'learning_rate': 2.9114262664005773e-05, 'epoch': 3.04}
 13%|█▎        | 9943/78504 [6:02:31<55:31:20,  2.92s/it] 13%|█▎        | 9944/78504 [6:02:33<52:52:31,  2.78s/it]                                                         {'loss': 0.0806, 'grad_norm': 0.36350563168525696, 'learning_rate': 2.9113838053585835e-05, 'epoch': 3.04}
 13%|█▎        | 9944/78504 [6:02:33<52:52:31,  2.78s/it] 13%|█▎        | 9945/78504 [6:02:36<50:16:44,  2.64s/it]                                                         {'loss': 0.0768, 'grad_norm': 0.26604020595550537, 'learning_rate': 2.9113413443165893e-05, 'epoch': 3.04}
 13%|█▎        | 9945/78504 [6:02:36<50:16:44,  2.64s/it] 13%|█▎        | 9946/78504 [6:02:38<48:20:52,  2.54s/it]                                                         {'loss': 0.0633, 'grad_norm': 0.37508314847946167, 'learning_rate': 2.9112988832745956e-05, 'epoch': 3.04}
 13%|█▎        | 9946/78504 [6:02:38<48:20:52,  2.54s/it] 13%|█▎        | 9947/78504 [6:02:40<45:32:34,  2.39s/it]                                                         {'loss': 0.0846, 'grad_norm': 0.606623113155365, 'learning_rate': 2.9112564222326014e-05, 'epoch': 3.04}
 13%|█▎        | 9947/78504 [6:02:40<45:32:34,  2.39s/it] 13%|█▎        | 9948/78504 [6:02:42<44:13:01,  2.32s/it]                                                         {'loss': 0.0682, 'grad_norm': 0.33359506726264954, 'learning_rate': 2.9112139611906076e-05, 'epoch': 3.04}
 13%|█▎        | 9948/78504 [6:02:42<44:13:01,  2.32s/it] 13%|█▎        | 9949/78504 [6:02:44<41:39:03,  2.19s/it]                                                         {'loss': 0.0878, 'grad_norm': 0.3643019199371338, 'learning_rate': 2.9111715001486135e-05, 'epoch': 3.04}
 13%|█▎        | 9949/78504 [6:02:44<41:39:03,  2.19s/it] 13%|█▎        | 9950/78504 [6:02:46<40:27:24,  2.12s/it]                                                         {'loss': 0.0955, 'grad_norm': 0.33096054196357727, 'learning_rate': 2.9111290391066197e-05, 'epoch': 3.04}
 13%|█▎        | 9950/78504 [6:02:46<40:27:24,  2.12s/it] 13%|█▎        | 9951/78504 [6:02:48<38:32:31,  2.02s/it]                                                         {'loss': 0.114, 'grad_norm': 0.5743088722229004, 'learning_rate': 2.9110865780646256e-05, 'epoch': 3.04}
 13%|█▎        | 9951/78504 [6:02:48<38:32:31,  2.02s/it] 13%|█▎        | 9952/78504 [6:02:50<37:44:56,  1.98s/it]                                                         {'loss': 0.1, 'grad_norm': 0.39921554923057556, 'learning_rate': 2.9110441170226318e-05, 'epoch': 3.04}
 13%|█▎        | 9952/78504 [6:02:50<37:44:56,  1.98s/it] 13%|█▎        | 9953/78504 [6:02:52<36:30:57,  1.92s/it]                                                         {'loss': 0.1221, 'grad_norm': 0.47699227929115295, 'learning_rate': 2.9110016559806377e-05, 'epoch': 3.04}
 13%|█▎        | 9953/78504 [6:02:52<36:30:57,  1.92s/it] 13%|█▎        | 9954/78504 [6:02:53<34:35:35,  1.82s/it]                                                         {'loss': 0.1179, 'grad_norm': 0.6024357080459595, 'learning_rate': 2.910959194938644e-05, 'epoch': 3.04}
 13%|█▎        | 9954/78504 [6:02:53<34:35:35,  1.82s/it] 13%|█▎        | 9955/78504 [6:02:55<32:50:03,  1.72s/it]                                                         {'loss': 0.1466, 'grad_norm': 0.7833068370819092, 'learning_rate': 2.91091673389665e-05, 'epoch': 3.04}
 13%|█▎        | 9955/78504 [6:02:55<32:50:03,  1.72s/it] 13%|█▎        | 9956/78504 [6:02:56<31:38:47,  1.66s/it]                                                         {'loss': 0.1686, 'grad_norm': 0.6036311388015747, 'learning_rate': 2.910874272854656e-05, 'epoch': 3.04}
 13%|█▎        | 9956/78504 [6:02:56<31:38:47,  1.66s/it] 13%|█▎        | 9957/78504 [6:02:58<30:05:13,  1.58s/it]                                                         {'loss': 0.1765, 'grad_norm': 0.891036331653595, 'learning_rate': 2.910831811812662e-05, 'epoch': 3.04}
 13%|█▎        | 9957/78504 [6:02:58<30:05:13,  1.58s/it] 13%|█▎        | 9958/78504 [6:02:59<28:22:08,  1.49s/it]                                                         {'loss': 0.1946, 'grad_norm': 0.9491572380065918, 'learning_rate': 2.910789350770668e-05, 'epoch': 3.04}
 13%|█▎        | 9958/78504 [6:02:59<28:22:08,  1.49s/it] 13%|█▎        | 9959/78504 [6:03:00<26:47:38,  1.41s/it]                                                         {'loss': 0.1926, 'grad_norm': 1.1428550481796265, 'learning_rate': 2.9107468897286742e-05, 'epoch': 3.04}
 13%|█▎        | 9959/78504 [6:03:00<26:47:38,  1.41s/it] 13%|█▎        | 9960/78504 [6:03:01<25:04:39,  1.32s/it]                                                         {'loss': 0.1971, 'grad_norm': 1.238967776298523, 'learning_rate': 2.91070442868668e-05, 'epoch': 3.04}
 13%|█▎        | 9960/78504 [6:03:01<25:04:39,  1.32s/it] 13%|█▎        | 9961/78504 [6:03:02<23:33:27,  1.24s/it]                                                         {'loss': 0.2006, 'grad_norm': 1.1865068674087524, 'learning_rate': 2.9106619676446863e-05, 'epoch': 3.05}
 13%|█▎        | 9961/78504 [6:03:02<23:33:27,  1.24s/it] 13%|█▎        | 9962/78504 [6:03:03<21:45:29,  1.14s/it]                                                         {'loss': 0.197, 'grad_norm': 1.0945185422897339, 'learning_rate': 2.9106195066026922e-05, 'epoch': 3.05}
 13%|█▎        | 9962/78504 [6:03:03<21:45:29,  1.14s/it] 13%|█▎        | 9963/78504 [6:03:04<19:46:38,  1.04s/it]                                                         {'loss': 0.2856, 'grad_norm': 1.7602344751358032, 'learning_rate': 2.9105770455606984e-05, 'epoch': 3.05}
 13%|█▎        | 9963/78504 [6:03:04<19:46:38,  1.04s/it] 13%|█▎        | 9964/78504 [6:03:14<73:50:53,  3.88s/it]                                                         {'loss': 0.1456, 'grad_norm': 0.4231763184070587, 'learning_rate': 2.9105345845187043e-05, 'epoch': 3.05}
 13%|█▎        | 9964/78504 [6:03:14<73:50:53,  3.88s/it] 13%|█▎        | 9965/78504 [6:03:18<70:52:38,  3.72s/it]                                                         {'loss': 0.0801, 'grad_norm': 0.3031119406223297, 'learning_rate': 2.9104921234767105e-05, 'epoch': 3.05}
 13%|█▎        | 9965/78504 [6:03:18<70:52:38,  3.72s/it] 13%|█▎        | 9966/78504 [6:03:20<64:14:47,  3.37s/it]                                                         {'loss': 0.077, 'grad_norm': 0.39212435483932495, 'learning_rate': 2.9104496624347163e-05, 'epoch': 3.05}
 13%|█▎        | 9966/78504 [6:03:20<64:14:47,  3.37s/it] 13%|█▎        | 9967/78504 [6:03:23<59:55:44,  3.15s/it]                                                         {'loss': 0.0713, 'grad_norm': 0.314142644405365, 'learning_rate': 2.9104072013927222e-05, 'epoch': 3.05}
 13%|█▎        | 9967/78504 [6:03:23<59:55:44,  3.15s/it] 13%|█▎        | 9968/78504 [6:03:25<56:00:29,  2.94s/it]                                                         {'loss': 0.0609, 'grad_norm': 0.8179952502250671, 'learning_rate': 2.9103647403507284e-05, 'epoch': 3.05}
 13%|█▎        | 9968/78504 [6:03:25<56:00:29,  2.94s/it] 13%|█▎        | 9969/78504 [6:03:28<52:10:18,  2.74s/it]                                                         {'loss': 0.059, 'grad_norm': 0.20648305118083954, 'learning_rate': 2.9103222793087343e-05, 'epoch': 3.05}
 13%|█▎        | 9969/78504 [6:03:28<52:10:18,  2.74s/it] 13%|█▎        | 9970/78504 [6:03:30<49:46:03,  2.61s/it]                                                         {'loss': 0.0915, 'grad_norm': 0.33909523487091064, 'learning_rate': 2.9102798182667405e-05, 'epoch': 3.05}
 13%|█▎        | 9970/78504 [6:03:30<49:46:03,  2.61s/it] 13%|█▎        | 9971/78504 [6:03:32<46:46:40,  2.46s/it]                                                         {'loss': 0.0833, 'grad_norm': 0.6398138999938965, 'learning_rate': 2.9102373572247464e-05, 'epoch': 3.05}
 13%|█▎        | 9971/78504 [6:03:32<46:46:40,  2.46s/it] 13%|█▎        | 9972/78504 [6:03:34<45:13:07,  2.38s/it]                                                         {'loss': 0.0717, 'grad_norm': 0.5261000394821167, 'learning_rate': 2.9101948961827526e-05, 'epoch': 3.05}
 13%|█▎        | 9972/78504 [6:03:34<45:13:07,  2.38s/it] 13%|█▎        | 9973/78504 [6:03:36<44:00:43,  2.31s/it]                                                         {'loss': 0.0656, 'grad_norm': 0.3790794014930725, 'learning_rate': 2.9101524351407585e-05, 'epoch': 3.05}
 13%|█▎        | 9973/78504 [6:03:36<44:00:43,  2.31s/it] 13%|█▎        | 9974/78504 [6:03:38<42:24:18,  2.23s/it]                                                         {'loss': 0.1265, 'grad_norm': 1.417400598526001, 'learning_rate': 2.9101099740987647e-05, 'epoch': 3.05}
 13%|█▎        | 9974/78504 [6:03:38<42:24:18,  2.23s/it] 13%|█▎        | 9975/78504 [6:03:40<40:57:31,  2.15s/it]                                                         {'loss': 0.0967, 'grad_norm': 0.4987010657787323, 'learning_rate': 2.9100675130567705e-05, 'epoch': 3.05}
 13%|█▎        | 9975/78504 [6:03:40<40:57:31,  2.15s/it] 13%|█▎        | 9976/78504 [6:03:42<39:24:33,  2.07s/it]                                                         {'loss': 0.1339, 'grad_norm': 0.6948097944259644, 'learning_rate': 2.9100250520147767e-05, 'epoch': 3.05}
 13%|█▎        | 9976/78504 [6:03:42<39:24:33,  2.07s/it] 13%|█▎        | 9977/78504 [6:03:44<38:17:43,  2.01s/it]                                                         {'loss': 0.1005, 'grad_norm': 2.696585178375244, 'learning_rate': 2.9099825909727826e-05, 'epoch': 3.05}
 13%|█▎        | 9977/78504 [6:03:44<38:17:43,  2.01s/it] 13%|█▎        | 9978/78504 [6:03:46<36:55:57,  1.94s/it]                                                         {'loss': 0.1412, 'grad_norm': 0.47487178444862366, 'learning_rate': 2.9099401299307888e-05, 'epoch': 3.05}
 13%|█▎        | 9978/78504 [6:03:46<36:55:57,  1.94s/it] 13%|█▎        | 9979/78504 [6:03:48<34:51:11,  1.83s/it]                                                         {'loss': 0.1624, 'grad_norm': 0.7186842560768127, 'learning_rate': 2.9098976688887947e-05, 'epoch': 3.05}
 13%|█▎        | 9979/78504 [6:03:48<34:51:11,  1.83s/it] 13%|█▎        | 9980/78504 [6:03:49<33:12:33,  1.74s/it]                                                         {'loss': 0.1384, 'grad_norm': 1.3719522953033447, 'learning_rate': 2.9098552078468006e-05, 'epoch': 3.05}
 13%|█▎        | 9980/78504 [6:03:49<33:12:33,  1.74s/it] 13%|█▎        | 9981/78504 [6:03:51<31:40:28,  1.66s/it]                                                         {'loss': 0.1885, 'grad_norm': 0.8336465358734131, 'learning_rate': 2.9098127468048068e-05, 'epoch': 3.05}
 13%|█▎        | 9981/78504 [6:03:51<31:40:28,  1.66s/it] 13%|█▎        | 9982/78504 [6:03:52<30:10:46,  1.59s/it]                                                         {'loss': 0.2263, 'grad_norm': 1.1709837913513184, 'learning_rate': 2.9097702857628126e-05, 'epoch': 3.05}
 13%|█▎        | 9982/78504 [6:03:52<30:10:46,  1.59s/it] 13%|█▎        | 9983/78504 [6:03:53<28:27:46,  1.50s/it]                                                         {'loss': 0.1936, 'grad_norm': 0.8848329782485962, 'learning_rate': 2.909727824720819e-05, 'epoch': 3.05}
 13%|█▎        | 9983/78504 [6:03:53<28:27:46,  1.50s/it] 13%|█▎        | 9984/78504 [6:03:54<26:29:56,  1.39s/it]                                                         {'loss': 0.2118, 'grad_norm': 1.0356723070144653, 'learning_rate': 2.9096853636788247e-05, 'epoch': 3.05}
 13%|█▎        | 9984/78504 [6:03:54<26:29:56,  1.39s/it] 13%|█▎        | 9985/78504 [6:03:55<24:55:37,  1.31s/it]                                                         {'loss': 0.1754, 'grad_norm': 0.9136974811553955, 'learning_rate': 2.909642902636831e-05, 'epoch': 3.05}
 13%|█▎        | 9985/78504 [6:03:56<24:55:37,  1.31s/it] 13%|█▎        | 9986/78504 [6:03:56<23:07:34,  1.22s/it]                                                         {'loss': 0.2008, 'grad_norm': 1.1877378225326538, 'learning_rate': 2.9096004415948368e-05, 'epoch': 3.05}
 13%|█▎        | 9986/78504 [6:03:57<23:07:34,  1.22s/it] 13%|█▎        | 9987/78504 [6:03:57<21:28:32,  1.13s/it]                                                         {'loss': 0.2214, 'grad_norm': 1.0892009735107422, 'learning_rate': 2.909557980552843e-05, 'epoch': 3.05}
 13%|█▎        | 9987/78504 [6:03:57<21:28:32,  1.13s/it] 13%|█▎        | 9988/78504 [6:03:58<19:28:35,  1.02s/it]                                                         {'loss': 0.3299, 'grad_norm': 1.3733361959457397, 'learning_rate': 2.909515519510849e-05, 'epoch': 3.05}
 13%|█▎        | 9988/78504 [6:03:58<19:28:35,  1.02s/it] 13%|█▎        | 9989/78504 [6:04:07<62:56:13,  3.31s/it]                                                         {'loss': 0.1439, 'grad_norm': 0.6210670471191406, 'learning_rate': 2.909473058468855e-05, 'epoch': 3.05}
 13%|█▎        | 9989/78504 [6:04:07<62:56:13,  3.31s/it] 13%|█▎        | 9990/78504 [6:04:10<61:36:08,  3.24s/it]                                                         {'loss': 0.0978, 'grad_norm': 0.5189393162727356, 'learning_rate': 2.909430597426861e-05, 'epoch': 3.05}
 13%|█▎        | 9990/78504 [6:04:10<61:36:08,  3.24s/it] 13%|█▎        | 9991/78504 [6:04:13<60:08:16,  3.16s/it]                                                         {'loss': 0.0775, 'grad_norm': 0.2215009480714798, 'learning_rate': 2.909388136384867e-05, 'epoch': 3.05}
 13%|█▎        | 9991/78504 [6:04:13<60:08:16,  3.16s/it] 13%|█▎        | 9992/78504 [6:04:15<56:50:30,  2.99s/it]                                                         {'loss': 0.0497, 'grad_norm': 0.29092761874198914, 'learning_rate': 2.909345675342873e-05, 'epoch': 3.05}
 13%|█▎        | 9992/78504 [6:04:15<56:50:30,  2.99s/it] 13%|█▎        | 9993/78504 [6:04:18<54:01:13,  2.84s/it]                                                         {'loss': 0.0521, 'grad_norm': 0.33225777745246887, 'learning_rate': 2.909303214300879e-05, 'epoch': 3.06}
 13%|█▎        | 9993/78504 [6:04:18<54:01:13,  2.84s/it] 13%|█▎        | 9994/78504 [6:04:20<51:12:19,  2.69s/it]                                                         {'loss': 0.0648, 'grad_norm': 0.2332017719745636, 'learning_rate': 2.909260753258885e-05, 'epoch': 3.06}
 13%|█▎        | 9994/78504 [6:04:20<51:12:19,  2.69s/it] 13%|█▎        | 9995/78504 [6:04:23<49:08:30,  2.58s/it]                                                         {'loss': 0.0589, 'grad_norm': 0.28730300068855286, 'learning_rate': 2.909218292216891e-05, 'epoch': 3.06}
 13%|█▎        | 9995/78504 [6:04:23<49:08:30,  2.58s/it] 13%|█▎        | 9996/78504 [6:04:25<46:18:00,  2.43s/it]                                                         {'loss': 0.0582, 'grad_norm': 0.25589704513549805, 'learning_rate': 2.9091758311748972e-05, 'epoch': 3.06}
 13%|█▎        | 9996/78504 [6:04:25<46:18:00,  2.43s/it] 13%|█▎        | 9997/78504 [6:04:27<44:52:26,  2.36s/it]                                                         {'loss': 0.0727, 'grad_norm': 0.32279670238494873, 'learning_rate': 2.909133370132903e-05, 'epoch': 3.06}
 13%|█▎        | 9997/78504 [6:04:27<44:52:26,  2.36s/it] 13%|█▎        | 9998/78504 [6:04:29<43:39:39,  2.29s/it]                                                         {'loss': 0.0689, 'grad_norm': 0.2891189455986023, 'learning_rate': 2.9090909090909093e-05, 'epoch': 3.06}
 13%|█▎        | 9998/78504 [6:04:29<43:39:39,  2.29s/it] 13%|█▎        | 9999/78504 [6:04:31<42:05:58,  2.21s/it]                                                         {'loss': 0.1035, 'grad_norm': 0.5595896244049072, 'learning_rate': 2.909048448048915e-05, 'epoch': 3.06}
 13%|█▎        | 9999/78504 [6:04:31<42:05:58,  2.21s/it] 13%|█▎        | 10000/78504 [6:04:33<40:46:17,  2.14s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.3263062834739685, 'learning_rate': 2.9090059870069213e-05, 'epoch': 3.06}
 13%|█▎        | 10000/78504 [6:04:33<40:46:17,  2.14s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.56it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.64it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.63it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.72it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.02it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.48it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.56it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.81it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.18it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.41it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.60it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.88it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.17it/s][A                                                          
                                               [A{'eval_loss': 0.25329089164733887, 'eval_wer': 0.33909667327728277, 'eval_cer': 0.19142854025509257, 'eval_runtime': 19.2123, 'eval_samples_per_second': 236.203, 'eval_steps_per_second': 0.781, 'epoch': 3.06}
 13%|█▎        | 10000/78504 [6:05:39<40:46:17,  2.14s/it]
100%|██████████| 15/15 [00:11<00:00,  1.17it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-10000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-8000] due to args.save_total_limit
 13%|█▎        | 10001/78504 [6:05:55<497:03:49, 26.12s/it]                                                           {'loss': 0.1059, 'grad_norm': 0.7752137184143066, 'learning_rate': 2.9089635259649272e-05, 'epoch': 3.06}
 13%|█▎        | 10001/78504 [6:05:55<497:03:49, 26.12s/it] 13%|█▎        | 10002/78504 [6:05:57<358:15:25, 18.83s/it]                                                           {'loss': 0.1435, 'grad_norm': 0.6599632501602173, 'learning_rate': 2.9089210649229334e-05, 'epoch': 3.06}
 13%|█▎        | 10002/78504 [6:05:57<358:15:25, 18.83s/it] 13%|█▎        | 10003/78504 [6:05:59<260:12:38, 13.68s/it]                                                           {'loss': 0.157, 'grad_norm': 0.5732297301292419, 'learning_rate': 2.9088786038809393e-05, 'epoch': 3.06}
 13%|█▎        | 10003/78504 [6:05:59<260:12:38, 13.68s/it] 13%|█▎        | 10004/78504 [6:06:00<191:23:36, 10.06s/it]                                                           {'loss': 0.1685, 'grad_norm': 1.5359485149383545, 'learning_rate': 2.9088361428389455e-05, 'epoch': 3.06}
 13%|█▎        | 10004/78504 [6:06:00<191:23:36, 10.06s/it] 13%|█▎        | 10005/78504 [6:06:02<142:43:45,  7.50s/it]                                                           {'loss': 0.1613, 'grad_norm': 0.49692270159721375, 'learning_rate': 2.9087936817969514e-05, 'epoch': 3.06}
 13%|█▎        | 10005/78504 [6:06:02<142:43:45,  7.50s/it] 13%|█▎        | 10006/78504 [6:06:03<108:15:39,  5.69s/it]                                                           {'loss': 0.1674, 'grad_norm': 0.6027255654335022, 'learning_rate': 2.9087512207549572e-05, 'epoch': 3.06}
 13%|█▎        | 10006/78504 [6:06:03<108:15:39,  5.69s/it] 13%|█▎        | 10007/78504 [6:06:05<83:48:31,  4.40s/it]                                                           {'loss': 0.1839, 'grad_norm': 1.4179556369781494, 'learning_rate': 2.9087087597129635e-05, 'epoch': 3.06}
 13%|█▎        | 10007/78504 [6:06:05<83:48:31,  4.40s/it] 13%|█▎        | 10008/78504 [6:06:06<65:54:36,  3.46s/it]                                                          {'loss': 0.1936, 'grad_norm': 0.8725062608718872, 'learning_rate': 2.9086662986709693e-05, 'epoch': 3.06}
 13%|█▎        | 10008/78504 [6:06:06<65:54:36,  3.46s/it] 13%|█▎        | 10009/78504 [6:06:07<52:40:41,  2.77s/it]                                                          {'loss': 0.2201, 'grad_norm': 1.0006487369537354, 'learning_rate': 2.9086238376289755e-05, 'epoch': 3.06}
 13%|█▎        | 10009/78504 [6:06:07<52:40:41,  2.77s/it] 13%|█▎        | 10010/78504 [6:06:08<43:04:57,  2.26s/it]                                                          {'loss': 0.1788, 'grad_norm': 0.728834867477417, 'learning_rate': 2.9085813765869814e-05, 'epoch': 3.06}
 13%|█▎        | 10010/78504 [6:06:08<43:04:57,  2.26s/it] 13%|█▎        | 10011/78504 [6:06:09<35:45:57,  1.88s/it]                                                          {'loss': 0.2309, 'grad_norm': 0.7991411685943604, 'learning_rate': 2.9085389155449876e-05, 'epoch': 3.06}
 13%|█▎        | 10011/78504 [6:06:09<35:45:57,  1.88s/it] 13%|█▎        | 10012/78504 [6:06:10<30:20:59,  1.60s/it]                                                          {'loss': 0.2623, 'grad_norm': 1.9486746788024902, 'learning_rate': 2.9084964545029935e-05, 'epoch': 3.06}
 13%|█▎        | 10012/78504 [6:06:10<30:20:59,  1.60s/it] 13%|█▎        | 10013/78504 [6:06:11<25:38:39,  1.35s/it]                                                          {'loss': 0.3585, 'grad_norm': 2.2473528385162354, 'learning_rate': 2.9084539934609997e-05, 'epoch': 3.06}
 13%|█▎        | 10013/78504 [6:06:11<25:38:39,  1.35s/it] 13%|█▎        | 10014/78504 [6:06:19<63:09:05,  3.32s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.4509549140930176, 'learning_rate': 2.9084115324190056e-05, 'epoch': 3.06}
 13%|█▎        | 10014/78504 [6:06:19<63:09:05,  3.32s/it] 13%|█▎        | 10015/78504 [6:06:22<62:56:55,  3.31s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.2511819005012512, 'learning_rate': 2.9083690713770118e-05, 'epoch': 3.06}
 13%|█▎        | 10015/78504 [6:06:22<62:56:55,  3.31s/it] 13%|█▎        | 10016/78504 [6:06:25<61:01:28,  3.21s/it]                                                          {'loss': 0.0777, 'grad_norm': 0.5383131504058838, 'learning_rate': 2.9083266103350176e-05, 'epoch': 3.06}
 13%|█▎        | 10016/78504 [6:06:25<61:01:28,  3.21s/it] 13%|█▎        | 10017/78504 [6:06:28<57:35:04,  3.03s/it]                                                          {'loss': 0.0718, 'grad_norm': 0.2384410947561264, 'learning_rate': 2.908284149293024e-05, 'epoch': 3.06}
 13%|█▎        | 10017/78504 [6:06:28<57:35:04,  3.03s/it] 13%|█▎        | 10018/78504 [6:06:30<54:23:23,  2.86s/it]                                                          {'loss': 0.06, 'grad_norm': 0.768470048904419, 'learning_rate': 2.9082416882510297e-05, 'epoch': 3.06}
 13%|█▎        | 10018/78504 [6:06:30<54:23:23,  2.86s/it] 13%|█▎        | 10019/78504 [6:06:32<50:56:13,  2.68s/it]                                                          {'loss': 0.053, 'grad_norm': 0.34090808033943176, 'learning_rate': 2.9081992272090356e-05, 'epoch': 3.06}
 13%|█▎        | 10019/78504 [6:06:32<50:56:13,  2.68s/it] 13%|█▎        | 10020/78504 [6:06:35<48:50:35,  2.57s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.38054850697517395, 'learning_rate': 2.9081567661670418e-05, 'epoch': 3.06}
 13%|█▎        | 10020/78504 [6:06:35<48:50:35,  2.57s/it] 13%|█▎        | 10021/78504 [6:06:37<46:14:54,  2.43s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.30358803272247314, 'learning_rate': 2.9081143051250477e-05, 'epoch': 3.06}
 13%|█▎        | 10021/78504 [6:06:37<46:14:54,  2.43s/it] 13%|█▎        | 10022/78504 [6:06:39<44:46:29,  2.35s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.2769474685192108, 'learning_rate': 2.908071844083054e-05, 'epoch': 3.06}
 13%|█▎        | 10022/78504 [6:06:39<44:46:29,  2.35s/it] 13%|█▎        | 10023/78504 [6:06:41<43:34:48,  2.29s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.23718972504138947, 'learning_rate': 2.9080293830410597e-05, 'epoch': 3.06}
 13%|█▎        | 10023/78504 [6:06:41<43:34:48,  2.29s/it] 13%|█▎        | 10024/78504 [6:06:43<42:01:19,  2.21s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.2660408318042755, 'learning_rate': 2.907986921999066e-05, 'epoch': 3.06}
 13%|█▎        | 10024/78504 [6:06:43<42:01:19,  2.21s/it] 13%|█▎        | 10025/78504 [6:06:45<40:40:07,  2.14s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.44107723236083984, 'learning_rate': 2.9079444609570718e-05, 'epoch': 3.06}
 13%|█▎        | 10025/78504 [6:06:45<40:40:07,  2.14s/it] 13%|█▎        | 10026/78504 [6:06:47<39:13:04,  2.06s/it]                                                          {'loss': 0.084, 'grad_norm': 0.3565465807914734, 'learning_rate': 2.907901999915078e-05, 'epoch': 3.07}
 13%|█▎        | 10026/78504 [6:06:47<39:13:04,  2.06s/it] 13%|█▎        | 10027/78504 [6:06:49<38:07:20,  2.00s/it]                                                          {'loss': 0.1371, 'grad_norm': 0.43784981966018677, 'learning_rate': 2.907859538873084e-05, 'epoch': 3.07}
 13%|█▎        | 10027/78504 [6:06:49<38:07:20,  2.00s/it] 13%|█▎        | 10028/78504 [6:06:51<36:47:07,  1.93s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.9045982360839844, 'learning_rate': 2.90781707783109e-05, 'epoch': 3.07}
 13%|█▎        | 10028/78504 [6:06:51<36:47:07,  1.93s/it] 13%|█▎        | 10029/78504 [6:06:52<34:45:08,  1.83s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.41149282455444336, 'learning_rate': 2.907774616789096e-05, 'epoch': 3.07}
 13%|█▎        | 10029/78504 [6:06:52<34:45:08,  1.83s/it] 13%|█▎        | 10030/78504 [6:06:54<33:04:25,  1.74s/it]                                                          {'loss': 0.1534, 'grad_norm': 0.41112545132637024, 'learning_rate': 2.9077321557471022e-05, 'epoch': 3.07}
 13%|█▎        | 10030/78504 [6:06:54<33:04:25,  1.74s/it] 13%|█▎        | 10031/78504 [6:06:55<31:44:38,  1.67s/it]                                                          {'loss': 0.1688, 'grad_norm': 0.734288215637207, 'learning_rate': 2.907689694705108e-05, 'epoch': 3.07}
 13%|█▎        | 10031/78504 [6:06:55<31:44:38,  1.67s/it] 13%|█▎        | 10032/78504 [6:06:57<30:17:58,  1.59s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.761220395565033, 'learning_rate': 2.907647233663114e-05, 'epoch': 3.07}
 13%|█▎        | 10032/78504 [6:06:57<30:17:58,  1.59s/it] 13%|█▎        | 10033/78504 [6:06:58<28:36:03,  1.50s/it]                                                          {'loss': 0.1857, 'grad_norm': 1.311556339263916, 'learning_rate': 2.90760477262112e-05, 'epoch': 3.07}
 13%|█▎        | 10033/78504 [6:06:58<28:36:03,  1.50s/it] 13%|█▎        | 10034/78504 [6:06:59<26:33:55,  1.40s/it]                                                          {'loss': 0.1979, 'grad_norm': 0.8490754961967468, 'learning_rate': 2.907562311579126e-05, 'epoch': 3.07}
 13%|█▎        | 10034/78504 [6:06:59<26:33:55,  1.40s/it] 13%|█▎        | 10035/78504 [6:07:00<24:47:28,  1.30s/it]                                                          {'loss': 0.212, 'grad_norm': 0.883800745010376, 'learning_rate': 2.9075198505371322e-05, 'epoch': 3.07}
 13%|█▎        | 10035/78504 [6:07:00<24:47:28,  1.30s/it] 13%|█▎        | 10036/78504 [6:07:01<24:59:57,  1.31s/it]                                                          {'loss': 0.2083, 'grad_norm': 1.0769314765930176, 'learning_rate': 2.907477389495138e-05, 'epoch': 3.07}
 13%|█▎        | 10036/78504 [6:07:01<24:59:57,  1.31s/it] 13%|█▎        | 10037/78504 [6:07:02<22:47:52,  1.20s/it]                                                          {'loss': 0.2459, 'grad_norm': 1.0748541355133057, 'learning_rate': 2.9074349284531443e-05, 'epoch': 3.07}
 13%|█▎        | 10037/78504 [6:07:02<22:47:52,  1.20s/it] 13%|█▎        | 10038/78504 [6:07:03<20:13:19,  1.06s/it]                                                          {'loss': 0.2305, 'grad_norm': 1.6452142000198364, 'learning_rate': 2.90739246741115e-05, 'epoch': 3.07}
 13%|█▎        | 10038/78504 [6:07:03<20:13:19,  1.06s/it] 13%|█▎        | 10039/78504 [6:07:13<68:57:22,  3.63s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.41340774297714233, 'learning_rate': 2.9073500063691564e-05, 'epoch': 3.07}
 13%|█▎        | 10039/78504 [6:07:13<68:57:22,  3.63s/it] 13%|█▎        | 10040/78504 [6:07:16<66:47:12,  3.51s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.20101012289524078, 'learning_rate': 2.9073075453271622e-05, 'epoch': 3.07}
 13%|█▎        | 10040/78504 [6:07:16<66:47:12,  3.51s/it] 13%|█▎        | 10041/78504 [6:07:19<62:09:04,  3.27s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.4428040683269501, 'learning_rate': 2.9072650842851685e-05, 'epoch': 3.07}
 13%|█▎        | 10041/78504 [6:07:19<62:09:04,  3.27s/it] 13%|█▎        | 10042/78504 [6:07:21<58:15:40,  3.06s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.3742675483226776, 'learning_rate': 2.9072226232431743e-05, 'epoch': 3.07}
 13%|█▎        | 10042/78504 [6:07:21<58:15:40,  3.06s/it] 13%|█▎        | 10043/78504 [6:07:24<54:12:07,  2.85s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.2696075439453125, 'learning_rate': 2.9071801622011802e-05, 'epoch': 3.07}
 13%|█▎        | 10043/78504 [6:07:24<54:12:07,  2.85s/it] 13%|█▎        | 10044/78504 [6:07:26<50:49:59,  2.67s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.22469530999660492, 'learning_rate': 2.9071377011591864e-05, 'epoch': 3.07}
 13%|█▎        | 10044/78504 [6:07:26<50:49:59,  2.67s/it] 13%|█▎        | 10045/78504 [6:07:28<48:45:51,  2.56s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.21875572204589844, 'learning_rate': 2.9070952401171923e-05, 'epoch': 3.07}
 13%|█▎        | 10045/78504 [6:07:28<48:45:51,  2.56s/it] 13%|█▎        | 10046/78504 [6:07:30<46:04:03,  2.42s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.45943987369537354, 'learning_rate': 2.9070527790751985e-05, 'epoch': 3.07}
 13%|█▎        | 10046/78504 [6:07:30<46:04:03,  2.42s/it] 13%|█▎        | 10047/78504 [6:07:32<44:42:14,  2.35s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.46818557381629944, 'learning_rate': 2.9070103180332044e-05, 'epoch': 3.07}
 13%|█▎        | 10047/78504 [6:07:32<44:42:14,  2.35s/it] 13%|█▎        | 10048/78504 [6:07:35<43:27:50,  2.29s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.24278977513313293, 'learning_rate': 2.9069678569912106e-05, 'epoch': 3.07}
 13%|█▎        | 10048/78504 [6:07:35<43:27:50,  2.29s/it] 13%|█▎        | 10049/78504 [6:07:37<41:51:49,  2.20s/it]                                                          {'loss': 0.114, 'grad_norm': 0.4072519540786743, 'learning_rate': 2.9069253959492164e-05, 'epoch': 3.07}
 13%|█▎        | 10049/78504 [6:07:37<41:51:49,  2.20s/it] 13%|█▎        | 10050/78504 [6:07:38<39:33:12,  2.08s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.3440033495426178, 'learning_rate': 2.9068829349072226e-05, 'epoch': 3.07}
 13%|█▎        | 10050/78504 [6:07:38<39:33:12,  2.08s/it] 13%|█▎        | 10051/78504 [6:07:40<38:18:01,  2.01s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.3648938238620758, 'learning_rate': 2.9068404738652285e-05, 'epoch': 3.07}
 13%|█▎        | 10051/78504 [6:07:40<38:18:01,  2.01s/it] 13%|█▎        | 10052/78504 [6:07:42<36:36:13,  1.93s/it]                                                          {'loss': 0.1283, 'grad_norm': 0.45745426416397095, 'learning_rate': 2.9067980128232347e-05, 'epoch': 3.07}
 13%|█▎        | 10052/78504 [6:07:42<36:36:13,  1.93s/it] 13%|█▎        | 10053/78504 [6:07:44<35:07:41,  1.85s/it]                                                          {'loss': 0.1575, 'grad_norm': 0.44091612100601196, 'learning_rate': 2.9067555517812406e-05, 'epoch': 3.07}
 13%|█▎        | 10053/78504 [6:07:44<35:07:41,  1.85s/it] 13%|█▎        | 10054/78504 [6:07:45<33:54:27,  1.78s/it]                                                          {'loss': 0.1572, 'grad_norm': 0.47077178955078125, 'learning_rate': 2.9067130907392468e-05, 'epoch': 3.07}
 13%|█▎        | 10054/78504 [6:07:45<33:54:27,  1.78s/it] 13%|█▎        | 10055/78504 [6:07:47<32:24:59,  1.70s/it]                                                          {'loss': 0.1541, 'grad_norm': 0.6292386054992676, 'learning_rate': 2.9066706296972527e-05, 'epoch': 3.07}
 13%|█▎        | 10055/78504 [6:07:47<32:24:59,  1.70s/it] 13%|█▎        | 10056/78504 [6:07:48<30:50:28,  1.62s/it]                                                          {'loss': 0.1609, 'grad_norm': 0.6726807355880737, 'learning_rate': 2.906628168655259e-05, 'epoch': 3.07}
 13%|█▎        | 10056/78504 [6:07:48<30:50:28,  1.62s/it] 13%|█▎        | 10057/78504 [6:07:50<29:35:56,  1.56s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.5453143119812012, 'learning_rate': 2.906585707613265e-05, 'epoch': 3.07}
 13%|█▎        | 10057/78504 [6:07:50<29:35:56,  1.56s/it] 13%|█▎        | 10058/78504 [6:07:51<27:40:47,  1.46s/it]                                                          {'loss': 0.1887, 'grad_norm': 0.8598425388336182, 'learning_rate': 2.906543246571271e-05, 'epoch': 3.07}
 13%|█▎        | 10058/78504 [6:07:51<27:40:47,  1.46s/it] 13%|█▎        | 10059/78504 [6:07:52<25:51:32,  1.36s/it]                                                          {'loss': 0.1693, 'grad_norm': 0.7569369673728943, 'learning_rate': 2.906500785529277e-05, 'epoch': 3.08}
 13%|█▎        | 10059/78504 [6:07:52<25:51:32,  1.36s/it] 13%|█▎        | 10060/78504 [6:07:53<24:20:45,  1.28s/it]                                                          {'loss': 0.1702, 'grad_norm': 1.0183203220367432, 'learning_rate': 2.906458324487283e-05, 'epoch': 3.08}
 13%|█▎        | 10060/78504 [6:07:53<24:20:45,  1.28s/it] 13%|█▎        | 10061/78504 [6:07:54<22:41:16,  1.19s/it]                                                          {'loss': 0.2185, 'grad_norm': 1.0593981742858887, 'learning_rate': 2.9064158634452892e-05, 'epoch': 3.08}
 13%|█▎        | 10061/78504 [6:07:54<22:41:16,  1.19s/it] 13%|█▎        | 10062/78504 [6:07:55<21:08:54,  1.11s/it]                                                          {'loss': 0.2095, 'grad_norm': 1.2314079999923706, 'learning_rate': 2.906373402403295e-05, 'epoch': 3.08}
 13%|█▎        | 10062/78504 [6:07:55<21:08:54,  1.11s/it] 13%|█▎        | 10063/78504 [6:07:56<19:15:10,  1.01s/it]                                                          {'loss': 0.2477, 'grad_norm': 1.5018969774246216, 'learning_rate': 2.9063309413613013e-05, 'epoch': 3.08}
 13%|█▎        | 10063/78504 [6:07:56<19:15:10,  1.01s/it] 13%|█▎        | 10064/78504 [6:08:05<65:37:37,  3.45s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.6881759762763977, 'learning_rate': 2.9062884803193072e-05, 'epoch': 3.08}
 13%|█▎        | 10064/78504 [6:08:05<65:37:37,  3.45s/it] 13%|█▎        | 10065/78504 [6:08:08<65:07:40,  3.43s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.29284945130348206, 'learning_rate': 2.9062460192773134e-05, 'epoch': 3.08}
 13%|█▎        | 10065/78504 [6:08:08<65:07:40,  3.43s/it] 13%|█▎        | 10066/78504 [6:08:11<62:14:00,  3.27s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.32500287890434265, 'learning_rate': 2.9062035582353193e-05, 'epoch': 3.08}
 13%|█▎        | 10066/78504 [6:08:11<62:14:00,  3.27s/it] 13%|█▎        | 10067/78504 [6:08:14<58:17:18,  3.07s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.22057361900806427, 'learning_rate': 2.9061610971933255e-05, 'epoch': 3.08}
 13%|█▎        | 10067/78504 [6:08:14<58:17:18,  3.07s/it] 13%|█▎        | 10068/78504 [6:08:16<55:03:00,  2.90s/it]                                                          {'loss': 0.0629, 'grad_norm': 0.31360116600990295, 'learning_rate': 2.9061186361513313e-05, 'epoch': 3.08}
 13%|█▎        | 10068/78504 [6:08:16<55:03:00,  2.90s/it] 13%|█▎        | 10069/78504 [6:08:19<52:28:44,  2.76s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.35599932074546814, 'learning_rate': 2.9060761751093372e-05, 'epoch': 3.08}
 13%|█▎        | 10069/78504 [6:08:19<52:28:44,  2.76s/it] 13%|█▎        | 10070/78504 [6:08:21<49:57:59,  2.63s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.24790656566619873, 'learning_rate': 2.9060337140673434e-05, 'epoch': 3.08}
 13%|█▎        | 10070/78504 [6:08:21<49:57:59,  2.63s/it] 13%|█▎        | 10071/78504 [6:08:23<48:06:41,  2.53s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.22037404775619507, 'learning_rate': 2.9059912530253493e-05, 'epoch': 3.08}
 13%|█▎        | 10071/78504 [6:08:23<48:06:41,  2.53s/it] 13%|█▎        | 10072/78504 [6:08:26<46:12:09,  2.43s/it]                                                          {'loss': 0.0553, 'grad_norm': 0.19495049118995667, 'learning_rate': 2.9059487919833555e-05, 'epoch': 3.08}
 13%|█▎        | 10072/78504 [6:08:26<46:12:09,  2.43s/it] 13%|█▎        | 10073/78504 [6:08:28<44:41:04,  2.35s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.2453378289937973, 'learning_rate': 2.9059063309413614e-05, 'epoch': 3.08}
 13%|█▎        | 10073/78504 [6:08:28<44:41:04,  2.35s/it] 13%|█▎        | 10074/78504 [6:08:30<41:52:08,  2.20s/it]                                                          {'loss': 0.0977, 'grad_norm': 0.37647029757499695, 'learning_rate': 2.9058638698993676e-05, 'epoch': 3.08}
 13%|█▎        | 10074/78504 [6:08:30<41:52:08,  2.20s/it] 13%|█▎        | 10075/78504 [6:08:32<40:37:06,  2.14s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.8393172025680542, 'learning_rate': 2.9058214088573735e-05, 'epoch': 3.08}
 13%|█▎        | 10075/78504 [6:08:32<40:37:06,  2.14s/it] 13%|█▎        | 10076/78504 [6:08:33<39:22:44,  2.07s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.5765260457992554, 'learning_rate': 2.9057789478153797e-05, 'epoch': 3.08}
 13%|█▎        | 10076/78504 [6:08:33<39:22:44,  2.07s/it] 13%|█▎        | 10077/78504 [6:08:35<38:18:59,  2.02s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.4038340747356415, 'learning_rate': 2.9057364867733855e-05, 'epoch': 3.08}
 13%|█▎        | 10077/78504 [6:08:35<38:18:59,  2.02s/it] 13%|█▎        | 10078/78504 [6:08:37<36:54:24,  1.94s/it]                                                          {'loss': 0.1293, 'grad_norm': 0.45533373951911926, 'learning_rate': 2.9056940257313917e-05, 'epoch': 3.08}
 13%|█▎        | 10078/78504 [6:08:37<36:54:24,  1.94s/it] 13%|█▎        | 10079/78504 [6:08:39<34:51:31,  1.83s/it]                                                          {'loss': 0.1517, 'grad_norm': 0.5102387070655823, 'learning_rate': 2.9056515646893976e-05, 'epoch': 3.08}
 13%|█▎        | 10079/78504 [6:08:39<34:51:31,  1.83s/it] 13%|█▎        | 10080/78504 [6:08:40<33:09:14,  1.74s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.6716141700744629, 'learning_rate': 2.9056091036474038e-05, 'epoch': 3.08}
 13%|█▎        | 10080/78504 [6:08:40<33:09:14,  1.74s/it] 13%|█▎        | 10081/78504 [6:08:42<31:35:13,  1.66s/it]                                                          {'loss': 0.1749, 'grad_norm': 0.9886074066162109, 'learning_rate': 2.9055666426054097e-05, 'epoch': 3.08}
 13%|█▎        | 10081/78504 [6:08:42<31:35:13,  1.66s/it] 13%|█▎        | 10082/78504 [6:08:43<30:04:59,  1.58s/it]                                                          {'loss': 0.209, 'grad_norm': 1.2411950826644897, 'learning_rate': 2.9055241815634156e-05, 'epoch': 3.08}
 13%|█▎        | 10082/78504 [6:08:43<30:04:59,  1.58s/it] 13%|█▎        | 10083/78504 [6:08:44<28:22:46,  1.49s/it]                                                          {'loss': 0.1927, 'grad_norm': 0.9770867824554443, 'learning_rate': 2.9054817205214218e-05, 'epoch': 3.08}
 13%|█▎        | 10083/78504 [6:08:44<28:22:46,  1.49s/it] 13%|█▎        | 10084/78504 [6:08:46<26:26:19,  1.39s/it]                                                          {'loss': 0.1859, 'grad_norm': 1.4293723106384277, 'learning_rate': 2.9054392594794276e-05, 'epoch': 3.08}
 13%|█▎        | 10084/78504 [6:08:46<26:26:19,  1.39s/it] 13%|█▎        | 10085/78504 [6:08:47<24:45:53,  1.30s/it]                                                          {'loss': 0.1948, 'grad_norm': 4.110073089599609, 'learning_rate': 2.905396798437434e-05, 'epoch': 3.08}
 13%|█▎        | 10085/78504 [6:08:47<24:45:53,  1.30s/it] 13%|█▎        | 10086/78504 [6:08:48<23:20:03,  1.23s/it]                                                          {'loss': 0.2138, 'grad_norm': 2.401430130004883, 'learning_rate': 2.9053543373954397e-05, 'epoch': 3.08}
 13%|█▎        | 10086/78504 [6:08:48<23:20:03,  1.23s/it] 13%|█▎        | 10087/78504 [6:08:49<21:38:44,  1.14s/it]                                                          {'loss': 0.2221, 'grad_norm': 1.3293367624282837, 'learning_rate': 2.905311876353446e-05, 'epoch': 3.08}
 13%|█▎        | 10087/78504 [6:08:49<21:38:44,  1.14s/it] 13%|█▎        | 10088/78504 [6:08:49<19:36:33,  1.03s/it]                                                          {'loss': 0.2648, 'grad_norm': 2.2296526432037354, 'learning_rate': 2.9052694153114518e-05, 'epoch': 3.08}
 13%|█▎        | 10088/78504 [6:08:49<19:36:33,  1.03s/it] 13%|█▎        | 10089/78504 [6:08:59<66:35:25,  3.50s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.3734959661960602, 'learning_rate': 2.905226954269458e-05, 'epoch': 3.08}
 13%|█▎        | 10089/78504 [6:08:59<66:35:25,  3.50s/it] 13%|█▎        | 10090/78504 [6:09:02<65:44:33,  3.46s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.2198134809732437, 'learning_rate': 2.905184493227464e-05, 'epoch': 3.08}
 13%|█▎        | 10090/78504 [6:09:02<65:44:33,  3.46s/it] 13%|█▎        | 10091/78504 [6:09:05<60:41:57,  3.19s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.6042577028274536, 'learning_rate': 2.90514203218547e-05, 'epoch': 3.08}
 13%|█▎        | 10091/78504 [6:09:05<60:41:57,  3.19s/it] 13%|█▎        | 10092/78504 [6:09:07<57:22:53,  3.02s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.49336203932762146, 'learning_rate': 2.905099571143476e-05, 'epoch': 3.09}
 13%|█▎        | 10092/78504 [6:09:07<57:22:53,  3.02s/it] 13%|█▎        | 10093/78504 [6:09:10<54:14:57,  2.85s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.17436914145946503, 'learning_rate': 2.905057110101482e-05, 'epoch': 3.09}
 13%|█▎        | 10093/78504 [6:09:10<54:14:57,  2.85s/it] 13%|█▎        | 10094/78504 [6:09:12<50:54:25,  2.68s/it]                                                          {'loss': 0.0496, 'grad_norm': 0.29508382081985474, 'learning_rate': 2.905014649059488e-05, 'epoch': 3.09}
 13%|█▎        | 10094/78504 [6:09:12<50:54:25,  2.68s/it] 13%|█▎        | 10095/78504 [6:09:14<48:50:16,  2.57s/it]                                                          {'loss': 0.0455, 'grad_norm': 0.2724146246910095, 'learning_rate': 2.904972188017494e-05, 'epoch': 3.09}
 13%|█▎        | 10095/78504 [6:09:14<48:50:16,  2.57s/it] 13%|█▎        | 10096/78504 [6:09:16<46:15:14,  2.43s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.3551980257034302, 'learning_rate': 2.9049297269755e-05, 'epoch': 3.09}
 13%|█▎        | 10096/78504 [6:09:16<46:15:14,  2.43s/it] 13%|█▎        | 10097/78504 [6:09:19<44:47:29,  2.36s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.6239196062088013, 'learning_rate': 2.904887265933506e-05, 'epoch': 3.09}
 13%|█▎        | 10097/78504 [6:09:19<44:47:29,  2.36s/it] 13%|█▎        | 10098/78504 [6:09:21<43:35:53,  2.29s/it]                                                          {'loss': 0.0779, 'grad_norm': 0.30639052391052246, 'learning_rate': 2.9048448048915122e-05, 'epoch': 3.09}
 13%|█▎        | 10098/78504 [6:09:21<43:35:53,  2.29s/it] 13%|█▎        | 10099/78504 [6:09:23<42:04:50,  2.21s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.33164364099502563, 'learning_rate': 2.904802343849518e-05, 'epoch': 3.09}
 13%|█▎        | 10099/78504 [6:09:23<42:04:50,  2.21s/it] 13%|█▎        | 10100/78504 [6:09:25<40:45:18,  2.14s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.9641338586807251, 'learning_rate': 2.9047598828075243e-05, 'epoch': 3.09}
 13%|█▎        | 10100/78504 [6:09:25<40:45:18,  2.14s/it] 13%|█▎        | 10101/78504 [6:09:27<39:11:56,  2.06s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.5976400375366211, 'learning_rate': 2.90471742176553e-05, 'epoch': 3.09}
 13%|█▎        | 10101/78504 [6:09:27<39:11:56,  2.06s/it] 13%|█▎        | 10102/78504 [6:09:28<37:57:04,  2.00s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.36687833070755005, 'learning_rate': 2.9046749607235363e-05, 'epoch': 3.09}
 13%|█▎        | 10102/78504 [6:09:28<37:57:04,  2.00s/it] 13%|█▎        | 10103/78504 [6:09:30<36:24:13,  1.92s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.5719929337501526, 'learning_rate': 2.9046324996815422e-05, 'epoch': 3.09}
 13%|█▎        | 10103/78504 [6:09:30<36:24:13,  1.92s/it] 13%|█▎        | 10104/78504 [6:09:32<34:51:43,  1.83s/it]                                                          {'loss': 0.1364, 'grad_norm': 0.8923267722129822, 'learning_rate': 2.9045900386395484e-05, 'epoch': 3.09}
 13%|█▎        | 10104/78504 [6:09:32<34:51:43,  1.83s/it] 13%|█▎        | 10105/78504 [6:09:33<33:12:04,  1.75s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.8033274412155151, 'learning_rate': 2.9045475775975543e-05, 'epoch': 3.09}
 13%|█▎        | 10105/78504 [6:09:33<33:12:04,  1.75s/it] 13%|█▎        | 10106/78504 [6:09:35<31:40:31,  1.67s/it]                                                          {'loss': 0.1978, 'grad_norm': 0.6403385996818542, 'learning_rate': 2.9045051165555605e-05, 'epoch': 3.09}
 13%|█▎        | 10106/78504 [6:09:35<31:40:31,  1.67s/it] 13%|█▎        | 10107/78504 [6:09:36<30:14:51,  1.59s/it]                                                          {'loss': 0.19, 'grad_norm': 1.561601996421814, 'learning_rate': 2.9044626555135664e-05, 'epoch': 3.09}
 13%|█▎        | 10107/78504 [6:09:36<30:14:51,  1.59s/it] 13%|█▎        | 10108/78504 [6:09:37<28:08:57,  1.48s/it]                                                          {'loss': 0.2097, 'grad_norm': 0.6780383586883545, 'learning_rate': 2.9044201944715722e-05, 'epoch': 3.09}
 13%|█▎        | 10108/78504 [6:09:38<28:08:57,  1.48s/it] 13%|█▎        | 10109/78504 [6:09:39<26:14:54,  1.38s/it]                                                          {'loss': 0.1773, 'grad_norm': 0.898051917552948, 'learning_rate': 2.9043777334295785e-05, 'epoch': 3.09}
 13%|█▎        | 10109/78504 [6:09:39<26:14:54,  1.38s/it] 13%|█▎        | 10110/78504 [6:09:40<24:37:17,  1.30s/it]                                                          {'loss': 0.1669, 'grad_norm': 0.6717727780342102, 'learning_rate': 2.9043352723875843e-05, 'epoch': 3.09}
 13%|█▎        | 10110/78504 [6:09:40<24:37:17,  1.30s/it] 13%|█▎        | 10111/78504 [6:09:41<22:54:19,  1.21s/it]                                                          {'loss': 0.277, 'grad_norm': 0.8607982397079468, 'learning_rate': 2.9042928113455905e-05, 'epoch': 3.09}
 13%|█▎        | 10111/78504 [6:09:41<22:54:19,  1.21s/it] 13%|█▎        | 10112/78504 [6:09:42<21:22:25,  1.13s/it]                                                          {'loss': 0.2385, 'grad_norm': 1.249191164970398, 'learning_rate': 2.9042503503035964e-05, 'epoch': 3.09}
 13%|█▎        | 10112/78504 [6:09:42<21:22:25,  1.13s/it] 13%|█▎        | 10113/78504 [6:09:42<19:27:28,  1.02s/it]                                                          {'loss': 0.2414, 'grad_norm': 2.7037391662597656, 'learning_rate': 2.9042078892616026e-05, 'epoch': 3.09}
 13%|█▎        | 10113/78504 [6:09:42<19:27:28,  1.02s/it] 13%|█▎        | 10114/78504 [6:09:50<57:44:29,  3.04s/it]                                                          {'loss': 0.1572, 'grad_norm': 1.494218349456787, 'learning_rate': 2.9041654282196085e-05, 'epoch': 3.09}
 13%|█▎        | 10114/78504 [6:09:50<57:44:29,  3.04s/it] 13%|█▎        | 10115/78504 [6:09:53<58:15:59,  3.07s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.33083781599998474, 'learning_rate': 2.9041229671776147e-05, 'epoch': 3.09}
 13%|█▎        | 10115/78504 [6:09:53<58:15:59,  3.07s/it] 13%|█▎        | 10116/78504 [6:09:56<57:29:24,  3.03s/it]                                                          {'loss': 0.0782, 'grad_norm': 0.48243531584739685, 'learning_rate': 2.9040805061356206e-05, 'epoch': 3.09}
 13%|█▎        | 10116/78504 [6:09:56<57:29:24,  3.03s/it] 13%|█▎        | 10117/78504 [6:09:59<54:55:13,  2.89s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.28220224380493164, 'learning_rate': 2.9040380450936268e-05, 'epoch': 3.09}
 13%|█▎        | 10117/78504 [6:09:59<54:55:13,  2.89s/it] 13%|█▎        | 10118/78504 [6:10:01<52:38:00,  2.77s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.2587142288684845, 'learning_rate': 2.9039955840516326e-05, 'epoch': 3.09}
 13%|█▎        | 10118/78504 [6:10:01<52:38:00,  2.77s/it] 13%|█▎        | 10119/78504 [6:10:04<50:47:23,  2.67s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.38914063572883606, 'learning_rate': 2.903953123009639e-05, 'epoch': 3.09}
 13%|█▎        | 10119/78504 [6:10:04<50:47:23,  2.67s/it] 13%|█▎        | 10120/78504 [6:10:06<48:48:07,  2.57s/it]                                                          {'loss': 0.0905, 'grad_norm': 0.40007615089416504, 'learning_rate': 2.9039106619676447e-05, 'epoch': 3.09}
 13%|█▎        | 10120/78504 [6:10:06<48:48:07,  2.57s/it] 13%|█▎        | 10121/78504 [6:10:08<46:04:48,  2.43s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.38032257556915283, 'learning_rate': 2.9038682009256506e-05, 'epoch': 3.09}
 13%|█▎        | 10121/78504 [6:10:08<46:04:48,  2.43s/it] 13%|█▎        | 10122/78504 [6:10:10<43:51:42,  2.31s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.4262148439884186, 'learning_rate': 2.9038257398836568e-05, 'epoch': 3.09}
 13%|█▎        | 10122/78504 [6:10:10<43:51:42,  2.31s/it] 13%|█▎        | 10123/78504 [6:10:12<42:52:33,  2.26s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.4910809099674225, 'learning_rate': 2.9037832788416627e-05, 'epoch': 3.09}
 13%|█▎        | 10123/78504 [6:10:12<42:52:33,  2.26s/it] 13%|█▎        | 10124/78504 [6:10:14<41:18:16,  2.17s/it]                                                          {'loss': 0.1009, 'grad_norm': 0.3735189437866211, 'learning_rate': 2.903740817799669e-05, 'epoch': 3.1}
 13%|█▎        | 10124/78504 [6:10:14<41:18:16,  2.17s/it] 13%|█▎        | 10125/78504 [6:10:16<39:10:38,  2.06s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.3343009650707245, 'learning_rate': 2.9036983567576747e-05, 'epoch': 3.1}
 13%|█▎        | 10125/78504 [6:10:16<39:10:38,  2.06s/it] 13%|█▎        | 10126/78504 [6:10:18<38:01:12,  2.00s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.44826170802116394, 'learning_rate': 2.903655895715681e-05, 'epoch': 3.1}
 13%|█▎        | 10126/78504 [6:10:18<38:01:12,  2.00s/it] 13%|█▎        | 10127/78504 [6:10:20<36:24:23,  1.92s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.691718339920044, 'learning_rate': 2.9036134346736868e-05, 'epoch': 3.1}
 13%|█▎        | 10127/78504 [6:10:20<36:24:23,  1.92s/it] 13%|█▎        | 10128/78504 [6:10:21<35:34:52,  1.87s/it]                                                          {'loss': 0.137, 'grad_norm': 0.5176783204078674, 'learning_rate': 2.903570973631693e-05, 'epoch': 3.1}
 13%|█▎        | 10128/78504 [6:10:22<35:34:52,  1.87s/it] 13%|█▎        | 10129/78504 [6:10:23<34:14:53,  1.80s/it]                                                          {'loss': 0.1632, 'grad_norm': 1.0548324584960938, 'learning_rate': 2.903528512589699e-05, 'epoch': 3.1}
 13%|█▎        | 10129/78504 [6:10:23<34:14:53,  1.80s/it] 13%|█▎        | 10130/78504 [6:10:25<32:35:15,  1.72s/it]                                                          {'loss': 0.1722, 'grad_norm': 0.9064885973930359, 'learning_rate': 2.903486051547705e-05, 'epoch': 3.1}
 13%|█▎        | 10130/78504 [6:10:25<32:35:15,  1.72s/it] 13%|█▎        | 10131/78504 [6:10:26<30:59:08,  1.63s/it]                                                          {'loss': 0.1846, 'grad_norm': 0.8339161276817322, 'learning_rate': 2.903443590505711e-05, 'epoch': 3.1}
 13%|█▎        | 10131/78504 [6:10:26<30:59:08,  1.63s/it] 13%|█▎        | 10132/78504 [6:10:27<29:42:39,  1.56s/it]                                                          {'loss': 0.1759, 'grad_norm': 0.7952666878700256, 'learning_rate': 2.9034011294637172e-05, 'epoch': 3.1}
 13%|█▎        | 10132/78504 [6:10:28<29:42:39,  1.56s/it] 13%|█▎        | 10133/78504 [6:10:29<27:45:20,  1.46s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.7220894694328308, 'learning_rate': 2.903358668421723e-05, 'epoch': 3.1}
 13%|█▎        | 10133/78504 [6:10:29<27:45:20,  1.46s/it] 13%|█▎        | 10134/78504 [6:10:30<25:50:44,  1.36s/it]                                                          {'loss': 0.1807, 'grad_norm': 1.673033595085144, 'learning_rate': 2.903316207379729e-05, 'epoch': 3.1}
 13%|█▎        | 10134/78504 [6:10:30<25:50:44,  1.36s/it] 13%|█▎        | 10135/78504 [6:10:31<24:20:45,  1.28s/it]                                                          {'loss': 0.2433, 'grad_norm': 0.8954816460609436, 'learning_rate': 2.903273746337735e-05, 'epoch': 3.1}
 13%|█▎        | 10135/78504 [6:10:31<24:20:45,  1.28s/it] 13%|█▎        | 10136/78504 [6:10:32<22:42:31,  1.20s/it]                                                          {'loss': 0.1907, 'grad_norm': 1.0838631391525269, 'learning_rate': 2.903231285295741e-05, 'epoch': 3.1}
 13%|█▎        | 10136/78504 [6:10:32<22:42:31,  1.20s/it] 13%|█▎        | 10137/78504 [6:10:33<21:16:00,  1.12s/it]                                                          {'loss': 0.1823, 'grad_norm': 1.8889449834823608, 'learning_rate': 2.9031888242537472e-05, 'epoch': 3.1}
 13%|█▎        | 10137/78504 [6:10:33<21:16:00,  1.12s/it] 13%|█▎        | 10138/78504 [6:10:34<19:22:03,  1.02s/it]                                                          {'loss': 0.2267, 'grad_norm': 1.4438962936401367, 'learning_rate': 2.903146363211753e-05, 'epoch': 3.1}
 13%|█▎        | 10138/78504 [6:10:34<19:22:03,  1.02s/it] 13%|█▎        | 10139/78504 [6:10:41<57:51:33,  3.05s/it]                                                          {'loss': 0.1471, 'grad_norm': 2.6031017303466797, 'learning_rate': 2.9031039021697593e-05, 'epoch': 3.1}
 13%|█▎        | 10139/78504 [6:10:41<57:51:33,  3.05s/it] 13%|█▎        | 10140/78504 [6:10:45<58:16:19,  3.07s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.24160915613174438, 'learning_rate': 2.903061441127765e-05, 'epoch': 3.1}
 13%|█▎        | 10140/78504 [6:10:45<58:16:19,  3.07s/it] 13%|█▎        | 10141/78504 [6:10:48<57:58:27,  3.05s/it]                                                          {'loss': 0.087, 'grad_norm': 0.37818053364753723, 'learning_rate': 2.9030189800857714e-05, 'epoch': 3.1}
 13%|█▎        | 10141/78504 [6:10:48<57:58:27,  3.05s/it] 13%|█▎        | 10142/78504 [6:10:50<55:27:47,  2.92s/it]                                                          {'loss': 0.0847, 'grad_norm': 0.2767764627933502, 'learning_rate': 2.9029765190437772e-05, 'epoch': 3.1}
 13%|█▎        | 10142/78504 [6:10:50<55:27:47,  2.92s/it] 13%|█▎        | 10143/78504 [6:10:53<52:51:10,  2.78s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.2580049932003021, 'learning_rate': 2.9029340580017835e-05, 'epoch': 3.1}
 13%|█▎        | 10143/78504 [6:10:53<52:51:10,  2.78s/it] 13%|█▎        | 10144/78504 [6:10:55<49:55:14,  2.63s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.3440234661102295, 'learning_rate': 2.9028915969597893e-05, 'epoch': 3.1}
 13%|█▎        | 10144/78504 [6:10:55<49:55:14,  2.63s/it] 13%|█▎        | 10145/78504 [6:10:57<48:07:29,  2.53s/it]                                                          {'loss': 0.0572, 'grad_norm': 1.4063260555267334, 'learning_rate': 2.9028491359177955e-05, 'epoch': 3.1}
 13%|█▎        | 10145/78504 [6:10:57<48:07:29,  2.53s/it] 13%|█▎        | 10146/78504 [6:10:59<45:38:44,  2.40s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.491294264793396, 'learning_rate': 2.9028066748758014e-05, 'epoch': 3.1}
 13%|█▎        | 10146/78504 [6:10:59<45:38:44,  2.40s/it] 13%|█▎        | 10147/78504 [6:11:02<44:27:32,  2.34s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.6703107953071594, 'learning_rate': 2.9027642138338073e-05, 'epoch': 3.1}
 13%|█▎        | 10147/78504 [6:11:02<44:27:32,  2.34s/it] 13%|█▎        | 10148/78504 [6:11:04<43:16:44,  2.28s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.5219569802284241, 'learning_rate': 2.9027217527918135e-05, 'epoch': 3.1}
 13%|█▎        | 10148/78504 [6:11:04<43:16:44,  2.28s/it] 13%|█▎        | 10149/78504 [6:11:06<41:37:51,  2.19s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.47150567173957825, 'learning_rate': 2.9026792917498194e-05, 'epoch': 3.1}
 13%|█▎        | 10149/78504 [6:11:06<41:37:51,  2.19s/it] 13%|█▎        | 10150/78504 [6:11:08<40:26:21,  2.13s/it]                                                          {'loss': 0.113, 'grad_norm': 0.4649871289730072, 'learning_rate': 2.9026368307078256e-05, 'epoch': 3.1}
 13%|█▎        | 10150/78504 [6:11:08<40:26:21,  2.13s/it] 13%|█▎        | 10151/78504 [6:11:10<38:58:17,  2.05s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.45036011934280396, 'learning_rate': 2.9025943696658314e-05, 'epoch': 3.1}
 13%|█▎        | 10151/78504 [6:11:10<38:58:17,  2.05s/it] 13%|█▎        | 10152/78504 [6:11:11<37:06:29,  1.95s/it]                                                          {'loss': 0.0962, 'grad_norm': 0.3624693751335144, 'learning_rate': 2.9025519086238376e-05, 'epoch': 3.1}
 13%|█▎        | 10152/78504 [6:11:11<37:06:29,  1.95s/it] 13%|█▎        | 10153/78504 [6:11:13<36:02:52,  1.90s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.4273260831832886, 'learning_rate': 2.9025094475818435e-05, 'epoch': 3.1}
 13%|█▎        | 10153/78504 [6:11:13<36:02:52,  1.90s/it] 13%|█▎        | 10154/78504 [6:11:15<34:33:26,  1.82s/it]                                                          {'loss': 0.1546, 'grad_norm': 17.695415496826172, 'learning_rate': 2.9024669865398497e-05, 'epoch': 3.1}
 13%|█▎        | 10154/78504 [6:11:15<34:33:26,  1.82s/it] 13%|█▎        | 10155/78504 [6:11:16<32:51:40,  1.73s/it]                                                          {'loss': 0.2488, 'grad_norm': 0.7503246665000916, 'learning_rate': 2.9024245254978556e-05, 'epoch': 3.1}
 13%|█▎        | 10155/78504 [6:11:16<32:51:40,  1.73s/it] 13%|█▎        | 10156/78504 [6:11:18<31:07:11,  1.64s/it]                                                          {'loss': 0.1404, 'grad_norm': 1.7017892599105835, 'learning_rate': 2.9023820644558618e-05, 'epoch': 3.1}
 13%|█▎        | 10156/78504 [6:11:18<31:07:11,  1.64s/it] 13%|█▎        | 10157/78504 [6:11:19<29:50:43,  1.57s/it]                                                          {'loss': 0.2032, 'grad_norm': 1.3110790252685547, 'learning_rate': 2.9023396034138677e-05, 'epoch': 3.11}
 13%|█▎        | 10157/78504 [6:11:19<29:50:43,  1.57s/it] 13%|█▎        | 10158/78504 [6:11:20<27:49:33,  1.47s/it]                                                          {'loss': 0.2054, 'grad_norm': 0.9492514729499817, 'learning_rate': 2.902297142371874e-05, 'epoch': 3.11}
 13%|█▎        | 10158/78504 [6:11:20<27:49:33,  1.47s/it] 13%|█▎        | 10159/78504 [6:11:21<26:04:20,  1.37s/it]                                                          {'loss': 0.1687, 'grad_norm': 1.781901478767395, 'learning_rate': 2.90225468132988e-05, 'epoch': 3.11}
 13%|█▎        | 10159/78504 [6:11:21<26:04:20,  1.37s/it] 13%|█▎        | 10160/78504 [6:11:22<24:28:12,  1.29s/it]                                                          {'loss': 0.2007, 'grad_norm': 0.8614996671676636, 'learning_rate': 2.902212220287886e-05, 'epoch': 3.11}
 13%|█▎        | 10160/78504 [6:11:22<24:28:12,  1.29s/it] 13%|█▎        | 10161/78504 [6:11:23<22:45:42,  1.20s/it]                                                          {'loss': 0.1795, 'grad_norm': 0.923270583152771, 'learning_rate': 2.902169759245892e-05, 'epoch': 3.11}
 13%|█▎        | 10161/78504 [6:11:23<22:45:42,  1.20s/it] 13%|█▎        | 10162/78504 [6:11:24<21:14:40,  1.12s/it]                                                          {'loss': 0.1994, 'grad_norm': 1.0844855308532715, 'learning_rate': 2.902127298203898e-05, 'epoch': 3.11}
 13%|█▎        | 10162/78504 [6:11:24<21:14:40,  1.12s/it] 13%|█▎        | 10163/78504 [6:11:25<19:24:55,  1.02s/it]                                                          {'loss': 0.2449, 'grad_norm': 3.3363242149353027, 'learning_rate': 2.9020848371619042e-05, 'epoch': 3.11}
 13%|█▎        | 10163/78504 [6:11:25<19:24:55,  1.02s/it] 13%|█▎        | 10164/78504 [6:11:34<66:17:00,  3.49s/it]                                                          {'loss': 0.1576, 'grad_norm': 0.40046781301498413, 'learning_rate': 2.90204237611991e-05, 'epoch': 3.11}
 13%|█▎        | 10164/78504 [6:11:34<66:17:00,  3.49s/it] 13%|█▎        | 10165/78504 [6:11:38<63:54:03,  3.37s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.31198650598526, 'learning_rate': 2.9019999150779163e-05, 'epoch': 3.11}
 13%|█▎        | 10165/78504 [6:11:38<63:54:03,  3.37s/it] 13%|█▎        | 10166/78504 [6:11:40<59:21:19,  3.13s/it]                                                          {'loss': 0.062, 'grad_norm': 0.1707192212343216, 'learning_rate': 2.9019574540359222e-05, 'epoch': 3.11}
 13%|█▎        | 10166/78504 [6:11:40<59:21:19,  3.13s/it] 13%|█▎        | 10167/78504 [6:11:43<57:57:23,  3.05s/it]                                                          {'loss': 0.078, 'grad_norm': 0.286409854888916, 'learning_rate': 2.9019149929939284e-05, 'epoch': 3.11}
 13%|█▎        | 10167/78504 [6:11:43<57:57:23,  3.05s/it] 13%|█▎        | 10168/78504 [6:11:45<54:37:27,  2.88s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.23307833075523376, 'learning_rate': 2.9018725319519343e-05, 'epoch': 3.11}
 13%|█▎        | 10168/78504 [6:11:45<54:37:27,  2.88s/it] 13%|█▎        | 10169/78504 [6:11:48<51:06:49,  2.69s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.2747732102870941, 'learning_rate': 2.9018300709099405e-05, 'epoch': 3.11}
 13%|█▎        | 10169/78504 [6:11:48<51:06:49,  2.69s/it] 13%|█▎        | 10170/78504 [6:11:50<48:59:35,  2.58s/it]                                                          {'loss': 0.0641, 'grad_norm': 0.37478092312812805, 'learning_rate': 2.9017876098679464e-05, 'epoch': 3.11}
 13%|█▎        | 10170/78504 [6:11:50<48:59:35,  2.58s/it] 13%|█▎        | 10171/78504 [6:11:52<46:11:34,  2.43s/it]                                                          {'loss': 0.0481, 'grad_norm': 0.21448466181755066, 'learning_rate': 2.9017451488259522e-05, 'epoch': 3.11}
 13%|█▎        | 10171/78504 [6:11:52<46:11:34,  2.43s/it] 13%|█▎        | 10172/78504 [6:11:54<43:54:49,  2.31s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.374193012714386, 'learning_rate': 2.9017026877839584e-05, 'epoch': 3.11}
 13%|█▎        | 10172/78504 [6:11:54<43:54:49,  2.31s/it] 13%|█▎        | 10173/78504 [6:11:56<42:55:37,  2.26s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.24993543326854706, 'learning_rate': 2.9016602267419643e-05, 'epoch': 3.11}
 13%|█▎        | 10173/78504 [6:11:56<42:55:37,  2.26s/it] 13%|█▎        | 10174/78504 [6:11:58<41:24:46,  2.18s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.4172515273094177, 'learning_rate': 2.9016177656999705e-05, 'epoch': 3.11}
 13%|█▎        | 10174/78504 [6:11:58<41:24:46,  2.18s/it] 13%|█▎        | 10175/78504 [6:12:00<39:57:57,  2.11s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.34482377767562866, 'learning_rate': 2.9015753046579764e-05, 'epoch': 3.11}
 13%|█▎        | 10175/78504 [6:12:00<39:57:57,  2.11s/it] 13%|█▎        | 10176/78504 [6:12:02<38:37:55,  2.04s/it]                                                          {'loss': 0.1248, 'grad_norm': 0.5373492240905762, 'learning_rate': 2.9015328436159826e-05, 'epoch': 3.11}
 13%|█▎        | 10176/78504 [6:12:02<38:37:55,  2.04s/it] 13%|█▎        | 10177/78504 [6:12:04<37:27:36,  1.97s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.5519682765007019, 'learning_rate': 2.9014903825739885e-05, 'epoch': 3.11}
 13%|█▎        | 10177/78504 [6:12:04<37:27:36,  1.97s/it] 13%|█▎        | 10178/78504 [6:12:06<36:22:09,  1.92s/it]                                                          {'loss': 0.1433, 'grad_norm': 0.43474748730659485, 'learning_rate': 2.9014479215319947e-05, 'epoch': 3.11}
 13%|█▎        | 10178/78504 [6:12:06<36:22:09,  1.92s/it] 13%|█▎        | 10179/78504 [6:12:07<34:51:27,  1.84s/it]                                                          {'loss': 0.1522, 'grad_norm': 0.7042310237884521, 'learning_rate': 2.9014054604900005e-05, 'epoch': 3.11}
 13%|█▎        | 10179/78504 [6:12:07<34:51:27,  1.84s/it] 13%|█▎        | 10180/78504 [6:12:09<33:01:29,  1.74s/it]                                                          {'loss': 0.1561, 'grad_norm': 0.6776449084281921, 'learning_rate': 2.9013629994480067e-05, 'epoch': 3.11}
 13%|█▎        | 10180/78504 [6:12:09<33:01:29,  1.74s/it] 13%|█▎        | 10181/78504 [6:12:10<31:29:31,  1.66s/it]                                                          {'loss': 0.1789, 'grad_norm': 0.557202935218811, 'learning_rate': 2.9013205384060126e-05, 'epoch': 3.11}
 13%|█▎        | 10181/78504 [6:12:10<31:29:31,  1.66s/it] 13%|█▎        | 10182/78504 [6:12:12<30:08:04,  1.59s/it]                                                          {'loss': 0.2056, 'grad_norm': 1.0361992120742798, 'learning_rate': 2.9012780773640188e-05, 'epoch': 3.11}
 13%|█▎        | 10182/78504 [6:12:12<30:08:04,  1.59s/it] 13%|█▎        | 10183/78504 [6:12:13<28:23:10,  1.50s/it]                                                          {'loss': 0.2312, 'grad_norm': 0.8286022543907166, 'learning_rate': 2.9012356163220247e-05, 'epoch': 3.11}
 13%|█▎        | 10183/78504 [6:12:13<28:23:10,  1.50s/it] 13%|█▎        | 10184/78504 [6:12:14<26:21:35,  1.39s/it]                                                          {'loss': 0.1994, 'grad_norm': 0.6650339365005493, 'learning_rate': 2.9011931552800306e-05, 'epoch': 3.11}
 13%|█▎        | 10184/78504 [6:12:14<26:21:35,  1.39s/it] 13%|█▎        | 10185/78504 [6:12:15<24:39:54,  1.30s/it]                                                          {'loss': 0.1864, 'grad_norm': 1.1288816928863525, 'learning_rate': 2.9011506942380368e-05, 'epoch': 3.11}
 13%|█▎        | 10185/78504 [6:12:15<24:39:54,  1.30s/it] 13%|█▎        | 10186/78504 [6:12:16<23:14:46,  1.22s/it]                                                          {'loss': 0.1859, 'grad_norm': 1.2911580801010132, 'learning_rate': 2.9011082331960426e-05, 'epoch': 3.11}
 13%|█▎        | 10186/78504 [6:12:16<23:14:46,  1.22s/it] 13%|█▎        | 10187/78504 [6:12:17<21:36:41,  1.14s/it]                                                          {'loss': 0.2175, 'grad_norm': 0.9096306562423706, 'learning_rate': 2.901065772154049e-05, 'epoch': 3.11}
 13%|█▎        | 10187/78504 [6:12:17<21:36:41,  1.14s/it] 13%|█▎        | 10188/78504 [6:12:18<19:23:21,  1.02s/it]                                                          {'loss': 0.2373, 'grad_norm': 1.7718554735183716, 'learning_rate': 2.9010233111120547e-05, 'epoch': 3.11}
 13%|█▎        | 10188/78504 [6:12:18<19:23:21,  1.02s/it] 13%|█▎        | 10189/78504 [6:12:27<65:05:16,  3.43s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.3925233781337738, 'learning_rate': 2.900980850070061e-05, 'epoch': 3.11}
 13%|█▎        | 10189/78504 [6:12:27<65:05:16,  3.43s/it] 13%|█▎        | 10190/78504 [6:12:30<63:17:39,  3.34s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.39127621054649353, 'learning_rate': 2.9009383890280668e-05, 'epoch': 3.12}
 13%|█▎        | 10190/78504 [6:12:30<63:17:39,  3.34s/it] 13%|█▎        | 10191/78504 [6:12:33<61:19:29,  3.23s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.24411433935165405, 'learning_rate': 2.900895927986073e-05, 'epoch': 3.12}
 13%|█▎        | 10191/78504 [6:12:33<61:19:29,  3.23s/it] 13%|█▎        | 10192/78504 [6:12:36<57:39:24,  3.04s/it]                                                          {'loss': 0.066, 'grad_norm': 0.3197753131389618, 'learning_rate': 2.900853466944079e-05, 'epoch': 3.12}
 13%|█▎        | 10192/78504 [6:12:36<57:39:24,  3.04s/it] 13%|█▎        | 10193/78504 [6:12:38<53:45:44,  2.83s/it]                                                          {'loss': 0.0571, 'grad_norm': 0.24409236013889313, 'learning_rate': 2.900811005902085e-05, 'epoch': 3.12}
 13%|█▎        | 10193/78504 [6:12:38<53:45:44,  2.83s/it] 13%|█▎        | 10194/78504 [6:12:40<50:30:58,  2.66s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.23779897391796112, 'learning_rate': 2.900768544860091e-05, 'epoch': 3.12}
 13%|█▎        | 10194/78504 [6:12:40<50:30:58,  2.66s/it] 13%|█▎        | 10195/78504 [6:12:43<48:31:56,  2.56s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.26942920684814453, 'learning_rate': 2.900726083818097e-05, 'epoch': 3.12}
 13%|█▎        | 10195/78504 [6:12:43<48:31:56,  2.56s/it] 13%|█▎        | 10196/78504 [6:12:45<45:55:51,  2.42s/it]                                                          {'loss': 0.064, 'grad_norm': 0.245290607213974, 'learning_rate': 2.900683622776103e-05, 'epoch': 3.12}
 13%|█▎        | 10196/78504 [6:12:45<45:55:51,  2.42s/it] 13%|█▎        | 10197/78504 [6:12:47<43:40:31,  2.30s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.5660454630851746, 'learning_rate': 2.900641161734109e-05, 'epoch': 3.12}
 13%|█▎        | 10197/78504 [6:12:47<43:40:31,  2.30s/it] 13%|█▎        | 10198/78504 [6:12:49<42:44:54,  2.25s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.27667325735092163, 'learning_rate': 2.900598700692115e-05, 'epoch': 3.12}
 13%|█▎        | 10198/78504 [6:12:49<42:44:54,  2.25s/it] 13%|█▎        | 10199/78504 [6:12:51<41:14:03,  2.17s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.4201212525367737, 'learning_rate': 2.900556239650121e-05, 'epoch': 3.12}
 13%|█▎        | 10199/78504 [6:12:51<41:14:03,  2.17s/it] 13%|█▎        | 10200/78504 [6:12:53<39:06:50,  2.06s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.5643944144248962, 'learning_rate': 2.9005137786081272e-05, 'epoch': 3.12}
 13%|█▎        | 10200/78504 [6:12:53<39:06:50,  2.06s/it] 13%|█▎        | 10201/78504 [6:12:55<38:00:31,  2.00s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.4706017076969147, 'learning_rate': 2.900471317566133e-05, 'epoch': 3.12}
 13%|█▎        | 10201/78504 [6:12:55<38:00:31,  2.00s/it] 13%|█▎        | 10202/78504 [6:12:56<37:18:06,  1.97s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.6028682589530945, 'learning_rate': 2.9004288565241393e-05, 'epoch': 3.12}
 13%|█▎        | 10202/78504 [6:12:56<37:18:06,  1.97s/it] 13%|█▎        | 10203/78504 [6:12:58<35:54:16,  1.89s/it]                                                          {'loss': 0.1223, 'grad_norm': 0.5093600153923035, 'learning_rate': 2.900386395482145e-05, 'epoch': 3.12}
 13%|█▎        | 10203/78504 [6:12:58<35:54:16,  1.89s/it] 13%|█▎        | 10204/78504 [6:13:00<34:30:53,  1.82s/it]                                                          {'loss': 0.1602, 'grad_norm': 1.010223388671875, 'learning_rate': 2.9003439344401514e-05, 'epoch': 3.12}
 13%|█▎        | 10204/78504 [6:13:00<34:30:53,  1.82s/it] 13%|█▎        | 10205/78504 [6:13:01<32:56:07,  1.74s/it]                                                          {'loss': 0.167, 'grad_norm': 0.3855401873588562, 'learning_rate': 2.9003014733981572e-05, 'epoch': 3.12}
 13%|█▎        | 10205/78504 [6:13:01<32:56:07,  1.74s/it] 13%|█▎        | 10206/78504 [6:13:03<31:24:17,  1.66s/it]                                                          {'loss': 0.19, 'grad_norm': 0.7130523324012756, 'learning_rate': 2.9002590123561634e-05, 'epoch': 3.12}
 13%|█▎        | 10206/78504 [6:13:03<31:24:17,  1.66s/it] 13%|█▎        | 10207/78504 [6:13:04<29:57:58,  1.58s/it]                                                          {'loss': 0.2067, 'grad_norm': 0.633550763130188, 'learning_rate': 2.9002165513141693e-05, 'epoch': 3.12}
 13%|█▎        | 10207/78504 [6:13:04<29:57:58,  1.58s/it] 13%|█▎        | 10208/78504 [6:13:06<28:17:03,  1.49s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.6608103513717651, 'learning_rate': 2.9001740902721755e-05, 'epoch': 3.12}
 13%|█▎        | 10208/78504 [6:13:06<28:17:03,  1.49s/it] 13%|█▎        | 10209/78504 [6:13:07<26:20:14,  1.39s/it]                                                          {'loss': 0.1546, 'grad_norm': 1.0225163698196411, 'learning_rate': 2.9001316292301814e-05, 'epoch': 3.12}
 13%|█▎        | 10209/78504 [6:13:07<26:20:14,  1.39s/it] 13%|█▎        | 10210/78504 [6:13:08<24:39:53,  1.30s/it]                                                          {'loss': 0.1904, 'grad_norm': 0.6879536509513855, 'learning_rate': 2.9000891681881872e-05, 'epoch': 3.12}
 13%|█▎        | 10210/78504 [6:13:08<24:39:53,  1.30s/it] 13%|█▎        | 10211/78504 [6:13:09<23:15:33,  1.23s/it]                                                          {'loss': 0.2291, 'grad_norm': 1.033057451248169, 'learning_rate': 2.9000467071461935e-05, 'epoch': 3.12}
 13%|█▎        | 10211/78504 [6:13:09<23:15:33,  1.23s/it] 13%|█▎        | 10212/78504 [6:13:10<21:32:32,  1.14s/it]                                                          {'loss': 0.253, 'grad_norm': 1.1008775234222412, 'learning_rate': 2.9000042461041993e-05, 'epoch': 3.12}
 13%|█▎        | 10212/78504 [6:13:10<21:32:32,  1.14s/it] 13%|█▎        | 10213/78504 [6:13:11<19:40:02,  1.04s/it]                                                          {'loss': 0.276, 'grad_norm': 1.4021543264389038, 'learning_rate': 2.8999617850622055e-05, 'epoch': 3.12}
 13%|█▎        | 10213/78504 [6:13:11<19:40:02,  1.04s/it] 13%|█▎        | 10214/78504 [6:13:19<61:09:25,  3.22s/it]                                                          {'loss': 0.1654, 'grad_norm': 0.44944489002227783, 'learning_rate': 2.8999193240202114e-05, 'epoch': 3.12}
 13%|█▎        | 10214/78504 [6:13:19<61:09:25,  3.22s/it] 13%|█▎        | 10215/78504 [6:13:22<61:35:52,  3.25s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.3052438497543335, 'learning_rate': 2.8998768629782176e-05, 'epoch': 3.12}
 13%|█▎        | 10215/78504 [6:13:22<61:35:52,  3.25s/it] 13%|█▎        | 10216/78504 [6:13:25<57:43:18,  3.04s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.2623600959777832, 'learning_rate': 2.8998344019362235e-05, 'epoch': 3.12}
 13%|█▎        | 10216/78504 [6:13:25<57:43:18,  3.04s/it] 13%|█▎        | 10217/78504 [6:13:27<55:16:26,  2.91s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.2474243938922882, 'learning_rate': 2.8997919408942297e-05, 'epoch': 3.12}
 13%|█▎        | 10217/78504 [6:13:27<55:16:26,  2.91s/it] 13%|█▎        | 10218/78504 [6:13:30<52:45:17,  2.78s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.23398780822753906, 'learning_rate': 2.8997494798522356e-05, 'epoch': 3.12}
 13%|█▎        | 10218/78504 [6:13:30<52:45:17,  2.78s/it] 13%|█▎        | 10219/78504 [6:13:32<49:49:57,  2.63s/it]                                                          {'loss': 0.0498, 'grad_norm': 0.2907038927078247, 'learning_rate': 2.8997070188102418e-05, 'epoch': 3.12}
 13%|█▎        | 10219/78504 [6:13:32<49:49:57,  2.63s/it] 13%|█▎        | 10220/78504 [6:13:34<48:05:59,  2.54s/it]                                                          {'loss': 0.0491, 'grad_norm': 0.25155186653137207, 'learning_rate': 2.8996645577682476e-05, 'epoch': 3.12}
 13%|█▎        | 10220/78504 [6:13:34<48:05:59,  2.54s/it] 13%|█▎        | 10221/78504 [6:13:37<45:39:22,  2.41s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.3254307210445404, 'learning_rate': 2.899622096726254e-05, 'epoch': 3.12}
 13%|█▎        | 10221/78504 [6:13:37<45:39:22,  2.41s/it] 13%|█▎        | 10222/78504 [6:13:39<44:21:19,  2.34s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.747490406036377, 'learning_rate': 2.8995796356842597e-05, 'epoch': 3.13}
 13%|█▎        | 10222/78504 [6:13:39<44:21:19,  2.34s/it] 13%|█▎        | 10223/78504 [6:13:41<43:16:38,  2.28s/it]                                                          {'loss': 0.076, 'grad_norm': 0.2551405131816864, 'learning_rate': 2.8995371746422656e-05, 'epoch': 3.13}
 13%|█▎        | 10223/78504 [6:13:41<43:16:38,  2.28s/it] 13%|█▎        | 10224/78504 [6:13:43<41:46:18,  2.20s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.559005618095398, 'learning_rate': 2.8994947136002718e-05, 'epoch': 3.13}
 13%|█▎        | 10224/78504 [6:13:43<41:46:18,  2.20s/it] 13%|█▎        | 10225/78504 [6:13:45<40:32:33,  2.14s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.3586134612560272, 'learning_rate': 2.8994522525582777e-05, 'epoch': 3.13}
 13%|█▎        | 10225/78504 [6:13:45<40:32:33,  2.14s/it] 13%|█▎        | 10226/78504 [6:13:47<39:18:51,  2.07s/it]                                                          {'loss': 0.102, 'grad_norm': 0.847227156162262, 'learning_rate': 2.899409791516284e-05, 'epoch': 3.13}
 13%|█▎        | 10226/78504 [6:13:47<39:18:51,  2.07s/it] 13%|█▎        | 10227/78504 [6:13:49<38:06:40,  2.01s/it]                                                          {'loss': 0.1259, 'grad_norm': 0.3877527713775635, 'learning_rate': 2.8993673304742898e-05, 'epoch': 3.13}
 13%|█▎        | 10227/78504 [6:13:49<38:06:40,  2.01s/it] 13%|█▎        | 10228/78504 [6:13:50<36:43:13,  1.94s/it]                                                          {'loss': 0.151, 'grad_norm': 0.45991000533103943, 'learning_rate': 2.899324869432296e-05, 'epoch': 3.13}
 13%|█▎        | 10228/78504 [6:13:50<36:43:13,  1.94s/it] 13%|█▎        | 10229/78504 [6:13:52<34:42:11,  1.83s/it]                                                          {'loss': 0.1479, 'grad_norm': 0.5128366947174072, 'learning_rate': 2.8992824083903018e-05, 'epoch': 3.13}
 13%|█▎        | 10229/78504 [6:13:52<34:42:11,  1.83s/it] 13%|█▎        | 10230/78504 [6:13:54<32:59:59,  1.74s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.9297137260437012, 'learning_rate': 2.899239947348308e-05, 'epoch': 3.13}
 13%|█▎        | 10230/78504 [6:13:54<32:59:59,  1.74s/it] 13%|█▎        | 10231/78504 [6:13:55<31:27:58,  1.66s/it]                                                          {'loss': 0.154, 'grad_norm': 1.7098102569580078, 'learning_rate': 2.899197486306314e-05, 'epoch': 3.13}
 13%|█▎        | 10231/78504 [6:13:55<31:27:58,  1.66s/it] 13%|█▎        | 10232/78504 [6:13:56<30:01:36,  1.58s/it]                                                          {'loss': 0.1808, 'grad_norm': 0.6439261436462402, 'learning_rate': 2.89915502526432e-05, 'epoch': 3.13}
 13%|█▎        | 10232/78504 [6:13:56<30:01:36,  1.58s/it] 13%|█▎        | 10233/78504 [6:13:58<28:19:52,  1.49s/it]                                                          {'loss': 0.1594, 'grad_norm': 2.1485469341278076, 'learning_rate': 2.899112564222326e-05, 'epoch': 3.13}
 13%|█▎        | 10233/78504 [6:13:58<28:19:52,  1.49s/it] 13%|█▎        | 10234/78504 [6:13:59<26:20:44,  1.39s/it]                                                          {'loss': 0.1859, 'grad_norm': 1.0043927431106567, 'learning_rate': 2.8990701031803322e-05, 'epoch': 3.13}
 13%|█▎        | 10234/78504 [6:13:59<26:20:44,  1.39s/it] 13%|█▎        | 10235/78504 [6:14:00<24:43:17,  1.30s/it]                                                          {'loss': 0.1951, 'grad_norm': 0.7461325526237488, 'learning_rate': 2.899027642138338e-05, 'epoch': 3.13}
 13%|█▎        | 10235/78504 [6:14:00<24:43:17,  1.30s/it] 13%|█▎        | 10236/78504 [6:14:01<23:18:03,  1.23s/it]                                                          {'loss': 0.2023, 'grad_norm': 1.5041502714157104, 'learning_rate': 2.898985181096344e-05, 'epoch': 3.13}
 13%|█▎        | 10236/78504 [6:14:01<23:18:03,  1.23s/it] 13%|█▎        | 10237/78504 [6:14:02<21:35:53,  1.14s/it]                                                          {'loss': 0.1842, 'grad_norm': 1.4212908744812012, 'learning_rate': 2.89894272005435e-05, 'epoch': 3.13}
 13%|█▎        | 10237/78504 [6:14:02<21:35:53,  1.14s/it] 13%|█▎        | 10238/78504 [6:14:03<19:32:32,  1.03s/it]                                                          {'loss': 0.243, 'grad_norm': 1.2839913368225098, 'learning_rate': 2.898900259012356e-05, 'epoch': 3.13}
 13%|█▎        | 10238/78504 [6:14:03<19:32:32,  1.03s/it] 13%|█▎        | 10239/78504 [6:14:12<68:23:08,  3.61s/it]                                                          {'loss': 0.1547, 'grad_norm': 0.4903572201728821, 'learning_rate': 2.8988577979703622e-05, 'epoch': 3.13}
 13%|█▎        | 10239/78504 [6:14:12<68:23:08,  3.61s/it] 13%|█▎        | 10240/78504 [6:14:16<66:22:43,  3.50s/it]                                                          {'loss': 0.0922, 'grad_norm': 0.5030423402786255, 'learning_rate': 2.898815336928368e-05, 'epoch': 3.13}
 13%|█▎        | 10240/78504 [6:14:16<66:22:43,  3.50s/it] 13%|█▎        | 10241/78504 [6:14:19<63:25:11,  3.34s/it]                                                          {'loss': 0.0584, 'grad_norm': 0.2477397322654724, 'learning_rate': 2.8987728758863743e-05, 'epoch': 3.13}
 13%|█▎        | 10241/78504 [6:14:19<63:25:11,  3.34s/it] 13%|█▎        | 10242/78504 [6:14:21<59:15:57,  3.13s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.7632263898849487, 'learning_rate': 2.8987304148443802e-05, 'epoch': 3.13}
 13%|█▎        | 10242/78504 [6:14:21<59:15:57,  3.13s/it] 13%|█▎        | 10243/78504 [6:14:24<55:31:57,  2.93s/it]                                                          {'loss': 0.0428, 'grad_norm': 0.16258756816387177, 'learning_rate': 2.8986879538023864e-05, 'epoch': 3.13}
 13%|█▎        | 10243/78504 [6:14:24<55:31:57,  2.93s/it] 13%|█▎        | 10244/78504 [6:14:26<52:41:04,  2.78s/it]                                                          {'loss': 0.0487, 'grad_norm': 0.29201072454452515, 'learning_rate': 2.8986454927603923e-05, 'epoch': 3.13}
 13%|█▎        | 10244/78504 [6:14:26<52:41:04,  2.78s/it] 13%|█▎        | 10245/78504 [6:14:28<50:02:19,  2.64s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.2376793920993805, 'learning_rate': 2.8986030317183985e-05, 'epoch': 3.13}
 13%|█▎        | 10245/78504 [6:14:28<50:02:19,  2.64s/it] 13%|█▎        | 10246/78504 [6:14:30<47:03:42,  2.48s/it]                                                          {'loss': 0.0455, 'grad_norm': 0.24498184025287628, 'learning_rate': 2.8985605706764043e-05, 'epoch': 3.13}
 13%|█▎        | 10246/78504 [6:14:31<47:03:42,  2.48s/it] 13%|█▎        | 10247/78504 [6:14:33<44:28:15,  2.35s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.24297019839286804, 'learning_rate': 2.8985181096344105e-05, 'epoch': 3.13}
 13%|█▎        | 10247/78504 [6:14:33<44:28:15,  2.35s/it] 13%|█▎        | 10248/78504 [6:14:35<43:17:15,  2.28s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.2842842936515808, 'learning_rate': 2.8984756485924164e-05, 'epoch': 3.13}
 13%|█▎        | 10248/78504 [6:14:35<43:17:15,  2.28s/it] 13%|█▎        | 10249/78504 [6:14:37<41:47:25,  2.20s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.2996571362018585, 'learning_rate': 2.8984331875504223e-05, 'epoch': 3.13}
 13%|█▎        | 10249/78504 [6:14:37<41:47:25,  2.20s/it] 13%|█▎        | 10250/78504 [6:14:39<40:29:25,  2.14s/it]                                                          {'loss': 0.0939, 'grad_norm': 0.31700843572616577, 'learning_rate': 2.8983907265084285e-05, 'epoch': 3.13}
 13%|█▎        | 10250/78504 [6:14:39<40:29:25,  2.14s/it] 13%|█▎        | 10251/78504 [6:14:41<38:54:53,  2.05s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.6342162489891052, 'learning_rate': 2.8983482654664344e-05, 'epoch': 3.13}
 13%|█▎        | 10251/78504 [6:14:41<38:54:53,  2.05s/it] 13%|█▎        | 10252/78504 [6:14:42<37:50:56,  2.00s/it]                                                          {'loss': 0.108, 'grad_norm': 0.42932021617889404, 'learning_rate': 2.8983058044244406e-05, 'epoch': 3.13}
 13%|█▎        | 10252/78504 [6:14:42<37:50:56,  2.00s/it] 13%|█▎        | 10253/78504 [6:14:44<36:31:50,  1.93s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.42954373359680176, 'learning_rate': 2.8982633433824464e-05, 'epoch': 3.13}
 13%|█▎        | 10253/78504 [6:14:44<36:31:50,  1.93s/it] 13%|█▎        | 10254/78504 [6:14:46<35:00:53,  1.85s/it]                                                          {'loss': 0.1848, 'grad_norm': 0.5402647852897644, 'learning_rate': 2.8982208823404526e-05, 'epoch': 3.13}
 13%|█▎        | 10254/78504 [6:14:46<35:00:53,  1.85s/it] 13%|█▎        | 10255/78504 [6:14:47<33:17:18,  1.76s/it]                                                          {'loss': 0.1537, 'grad_norm': 0.7672491669654846, 'learning_rate': 2.8981784212984585e-05, 'epoch': 3.14}
 13%|█▎        | 10255/78504 [6:14:47<33:17:18,  1.76s/it] 13%|█▎        | 10256/78504 [6:14:49<31:37:58,  1.67s/it]                                                          {'loss': 0.1928, 'grad_norm': 0.8763360381126404, 'learning_rate': 2.8981359602564647e-05, 'epoch': 3.14}
 13%|█▎        | 10256/78504 [6:14:49<31:37:58,  1.67s/it] 13%|█▎        | 10257/78504 [6:14:50<30:12:57,  1.59s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.8873546719551086, 'learning_rate': 2.8980934992144706e-05, 'epoch': 3.14}
 13%|█▎        | 10257/78504 [6:14:50<30:12:57,  1.59s/it] 13%|█▎        | 10258/78504 [6:14:52<28:27:45,  1.50s/it]                                                          {'loss': 0.1753, 'grad_norm': 1.3063812255859375, 'learning_rate': 2.8980510381724768e-05, 'epoch': 3.14}
 13%|█▎        | 10258/78504 [6:14:52<28:27:45,  1.50s/it] 13%|█▎        | 10259/78504 [6:14:53<26:26:18,  1.39s/it]                                                          {'loss': 0.1772, 'grad_norm': 0.8618035912513733, 'learning_rate': 2.8980085771304827e-05, 'epoch': 3.14}
 13%|█▎        | 10259/78504 [6:14:53<26:26:18,  1.39s/it] 13%|█▎        | 10260/78504 [6:14:54<24:45:22,  1.31s/it]                                                          {'loss': 0.1948, 'grad_norm': 0.7086197733879089, 'learning_rate': 2.897966116088489e-05, 'epoch': 3.14}
 13%|█▎        | 10260/78504 [6:14:54<24:45:22,  1.31s/it] 13%|█▎        | 10261/78504 [6:14:55<22:56:07,  1.21s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.9924372434616089, 'learning_rate': 2.897923655046495e-05, 'epoch': 3.14}
 13%|█▎        | 10261/78504 [6:14:55<22:56:07,  1.21s/it] 13%|█▎        | 10262/78504 [6:14:56<21:24:15,  1.13s/it]                                                          {'loss': 0.2298, 'grad_norm': 2.723292589187622, 'learning_rate': 2.897881194004501e-05, 'epoch': 3.14}
 13%|█▎        | 10262/78504 [6:14:56<21:24:15,  1.13s/it] 13%|█▎        | 10263/78504 [6:14:56<19:26:19,  1.03s/it]                                                          {'loss': 0.3162, 'grad_norm': 1.7389355897903442, 'learning_rate': 2.897838732962507e-05, 'epoch': 3.14}
 13%|█▎        | 10263/78504 [6:14:56<19:26:19,  1.03s/it] 13%|█▎        | 10264/78504 [6:15:04<57:21:24,  3.03s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.5222474336624146, 'learning_rate': 2.897796271920513e-05, 'epoch': 3.14}
 13%|█▎        | 10264/78504 [6:15:04<57:21:24,  3.03s/it] 13%|█▎        | 10265/78504 [6:15:07<58:40:15,  3.10s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.3561881184577942, 'learning_rate': 2.8977538108785192e-05, 'epoch': 3.14}
 13%|█▎        | 10265/78504 [6:15:07<58:40:15,  3.10s/it] 13%|█▎        | 10266/78504 [6:15:10<57:58:57,  3.06s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.2615278661251068, 'learning_rate': 2.897711349836525e-05, 'epoch': 3.14}
 13%|█▎        | 10266/78504 [6:15:10<57:58:57,  3.06s/it] 13%|█▎        | 10267/78504 [6:15:13<55:17:41,  2.92s/it]                                                          {'loss': 0.0498, 'grad_norm': 0.18635202944278717, 'learning_rate': 2.8976688887945313e-05, 'epoch': 3.14}
 13%|█▎        | 10267/78504 [6:15:13<55:17:41,  2.92s/it] 13%|█▎        | 10268/78504 [6:15:15<52:51:03,  2.79s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.704046368598938, 'learning_rate': 2.8976264277525372e-05, 'epoch': 3.14}
 13%|█▎        | 10268/78504 [6:15:15<52:51:03,  2.79s/it] 13%|█▎        | 10269/78504 [6:15:18<49:49:11,  2.63s/it]                                                          {'loss': 0.0615, 'grad_norm': 0.21113035082817078, 'learning_rate': 2.8975839667105434e-05, 'epoch': 3.14}
 13%|█▎        | 10269/78504 [6:15:18<49:49:11,  2.63s/it] 13%|█▎        | 10270/78504 [6:15:20<48:07:10,  2.54s/it]                                                          {'loss': 0.0378, 'grad_norm': 0.185187429189682, 'learning_rate': 2.8975415056685493e-05, 'epoch': 3.14}
 13%|█▎        | 10270/78504 [6:15:20<48:07:10,  2.54s/it] 13%|█▎        | 10271/78504 [6:15:22<45:32:14,  2.40s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.24964606761932373, 'learning_rate': 2.8974990446265555e-05, 'epoch': 3.14}
 13%|█▎        | 10271/78504 [6:15:22<45:32:14,  2.40s/it] 13%|█▎        | 10272/78504 [6:15:24<44:18:43,  2.34s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.38263237476348877, 'learning_rate': 2.8974565835845614e-05, 'epoch': 3.14}
 13%|█▎        | 10272/78504 [6:15:24<44:18:43,  2.34s/it] 13%|█▎        | 10273/78504 [6:15:26<43:11:35,  2.28s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.48742803931236267, 'learning_rate': 2.8974141225425676e-05, 'epoch': 3.14}
 13%|█▎        | 10273/78504 [6:15:26<43:11:35,  2.28s/it] 13%|█▎        | 10274/78504 [6:15:28<41:45:41,  2.20s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.3578076660633087, 'learning_rate': 2.8973716615005734e-05, 'epoch': 3.14}
 13%|█▎        | 10274/78504 [6:15:29<41:45:41,  2.20s/it] 13%|█▎        | 10275/78504 [6:15:30<40:29:57,  2.14s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.3351646661758423, 'learning_rate': 2.8973292004585793e-05, 'epoch': 3.14}
 13%|█▎        | 10275/78504 [6:15:30<40:29:57,  2.14s/it] 13%|█▎        | 10276/78504 [6:15:32<38:55:47,  2.05s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.2636694610118866, 'learning_rate': 2.8972867394165855e-05, 'epoch': 3.14}
 13%|█▎        | 10276/78504 [6:15:32<38:55:47,  2.05s/it] 13%|█▎        | 10277/78504 [6:15:34<37:54:15,  2.00s/it]                                                          {'loss': 0.1494, 'grad_norm': 0.4289308786392212, 'learning_rate': 2.8972442783745914e-05, 'epoch': 3.14}
 13%|█▎        | 10277/78504 [6:15:34<37:54:15,  2.00s/it] 13%|█▎        | 10278/78504 [6:15:36<36:34:00,  1.93s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.42700907588005066, 'learning_rate': 2.8972018173325976e-05, 'epoch': 3.14}
 13%|█▎        | 10278/78504 [6:15:36<36:34:00,  1.93s/it] 13%|█▎        | 10279/78504 [6:15:38<34:58:44,  1.85s/it]                                                          {'loss': 0.1658, 'grad_norm': 0.6224977374076843, 'learning_rate': 2.8971593562906035e-05, 'epoch': 3.14}
 13%|█▎        | 10279/78504 [6:15:38<34:58:44,  1.85s/it] 13%|█▎        | 10280/78504 [6:15:39<33:14:12,  1.75s/it]                                                          {'loss': 0.1767, 'grad_norm': 0.39091455936431885, 'learning_rate': 2.8971168952486097e-05, 'epoch': 3.14}
 13%|█▎        | 10280/78504 [6:15:39<33:14:12,  1.75s/it] 13%|█▎        | 10281/78504 [6:15:41<31:37:27,  1.67s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.4942493140697479, 'learning_rate': 2.8970744342066155e-05, 'epoch': 3.14}
 13%|█▎        | 10281/78504 [6:15:41<31:37:27,  1.67s/it] 13%|█▎        | 10282/78504 [6:15:42<30:01:25,  1.58s/it]                                                          {'loss': 0.1587, 'grad_norm': 0.516236424446106, 'learning_rate': 2.8970319731646217e-05, 'epoch': 3.14}
 13%|█▎        | 10282/78504 [6:15:42<30:01:25,  1.58s/it] 13%|█▎        | 10283/78504 [6:15:43<28:20:46,  1.50s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.44774961471557617, 'learning_rate': 2.8969895121226276e-05, 'epoch': 3.14}
 13%|█▎        | 10283/78504 [6:15:43<28:20:46,  1.50s/it] 13%|█▎        | 10284/78504 [6:15:44<26:20:20,  1.39s/it]                                                          {'loss': 0.1929, 'grad_norm': 0.9338566064834595, 'learning_rate': 2.8969470510806338e-05, 'epoch': 3.14}
 13%|█▎        | 10284/78504 [6:15:44<26:20:20,  1.39s/it] 13%|█▎        | 10285/78504 [6:15:46<24:40:09,  1.30s/it]                                                          {'loss': 0.2098, 'grad_norm': 2.035860776901245, 'learning_rate': 2.8969045900386397e-05, 'epoch': 3.14}
 13%|█▎        | 10285/78504 [6:15:46<24:40:09,  1.30s/it] 13%|█▎        | 10286/78504 [6:15:47<22:58:41,  1.21s/it]                                                          {'loss': 0.2592, 'grad_norm': 1.1478455066680908, 'learning_rate': 2.8968621289966456e-05, 'epoch': 3.14}
 13%|█▎        | 10286/78504 [6:15:47<22:58:41,  1.21s/it] 13%|█▎        | 10287/78504 [6:15:47<21:22:05,  1.13s/it]                                                          {'loss': 0.2135, 'grad_norm': 0.7525178790092468, 'learning_rate': 2.8968196679546518e-05, 'epoch': 3.14}
 13%|█▎        | 10287/78504 [6:15:47<21:22:05,  1.13s/it] 13%|█▎        | 10288/78504 [6:15:48<19:22:43,  1.02s/it]                                                          {'loss': 0.388, 'grad_norm': 1.7376807928085327, 'learning_rate': 2.8967772069126576e-05, 'epoch': 3.15}
 13%|█▎        | 10288/78504 [6:15:48<19:22:43,  1.02s/it] 13%|█▎        | 10289/78504 [6:15:56<59:49:10,  3.16s/it]                                                          {'loss': 0.147, 'grad_norm': 0.41085371375083923, 'learning_rate': 2.896734745870664e-05, 'epoch': 3.15}
 13%|█▎        | 10289/78504 [6:15:56<59:49:10,  3.16s/it] 13%|█▎        | 10290/78504 [6:16:00<59:40:20,  3.15s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.24897074699401855, 'learning_rate': 2.8966922848286697e-05, 'epoch': 3.15}
 13%|█▎        | 10290/78504 [6:16:00<59:40:20,  3.15s/it] 13%|█▎        | 10291/78504 [6:16:03<58:55:13,  3.11s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.24241597950458527, 'learning_rate': 2.896649823786676e-05, 'epoch': 3.15}
 13%|█▎        | 10291/78504 [6:16:03<58:55:13,  3.11s/it] 13%|█▎        | 10292/78504 [6:16:05<55:49:40,  2.95s/it]                                                          {'loss': 0.053, 'grad_norm': 0.1660022884607315, 'learning_rate': 2.8966073627446818e-05, 'epoch': 3.15}
 13%|█▎        | 10292/78504 [6:16:05<55:49:40,  2.95s/it] 13%|█▎        | 10293/78504 [6:16:08<53:06:58,  2.80s/it]                                                          {'loss': 0.095, 'grad_norm': 0.18616977334022522, 'learning_rate': 2.896564901702688e-05, 'epoch': 3.15}
 13%|█▎        | 10293/78504 [6:16:08<53:06:58,  2.80s/it] 13%|█▎        | 10294/78504 [6:16:10<51:00:47,  2.69s/it]                                                          {'loss': 0.0465, 'grad_norm': 0.2733456492424011, 'learning_rate': 2.896522440660694e-05, 'epoch': 3.15}
 13%|█▎        | 10294/78504 [6:16:10<51:00:47,  2.69s/it] 13%|█▎        | 10295/78504 [6:16:12<48:51:28,  2.58s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.2541136145591736, 'learning_rate': 2.8964799796187e-05, 'epoch': 3.15}
 13%|█▎        | 10295/78504 [6:16:12<48:51:28,  2.58s/it] 13%|█▎        | 10296/78504 [6:16:14<46:05:53,  2.43s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.37824615836143494, 'learning_rate': 2.896437518576706e-05, 'epoch': 3.15}
 13%|█▎        | 10296/78504 [6:16:14<46:05:53,  2.43s/it] 13%|█▎        | 10297/78504 [6:16:17<44:40:02,  2.36s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.2931547462940216, 'learning_rate': 2.8963950575347122e-05, 'epoch': 3.15}
 13%|█▎        | 10297/78504 [6:16:17<44:40:02,  2.36s/it] 13%|█▎        | 10298/78504 [6:16:19<43:35:06,  2.30s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.4609910547733307, 'learning_rate': 2.896352596492718e-05, 'epoch': 3.15}
 13%|█▎        | 10298/78504 [6:16:19<43:35:06,  2.30s/it] 13%|█▎        | 10299/78504 [6:16:21<41:03:38,  2.17s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.7953585982322693, 'learning_rate': 2.896310135450724e-05, 'epoch': 3.15}
 13%|█▎        | 10299/78504 [6:16:21<41:03:38,  2.17s/it] 13%|█▎        | 10300/78504 [6:16:23<40:01:40,  2.11s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.3550972044467926, 'learning_rate': 2.89626767440873e-05, 'epoch': 3.15}
 13%|█▎        | 10300/78504 [6:16:23<40:01:40,  2.11s/it] 13%|█▎        | 10301/78504 [6:16:24<38:44:38,  2.05s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.22483272850513458, 'learning_rate': 2.896225213366736e-05, 'epoch': 3.15}
 13%|█▎        | 10301/78504 [6:16:25<38:44:38,  2.05s/it] 13%|█▎        | 10302/78504 [6:16:26<37:43:06,  1.99s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.30775538086891174, 'learning_rate': 2.8961827523247422e-05, 'epoch': 3.15}
 13%|█▎        | 10302/78504 [6:16:26<37:43:06,  1.99s/it] 13%|█▎        | 10303/78504 [6:16:28<36:24:13,  1.92s/it]                                                          {'loss': 0.116, 'grad_norm': 0.41634538769721985, 'learning_rate': 2.896140291282748e-05, 'epoch': 3.15}
 13%|█▎        | 10303/78504 [6:16:28<36:24:13,  1.92s/it] 13%|█▎        | 10304/78504 [6:16:30<34:55:08,  1.84s/it]                                                          {'loss': 0.135, 'grad_norm': 0.4577889144420624, 'learning_rate': 2.8960978302407543e-05, 'epoch': 3.15}
 13%|█▎        | 10304/78504 [6:16:30<34:55:08,  1.84s/it] 13%|█▎        | 10305/78504 [6:16:31<33:12:03,  1.75s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.7097747325897217, 'learning_rate': 2.89605536919876e-05, 'epoch': 3.15}
 13%|█▎        | 10305/78504 [6:16:31<33:12:03,  1.75s/it] 13%|█▎        | 10306/78504 [6:16:33<31:32:37,  1.67s/it]                                                          {'loss': 0.1883, 'grad_norm': 0.42533960938453674, 'learning_rate': 2.8960129081567664e-05, 'epoch': 3.15}
 13%|█▎        | 10306/78504 [6:16:33<31:32:37,  1.67s/it] 13%|█▎        | 10307/78504 [6:16:34<30:00:44,  1.58s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.7189053893089294, 'learning_rate': 2.8959704471147722e-05, 'epoch': 3.15}
 13%|█▎        | 10307/78504 [6:16:34<30:00:44,  1.58s/it] 13%|█▎        | 10308/78504 [6:16:35<28:17:50,  1.49s/it]                                                          {'loss': 0.2024, 'grad_norm': 0.7183886170387268, 'learning_rate': 2.8959279860727784e-05, 'epoch': 3.15}
 13%|█▎        | 10308/78504 [6:16:35<28:17:50,  1.49s/it] 13%|█▎        | 10309/78504 [6:16:37<26:21:00,  1.39s/it]                                                          {'loss': 0.1969, 'grad_norm': 0.5874846577644348, 'learning_rate': 2.8958855250307843e-05, 'epoch': 3.15}
 13%|█▎        | 10309/78504 [6:16:37<26:21:00,  1.39s/it] 13%|█▎        | 10310/78504 [6:16:38<24:37:10,  1.30s/it]                                                          {'loss': 0.181, 'grad_norm': 0.5393203496932983, 'learning_rate': 2.8958430639887905e-05, 'epoch': 3.15}
 13%|█▎        | 10310/78504 [6:16:38<24:37:10,  1.30s/it] 13%|█▎        | 10311/78504 [6:16:39<23:07:57,  1.22s/it]                                                          {'loss': 0.212, 'grad_norm': 1.3771523237228394, 'learning_rate': 2.8958006029467964e-05, 'epoch': 3.15}
 13%|█▎        | 10311/78504 [6:16:39<23:07:57,  1.22s/it] 13%|█▎        | 10312/78504 [6:16:40<21:30:32,  1.14s/it]                                                          {'loss': 0.2033, 'grad_norm': 1.3864179849624634, 'learning_rate': 2.8957581419048023e-05, 'epoch': 3.15}
 13%|█▎        | 10312/78504 [6:16:40<21:30:32,  1.14s/it] 13%|█▎        | 10313/78504 [6:16:40<19:31:31,  1.03s/it]                                                          {'loss': 0.2634, 'grad_norm': 2.5158560276031494, 'learning_rate': 2.8957156808628085e-05, 'epoch': 3.15}
 13%|█▎        | 10313/78504 [6:16:40<19:31:31,  1.03s/it] 13%|█▎        | 10314/78504 [6:16:49<62:44:20,  3.31s/it]                                                          {'loss': 0.148, 'grad_norm': 0.3594142496585846, 'learning_rate': 2.8956732198208143e-05, 'epoch': 3.15}
 13%|█▎        | 10314/78504 [6:16:49<62:44:20,  3.31s/it] 13%|█▎        | 10315/78504 [6:16:52<61:42:23,  3.26s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.21951749920845032, 'learning_rate': 2.8956307587788205e-05, 'epoch': 3.15}
 13%|█▎        | 10315/78504 [6:16:52<61:42:23,  3.26s/it] 13%|█▎        | 10316/78504 [6:16:55<60:07:43,  3.17s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.21078631281852722, 'learning_rate': 2.8955882977368264e-05, 'epoch': 3.15}
 13%|█▎        | 10316/78504 [6:16:55<60:07:43,  3.17s/it] 13%|█▎        | 10317/78504 [6:16:58<56:56:36,  3.01s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.15636320412158966, 'learning_rate': 2.8955458366948326e-05, 'epoch': 3.15}
 13%|█▎        | 10317/78504 [6:16:58<56:56:36,  3.01s/it] 13%|█▎        | 10318/78504 [6:17:00<53:51:14,  2.84s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.2793445289134979, 'learning_rate': 2.8955033756528385e-05, 'epoch': 3.15}
 13%|█▎        | 10318/78504 [6:17:00<53:51:14,  2.84s/it] 13%|█▎        | 10319/78504 [6:17:03<50:34:00,  2.67s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.2408265769481659, 'learning_rate': 2.8954609146108447e-05, 'epoch': 3.15}
 13%|█▎        | 10319/78504 [6:17:03<50:34:00,  2.67s/it] 13%|█▎        | 10320/78504 [6:17:05<48:33:27,  2.56s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.573138952255249, 'learning_rate': 2.8954184535688506e-05, 'epoch': 3.15}
 13%|█▎        | 10320/78504 [6:17:05<48:33:27,  2.56s/it] 13%|█▎        | 10321/78504 [6:17:07<46:48:05,  2.47s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.5133402347564697, 'learning_rate': 2.8953759925268568e-05, 'epoch': 3.16}
 13%|█▎        | 10321/78504 [6:17:07<46:48:05,  2.47s/it] 13%|█▎        | 10322/78504 [6:17:09<45:17:36,  2.39s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.3015466630458832, 'learning_rate': 2.8953335314848626e-05, 'epoch': 3.16}
 13%|█▎        | 10322/78504 [6:17:09<45:17:36,  2.39s/it] 13%|█▎        | 10323/78504 [6:17:11<43:58:22,  2.32s/it]                                                          {'loss': 0.0592, 'grad_norm': 0.35292646288871765, 'learning_rate': 2.895291070442869e-05, 'epoch': 3.16}
 13%|█▎        | 10323/78504 [6:17:11<43:58:22,  2.32s/it] 13%|█▎        | 10324/78504 [6:17:13<41:19:02,  2.18s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.3003939688205719, 'learning_rate': 2.8952486094008747e-05, 'epoch': 3.16}
 13%|█▎        | 10324/78504 [6:17:13<41:19:02,  2.18s/it] 13%|█▎        | 10325/78504 [6:17:15<40:12:56,  2.12s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.348146915435791, 'learning_rate': 2.8952061483588806e-05, 'epoch': 3.16}
 13%|█▎        | 10325/78504 [6:17:15<40:12:56,  2.12s/it] 13%|█▎        | 10326/78504 [6:17:17<39:02:30,  2.06s/it]                                                          {'loss': 0.1365, 'grad_norm': 0.6308395266532898, 'learning_rate': 2.8951636873168868e-05, 'epoch': 3.16}
 13%|█▎        | 10326/78504 [6:17:17<39:02:30,  2.06s/it] 13%|█▎        | 10327/78504 [6:17:19<38:04:20,  2.01s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.49866145849227905, 'learning_rate': 2.8951212262748927e-05, 'epoch': 3.16}
 13%|█▎        | 10327/78504 [6:17:19<38:04:20,  2.01s/it] 13%|█▎        | 10328/78504 [6:17:21<36:39:12,  1.94s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.31493446230888367, 'learning_rate': 2.895078765232899e-05, 'epoch': 3.16}
 13%|█▎        | 10328/78504 [6:17:21<36:39:12,  1.94s/it] 13%|█▎        | 10329/78504 [6:17:22<34:37:28,  1.83s/it]                                                          {'loss': 0.1707, 'grad_norm': 0.4502767026424408, 'learning_rate': 2.8950363041909048e-05, 'epoch': 3.16}
 13%|█▎        | 10329/78504 [6:17:22<34:37:28,  1.83s/it] 13%|█▎        | 10330/78504 [6:17:24<32:59:47,  1.74s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.49606582522392273, 'learning_rate': 2.894993843148911e-05, 'epoch': 3.16}
 13%|█▎        | 10330/78504 [6:17:24<32:59:47,  1.74s/it] 13%|█▎        | 10331/78504 [6:17:26<31:38:43,  1.67s/it]                                                          {'loss': 0.1906, 'grad_norm': 0.5330062508583069, 'learning_rate': 2.894951382106917e-05, 'epoch': 3.16}
 13%|█▎        | 10331/78504 [6:17:26<31:38:43,  1.67s/it] 13%|█▎        | 10332/78504 [6:17:27<30:03:23,  1.59s/it]                                                          {'loss': 0.174, 'grad_norm': 0.68075031042099, 'learning_rate': 2.894908921064923e-05, 'epoch': 3.16}
 13%|█▎        | 10332/78504 [6:17:27<30:03:23,  1.59s/it] 13%|█▎        | 10333/78504 [6:17:28<28:20:04,  1.50s/it]                                                          {'loss': 0.1865, 'grad_norm': 0.6249681115150452, 'learning_rate': 2.894866460022929e-05, 'epoch': 3.16}
 13%|█▎        | 10333/78504 [6:17:28<28:20:04,  1.50s/it] 13%|█▎        | 10334/78504 [6:17:29<26:22:28,  1.39s/it]                                                          {'loss': 0.2217, 'grad_norm': 0.5545948147773743, 'learning_rate': 2.894823998980935e-05, 'epoch': 3.16}
 13%|█▎        | 10334/78504 [6:17:29<26:22:28,  1.39s/it] 13%|█▎        | 10335/78504 [6:17:30<24:46:52,  1.31s/it]                                                          {'loss': 0.1695, 'grad_norm': 0.8028237819671631, 'learning_rate': 2.894781537938941e-05, 'epoch': 3.16}
 13%|█▎        | 10335/78504 [6:17:30<24:46:52,  1.31s/it] 13%|█▎        | 10336/78504 [6:17:31<23:17:06,  1.23s/it]                                                          {'loss': 0.2096, 'grad_norm': 1.0245047807693481, 'learning_rate': 2.8947390768969472e-05, 'epoch': 3.16}
 13%|█▎        | 10336/78504 [6:17:32<23:17:06,  1.23s/it] 13%|█▎        | 10337/78504 [6:17:32<21:32:30,  1.14s/it]                                                          {'loss': 0.2181, 'grad_norm': 1.0390950441360474, 'learning_rate': 2.894696615854953e-05, 'epoch': 3.16}
 13%|█▎        | 10337/78504 [6:17:32<21:32:30,  1.14s/it] 13%|█▎        | 10338/78504 [6:17:33<19:31:43,  1.03s/it]                                                          {'loss': 0.2268, 'grad_norm': 1.5423967838287354, 'learning_rate': 2.894654154812959e-05, 'epoch': 3.16}
 13%|█▎        | 10338/78504 [6:17:33<19:31:43,  1.03s/it] 13%|█▎        | 10339/78504 [6:17:43<68:15:42,  3.61s/it]                                                          {'loss': 0.1419, 'grad_norm': 0.7271143794059753, 'learning_rate': 2.894611693770965e-05, 'epoch': 3.16}
 13%|█▎        | 10339/78504 [6:17:43<68:15:42,  3.61s/it] 13%|█▎        | 10340/78504 [6:17:46<67:14:29,  3.55s/it]                                                          {'loss': 0.106, 'grad_norm': 0.3446357250213623, 'learning_rate': 2.894569232728971e-05, 'epoch': 3.16}
 13%|█▎        | 10340/78504 [6:17:46<67:14:29,  3.55s/it] 13%|█▎        | 10341/78504 [6:17:49<64:30:33,  3.41s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.37693551182746887, 'learning_rate': 2.8945267716869772e-05, 'epoch': 3.16}
 13%|█▎        | 10341/78504 [6:17:49<64:30:33,  3.41s/it] 13%|█▎        | 10342/78504 [6:17:52<60:09:27,  3.18s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.43417707085609436, 'learning_rate': 2.894484310644983e-05, 'epoch': 3.16}
 13%|█▎        | 10342/78504 [6:17:52<60:09:27,  3.18s/it] 13%|█▎        | 10343/78504 [6:17:54<56:12:42,  2.97s/it]                                                          {'loss': 0.0557, 'grad_norm': 0.29777127504348755, 'learning_rate': 2.8944418496029893e-05, 'epoch': 3.16}
 13%|█▎        | 10343/78504 [6:17:54<56:12:42,  2.97s/it] 13%|█▎        | 10344/78504 [6:17:57<53:17:52,  2.82s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.32569563388824463, 'learning_rate': 2.8943993885609952e-05, 'epoch': 3.16}
 13%|█▎        | 10344/78504 [6:17:57<53:17:52,  2.82s/it] 13%|█▎        | 10345/78504 [6:17:59<50:29:37,  2.67s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.4559873342514038, 'learning_rate': 2.8943569275190014e-05, 'epoch': 3.16}
 13%|█▎        | 10345/78504 [6:17:59<50:29:37,  2.67s/it] 13%|█▎        | 10346/78504 [6:18:02<48:25:01,  2.56s/it]                                                          {'loss': 0.079, 'grad_norm': 0.2646925747394562, 'learning_rate': 2.8943144664770073e-05, 'epoch': 3.16}
 13%|█▎        | 10346/78504 [6:18:02<48:25:01,  2.56s/it] 13%|█▎        | 10347/78504 [6:18:04<46:17:11,  2.44s/it]                                                          {'loss': 0.051, 'grad_norm': 0.28513431549072266, 'learning_rate': 2.8942720054350135e-05, 'epoch': 3.16}
 13%|█▎        | 10347/78504 [6:18:04<46:17:11,  2.44s/it] 13%|█▎        | 10348/78504 [6:18:06<44:42:05,  2.36s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.3178243339061737, 'learning_rate': 2.8942295443930193e-05, 'epoch': 3.16}
 13%|█▎        | 10348/78504 [6:18:06<44:42:05,  2.36s/it] 13%|█▎        | 10349/78504 [6:18:08<42:47:02,  2.26s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.39546123147010803, 'learning_rate': 2.8941870833510255e-05, 'epoch': 3.16}
 13%|█▎        | 10349/78504 [6:18:08<42:47:02,  2.26s/it] 13%|█▎        | 10350/78504 [6:18:10<41:10:03,  2.17s/it]                                                          {'loss': 0.076, 'grad_norm': 0.5625643134117126, 'learning_rate': 2.8941446223090314e-05, 'epoch': 3.16}
 13%|█▎        | 10350/78504 [6:18:10<41:10:03,  2.17s/it] 13%|█▎        | 10351/78504 [6:18:12<39:21:51,  2.08s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.3211381435394287, 'learning_rate': 2.8941021612670373e-05, 'epoch': 3.16}
 13%|█▎        | 10351/78504 [6:18:12<39:21:51,  2.08s/it] 13%|█▎        | 10352/78504 [6:18:14<37:59:53,  2.01s/it]                                                          {'loss': 0.1601, 'grad_norm': 0.9273998737335205, 'learning_rate': 2.8940597002250435e-05, 'epoch': 3.16}
 13%|█▎        | 10352/78504 [6:18:14<37:59:53,  2.01s/it] 13%|█▎        | 10353/78504 [6:18:15<36:01:03,  1.90s/it]                                                          {'loss': 0.113, 'grad_norm': 0.3119290769100189, 'learning_rate': 2.8940172391830494e-05, 'epoch': 3.17}
 13%|█▎        | 10353/78504 [6:18:15<36:01:03,  1.90s/it] 13%|█▎        | 10354/78504 [6:18:17<34:30:32,  1.82s/it]                                                          {'loss': 0.1474, 'grad_norm': 0.5781148672103882, 'learning_rate': 2.8939747781410556e-05, 'epoch': 3.17}
 13%|█▎        | 10354/78504 [6:18:17<34:30:32,  1.82s/it] 13%|█▎        | 10355/78504 [6:18:18<32:53:29,  1.74s/it]                                                          {'loss': 0.1659, 'grad_norm': 0.8124240040779114, 'learning_rate': 2.8939323170990614e-05, 'epoch': 3.17}
 13%|█▎        | 10355/78504 [6:18:18<32:53:29,  1.74s/it] 13%|█▎        | 10356/78504 [6:18:20<31:21:02,  1.66s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.6231951117515564, 'learning_rate': 2.8938898560570676e-05, 'epoch': 3.17}
 13%|█▎        | 10356/78504 [6:18:20<31:21:02,  1.66s/it] 13%|█▎        | 10357/78504 [6:18:21<30:02:11,  1.59s/it]                                                          {'loss': 0.2108, 'grad_norm': 0.6175893545150757, 'learning_rate': 2.8938473950150735e-05, 'epoch': 3.17}
 13%|█▎        | 10357/78504 [6:18:21<30:02:11,  1.59s/it] 13%|█▎        | 10358/78504 [6:18:23<28:18:47,  1.50s/it]                                                          {'loss': 0.189, 'grad_norm': 0.5559443235397339, 'learning_rate': 2.8938049339730797e-05, 'epoch': 3.17}
 13%|█▎        | 10358/78504 [6:18:23<28:18:47,  1.50s/it] 13%|█▎        | 10359/78504 [6:18:24<26:19:16,  1.39s/it]                                                          {'loss': 0.1953, 'grad_norm': 0.656129777431488, 'learning_rate': 2.8937624729310856e-05, 'epoch': 3.17}
 13%|█▎        | 10359/78504 [6:18:24<26:19:16,  1.39s/it] 13%|█▎        | 10360/78504 [6:18:25<24:41:13,  1.30s/it]                                                          {'loss': 0.1829, 'grad_norm': 1.3767762184143066, 'learning_rate': 2.8937200118890918e-05, 'epoch': 3.17}
 13%|█▎        | 10360/78504 [6:18:25<24:41:13,  1.30s/it] 13%|█▎        | 10361/78504 [6:18:26<23:15:21,  1.23s/it]                                                          {'loss': 0.2144, 'grad_norm': 1.7427644729614258, 'learning_rate': 2.8936775508470977e-05, 'epoch': 3.17}
 13%|█▎        | 10361/78504 [6:18:26<23:15:21,  1.23s/it] 13%|█▎        | 10362/78504 [6:18:27<21:32:53,  1.14s/it]                                                          {'loss': 0.251, 'grad_norm': 1.0417771339416504, 'learning_rate': 2.893635089805104e-05, 'epoch': 3.17}
 13%|█▎        | 10362/78504 [6:18:27<21:32:53,  1.14s/it] 13%|█▎        | 10363/78504 [6:18:28<19:33:45,  1.03s/it]                                                          {'loss': 0.2476, 'grad_norm': 1.4137701988220215, 'learning_rate': 2.89359262876311e-05, 'epoch': 3.17}
 13%|█▎        | 10363/78504 [6:18:28<19:33:45,  1.03s/it] 13%|█▎        | 10364/78504 [6:18:38<71:05:40,  3.76s/it]                                                          {'loss': 0.1262, 'grad_norm': 0.32380592823028564, 'learning_rate': 2.893550167721116e-05, 'epoch': 3.17}
 13%|█▎        | 10364/78504 [6:18:38<71:05:40,  3.76s/it] 13%|█▎        | 10365/78504 [6:18:41<67:20:13,  3.56s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.2249813675880432, 'learning_rate': 2.8935077066791222e-05, 'epoch': 3.17}
 13%|█▎        | 10365/78504 [6:18:41<67:20:13,  3.56s/it] 13%|█▎        | 10366/78504 [6:18:44<63:42:55,  3.37s/it]                                                          {'loss': 0.0493, 'grad_norm': 0.2198571115732193, 'learning_rate': 2.893465245637128e-05, 'epoch': 3.17}
 13%|█▎        | 10366/78504 [6:18:44<63:42:55,  3.37s/it] 13%|█▎        | 10367/78504 [6:18:46<59:12:03,  3.13s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.4216362535953522, 'learning_rate': 2.8934227845951343e-05, 'epoch': 3.17}
 13%|█▎        | 10367/78504 [6:18:46<59:12:03,  3.13s/it] 13%|█▎        | 10368/78504 [6:18:49<55:34:15,  2.94s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.26356038451194763, 'learning_rate': 2.89338032355314e-05, 'epoch': 3.17}
 13%|█▎        | 10368/78504 [6:18:49<55:34:15,  2.94s/it] 13%|█▎        | 10369/78504 [6:18:51<52:40:31,  2.78s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.2522503733634949, 'learning_rate': 2.8933378625111463e-05, 'epoch': 3.17}
 13%|█▎        | 10369/78504 [6:18:51<52:40:31,  2.78s/it] 13%|█▎        | 10370/78504 [6:18:54<50:02:05,  2.64s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.5914239883422852, 'learning_rate': 2.8932954014691522e-05, 'epoch': 3.17}
 13%|█▎        | 10370/78504 [6:18:54<50:02:05,  2.64s/it] 13%|█▎        | 10371/78504 [6:18:56<46:55:16,  2.48s/it]                                                          {'loss': 0.055, 'grad_norm': 0.5363079905509949, 'learning_rate': 2.8932529404271584e-05, 'epoch': 3.17}
 13%|█▎        | 10371/78504 [6:18:56<46:55:16,  2.48s/it] 13%|█▎        | 10372/78504 [6:18:58<45:12:00,  2.39s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.19637542963027954, 'learning_rate': 2.8932104793851643e-05, 'epoch': 3.17}
 13%|█▎        | 10372/78504 [6:18:58<45:12:00,  2.39s/it] 13%|█▎        | 10373/78504 [6:19:00<43:49:28,  2.32s/it]                                                          {'loss': 0.0879, 'grad_norm': 0.35744789242744446, 'learning_rate': 2.8931680183431705e-05, 'epoch': 3.17}
 13%|█▎        | 10373/78504 [6:19:00<43:49:28,  2.32s/it] 13%|█▎        | 10374/78504 [6:19:02<42:07:39,  2.23s/it]                                                          {'loss': 0.084, 'grad_norm': 0.7409740090370178, 'learning_rate': 2.8931255573011764e-05, 'epoch': 3.17}
 13%|█▎        | 10374/78504 [6:19:02<42:07:39,  2.23s/it] 13%|█▎        | 10375/78504 [6:19:04<40:43:56,  2.15s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.2922605872154236, 'learning_rate': 2.8930830962591826e-05, 'epoch': 3.17}
 13%|█▎        | 10375/78504 [6:19:04<40:43:56,  2.15s/it] 13%|█▎        | 10376/78504 [6:19:06<39:07:40,  2.07s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.31801140308380127, 'learning_rate': 2.8930406352171884e-05, 'epoch': 3.17}
 13%|█▎        | 10376/78504 [6:19:06<39:07:40,  2.07s/it] 13%|█▎        | 10377/78504 [6:19:08<38:00:37,  2.01s/it]                                                          {'loss': 0.177, 'grad_norm': 1.4916596412658691, 'learning_rate': 2.8929981741751943e-05, 'epoch': 3.17}
 13%|█▎        | 10377/78504 [6:19:08<38:00:37,  2.01s/it] 13%|█▎        | 10378/78504 [6:19:09<36:22:57,  1.92s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.4245353043079376, 'learning_rate': 2.8929557131332005e-05, 'epoch': 3.17}
 13%|█▎        | 10378/78504 [6:19:09<36:22:57,  1.92s/it] 13%|█▎        | 10379/78504 [6:19:11<34:47:45,  1.84s/it]                                                          {'loss': 0.1487, 'grad_norm': 0.7588163018226624, 'learning_rate': 2.8929132520912064e-05, 'epoch': 3.17}
 13%|█▎        | 10379/78504 [6:19:11<34:47:45,  1.84s/it] 13%|█▎        | 10380/78504 [6:19:13<33:05:32,  1.75s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.5029361248016357, 'learning_rate': 2.8928707910492126e-05, 'epoch': 3.17}
 13%|█▎        | 10380/78504 [6:19:13<33:05:32,  1.75s/it] 13%|█▎        | 10381/78504 [6:19:14<31:14:19,  1.65s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.4696407616138458, 'learning_rate': 2.8928283300072185e-05, 'epoch': 3.17}
 13%|█▎        | 10381/78504 [6:19:14<31:14:19,  1.65s/it] 13%|█▎        | 10382/78504 [6:19:15<29:52:58,  1.58s/it]                                                          {'loss': 0.2273, 'grad_norm': 1.378650188446045, 'learning_rate': 2.8927858689652247e-05, 'epoch': 3.17}
 13%|█▎        | 10382/78504 [6:19:15<29:52:58,  1.58s/it] 13%|█▎        | 10383/78504 [6:19:17<27:53:31,  1.47s/it]                                                          {'loss': 0.1676, 'grad_norm': 0.6728714108467102, 'learning_rate': 2.8927434079232305e-05, 'epoch': 3.17}
 13%|█▎        | 10383/78504 [6:19:17<27:53:31,  1.47s/it] 13%|█▎        | 10384/78504 [6:19:18<25:52:52,  1.37s/it]                                                          {'loss': 0.1855, 'grad_norm': 0.9252486228942871, 'learning_rate': 2.8927009468812368e-05, 'epoch': 3.17}
 13%|█▎        | 10384/78504 [6:19:18<25:52:52,  1.37s/it] 13%|█▎        | 10385/78504 [6:19:19<24:17:49,  1.28s/it]                                                          {'loss': 0.1779, 'grad_norm': 1.0324466228485107, 'learning_rate': 2.8926584858392426e-05, 'epoch': 3.17}
 13%|█▎        | 10385/78504 [6:19:19<24:17:49,  1.28s/it] 13%|█▎        | 10386/78504 [6:19:20<22:37:08,  1.20s/it]                                                          {'loss': 0.2021, 'grad_norm': 1.3853899240493774, 'learning_rate': 2.8926160247972488e-05, 'epoch': 3.18}
 13%|█▎        | 10386/78504 [6:19:20<22:37:08,  1.20s/it] 13%|█▎        | 10387/78504 [6:19:21<21:07:17,  1.12s/it]                                                          {'loss': 0.2099, 'grad_norm': 0.9265398383140564, 'learning_rate': 2.8925735637552547e-05, 'epoch': 3.18}
 13%|█▎        | 10387/78504 [6:19:21<21:07:17,  1.12s/it] 13%|█▎        | 10388/78504 [6:19:22<19:13:27,  1.02s/it]                                                          {'loss': 0.3014, 'grad_norm': 1.2718372344970703, 'learning_rate': 2.892531102713261e-05, 'epoch': 3.18}
 13%|█▎        | 10388/78504 [6:19:22<19:13:27,  1.02s/it] 13%|█▎        | 10389/78504 [6:19:30<63:52:25,  3.38s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.3673943281173706, 'learning_rate': 2.8924886416712668e-05, 'epoch': 3.18}
 13%|█▎        | 10389/78504 [6:19:30<63:52:25,  3.38s/it] 13%|█▎        | 10390/78504 [6:19:34<62:17:30,  3.29s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.3225771486759186, 'learning_rate': 2.8924461806292726e-05, 'epoch': 3.18}
 13%|█▎        | 10390/78504 [6:19:34<62:17:30,  3.29s/it] 13%|█▎        | 10391/78504 [6:19:37<60:41:21,  3.21s/it]                                                          {'loss': 0.0766, 'grad_norm': 0.30433714389801025, 'learning_rate': 2.892403719587279e-05, 'epoch': 3.18}
 13%|█▎        | 10391/78504 [6:19:37<60:41:21,  3.21s/it] 13%|█▎        | 10392/78504 [6:19:39<57:19:36,  3.03s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.34489667415618896, 'learning_rate': 2.8923612585452847e-05, 'epoch': 3.18}
 13%|█▎        | 10392/78504 [6:19:39<57:19:36,  3.03s/it] 13%|█▎        | 10393/78504 [6:19:42<54:06:47,  2.86s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.33075135946273804, 'learning_rate': 2.892318797503291e-05, 'epoch': 3.18}
 13%|█▎        | 10393/78504 [6:19:42<54:06:47,  2.86s/it] 13%|█▎        | 10394/78504 [6:19:44<50:44:48,  2.68s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.2004011571407318, 'learning_rate': 2.8922763364612968e-05, 'epoch': 3.18}
 13%|█▎        | 10394/78504 [6:19:44<50:44:48,  2.68s/it] 13%|█▎        | 10395/78504 [6:19:46<48:38:55,  2.57s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.3098849058151245, 'learning_rate': 2.892233875419303e-05, 'epoch': 3.18}
 13%|█▎        | 10395/78504 [6:19:46<48:38:55,  2.57s/it] 13%|█▎        | 10396/78504 [6:19:48<46:03:05,  2.43s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.2252720445394516, 'learning_rate': 2.892191414377309e-05, 'epoch': 3.18}
 13%|█▎        | 10396/78504 [6:19:48<46:03:05,  2.43s/it] 13%|█▎        | 10397/78504 [6:19:50<44:36:42,  2.36s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.3029820919036865, 'learning_rate': 2.892148953335315e-05, 'epoch': 3.18}
 13%|█▎        | 10397/78504 [6:19:51<44:36:42,  2.36s/it] 13%|█▎        | 10398/78504 [6:19:53<43:31:22,  2.30s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.3069455027580261, 'learning_rate': 2.892106492293321e-05, 'epoch': 3.18}
 13%|█▎        | 10398/78504 [6:19:53<43:31:22,  2.30s/it] 13%|█▎        | 10399/78504 [6:19:55<40:59:37,  2.17s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.6973271369934082, 'learning_rate': 2.8920640312513272e-05, 'epoch': 3.18}
 13%|█▎        | 10399/78504 [6:19:55<40:59:37,  2.17s/it] 13%|█▎        | 10400/78504 [6:19:56<39:57:02,  2.11s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.314800888299942, 'learning_rate': 2.892021570209333e-05, 'epoch': 3.18}
 13%|█▎        | 10400/78504 [6:19:57<39:57:02,  2.11s/it] 13%|█▎        | 10401/78504 [6:19:58<38:53:16,  2.06s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.6784534454345703, 'learning_rate': 2.891979109167339e-05, 'epoch': 3.18}
 13%|█▎        | 10401/78504 [6:19:58<38:53:16,  2.06s/it] 13%|█▎        | 10402/78504 [6:20:00<37:57:47,  2.01s/it]                                                          {'loss': 0.1066, 'grad_norm': 0.49673548340797424, 'learning_rate': 2.891936648125345e-05, 'epoch': 3.18}
 13%|█▎        | 10402/78504 [6:20:00<37:57:47,  2.01s/it] 13%|█▎        | 10403/78504 [6:20:02<36:32:59,  1.93s/it]                                                          {'loss': 0.119, 'grad_norm': 0.3788943886756897, 'learning_rate': 2.891894187083351e-05, 'epoch': 3.18}
 13%|█▎        | 10403/78504 [6:20:02<36:32:59,  1.93s/it] 13%|█▎        | 10404/78504 [6:20:04<34:30:46,  1.82s/it]                                                          {'loss': 0.139, 'grad_norm': 0.4808180034160614, 'learning_rate': 2.8918517260413572e-05, 'epoch': 3.18}
 13%|█▎        | 10404/78504 [6:20:04<34:30:46,  1.82s/it] 13%|█▎        | 10405/78504 [6:20:05<32:56:39,  1.74s/it]                                                          {'loss': 0.1554, 'grad_norm': 0.5215859413146973, 'learning_rate': 2.891809264999363e-05, 'epoch': 3.18}
 13%|█▎        | 10405/78504 [6:20:05<32:56:39,  1.74s/it] 13%|█▎        | 10406/78504 [6:20:07<31:22:10,  1.66s/it]                                                          {'loss': 0.1688, 'grad_norm': 0.49991804361343384, 'learning_rate': 2.8917668039573693e-05, 'epoch': 3.18}
 13%|█▎        | 10406/78504 [6:20:07<31:22:10,  1.66s/it] 13%|█▎        | 10407/78504 [6:20:08<29:51:31,  1.58s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.5255736708641052, 'learning_rate': 2.891724342915375e-05, 'epoch': 3.18}
 13%|█▎        | 10407/78504 [6:20:08<29:51:31,  1.58s/it] 13%|█▎        | 10408/78504 [6:20:09<28:09:49,  1.49s/it]                                                          {'loss': 0.1923, 'grad_norm': 0.9352663159370422, 'learning_rate': 2.8916818818733814e-05, 'epoch': 3.18}
 13%|█▎        | 10408/78504 [6:20:09<28:09:49,  1.49s/it] 13%|█▎        | 10409/78504 [6:20:10<26:13:42,  1.39s/it]                                                          {'loss': 0.2084, 'grad_norm': 1.0829075574874878, 'learning_rate': 2.8916394208313872e-05, 'epoch': 3.18}
 13%|█▎        | 10409/78504 [6:20:11<26:13:42,  1.39s/it] 13%|█▎        | 10410/78504 [6:20:12<24:40:31,  1.30s/it]                                                          {'loss': 0.2251, 'grad_norm': 1.3158094882965088, 'learning_rate': 2.8915969597893934e-05, 'epoch': 3.18}
 13%|█▎        | 10410/78504 [6:20:12<24:40:31,  1.30s/it] 13%|█▎        | 10411/78504 [6:20:13<23:12:10,  1.23s/it]                                                          {'loss': 0.2021, 'grad_norm': 1.7487733364105225, 'learning_rate': 2.8915544987473993e-05, 'epoch': 3.18}
 13%|█▎        | 10411/78504 [6:20:13<23:12:10,  1.23s/it] 13%|█▎        | 10412/78504 [6:20:14<21:29:57,  1.14s/it]                                                          {'loss': 0.2526, 'grad_norm': 2.011556386947632, 'learning_rate': 2.8915120377054055e-05, 'epoch': 3.18}
 13%|█▎        | 10412/78504 [6:20:14<21:29:57,  1.14s/it] 13%|█▎        | 10413/78504 [6:20:14<19:28:00,  1.03s/it]                                                          {'loss': 0.278, 'grad_norm': 0.940179169178009, 'learning_rate': 2.8914695766634114e-05, 'epoch': 3.18}
 13%|█▎        | 10413/78504 [6:20:14<19:28:00,  1.03s/it] 13%|█▎        | 10414/78504 [6:20:21<52:49:08,  2.79s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.45186689496040344, 'learning_rate': 2.8914271156214173e-05, 'epoch': 3.18}
 13%|█▎        | 10414/78504 [6:20:21<52:49:08,  2.79s/it] 13%|█▎        | 10415/78504 [6:20:24<54:39:12,  2.89s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.3452359437942505, 'learning_rate': 2.8913846545794235e-05, 'epoch': 3.18}
 13%|█▎        | 10415/78504 [6:20:24<54:39:12,  2.89s/it] 13%|█▎        | 10416/78504 [6:20:27<55:10:40,  2.92s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.3351374566555023, 'learning_rate': 2.8913421935374293e-05, 'epoch': 3.18}
 13%|█▎        | 10416/78504 [6:20:27<55:10:40,  2.92s/it] 13%|█▎        | 10417/78504 [6:20:30<53:26:00,  2.83s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.3940337002277374, 'learning_rate': 2.8912997324954355e-05, 'epoch': 3.18}
 13%|█▎        | 10417/78504 [6:20:30<53:26:00,  2.83s/it] 13%|█▎        | 10418/78504 [6:20:32<51:24:07,  2.72s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.3181935250759125, 'learning_rate': 2.8912572714534414e-05, 'epoch': 3.18}
 13%|█▎        | 10418/78504 [6:20:32<51:24:07,  2.72s/it] 13%|█▎        | 10419/78504 [6:20:35<48:49:34,  2.58s/it]                                                          {'loss': 0.063, 'grad_norm': 0.3074764907360077, 'learning_rate': 2.8912148104114476e-05, 'epoch': 3.19}
 13%|█▎        | 10419/78504 [6:20:35<48:49:34,  2.58s/it] 13%|█▎        | 10420/78504 [6:20:37<47:22:01,  2.50s/it]                                                          {'loss': 0.0473, 'grad_norm': 0.1907963901758194, 'learning_rate': 2.8911723493694535e-05, 'epoch': 3.19}
 13%|█▎        | 10420/78504 [6:20:37<47:22:01,  2.50s/it] 13%|█▎        | 10421/78504 [6:20:39<45:08:14,  2.39s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.2486201822757721, 'learning_rate': 2.8911298883274597e-05, 'epoch': 3.19}
 13%|█▎        | 10421/78504 [6:20:39<45:08:14,  2.39s/it] 13%|█▎        | 10422/78504 [6:20:41<43:57:14,  2.32s/it]                                                          {'loss': 0.07, 'grad_norm': 0.2709200978279114, 'learning_rate': 2.8910874272854656e-05, 'epoch': 3.19}
 13%|█▎        | 10422/78504 [6:20:41<43:57:14,  2.32s/it] 13%|█▎        | 10423/78504 [6:20:43<42:54:53,  2.27s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.46359696984291077, 'learning_rate': 2.8910449662434718e-05, 'epoch': 3.19}
 13%|█▎        | 10423/78504 [6:20:43<42:54:53,  2.27s/it] 13%|█▎        | 10424/78504 [6:20:45<41:33:00,  2.20s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.2988613247871399, 'learning_rate': 2.8910025052014776e-05, 'epoch': 3.19}
 13%|█▎        | 10424/78504 [6:20:45<41:33:00,  2.20s/it] 13%|█▎        | 10425/78504 [6:20:47<40:17:07,  2.13s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.3177892565727234, 'learning_rate': 2.890960044159484e-05, 'epoch': 3.19}
 13%|█▎        | 10425/78504 [6:20:47<40:17:07,  2.13s/it] 13%|█▎        | 10426/78504 [6:20:49<38:47:57,  2.05s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.3639858365058899, 'learning_rate': 2.8909175831174897e-05, 'epoch': 3.19}
 13%|█▎        | 10426/78504 [6:20:49<38:47:57,  2.05s/it] 13%|█▎        | 10427/78504 [6:20:51<37:37:13,  1.99s/it]                                                          {'loss': 0.1258, 'grad_norm': 0.635928213596344, 'learning_rate': 2.8908751220754956e-05, 'epoch': 3.19}
 13%|█▎        | 10427/78504 [6:20:51<37:37:13,  1.99s/it] 13%|█▎        | 10428/78504 [6:20:53<36:08:27,  1.91s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.36352095007896423, 'learning_rate': 2.8908326610335018e-05, 'epoch': 3.19}
 13%|█▎        | 10428/78504 [6:20:53<36:08:27,  1.91s/it] 13%|█▎        | 10429/78504 [6:20:55<34:38:01,  1.83s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.472891241312027, 'learning_rate': 2.8907901999915077e-05, 'epoch': 3.19}
 13%|█▎        | 10429/78504 [6:20:55<34:38:01,  1.83s/it] 13%|█▎        | 10430/78504 [6:20:56<33:02:24,  1.75s/it]                                                          {'loss': 0.1456, 'grad_norm': 0.5582836270332336, 'learning_rate': 2.890747738949514e-05, 'epoch': 3.19}
 13%|█▎        | 10430/78504 [6:20:56<33:02:24,  1.75s/it] 13%|█▎        | 10431/78504 [6:20:57<31:10:53,  1.65s/it]                                                          {'loss': 0.1676, 'grad_norm': 0.9827665686607361, 'learning_rate': 2.8907052779075198e-05, 'epoch': 3.19}
 13%|█▎        | 10431/78504 [6:20:58<31:10:53,  1.65s/it] 13%|█▎        | 10432/78504 [6:20:59<29:50:02,  1.58s/it]                                                          {'loss': 0.1689, 'grad_norm': 1.1098436117172241, 'learning_rate': 2.890662816865526e-05, 'epoch': 3.19}
 13%|█▎        | 10432/78504 [6:20:59<29:50:02,  1.58s/it] 13%|█▎        | 10433/78504 [6:21:00<27:54:40,  1.48s/it]                                                          {'loss': 0.1806, 'grad_norm': 0.7669288516044617, 'learning_rate': 2.890620355823532e-05, 'epoch': 3.19}
 13%|█▎        | 10433/78504 [6:21:00<27:54:40,  1.48s/it] 13%|█▎        | 10434/78504 [6:21:01<25:55:32,  1.37s/it]                                                          {'loss': 0.2033, 'grad_norm': 0.6207071542739868, 'learning_rate': 2.890577894781538e-05, 'epoch': 3.19}
 13%|█▎        | 10434/78504 [6:21:01<25:55:32,  1.37s/it] 13%|█▎        | 10435/78504 [6:21:02<24:19:45,  1.29s/it]                                                          {'loss': 0.1997, 'grad_norm': 0.8880026936531067, 'learning_rate': 2.890535433739544e-05, 'epoch': 3.19}
 13%|█▎        | 10435/78504 [6:21:02<24:19:45,  1.29s/it] 13%|█▎        | 10436/78504 [6:21:03<22:37:02,  1.20s/it]                                                          {'loss': 0.213, 'grad_norm': 0.6784281730651855, 'learning_rate': 2.89049297269755e-05, 'epoch': 3.19}
 13%|█▎        | 10436/78504 [6:21:03<22:37:02,  1.20s/it] 13%|█▎        | 10437/78504 [6:21:04<21:09:25,  1.12s/it]                                                          {'loss': 0.189, 'grad_norm': 0.9664744734764099, 'learning_rate': 2.890450511655556e-05, 'epoch': 3.19}
 13%|█▎        | 10437/78504 [6:21:04<21:09:25,  1.12s/it] 13%|█▎        | 10438/78504 [6:21:05<19:22:47,  1.03s/it]                                                          {'loss': 0.2362, 'grad_norm': 1.1475801467895508, 'learning_rate': 2.8904080506135622e-05, 'epoch': 3.19}
 13%|█▎        | 10438/78504 [6:21:05<19:22:47,  1.03s/it] 13%|█▎        | 10439/78504 [6:21:14<65:28:38,  3.46s/it]                                                          {'loss': 0.1466, 'grad_norm': 1.0642118453979492, 'learning_rate': 2.890365589571568e-05, 'epoch': 3.19}
 13%|█▎        | 10439/78504 [6:21:14<65:28:38,  3.46s/it] 13%|█▎        | 10440/78504 [6:21:17<62:19:45,  3.30s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.3936113715171814, 'learning_rate': 2.890323128529574e-05, 'epoch': 3.19}
 13%|█▎        | 10440/78504 [6:21:17<62:19:45,  3.30s/it] 13%|█▎        | 10441/78504 [6:21:20<60:10:30,  3.18s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.1616409868001938, 'learning_rate': 2.89028066748758e-05, 'epoch': 3.19}
 13%|█▎        | 10441/78504 [6:21:20<60:10:30,  3.18s/it] 13%|█▎        | 10442/78504 [6:21:23<56:46:13,  3.00s/it]                                                          {'loss': 0.0718, 'grad_norm': 0.6516021490097046, 'learning_rate': 2.890238206445586e-05, 'epoch': 3.19}
 13%|█▎        | 10442/78504 [6:21:23<56:46:13,  3.00s/it] 13%|█▎        | 10443/78504 [6:21:25<53:45:53,  2.84s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.3273179233074188, 'learning_rate': 2.8901957454035922e-05, 'epoch': 3.19}
 13%|█▎        | 10443/78504 [6:21:25<53:45:53,  2.84s/it] 13%|█▎        | 10444/78504 [6:21:27<50:30:21,  2.67s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.25446441769599915, 'learning_rate': 2.890153284361598e-05, 'epoch': 3.19}
 13%|█▎        | 10444/78504 [6:21:27<50:30:21,  2.67s/it] 13%|█▎        | 10445/78504 [6:21:30<48:29:43,  2.57s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.2964603900909424, 'learning_rate': 2.8901108233196043e-05, 'epoch': 3.19}
 13%|█▎        | 10445/78504 [6:21:30<48:29:43,  2.57s/it] 13%|█▎        | 10446/78504 [6:21:32<45:49:06,  2.42s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.7051530480384827, 'learning_rate': 2.8900683622776102e-05, 'epoch': 3.19}
 13%|█▎        | 10446/78504 [6:21:32<45:49:06,  2.42s/it] 13%|█▎        | 10447/78504 [6:21:34<43:35:44,  2.31s/it]                                                          {'loss': 0.0883, 'grad_norm': 0.490668922662735, 'learning_rate': 2.8900259012356164e-05, 'epoch': 3.19}
 13%|█▎        | 10447/78504 [6:21:34<43:35:44,  2.31s/it] 13%|█▎        | 10448/78504 [6:21:36<43:44:35,  2.31s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.2496608942747116, 'learning_rate': 2.8899834401936223e-05, 'epoch': 3.19}
 13%|█▎        | 10448/78504 [6:21:36<43:44:35,  2.31s/it] 13%|█▎        | 10449/78504 [6:21:38<42:05:19,  2.23s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.2783708870410919, 'learning_rate': 2.8899409791516285e-05, 'epoch': 3.19}
 13%|█▎        | 10449/78504 [6:21:38<42:05:19,  2.23s/it] 13%|█▎        | 10450/78504 [6:21:40<40:42:16,  2.15s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.5877504348754883, 'learning_rate': 2.8898985181096343e-05, 'epoch': 3.19}
 13%|█▎        | 10450/78504 [6:21:40<40:42:16,  2.15s/it] 13%|█▎        | 10451/78504 [6:21:42<39:01:42,  2.06s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.37703952193260193, 'learning_rate': 2.8898560570676405e-05, 'epoch': 3.2}
 13%|█▎        | 10451/78504 [6:21:42<39:01:42,  2.06s/it] 13%|█▎        | 10452/78504 [6:21:44<37:46:37,  2.00s/it]                                                          {'loss': 0.129, 'grad_norm': 0.37443143129348755, 'learning_rate': 2.8898135960256464e-05, 'epoch': 3.2}
 13%|█▎        | 10452/78504 [6:21:44<37:46:37,  2.00s/it] 13%|█▎        | 10453/78504 [6:21:46<36:18:49,  1.92s/it]                                                          {'loss': 0.1356, 'grad_norm': 2.275608539581299, 'learning_rate': 2.8897711349836523e-05, 'epoch': 3.2}
 13%|█▎        | 10453/78504 [6:21:46<36:18:49,  1.92s/it] 13%|█▎        | 10454/78504 [6:21:47<34:44:59,  1.84s/it]                                                          {'loss': 0.1569, 'grad_norm': 0.6629512310028076, 'learning_rate': 2.8897286739416585e-05, 'epoch': 3.2}
 13%|█▎        | 10454/78504 [6:21:47<34:44:59,  1.84s/it] 13%|█▎        | 10455/78504 [6:21:49<33:04:58,  1.75s/it]                                                          {'loss': 0.1634, 'grad_norm': 0.6007782816886902, 'learning_rate': 2.8896862128996644e-05, 'epoch': 3.2}
 13%|█▎        | 10455/78504 [6:21:49<33:04:58,  1.75s/it] 13%|█▎        | 10456/78504 [6:21:50<31:30:43,  1.67s/it]                                                          {'loss': 0.1569, 'grad_norm': 0.5642523765563965, 'learning_rate': 2.8896437518576706e-05, 'epoch': 3.2}
 13%|█▎        | 10456/78504 [6:21:50<31:30:43,  1.67s/it] 13%|█▎        | 10457/78504 [6:21:52<30:04:21,  1.59s/it]                                                          {'loss': 0.1684, 'grad_norm': 0.9696415662765503, 'learning_rate': 2.8896012908156764e-05, 'epoch': 3.2}
 13%|█▎        | 10457/78504 [6:21:52<30:04:21,  1.59s/it] 13%|█▎        | 10458/78504 [6:21:53<28:19:41,  1.50s/it]                                                          {'loss': 0.1618, 'grad_norm': 0.912240743637085, 'learning_rate': 2.8895588297736827e-05, 'epoch': 3.2}
 13%|█▎        | 10458/78504 [6:21:53<28:19:41,  1.50s/it] 13%|█▎        | 10459/78504 [6:21:54<26:23:56,  1.40s/it]                                                          {'loss': 0.1891, 'grad_norm': 1.2138128280639648, 'learning_rate': 2.8895163687316885e-05, 'epoch': 3.2}
 13%|█▎        | 10459/78504 [6:21:54<26:23:56,  1.40s/it] 13%|█▎        | 10460/78504 [6:21:55<24:47:16,  1.31s/it]                                                          {'loss': 0.221, 'grad_norm': 1.0734429359436035, 'learning_rate': 2.8894739076896947e-05, 'epoch': 3.2}
 13%|█▎        | 10460/78504 [6:21:55<24:47:16,  1.31s/it] 13%|█▎        | 10461/78504 [6:21:56<23:20:53,  1.24s/it]                                                          {'loss': 0.2086, 'grad_norm': 0.6671456098556519, 'learning_rate': 2.8894314466477006e-05, 'epoch': 3.2}
 13%|█▎        | 10461/78504 [6:21:56<23:20:53,  1.24s/it] 13%|█▎        | 10462/78504 [6:21:57<21:37:49,  1.14s/it]                                                          {'loss': 0.2151, 'grad_norm': 1.5091363191604614, 'learning_rate': 2.8893889856057068e-05, 'epoch': 3.2}
 13%|█▎        | 10462/78504 [6:21:57<21:37:49,  1.14s/it] 13%|█▎        | 10463/78504 [6:21:58<19:32:48,  1.03s/it]                                                          {'loss': 0.2207, 'grad_norm': 1.1134912967681885, 'learning_rate': 2.8893465245637127e-05, 'epoch': 3.2}
 13%|█▎        | 10463/78504 [6:21:58<19:32:48,  1.03s/it] 13%|█▎        | 10464/78504 [6:22:06<60:54:36,  3.22s/it]                                                          {'loss': 0.1708, 'grad_norm': 0.4297177791595459, 'learning_rate': 2.889304063521719e-05, 'epoch': 3.2}
 13%|█▎        | 10464/78504 [6:22:06<60:54:36,  3.22s/it] 13%|█▎        | 10465/78504 [6:22:10<61:39:20,  3.26s/it]                                                          {'loss': 0.084, 'grad_norm': 0.30579692125320435, 'learning_rate': 2.889261602479725e-05, 'epoch': 3.2}
 13%|█▎        | 10465/78504 [6:22:10<61:39:20,  3.26s/it] 13%|█▎        | 10466/78504 [6:22:13<60:16:40,  3.19s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.1835135966539383, 'learning_rate': 2.889219141437731e-05, 'epoch': 3.2}
 13%|█▎        | 10466/78504 [6:22:13<60:16:40,  3.19s/it] 13%|█▎        | 10467/78504 [6:22:15<57:00:24,  3.02s/it]                                                          {'loss': 0.068, 'grad_norm': 0.38419240713119507, 'learning_rate': 2.8891766803957372e-05, 'epoch': 3.2}
 13%|█▎        | 10467/78504 [6:22:15<57:00:24,  3.02s/it] 13%|█▎        | 10468/78504 [6:22:18<53:55:29,  2.85s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.2361433207988739, 'learning_rate': 2.889134219353743e-05, 'epoch': 3.2}
 13%|█▎        | 10468/78504 [6:22:18<53:55:29,  2.85s/it] 13%|█▎        | 10469/78504 [6:22:20<50:35:35,  2.68s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.16327723860740662, 'learning_rate': 2.8890917583117493e-05, 'epoch': 3.2}
 13%|█▎        | 10469/78504 [6:22:20<50:35:35,  2.68s/it] 13%|█▎        | 10470/78504 [6:22:22<48:33:09,  2.57s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.23947305977344513, 'learning_rate': 2.889049297269755e-05, 'epoch': 3.2}
 13%|█▎        | 10470/78504 [6:22:22<48:33:09,  2.57s/it] 13%|█▎        | 10471/78504 [6:22:24<45:56:50,  2.43s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.43292081356048584, 'learning_rate': 2.8890068362277613e-05, 'epoch': 3.2}
 13%|█▎        | 10471/78504 [6:22:25<45:56:50,  2.43s/it] 13%|█▎        | 10472/78504 [6:22:27<44:31:16,  2.36s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.35495826601982117, 'learning_rate': 2.8889643751857672e-05, 'epoch': 3.2}
 13%|█▎        | 10472/78504 [6:22:27<44:31:16,  2.36s/it] 13%|█▎        | 10473/78504 [6:22:29<43:19:48,  2.29s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.22964023053646088, 'learning_rate': 2.8889219141437734e-05, 'epoch': 3.2}
 13%|█▎        | 10473/78504 [6:22:29<43:19:48,  2.29s/it] 13%|█▎        | 10474/78504 [6:22:31<41:49:07,  2.21s/it]                                                          {'loss': 0.1033, 'grad_norm': 0.29759687185287476, 'learning_rate': 2.8888794531017793e-05, 'epoch': 3.2}
 13%|█▎        | 10474/78504 [6:22:31<41:49:07,  2.21s/it] 13%|█▎        | 10475/78504 [6:22:33<40:26:46,  2.14s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.45244723558425903, 'learning_rate': 2.8888369920597855e-05, 'epoch': 3.2}
 13%|█▎        | 10475/78504 [6:22:33<40:26:46,  2.14s/it] 13%|█▎        | 10476/78504 [6:22:35<38:54:58,  2.06s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.776054322719574, 'learning_rate': 2.8887945310177914e-05, 'epoch': 3.2}
 13%|█▎        | 10476/78504 [6:22:35<38:54:58,  2.06s/it] 13%|█▎        | 10477/78504 [6:22:37<37:37:56,  1.99s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.4086386561393738, 'learning_rate': 2.8887520699757976e-05, 'epoch': 3.2}
 13%|█▎        | 10477/78504 [6:22:37<37:37:56,  1.99s/it] 13%|█▎        | 10478/78504 [6:22:38<36:07:56,  1.91s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.3771533668041229, 'learning_rate': 2.8887096089338034e-05, 'epoch': 3.2}
 13%|█▎        | 10478/78504 [6:22:38<36:07:56,  1.91s/it] 13%|█▎        | 10479/78504 [6:22:40<34:37:54,  1.83s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.5628329515457153, 'learning_rate': 2.8886671478918093e-05, 'epoch': 3.2}
 13%|█▎        | 10479/78504 [6:22:40<34:37:54,  1.83s/it] 13%|█▎        | 10480/78504 [6:22:41<32:52:03,  1.74s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.6276693940162659, 'learning_rate': 2.8886246868498155e-05, 'epoch': 3.2}
 13%|█▎        | 10480/78504 [6:22:42<32:52:03,  1.74s/it] 13%|█▎        | 10481/78504 [6:22:43<31:50:24,  1.69s/it]                                                          {'loss': 0.1597, 'grad_norm': 0.4830339252948761, 'learning_rate': 2.8885822258078214e-05, 'epoch': 3.2}
 13%|█▎        | 10481/78504 [6:22:43<31:50:24,  1.69s/it] 13%|█▎        | 10482/78504 [6:22:44<30:18:49,  1.60s/it]                                                          {'loss': 0.1951, 'grad_norm': 0.8605450987815857, 'learning_rate': 2.8885397647658276e-05, 'epoch': 3.2}
 13%|█▎        | 10482/78504 [6:22:44<30:18:49,  1.60s/it] 13%|█▎        | 10483/78504 [6:22:46<28:12:41,  1.49s/it]                                                          {'loss': 0.213, 'grad_norm': 1.2452090978622437, 'learning_rate': 2.8884973037238335e-05, 'epoch': 3.2}
 13%|█▎        | 10483/78504 [6:22:46<28:12:41,  1.49s/it] 13%|█▎        | 10484/78504 [6:22:47<26:16:39,  1.39s/it]                                                          {'loss': 0.2271, 'grad_norm': 0.8625948429107666, 'learning_rate': 2.8884548426818397e-05, 'epoch': 3.21}
 13%|█▎        | 10484/78504 [6:22:47<26:16:39,  1.39s/it] 13%|█▎        | 10485/78504 [6:22:48<24:34:43,  1.30s/it]                                                          {'loss': 0.17, 'grad_norm': 1.3434405326843262, 'learning_rate': 2.8884123816398455e-05, 'epoch': 3.21}
 13%|█▎        | 10485/78504 [6:22:48<24:34:43,  1.30s/it] 13%|█▎        | 10486/78504 [6:22:49<23:09:46,  1.23s/it]                                                          {'loss': 0.2204, 'grad_norm': 0.6889351606369019, 'learning_rate': 2.8883699205978518e-05, 'epoch': 3.21}
 13%|█▎        | 10486/78504 [6:22:49<23:09:46,  1.23s/it] 13%|█▎        | 10487/78504 [6:22:50<21:28:50,  1.14s/it]                                                          {'loss': 0.1901, 'grad_norm': 1.5690975189208984, 'learning_rate': 2.8883274595558576e-05, 'epoch': 3.21}
 13%|█▎        | 10487/78504 [6:22:50<21:28:50,  1.14s/it] 13%|█▎        | 10488/78504 [6:22:51<19:19:18,  1.02s/it]                                                          {'loss': 0.2688, 'grad_norm': 1.207532286643982, 'learning_rate': 2.888284998513864e-05, 'epoch': 3.21}
 13%|█▎        | 10488/78504 [6:22:51<19:19:18,  1.02s/it] 13%|█▎        | 10489/78504 [6:22:58<56:08:14,  2.97s/it]                                                          {'loss': 0.1862, 'grad_norm': 0.3346012830734253, 'learning_rate': 2.8882425374718697e-05, 'epoch': 3.21}
 13%|█▎        | 10489/78504 [6:22:58<56:08:14,  2.97s/it] 13%|█▎        | 10490/78504 [6:23:01<57:02:04,  3.02s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.265266478061676, 'learning_rate': 2.888200076429876e-05, 'epoch': 3.21}
 13%|█▎        | 10490/78504 [6:23:01<57:02:04,  3.02s/it] 13%|█▎        | 10491/78504 [6:23:04<57:01:09,  3.02s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.3270065188407898, 'learning_rate': 2.8881576153878818e-05, 'epoch': 3.21}
 13%|█▎        | 10491/78504 [6:23:04<57:01:09,  3.02s/it] 13%|█▎        | 10492/78504 [6:23:07<54:43:57,  2.90s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.2365746647119522, 'learning_rate': 2.8881151543458877e-05, 'epoch': 3.21}
 13%|█▎        | 10492/78504 [6:23:07<54:43:57,  2.90s/it] 13%|█▎        | 10493/78504 [6:23:09<52:17:01,  2.77s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.730700671672821, 'learning_rate': 2.888072693303894e-05, 'epoch': 3.21}
 13%|█▎        | 10493/78504 [6:23:09<52:17:01,  2.77s/it] 13%|█▎        | 10494/78504 [6:23:12<50:22:08,  2.67s/it]                                                          {'loss': 0.0456, 'grad_norm': 0.2832150459289551, 'learning_rate': 2.8880302322618997e-05, 'epoch': 3.21}
 13%|█▎        | 10494/78504 [6:23:12<50:22:08,  2.67s/it] 13%|█▎        | 10495/78504 [6:23:14<48:23:29,  2.56s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.5017862915992737, 'learning_rate': 2.887987771219906e-05, 'epoch': 3.21}
 13%|█▎        | 10495/78504 [6:23:14<48:23:29,  2.56s/it] 13%|█▎        | 10496/78504 [6:23:16<45:48:50,  2.43s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.2933886647224426, 'learning_rate': 2.8879453101779118e-05, 'epoch': 3.21}
 13%|█▎        | 10496/78504 [6:23:16<45:48:50,  2.43s/it] 13%|█▎        | 10497/78504 [6:23:18<44:30:33,  2.36s/it]                                                          {'loss': 0.086, 'grad_norm': 0.39577987790107727, 'learning_rate': 2.887902849135918e-05, 'epoch': 3.21}
 13%|█▎        | 10497/78504 [6:23:18<44:30:33,  2.36s/it] 13%|█▎        | 10498/78504 [6:23:21<43:25:46,  2.30s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.3237619400024414, 'learning_rate': 2.887860388093924e-05, 'epoch': 3.21}
 13%|█▎        | 10498/78504 [6:23:21<43:25:46,  2.30s/it] 13%|█▎        | 10499/78504 [6:23:22<40:56:03,  2.17s/it]                                                          {'loss': 0.0839, 'grad_norm': 3.906724691390991, 'learning_rate': 2.88781792705193e-05, 'epoch': 3.21}
 13%|█▎        | 10499/78504 [6:23:22<40:56:03,  2.17s/it] 13%|█▎        | 10500/78504 [6:23:24<39:55:41,  2.11s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.5090740919113159, 'learning_rate': 2.887775466009936e-05, 'epoch': 3.21}
 13%|█▎        | 10500/78504 [6:23:24<39:55:41,  2.11s/it] 13%|█▎        | 10501/78504 [6:23:26<38:36:00,  2.04s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.9490135908126831, 'learning_rate': 2.8877330049679422e-05, 'epoch': 3.21}
 13%|█▎        | 10501/78504 [6:23:26<38:36:00,  2.04s/it] 13%|█▎        | 10502/78504 [6:23:28<37:36:01,  1.99s/it]                                                          {'loss': 0.1156, 'grad_norm': 0.325226753950119, 'learning_rate': 2.887690543925948e-05, 'epoch': 3.21}
 13%|█▎        | 10502/78504 [6:23:28<37:36:01,  1.99s/it] 13%|█▎        | 10503/78504 [6:23:30<36:20:27,  1.92s/it]                                                          {'loss': 0.1068, 'grad_norm': 0.3100927174091339, 'learning_rate': 2.8876480828839543e-05, 'epoch': 3.21}
 13%|█▎        | 10503/78504 [6:23:30<36:20:27,  1.92s/it] 13%|█▎        | 10504/78504 [6:23:32<34:46:22,  1.84s/it]                                                          {'loss': 0.1699, 'grad_norm': 0.4618784487247467, 'learning_rate': 2.88760562184196e-05, 'epoch': 3.21}
 13%|█▎        | 10504/78504 [6:23:32<34:46:22,  1.84s/it] 13%|█▎        | 10505/78504 [6:23:33<33:04:59,  1.75s/it]                                                          {'loss': 0.1663, 'grad_norm': 0.9104285836219788, 'learning_rate': 2.887563160799966e-05, 'epoch': 3.21}
 13%|█▎        | 10505/78504 [6:23:33<33:04:59,  1.75s/it] 13%|█▎        | 10506/78504 [6:23:35<31:29:06,  1.67s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.7820422649383545, 'learning_rate': 2.8875206997579722e-05, 'epoch': 3.21}
 13%|█▎        | 10506/78504 [6:23:35<31:29:06,  1.67s/it] 13%|█▎        | 10507/78504 [6:23:36<29:57:22,  1.59s/it]                                                          {'loss': 0.1787, 'grad_norm': 1.349163293838501, 'learning_rate': 2.887478238715978e-05, 'epoch': 3.21}
 13%|█▎        | 10507/78504 [6:23:36<29:57:22,  1.59s/it] 13%|█▎        | 10508/78504 [6:23:37<28:14:00,  1.49s/it]                                                          {'loss': 0.1898, 'grad_norm': 1.0367317199707031, 'learning_rate': 2.8874357776739843e-05, 'epoch': 3.21}
 13%|█▎        | 10508/78504 [6:23:37<28:14:00,  1.49s/it] 13%|█▎        | 10509/78504 [6:23:38<26:16:30,  1.39s/it]                                                          {'loss': 0.1544, 'grad_norm': 0.8935732841491699, 'learning_rate': 2.88739331663199e-05, 'epoch': 3.21}
 13%|█▎        | 10509/78504 [6:23:38<26:16:30,  1.39s/it] 13%|█▎        | 10510/78504 [6:23:40<24:37:28,  1.30s/it]                                                          {'loss': 0.1827, 'grad_norm': 0.5975874066352844, 'learning_rate': 2.8873508555899964e-05, 'epoch': 3.21}
 13%|█▎        | 10510/78504 [6:23:40<24:37:28,  1.30s/it] 13%|█▎        | 10511/78504 [6:23:41<23:09:51,  1.23s/it]                                                          {'loss': 0.3157, 'grad_norm': 3.2081265449523926, 'learning_rate': 2.8873083945480022e-05, 'epoch': 3.21}
 13%|█▎        | 10511/78504 [6:23:41<23:09:51,  1.23s/it] 13%|█▎        | 10512/78504 [6:23:41<21:29:48,  1.14s/it]                                                          {'loss': 0.1924, 'grad_norm': 0.8635193705558777, 'learning_rate': 2.8872659335060084e-05, 'epoch': 3.21}
 13%|█▎        | 10512/78504 [6:23:42<21:29:48,  1.14s/it] 13%|█▎        | 10513/78504 [6:23:42<19:25:58,  1.03s/it]                                                          {'loss': 0.2539, 'grad_norm': 1.4656599760055542, 'learning_rate': 2.8872234724640143e-05, 'epoch': 3.21}
 13%|█▎        | 10513/78504 [6:23:42<19:25:58,  1.03s/it] 13%|█▎        | 10514/78504 [6:23:52<67:34:48,  3.58s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.5244922637939453, 'learning_rate': 2.8871810114220205e-05, 'epoch': 3.21}
 13%|█▎        | 10514/78504 [6:23:52<67:34:48,  3.58s/it] 13%|█▎        | 10515/78504 [6:23:55<63:41:31,  3.37s/it]                                                          {'loss': 0.1047, 'grad_norm': 0.3010903298854828, 'learning_rate': 2.8871385503800264e-05, 'epoch': 3.21}
 13%|█▎        | 10515/78504 [6:23:55<63:41:31,  3.37s/it] 13%|█▎        | 10516/78504 [6:23:57<60:19:31,  3.19s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.17653028666973114, 'learning_rate': 2.8870960893380323e-05, 'epoch': 3.21}
 13%|█▎        | 10516/78504 [6:23:57<60:19:31,  3.19s/it] 13%|█▎        | 10517/78504 [6:24:00<57:01:21,  3.02s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.20219215750694275, 'learning_rate': 2.8870536282960385e-05, 'epoch': 3.22}
 13%|█▎        | 10517/78504 [6:24:00<57:01:21,  3.02s/it] 13%|█▎        | 10518/78504 [6:24:03<53:54:00,  2.85s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.31432196497917175, 'learning_rate': 2.8870111672540443e-05, 'epoch': 3.22}
 13%|█▎        | 10518/78504 [6:24:03<53:54:00,  2.85s/it] 13%|█▎        | 10519/78504 [6:24:05<50:30:54,  2.67s/it]                                                          {'loss': 0.0384, 'grad_norm': 0.19383615255355835, 'learning_rate': 2.8869687062120505e-05, 'epoch': 3.22}
 13%|█▎        | 10519/78504 [6:24:05<50:30:54,  2.67s/it] 13%|█▎        | 10520/78504 [6:24:07<48:27:57,  2.57s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.2937846779823303, 'learning_rate': 2.8869262451700564e-05, 'epoch': 3.22}
 13%|█▎        | 10520/78504 [6:24:07<48:27:57,  2.57s/it] 13%|█▎        | 10521/78504 [6:24:09<45:52:37,  2.43s/it]                                                          {'loss': 0.0769, 'grad_norm': 0.26363709568977356, 'learning_rate': 2.8868837841280626e-05, 'epoch': 3.22}
 13%|█▎        | 10521/78504 [6:24:09<45:52:37,  2.43s/it] 13%|█▎        | 10522/78504 [6:24:11<44:27:28,  2.35s/it]                                                          {'loss': 0.094, 'grad_norm': 0.27902868390083313, 'learning_rate': 2.8868413230860685e-05, 'epoch': 3.22}
 13%|█▎        | 10522/78504 [6:24:11<44:27:28,  2.35s/it] 13%|█▎        | 10523/78504 [6:24:14<43:23:30,  2.30s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.3403518795967102, 'learning_rate': 2.8867988620440747e-05, 'epoch': 3.22}
 13%|█▎        | 10523/78504 [6:24:14<43:23:30,  2.30s/it] 13%|█▎        | 10524/78504 [6:24:15<40:52:46,  2.16s/it]                                                          {'loss': 0.105, 'grad_norm': 0.2806042730808258, 'learning_rate': 2.8867564010020806e-05, 'epoch': 3.22}
 13%|█▎        | 10524/78504 [6:24:15<40:52:46,  2.16s/it] 13%|█▎        | 10525/78504 [6:24:17<39:50:54,  2.11s/it]                                                          {'loss': 0.104, 'grad_norm': 0.4355252981185913, 'learning_rate': 2.8867139399600868e-05, 'epoch': 3.22}
 13%|█▎        | 10525/78504 [6:24:17<39:50:54,  2.11s/it] 13%|█▎        | 10526/78504 [6:24:19<38:33:59,  2.04s/it]                                                          {'loss': 0.103, 'grad_norm': 0.5004198551177979, 'learning_rate': 2.8866714789180927e-05, 'epoch': 3.22}
 13%|█▎        | 10526/78504 [6:24:19<38:33:59,  2.04s/it] 13%|█▎        | 10527/78504 [6:24:21<37:33:12,  1.99s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.4165099263191223, 'learning_rate': 2.886629017876099e-05, 'epoch': 3.22}
 13%|█▎        | 10527/78504 [6:24:21<37:33:12,  1.99s/it] 13%|█▎        | 10528/78504 [6:24:23<36:15:14,  1.92s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.6774531006813049, 'learning_rate': 2.8865865568341047e-05, 'epoch': 3.22}
 13%|█▎        | 10528/78504 [6:24:23<36:15:14,  1.92s/it] 13%|█▎        | 10529/78504 [6:24:25<34:45:46,  1.84s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.6157504916191101, 'learning_rate': 2.8865440957921106e-05, 'epoch': 3.22}
 13%|█▎        | 10529/78504 [6:24:25<34:45:46,  1.84s/it] 13%|█▎        | 10530/78504 [6:24:26<33:02:39,  1.75s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.5181717872619629, 'learning_rate': 2.8865016347501168e-05, 'epoch': 3.22}
 13%|█▎        | 10530/78504 [6:24:26<33:02:39,  1.75s/it] 13%|█▎        | 10531/78504 [6:24:28<31:24:33,  1.66s/it]                                                          {'loss': 0.1842, 'grad_norm': 0.7362261414527893, 'learning_rate': 2.8864591737081227e-05, 'epoch': 3.22}
 13%|█▎        | 10531/78504 [6:24:28<31:24:33,  1.66s/it] 13%|█▎        | 10532/78504 [6:24:29<30:01:48,  1.59s/it]                                                          {'loss': 0.2243, 'grad_norm': 0.6333439946174622, 'learning_rate': 2.886416712666129e-05, 'epoch': 3.22}
 13%|█▎        | 10532/78504 [6:24:29<30:01:48,  1.59s/it] 13%|█▎        | 10533/78504 [6:24:30<28:17:29,  1.50s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.8444836735725403, 'learning_rate': 2.8863742516241348e-05, 'epoch': 3.22}
 13%|█▎        | 10533/78504 [6:24:30<28:17:29,  1.50s/it] 13%|█▎        | 10534/78504 [6:24:31<26:18:55,  1.39s/it]                                                          {'loss': 0.1942, 'grad_norm': 0.9363928437232971, 'learning_rate': 2.886331790582141e-05, 'epoch': 3.22}
 13%|█▎        | 10534/78504 [6:24:31<26:18:55,  1.39s/it] 13%|█▎        | 10535/78504 [6:24:33<24:36:52,  1.30s/it]                                                          {'loss': 0.2318, 'grad_norm': 0.8696133494377136, 'learning_rate': 2.886289329540147e-05, 'epoch': 3.22}
 13%|█▎        | 10535/78504 [6:24:33<24:36:52,  1.30s/it] 13%|█▎        | 10536/78504 [6:24:34<23:12:54,  1.23s/it]                                                          {'loss': 0.2105, 'grad_norm': 1.2795121669769287, 'learning_rate': 2.886246868498153e-05, 'epoch': 3.22}
 13%|█▎        | 10536/78504 [6:24:34<23:12:54,  1.23s/it] 13%|█▎        | 10537/78504 [6:24:35<21:28:56,  1.14s/it]                                                          {'loss': 0.1801, 'grad_norm': 0.6588760018348694, 'learning_rate': 2.886204407456159e-05, 'epoch': 3.22}
 13%|█▎        | 10537/78504 [6:24:35<21:28:56,  1.14s/it] 13%|█▎        | 10538/78504 [6:24:35<19:28:20,  1.03s/it]                                                          {'loss': 0.2525, 'grad_norm': 1.087823510169983, 'learning_rate': 2.886161946414165e-05, 'epoch': 3.22}
 13%|█▎        | 10538/78504 [6:24:35<19:28:20,  1.03s/it] 13%|█▎        | 10539/78504 [6:24:44<61:24:53,  3.25s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.31320691108703613, 'learning_rate': 2.886119485372171e-05, 'epoch': 3.22}
 13%|█▎        | 10539/78504 [6:24:44<61:24:53,  3.25s/it] 13%|█▎        | 10540/78504 [6:24:47<60:44:32,  3.22s/it]                                                          {'loss': 0.079, 'grad_norm': 0.2404547780752182, 'learning_rate': 2.8860770243301772e-05, 'epoch': 3.22}
 13%|█▎        | 10540/78504 [6:24:47<60:44:32,  3.22s/it] 13%|█▎        | 10541/78504 [6:24:49<57:02:30,  3.02s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.2688133418560028, 'learning_rate': 2.886034563288183e-05, 'epoch': 3.22}
 13%|█▎        | 10541/78504 [6:24:49<57:02:30,  3.02s/it] 13%|█▎        | 10542/78504 [6:24:52<54:44:04,  2.90s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.17369739711284637, 'learning_rate': 2.885992102246189e-05, 'epoch': 3.22}
 13%|█▎        | 10542/78504 [6:24:52<54:44:04,  2.90s/it] 13%|█▎        | 10543/78504 [6:24:54<51:37:05,  2.73s/it]                                                          {'loss': 0.0497, 'grad_norm': 1.0433924198150635, 'learning_rate': 2.885949641204195e-05, 'epoch': 3.22}
 13%|█▎        | 10543/78504 [6:24:54<51:37:05,  2.73s/it] 13%|█▎        | 10544/78504 [6:24:57<48:57:05,  2.59s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.2458207756280899, 'learning_rate': 2.885907180162201e-05, 'epoch': 3.22}
 13%|█▎        | 10544/78504 [6:24:57<48:57:05,  2.59s/it] 13%|█▎        | 10545/78504 [6:24:59<47:26:15,  2.51s/it]                                                          {'loss': 0.0499, 'grad_norm': 3.3590919971466064, 'learning_rate': 2.8858647191202072e-05, 'epoch': 3.22}
 13%|█▎        | 10545/78504 [6:24:59<47:26:15,  2.51s/it] 13%|█▎        | 10546/78504 [6:25:01<45:01:01,  2.38s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.4284380376338959, 'learning_rate': 2.885822258078213e-05, 'epoch': 3.22}
 13%|█▎        | 10546/78504 [6:25:01<45:01:01,  2.38s/it] 13%|█▎        | 10547/78504 [6:25:03<43:54:37,  2.33s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.876947820186615, 'learning_rate': 2.8857797970362193e-05, 'epoch': 3.22}
 13%|█▎        | 10547/78504 [6:25:03<43:54:37,  2.33s/it] 13%|█▎        | 10548/78504 [6:25:05<42:51:19,  2.27s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.3458676040172577, 'learning_rate': 2.8857373359942252e-05, 'epoch': 3.22}
 13%|█▎        | 10548/78504 [6:25:05<42:51:19,  2.27s/it] 13%|█▎        | 10549/78504 [6:25:07<41:27:07,  2.20s/it]                                                          {'loss': 0.1024, 'grad_norm': 0.6172247529029846, 'learning_rate': 2.8856948749522314e-05, 'epoch': 3.23}
 13%|█▎        | 10549/78504 [6:25:07<41:27:07,  2.20s/it] 13%|█▎        | 10550/78504 [6:25:09<40:14:33,  2.13s/it]                                                          {'loss': 0.092, 'grad_norm': 1.2004575729370117, 'learning_rate': 2.8856524139102373e-05, 'epoch': 3.23}
 13%|█▎        | 10550/78504 [6:25:09<40:14:33,  2.13s/it] 13%|█▎        | 10551/78504 [6:25:11<38:41:26,  2.05s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.2850377857685089, 'learning_rate': 2.8856099528682435e-05, 'epoch': 3.23}
 13%|█▎        | 10551/78504 [6:25:11<38:41:26,  2.05s/it] 13%|█▎        | 10552/78504 [6:25:13<37:29:25,  1.99s/it]                                                          {'loss': 0.1601, 'grad_norm': 0.5246469974517822, 'learning_rate': 2.8855674918262493e-05, 'epoch': 3.23}
 13%|█▎        | 10552/78504 [6:25:13<37:29:25,  1.99s/it] 13%|█▎        | 10553/78504 [6:25:15<36:18:08,  1.92s/it]                                                          {'loss': 0.152, 'grad_norm': 0.3577025532722473, 'learning_rate': 2.8855250307842555e-05, 'epoch': 3.23}
 13%|█▎        | 10553/78504 [6:25:15<36:18:08,  1.92s/it] 13%|█▎        | 10554/78504 [6:25:17<34:41:39,  1.84s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.6962556838989258, 'learning_rate': 2.8854825697422614e-05, 'epoch': 3.23}
 13%|█▎        | 10554/78504 [6:25:17<34:41:39,  1.84s/it] 13%|█▎        | 10555/78504 [6:25:18<32:51:35,  1.74s/it]                                                          {'loss': 0.1737, 'grad_norm': 0.5429767966270447, 'learning_rate': 2.8854401087002673e-05, 'epoch': 3.23}
 13%|█▎        | 10555/78504 [6:25:18<32:51:35,  1.74s/it] 13%|█▎        | 10556/78504 [6:25:20<31:22:52,  1.66s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.6646235585212708, 'learning_rate': 2.8853976476582735e-05, 'epoch': 3.23}
 13%|█▎        | 10556/78504 [6:25:20<31:22:52,  1.66s/it] 13%|█▎        | 10557/78504 [6:25:21<30:00:08,  1.59s/it]                                                          {'loss': 0.1917, 'grad_norm': 0.6350944638252258, 'learning_rate': 2.8853551866162794e-05, 'epoch': 3.23}
 13%|█▎        | 10557/78504 [6:25:21<30:00:08,  1.59s/it] 13%|█▎        | 10558/78504 [6:25:22<28:14:54,  1.50s/it]                                                          {'loss': 0.1652, 'grad_norm': 0.4968664348125458, 'learning_rate': 2.8853127255742856e-05, 'epoch': 3.23}
 13%|█▎        | 10558/78504 [6:25:22<28:14:54,  1.50s/it] 13%|█▎        | 10559/78504 [6:25:23<26:16:40,  1.39s/it]                                                          {'loss': 0.1761, 'grad_norm': 0.965681791305542, 'learning_rate': 2.8852702645322914e-05, 'epoch': 3.23}
 13%|█▎        | 10559/78504 [6:25:23<26:16:40,  1.39s/it] 13%|█▎        | 10560/78504 [6:25:24<24:37:53,  1.31s/it]                                                          {'loss': 0.1777, 'grad_norm': 0.5754183530807495, 'learning_rate': 2.8852278034902977e-05, 'epoch': 3.23}
 13%|█▎        | 10560/78504 [6:25:24<24:37:53,  1.31s/it] 13%|█▎        | 10561/78504 [6:25:25<22:51:59,  1.21s/it]                                                          {'loss': 0.1695, 'grad_norm': 0.8060497641563416, 'learning_rate': 2.8851853424483035e-05, 'epoch': 3.23}
 13%|█▎        | 10561/78504 [6:25:25<22:51:59,  1.21s/it] 13%|█▎        | 10562/78504 [6:25:26<21:16:38,  1.13s/it]                                                          {'loss': 0.2127, 'grad_norm': 1.2986674308776855, 'learning_rate': 2.8851428814063097e-05, 'epoch': 3.23}
 13%|█▎        | 10562/78504 [6:25:26<21:16:38,  1.13s/it] 13%|█▎        | 10563/78504 [6:25:27<19:16:11,  1.02s/it]                                                          {'loss': 0.2655, 'grad_norm': 1.3918981552124023, 'learning_rate': 2.8851004203643156e-05, 'epoch': 3.23}
 13%|█▎        | 10563/78504 [6:25:27<19:16:11,  1.02s/it] 13%|█▎        | 10564/78504 [6:25:36<61:03:57,  3.24s/it]                                                          {'loss': 0.171, 'grad_norm': 0.3538292944431305, 'learning_rate': 2.8850579593223218e-05, 'epoch': 3.23}
 13%|█▎        | 10564/78504 [6:25:36<61:03:57,  3.24s/it] 13%|█▎        | 10565/78504 [6:25:39<61:44:25,  3.27s/it]                                                          {'loss': 0.1037, 'grad_norm': 0.32746621966362, 'learning_rate': 2.8850154982803277e-05, 'epoch': 3.23}
 13%|█▎        | 10565/78504 [6:25:39<61:44:25,  3.27s/it] 13%|█▎        | 10566/78504 [6:25:42<59:45:44,  3.17s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.22989407181739807, 'learning_rate': 2.884973037238334e-05, 'epoch': 3.23}
 13%|█▎        | 10566/78504 [6:25:42<59:45:44,  3.17s/it] 13%|█▎        | 10567/78504 [6:25:44<56:25:04,  2.99s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.6170952916145325, 'learning_rate': 2.88493057619634e-05, 'epoch': 3.23}
 13%|█▎        | 10567/78504 [6:25:44<56:25:04,  2.99s/it] 13%|█▎        | 10568/78504 [6:25:47<53:30:16,  2.84s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.21069766581058502, 'learning_rate': 2.884888115154346e-05, 'epoch': 3.23}
 13%|█▎        | 10568/78504 [6:25:47<53:30:16,  2.84s/it] 13%|█▎        | 10569/78504 [6:25:49<50:15:06,  2.66s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.3830619752407074, 'learning_rate': 2.8848456541123522e-05, 'epoch': 3.23}
 13%|█▎        | 10569/78504 [6:25:49<50:15:06,  2.66s/it] 13%|█▎        | 10570/78504 [6:25:51<48:17:11,  2.56s/it]                                                          {'loss': 0.0596, 'grad_norm': 1.032784342765808, 'learning_rate': 2.884803193070358e-05, 'epoch': 3.23}
 13%|█▎        | 10570/78504 [6:25:51<48:17:11,  2.56s/it] 13%|█▎        | 10571/78504 [6:25:54<46:36:21,  2.47s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.5984843373298645, 'learning_rate': 2.8847607320283643e-05, 'epoch': 3.23}
 13%|█▎        | 10571/78504 [6:25:54<46:36:21,  2.47s/it] 13%|█▎        | 10572/78504 [6:25:56<44:59:32,  2.38s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.3863191306591034, 'learning_rate': 2.88471827098637e-05, 'epoch': 3.23}
 13%|█▎        | 10572/78504 [6:25:56<44:59:32,  2.38s/it] 13%|█▎        | 10573/78504 [6:25:58<43:46:26,  2.32s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.26459136605262756, 'learning_rate': 2.8846758099443763e-05, 'epoch': 3.23}
 13%|█▎        | 10573/78504 [6:25:58<43:46:26,  2.32s/it] 13%|█▎        | 10574/78504 [6:26:00<41:08:28,  2.18s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.21648091077804565, 'learning_rate': 2.8846333489023822e-05, 'epoch': 3.23}
 13%|█▎        | 10574/78504 [6:26:00<41:08:28,  2.18s/it] 13%|█▎        | 10575/78504 [6:26:02<40:01:19,  2.12s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.5180677771568298, 'learning_rate': 2.8845908878603884e-05, 'epoch': 3.23}
 13%|█▎        | 10575/78504 [6:26:02<40:01:19,  2.12s/it] 13%|█▎        | 10576/78504 [6:26:04<38:44:06,  2.05s/it]                                                          {'loss': 0.105, 'grad_norm': 0.2746424078941345, 'learning_rate': 2.8845484268183943e-05, 'epoch': 3.23}
 13%|█▎        | 10576/78504 [6:26:04<38:44:06,  2.05s/it] 13%|█▎        | 10577/78504 [6:26:06<37:46:34,  2.00s/it]                                                          {'loss': 0.091, 'grad_norm': 0.42433252930641174, 'learning_rate': 2.8845059657764005e-05, 'epoch': 3.23}
 13%|█▎        | 10577/78504 [6:26:06<37:46:34,  2.00s/it] 13%|█▎        | 10578/78504 [6:26:07<36:25:54,  1.93s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.38742348551750183, 'learning_rate': 2.8844635047344064e-05, 'epoch': 3.23}
 13%|█▎        | 10578/78504 [6:26:07<36:25:54,  1.93s/it] 13%|█▎        | 10579/78504 [6:26:09<34:28:20,  1.83s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.49261441826820374, 'learning_rate': 2.8844210436924126e-05, 'epoch': 3.23}
 13%|█▎        | 10579/78504 [6:26:09<34:28:20,  1.83s/it] 13%|█▎        | 10580/78504 [6:26:11<32:51:26,  1.74s/it]                                                          {'loss': 0.1362, 'grad_norm': 1.2088640928268433, 'learning_rate': 2.8843785826504184e-05, 'epoch': 3.23}
 13%|█▎        | 10580/78504 [6:26:11<32:51:26,  1.74s/it] 13%|█▎        | 10581/78504 [6:26:12<31:15:56,  1.66s/it]                                                          {'loss': 0.226, 'grad_norm': 0.795027494430542, 'learning_rate': 2.8843361216084243e-05, 'epoch': 3.23}
 13%|█▎        | 10581/78504 [6:26:12<31:15:56,  1.66s/it] 13%|█▎        | 10582/78504 [6:26:13<29:43:23,  1.58s/it]                                                          {'loss': 0.1719, 'grad_norm': 1.8557071685791016, 'learning_rate': 2.8842936605664305e-05, 'epoch': 3.24}
 13%|█▎        | 10582/78504 [6:26:13<29:43:23,  1.58s/it] 13%|█▎        | 10583/78504 [6:26:15<28:05:32,  1.49s/it]                                                          {'loss': 0.1915, 'grad_norm': 0.7851055860519409, 'learning_rate': 2.8842511995244364e-05, 'epoch': 3.24}
 13%|█▎        | 10583/78504 [6:26:15<28:05:32,  1.49s/it] 13%|█▎        | 10584/78504 [6:26:16<26:04:27,  1.38s/it]                                                          {'loss': 0.2069, 'grad_norm': 1.3364362716674805, 'learning_rate': 2.8842087384824426e-05, 'epoch': 3.24}
 13%|█▎        | 10584/78504 [6:26:16<26:04:27,  1.38s/it] 13%|█▎        | 10585/78504 [6:26:17<24:30:41,  1.30s/it]                                                          {'loss': 0.1829, 'grad_norm': 1.414033055305481, 'learning_rate': 2.8841662774404485e-05, 'epoch': 3.24}
 13%|█▎        | 10585/78504 [6:26:17<24:30:41,  1.30s/it] 13%|█▎        | 10586/78504 [6:26:18<22:41:35,  1.20s/it]                                                          {'loss': 0.191, 'grad_norm': 1.2417123317718506, 'learning_rate': 2.8841238163984547e-05, 'epoch': 3.24}
 13%|█▎        | 10586/78504 [6:26:18<22:41:35,  1.20s/it] 13%|█▎        | 10587/78504 [6:26:19<21:11:07,  1.12s/it]                                                          {'loss': 0.2172, 'grad_norm': 1.0209914445877075, 'learning_rate': 2.8840813553564605e-05, 'epoch': 3.24}
 13%|█▎        | 10587/78504 [6:26:19<21:11:07,  1.12s/it] 13%|█▎        | 10588/78504 [6:26:20<19:16:13,  1.02s/it]                                                          {'loss': 0.2105, 'grad_norm': 2.0340640544891357, 'learning_rate': 2.8840388943144668e-05, 'epoch': 3.24}
 13%|█▎        | 10588/78504 [6:26:20<19:16:13,  1.02s/it] 13%|█▎        | 10589/78504 [6:26:29<64:23:09,  3.41s/it]                                                          {'loss': 0.1489, 'grad_norm': 0.3232780694961548, 'learning_rate': 2.8839964332724726e-05, 'epoch': 3.24}
 13%|█▎        | 10589/78504 [6:26:29<64:23:09,  3.41s/it] 13%|█▎        | 10590/78504 [6:26:32<64:04:46,  3.40s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.3749852180480957, 'learning_rate': 2.883953972230479e-05, 'epoch': 3.24}
 13%|█▎        | 10590/78504 [6:26:32<64:04:46,  3.40s/it] 13%|█▎        | 10591/78504 [6:26:35<61:55:01,  3.28s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.3401715159416199, 'learning_rate': 2.8839115111884847e-05, 'epoch': 3.24}
 13%|█▎        | 10591/78504 [6:26:35<61:55:01,  3.28s/it] 13%|█▎        | 10592/78504 [6:26:38<58:09:12,  3.08s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.26285645365715027, 'learning_rate': 2.883869050146491e-05, 'epoch': 3.24}
 13%|█▎        | 10592/78504 [6:26:38<58:09:12,  3.08s/it] 13%|█▎        | 10593/78504 [6:26:40<54:39:14,  2.90s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.3813059329986572, 'learning_rate': 2.8838265891044968e-05, 'epoch': 3.24}
 13%|█▎        | 10593/78504 [6:26:40<54:39:14,  2.90s/it] 13%|█▎        | 10594/78504 [6:26:42<51:07:17,  2.71s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.3047633171081543, 'learning_rate': 2.8837841280625027e-05, 'epoch': 3.24}
 13%|█▎        | 10594/78504 [6:26:42<51:07:17,  2.71s/it] 13%|█▎        | 10595/78504 [6:26:45<48:52:36,  2.59s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.26845523715019226, 'learning_rate': 2.883741667020509e-05, 'epoch': 3.24}
 13%|█▎        | 10595/78504 [6:26:45<48:52:36,  2.59s/it] 13%|█▎        | 10596/78504 [6:26:47<46:11:01,  2.45s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.22751019895076752, 'learning_rate': 2.8836992059785147e-05, 'epoch': 3.24}
 13%|█▎        | 10596/78504 [6:26:47<46:11:01,  2.45s/it] 13%|█▎        | 10597/78504 [6:26:49<44:41:46,  2.37s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.3508749008178711, 'learning_rate': 2.883656744936521e-05, 'epoch': 3.24}
 13%|█▎        | 10597/78504 [6:26:49<44:41:46,  2.37s/it] 13%|█▎        | 10598/78504 [6:26:51<43:23:45,  2.30s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.33490097522735596, 'learning_rate': 2.8836142838945268e-05, 'epoch': 3.24}
 13%|█▎        | 10598/78504 [6:26:51<43:23:45,  2.30s/it] 14%|█▎        | 10599/78504 [6:26:53<41:51:09,  2.22s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.4641721844673157, 'learning_rate': 2.883571822852533e-05, 'epoch': 3.24}
 14%|█▎        | 10599/78504 [6:26:53<41:51:09,  2.22s/it] 14%|█▎        | 10600/78504 [6:26:55<40:30:08,  2.15s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.34391018748283386, 'learning_rate': 2.883529361810539e-05, 'epoch': 3.24}
 14%|█▎        | 10600/78504 [6:26:55<40:30:08,  2.15s/it] 14%|█▎        | 10601/78504 [6:26:57<38:54:51,  2.06s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.6434691548347473, 'learning_rate': 2.883486900768545e-05, 'epoch': 3.24}
 14%|█▎        | 10601/78504 [6:26:57<38:54:51,  2.06s/it] 14%|█▎        | 10602/78504 [6:26:59<37:40:12,  2.00s/it]                                                          {'loss': 0.1381, 'grad_norm': 0.38857799768447876, 'learning_rate': 2.883444439726551e-05, 'epoch': 3.24}
 14%|█▎        | 10602/78504 [6:26:59<37:40:12,  2.00s/it] 14%|█▎        | 10603/78504 [6:27:01<36:20:11,  1.93s/it]                                                          {'loss': 0.117, 'grad_norm': 0.37987077236175537, 'learning_rate': 2.8834019786845572e-05, 'epoch': 3.24}
 14%|█▎        | 10603/78504 [6:27:01<36:20:11,  1.93s/it] 14%|█▎        | 10604/78504 [6:27:02<34:22:52,  1.82s/it]                                                          {'loss': 0.1614, 'grad_norm': 1.1203927993774414, 'learning_rate': 2.883359517642563e-05, 'epoch': 3.24}
 14%|█▎        | 10604/78504 [6:27:02<34:22:52,  1.82s/it] 14%|█▎        | 10605/78504 [6:27:04<32:49:14,  1.74s/it]                                                          {'loss': 0.16, 'grad_norm': 0.5886783599853516, 'learning_rate': 2.8833170566005693e-05, 'epoch': 3.24}
 14%|█▎        | 10605/78504 [6:27:04<32:49:14,  1.74s/it] 14%|█▎        | 10606/78504 [6:27:05<31:32:21,  1.67s/it]                                                          {'loss': 0.2065, 'grad_norm': 0.865328848361969, 'learning_rate': 2.883274595558575e-05, 'epoch': 3.24}
 14%|█▎        | 10606/78504 [6:27:05<31:32:21,  1.67s/it] 14%|█▎        | 10607/78504 [6:27:07<29:56:08,  1.59s/it]                                                          {'loss': 0.2018, 'grad_norm': 0.5364003777503967, 'learning_rate': 2.883232134516581e-05, 'epoch': 3.24}
 14%|█▎        | 10607/78504 [6:27:07<29:56:08,  1.59s/it] 14%|█▎        | 10608/78504 [6:27:08<28:11:55,  1.50s/it]                                                          {'loss': 0.162, 'grad_norm': 0.662782609462738, 'learning_rate': 2.8831896734745872e-05, 'epoch': 3.24}
 14%|█▎        | 10608/78504 [6:27:08<28:11:55,  1.50s/it] 14%|█▎        | 10609/78504 [6:27:09<26:14:54,  1.39s/it]                                                          {'loss': 0.211, 'grad_norm': 0.9395014047622681, 'learning_rate': 2.883147212432593e-05, 'epoch': 3.24}
 14%|█▎        | 10609/78504 [6:27:09<26:14:54,  1.39s/it] 14%|█▎        | 10610/78504 [6:27:10<24:29:40,  1.30s/it]                                                          {'loss': 0.2034, 'grad_norm': 0.8677689433097839, 'learning_rate': 2.8831047513905993e-05, 'epoch': 3.24}
 14%|█▎        | 10610/78504 [6:27:10<24:29:40,  1.30s/it] 14%|█▎        | 10611/78504 [6:27:11<23:03:14,  1.22s/it]                                                          {'loss': 0.2023, 'grad_norm': 1.3243541717529297, 'learning_rate': 2.883062290348605e-05, 'epoch': 3.24}
 14%|█▎        | 10611/78504 [6:27:11<23:03:14,  1.22s/it] 14%|█▎        | 10612/78504 [6:27:12<21:20:00,  1.13s/it]                                                          {'loss': 0.2322, 'grad_norm': 0.844549834728241, 'learning_rate': 2.8830198293066114e-05, 'epoch': 3.24}
 14%|█▎        | 10612/78504 [6:27:12<21:20:00,  1.13s/it] 14%|█▎        | 10613/78504 [6:27:13<19:30:41,  1.03s/it]                                                          {'loss': 0.2368, 'grad_norm': 1.7006962299346924, 'learning_rate': 2.8829773682646172e-05, 'epoch': 3.24}
 14%|█▎        | 10613/78504 [6:27:13<19:30:41,  1.03s/it] 14%|█▎        | 10614/78504 [6:27:20<55:17:28,  2.93s/it]                                                          {'loss': 0.1441, 'grad_norm': 0.3696390390396118, 'learning_rate': 2.8829349072226234e-05, 'epoch': 3.24}
 14%|█▎        | 10614/78504 [6:27:20<55:17:28,  2.93s/it] 14%|█▎        | 10615/78504 [6:27:23<56:25:57,  2.99s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.2191426008939743, 'learning_rate': 2.8828924461806293e-05, 'epoch': 3.25}
 14%|█▎        | 10615/78504 [6:27:23<56:25:57,  2.99s/it] 14%|█▎        | 10616/78504 [6:27:26<54:03:56,  2.87s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.24405750632286072, 'learning_rate': 2.8828499851386355e-05, 'epoch': 3.25}
 14%|█▎        | 10616/78504 [6:27:26<54:03:56,  2.87s/it] 14%|█▎        | 10617/78504 [6:27:28<51:32:41,  2.73s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.2000950276851654, 'learning_rate': 2.8828075240966414e-05, 'epoch': 3.25}
 14%|█▎        | 10617/78504 [6:27:28<51:32:41,  2.73s/it] 14%|█▎        | 10618/78504 [6:27:31<50:05:29,  2.66s/it]                                                          {'loss': 0.042, 'grad_norm': 0.45259755849838257, 'learning_rate': 2.8827650630546476e-05, 'epoch': 3.25}
 14%|█▎        | 10618/78504 [6:27:31<50:05:29,  2.66s/it] 14%|█▎        | 10619/78504 [6:27:33<47:52:46,  2.54s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.352444052696228, 'learning_rate': 2.8827226020126535e-05, 'epoch': 3.25}
 14%|█▎        | 10619/78504 [6:27:33<47:52:46,  2.54s/it] 14%|█▎        | 10620/78504 [6:27:35<46:39:55,  2.47s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.3878990113735199, 'learning_rate': 2.8826801409706593e-05, 'epoch': 3.25}
 14%|█▎        | 10620/78504 [6:27:35<46:39:55,  2.47s/it] 14%|█▎        | 10621/78504 [6:27:38<44:29:22,  2.36s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.3835465908050537, 'learning_rate': 2.8826376799286655e-05, 'epoch': 3.25}
 14%|█▎        | 10621/78504 [6:27:38<44:29:22,  2.36s/it] 14%|█▎        | 10622/78504 [6:27:40<42:35:19,  2.26s/it]                                                          {'loss': 0.0764, 'grad_norm': 0.6886758208274841, 'learning_rate': 2.8825952188866714e-05, 'epoch': 3.25}
 14%|█▎        | 10622/78504 [6:27:40<42:35:19,  2.26s/it] 14%|█▎        | 10623/78504 [6:27:42<41:53:48,  2.22s/it]                                                          {'loss': 0.0808, 'grad_norm': 0.31115177273750305, 'learning_rate': 2.8825527578446776e-05, 'epoch': 3.25}
 14%|█▎        | 10623/78504 [6:27:42<41:53:48,  2.22s/it] 14%|█▎        | 10624/78504 [6:27:44<40:35:06,  2.15s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.27329227328300476, 'learning_rate': 2.8825102968026835e-05, 'epoch': 3.25}
 14%|█▎        | 10624/78504 [6:27:44<40:35:06,  2.15s/it] 14%|█▎        | 10625/78504 [6:27:46<39:35:45,  2.10s/it]                                                          {'loss': 0.092, 'grad_norm': 0.3351220488548279, 'learning_rate': 2.8824678357606897e-05, 'epoch': 3.25}
 14%|█▎        | 10625/78504 [6:27:46<39:35:45,  2.10s/it] 14%|█▎        | 10626/78504 [6:27:48<38:15:24,  2.03s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.4506594240665436, 'learning_rate': 2.8824253747186956e-05, 'epoch': 3.25}
 14%|█▎        | 10626/78504 [6:27:48<38:15:24,  2.03s/it] 14%|█▎        | 10627/78504 [6:27:49<37:12:48,  1.97s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.45526260137557983, 'learning_rate': 2.8823829136767018e-05, 'epoch': 3.25}
 14%|█▎        | 10627/78504 [6:27:49<37:12:48,  1.97s/it] 14%|█▎        | 10628/78504 [6:27:51<35:48:14,  1.90s/it]                                                          {'loss': 0.173, 'grad_norm': 0.570706844329834, 'learning_rate': 2.8823404526347077e-05, 'epoch': 3.25}
 14%|█▎        | 10628/78504 [6:27:51<35:48:14,  1.90s/it] 14%|█▎        | 10629/78504 [6:27:53<34:25:45,  1.83s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.32429951429367065, 'learning_rate': 2.882297991592714e-05, 'epoch': 3.25}
 14%|█▎        | 10629/78504 [6:27:53<34:25:45,  1.83s/it] 14%|█▎        | 10630/78504 [6:27:54<32:49:34,  1.74s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.9133560061454773, 'learning_rate': 2.8822555305507197e-05, 'epoch': 3.25}
 14%|█▎        | 10630/78504 [6:27:54<32:49:34,  1.74s/it] 14%|█▎        | 10631/78504 [6:27:56<31:16:31,  1.66s/it]                                                          {'loss': 0.1693, 'grad_norm': 0.7829674482345581, 'learning_rate': 2.8822130695087256e-05, 'epoch': 3.25}
 14%|█▎        | 10631/78504 [6:27:56<31:16:31,  1.66s/it] 14%|█▎        | 10632/78504 [6:27:57<29:50:19,  1.58s/it]                                                          {'loss': 0.1795, 'grad_norm': 0.5562377572059631, 'learning_rate': 2.8821706084667318e-05, 'epoch': 3.25}
 14%|█▎        | 10632/78504 [6:27:57<29:50:19,  1.58s/it] 14%|█▎        | 10633/78504 [6:27:58<28:12:10,  1.50s/it]                                                          {'loss': 0.1909, 'grad_norm': 1.1683475971221924, 'learning_rate': 2.8821281474247377e-05, 'epoch': 3.25}
 14%|█▎        | 10633/78504 [6:27:59<28:12:10,  1.50s/it] 14%|█▎        | 10634/78504 [6:28:00<26:18:05,  1.40s/it]                                                          {'loss': 0.1794, 'grad_norm': 0.6457872986793518, 'learning_rate': 2.882085686382744e-05, 'epoch': 3.25}
 14%|█▎        | 10634/78504 [6:28:00<26:18:05,  1.40s/it] 14%|█▎        | 10635/78504 [6:28:01<24:36:03,  1.30s/it]                                                          {'loss': 0.2174, 'grad_norm': 1.2373071908950806, 'learning_rate': 2.8820432253407498e-05, 'epoch': 3.25}
 14%|█▎        | 10635/78504 [6:28:01<24:36:03,  1.30s/it] 14%|█▎        | 10636/78504 [6:28:02<23:07:46,  1.23s/it]                                                          {'loss': 0.2057, 'grad_norm': 0.8832749128341675, 'learning_rate': 2.882000764298756e-05, 'epoch': 3.25}
 14%|█▎        | 10636/78504 [6:28:02<23:07:46,  1.23s/it] 14%|█▎        | 10637/78504 [6:28:03<21:30:47,  1.14s/it]                                                          {'loss': 0.2146, 'grad_norm': 1.7998733520507812, 'learning_rate': 2.881958303256762e-05, 'epoch': 3.25}
 14%|█▎        | 10637/78504 [6:28:03<21:30:47,  1.14s/it] 14%|█▎        | 10638/78504 [6:28:04<19:30:11,  1.03s/it]                                                          {'loss': 0.3205, 'grad_norm': 1.196232557296753, 'learning_rate': 2.881915842214768e-05, 'epoch': 3.25}
 14%|█▎        | 10638/78504 [6:28:04<19:30:11,  1.03s/it] 14%|█▎        | 10639/78504 [6:28:11<55:19:22,  2.93s/it]                                                          {'loss': 0.1645, 'grad_norm': 0.3697861433029175, 'learning_rate': 2.881873381172774e-05, 'epoch': 3.25}
 14%|█▎        | 10639/78504 [6:28:11<55:19:22,  2.93s/it] 14%|█▎        | 10640/78504 [6:28:14<56:06:50,  2.98s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.24572545289993286, 'learning_rate': 2.88183092013078e-05, 'epoch': 3.25}
 14%|█▎        | 10640/78504 [6:28:14<56:06:50,  2.98s/it] 14%|█▎        | 10641/78504 [6:28:17<53:48:46,  2.85s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.2672721743583679, 'learning_rate': 2.881788459088786e-05, 'epoch': 3.25}
 14%|█▎        | 10641/78504 [6:28:17<53:48:46,  2.85s/it] 14%|█▎        | 10642/78504 [6:28:19<52:26:59,  2.78s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.24402928352355957, 'learning_rate': 2.8817459980467922e-05, 'epoch': 3.25}
 14%|█▎        | 10642/78504 [6:28:19<52:26:59,  2.78s/it] 14%|█▎        | 10643/78504 [6:28:22<50:41:40,  2.69s/it]                                                          {'loss': 0.0418, 'grad_norm': 0.2168385088443756, 'learning_rate': 2.881703537004798e-05, 'epoch': 3.25}
 14%|█▎        | 10643/78504 [6:28:22<50:41:40,  2.69s/it] 14%|█▎        | 10644/78504 [6:28:24<48:16:47,  2.56s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.3791157603263855, 'learning_rate': 2.881661075962804e-05, 'epoch': 3.25}
 14%|█▎        | 10644/78504 [6:28:24<48:16:47,  2.56s/it] 14%|█▎        | 10645/78504 [6:28:26<46:58:59,  2.49s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.27287837862968445, 'learning_rate': 2.88161861492081e-05, 'epoch': 3.25}
 14%|█▎        | 10645/78504 [6:28:26<46:58:59,  2.49s/it] 14%|█▎        | 10646/78504 [6:28:28<44:42:54,  2.37s/it]                                                          {'loss': 0.0764, 'grad_norm': 0.31663569808006287, 'learning_rate': 2.881576153878816e-05, 'epoch': 3.25}
 14%|█▎        | 10646/78504 [6:28:28<44:42:54,  2.37s/it] 14%|█▎        | 10647/78504 [6:28:30<43:38:53,  2.32s/it]                                                          {'loss': 0.091, 'grad_norm': 0.41135355830192566, 'learning_rate': 2.8815336928368222e-05, 'epoch': 3.25}
 14%|█▎        | 10647/78504 [6:28:31<43:38:53,  2.32s/it] 14%|█▎        | 10648/78504 [6:28:33<42:41:53,  2.27s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.25356772541999817, 'learning_rate': 2.881491231794828e-05, 'epoch': 3.26}
 14%|█▎        | 10648/78504 [6:28:33<42:41:53,  2.27s/it] 14%|█▎        | 10649/78504 [6:28:35<41:21:07,  2.19s/it]                                                          {'loss': 0.099, 'grad_norm': 0.35714828968048096, 'learning_rate': 2.8814487707528343e-05, 'epoch': 3.26}
 14%|█▎        | 10649/78504 [6:28:35<41:21:07,  2.19s/it] 14%|█▎        | 10650/78504 [6:28:37<40:09:01,  2.13s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.31674861907958984, 'learning_rate': 2.8814063097108402e-05, 'epoch': 3.26}
 14%|█▎        | 10650/78504 [6:28:37<40:09:01,  2.13s/it] 14%|█▎        | 10651/78504 [6:28:39<38:47:47,  2.06s/it]                                                          {'loss': 0.1263, 'grad_norm': 0.3944692611694336, 'learning_rate': 2.8813638486688464e-05, 'epoch': 3.26}
 14%|█▎        | 10651/78504 [6:28:39<38:47:47,  2.06s/it] 14%|█▎        | 10652/78504 [6:28:40<37:43:02,  2.00s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.680392861366272, 'learning_rate': 2.8813213876268523e-05, 'epoch': 3.26}
 14%|█▎        | 10652/78504 [6:28:40<37:43:02,  2.00s/it] 14%|█▎        | 10653/78504 [6:28:42<36:22:13,  1.93s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.4755667448043823, 'learning_rate': 2.8812789265848585e-05, 'epoch': 3.26}
 14%|█▎        | 10653/78504 [6:28:42<36:22:13,  1.93s/it] 14%|█▎        | 10654/78504 [6:28:44<34:46:41,  1.85s/it]                                                          {'loss': 0.1674, 'grad_norm': 1.076014757156372, 'learning_rate': 2.8812364655428643e-05, 'epoch': 3.26}
 14%|█▎        | 10654/78504 [6:28:44<34:46:41,  1.85s/it] 14%|█▎        | 10655/78504 [6:28:45<33:02:51,  1.75s/it]                                                          {'loss': 0.1616, 'grad_norm': 0.6228817701339722, 'learning_rate': 2.8811940045008705e-05, 'epoch': 3.26}
 14%|█▎        | 10655/78504 [6:28:45<33:02:51,  1.75s/it] 14%|█▎        | 10656/78504 [6:28:47<31:24:07,  1.67s/it]                                                          {'loss': 0.2325, 'grad_norm': 0.5858290791511536, 'learning_rate': 2.8811515434588764e-05, 'epoch': 3.26}
 14%|█▎        | 10656/78504 [6:28:47<31:24:07,  1.67s/it] 14%|█▎        | 10657/78504 [6:28:48<29:57:09,  1.59s/it]                                                          {'loss': 0.1582, 'grad_norm': 0.5437281131744385, 'learning_rate': 2.8811090824168823e-05, 'epoch': 3.26}
 14%|█▎        | 10657/78504 [6:28:48<29:57:09,  1.59s/it] 14%|█▎        | 10658/78504 [6:28:50<28:13:57,  1.50s/it]                                                          {'loss': 0.18, 'grad_norm': 0.5313270688056946, 'learning_rate': 2.8810666213748885e-05, 'epoch': 3.26}
 14%|█▎        | 10658/78504 [6:28:50<28:13:57,  1.50s/it] 14%|█▎        | 10659/78504 [6:28:51<26:16:22,  1.39s/it]                                                          {'loss': 0.1815, 'grad_norm': 0.8504934310913086, 'learning_rate': 2.8810241603328944e-05, 'epoch': 3.26}
 14%|█▎        | 10659/78504 [6:28:51<26:16:22,  1.39s/it] 14%|█▎        | 10660/78504 [6:28:52<24:32:10,  1.30s/it]                                                          {'loss': 0.1614, 'grad_norm': 0.8175503015518188, 'learning_rate': 2.8809816992909006e-05, 'epoch': 3.26}
 14%|█▎        | 10660/78504 [6:28:52<24:32:10,  1.30s/it] 14%|█▎        | 10661/78504 [6:28:53<22:46:58,  1.21s/it]                                                          {'loss': 0.1994, 'grad_norm': 1.5359829664230347, 'learning_rate': 2.8809392382489064e-05, 'epoch': 3.26}
 14%|█▎        | 10661/78504 [6:28:53<22:46:58,  1.21s/it] 14%|█▎        | 10662/78504 [6:28:54<21:11:22,  1.12s/it]                                                          {'loss': 0.2316, 'grad_norm': 1.8059628009796143, 'learning_rate': 2.8808967772069127e-05, 'epoch': 3.26}
 14%|█▎        | 10662/78504 [6:28:54<21:11:22,  1.12s/it] 14%|█▎        | 10663/78504 [6:28:54<19:15:30,  1.02s/it]                                                          {'loss': 0.2494, 'grad_norm': 3.1630735397338867, 'learning_rate': 2.8808543161649185e-05, 'epoch': 3.26}
 14%|█▎        | 10663/78504 [6:28:54<19:15:30,  1.02s/it] 14%|█▎        | 10664/78504 [6:29:02<57:59:58,  3.08s/it]                                                          {'loss': 0.1858, 'grad_norm': 0.36769482493400574, 'learning_rate': 2.8808118551229247e-05, 'epoch': 3.26}
 14%|█▎        | 10664/78504 [6:29:02<57:59:58,  3.08s/it] 14%|█▎        | 10665/78504 [6:29:05<58:19:47,  3.10s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.29835453629493713, 'learning_rate': 2.8807693940809306e-05, 'epoch': 3.26}
 14%|█▎        | 10665/78504 [6:29:05<58:19:47,  3.10s/it] 14%|█▎        | 10666/78504 [6:29:08<57:52:03,  3.07s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.24888582527637482, 'learning_rate': 2.8807269330389368e-05, 'epoch': 3.26}
 14%|█▎        | 10666/78504 [6:29:08<57:52:03,  3.07s/it] 14%|█▎        | 10667/78504 [6:29:11<55:10:03,  2.93s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.343437522649765, 'learning_rate': 2.8806844719969427e-05, 'epoch': 3.26}
 14%|█▎        | 10667/78504 [6:29:11<55:10:03,  2.93s/it] 14%|█▎        | 10668/78504 [6:29:14<52:32:45,  2.79s/it]                                                          {'loss': 0.0513, 'grad_norm': 0.256984144449234, 'learning_rate': 2.880642010954949e-05, 'epoch': 3.26}
 14%|█▎        | 10668/78504 [6:29:14<52:32:45,  2.79s/it] 14%|█▎        | 10669/78504 [6:29:16<49:37:07,  2.63s/it]                                                          {'loss': 0.042, 'grad_norm': 0.23697586357593536, 'learning_rate': 2.880599549912955e-05, 'epoch': 3.26}
 14%|█▎        | 10669/78504 [6:29:16<49:37:07,  2.63s/it] 14%|█▎        | 10670/78504 [6:29:18<47:50:05,  2.54s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.23875004053115845, 'learning_rate': 2.880557088870961e-05, 'epoch': 3.26}
 14%|█▎        | 10670/78504 [6:29:18<47:50:05,  2.54s/it] 14%|█▎        | 10671/78504 [6:29:20<45:26:07,  2.41s/it]                                                          {'loss': 0.0544, 'grad_norm': 0.25510522723197937, 'learning_rate': 2.8805146278289672e-05, 'epoch': 3.26}
 14%|█▎        | 10671/78504 [6:29:20<45:26:07,  2.41s/it] 14%|█▎        | 10672/78504 [6:29:22<44:09:58,  2.34s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.5669688582420349, 'learning_rate': 2.880472166786973e-05, 'epoch': 3.26}
 14%|█▎        | 10672/78504 [6:29:22<44:09:58,  2.34s/it] 14%|█▎        | 10673/78504 [6:29:25<43:08:10,  2.29s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.40235692262649536, 'learning_rate': 2.8804297057449793e-05, 'epoch': 3.26}
 14%|█▎        | 10673/78504 [6:29:25<43:08:10,  2.29s/it] 14%|█▎        | 10674/78504 [6:29:27<41:39:25,  2.21s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.6165787577629089, 'learning_rate': 2.880387244702985e-05, 'epoch': 3.26}
 14%|█▎        | 10674/78504 [6:29:27<41:39:25,  2.21s/it] 14%|█▎        | 10675/78504 [6:29:29<40:22:00,  2.14s/it]                                                          {'loss': 0.105, 'grad_norm': 0.4380878210067749, 'learning_rate': 2.8803447836609913e-05, 'epoch': 3.26}
 14%|█▎        | 10675/78504 [6:29:29<40:22:00,  2.14s/it] 14%|█▎        | 10676/78504 [6:29:31<39:04:41,  2.07s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.31923383474349976, 'learning_rate': 2.8803023226189972e-05, 'epoch': 3.26}
 14%|█▎        | 10676/78504 [6:29:31<39:04:41,  2.07s/it] 14%|█▎        | 10677/78504 [6:29:32<37:53:57,  2.01s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.3893606960773468, 'learning_rate': 2.8802598615770034e-05, 'epoch': 3.26}
 14%|█▎        | 10677/78504 [6:29:32<37:53:57,  2.01s/it] 14%|█▎        | 10678/78504 [6:29:34<36:29:22,  1.94s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.37783151865005493, 'learning_rate': 2.8802174005350093e-05, 'epoch': 3.26}
 14%|█▎        | 10678/78504 [6:29:34<36:29:22,  1.94s/it] 14%|█▎        | 10679/78504 [6:29:36<34:52:22,  1.85s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.7017829418182373, 'learning_rate': 2.8801749394930155e-05, 'epoch': 3.26}
 14%|█▎        | 10679/78504 [6:29:36<34:52:22,  1.85s/it] 14%|█▎        | 10680/78504 [6:29:37<33:09:57,  1.76s/it]                                                          {'loss': 0.1539, 'grad_norm': 0.5038353204727173, 'learning_rate': 2.8801324784510214e-05, 'epoch': 3.27}
 14%|█▎        | 10680/78504 [6:29:37<33:09:57,  1.76s/it] 14%|█▎        | 10681/78504 [6:29:39<31:30:08,  1.67s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.44213229417800903, 'learning_rate': 2.8800900174090276e-05, 'epoch': 3.27}
 14%|█▎        | 10681/78504 [6:29:39<31:30:08,  1.67s/it] 14%|█▎        | 10682/78504 [6:29:40<29:58:47,  1.59s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.5116874575614929, 'learning_rate': 2.8800475563670334e-05, 'epoch': 3.27}
 14%|█▎        | 10682/78504 [6:29:40<29:58:47,  1.59s/it] 14%|█▎        | 10683/78504 [6:29:41<28:13:40,  1.50s/it]                                                          {'loss': 0.1678, 'grad_norm': 0.6302129030227661, 'learning_rate': 2.8800050953250393e-05, 'epoch': 3.27}
 14%|█▎        | 10683/78504 [6:29:42<28:13:40,  1.50s/it] 14%|█▎        | 10684/78504 [6:29:43<26:18:40,  1.40s/it]                                                          {'loss': 0.1718, 'grad_norm': 1.5101094245910645, 'learning_rate': 2.8799626342830455e-05, 'epoch': 3.27}
 14%|█▎        | 10684/78504 [6:29:43<26:18:40,  1.40s/it] 14%|█▎        | 10685/78504 [6:29:44<24:41:58,  1.31s/it]                                                          {'loss': 0.222, 'grad_norm': 0.8594716191291809, 'learning_rate': 2.8799201732410514e-05, 'epoch': 3.27}
 14%|█▎        | 10685/78504 [6:29:44<24:41:58,  1.31s/it] 14%|█▎        | 10686/78504 [6:29:45<22:55:39,  1.22s/it]                                                          {'loss': 0.2286, 'grad_norm': 1.0215739011764526, 'learning_rate': 2.8798777121990576e-05, 'epoch': 3.27}
 14%|█▎        | 10686/78504 [6:29:45<22:55:39,  1.22s/it] 14%|█▎        | 10687/78504 [6:29:46<21:19:19,  1.13s/it]                                                          {'loss': 0.2699, 'grad_norm': 2.967313766479492, 'learning_rate': 2.8798352511570635e-05, 'epoch': 3.27}
 14%|█▎        | 10687/78504 [6:29:46<21:19:19,  1.13s/it] 14%|█▎        | 10688/78504 [6:29:46<19:20:28,  1.03s/it]                                                          {'loss': 0.276, 'grad_norm': 3.1747796535491943, 'learning_rate': 2.8797927901150697e-05, 'epoch': 3.27}
 14%|█▎        | 10688/78504 [6:29:46<19:20:28,  1.03s/it] 14%|█▎        | 10689/78504 [6:29:55<61:10:59,  3.25s/it]                                                          {'loss': 0.1684, 'grad_norm': 0.3615938425064087, 'learning_rate': 2.8797503290730756e-05, 'epoch': 3.27}
 14%|█▎        | 10689/78504 [6:29:55<61:10:59,  3.25s/it] 14%|█▎        | 10690/78504 [6:29:58<61:47:11,  3.28s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.38801634311676025, 'learning_rate': 2.8797078680310818e-05, 'epoch': 3.27}
 14%|█▎        | 10690/78504 [6:29:58<61:47:11,  3.28s/it] 14%|█▎        | 10691/78504 [6:30:01<59:46:36,  3.17s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.2132461816072464, 'learning_rate': 2.8796654069890876e-05, 'epoch': 3.27}
 14%|█▎        | 10691/78504 [6:30:01<59:46:36,  3.17s/it] 14%|█▎        | 10692/78504 [6:30:04<56:28:19,  3.00s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.18976598978042603, 'learning_rate': 2.879622945947094e-05, 'epoch': 3.27}
 14%|█▎        | 10692/78504 [6:30:04<56:28:19,  3.00s/it] 14%|█▎        | 10693/78504 [6:30:06<53:38:51,  2.85s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.21518374979496002, 'learning_rate': 2.8795804849050997e-05, 'epoch': 3.27}
 14%|█▎        | 10693/78504 [6:30:06<53:38:51,  2.85s/it] 14%|█▎        | 10694/78504 [6:30:09<51:21:34,  2.73s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.31047406792640686, 'learning_rate': 2.879538023863106e-05, 'epoch': 3.27}
 14%|█▎        | 10694/78504 [6:30:09<51:21:34,  2.73s/it] 14%|█▎        | 10695/78504 [6:30:11<49:04:24,  2.61s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.3666713535785675, 'learning_rate': 2.8794955628211118e-05, 'epoch': 3.27}
 14%|█▎        | 10695/78504 [6:30:11<49:04:24,  2.61s/it] 14%|█▎        | 10696/78504 [6:30:13<47:20:36,  2.51s/it]                                                          {'loss': 0.097, 'grad_norm': 0.2654256224632263, 'learning_rate': 2.8794531017791177e-05, 'epoch': 3.27}
 14%|█▎        | 10696/78504 [6:30:13<47:20:36,  2.51s/it] 14%|█▎        | 10697/78504 [6:30:16<45:32:41,  2.42s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.31913110613822937, 'learning_rate': 2.879410640737124e-05, 'epoch': 3.27}
 14%|█▎        | 10697/78504 [6:30:16<45:32:41,  2.42s/it] 14%|█▎        | 10698/78504 [6:30:18<44:06:16,  2.34s/it]                                                          {'loss': 0.0651, 'grad_norm': 1.0832406282424927, 'learning_rate': 2.8793681796951297e-05, 'epoch': 3.27}
 14%|█▎        | 10698/78504 [6:30:18<44:06:16,  2.34s/it] 14%|█▎        | 10699/78504 [6:30:20<41:19:56,  2.19s/it]                                                          {'loss': 0.1045, 'grad_norm': 0.33610478043556213, 'learning_rate': 2.879325718653136e-05, 'epoch': 3.27}
 14%|█▎        | 10699/78504 [6:30:20<41:19:56,  2.19s/it] 14%|█▎        | 10700/78504 [6:30:22<40:08:28,  2.13s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.32436931133270264, 'learning_rate': 2.8792832576111418e-05, 'epoch': 3.27}
 14%|█▎        | 10700/78504 [6:30:22<40:08:28,  2.13s/it] 14%|█▎        | 10701/78504 [6:30:23<38:57:54,  2.07s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.40848997235298157, 'learning_rate': 2.879240796569148e-05, 'epoch': 3.27}
 14%|█▎        | 10701/78504 [6:30:23<38:57:54,  2.07s/it] 14%|█▎        | 10702/78504 [6:30:25<37:52:25,  2.01s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.43018895387649536, 'learning_rate': 2.879198335527154e-05, 'epoch': 3.27}
 14%|█▎        | 10702/78504 [6:30:25<37:52:25,  2.01s/it] 14%|█▎        | 10703/78504 [6:30:27<36:28:56,  1.94s/it]                                                          {'loss': 0.1339, 'grad_norm': 2.2641985416412354, 'learning_rate': 2.87915587448516e-05, 'epoch': 3.27}
 14%|█▎        | 10703/78504 [6:30:27<36:28:56,  1.94s/it] 14%|█▎        | 10704/78504 [6:30:29<34:25:56,  1.83s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.6063635349273682, 'learning_rate': 2.879113413443166e-05, 'epoch': 3.27}
 14%|█▎        | 10704/78504 [6:30:29<34:25:56,  1.83s/it] 14%|█▎        | 10705/78504 [6:30:30<32:48:52,  1.74s/it]                                                          {'loss': 0.205, 'grad_norm': 0.7622556090354919, 'learning_rate': 2.8790709524011722e-05, 'epoch': 3.27}
 14%|█▎        | 10705/78504 [6:30:30<32:48:52,  1.74s/it] 14%|█▎        | 10706/78504 [6:30:32<31:30:49,  1.67s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.8083246946334839, 'learning_rate': 2.879028491359178e-05, 'epoch': 3.27}
 14%|█▎        | 10706/78504 [6:30:32<31:30:49,  1.67s/it] 14%|█▎        | 10707/78504 [6:30:33<30:05:31,  1.60s/it]                                                          {'loss': 0.1782, 'grad_norm': 0.9113272428512573, 'learning_rate': 2.8789860303171843e-05, 'epoch': 3.27}
 14%|█▎        | 10707/78504 [6:30:33<30:05:31,  1.60s/it] 14%|█▎        | 10708/78504 [6:30:34<28:20:16,  1.50s/it]                                                          {'loss': 0.1875, 'grad_norm': 0.6485589742660522, 'learning_rate': 2.87894356927519e-05, 'epoch': 3.27}
 14%|█▎        | 10708/78504 [6:30:34<28:20:16,  1.50s/it] 14%|█▎        | 10709/78504 [6:30:36<26:17:47,  1.40s/it]                                                          {'loss': 0.2298, 'grad_norm': 0.9749108552932739, 'learning_rate': 2.878901108233196e-05, 'epoch': 3.27}
 14%|█▎        | 10709/78504 [6:30:36<26:17:47,  1.40s/it] 14%|█▎        | 10710/78504 [6:30:37<24:32:31,  1.30s/it]                                                          {'loss': 0.2112, 'grad_norm': 1.2186684608459473, 'learning_rate': 2.8788586471912022e-05, 'epoch': 3.27}
 14%|█▎        | 10710/78504 [6:30:37<24:32:31,  1.30s/it] 14%|█▎        | 10711/78504 [6:30:38<23:06:31,  1.23s/it]                                                          {'loss': 0.2365, 'grad_norm': 1.8179634809494019, 'learning_rate': 2.878816186149208e-05, 'epoch': 3.27}
 14%|█▎        | 10711/78504 [6:30:38<23:06:31,  1.23s/it] 14%|█▎        | 10712/78504 [6:30:39<21:27:39,  1.14s/it]                                                          {'loss': 0.221, 'grad_norm': 0.8932722210884094, 'learning_rate': 2.8787737251072143e-05, 'epoch': 3.27}
 14%|█▎        | 10712/78504 [6:30:39<21:27:39,  1.14s/it] 14%|█▎        | 10713/78504 [6:30:39<19:27:28,  1.03s/it]                                                          {'loss': 0.2944, 'grad_norm': 1.7751054763793945, 'learning_rate': 2.87873126406522e-05, 'epoch': 3.28}
 14%|█▎        | 10713/78504 [6:30:39<19:27:28,  1.03s/it] 14%|█▎        | 10714/78504 [6:30:48<63:40:40,  3.38s/it]                                                          {'loss': 0.1491, 'grad_norm': 0.5727121233940125, 'learning_rate': 2.8786888030232264e-05, 'epoch': 3.28}
 14%|█▎        | 10714/78504 [6:30:48<63:40:40,  3.38s/it] 14%|█▎        | 10715/78504 [6:30:51<62:03:55,  3.30s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.21116290986537933, 'learning_rate': 2.8786463419812322e-05, 'epoch': 3.28}
 14%|█▎        | 10715/78504 [6:30:51<62:03:55,  3.30s/it] 14%|█▎        | 10716/78504 [6:30:54<59:56:34,  3.18s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.40427422523498535, 'learning_rate': 2.8786038809392384e-05, 'epoch': 3.28}
 14%|█▎        | 10716/78504 [6:30:54<59:56:34,  3.18s/it] 14%|█▎        | 10717/78504 [6:30:57<55:38:46,  2.96s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.48542359471321106, 'learning_rate': 2.8785614198972443e-05, 'epoch': 3.28}
 14%|█▎        | 10717/78504 [6:30:57<55:38:46,  2.96s/it] 14%|█▎        | 10718/78504 [6:30:59<52:54:35,  2.81s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.4819718301296234, 'learning_rate': 2.8785189588552505e-05, 'epoch': 3.28}
 14%|█▎        | 10718/78504 [6:30:59<52:54:35,  2.81s/it] 14%|█▎        | 10719/78504 [6:31:01<49:49:43,  2.65s/it]                                                          {'loss': 0.0302, 'grad_norm': 0.21388912200927734, 'learning_rate': 2.8784764978132564e-05, 'epoch': 3.28}
 14%|█▎        | 10719/78504 [6:31:01<49:49:43,  2.65s/it] 14%|█▎        | 10720/78504 [6:31:04<47:57:14,  2.55s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.9101128578186035, 'learning_rate': 2.8784340367712626e-05, 'epoch': 3.28}
 14%|█▎        | 10720/78504 [6:31:04<47:57:14,  2.55s/it] 14%|█▎        | 10721/78504 [6:31:06<45:26:41,  2.41s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.4006093740463257, 'learning_rate': 2.8783915757292685e-05, 'epoch': 3.28}
 14%|█▎        | 10721/78504 [6:31:06<45:26:41,  2.41s/it] 14%|█▎        | 10722/78504 [6:31:08<44:08:35,  2.34s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.41506829857826233, 'learning_rate': 2.8783491146872743e-05, 'epoch': 3.28}
 14%|█▎        | 10722/78504 [6:31:08<44:08:35,  2.34s/it] 14%|█▎        | 10723/78504 [6:31:10<43:00:16,  2.28s/it]                                                          {'loss': 0.073, 'grad_norm': 0.345859169960022, 'learning_rate': 2.8783066536452806e-05, 'epoch': 3.28}
 14%|█▎        | 10723/78504 [6:31:10<43:00:16,  2.28s/it] 14%|█▎        | 10724/78504 [6:31:12<41:32:23,  2.21s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.30490997433662415, 'learning_rate': 2.8782641926032864e-05, 'epoch': 3.28}
 14%|█▎        | 10724/78504 [6:31:12<41:32:23,  2.21s/it] 14%|█▎        | 10725/78504 [6:31:14<40:14:18,  2.14s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.3451857566833496, 'learning_rate': 2.8782217315612926e-05, 'epoch': 3.28}
 14%|█▎        | 10725/78504 [6:31:14<40:14:18,  2.14s/it] 14%|█▎        | 10726/78504 [6:31:16<38:42:52,  2.06s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.5089197754859924, 'learning_rate': 2.8781792705192985e-05, 'epoch': 3.28}
 14%|█▎        | 10726/78504 [6:31:16<38:42:52,  2.06s/it] 14%|█▎        | 10727/78504 [6:31:18<37:40:08,  2.00s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.5335745215415955, 'learning_rate': 2.8781368094773047e-05, 'epoch': 3.28}
 14%|█▎        | 10727/78504 [6:31:18<37:40:08,  2.00s/it] 14%|█▎        | 10728/78504 [6:31:20<36:19:28,  1.93s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.6627233624458313, 'learning_rate': 2.8780943484353106e-05, 'epoch': 3.28}
 14%|█▎        | 10728/78504 [6:31:20<36:19:28,  1.93s/it] 14%|█▎        | 10729/78504 [6:31:21<34:45:37,  1.85s/it]                                                          {'loss': 0.1499, 'grad_norm': 0.8184587955474854, 'learning_rate': 2.8780518873933168e-05, 'epoch': 3.28}
 14%|█▎        | 10729/78504 [6:31:21<34:45:37,  1.85s/it] 14%|█▎        | 10730/78504 [6:31:23<33:04:03,  1.76s/it]                                                          {'loss': 0.148, 'grad_norm': 0.43036577105522156, 'learning_rate': 2.8780094263513227e-05, 'epoch': 3.28}
 14%|█▎        | 10730/78504 [6:31:23<33:04:03,  1.76s/it] 14%|█▎        | 10731/78504 [6:31:24<31:25:05,  1.67s/it]                                                          {'loss': 0.1602, 'grad_norm': 0.4171397387981415, 'learning_rate': 2.877966965309329e-05, 'epoch': 3.28}
 14%|█▎        | 10731/78504 [6:31:24<31:25:05,  1.67s/it] 14%|█▎        | 10732/78504 [6:31:26<30:00:32,  1.59s/it]                                                          {'loss': 0.2175, 'grad_norm': 0.6603798270225525, 'learning_rate': 2.8779245042673347e-05, 'epoch': 3.28}
 14%|█▎        | 10732/78504 [6:31:26<30:00:32,  1.59s/it] 14%|█▎        | 10733/78504 [6:31:27<28:14:24,  1.50s/it]                                                          {'loss': 0.1801, 'grad_norm': 1.1336698532104492, 'learning_rate': 2.877882043225341e-05, 'epoch': 3.28}
 14%|█▎        | 10733/78504 [6:31:27<28:14:24,  1.50s/it] 14%|█▎        | 10734/78504 [6:31:28<26:36:51,  1.41s/it]                                                          {'loss': 0.2049, 'grad_norm': 0.8512790203094482, 'learning_rate': 2.8778395821833468e-05, 'epoch': 3.28}
 14%|█▎        | 10734/78504 [6:31:28<26:36:51,  1.41s/it] 14%|█▎        | 10735/78504 [6:31:29<24:45:28,  1.32s/it]                                                          {'loss': 0.1875, 'grad_norm': 0.736292839050293, 'learning_rate': 2.8777971211413527e-05, 'epoch': 3.28}
 14%|█▎        | 10735/78504 [6:31:29<24:45:28,  1.32s/it] 14%|█▎        | 10736/78504 [6:31:30<23:13:19,  1.23s/it]                                                          {'loss': 0.2091, 'grad_norm': 0.7586683034896851, 'learning_rate': 2.877754660099359e-05, 'epoch': 3.28}
 14%|█▎        | 10736/78504 [6:31:30<23:13:19,  1.23s/it] 14%|█▎        | 10737/78504 [6:31:31<21:25:55,  1.14s/it]                                                          {'loss': 0.1906, 'grad_norm': 0.8950480818748474, 'learning_rate': 2.8777121990573648e-05, 'epoch': 3.28}
 14%|█▎        | 10737/78504 [6:31:31<21:25:55,  1.14s/it] 14%|█▎        | 10738/78504 [6:31:32<19:24:04,  1.03s/it]                                                          {'loss': 0.3228, 'grad_norm': 3.5015971660614014, 'learning_rate': 2.877669738015371e-05, 'epoch': 3.28}
 14%|█▎        | 10738/78504 [6:31:32<19:24:04,  1.03s/it] 14%|█▎        | 10739/78504 [6:31:39<52:41:28,  2.80s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.426777720451355, 'learning_rate': 2.877627276973377e-05, 'epoch': 3.28}
 14%|█▎        | 10739/78504 [6:31:39<52:41:28,  2.80s/it] 14%|█▎        | 10740/78504 [6:31:42<55:49:21,  2.97s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.5875369310379028, 'learning_rate': 2.877584815931383e-05, 'epoch': 3.28}
 14%|█▎        | 10740/78504 [6:31:42<55:49:21,  2.97s/it] 14%|█▎        | 10741/78504 [6:31:45<56:06:51,  2.98s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.40554705262184143, 'learning_rate': 2.877542354889389e-05, 'epoch': 3.28}
 14%|█▎        | 10741/78504 [6:31:45<56:06:51,  2.98s/it] 14%|█▎        | 10742/78504 [6:31:48<53:52:23,  2.86s/it]                                                          {'loss': 0.056, 'grad_norm': 0.18960227072238922, 'learning_rate': 2.877499893847395e-05, 'epoch': 3.28}
 14%|█▎        | 10742/78504 [6:31:48<53:52:23,  2.86s/it] 14%|█▎        | 10743/78504 [6:31:50<51:48:58,  2.75s/it]                                                          {'loss': 0.049, 'grad_norm': 1.0669682025909424, 'learning_rate': 2.877457432805401e-05, 'epoch': 3.28}
 14%|█▎        | 10743/78504 [6:31:51<51:48:58,  2.75s/it] 14%|█▎        | 10744/78504 [6:31:53<49:34:49,  2.63s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.2994231879711151, 'learning_rate': 2.8774149717634072e-05, 'epoch': 3.28}
 14%|█▎        | 10744/78504 [6:31:53<49:34:49,  2.63s/it] 14%|█▎        | 10745/78504 [6:31:55<47:46:52,  2.54s/it]                                                          {'loss': 0.0474, 'grad_norm': 0.2284844070672989, 'learning_rate': 2.877372510721413e-05, 'epoch': 3.28}
 14%|█▎        | 10745/78504 [6:31:55<47:46:52,  2.54s/it] 14%|█▎        | 10746/78504 [6:31:57<45:17:33,  2.41s/it]                                                          {'loss': 0.053, 'grad_norm': 0.263779878616333, 'learning_rate': 2.8773300496794193e-05, 'epoch': 3.29}
 14%|█▎        | 10746/78504 [6:31:57<45:17:33,  2.41s/it] 14%|█▎        | 10747/78504 [6:31:59<43:06:57,  2.29s/it]                                                          {'loss': 0.1017, 'grad_norm': 3.6279489994049072, 'learning_rate': 2.877287588637425e-05, 'epoch': 3.29}
 14%|█▎        | 10747/78504 [6:31:59<43:06:57,  2.29s/it] 14%|█▎        | 10748/78504 [6:32:01<42:15:58,  2.25s/it]                                                          {'loss': 0.0977, 'grad_norm': 0.40871700644493103, 'learning_rate': 2.877245127595431e-05, 'epoch': 3.29}
 14%|█▎        | 10748/78504 [6:32:01<42:15:58,  2.25s/it] 14%|█▎        | 10749/78504 [6:32:03<41:02:52,  2.18s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.3413103520870209, 'learning_rate': 2.8772026665534372e-05, 'epoch': 3.29}
 14%|█▎        | 10749/78504 [6:32:03<41:02:52,  2.18s/it] 14%|█▎        | 10750/78504 [6:32:05<39:54:04,  2.12s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.9112032651901245, 'learning_rate': 2.877160205511443e-05, 'epoch': 3.29}
 14%|█▎        | 10750/78504 [6:32:05<39:54:04,  2.12s/it] 14%|█▎        | 10751/78504 [6:32:07<38:30:58,  2.05s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.38378995656967163, 'learning_rate': 2.8771177444694493e-05, 'epoch': 3.29}
 14%|█▎        | 10751/78504 [6:32:07<38:30:58,  2.05s/it] 14%|█▎        | 10752/78504 [6:32:09<37:27:31,  1.99s/it]                                                          {'loss': 0.1379, 'grad_norm': 1.1581456661224365, 'learning_rate': 2.8770752834274552e-05, 'epoch': 3.29}
 14%|█▎        | 10752/78504 [6:32:09<37:27:31,  1.99s/it] 14%|█▎        | 10753/78504 [6:32:11<36:11:42,  1.92s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.5630114674568176, 'learning_rate': 2.8770328223854614e-05, 'epoch': 3.29}
 14%|█▎        | 10753/78504 [6:32:11<36:11:42,  1.92s/it] 14%|█▎        | 10754/78504 [6:32:13<34:37:36,  1.84s/it]                                                          {'loss': 0.1739, 'grad_norm': 0.5144164562225342, 'learning_rate': 2.8769903613434673e-05, 'epoch': 3.29}
 14%|█▎        | 10754/78504 [6:32:13<34:37:36,  1.84s/it] 14%|█▎        | 10755/78504 [6:32:14<32:49:32,  1.74s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.5745360255241394, 'learning_rate': 2.8769479003014735e-05, 'epoch': 3.29}
 14%|█▎        | 10755/78504 [6:32:14<32:49:32,  1.74s/it] 14%|█▎        | 10756/78504 [6:32:16<31:16:06,  1.66s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.3722344636917114, 'learning_rate': 2.8769054392594793e-05, 'epoch': 3.29}
 14%|█▎        | 10756/78504 [6:32:16<31:16:06,  1.66s/it] 14%|█▎        | 10757/78504 [6:32:17<29:41:35,  1.58s/it]                                                          {'loss': 0.1396, 'grad_norm': 1.2080944776535034, 'learning_rate': 2.8768629782174856e-05, 'epoch': 3.29}
 14%|█▎        | 10757/78504 [6:32:17<29:41:35,  1.58s/it] 14%|█▎        | 10758/78504 [6:32:18<28:01:30,  1.49s/it]                                                          {'loss': 0.2072, 'grad_norm': 1.1683650016784668, 'learning_rate': 2.8768205171754914e-05, 'epoch': 3.29}
 14%|█▎        | 10758/78504 [6:32:18<28:01:30,  1.49s/it] 14%|█▎        | 10759/78504 [6:32:19<26:05:45,  1.39s/it]                                                          {'loss': 0.1866, 'grad_norm': 0.822648286819458, 'learning_rate': 2.8767780561334973e-05, 'epoch': 3.29}
 14%|█▎        | 10759/78504 [6:32:19<26:05:45,  1.39s/it] 14%|█▎        | 10760/78504 [6:32:20<24:26:59,  1.30s/it]                                                          {'loss': 0.2077, 'grad_norm': 0.8499592542648315, 'learning_rate': 2.8767355950915035e-05, 'epoch': 3.29}
 14%|█▎        | 10760/78504 [6:32:20<24:26:59,  1.30s/it] 14%|█▎        | 10761/78504 [6:32:22<23:02:33,  1.22s/it]                                                          {'loss': 0.174, 'grad_norm': 0.8292199373245239, 'learning_rate': 2.8766931340495094e-05, 'epoch': 3.29}
 14%|█▎        | 10761/78504 [6:32:22<23:02:33,  1.22s/it] 14%|█▎        | 10762/78504 [6:32:22<21:27:06,  1.14s/it]                                                          {'loss': 0.221, 'grad_norm': 0.7958196997642517, 'learning_rate': 2.8766506730075156e-05, 'epoch': 3.29}
 14%|█▎        | 10762/78504 [6:32:22<21:27:06,  1.14s/it] 14%|█▎        | 10763/78504 [6:32:23<19:24:29,  1.03s/it]                                                          {'loss': 0.2662, 'grad_norm': 1.4527833461761475, 'learning_rate': 2.8766082119655215e-05, 'epoch': 3.29}
 14%|█▎        | 10763/78504 [6:32:23<19:24:29,  1.03s/it] 14%|█▎        | 10764/78504 [6:32:32<62:17:47,  3.31s/it]                                                          {'loss': 0.1929, 'grad_norm': 0.5617910623550415, 'learning_rate': 2.8765657509235277e-05, 'epoch': 3.29}
 14%|█▎        | 10764/78504 [6:32:32<62:17:47,  3.31s/it] 14%|█▎        | 10765/78504 [6:32:35<62:35:11,  3.33s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.2234809696674347, 'learning_rate': 2.8765232898815335e-05, 'epoch': 3.29}
 14%|█▎        | 10765/78504 [6:32:35<62:35:11,  3.33s/it] 14%|█▎        | 10766/78504 [6:32:38<60:17:18,  3.20s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.3536331057548523, 'learning_rate': 2.8764808288395397e-05, 'epoch': 3.29}
 14%|█▎        | 10766/78504 [6:32:38<60:17:18,  3.20s/it] 14%|█▎        | 10767/78504 [6:32:41<56:45:14,  3.02s/it]                                                          {'loss': 0.0511, 'grad_norm': 0.5773003697395325, 'learning_rate': 2.8764383677975456e-05, 'epoch': 3.29}
 14%|█▎        | 10767/78504 [6:32:41<56:45:14,  3.02s/it] 14%|█▎        | 10768/78504 [6:32:43<53:46:42,  2.86s/it]                                                          {'loss': 0.059, 'grad_norm': 0.20229850709438324, 'learning_rate': 2.8763959067555518e-05, 'epoch': 3.29}
 14%|█▎        | 10768/78504 [6:32:43<53:46:42,  2.86s/it] 14%|█▎        | 10769/78504 [6:32:46<51:31:19,  2.74s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.21263274550437927, 'learning_rate': 2.8763534457135577e-05, 'epoch': 3.29}
 14%|█▎        | 10769/78504 [6:32:46<51:31:19,  2.74s/it] 14%|█▎        | 10770/78504 [6:32:48<49:21:46,  2.62s/it]                                                          {'loss': 0.0487, 'grad_norm': 0.1813049465417862, 'learning_rate': 2.876310984671564e-05, 'epoch': 3.29}
 14%|█▎        | 10770/78504 [6:32:48<49:21:46,  2.62s/it] 14%|█▎        | 10771/78504 [6:32:50<47:34:09,  2.53s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.46538370847702026, 'learning_rate': 2.8762685236295698e-05, 'epoch': 3.29}
 14%|█▎        | 10771/78504 [6:32:50<47:34:09,  2.53s/it] 14%|█▎        | 10772/78504 [6:32:53<45:42:13,  2.43s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.5248755812644958, 'learning_rate': 2.876226062587576e-05, 'epoch': 3.29}
 14%|█▎        | 10772/78504 [6:32:53<45:42:13,  2.43s/it] 14%|█▎        | 10773/78504 [6:32:55<44:02:56,  2.34s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.4038351774215698, 'learning_rate': 2.8761836015455822e-05, 'epoch': 3.29}
 14%|█▎        | 10773/78504 [6:32:55<44:02:56,  2.34s/it] 14%|█▎        | 10774/78504 [6:32:57<41:49:01,  2.22s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.3153238594532013, 'learning_rate': 2.876141140503588e-05, 'epoch': 3.29}
 14%|█▎        | 10774/78504 [6:32:57<41:49:01,  2.22s/it] 14%|█▎        | 10775/78504 [6:32:59<40:26:38,  2.15s/it]                                                          {'loss': 0.1045, 'grad_norm': 1.3917553424835205, 'learning_rate': 2.8760986794615943e-05, 'epoch': 3.29}
 14%|█▎        | 10775/78504 [6:32:59<40:26:38,  2.15s/it] 14%|█▎        | 10776/78504 [6:33:01<39:08:45,  2.08s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.42406174540519714, 'learning_rate': 2.8760562184196e-05, 'epoch': 3.29}
 14%|█▎        | 10776/78504 [6:33:01<39:08:45,  2.08s/it] 14%|█▎        | 10777/78504 [6:33:02<38:01:51,  2.02s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.554750382900238, 'learning_rate': 2.8760137573776063e-05, 'epoch': 3.29}
 14%|█▎        | 10777/78504 [6:33:02<38:01:51,  2.02s/it] 14%|█▎        | 10778/78504 [6:33:04<36:32:13,  1.94s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.487321674823761, 'learning_rate': 2.8759712963356122e-05, 'epoch': 3.3}
 14%|█▎        | 10778/78504 [6:33:04<36:32:13,  1.94s/it] 14%|█▎        | 10779/78504 [6:33:06<34:52:58,  1.85s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.4848528206348419, 'learning_rate': 2.8759288352936184e-05, 'epoch': 3.3}
 14%|█▎        | 10779/78504 [6:33:06<34:52:58,  1.85s/it] 14%|█▎        | 10780/78504 [6:33:07<33:09:46,  1.76s/it]                                                          {'loss': 0.174, 'grad_norm': 0.5452450513839722, 'learning_rate': 2.8758863742516243e-05, 'epoch': 3.3}
 14%|█▎        | 10780/78504 [6:33:07<33:09:46,  1.76s/it] 14%|█▎        | 10781/78504 [6:33:09<31:45:23,  1.69s/it]                                                          {'loss': 0.1885, 'grad_norm': 0.6016244292259216, 'learning_rate': 2.8758439132096305e-05, 'epoch': 3.3}
 14%|█▎        | 10781/78504 [6:33:09<31:45:23,  1.69s/it] 14%|█▎        | 10782/78504 [6:33:10<30:05:02,  1.60s/it]                                                          {'loss': 0.1654, 'grad_norm': 0.5833252668380737, 'learning_rate': 2.8758014521676364e-05, 'epoch': 3.3}
 14%|█▎        | 10782/78504 [6:33:10<30:05:02,  1.60s/it] 14%|█▎        | 10783/78504 [6:33:12<28:16:59,  1.50s/it]                                                          {'loss': 0.1571, 'grad_norm': 0.5758500695228577, 'learning_rate': 2.8757589911256426e-05, 'epoch': 3.3}
 14%|█▎        | 10783/78504 [6:33:12<28:16:59,  1.50s/it] 14%|█▎        | 10784/78504 [6:33:13<26:10:13,  1.39s/it]                                                          {'loss': 0.1737, 'grad_norm': 0.6010109782218933, 'learning_rate': 2.8757165300836484e-05, 'epoch': 3.3}
 14%|█▎        | 10784/78504 [6:33:13<26:10:13,  1.39s/it] 14%|█▎        | 10785/78504 [6:33:14<24:31:00,  1.30s/it]                                                          {'loss': 0.2095, 'grad_norm': 0.7657299637794495, 'learning_rate': 2.8756740690416543e-05, 'epoch': 3.3}
 14%|█▎        | 10785/78504 [6:33:14<24:31:00,  1.30s/it] 14%|█▎        | 10786/78504 [6:33:15<22:44:31,  1.21s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.8192263841629028, 'learning_rate': 2.8756316079996605e-05, 'epoch': 3.3}
 14%|█▎        | 10786/78504 [6:33:15<22:44:31,  1.21s/it] 14%|█▎        | 10787/78504 [6:33:16<21:10:28,  1.13s/it]                                                          {'loss': 0.2167, 'grad_norm': 1.4528484344482422, 'learning_rate': 2.8755891469576664e-05, 'epoch': 3.3}
 14%|█▎        | 10787/78504 [6:33:16<21:10:28,  1.13s/it] 14%|█▎        | 10788/78504 [6:33:16<19:13:37,  1.02s/it]                                                          {'loss': 0.2407, 'grad_norm': 1.1863517761230469, 'learning_rate': 2.8755466859156726e-05, 'epoch': 3.3}
 14%|█▎        | 10788/78504 [6:33:16<19:13:37,  1.02s/it] 14%|█▎        | 10789/78504 [6:33:27<71:27:13,  3.80s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.45743146538734436, 'learning_rate': 2.8755042248736785e-05, 'epoch': 3.3}
 14%|█▎        | 10789/78504 [6:33:27<71:27:13,  3.80s/it] 14%|█▎        | 10790/78504 [6:33:30<68:26:29,  3.64s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.3433409631252289, 'learning_rate': 2.8754617638316847e-05, 'epoch': 3.3}
 14%|█▎        | 10790/78504 [6:33:30<68:26:29,  3.64s/it] 14%|█▎        | 10791/78504 [6:33:33<63:11:13,  3.36s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.27888643741607666, 'learning_rate': 2.8754193027896906e-05, 'epoch': 3.3}
 14%|█▎        | 10791/78504 [6:33:33<63:11:13,  3.36s/it] 14%|█▎        | 10792/78504 [6:33:35<58:50:15,  3.13s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.5174843668937683, 'learning_rate': 2.8753768417476968e-05, 'epoch': 3.3}
 14%|█▎        | 10792/78504 [6:33:35<58:50:15,  3.13s/it] 14%|█▎        | 10793/78504 [6:33:38<54:58:08,  2.92s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.3891867399215698, 'learning_rate': 2.8753343807057026e-05, 'epoch': 3.3}
 14%|█▎        | 10793/78504 [6:33:38<54:58:08,  2.92s/it] 14%|█▎        | 10794/78504 [6:33:40<51:17:13,  2.73s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.25440189242362976, 'learning_rate': 2.875291919663709e-05, 'epoch': 3.3}
 14%|█▎        | 10794/78504 [6:33:40<51:17:13,  2.73s/it] 14%|█▍        | 10795/78504 [6:33:42<49:01:24,  2.61s/it]                                                          {'loss': 0.0471, 'grad_norm': 0.4507249593734741, 'learning_rate': 2.8752494586217147e-05, 'epoch': 3.3}
 14%|█▍        | 10795/78504 [6:33:42<49:01:24,  2.61s/it] 14%|█▍        | 10796/78504 [6:33:45<47:02:42,  2.50s/it]                                                          {'loss': 0.0787, 'grad_norm': 0.5717864036560059, 'learning_rate': 2.875206997579721e-05, 'epoch': 3.3}
 14%|█▍        | 10796/78504 [6:33:45<47:02:42,  2.50s/it] 14%|█▍        | 10797/78504 [6:33:47<44:24:46,  2.36s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.4366248846054077, 'learning_rate': 2.8751645365377268e-05, 'epoch': 3.3}
 14%|█▍        | 10797/78504 [6:33:47<44:24:46,  2.36s/it] 14%|█▍        | 10798/78504 [6:33:49<43:07:10,  2.29s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.36396709084510803, 'learning_rate': 2.8751220754957327e-05, 'epoch': 3.3}
 14%|█▍        | 10798/78504 [6:33:49<43:07:10,  2.29s/it] 14%|█▍        | 10799/78504 [6:33:51<41:28:38,  2.21s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.22137142717838287, 'learning_rate': 2.875079614453739e-05, 'epoch': 3.3}
 14%|█▍        | 10799/78504 [6:33:51<41:28:38,  2.21s/it] 14%|█▍        | 10800/78504 [6:33:53<39:12:13,  2.08s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.29697155952453613, 'learning_rate': 2.8750371534117447e-05, 'epoch': 3.3}
 14%|█▍        | 10800/78504 [6:33:53<39:12:13,  2.08s/it] 14%|█▍        | 10801/78504 [6:33:54<37:57:20,  2.02s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.39076414704322815, 'learning_rate': 2.874994692369751e-05, 'epoch': 3.3}
 14%|█▍        | 10801/78504 [6:33:54<37:57:20,  2.02s/it] 14%|█▍        | 10802/78504 [6:33:56<37:09:26,  1.98s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.5555484890937805, 'learning_rate': 2.8749522313277568e-05, 'epoch': 3.3}
 14%|█▍        | 10802/78504 [6:33:56<37:09:26,  1.98s/it] 14%|█▍        | 10803/78504 [6:33:58<36:00:59,  1.92s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.45504453778266907, 'learning_rate': 2.874909770285763e-05, 'epoch': 3.3}
 14%|█▍        | 10803/78504 [6:33:58<36:00:59,  1.92s/it] 14%|█▍        | 10804/78504 [6:34:00<34:30:03,  1.83s/it]                                                          {'loss': 0.1653, 'grad_norm': 0.7065227031707764, 'learning_rate': 2.874867309243769e-05, 'epoch': 3.3}
 14%|█▍        | 10804/78504 [6:34:00<34:30:03,  1.83s/it] 14%|█▍        | 10805/78504 [6:34:01<32:51:43,  1.75s/it]                                                          {'loss': 0.1635, 'grad_norm': 0.6112934947013855, 'learning_rate': 2.874824848201775e-05, 'epoch': 3.3}
 14%|█▍        | 10805/78504 [6:34:01<32:51:43,  1.75s/it] 14%|█▍        | 10806/78504 [6:34:03<31:17:55,  1.66s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.573981523513794, 'learning_rate': 2.874782387159781e-05, 'epoch': 3.3}
 14%|█▍        | 10806/78504 [6:34:03<31:17:55,  1.66s/it] 14%|█▍        | 10807/78504 [6:34:04<29:45:50,  1.58s/it]                                                          {'loss': 0.1663, 'grad_norm': 0.8004670143127441, 'learning_rate': 2.8747399261177872e-05, 'epoch': 3.3}
 14%|█▍        | 10807/78504 [6:34:04<29:45:50,  1.58s/it] 14%|█▍        | 10808/78504 [6:34:05<28:02:55,  1.49s/it]                                                          {'loss': 0.2076, 'grad_norm': 0.7381240725517273, 'learning_rate': 2.874697465075793e-05, 'epoch': 3.3}
 14%|█▍        | 10808/78504 [6:34:05<28:02:55,  1.49s/it] 14%|█▍        | 10809/78504 [6:34:07<26:08:41,  1.39s/it]                                                          {'loss': 0.2042, 'grad_norm': 0.4958325922489166, 'learning_rate': 2.8746550040337993e-05, 'epoch': 3.3}
 14%|█▍        | 10809/78504 [6:34:07<26:08:41,  1.39s/it] 14%|█▍        | 10810/78504 [6:34:08<24:27:47,  1.30s/it]                                                          {'loss': 0.1826, 'grad_norm': 0.5863160490989685, 'learning_rate': 2.874612542991805e-05, 'epoch': 3.3}
 14%|█▍        | 10810/78504 [6:34:08<24:27:47,  1.30s/it] 14%|█▍        | 10811/78504 [6:34:09<23:03:26,  1.23s/it]                                                          {'loss': 0.2022, 'grad_norm': 0.702994704246521, 'learning_rate': 2.874570081949811e-05, 'epoch': 3.31}
 14%|█▍        | 10811/78504 [6:34:09<23:03:26,  1.23s/it] 14%|█▍        | 10812/78504 [6:34:10<21:23:35,  1.14s/it]                                                          {'loss': 0.2518, 'grad_norm': 1.175748586654663, 'learning_rate': 2.8745276209078172e-05, 'epoch': 3.31}
 14%|█▍        | 10812/78504 [6:34:10<21:23:35,  1.14s/it] 14%|█▍        | 10813/78504 [6:34:10<19:22:06,  1.03s/it]                                                          {'loss': 0.2793, 'grad_norm': 0.7727872729301453, 'learning_rate': 2.874485159865823e-05, 'epoch': 3.31}
 14%|█▍        | 10813/78504 [6:34:10<19:22:06,  1.03s/it] 14%|█▍        | 10814/78504 [6:34:17<48:51:54,  2.60s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.5323163270950317, 'learning_rate': 2.8744426988238293e-05, 'epoch': 3.31}
 14%|█▍        | 10814/78504 [6:34:17<48:51:54,  2.60s/it] 14%|█▍        | 10815/78504 [6:34:20<51:27:08,  2.74s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.1975831240415573, 'learning_rate': 2.874400237781835e-05, 'epoch': 3.31}
 14%|█▍        | 10815/78504 [6:34:20<51:27:08,  2.74s/it] 14%|█▍        | 10816/78504 [6:34:23<52:30:34,  2.79s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.25469502806663513, 'learning_rate': 2.8743577767398414e-05, 'epoch': 3.31}
 14%|█▍        | 10816/78504 [6:34:23<52:30:34,  2.79s/it] 14%|█▍        | 10817/78504 [6:34:25<51:19:08,  2.73s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.4336417317390442, 'learning_rate': 2.8743153156978472e-05, 'epoch': 3.31}
 14%|█▍        | 10817/78504 [6:34:25<51:19:08,  2.73s/it] 14%|█▍        | 10818/78504 [6:34:28<49:52:18,  2.65s/it]                                                          {'loss': 0.0718, 'grad_norm': 0.857454776763916, 'learning_rate': 2.8742728546558534e-05, 'epoch': 3.31}
 14%|█▍        | 10818/78504 [6:34:28<49:52:18,  2.65s/it] 14%|█▍        | 10819/78504 [6:34:30<48:39:04,  2.59s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.18481704592704773, 'learning_rate': 2.8742303936138593e-05, 'epoch': 3.31}
 14%|█▍        | 10819/78504 [6:34:30<48:39:04,  2.59s/it] 14%|█▍        | 10820/78504 [6:34:32<47:06:54,  2.51s/it]                                                          {'loss': 0.075, 'grad_norm': 0.3835495412349701, 'learning_rate': 2.8741879325718655e-05, 'epoch': 3.31}
 14%|█▍        | 10820/78504 [6:34:33<47:06:54,  2.51s/it] 14%|█▍        | 10821/78504 [6:34:35<44:54:25,  2.39s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.3440777063369751, 'learning_rate': 2.8741454715298714e-05, 'epoch': 3.31}
 14%|█▍        | 10821/78504 [6:34:35<44:54:25,  2.39s/it] 14%|█▍        | 10822/78504 [6:34:37<43:46:19,  2.33s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.29217275977134705, 'learning_rate': 2.8741030104878776e-05, 'epoch': 3.31}
 14%|█▍        | 10822/78504 [6:34:37<43:46:19,  2.33s/it] 14%|█▍        | 10823/78504 [6:34:39<42:42:37,  2.27s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.22667473554611206, 'learning_rate': 2.8740605494458835e-05, 'epoch': 3.31}
 14%|█▍        | 10823/78504 [6:34:39<42:42:37,  2.27s/it] 14%|█▍        | 10824/78504 [6:34:41<41:20:58,  2.20s/it]                                                          {'loss': 0.1182, 'grad_norm': 0.4493618607521057, 'learning_rate': 2.8740180884038893e-05, 'epoch': 3.31}
 14%|█▍        | 10824/78504 [6:34:41<41:20:58,  2.20s/it] 14%|█▍        | 10825/78504 [6:34:43<40:05:35,  2.13s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.5626574754714966, 'learning_rate': 2.8739756273618956e-05, 'epoch': 3.31}
 14%|█▍        | 10825/78504 [6:34:43<40:05:35,  2.13s/it] 14%|█▍        | 10826/78504 [6:34:45<38:40:44,  2.06s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.31479412317276, 'learning_rate': 2.8739331663199014e-05, 'epoch': 3.31}
 14%|█▍        | 10826/78504 [6:34:45<38:40:44,  2.06s/it] 14%|█▍        | 10827/78504 [6:34:47<37:38:46,  2.00s/it]                                                          {'loss': 0.111, 'grad_norm': 0.37255042791366577, 'learning_rate': 2.8738907052779076e-05, 'epoch': 3.31}
 14%|█▍        | 10827/78504 [6:34:47<37:38:46,  2.00s/it] 14%|█▍        | 10828/78504 [6:34:48<36:18:04,  1.93s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.38234949111938477, 'learning_rate': 2.8738482442359135e-05, 'epoch': 3.31}
 14%|█▍        | 10828/78504 [6:34:48<36:18:04,  1.93s/it] 14%|█▍        | 10829/78504 [6:34:50<34:40:28,  1.84s/it]                                                          {'loss': 0.1388, 'grad_norm': 0.4813401401042938, 'learning_rate': 2.8738057831939197e-05, 'epoch': 3.31}
 14%|█▍        | 10829/78504 [6:34:50<34:40:28,  1.84s/it] 14%|█▍        | 10830/78504 [6:34:52<32:59:39,  1.76s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.43951788544654846, 'learning_rate': 2.8737633221519256e-05, 'epoch': 3.31}
 14%|█▍        | 10830/78504 [6:34:52<32:59:39,  1.76s/it] 14%|█▍        | 10831/78504 [6:34:53<31:21:03,  1.67s/it]                                                          {'loss': 0.2064, 'grad_norm': 2.005922555923462, 'learning_rate': 2.8737208611099318e-05, 'epoch': 3.31}
 14%|█▍        | 10831/78504 [6:34:53<31:21:03,  1.67s/it] 14%|█▍        | 10832/78504 [6:34:54<29:42:19,  1.58s/it]                                                          {'loss': 0.1743, 'grad_norm': 0.7702115774154663, 'learning_rate': 2.8736784000679377e-05, 'epoch': 3.31}
 14%|█▍        | 10832/78504 [6:34:55<29:42:19,  1.58s/it] 14%|█▍        | 10833/78504 [6:34:56<28:00:16,  1.49s/it]                                                          {'loss': 0.1757, 'grad_norm': 0.6138361692428589, 'learning_rate': 2.873635939025944e-05, 'epoch': 3.31}
 14%|█▍        | 10833/78504 [6:34:56<28:00:16,  1.49s/it] 14%|█▍        | 10834/78504 [6:34:57<26:07:24,  1.39s/it]                                                          {'loss': 0.2077, 'grad_norm': 0.7565755844116211, 'learning_rate': 2.8735934779839497e-05, 'epoch': 3.31}
 14%|█▍        | 10834/78504 [6:34:57<26:07:24,  1.39s/it] 14%|█▍        | 10835/78504 [6:34:58<24:30:44,  1.30s/it]                                                          {'loss': 0.1946, 'grad_norm': 0.6130148768424988, 'learning_rate': 2.873551016941956e-05, 'epoch': 3.31}
 14%|█▍        | 10835/78504 [6:34:58<24:30:44,  1.30s/it] 14%|█▍        | 10836/78504 [6:34:59<22:45:10,  1.21s/it]                                                          {'loss': 0.2058, 'grad_norm': 1.1529450416564941, 'learning_rate': 2.8735085558999618e-05, 'epoch': 3.31}
 14%|█▍        | 10836/78504 [6:34:59<22:45:10,  1.21s/it] 14%|█▍        | 10837/78504 [6:35:00<21:09:57,  1.13s/it]                                                          {'loss': 0.2438, 'grad_norm': 0.749747097492218, 'learning_rate': 2.8734660948579677e-05, 'epoch': 3.31}
 14%|█▍        | 10837/78504 [6:35:00<21:09:57,  1.13s/it] 14%|█▍        | 10838/78504 [6:35:01<19:11:07,  1.02s/it]                                                          {'loss': 0.2597, 'grad_norm': 1.0993163585662842, 'learning_rate': 2.873423633815974e-05, 'epoch': 3.31}
 14%|█▍        | 10838/78504 [6:35:01<19:11:07,  1.02s/it] 14%|█▍        | 10839/78504 [6:35:10<67:10:20,  3.57s/it]                                                          {'loss': 0.1456, 'grad_norm': 0.6964902281761169, 'learning_rate': 2.8733811727739798e-05, 'epoch': 3.31}
 14%|█▍        | 10839/78504 [6:35:10<67:10:20,  3.57s/it] 14%|█▍        | 10840/78504 [6:35:14<66:00:30,  3.51s/it]                                                          {'loss': 0.089, 'grad_norm': 0.335894912481308, 'learning_rate': 2.873338711731986e-05, 'epoch': 3.31}
 14%|█▍        | 10840/78504 [6:35:14<66:00:30,  3.51s/it] 14%|█▍        | 10841/78504 [6:35:17<63:00:08,  3.35s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.28697165846824646, 'learning_rate': 2.873296250689992e-05, 'epoch': 3.31}
 14%|█▍        | 10841/78504 [6:35:17<63:00:08,  3.35s/it] 14%|█▍        | 10842/78504 [6:35:19<58:43:27,  3.12s/it]                                                          {'loss': 0.0335, 'grad_norm': 0.16110359132289886, 'learning_rate': 2.873253789647998e-05, 'epoch': 3.31}
 14%|█▍        | 10842/78504 [6:35:19<58:43:27,  3.12s/it] 14%|█▍        | 10843/78504 [6:35:22<55:08:20,  2.93s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.28468745946884155, 'learning_rate': 2.873211328606004e-05, 'epoch': 3.31}
 14%|█▍        | 10843/78504 [6:35:22<55:08:20,  2.93s/it] 14%|█▍        | 10844/78504 [6:35:24<51:52:36,  2.76s/it]                                                          {'loss': 0.071, 'grad_norm': 0.31090909242630005, 'learning_rate': 2.87316886756401e-05, 'epoch': 3.32}
 14%|█▍        | 10844/78504 [6:35:24<51:52:36,  2.76s/it] 14%|█▍        | 10845/78504 [6:35:26<49:30:46,  2.63s/it]                                                          {'loss': 0.0521, 'grad_norm': 0.3314419388771057, 'learning_rate': 2.873126406522016e-05, 'epoch': 3.32}
 14%|█▍        | 10845/78504 [6:35:26<49:30:46,  2.63s/it] 14%|█▍        | 10846/78504 [6:35:28<46:27:48,  2.47s/it]                                                          {'loss': 0.0503, 'grad_norm': 0.177435502409935, 'learning_rate': 2.8730839454800222e-05, 'epoch': 3.32}
 14%|█▍        | 10846/78504 [6:35:28<46:27:48,  2.47s/it] 14%|█▍        | 10847/78504 [6:35:31<43:59:43,  2.34s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.7089155912399292, 'learning_rate': 2.873041484438028e-05, 'epoch': 3.32}
 14%|█▍        | 10847/78504 [6:35:31<43:59:43,  2.34s/it] 14%|█▍        | 10848/78504 [6:35:33<42:50:37,  2.28s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.29377809166908264, 'learning_rate': 2.8729990233960343e-05, 'epoch': 3.32}
 14%|█▍        | 10848/78504 [6:35:33<42:50:37,  2.28s/it] 14%|█▍        | 10849/78504 [6:35:35<41:22:47,  2.20s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.2646845877170563, 'learning_rate': 2.87295656235404e-05, 'epoch': 3.32}
 14%|█▍        | 10849/78504 [6:35:35<41:22:47,  2.20s/it] 14%|█▍        | 10850/78504 [6:35:37<40:10:57,  2.14s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.8221212029457092, 'learning_rate': 2.872914101312046e-05, 'epoch': 3.32}
 14%|█▍        | 10850/78504 [6:35:37<40:10:57,  2.14s/it] 14%|█▍        | 10851/78504 [6:35:39<38:37:38,  2.06s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.44431158900260925, 'learning_rate': 2.8728716402700522e-05, 'epoch': 3.32}
 14%|█▍        | 10851/78504 [6:35:39<38:37:38,  2.06s/it] 14%|█▍        | 10852/78504 [6:35:40<37:35:57,  2.00s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.497318297624588, 'learning_rate': 2.872829179228058e-05, 'epoch': 3.32}
 14%|█▍        | 10852/78504 [6:35:40<37:35:57,  2.00s/it] 14%|█▍        | 10853/78504 [6:35:42<36:05:07,  1.92s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.4159863293170929, 'learning_rate': 2.8727867181860643e-05, 'epoch': 3.32}
 14%|█▍        | 10853/78504 [6:35:42<36:05:07,  1.92s/it] 14%|█▍        | 10854/78504 [6:35:44<34:32:12,  1.84s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.48789873719215393, 'learning_rate': 2.8727442571440702e-05, 'epoch': 3.32}
 14%|█▍        | 10854/78504 [6:35:44<34:32:12,  1.84s/it] 14%|█▍        | 10855/78504 [6:35:45<32:42:18,  1.74s/it]                                                          {'loss': 0.159, 'grad_norm': 0.9466536641120911, 'learning_rate': 2.8727017961020764e-05, 'epoch': 3.32}
 14%|█▍        | 10855/78504 [6:35:45<32:42:18,  1.74s/it] 14%|█▍        | 10856/78504 [6:35:47<30:59:25,  1.65s/it]                                                          {'loss': 0.1697, 'grad_norm': 0.8276566863059998, 'learning_rate': 2.8726593350600823e-05, 'epoch': 3.32}
 14%|█▍        | 10856/78504 [6:35:47<30:59:25,  1.65s/it] 14%|█▍        | 10857/78504 [6:35:48<29:39:36,  1.58s/it]                                                          {'loss': 0.173, 'grad_norm': 0.8239809274673462, 'learning_rate': 2.8726168740180885e-05, 'epoch': 3.32}
 14%|█▍        | 10857/78504 [6:35:48<29:39:36,  1.58s/it] 14%|█▍        | 10858/78504 [6:35:49<27:58:27,  1.49s/it]                                                          {'loss': 0.1924, 'grad_norm': 1.2764016389846802, 'learning_rate': 2.8725744129760943e-05, 'epoch': 3.32}
 14%|█▍        | 10858/78504 [6:35:49<27:58:27,  1.49s/it] 14%|█▍        | 10859/78504 [6:35:51<26:01:34,  1.39s/it]                                                          {'loss': 0.2407, 'grad_norm': 0.7297049760818481, 'learning_rate': 2.8725319519341006e-05, 'epoch': 3.32}
 14%|█▍        | 10859/78504 [6:35:51<26:01:34,  1.39s/it] 14%|█▍        | 10860/78504 [6:35:52<24:31:16,  1.31s/it]                                                          {'loss': 0.178, 'grad_norm': 0.6638231873512268, 'learning_rate': 2.8724894908921064e-05, 'epoch': 3.32}
 14%|█▍        | 10860/78504 [6:35:52<24:31:16,  1.31s/it] 14%|█▍        | 10861/78504 [6:35:53<23:06:41,  1.23s/it]                                                          {'loss': 0.1996, 'grad_norm': 1.2940967082977295, 'learning_rate': 2.8724470298501126e-05, 'epoch': 3.32}
 14%|█▍        | 10861/78504 [6:35:53<23:06:41,  1.23s/it] 14%|█▍        | 10862/78504 [6:35:54<21:22:37,  1.14s/it]                                                          {'loss': 0.2544, 'grad_norm': 1.3549937009811401, 'learning_rate': 2.8724045688081185e-05, 'epoch': 3.32}
 14%|█▍        | 10862/78504 [6:35:54<21:22:37,  1.14s/it] 14%|█▍        | 10863/78504 [6:35:54<19:33:36,  1.04s/it]                                                          {'loss': 0.272, 'grad_norm': 1.4954406023025513, 'learning_rate': 2.8723621077661244e-05, 'epoch': 3.32}
 14%|█▍        | 10863/78504 [6:35:54<19:33:36,  1.04s/it] 14%|█▍        | 10864/78504 [6:36:03<61:48:07,  3.29s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.3934219181537628, 'learning_rate': 2.8723196467241306e-05, 'epoch': 3.32}
 14%|█▍        | 10864/78504 [6:36:03<61:48:07,  3.29s/it] 14%|█▍        | 10865/78504 [6:36:06<61:53:34,  3.29s/it]                                                          {'loss': 0.067, 'grad_norm': 0.1561182290315628, 'learning_rate': 2.8722771856821365e-05, 'epoch': 3.32}
 14%|█▍        | 10865/78504 [6:36:06<61:53:34,  3.29s/it] 14%|█▍        | 10866/78504 [6:36:09<60:08:15,  3.20s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.4002782702445984, 'learning_rate': 2.8722347246401427e-05, 'epoch': 3.32}
 14%|█▍        | 10866/78504 [6:36:09<60:08:15,  3.20s/it] 14%|█▍        | 10867/78504 [6:36:12<56:50:30,  3.03s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.3729495108127594, 'learning_rate': 2.8721922635981485e-05, 'epoch': 3.32}
 14%|█▍        | 10867/78504 [6:36:12<56:50:30,  3.03s/it] 14%|█▍        | 10868/78504 [6:36:14<53:41:35,  2.86s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.47391772270202637, 'learning_rate': 2.8721498025561547e-05, 'epoch': 3.32}
 14%|█▍        | 10868/78504 [6:36:14<53:41:35,  2.86s/it] 14%|█▍        | 10869/78504 [6:36:17<50:22:54,  2.68s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.2959035336971283, 'learning_rate': 2.8721073415141606e-05, 'epoch': 3.32}
 14%|█▍        | 10869/78504 [6:36:17<50:22:54,  2.68s/it] 14%|█▍        | 10870/78504 [6:36:19<48:20:38,  2.57s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.24149341881275177, 'learning_rate': 2.8720648804721668e-05, 'epoch': 3.32}
 14%|█▍        | 10870/78504 [6:36:19<48:20:38,  2.57s/it] 14%|█▍        | 10871/78504 [6:36:21<45:41:03,  2.43s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.1871393620967865, 'learning_rate': 2.8720224194301727e-05, 'epoch': 3.32}
 14%|█▍        | 10871/78504 [6:36:21<45:41:03,  2.43s/it] 14%|█▍        | 10872/78504 [6:36:23<44:15:47,  2.36s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.27904433012008667, 'learning_rate': 2.871979958388179e-05, 'epoch': 3.32}
 14%|█▍        | 10872/78504 [6:36:23<44:15:47,  2.36s/it] 14%|█▍        | 10873/78504 [6:36:25<43:04:50,  2.29s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.2309628427028656, 'learning_rate': 2.8719374973461848e-05, 'epoch': 3.32}
 14%|█▍        | 10873/78504 [6:36:25<43:04:50,  2.29s/it] 14%|█▍        | 10874/78504 [6:36:27<41:33:45,  2.21s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.35104987025260925, 'learning_rate': 2.871895036304191e-05, 'epoch': 3.32}
 14%|█▍        | 10874/78504 [6:36:27<41:33:45,  2.21s/it] 14%|█▍        | 10875/78504 [6:36:29<40:16:30,  2.14s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.6507737636566162, 'learning_rate': 2.8718525752621972e-05, 'epoch': 3.32}
 14%|█▍        | 10875/78504 [6:36:29<40:16:30,  2.14s/it] 14%|█▍        | 10876/78504 [6:36:31<38:50:58,  2.07s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.5482450127601624, 'learning_rate': 2.871810114220203e-05, 'epoch': 3.32}
 14%|█▍        | 10876/78504 [6:36:31<38:50:58,  2.07s/it] 14%|█▍        | 10877/78504 [6:36:33<37:44:08,  2.01s/it]                                                          {'loss': 0.1564, 'grad_norm': 0.3898242712020874, 'learning_rate': 2.8717676531782093e-05, 'epoch': 3.33}
 14%|█▍        | 10877/78504 [6:36:33<37:44:08,  2.01s/it] 14%|█▍        | 10878/78504 [6:36:35<36:22:05,  1.94s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.5510368347167969, 'learning_rate': 2.871725192136215e-05, 'epoch': 3.33}
 14%|█▍        | 10878/78504 [6:36:35<36:22:05,  1.94s/it] 14%|█▍        | 10879/78504 [6:36:37<34:22:18,  1.83s/it]                                                          {'loss': 0.136, 'grad_norm': 1.4357450008392334, 'learning_rate': 2.8716827310942213e-05, 'epoch': 3.33}
 14%|█▍        | 10879/78504 [6:36:37<34:22:18,  1.83s/it] 14%|█▍        | 10880/78504 [6:36:38<32:45:49,  1.74s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.5817170143127441, 'learning_rate': 2.8716402700522272e-05, 'epoch': 3.33}
 14%|█▍        | 10880/78504 [6:36:38<32:45:49,  1.74s/it] 14%|█▍        | 10881/78504 [6:36:40<31:26:46,  1.67s/it]                                                          {'loss': 0.1562, 'grad_norm': 0.6185963153839111, 'learning_rate': 2.8715978090102334e-05, 'epoch': 3.33}
 14%|█▍        | 10881/78504 [6:36:40<31:26:46,  1.67s/it] 14%|█▍        | 10882/78504 [6:36:41<29:53:20,  1.59s/it]                                                          {'loss': 0.176, 'grad_norm': 0.6660125851631165, 'learning_rate': 2.8715553479682393e-05, 'epoch': 3.33}
 14%|█▍        | 10882/78504 [6:36:41<29:53:20,  1.59s/it] 14%|█▍        | 10883/78504 [6:36:42<28:14:32,  1.50s/it]                                                          {'loss': 0.1678, 'grad_norm': 0.5563603639602661, 'learning_rate': 2.8715128869262455e-05, 'epoch': 3.33}
 14%|█▍        | 10883/78504 [6:36:42<28:14:32,  1.50s/it] 14%|█▍        | 10884/78504 [6:36:43<26:16:23,  1.40s/it]                                                          {'loss': 0.1918, 'grad_norm': 0.7631221413612366, 'learning_rate': 2.8714704258842514e-05, 'epoch': 3.33}
 14%|█▍        | 10884/78504 [6:36:43<26:16:23,  1.40s/it] 14%|█▍        | 10885/78504 [6:36:44<24:32:55,  1.31s/it]                                                          {'loss': 0.2109, 'grad_norm': 0.9008687734603882, 'learning_rate': 2.8714279648422576e-05, 'epoch': 3.33}
 14%|█▍        | 10885/78504 [6:36:45<24:32:55,  1.31s/it] 14%|█▍        | 10886/78504 [6:36:46<23:06:06,  1.23s/it]                                                          {'loss': 0.2216, 'grad_norm': 0.8422077298164368, 'learning_rate': 2.8713855038002635e-05, 'epoch': 3.33}
 14%|█▍        | 10886/78504 [6:36:46<23:06:06,  1.23s/it] 14%|█▍        | 10887/78504 [6:36:46<21:27:08,  1.14s/it]                                                          {'loss': 0.1769, 'grad_norm': 1.3036868572235107, 'learning_rate': 2.8713430427582693e-05, 'epoch': 3.33}
 14%|█▍        | 10887/78504 [6:36:47<21:27:08,  1.14s/it] 14%|█▍        | 10888/78504 [6:36:47<19:26:32,  1.04s/it]                                                          {'loss': 0.2524, 'grad_norm': 3.225583076477051, 'learning_rate': 2.8713005817162755e-05, 'epoch': 3.33}
 14%|█▍        | 10888/78504 [6:36:47<19:26:32,  1.04s/it] 14%|█▍        | 10889/78504 [6:36:56<63:33:25,  3.38s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.504551887512207, 'learning_rate': 2.8712581206742814e-05, 'epoch': 3.33}
 14%|█▍        | 10889/78504 [6:36:56<63:33:25,  3.38s/it] 14%|█▍        | 10890/78504 [6:36:59<62:52:39,  3.35s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.3924224078655243, 'learning_rate': 2.8712156596322876e-05, 'epoch': 3.33}
 14%|█▍        | 10890/78504 [6:36:59<62:52:39,  3.35s/it] 14%|█▍        | 10891/78504 [6:37:02<60:47:20,  3.24s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.23273049294948578, 'learning_rate': 2.8711731985902935e-05, 'epoch': 3.33}
 14%|█▍        | 10891/78504 [6:37:02<60:47:20,  3.24s/it] 14%|█▍        | 10892/78504 [6:37:05<57:20:19,  3.05s/it]                                                          {'loss': 0.0677, 'grad_norm': 0.359000027179718, 'learning_rate': 2.8711307375482997e-05, 'epoch': 3.33}
 14%|█▍        | 10892/78504 [6:37:05<57:20:19,  3.05s/it] 14%|█▍        | 10893/78504 [6:37:07<54:01:07,  2.88s/it]                                                          {'loss': 0.057, 'grad_norm': 0.6842906475067139, 'learning_rate': 2.8710882765063056e-05, 'epoch': 3.33}
 14%|█▍        | 10893/78504 [6:37:07<54:01:07,  2.88s/it] 14%|█▍        | 10894/78504 [6:37:10<50:35:09,  2.69s/it]                                                          {'loss': 0.0367, 'grad_norm': 0.32186782360076904, 'learning_rate': 2.8710458154643118e-05, 'epoch': 3.33}
 14%|█▍        | 10894/78504 [6:37:10<50:35:09,  2.69s/it] 14%|█▍        | 10895/78504 [6:37:12<48:26:26,  2.58s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.3936348259449005, 'learning_rate': 2.8710033544223176e-05, 'epoch': 3.33}
 14%|█▍        | 10895/78504 [6:37:12<48:26:26,  2.58s/it] 14%|█▍        | 10896/78504 [6:37:14<45:48:28,  2.44s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.23228178918361664, 'learning_rate': 2.870960893380324e-05, 'epoch': 3.33}
 14%|█▍        | 10896/78504 [6:37:14<45:48:28,  2.44s/it] 14%|█▍        | 10897/78504 [6:37:16<44:22:34,  2.36s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.2560083568096161, 'learning_rate': 2.8709184323383297e-05, 'epoch': 3.33}
 14%|█▍        | 10897/78504 [6:37:16<44:22:34,  2.36s/it] 14%|█▍        | 10898/78504 [6:37:19<43:14:14,  2.30s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.40281298756599426, 'learning_rate': 2.870875971296336e-05, 'epoch': 3.33}
 14%|█▍        | 10898/78504 [6:37:19<43:14:14,  2.30s/it] 14%|█▍        | 10899/78504 [6:37:20<40:44:05,  2.17s/it]                                                          {'loss': 0.11, 'grad_norm': 0.6132236123085022, 'learning_rate': 2.8708335102543418e-05, 'epoch': 3.33}
 14%|█▍        | 10899/78504 [6:37:20<40:44:05,  2.17s/it] 14%|█▍        | 10900/78504 [6:37:22<39:41:09,  2.11s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.6787664890289307, 'learning_rate': 2.8707910492123477e-05, 'epoch': 3.33}
 14%|█▍        | 10900/78504 [6:37:22<39:41:09,  2.11s/it] 14%|█▍        | 10901/78504 [6:37:24<38:33:32,  2.05s/it]                                                          {'loss': 0.0781, 'grad_norm': 1.6368705034255981, 'learning_rate': 2.870748588170354e-05, 'epoch': 3.33}
 14%|█▍        | 10901/78504 [6:37:24<38:33:32,  2.05s/it] 14%|█▍        | 10902/78504 [6:37:26<37:29:46,  2.00s/it]                                                          {'loss': 0.1516, 'grad_norm': 3.3713338375091553, 'learning_rate': 2.8707061271283597e-05, 'epoch': 3.33}
 14%|█▍        | 10902/78504 [6:37:26<37:29:46,  2.00s/it] 14%|█▍        | 10903/78504 [6:37:28<35:58:29,  1.92s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.505166232585907, 'learning_rate': 2.870663666086366e-05, 'epoch': 3.33}
 14%|█▍        | 10903/78504 [6:37:28<35:58:29,  1.92s/it] 14%|█▍        | 10904/78504 [6:37:29<34:26:09,  1.83s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.49432358145713806, 'learning_rate': 2.8706212050443718e-05, 'epoch': 3.33}
 14%|█▍        | 10904/78504 [6:37:30<34:26:09,  1.83s/it] 14%|█▍        | 10905/78504 [6:37:31<32:48:12,  1.75s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.5585086941719055, 'learning_rate': 2.870578744002378e-05, 'epoch': 3.33}
 14%|█▍        | 10905/78504 [6:37:31<32:48:12,  1.75s/it] 14%|█▍        | 10906/78504 [6:37:33<31:30:41,  1.68s/it]                                                          {'loss': 0.1878, 'grad_norm': 0.8165041208267212, 'learning_rate': 2.870536282960384e-05, 'epoch': 3.33}
 14%|█▍        | 10906/78504 [6:37:33<31:30:41,  1.68s/it] 14%|█▍        | 10907/78504 [6:37:34<30:01:47,  1.60s/it]                                                          {'loss': 0.1744, 'grad_norm': 1.7563066482543945, 'learning_rate': 2.87049382191839e-05, 'epoch': 3.33}
 14%|█▍        | 10907/78504 [6:37:34<30:01:47,  1.60s/it] 14%|█▍        | 10908/78504 [6:37:35<28:15:39,  1.51s/it]                                                          {'loss': 0.191, 'grad_norm': 0.8639978170394897, 'learning_rate': 2.870451360876396e-05, 'epoch': 3.33}
 14%|█▍        | 10908/78504 [6:37:35<28:15:39,  1.51s/it] 14%|█▍        | 10909/78504 [6:37:36<26:17:33,  1.40s/it]                                                          {'loss': 0.203, 'grad_norm': 0.9599329233169556, 'learning_rate': 2.8704088998344022e-05, 'epoch': 3.34}
 14%|█▍        | 10909/78504 [6:37:36<26:17:33,  1.40s/it] 14%|█▍        | 10910/78504 [6:37:38<24:38:16,  1.31s/it]                                                          {'loss': 0.1834, 'grad_norm': 0.825532078742981, 'learning_rate': 2.870366438792408e-05, 'epoch': 3.34}
 14%|█▍        | 10910/78504 [6:37:38<24:38:16,  1.31s/it] 14%|█▍        | 10911/78504 [6:37:39<22:50:08,  1.22s/it]                                                          {'loss': 0.2048, 'grad_norm': 0.8041403293609619, 'learning_rate': 2.8703239777504143e-05, 'epoch': 3.34}
 14%|█▍        | 10911/78504 [6:37:39<22:50:08,  1.22s/it] 14%|█▍        | 10912/78504 [6:37:39<21:14:01,  1.13s/it]                                                          {'loss': 0.2394, 'grad_norm': 1.1289196014404297, 'learning_rate': 2.87028151670842e-05, 'epoch': 3.34}
 14%|█▍        | 10912/78504 [6:37:39<21:14:01,  1.13s/it] 14%|█▍        | 10913/78504 [6:37:40<19:22:14,  1.03s/it]                                                          {'loss': 0.2203, 'grad_norm': 1.0648143291473389, 'learning_rate': 2.870239055666426e-05, 'epoch': 3.34}
 14%|█▍        | 10913/78504 [6:37:40<19:22:14,  1.03s/it] 14%|█▍        | 10914/78504 [6:37:50<69:29:02,  3.70s/it]                                                          {'loss': 0.1704, 'grad_norm': 0.39454203844070435, 'learning_rate': 2.8701965946244322e-05, 'epoch': 3.34}
 14%|█▍        | 10914/78504 [6:37:50<69:29:02,  3.70s/it] 14%|█▍        | 10915/78504 [6:37:53<66:18:03,  3.53s/it]                                                          {'loss': 0.093, 'grad_norm': 0.5799201726913452, 'learning_rate': 2.870154133582438e-05, 'epoch': 3.34}
 14%|█▍        | 10915/78504 [6:37:53<66:18:03,  3.53s/it] 14%|█▍        | 10916/78504 [6:37:56<63:23:01,  3.38s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.24499940872192383, 'learning_rate': 2.8701116725404443e-05, 'epoch': 3.34}
 14%|█▍        | 10916/78504 [6:37:56<63:23:01,  3.38s/it] 14%|█▍        | 10917/78504 [6:37:59<58:57:56,  3.14s/it]                                                          {'loss': 0.0508, 'grad_norm': 0.25673723220825195, 'learning_rate': 2.87006921149845e-05, 'epoch': 3.34}
 14%|█▍        | 10917/78504 [6:37:59<58:57:56,  3.14s/it] 14%|█▍        | 10918/78504 [6:38:01<55:17:06,  2.94s/it]                                                          {'loss': 0.066, 'grad_norm': 0.22389745712280273, 'learning_rate': 2.8700267504564564e-05, 'epoch': 3.34}
 14%|█▍        | 10918/78504 [6:38:01<55:17:06,  2.94s/it] 14%|█▍        | 10919/78504 [6:38:04<51:06:08,  2.72s/it]                                                          {'loss': 0.0501, 'grad_norm': 0.20704272389411926, 'learning_rate': 2.8699842894144622e-05, 'epoch': 3.34}
 14%|█▍        | 10919/78504 [6:38:04<51:06:08,  2.72s/it] 14%|█▍        | 10920/78504 [6:38:06<48:51:31,  2.60s/it]                                                          {'loss': 0.0523, 'grad_norm': 0.5257928967475891, 'learning_rate': 2.8699418283724685e-05, 'epoch': 3.34}
 14%|█▍        | 10920/78504 [6:38:06<48:51:31,  2.60s/it] 14%|█▍        | 10921/78504 [6:38:08<46:05:18,  2.46s/it]                                                          {'loss': 0.086, 'grad_norm': 0.2660631239414215, 'learning_rate': 2.8698993673304743e-05, 'epoch': 3.34}
 14%|█▍        | 10921/78504 [6:38:08<46:05:18,  2.46s/it] 14%|█▍        | 10922/78504 [6:38:10<44:36:13,  2.38s/it]                                                          {'loss': 0.0706, 'grad_norm': 0.35499846935272217, 'learning_rate': 2.8698569062884805e-05, 'epoch': 3.34}
 14%|█▍        | 10922/78504 [6:38:10<44:36:13,  2.38s/it] 14%|█▍        | 10923/78504 [6:38:12<43:26:22,  2.31s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.322788268327713, 'learning_rate': 2.8698144452464864e-05, 'epoch': 3.34}
 14%|█▍        | 10923/78504 [6:38:12<43:26:22,  2.31s/it] 14%|█▍        | 10924/78504 [6:38:14<40:52:24,  2.18s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.3422314524650574, 'learning_rate': 2.8697719842044926e-05, 'epoch': 3.34}
 14%|█▍        | 10924/78504 [6:38:14<40:52:24,  2.18s/it] 14%|█▍        | 10925/78504 [6:38:16<39:49:35,  2.12s/it]                                                          {'loss': 0.074, 'grad_norm': 0.4071977138519287, 'learning_rate': 2.8697295231624985e-05, 'epoch': 3.34}
 14%|█▍        | 10925/78504 [6:38:16<39:49:35,  2.12s/it] 14%|█▍        | 10926/78504 [6:38:18<38:42:31,  2.06s/it]                                                          {'loss': 0.1185, 'grad_norm': 0.3223609924316406, 'learning_rate': 2.8696870621205043e-05, 'epoch': 3.34}
 14%|█▍        | 10926/78504 [6:38:18<38:42:31,  2.06s/it] 14%|█▍        | 10927/78504 [6:38:20<37:42:53,  2.01s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.6447814702987671, 'learning_rate': 2.8696446010785106e-05, 'epoch': 3.34}
 14%|█▍        | 10927/78504 [6:38:20<37:42:53,  2.01s/it] 14%|█▍        | 10928/78504 [6:38:22<36:21:37,  1.94s/it]                                                          {'loss': 0.1187, 'grad_norm': 1.1135859489440918, 'learning_rate': 2.8696021400365164e-05, 'epoch': 3.34}
 14%|█▍        | 10928/78504 [6:38:22<36:21:37,  1.94s/it] 14%|█▍        | 10929/78504 [6:38:23<34:45:34,  1.85s/it]                                                          {'loss': 0.1589, 'grad_norm': 0.6486056447029114, 'learning_rate': 2.8695596789945226e-05, 'epoch': 3.34}
 14%|█▍        | 10929/78504 [6:38:23<34:45:34,  1.85s/it] 14%|█▍        | 10930/78504 [6:38:25<33:03:15,  1.76s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.46527186036109924, 'learning_rate': 2.8695172179525285e-05, 'epoch': 3.34}
 14%|█▍        | 10930/78504 [6:38:25<33:03:15,  1.76s/it] 14%|█▍        | 10931/78504 [6:38:27<31:26:46,  1.68s/it]                                                          {'loss': 0.2007, 'grad_norm': 0.6787195205688477, 'learning_rate': 2.8694747569105347e-05, 'epoch': 3.34}
 14%|█▍        | 10931/78504 [6:38:27<31:26:46,  1.68s/it] 14%|█▍        | 10932/78504 [6:38:28<29:54:54,  1.59s/it]                                                          {'loss': 0.2163, 'grad_norm': 0.9213535189628601, 'learning_rate': 2.8694322958685406e-05, 'epoch': 3.34}
 14%|█▍        | 10932/78504 [6:38:28<29:54:54,  1.59s/it] 14%|█▍        | 10933/78504 [6:38:29<28:11:01,  1.50s/it]                                                          {'loss': 0.1902, 'grad_norm': 1.0492933988571167, 'learning_rate': 2.8693898348265468e-05, 'epoch': 3.34}
 14%|█▍        | 10933/78504 [6:38:29<28:11:01,  1.50s/it] 14%|█▍        | 10934/78504 [6:38:30<26:11:51,  1.40s/it]                                                          {'loss': 0.1925, 'grad_norm': 0.9340243935585022, 'learning_rate': 2.8693473737845527e-05, 'epoch': 3.34}
 14%|█▍        | 10934/78504 [6:38:30<26:11:51,  1.40s/it] 14%|█▍        | 10935/78504 [6:38:31<24:29:44,  1.31s/it]                                                          {'loss': 0.1956, 'grad_norm': 0.9391844868659973, 'learning_rate': 2.869304912742559e-05, 'epoch': 3.34}
 14%|█▍        | 10935/78504 [6:38:31<24:29:44,  1.31s/it] 14%|█▍        | 10936/78504 [6:38:32<23:04:23,  1.23s/it]                                                          {'loss': 0.2059, 'grad_norm': 0.7215834259986877, 'learning_rate': 2.8692624517005647e-05, 'epoch': 3.34}
 14%|█▍        | 10936/78504 [6:38:33<23:04:23,  1.23s/it] 14%|█▍        | 10937/78504 [6:38:33<21:24:00,  1.14s/it]                                                          {'loss': 0.2042, 'grad_norm': 0.8093318939208984, 'learning_rate': 2.869219990658571e-05, 'epoch': 3.34}
 14%|█▍        | 10937/78504 [6:38:33<21:24:00,  1.14s/it] 14%|█▍        | 10938/78504 [6:38:34<19:26:20,  1.04s/it]                                                          {'loss': 0.23, 'grad_norm': 1.2211278676986694, 'learning_rate': 2.8691775296165768e-05, 'epoch': 3.34}
 14%|█▍        | 10938/78504 [6:38:34<19:26:20,  1.04s/it] 14%|█▍        | 10939/78504 [6:38:44<68:21:05,  3.64s/it]                                                          {'loss': 0.17, 'grad_norm': 0.6094898581504822, 'learning_rate': 2.8691350685745827e-05, 'epoch': 3.34}
 14%|█▍        | 10939/78504 [6:38:44<68:21:05,  3.64s/it] 14%|█▍        | 10940/78504 [6:38:47<66:44:07,  3.56s/it]                                                          {'loss': 0.0978, 'grad_norm': 0.35562458634376526, 'learning_rate': 2.869092607532589e-05, 'epoch': 3.34}
 14%|█▍        | 10940/78504 [6:38:47<66:44:07,  3.56s/it] 14%|█▍        | 10941/78504 [6:38:50<63:12:27,  3.37s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.3956395387649536, 'learning_rate': 2.8690501464905948e-05, 'epoch': 3.34}
 14%|█▍        | 10941/78504 [6:38:50<63:12:27,  3.37s/it] 14%|█▍        | 10942/78504 [6:38:53<58:43:58,  3.13s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.2733890414237976, 'learning_rate': 2.869007685448601e-05, 'epoch': 3.35}
 14%|█▍        | 10942/78504 [6:38:53<58:43:58,  3.13s/it] 14%|█▍        | 10943/78504 [6:38:55<55:03:26,  2.93s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.24697129428386688, 'learning_rate': 2.868965224406607e-05, 'epoch': 3.35}
 14%|█▍        | 10943/78504 [6:38:55<55:03:26,  2.93s/it] 14%|█▍        | 10944/78504 [6:38:58<51:18:04,  2.73s/it]                                                          {'loss': 0.0477, 'grad_norm': 0.27841705083847046, 'learning_rate': 2.868922763364613e-05, 'epoch': 3.35}
 14%|█▍        | 10944/78504 [6:38:58<51:18:04,  2.73s/it] 14%|█▍        | 10945/78504 [6:39:00<49:00:33,  2.61s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.42057427763938904, 'learning_rate': 2.868880302322619e-05, 'epoch': 3.35}
 14%|█▍        | 10945/78504 [6:39:00<49:00:33,  2.61s/it] 14%|█▍        | 10946/78504 [6:39:02<46:13:20,  2.46s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.222965806722641, 'learning_rate': 2.868837841280625e-05, 'epoch': 3.35}
 14%|█▍        | 10946/78504 [6:39:02<46:13:20,  2.46s/it] 14%|█▍        | 10947/78504 [6:39:04<44:38:00,  2.38s/it]                                                          {'loss': 0.0706, 'grad_norm': 0.4708074927330017, 'learning_rate': 2.868795380238631e-05, 'epoch': 3.35}
 14%|█▍        | 10947/78504 [6:39:04<44:38:00,  2.38s/it] 14%|█▍        | 10948/78504 [6:39:06<43:20:33,  2.31s/it]                                                          {'loss': 0.0904, 'grad_norm': 1.1123851537704468, 'learning_rate': 2.8687529191966372e-05, 'epoch': 3.35}
 14%|█▍        | 10948/78504 [6:39:06<43:20:33,  2.31s/it] 14%|█▍        | 10949/78504 [6:39:08<41:42:59,  2.22s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.2999650835990906, 'learning_rate': 2.868710458154643e-05, 'epoch': 3.35}
 14%|█▍        | 10949/78504 [6:39:08<41:42:59,  2.22s/it] 14%|█▍        | 10950/78504 [6:39:10<40:22:17,  2.15s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.4670831561088562, 'learning_rate': 2.8686679971126493e-05, 'epoch': 3.35}
 14%|█▍        | 10950/78504 [6:39:10<40:22:17,  2.15s/it] 14%|█▍        | 10951/78504 [6:39:12<38:46:20,  2.07s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.4502103626728058, 'learning_rate': 2.868625536070655e-05, 'epoch': 3.35}
 14%|█▍        | 10951/78504 [6:39:12<38:46:20,  2.07s/it] 14%|█▍        | 10952/78504 [6:39:14<36:49:50,  1.96s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.4629995822906494, 'learning_rate': 2.868583075028661e-05, 'epoch': 3.35}
 14%|█▍        | 10952/78504 [6:39:14<36:49:50,  1.96s/it] 14%|█▍        | 10953/78504 [6:39:16<35:47:05,  1.91s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.4278769791126251, 'learning_rate': 2.8685406139866672e-05, 'epoch': 3.35}
 14%|█▍        | 10953/78504 [6:39:16<35:47:05,  1.91s/it] 14%|█▍        | 10954/78504 [6:39:17<34:19:39,  1.83s/it]                                                          {'loss': 0.1612, 'grad_norm': 0.6294943690299988, 'learning_rate': 2.868498152944673e-05, 'epoch': 3.35}
 14%|█▍        | 10954/78504 [6:39:17<34:19:39,  1.83s/it] 14%|█▍        | 10955/78504 [6:39:19<32:33:07,  1.73s/it]                                                          {'loss': 0.2228, 'grad_norm': 0.7668391466140747, 'learning_rate': 2.8684556919026793e-05, 'epoch': 3.35}
 14%|█▍        | 10955/78504 [6:39:19<32:33:07,  1.73s/it] 14%|█▍        | 10956/78504 [6:39:20<30:50:10,  1.64s/it]                                                          {'loss': 0.1731, 'grad_norm': 0.44285404682159424, 'learning_rate': 2.8684132308606852e-05, 'epoch': 3.35}
 14%|█▍        | 10956/78504 [6:39:20<30:50:10,  1.64s/it] 14%|█▍        | 10957/78504 [6:39:22<29:33:54,  1.58s/it]                                                          {'loss': 0.1846, 'grad_norm': 0.5275416374206543, 'learning_rate': 2.8683707698186914e-05, 'epoch': 3.35}
 14%|█▍        | 10957/78504 [6:39:22<29:33:54,  1.58s/it] 14%|█▍        | 10958/78504 [6:39:23<27:57:56,  1.49s/it]                                                          {'loss': 0.2434, 'grad_norm': 0.6214660406112671, 'learning_rate': 2.8683283087766973e-05, 'epoch': 3.35}
 14%|█▍        | 10958/78504 [6:39:23<27:57:56,  1.49s/it] 14%|█▍        | 10959/78504 [6:39:24<26:04:30,  1.39s/it]                                                          {'loss': 0.1744, 'grad_norm': 0.5198252201080322, 'learning_rate': 2.8682858477347035e-05, 'epoch': 3.35}
 14%|█▍        | 10959/78504 [6:39:24<26:04:30,  1.39s/it] 14%|█▍        | 10960/78504 [6:39:25<24:28:52,  1.30s/it]                                                          {'loss': 0.2113, 'grad_norm': 1.065997838973999, 'learning_rate': 2.8682433866927093e-05, 'epoch': 3.35}
 14%|█▍        | 10960/78504 [6:39:25<24:28:52,  1.30s/it] 14%|█▍        | 10961/78504 [6:39:26<22:44:22,  1.21s/it]                                                          {'loss': 0.2262, 'grad_norm': 1.063598394393921, 'learning_rate': 2.8682009256507156e-05, 'epoch': 3.35}
 14%|█▍        | 10961/78504 [6:39:26<22:44:22,  1.21s/it] 14%|█▍        | 10962/78504 [6:39:27<21:10:48,  1.13s/it]                                                          {'loss': 0.1782, 'grad_norm': 0.9519305229187012, 'learning_rate': 2.8681584646087214e-05, 'epoch': 3.35}
 14%|█▍        | 10962/78504 [6:39:27<21:10:48,  1.13s/it] 14%|█▍        | 10963/78504 [6:39:28<19:12:41,  1.02s/it]                                                          {'loss': 0.241, 'grad_norm': 2.2721149921417236, 'learning_rate': 2.8681160035667276e-05, 'epoch': 3.35}
 14%|█▍        | 10963/78504 [6:39:28<19:12:41,  1.02s/it] 14%|█▍        | 10964/78504 [6:39:36<61:31:22,  3.28s/it]                                                          {'loss': 0.1807, 'grad_norm': 0.38734158873558044, 'learning_rate': 2.8680735425247335e-05, 'epoch': 3.35}
 14%|█▍        | 10964/78504 [6:39:37<61:31:22,  3.28s/it] 14%|█▍        | 10965/78504 [6:39:39<59:29:28,  3.17s/it]                                                          {'loss': 0.0981, 'grad_norm': 0.353187620639801, 'learning_rate': 2.8680310814827394e-05, 'epoch': 3.35}
 14%|█▍        | 10965/78504 [6:39:39<59:29:28,  3.17s/it] 14%|█▍        | 10966/78504 [6:39:42<58:03:25,  3.09s/it]                                                          {'loss': 0.0926, 'grad_norm': 0.25627610087394714, 'learning_rate': 2.8679886204407456e-05, 'epoch': 3.35}
 14%|█▍        | 10966/78504 [6:39:42<58:03:25,  3.09s/it] 14%|█▍        | 10967/78504 [6:39:45<55:24:24,  2.95s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.29596826434135437, 'learning_rate': 2.8679461593987515e-05, 'epoch': 3.35}
 14%|█▍        | 10967/78504 [6:39:45<55:24:24,  2.95s/it] 14%|█▍        | 10968/78504 [6:39:47<52:39:23,  2.81s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.2503947913646698, 'learning_rate': 2.8679036983567577e-05, 'epoch': 3.35}
 14%|█▍        | 10968/78504 [6:39:47<52:39:23,  2.81s/it] 14%|█▍        | 10969/78504 [6:39:50<50:32:26,  2.69s/it]                                                          {'loss': 0.0478, 'grad_norm': 0.2105199247598648, 'learning_rate': 2.8678612373147635e-05, 'epoch': 3.35}
 14%|█▍        | 10969/78504 [6:39:50<50:32:26,  2.69s/it] 14%|█▍        | 10970/78504 [6:39:52<48:24:46,  2.58s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.3283345699310303, 'learning_rate': 2.8678187762727697e-05, 'epoch': 3.35}
 14%|█▍        | 10970/78504 [6:39:52<48:24:46,  2.58s/it] 14%|█▍        | 10971/78504 [6:39:54<46:51:57,  2.50s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.23772189021110535, 'learning_rate': 2.8677763152307756e-05, 'epoch': 3.35}
 14%|█▍        | 10971/78504 [6:39:54<46:51:57,  2.50s/it] 14%|█▍        | 10972/78504 [6:39:57<45:05:21,  2.40s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.20785237848758698, 'learning_rate': 2.8677338541887818e-05, 'epoch': 3.35}
 14%|█▍        | 10972/78504 [6:39:57<45:05:21,  2.40s/it] 14%|█▍        | 10973/78504 [6:39:59<43:44:45,  2.33s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.23355494439601898, 'learning_rate': 2.8676913931467877e-05, 'epoch': 3.35}
 14%|█▍        | 10973/78504 [6:39:59<43:44:45,  2.33s/it] 14%|█▍        | 10974/78504 [6:40:01<41:06:38,  2.19s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.3440993130207062, 'learning_rate': 2.867648932104794e-05, 'epoch': 3.35}
 14%|█▍        | 10974/78504 [6:40:01<41:06:38,  2.19s/it] 14%|█▍        | 10975/78504 [6:40:03<39:56:07,  2.13s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.45965784788131714, 'learning_rate': 2.8676064710627998e-05, 'epoch': 3.36}
 14%|█▍        | 10975/78504 [6:40:03<39:56:07,  2.13s/it] 14%|█▍        | 10976/78504 [6:40:05<38:27:04,  2.05s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.33877554535865784, 'learning_rate': 2.867564010020806e-05, 'epoch': 3.36}
 14%|█▍        | 10976/78504 [6:40:05<38:27:04,  2.05s/it] 14%|█▍        | 10977/78504 [6:40:06<37:16:36,  1.99s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.5566742420196533, 'learning_rate': 2.8675215489788122e-05, 'epoch': 3.36}
 14%|█▍        | 10977/78504 [6:40:06<37:16:36,  1.99s/it] 14%|█▍        | 10978/78504 [6:40:08<35:29:34,  1.89s/it]                                                          {'loss': 0.133, 'grad_norm': 0.4582141637802124, 'learning_rate': 2.867479087936818e-05, 'epoch': 3.36}
 14%|█▍        | 10978/78504 [6:40:08<35:29:34,  1.89s/it] 14%|█▍        | 10979/78504 [6:40:10<34:05:34,  1.82s/it]                                                          {'loss': 0.1636, 'grad_norm': 0.48002511262893677, 'learning_rate': 2.8674366268948243e-05, 'epoch': 3.36}
 14%|█▍        | 10979/78504 [6:40:10<34:05:34,  1.82s/it] 14%|█▍        | 10980/78504 [6:40:11<32:35:45,  1.74s/it]                                                          {'loss': 0.1631, 'grad_norm': 0.6613157987594604, 'learning_rate': 2.86739416585283e-05, 'epoch': 3.36}
 14%|█▍        | 10980/78504 [6:40:11<32:35:45,  1.74s/it] 14%|█▍        | 10981/78504 [6:40:13<31:57:30,  1.70s/it]                                                          {'loss': 0.1387, 'grad_norm': 0.4610394835472107, 'learning_rate': 2.8673517048108363e-05, 'epoch': 3.36}
 14%|█▍        | 10981/78504 [6:40:13<31:57:30,  1.70s/it] 14%|█▍        | 10982/78504 [6:40:14<30:18:31,  1.62s/it]                                                          {'loss': 0.2126, 'grad_norm': 0.8438497185707092, 'learning_rate': 2.8673092437688422e-05, 'epoch': 3.36}
 14%|█▍        | 10982/78504 [6:40:14<30:18:31,  1.62s/it] 14%|█▍        | 10983/78504 [6:40:16<28:28:25,  1.52s/it]                                                          {'loss': 0.1781, 'grad_norm': 0.5415909886360168, 'learning_rate': 2.8672667827268484e-05, 'epoch': 3.36}
 14%|█▍        | 10983/78504 [6:40:16<28:28:25,  1.52s/it] 14%|█▍        | 10984/78504 [6:40:17<26:27:37,  1.41s/it]                                                          {'loss': 0.1699, 'grad_norm': 0.6382995247840881, 'learning_rate': 2.8672243216848543e-05, 'epoch': 3.36}
 14%|█▍        | 10984/78504 [6:40:17<26:27:37,  1.41s/it] 14%|█▍        | 10985/78504 [6:40:18<24:42:53,  1.32s/it]                                                          {'loss': 0.1867, 'grad_norm': 0.7932626605033875, 'learning_rate': 2.8671818606428605e-05, 'epoch': 3.36}
 14%|█▍        | 10985/78504 [6:40:18<24:42:53,  1.32s/it] 14%|█▍        | 10986/78504 [6:40:19<22:54:09,  1.22s/it]                                                          {'loss': 0.1835, 'grad_norm': 0.9882655143737793, 'learning_rate': 2.8671393996008664e-05, 'epoch': 3.36}
 14%|█▍        | 10986/78504 [6:40:19<22:54:09,  1.22s/it] 14%|█▍        | 10987/78504 [6:40:20<21:16:31,  1.13s/it]                                                          {'loss': 0.194, 'grad_norm': 1.3365654945373535, 'learning_rate': 2.8670969385588726e-05, 'epoch': 3.36}
 14%|█▍        | 10987/78504 [6:40:20<21:16:31,  1.13s/it] 14%|█▍        | 10988/78504 [6:40:21<19:17:41,  1.03s/it]                                                          {'loss': 0.2397, 'grad_norm': 1.6371628046035767, 'learning_rate': 2.8670544775168785e-05, 'epoch': 3.36}
 14%|█▍        | 10988/78504 [6:40:21<19:17:41,  1.03s/it] 14%|█▍        | 10989/78504 [6:40:29<59:52:50,  3.19s/it]                                                          {'loss': 0.1801, 'grad_norm': 0.3053208291530609, 'learning_rate': 2.8670120164748843e-05, 'epoch': 3.36}
 14%|█▍        | 10989/78504 [6:40:29<59:52:50,  3.19s/it] 14%|█▍        | 10990/78504 [6:40:32<60:28:47,  3.22s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.27863234281539917, 'learning_rate': 2.8669695554328905e-05, 'epoch': 3.36}
 14%|█▍        | 10990/78504 [6:40:32<60:28:47,  3.22s/it] 14%|█▍        | 10991/78504 [6:40:35<59:08:16,  3.15s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.27088072896003723, 'learning_rate': 2.8669270943908964e-05, 'epoch': 3.36}
 14%|█▍        | 10991/78504 [6:40:35<59:08:16,  3.15s/it] 14%|█▍        | 10992/78504 [6:40:38<56:06:43,  2.99s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.2601951062679291, 'learning_rate': 2.8668846333489026e-05, 'epoch': 3.36}
 14%|█▍        | 10992/78504 [6:40:38<56:06:43,  2.99s/it] 14%|█▍        | 10993/78504 [6:40:40<53:09:29,  2.83s/it]                                                          {'loss': 0.0505, 'grad_norm': 0.23795567452907562, 'learning_rate': 2.8668421723069085e-05, 'epoch': 3.36}
 14%|█▍        | 10993/78504 [6:40:40<53:09:29,  2.83s/it] 14%|█▍        | 10994/78504 [6:40:43<50:51:48,  2.71s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.3159230053424835, 'learning_rate': 2.8667997112649147e-05, 'epoch': 3.36}
 14%|█▍        | 10994/78504 [6:40:43<50:51:48,  2.71s/it] 14%|█▍        | 10995/78504 [6:40:45<48:39:43,  2.59s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.24406912922859192, 'learning_rate': 2.8667572502229206e-05, 'epoch': 3.36}
 14%|█▍        | 10995/78504 [6:40:45<48:39:43,  2.59s/it] 14%|█▍        | 10996/78504 [6:40:47<45:56:11,  2.45s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.8313982486724854, 'learning_rate': 2.8667147891809268e-05, 'epoch': 3.36}
 14%|█▍        | 10996/78504 [6:40:47<45:56:11,  2.45s/it] 14%|█▍        | 10997/78504 [6:40:49<44:26:13,  2.37s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.45065468549728394, 'learning_rate': 2.8666723281389326e-05, 'epoch': 3.36}
 14%|█▍        | 10997/78504 [6:40:49<44:26:13,  2.37s/it] 14%|█▍        | 10998/78504 [6:40:51<43:10:44,  2.30s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.39944037795066833, 'learning_rate': 2.866629867096939e-05, 'epoch': 3.36}
 14%|█▍        | 10998/78504 [6:40:51<43:10:44,  2.30s/it] 14%|█▍        | 10999/78504 [6:40:53<41:37:51,  2.22s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.5261447429656982, 'learning_rate': 2.8665874060549447e-05, 'epoch': 3.36}
 14%|█▍        | 10999/78504 [6:40:53<41:37:51,  2.22s/it] 14%|█▍        | 11000/78504 [6:40:55<40:15:53,  2.15s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.3151904046535492, 'learning_rate': 2.866544945012951e-05, 'epoch': 3.36}
 14%|█▍        | 11000/78504 [6:40:55<40:15:53,  2.15s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.27it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.56it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.62it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.73it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.05it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.50it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.48it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.73it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.09it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.45it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.64it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.92it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.34it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.20it/s][A                                                          
                                               [A{'eval_loss': 0.24274443089962006, 'eval_wer': 0.334655456551493, 'eval_cer': 0.1902883702661124, 'eval_runtime': 19.0896, 'eval_samples_per_second': 237.721, 'eval_steps_per_second': 0.786, 'epoch': 3.36}
 14%|█▍        | 11000/78504 [6:42:00<40:15:53,  2.15s/it]
100%|██████████| 15/15 [00:11<00:00,  1.20it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-11000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-9000] due to args.save_total_limit
 14%|█▍        | 11001/78504 [6:42:17<484:59:13, 25.86s/it]                                                           {'loss': 0.088, 'grad_norm': 0.40215015411376953, 'learning_rate': 2.8665024839709568e-05, 'epoch': 3.36}
 14%|█▍        | 11001/78504 [6:42:17<484:59:13, 25.86s/it] 14%|█▍        | 11002/78504 [6:42:18<349:42:06, 18.65s/it]                                                           {'loss': 0.1085, 'grad_norm': 0.30165529251098633, 'learning_rate': 2.8664600229289627e-05, 'epoch': 3.36}
 14%|█▍        | 11002/78504 [6:42:18<349:42:06, 18.65s/it] 14%|█▍        | 11003/78504 [6:42:20<254:42:50, 13.58s/it]                                                           {'loss': 0.1553, 'grad_norm': 0.6867185235023499, 'learning_rate': 2.866417561886969e-05, 'epoch': 3.36}
 14%|█▍        | 11003/78504 [6:42:20<254:42:50, 13.58s/it] 14%|█▍        | 11004/78504 [6:42:22<187:26:21, 10.00s/it]                                                           {'loss': 0.1669, 'grad_norm': 0.7095072865486145, 'learning_rate': 2.8663751008449747e-05, 'epoch': 3.36}
 14%|█▍        | 11004/78504 [6:42:22<187:26:21, 10.00s/it] 14%|█▍        | 11005/78504 [6:42:23<139:50:26,  7.46s/it]                                                           {'loss': 0.142, 'grad_norm': 0.7562287449836731, 'learning_rate': 2.866332639802981e-05, 'epoch': 3.36}
 14%|█▍        | 11005/78504 [6:42:23<139:50:26,  7.46s/it] 14%|█▍        | 11006/78504 [6:42:25<106:05:50,  5.66s/it]                                                           {'loss': 0.1565, 'grad_norm': 0.693246603012085, 'learning_rate': 2.8662901787609868e-05, 'epoch': 3.36}
 14%|█▍        | 11006/78504 [6:42:25<106:05:50,  5.66s/it] 14%|█▍        | 11007/78504 [6:42:26<82:10:57,  4.38s/it]                                                           {'loss': 0.1992, 'grad_norm': 0.6014534831047058, 'learning_rate': 2.866247717718993e-05, 'epoch': 3.37}
 14%|█▍        | 11007/78504 [6:42:26<82:10:57,  4.38s/it] 14%|█▍        | 11008/78504 [6:42:27<64:41:12,  3.45s/it]                                                          {'loss': 0.146, 'grad_norm': 0.6453886032104492, 'learning_rate': 2.866205256676999e-05, 'epoch': 3.37}
 14%|█▍        | 11008/78504 [6:42:27<64:41:12,  3.45s/it] 14%|█▍        | 11009/78504 [6:42:29<51:44:57,  2.76s/it]                                                          {'loss': 0.1536, 'grad_norm': 0.755530059337616, 'learning_rate': 2.866162795635005e-05, 'epoch': 3.37}
 14%|█▍        | 11009/78504 [6:42:29<51:44:57,  2.76s/it] 14%|█▍        | 11010/78504 [6:42:30<42:20:47,  2.26s/it]                                                          {'loss': 0.1667, 'grad_norm': 0.9337927103042603, 'learning_rate': 2.866120334593011e-05, 'epoch': 3.37}
 14%|█▍        | 11010/78504 [6:42:30<42:20:47,  2.26s/it] 14%|█▍        | 11011/78504 [6:42:31<35:29:54,  1.89s/it]                                                          {'loss': 0.2007, 'grad_norm': 1.51158607006073, 'learning_rate': 2.8660778735510172e-05, 'epoch': 3.37}
 14%|█▍        | 11011/78504 [6:42:31<35:29:54,  1.89s/it] 14%|█▍        | 11012/78504 [6:42:32<30:01:47,  1.60s/it]                                                          {'loss': 0.189, 'grad_norm': 2.4377951622009277, 'learning_rate': 2.866035412509023e-05, 'epoch': 3.37}
 14%|█▍        | 11012/78504 [6:42:32<30:01:47,  1.60s/it] 14%|█▍        | 11013/78504 [6:42:32<25:34:47,  1.36s/it]                                                          {'loss': 0.2072, 'grad_norm': 2.2643561363220215, 'learning_rate': 2.8659929514670293e-05, 'epoch': 3.37}
 14%|█▍        | 11013/78504 [6:42:32<25:34:47,  1.36s/it] 14%|█▍        | 11014/78504 [6:42:42<69:37:19,  3.71s/it]                                                          {'loss': 0.1638, 'grad_norm': 0.372999906539917, 'learning_rate': 2.865950490425035e-05, 'epoch': 3.37}
 14%|█▍        | 11014/78504 [6:42:42<69:37:19,  3.71s/it] 14%|█▍        | 11015/78504 [6:42:45<66:13:19,  3.53s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.6373817920684814, 'learning_rate': 2.865908029383041e-05, 'epoch': 3.37}
 14%|█▍        | 11015/78504 [6:42:45<66:13:19,  3.53s/it] 14%|█▍        | 11016/78504 [6:42:48<63:15:08,  3.37s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.24770371615886688, 'learning_rate': 2.8658655683410472e-05, 'epoch': 3.37}
 14%|█▍        | 11016/78504 [6:42:48<63:15:08,  3.37s/it] 14%|█▍        | 11017/78504 [6:42:50<57:50:53,  3.09s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.41431474685668945, 'learning_rate': 2.865823107299053e-05, 'epoch': 3.37}
 14%|█▍        | 11017/78504 [6:42:50<57:50:53,  3.09s/it] 14%|█▍        | 11018/78504 [6:42:53<54:25:14,  2.90s/it]                                                          {'loss': 0.078, 'grad_norm': 0.6104310154914856, 'learning_rate': 2.8657806462570593e-05, 'epoch': 3.37}
 14%|█▍        | 11018/78504 [6:42:53<54:25:14,  2.90s/it] 14%|█▍        | 11019/78504 [6:42:55<50:45:40,  2.71s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.887670636177063, 'learning_rate': 2.865738185215065e-05, 'epoch': 3.37}
 14%|█▍        | 11019/78504 [6:42:55<50:45:40,  2.71s/it] 14%|█▍        | 11020/78504 [6:42:57<48:35:45,  2.59s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.331271767616272, 'learning_rate': 2.8656957241730714e-05, 'epoch': 3.37}
 14%|█▍        | 11020/78504 [6:42:57<48:35:45,  2.59s/it] 14%|█▍        | 11021/78504 [6:42:59<45:49:21,  2.44s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.23046717047691345, 'learning_rate': 2.8656532631310772e-05, 'epoch': 3.37}
 14%|█▍        | 11021/78504 [6:42:59<45:49:21,  2.44s/it] 14%|█▍        | 11022/78504 [6:43:01<43:27:05,  2.32s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.7297018766403198, 'learning_rate': 2.8656108020890835e-05, 'epoch': 3.37}
 14%|█▍        | 11022/78504 [6:43:01<43:27:05,  2.32s/it] 14%|█▍        | 11023/78504 [6:43:03<42:24:57,  2.26s/it]                                                          {'loss': 0.0646, 'grad_norm': 0.8349404335021973, 'learning_rate': 2.8655683410470893e-05, 'epoch': 3.37}
 14%|█▍        | 11023/78504 [6:43:03<42:24:57,  2.26s/it] 14%|█▍        | 11024/78504 [6:43:05<41:02:07,  2.19s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.2331169843673706, 'learning_rate': 2.8655258800050955e-05, 'epoch': 3.37}
 14%|█▍        | 11024/78504 [6:43:06<41:02:07,  2.19s/it] 14%|█▍        | 11025/78504 [6:43:07<39:49:32,  2.12s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.573587954044342, 'learning_rate': 2.8654834189631014e-05, 'epoch': 3.37}
 14%|█▍        | 11025/78504 [6:43:07<39:49:32,  2.12s/it] 14%|█▍        | 11026/78504 [6:43:09<38:20:51,  2.05s/it]                                                          {'loss': 0.082, 'grad_norm': 3.483689069747925, 'learning_rate': 2.8654409579211076e-05, 'epoch': 3.37}
 14%|█▍        | 11026/78504 [6:43:09<38:20:51,  2.05s/it] 14%|█▍        | 11027/78504 [6:43:11<37:09:47,  1.98s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.35768070816993713, 'learning_rate': 2.8653984968791135e-05, 'epoch': 3.37}
 14%|█▍        | 11027/78504 [6:43:11<37:09:47,  1.98s/it] 14%|█▍        | 11028/78504 [6:43:13<35:43:22,  1.91s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.41181617975234985, 'learning_rate': 2.8653560358371194e-05, 'epoch': 3.37}
 14%|█▍        | 11028/78504 [6:43:13<35:43:22,  1.91s/it] 14%|█▍        | 11029/78504 [6:43:15<34:14:43,  1.83s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.5587811470031738, 'learning_rate': 2.8653135747951256e-05, 'epoch': 3.37}
 14%|█▍        | 11029/78504 [6:43:15<34:14:43,  1.83s/it] 14%|█▍        | 11030/78504 [6:43:16<32:35:34,  1.74s/it]                                                          {'loss': 0.107, 'grad_norm': 0.4432947337627411, 'learning_rate': 2.8652711137531314e-05, 'epoch': 3.37}
 14%|█▍        | 11030/78504 [6:43:16<32:35:34,  1.74s/it] 14%|█▍        | 11031/78504 [6:43:18<31:03:21,  1.66s/it]                                                          {'loss': 0.152, 'grad_norm': 0.4617578387260437, 'learning_rate': 2.8652286527111376e-05, 'epoch': 3.37}
 14%|█▍        | 11031/78504 [6:43:18<31:03:21,  1.66s/it] 14%|█▍        | 11032/78504 [6:43:19<29:41:30,  1.58s/it]                                                          {'loss': 0.2014, 'grad_norm': 0.5859404802322388, 'learning_rate': 2.8651861916691435e-05, 'epoch': 3.37}
 14%|█▍        | 11032/78504 [6:43:19<29:41:30,  1.58s/it] 14%|█▍        | 11033/78504 [6:43:20<28:00:24,  1.49s/it]                                                          {'loss': 0.1935, 'grad_norm': 0.8241380453109741, 'learning_rate': 2.8651437306271497e-05, 'epoch': 3.37}
 14%|█▍        | 11033/78504 [6:43:20<28:00:24,  1.49s/it] 14%|█▍        | 11034/78504 [6:43:21<26:05:58,  1.39s/it]                                                          {'loss': 0.2178, 'grad_norm': 0.5669066309928894, 'learning_rate': 2.8651012695851556e-05, 'epoch': 3.37}
 14%|█▍        | 11034/78504 [6:43:21<26:05:58,  1.39s/it] 14%|█▍        | 11035/78504 [6:43:22<24:22:34,  1.30s/it]                                                          {'loss': 0.1787, 'grad_norm': 0.8821679949760437, 'learning_rate': 2.8650588085431618e-05, 'epoch': 3.37}
 14%|█▍        | 11035/78504 [6:43:22<24:22:34,  1.30s/it] 14%|█▍        | 11036/78504 [6:43:24<22:56:32,  1.22s/it]                                                          {'loss': 0.1803, 'grad_norm': 0.855734646320343, 'learning_rate': 2.8650163475011677e-05, 'epoch': 3.37}
 14%|█▍        | 11036/78504 [6:43:24<22:56:32,  1.22s/it] 14%|█▍        | 11037/78504 [6:43:24<21:18:05,  1.14s/it]                                                          {'loss': 0.192, 'grad_norm': 1.6160091161727905, 'learning_rate': 2.864973886459174e-05, 'epoch': 3.37}
 14%|█▍        | 11037/78504 [6:43:24<21:18:05,  1.14s/it] 14%|█▍        | 11038/78504 [6:43:25<19:20:53,  1.03s/it]                                                          {'loss': 0.2759, 'grad_norm': 1.5723912715911865, 'learning_rate': 2.8649314254171797e-05, 'epoch': 3.37}
 14%|█▍        | 11038/78504 [6:43:25<19:20:53,  1.03s/it] 14%|█▍        | 11039/78504 [6:43:34<61:59:57,  3.31s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.3113328218460083, 'learning_rate': 2.864888964375186e-05, 'epoch': 3.37}
 14%|█▍        | 11039/78504 [6:43:34<61:59:57,  3.31s/it] 14%|█▍        | 11040/78504 [6:43:37<60:55:12,  3.25s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.39645764231681824, 'learning_rate': 2.8648465033331918e-05, 'epoch': 3.38}
 14%|█▍        | 11040/78504 [6:43:37<60:55:12,  3.25s/it] 14%|█▍        | 11041/78504 [6:43:40<59:34:29,  3.18s/it]                                                          {'loss': 0.0855, 'grad_norm': 0.2672535479068756, 'learning_rate': 2.8648040422911977e-05, 'epoch': 3.38}
 14%|█▍        | 11041/78504 [6:43:40<59:34:29,  3.18s/it] 14%|█▍        | 11042/78504 [6:43:43<56:23:50,  3.01s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.2784367501735687, 'learning_rate': 2.864761581249204e-05, 'epoch': 3.38}
 14%|█▍        | 11042/78504 [6:43:43<56:23:50,  3.01s/it] 14%|█▍        | 11043/78504 [6:43:45<53:18:33,  2.84s/it]                                                          {'loss': 0.0553, 'grad_norm': 0.4318382441997528, 'learning_rate': 2.8647191202072098e-05, 'epoch': 3.38}
 14%|█▍        | 11043/78504 [6:43:45<53:18:33,  2.84s/it] 14%|█▍        | 11044/78504 [6:43:47<50:02:44,  2.67s/it]                                                          {'loss': 0.0414, 'grad_norm': 0.15545929968357086, 'learning_rate': 2.864676659165216e-05, 'epoch': 3.38}
 14%|█▍        | 11044/78504 [6:43:47<50:02:44,  2.67s/it] 14%|█▍        | 11045/78504 [6:43:50<48:00:27,  2.56s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.34027111530303955, 'learning_rate': 2.864634198123222e-05, 'epoch': 3.38}
 14%|█▍        | 11045/78504 [6:43:50<48:00:27,  2.56s/it] 14%|█▍        | 11046/78504 [6:43:52<45:20:09,  2.42s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.36154812574386597, 'learning_rate': 2.864591737081228e-05, 'epoch': 3.38}
 14%|█▍        | 11046/78504 [6:43:52<45:20:09,  2.42s/it] 14%|█▍        | 11047/78504 [6:43:54<44:00:09,  2.35s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.2341439425945282, 'learning_rate': 2.864549276039234e-05, 'epoch': 3.38}
 14%|█▍        | 11047/78504 [6:43:54<44:00:09,  2.35s/it] 14%|█▍        | 11048/78504 [6:43:56<42:49:37,  2.29s/it]                                                          {'loss': 0.047, 'grad_norm': 0.1983947604894638, 'learning_rate': 2.86450681499724e-05, 'epoch': 3.38}
 14%|█▍        | 11048/78504 [6:43:56<42:49:37,  2.29s/it] 14%|█▍        | 11049/78504 [6:43:58<40:25:27,  2.16s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.41315576434135437, 'learning_rate': 2.864464353955246e-05, 'epoch': 3.38}
 14%|█▍        | 11049/78504 [6:43:58<40:25:27,  2.16s/it] 14%|█▍        | 11050/78504 [6:44:00<39:26:06,  2.10s/it]                                                          {'loss': 0.073, 'grad_norm': 0.6048937439918518, 'learning_rate': 2.8644218929132522e-05, 'epoch': 3.38}
 14%|█▍        | 11050/78504 [6:44:00<39:26:06,  2.10s/it] 14%|█▍        | 11051/78504 [6:44:02<38:25:00,  2.05s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.25351670384407043, 'learning_rate': 2.864379431871258e-05, 'epoch': 3.38}
 14%|█▍        | 11051/78504 [6:44:02<38:25:00,  2.05s/it] 14%|█▍        | 11052/78504 [6:44:04<37:22:15,  1.99s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.39158695936203003, 'learning_rate': 2.8643369708292643e-05, 'epoch': 3.38}
 14%|█▍        | 11052/78504 [6:44:04<37:22:15,  1.99s/it] 14%|█▍        | 11053/78504 [6:44:05<36:03:53,  1.92s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.6705509424209595, 'learning_rate': 2.86429450978727e-05, 'epoch': 3.38}
 14%|█▍        | 11053/78504 [6:44:05<36:03:53,  1.92s/it] 14%|█▍        | 11054/78504 [6:44:07<34:12:39,  1.83s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.4507009983062744, 'learning_rate': 2.864252048745276e-05, 'epoch': 3.38}
 14%|█▍        | 11054/78504 [6:44:07<34:12:39,  1.83s/it] 14%|█▍        | 11055/78504 [6:44:09<32:37:08,  1.74s/it]                                                          {'loss': 0.162, 'grad_norm': 0.9302592873573303, 'learning_rate': 2.8642095877032822e-05, 'epoch': 3.38}
 14%|█▍        | 11055/78504 [6:44:09<32:37:08,  1.74s/it] 14%|█▍        | 11056/78504 [6:44:10<31:16:09,  1.67s/it]                                                          {'loss': 0.1696, 'grad_norm': 1.054091453552246, 'learning_rate': 2.864167126661288e-05, 'epoch': 3.38}
 14%|█▍        | 11056/78504 [6:44:10<31:16:09,  1.67s/it] 14%|█▍        | 11057/78504 [6:44:11<29:49:05,  1.59s/it]                                                          {'loss': 0.1648, 'grad_norm': 0.5973097085952759, 'learning_rate': 2.8641246656192943e-05, 'epoch': 3.38}
 14%|█▍        | 11057/78504 [6:44:12<29:49:05,  1.59s/it] 14%|█▍        | 11058/78504 [6:44:13<28:10:32,  1.50s/it]                                                          {'loss': 0.164, 'grad_norm': 0.6645049452781677, 'learning_rate': 2.8640822045773002e-05, 'epoch': 3.38}
 14%|█▍        | 11058/78504 [6:44:13<28:10:32,  1.50s/it] 14%|█▍        | 11059/78504 [6:44:14<26:30:28,  1.41s/it]                                                          {'loss': 0.176, 'grad_norm': 0.9313128590583801, 'learning_rate': 2.8640397435353064e-05, 'epoch': 3.38}
 14%|█▍        | 11059/78504 [6:44:14<26:30:28,  1.41s/it] 14%|█▍        | 11060/78504 [6:44:15<24:42:33,  1.32s/it]                                                          {'loss': 0.2027, 'grad_norm': 1.921385407447815, 'learning_rate': 2.8639972824933123e-05, 'epoch': 3.38}
 14%|█▍        | 11060/78504 [6:44:15<24:42:33,  1.32s/it] 14%|█▍        | 11061/78504 [6:44:16<23:09:03,  1.24s/it]                                                          {'loss': 0.2362, 'grad_norm': 2.224595785140991, 'learning_rate': 2.8639548214513185e-05, 'epoch': 3.38}
 14%|█▍        | 11061/78504 [6:44:16<23:09:03,  1.24s/it] 14%|█▍        | 11062/78504 [6:44:17<21:22:30,  1.14s/it]                                                          {'loss': 0.2209, 'grad_norm': 1.0008517503738403, 'learning_rate': 2.8639123604093244e-05, 'epoch': 3.38}
 14%|█▍        | 11062/78504 [6:44:17<21:22:30,  1.14s/it] 14%|█▍        | 11063/78504 [6:44:18<19:10:22,  1.02s/it]                                                          {'loss': 0.2313, 'grad_norm': 1.840315341949463, 'learning_rate': 2.8638698993673306e-05, 'epoch': 3.38}
 14%|█▍        | 11063/78504 [6:44:18<19:10:22,  1.02s/it] 14%|█▍        | 11064/78504 [6:44:26<57:40:33,  3.08s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.3402838408946991, 'learning_rate': 2.8638274383253364e-05, 'epoch': 3.38}
 14%|█▍        | 11064/78504 [6:44:26<57:40:33,  3.08s/it] 14%|█▍        | 11065/78504 [6:44:29<59:14:24,  3.16s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.4807402789592743, 'learning_rate': 2.8637849772833426e-05, 'epoch': 3.38}
 14%|█▍        | 11065/78504 [6:44:29<59:14:24,  3.16s/it] 14%|█▍        | 11066/78504 [6:44:32<57:54:02,  3.09s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.30192625522613525, 'learning_rate': 2.8637425162413485e-05, 'epoch': 3.38}
 14%|█▍        | 11066/78504 [6:44:32<57:54:02,  3.09s/it] 14%|█▍        | 11067/78504 [6:44:35<55:00:08,  2.94s/it]                                                          {'loss': 0.0607, 'grad_norm': 1.0920705795288086, 'learning_rate': 2.8637000551993544e-05, 'epoch': 3.38}
 14%|█▍        | 11067/78504 [6:44:35<55:00:08,  2.94s/it] 14%|█▍        | 11068/78504 [6:44:37<52:32:41,  2.81s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.35483071208000183, 'learning_rate': 2.8636575941573606e-05, 'epoch': 3.38}
 14%|█▍        | 11068/78504 [6:44:37<52:32:41,  2.81s/it] 14%|█▍        | 11069/78504 [6:44:39<50:32:36,  2.70s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.40638643503189087, 'learning_rate': 2.8636151331153665e-05, 'epoch': 3.38}
 14%|█▍        | 11069/78504 [6:44:39<50:32:36,  2.70s/it] 14%|█▍        | 11070/78504 [6:44:42<48:27:51,  2.59s/it]                                                          {'loss': 0.0545, 'grad_norm': 0.16627974808216095, 'learning_rate': 2.8635726720733727e-05, 'epoch': 3.38}
 14%|█▍        | 11070/78504 [6:44:42<48:27:51,  2.59s/it] 14%|█▍        | 11071/78504 [6:44:44<46:52:06,  2.50s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.7012414336204529, 'learning_rate': 2.8635302110313785e-05, 'epoch': 3.38}
 14%|█▍        | 11071/78504 [6:44:44<46:52:06,  2.50s/it] 14%|█▍        | 11072/78504 [6:44:46<45:08:19,  2.41s/it]                                                          {'loss': 0.0745, 'grad_norm': 1.6224665641784668, 'learning_rate': 2.8634877499893847e-05, 'epoch': 3.38}
 14%|█▍        | 11072/78504 [6:44:46<45:08:19,  2.41s/it] 14%|█▍        | 11073/78504 [6:44:48<43:47:30,  2.34s/it]                                                          {'loss': 0.071, 'grad_norm': 0.2740088403224945, 'learning_rate': 2.8634452889473906e-05, 'epoch': 3.39}
 14%|█▍        | 11073/78504 [6:44:48<43:47:30,  2.34s/it] 14%|█▍        | 11074/78504 [6:44:50<41:09:58,  2.20s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.22916315495967865, 'learning_rate': 2.8634028279053968e-05, 'epoch': 3.39}
 14%|█▍        | 11074/78504 [6:44:50<41:09:58,  2.20s/it] 14%|█▍        | 11075/78504 [6:44:52<40:01:29,  2.14s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.6614203453063965, 'learning_rate': 2.8633603668634027e-05, 'epoch': 3.39}
 14%|█▍        | 11075/78504 [6:44:52<40:01:29,  2.14s/it] 14%|█▍        | 11076/78504 [6:44:54<38:51:04,  2.07s/it]                                                          {'loss': 0.1468, 'grad_norm': 1.0529242753982544, 'learning_rate': 2.863317905821409e-05, 'epoch': 3.39}
 14%|█▍        | 11076/78504 [6:44:54<38:51:04,  2.07s/it] 14%|█▍        | 11077/78504 [6:44:56<37:46:30,  2.02s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.48655271530151367, 'learning_rate': 2.8632754447794148e-05, 'epoch': 3.39}
 14%|█▍        | 11077/78504 [6:44:56<37:46:30,  2.02s/it] 14%|█▍        | 11078/78504 [6:44:58<36:22:34,  1.94s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.5450708866119385, 'learning_rate': 2.863232983737421e-05, 'epoch': 3.39}
 14%|█▍        | 11078/78504 [6:44:58<36:22:34,  1.94s/it] 14%|█▍        | 11079/78504 [6:45:00<34:43:49,  1.85s/it]                                                          {'loss': 0.1543, 'grad_norm': 0.6146869659423828, 'learning_rate': 2.8631905226954272e-05, 'epoch': 3.39}
 14%|█▍        | 11079/78504 [6:45:00<34:43:49,  1.85s/it] 14%|█▍        | 11080/78504 [6:45:01<32:55:18,  1.76s/it]                                                          {'loss': 0.1626, 'grad_norm': 2.2542314529418945, 'learning_rate': 2.863148061653433e-05, 'epoch': 3.39}
 14%|█▍        | 11080/78504 [6:45:01<32:55:18,  1.76s/it] 14%|█▍        | 11081/78504 [6:45:03<31:04:40,  1.66s/it]                                                          {'loss': 0.1868, 'grad_norm': 1.0433634519577026, 'learning_rate': 2.8631056006114393e-05, 'epoch': 3.39}
 14%|█▍        | 11081/78504 [6:45:03<31:04:40,  1.66s/it] 14%|█▍        | 11082/78504 [6:45:04<29:44:53,  1.59s/it]                                                          {'loss': 0.1683, 'grad_norm': 0.6640366911888123, 'learning_rate': 2.863063139569445e-05, 'epoch': 3.39}
 14%|█▍        | 11082/78504 [6:45:04<29:44:53,  1.59s/it] 14%|█▍        | 11083/78504 [6:45:05<28:02:13,  1.50s/it]                                                          {'loss': 0.2142, 'grad_norm': 1.3204659223556519, 'learning_rate': 2.8630206785274513e-05, 'epoch': 3.39}
 14%|█▍        | 11083/78504 [6:45:05<28:02:13,  1.50s/it] 14%|█▍        | 11084/78504 [6:45:06<25:56:13,  1.38s/it]                                                          {'loss': 0.2118, 'grad_norm': 0.6997808814048767, 'learning_rate': 2.8629782174854572e-05, 'epoch': 3.39}
 14%|█▍        | 11084/78504 [6:45:06<25:56:13,  1.38s/it] 14%|█▍        | 11085/78504 [6:45:07<24:18:49,  1.30s/it]                                                          {'loss': 0.212, 'grad_norm': 2.6383376121520996, 'learning_rate': 2.8629357564434634e-05, 'epoch': 3.39}
 14%|█▍        | 11085/78504 [6:45:07<24:18:49,  1.30s/it] 14%|█▍        | 11086/78504 [6:45:08<22:36:13,  1.21s/it]                                                          {'loss': 0.2072, 'grad_norm': 3.2764742374420166, 'learning_rate': 2.8628932954014693e-05, 'epoch': 3.39}
 14%|█▍        | 11086/78504 [6:45:08<22:36:13,  1.21s/it] 14%|█▍        | 11087/78504 [6:45:09<21:08:07,  1.13s/it]                                                          {'loss': 0.2518, 'grad_norm': 1.4518520832061768, 'learning_rate': 2.8628508343594755e-05, 'epoch': 3.39}
 14%|█▍        | 11087/78504 [6:45:09<21:08:07,  1.13s/it] 14%|█▍        | 11088/78504 [6:45:10<19:11:13,  1.02s/it]                                                          {'loss': 0.3037, 'grad_norm': 1.7917150259017944, 'learning_rate': 2.8628083733174814e-05, 'epoch': 3.39}
 14%|█▍        | 11088/78504 [6:45:10<19:11:13,  1.02s/it] 14%|█▍        | 11089/78504 [6:45:16<48:34:17,  2.59s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.5822088718414307, 'learning_rate': 2.8627659122754876e-05, 'epoch': 3.39}
 14%|█▍        | 11089/78504 [6:45:16<48:34:17,  2.59s/it] 14%|█▍        | 11090/78504 [6:45:19<51:15:19,  2.74s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.7069395780563354, 'learning_rate': 2.8627234512334935e-05, 'epoch': 3.39}
 14%|█▍        | 11090/78504 [6:45:20<51:15:19,  2.74s/it] 14%|█▍        | 11091/78504 [6:45:22<50:18:01,  2.69s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.44877105951309204, 'learning_rate': 2.8626809901914997e-05, 'epoch': 3.39}
 14%|█▍        | 11091/78504 [6:45:22<50:18:01,  2.69s/it] 14%|█▍        | 11092/78504 [6:45:25<49:40:03,  2.65s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.3514990508556366, 'learning_rate': 2.8626385291495055e-05, 'epoch': 3.39}
 14%|█▍        | 11092/78504 [6:45:25<49:40:03,  2.65s/it] 14%|█▍        | 11093/78504 [6:45:27<48:38:59,  2.60s/it]                                                          {'loss': 0.0589, 'grad_norm': 0.5522249341011047, 'learning_rate': 2.8625960681075114e-05, 'epoch': 3.39}
 14%|█▍        | 11093/78504 [6:45:27<48:38:59,  2.60s/it] 14%|█▍        | 11094/78504 [6:45:29<46:45:30,  2.50s/it]                                                          {'loss': 0.05, 'grad_norm': 0.4326910078525543, 'learning_rate': 2.8625536070655176e-05, 'epoch': 3.39}
 14%|█▍        | 11094/78504 [6:45:29<46:45:30,  2.50s/it] 14%|█▍        | 11095/78504 [6:45:32<45:44:49,  2.44s/it]                                                          {'loss': 0.074, 'grad_norm': 0.3183179497718811, 'learning_rate': 2.8625111460235235e-05, 'epoch': 3.39}
 14%|█▍        | 11095/78504 [6:45:32<45:44:49,  2.44s/it] 14%|█▍        | 11096/78504 [6:45:34<43:51:47,  2.34s/it]                                                          {'loss': 0.07, 'grad_norm': 0.36221566796302795, 'learning_rate': 2.8624686849815297e-05, 'epoch': 3.39}
 14%|█▍        | 11096/78504 [6:45:34<43:51:47,  2.34s/it] 14%|█▍        | 11097/78504 [6:45:36<43:00:00,  2.30s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.5829149484634399, 'learning_rate': 2.8624262239395356e-05, 'epoch': 3.39}
 14%|█▍        | 11097/78504 [6:45:36<43:00:00,  2.30s/it] 14%|█▍        | 11098/78504 [6:45:38<42:07:34,  2.25s/it]                                                          {'loss': 0.0411, 'grad_norm': 0.1641683578491211, 'learning_rate': 2.8623837628975418e-05, 'epoch': 3.39}
 14%|█▍        | 11098/78504 [6:45:38<42:07:34,  2.25s/it] 14%|█▍        | 11099/78504 [6:45:40<40:52:25,  2.18s/it]                                                          {'loss': 0.1054, 'grad_norm': 0.45554542541503906, 'learning_rate': 2.8623413018555476e-05, 'epoch': 3.39}
 14%|█▍        | 11099/78504 [6:45:40<40:52:25,  2.18s/it] 14%|█▍        | 11100/78504 [6:45:42<39:45:33,  2.12s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.24489067494869232, 'learning_rate': 2.862298840813554e-05, 'epoch': 3.39}
 14%|█▍        | 11100/78504 [6:45:42<39:45:33,  2.12s/it] 14%|█▍        | 11101/78504 [6:45:44<38:24:57,  2.05s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.5242631435394287, 'learning_rate': 2.8622563797715597e-05, 'epoch': 3.39}
 14%|█▍        | 11101/78504 [6:45:44<38:24:57,  2.05s/it] 14%|█▍        | 11102/78504 [6:45:46<37:32:24,  2.01s/it]                                                          {'loss': 0.1228, 'grad_norm': 1.810405969619751, 'learning_rate': 2.862213918729566e-05, 'epoch': 3.39}
 14%|█▍        | 11102/78504 [6:45:46<37:32:24,  2.01s/it] 14%|█▍        | 11103/78504 [6:45:48<36:09:52,  1.93s/it]                                                          {'loss': 0.124, 'grad_norm': 1.388286828994751, 'learning_rate': 2.8621714576875718e-05, 'epoch': 3.39}
 14%|█▍        | 11103/78504 [6:45:48<36:09:52,  1.93s/it] 14%|█▍        | 11104/78504 [6:45:49<34:33:37,  1.85s/it]                                                          {'loss': 0.1442, 'grad_norm': 1.122571349143982, 'learning_rate': 2.8621289966455777e-05, 'epoch': 3.39}
 14%|█▍        | 11104/78504 [6:45:49<34:33:37,  1.85s/it] 14%|█▍        | 11105/78504 [6:45:51<32:48:47,  1.75s/it]                                                          {'loss': 0.1817, 'grad_norm': 0.7035204768180847, 'learning_rate': 2.862086535603584e-05, 'epoch': 3.39}
 14%|█▍        | 11105/78504 [6:45:51<32:48:47,  1.75s/it] 14%|█▍        | 11106/78504 [6:45:52<31:14:44,  1.67s/it]                                                          {'loss': 0.1574, 'grad_norm': 2.2535481452941895, 'learning_rate': 2.8620440745615897e-05, 'epoch': 3.4}
 14%|█▍        | 11106/78504 [6:45:52<31:14:44,  1.67s/it] 14%|█▍        | 11107/78504 [6:45:54<29:43:02,  1.59s/it]                                                          {'loss': 0.1901, 'grad_norm': 4.784183502197266, 'learning_rate': 2.862001613519596e-05, 'epoch': 3.4}
 14%|█▍        | 11107/78504 [6:45:54<29:43:02,  1.59s/it] 14%|█▍        | 11108/78504 [6:45:55<27:59:53,  1.50s/it]                                                          {'loss': 0.235, 'grad_norm': 0.7781633138656616, 'learning_rate': 2.8619591524776018e-05, 'epoch': 3.4}
 14%|█▍        | 11108/78504 [6:45:55<27:59:53,  1.50s/it] 14%|█▍        | 11109/78504 [6:45:56<26:01:18,  1.39s/it]                                                          {'loss': 0.1965, 'grad_norm': 1.3449037075042725, 'learning_rate': 2.861916691435608e-05, 'epoch': 3.4}
 14%|█▍        | 11109/78504 [6:45:56<26:01:18,  1.39s/it] 14%|█▍        | 11110/78504 [6:45:57<24:24:31,  1.30s/it]                                                          {'loss': 0.1741, 'grad_norm': 1.2555925846099854, 'learning_rate': 2.861874230393614e-05, 'epoch': 3.4}
 14%|█▍        | 11110/78504 [6:45:57<24:24:31,  1.30s/it] 14%|█▍        | 11111/78504 [6:45:58<22:38:16,  1.21s/it]                                                          {'loss': 0.2295, 'grad_norm': 0.9551922678947449, 'learning_rate': 2.86183176935162e-05, 'epoch': 3.4}
 14%|█▍        | 11111/78504 [6:45:58<22:38:16,  1.21s/it] 14%|█▍        | 11112/78504 [6:45:59<21:06:19,  1.13s/it]                                                          {'loss': 0.2249, 'grad_norm': 3.2238211631774902, 'learning_rate': 2.861789308309626e-05, 'epoch': 3.4}
 14%|█▍        | 11112/78504 [6:45:59<21:06:19,  1.13s/it] 14%|█▍        | 11113/78504 [6:46:00<19:09:17,  1.02s/it]                                                          {'loss': 0.2686, 'grad_norm': 4.050937175750732, 'learning_rate': 2.8617468472676322e-05, 'epoch': 3.4}
 14%|█▍        | 11113/78504 [6:46:00<19:09:17,  1.02s/it] 14%|█▍        | 11114/78504 [6:46:07<54:17:24,  2.90s/it]                                                          {'loss': 0.1748, 'grad_norm': 0.386522114276886, 'learning_rate': 2.861704386225638e-05, 'epoch': 3.4}
 14%|█▍        | 11114/78504 [6:46:07<54:17:24,  2.90s/it] 14%|█▍        | 11115/78504 [6:46:11<56:35:18,  3.02s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.3709333837032318, 'learning_rate': 2.8616619251836443e-05, 'epoch': 3.4}
 14%|█▍        | 11115/78504 [6:46:11<56:35:18,  3.02s/it] 14%|█▍        | 11116/78504 [6:46:14<56:29:54,  3.02s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.6221264600753784, 'learning_rate': 2.86161946414165e-05, 'epoch': 3.4}
 14%|█▍        | 11116/78504 [6:46:14<56:29:54,  3.02s/it] 14%|█▍        | 11117/78504 [6:46:16<54:14:33,  2.90s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.24095310270786285, 'learning_rate': 2.861577003099656e-05, 'epoch': 3.4}
 14%|█▍        | 11117/78504 [6:46:16<54:14:33,  2.90s/it] 14%|█▍        | 11118/78504 [6:46:19<51:49:22,  2.77s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.38488227128982544, 'learning_rate': 2.8615345420576622e-05, 'epoch': 3.4}
 14%|█▍        | 11118/78504 [6:46:19<51:49:22,  2.77s/it] 14%|█▍        | 11119/78504 [6:46:21<49:01:48,  2.62s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.3087623417377472, 'learning_rate': 2.861492081015668e-05, 'epoch': 3.4}
 14%|█▍        | 11119/78504 [6:46:21<49:01:48,  2.62s/it] 14%|█▍        | 11120/78504 [6:46:23<47:20:13,  2.53s/it]                                                          {'loss': 0.0478, 'grad_norm': 0.43310612440109253, 'learning_rate': 2.8614496199736743e-05, 'epoch': 3.4}
 14%|█▍        | 11120/78504 [6:46:23<47:20:13,  2.53s/it] 14%|█▍        | 11121/78504 [6:46:25<44:54:51,  2.40s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.2166462242603302, 'learning_rate': 2.86140715893168e-05, 'epoch': 3.4}
 14%|█▍        | 11121/78504 [6:46:25<44:54:51,  2.40s/it] 14%|█▍        | 11122/78504 [6:46:27<42:50:02,  2.29s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.5031372308731079, 'learning_rate': 2.8613646978896864e-05, 'epoch': 3.4}
 14%|█▍        | 11122/78504 [6:46:27<42:50:02,  2.29s/it] 14%|█▍        | 11123/78504 [6:46:29<41:57:58,  2.24s/it]                                                          {'loss': 0.0509, 'grad_norm': 0.49083027243614197, 'learning_rate': 2.8613222368476922e-05, 'epoch': 3.4}
 14%|█▍        | 11123/78504 [6:46:30<41:57:58,  2.24s/it] 14%|█▍        | 11124/78504 [6:46:32<40:47:42,  2.18s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.45799243450164795, 'learning_rate': 2.8612797758056985e-05, 'epoch': 3.4}
 14%|█▍        | 11124/78504 [6:46:32<40:47:42,  2.18s/it] 14%|█▍        | 11125/78504 [6:46:34<39:40:29,  2.12s/it]                                                          {'loss': 0.0867, 'grad_norm': 1.273734450340271, 'learning_rate': 2.8612373147637043e-05, 'epoch': 3.4}
 14%|█▍        | 11125/78504 [6:46:34<39:40:29,  2.12s/it] 14%|█▍        | 11126/78504 [6:46:35<38:14:32,  2.04s/it]                                                          {'loss': 0.0965, 'grad_norm': 0.7074138522148132, 'learning_rate': 2.8611948537217105e-05, 'epoch': 3.4}
 14%|█▍        | 11126/78504 [6:46:35<38:14:32,  2.04s/it] 14%|█▍        | 11127/78504 [6:46:37<37:07:33,  1.98s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.5903763771057129, 'learning_rate': 2.8611523926797164e-05, 'epoch': 3.4}
 14%|█▍        | 11127/78504 [6:46:37<37:07:33,  1.98s/it] 14%|█▍        | 11128/78504 [6:46:39<35:42:05,  1.91s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.6371526122093201, 'learning_rate': 2.8611099316377226e-05, 'epoch': 3.4}
 14%|█▍        | 11128/78504 [6:46:39<35:42:05,  1.91s/it] 14%|█▍        | 11129/78504 [6:46:41<34:12:42,  1.83s/it]                                                          {'loss': 0.18, 'grad_norm': 0.7191242575645447, 'learning_rate': 2.8610674705957285e-05, 'epoch': 3.4}
 14%|█▍        | 11129/78504 [6:46:41<34:12:42,  1.83s/it] 14%|█▍        | 11130/78504 [6:46:42<32:30:07,  1.74s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.8074448108673096, 'learning_rate': 2.8610250095537344e-05, 'epoch': 3.4}
 14%|█▍        | 11130/78504 [6:46:42<32:30:07,  1.74s/it] 14%|█▍        | 11131/78504 [6:46:44<31:02:53,  1.66s/it]                                                          {'loss': 0.167, 'grad_norm': 1.0130277872085571, 'learning_rate': 2.8609825485117406e-05, 'epoch': 3.4}
 14%|█▍        | 11131/78504 [6:46:44<31:02:53,  1.66s/it] 14%|█▍        | 11132/78504 [6:46:45<29:41:04,  1.59s/it]                                                          {'loss': 0.1708, 'grad_norm': 0.9214343428611755, 'learning_rate': 2.8609400874697464e-05, 'epoch': 3.4}
 14%|█▍        | 11132/78504 [6:46:45<29:41:04,  1.59s/it] 14%|█▍        | 11133/78504 [6:46:46<27:36:16,  1.48s/it]                                                          {'loss': 0.1836, 'grad_norm': 0.8381365537643433, 'learning_rate': 2.8608976264277526e-05, 'epoch': 3.4}
 14%|█▍        | 11133/78504 [6:46:46<27:36:16,  1.48s/it] 14%|█▍        | 11134/78504 [6:46:47<25:49:21,  1.38s/it]                                                          {'loss': 0.1822, 'grad_norm': 2.686288356781006, 'learning_rate': 2.8608551653857585e-05, 'epoch': 3.4}
 14%|█▍        | 11134/78504 [6:46:47<25:49:21,  1.38s/it] 14%|█▍        | 11135/78504 [6:46:48<24:16:30,  1.30s/it]                                                          {'loss': 0.1905, 'grad_norm': 1.0897866487503052, 'learning_rate': 2.8608127043437647e-05, 'epoch': 3.4}
 14%|█▍        | 11135/78504 [6:46:49<24:16:30,  1.30s/it] 14%|█▍        | 11136/78504 [6:46:50<22:53:22,  1.22s/it]                                                          {'loss': 0.2136, 'grad_norm': 1.2061734199523926, 'learning_rate': 2.8607702433017706e-05, 'epoch': 3.4}
 14%|█▍        | 11136/78504 [6:46:50<22:53:22,  1.22s/it] 14%|█▍        | 11137/78504 [6:46:50<21:12:25,  1.13s/it]                                                          {'loss': 0.2289, 'grad_norm': 2.327174425125122, 'learning_rate': 2.8607277822597768e-05, 'epoch': 3.4}
 14%|█▍        | 11137/78504 [6:46:50<21:12:25,  1.13s/it] 14%|█▍        | 11138/78504 [6:46:51<19:11:52,  1.03s/it]                                                          {'loss': 0.285, 'grad_norm': 6.682974338531494, 'learning_rate': 2.8606853212177827e-05, 'epoch': 3.41}
 14%|█▍        | 11138/78504 [6:46:51<19:11:52,  1.03s/it] 14%|█▍        | 11139/78504 [6:46:59<59:43:48,  3.19s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.7041379809379578, 'learning_rate': 2.860642860175789e-05, 'epoch': 3.41}
 14%|█▍        | 11139/78504 [6:47:00<59:43:48,  3.19s/it] 14%|█▍        | 11140/78504 [6:47:03<59:24:44,  3.18s/it]                                                          {'loss': 0.1056, 'grad_norm': 0.2937558591365814, 'learning_rate': 2.8606003991337947e-05, 'epoch': 3.41}
 14%|█▍        | 11140/78504 [6:47:03<59:24:44,  3.18s/it] 14%|█▍        | 11141/78504 [6:47:06<58:33:54,  3.13s/it]                                                          {'loss': 0.0571, 'grad_norm': 0.2297447770833969, 'learning_rate': 2.860557938091801e-05, 'epoch': 3.41}
 14%|█▍        | 11141/78504 [6:47:06<58:33:54,  3.13s/it] 14%|█▍        | 11142/78504 [6:47:08<55:39:18,  2.97s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.3587099313735962, 'learning_rate': 2.8605154770498068e-05, 'epoch': 3.41}
 14%|█▍        | 11142/78504 [6:47:08<55:39:18,  2.97s/it] 14%|█▍        | 11143/78504 [6:47:11<52:57:13,  2.83s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.37594541907310486, 'learning_rate': 2.8604730160078127e-05, 'epoch': 3.41}
 14%|█▍        | 11143/78504 [6:47:11<52:57:13,  2.83s/it] 14%|█▍        | 11144/78504 [6:47:13<50:16:14,  2.69s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.7717876434326172, 'learning_rate': 2.860430554965819e-05, 'epoch': 3.41}
 14%|█▍        | 11144/78504 [6:47:13<50:16:14,  2.69s/it] 14%|█▍        | 11145/78504 [6:47:15<48:17:53,  2.58s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.4143736660480499, 'learning_rate': 2.8603880939238248e-05, 'epoch': 3.41}
 14%|█▍        | 11145/78504 [6:47:15<48:17:53,  2.58s/it] 14%|█▍        | 11146/78504 [6:47:18<45:31:44,  2.43s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.3413622975349426, 'learning_rate': 2.860345632881831e-05, 'epoch': 3.41}
 14%|█▍        | 11146/78504 [6:47:18<45:31:44,  2.43s/it] 14%|█▍        | 11147/78504 [6:47:20<44:05:55,  2.36s/it]                                                          {'loss': 0.075, 'grad_norm': 0.4460757076740265, 'learning_rate': 2.860303171839837e-05, 'epoch': 3.41}
 14%|█▍        | 11147/78504 [6:47:20<44:05:55,  2.36s/it] 14%|█▍        | 11148/78504 [6:47:22<42:54:57,  2.29s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.42595136165618896, 'learning_rate': 2.860260710797843e-05, 'epoch': 3.41}
 14%|█▍        | 11148/78504 [6:47:22<42:54:57,  2.29s/it] 14%|█▍        | 11149/78504 [6:47:24<41:23:39,  2.21s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.3969530761241913, 'learning_rate': 2.860218249755849e-05, 'epoch': 3.41}
 14%|█▍        | 11149/78504 [6:47:24<41:23:39,  2.21s/it] 14%|█▍        | 11150/78504 [6:47:26<40:05:33,  2.14s/it]                                                          {'loss': 0.0791, 'grad_norm': 4.497835159301758, 'learning_rate': 2.860175788713855e-05, 'epoch': 3.41}
 14%|█▍        | 11150/78504 [6:47:26<40:05:33,  2.14s/it] 14%|█▍        | 11151/78504 [6:47:28<38:33:05,  2.06s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.36849135160446167, 'learning_rate': 2.860133327671861e-05, 'epoch': 3.41}
 14%|█▍        | 11151/78504 [6:47:28<38:33:05,  2.06s/it] 14%|█▍        | 11152/78504 [6:47:30<37:27:58,  2.00s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.6750729084014893, 'learning_rate': 2.8600908666298672e-05, 'epoch': 3.41}
 14%|█▍        | 11152/78504 [6:47:30<37:27:58,  2.00s/it] 14%|█▍        | 11153/78504 [6:47:31<36:07:09,  1.93s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.5330031514167786, 'learning_rate': 2.860048405587873e-05, 'epoch': 3.41}
 14%|█▍        | 11153/78504 [6:47:31<36:07:09,  1.93s/it] 14%|█▍        | 11154/78504 [6:47:33<34:32:10,  1.85s/it]                                                          {'loss': 0.1649, 'grad_norm': 0.9343262910842896, 'learning_rate': 2.8600059445458793e-05, 'epoch': 3.41}
 14%|█▍        | 11154/78504 [6:47:33<34:32:10,  1.85s/it] 14%|█▍        | 11155/78504 [6:47:35<32:50:24,  1.76s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.7922360897064209, 'learning_rate': 2.8599634835038852e-05, 'epoch': 3.41}
 14%|█▍        | 11155/78504 [6:47:35<32:50:24,  1.76s/it] 14%|█▍        | 11156/78504 [6:47:36<30:56:24,  1.65s/it]                                                          {'loss': 0.2127, 'grad_norm': 1.2635822296142578, 'learning_rate': 2.859921022461891e-05, 'epoch': 3.41}
 14%|█▍        | 11156/78504 [6:47:36<30:56:24,  1.65s/it] 14%|█▍        | 11157/78504 [6:47:37<29:35:13,  1.58s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.9164182543754578, 'learning_rate': 2.8598785614198972e-05, 'epoch': 3.41}
 14%|█▍        | 11157/78504 [6:47:37<29:35:13,  1.58s/it] 14%|█▍        | 11158/78504 [6:47:39<27:34:23,  1.47s/it]                                                          {'loss': 0.1887, 'grad_norm': 1.1359444856643677, 'learning_rate': 2.859836100377903e-05, 'epoch': 3.41}
 14%|█▍        | 11158/78504 [6:47:39<27:34:23,  1.47s/it] 14%|█▍        | 11159/78504 [6:47:40<25:47:44,  1.38s/it]                                                          {'loss': 0.2041, 'grad_norm': 0.9731099009513855, 'learning_rate': 2.8597936393359093e-05, 'epoch': 3.41}
 14%|█▍        | 11159/78504 [6:47:40<25:47:44,  1.38s/it] 14%|█▍        | 11160/78504 [6:47:41<24:11:09,  1.29s/it]                                                          {'loss': 0.2144, 'grad_norm': 1.0292668342590332, 'learning_rate': 2.8597511782939152e-05, 'epoch': 3.41}
 14%|█▍        | 11160/78504 [6:47:41<24:11:09,  1.29s/it] 14%|█▍        | 11161/78504 [6:47:42<22:49:17,  1.22s/it]                                                          {'loss': 0.201, 'grad_norm': 0.9869859218597412, 'learning_rate': 2.8597087172519214e-05, 'epoch': 3.41}
 14%|█▍        | 11161/78504 [6:47:42<22:49:17,  1.22s/it] 14%|█▍        | 11162/78504 [6:47:43<21:10:21,  1.13s/it]                                                          {'loss': 0.1945, 'grad_norm': 1.2989439964294434, 'learning_rate': 2.8596662562099273e-05, 'epoch': 3.41}
 14%|█▍        | 11162/78504 [6:47:43<21:10:21,  1.13s/it] 14%|█▍        | 11163/78504 [6:47:44<19:12:32,  1.03s/it]                                                          {'loss': 0.2377, 'grad_norm': 0.9073262214660645, 'learning_rate': 2.8596237951679335e-05, 'epoch': 3.41}
 14%|█▍        | 11163/78504 [6:47:44<19:12:32,  1.03s/it] 14%|█▍        | 11164/78504 [6:47:51<54:30:46,  2.91s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.4860975444316864, 'learning_rate': 2.8595813341259394e-05, 'epoch': 3.41}
 14%|█▍        | 11164/78504 [6:47:51<54:30:46,  2.91s/it] 14%|█▍        | 11165/78504 [6:47:54<55:39:29,  2.98s/it]                                                          {'loss': 0.1009, 'grad_norm': 0.31408655643463135, 'learning_rate': 2.8595388730839456e-05, 'epoch': 3.41}
 14%|█▍        | 11165/78504 [6:47:54<55:39:29,  2.98s/it] 14%|█▍        | 11166/78504 [6:47:57<55:53:48,  2.99s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.47527575492858887, 'learning_rate': 2.8594964120419514e-05, 'epoch': 3.41}
 14%|█▍        | 11166/78504 [6:47:57<55:53:48,  2.99s/it] 14%|█▍        | 11167/78504 [6:48:00<53:47:49,  2.88s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.29472240805625916, 'learning_rate': 2.8594539509999576e-05, 'epoch': 3.41}
 14%|█▍        | 11167/78504 [6:48:00<53:47:49,  2.88s/it] 14%|█▍        | 11168/78504 [6:48:02<51:30:50,  2.75s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.2872104346752167, 'learning_rate': 2.8594114899579635e-05, 'epoch': 3.41}
 14%|█▍        | 11168/78504 [6:48:02<51:30:50,  2.75s/it] 14%|█▍        | 11169/78504 [6:48:04<48:46:43,  2.61s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.3630920946598053, 'learning_rate': 2.8593690289159694e-05, 'epoch': 3.41}
 14%|█▍        | 11169/78504 [6:48:04<48:46:43,  2.61s/it] 14%|█▍        | 11170/78504 [6:48:07<47:10:01,  2.52s/it]                                                          {'loss': 0.077, 'grad_norm': 0.29541411995887756, 'learning_rate': 2.8593265678739756e-05, 'epoch': 3.41}
 14%|█▍        | 11170/78504 [6:48:07<47:10:01,  2.52s/it] 14%|█▍        | 11171/78504 [6:48:09<44:44:00,  2.39s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.23007957637310028, 'learning_rate': 2.8592841068319815e-05, 'epoch': 3.42}
 14%|█▍        | 11171/78504 [6:48:09<44:44:00,  2.39s/it] 14%|█▍        | 11172/78504 [6:48:11<43:35:42,  2.33s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.2559294104576111, 'learning_rate': 2.8592416457899877e-05, 'epoch': 3.42}
 14%|█▍        | 11172/78504 [6:48:11<43:35:42,  2.33s/it] 14%|█▍        | 11173/78504 [6:48:13<42:31:54,  2.27s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.5289781093597412, 'learning_rate': 2.8591991847479935e-05, 'epoch': 3.42}
 14%|█▍        | 11173/78504 [6:48:13<42:31:54,  2.27s/it] 14%|█▍        | 11174/78504 [6:48:15<41:07:39,  2.20s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.5510900616645813, 'learning_rate': 2.8591567237059997e-05, 'epoch': 3.42}
 14%|█▍        | 11174/78504 [6:48:15<41:07:39,  2.20s/it] 14%|█▍        | 11175/78504 [6:48:17<39:55:42,  2.13s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.521876335144043, 'learning_rate': 2.8591142626640056e-05, 'epoch': 3.42}
 14%|█▍        | 11175/78504 [6:48:17<39:55:42,  2.13s/it] 14%|█▍        | 11176/78504 [6:48:19<38:25:24,  2.05s/it]                                                          {'loss': 0.1395, 'grad_norm': 0.7328980565071106, 'learning_rate': 2.8590718016220118e-05, 'epoch': 3.42}
 14%|█▍        | 11176/78504 [6:48:19<38:25:24,  2.05s/it] 14%|█▍        | 11177/78504 [6:48:21<37:14:08,  1.99s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.48018497228622437, 'learning_rate': 2.8590293405800177e-05, 'epoch': 3.42}
 14%|█▍        | 11177/78504 [6:48:21<37:14:08,  1.99s/it] 14%|█▍        | 11178/78504 [6:48:23<35:25:35,  1.89s/it]                                                          {'loss': 0.1225, 'grad_norm': 0.35432639718055725, 'learning_rate': 2.858986879538024e-05, 'epoch': 3.42}
 14%|█▍        | 11178/78504 [6:48:23<35:25:35,  1.89s/it] 14%|█▍        | 11179/78504 [6:48:24<34:00:46,  1.82s/it]                                                          {'loss': 0.1713, 'grad_norm': 0.7398841381072998, 'learning_rate': 2.8589444184960298e-05, 'epoch': 3.42}
 14%|█▍        | 11179/78504 [6:48:24<34:00:46,  1.82s/it] 14%|█▍        | 11180/78504 [6:48:26<32:29:34,  1.74s/it]                                                          {'loss': 0.1645, 'grad_norm': 3.287006139755249, 'learning_rate': 2.858901957454036e-05, 'epoch': 3.42}
 14%|█▍        | 11180/78504 [6:48:26<32:29:34,  1.74s/it] 14%|█▍        | 11181/78504 [6:48:27<30:48:34,  1.65s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.3344568908214569, 'learning_rate': 2.8588594964120422e-05, 'epoch': 3.42}
 14%|█▍        | 11181/78504 [6:48:27<30:48:34,  1.65s/it] 14%|█▍        | 11182/78504 [6:48:29<29:30:08,  1.58s/it]                                                          {'loss': 0.226, 'grad_norm': 0.9108774662017822, 'learning_rate': 2.858817035370048e-05, 'epoch': 3.42}
 14%|█▍        | 11182/78504 [6:48:29<29:30:08,  1.58s/it] 14%|█▍        | 11183/78504 [6:48:30<27:30:55,  1.47s/it]                                                          {'loss': 0.215, 'grad_norm': 1.4169617891311646, 'learning_rate': 2.8587745743280543e-05, 'epoch': 3.42}
 14%|█▍        | 11183/78504 [6:48:30<27:30:55,  1.47s/it] 14%|█▍        | 11184/78504 [6:48:31<25:35:39,  1.37s/it]                                                          {'loss': 0.2102, 'grad_norm': 0.8283886313438416, 'learning_rate': 2.85873211328606e-05, 'epoch': 3.42}
 14%|█▍        | 11184/78504 [6:48:31<25:35:39,  1.37s/it] 14%|█▍        | 11185/78504 [6:48:32<24:05:11,  1.29s/it]                                                          {'loss': 0.2009, 'grad_norm': 1.9084337949752808, 'learning_rate': 2.8586896522440664e-05, 'epoch': 3.42}
 14%|█▍        | 11185/78504 [6:48:32<24:05:11,  1.29s/it] 14%|█▍        | 11186/78504 [6:48:33<22:27:16,  1.20s/it]                                                          {'loss': 0.2174, 'grad_norm': 1.08633553981781, 'learning_rate': 2.8586471912020722e-05, 'epoch': 3.42}
 14%|█▍        | 11186/78504 [6:48:33<22:27:16,  1.20s/it] 14%|█▍        | 11187/78504 [6:48:34<20:54:52,  1.12s/it]                                                          {'loss': 0.1917, 'grad_norm': 0.8826468586921692, 'learning_rate': 2.8586047301600784e-05, 'epoch': 3.42}
 14%|█▍        | 11187/78504 [6:48:34<20:54:52,  1.12s/it] 14%|█▍        | 11188/78504 [6:48:35<19:01:30,  1.02s/it]                                                          {'loss': 0.2464, 'grad_norm': 0.9814870953559875, 'learning_rate': 2.8585622691180843e-05, 'epoch': 3.42}
 14%|█▍        | 11188/78504 [6:48:35<19:01:30,  1.02s/it] 14%|█▍        | 11189/78504 [6:48:43<60:25:35,  3.23s/it]                                                          {'loss': 0.1495, 'grad_norm': 0.4930233061313629, 'learning_rate': 2.8585198080760905e-05, 'epoch': 3.42}
 14%|█▍        | 11189/78504 [6:48:43<60:25:35,  3.23s/it] 14%|█▍        | 11190/78504 [6:48:46<59:54:54,  3.20s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.47526657581329346, 'learning_rate': 2.8584773470340964e-05, 'epoch': 3.42}
 14%|█▍        | 11190/78504 [6:48:46<59:54:54,  3.20s/it] 14%|█▍        | 11191/78504 [6:48:49<58:20:45,  3.12s/it]                                                          {'loss': 0.0711, 'grad_norm': 0.1978556364774704, 'learning_rate': 2.8584348859921026e-05, 'epoch': 3.42}
 14%|█▍        | 11191/78504 [6:48:49<58:20:45,  3.12s/it] 14%|█▍        | 11192/78504 [6:48:52<55:17:04,  2.96s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.22381241619586945, 'learning_rate': 2.8583924249501085e-05, 'epoch': 3.42}
 14%|█▍        | 11192/78504 [6:48:52<55:17:04,  2.96s/it] 14%|█▍        | 11193/78504 [6:48:54<52:35:24,  2.81s/it]                                                          {'loss': 0.0668, 'grad_norm': 1.0993322134017944, 'learning_rate': 2.8583499639081147e-05, 'epoch': 3.42}
 14%|█▍        | 11193/78504 [6:48:54<52:35:24,  2.81s/it] 14%|█▍        | 11194/78504 [6:48:57<50:27:18,  2.70s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.41804319620132446, 'learning_rate': 2.8583075028661205e-05, 'epoch': 3.42}
 14%|█▍        | 11194/78504 [6:48:57<50:27:18,  2.70s/it] 14%|█▍        | 11195/78504 [6:48:59<48:17:03,  2.58s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.23038138449192047, 'learning_rate': 2.8582650418241264e-05, 'epoch': 3.42}
 14%|█▍        | 11195/78504 [6:48:59<48:17:03,  2.58s/it] 14%|█▍        | 11196/78504 [6:49:01<45:42:01,  2.44s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.4321121573448181, 'learning_rate': 2.8582225807821326e-05, 'epoch': 3.42}
 14%|█▍        | 11196/78504 [6:49:01<45:42:01,  2.44s/it] 14%|█▍        | 11197/78504 [6:49:03<44:15:53,  2.37s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.18544644117355347, 'learning_rate': 2.8581801197401385e-05, 'epoch': 3.42}
 14%|█▍        | 11197/78504 [6:49:03<44:15:53,  2.37s/it] 14%|█▍        | 11198/78504 [6:49:05<43:08:06,  2.31s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.36278408765792847, 'learning_rate': 2.8581376586981447e-05, 'epoch': 3.42}
 14%|█▍        | 11198/78504 [6:49:05<43:08:06,  2.31s/it] 14%|█▍        | 11199/78504 [6:49:07<40:44:20,  2.18s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.35932570695877075, 'learning_rate': 2.8580951976561506e-05, 'epoch': 3.42}
 14%|█▍        | 11199/78504 [6:49:07<40:44:20,  2.18s/it] 14%|█▍        | 11200/78504 [6:49:09<39:38:32,  2.12s/it]                                                          {'loss': 0.0768, 'grad_norm': 0.2522822618484497, 'learning_rate': 2.8580527366141568e-05, 'epoch': 3.42}
 14%|█▍        | 11200/78504 [6:49:09<39:38:32,  2.12s/it] 14%|█▍        | 11201/78504 [6:49:11<38:33:14,  2.06s/it]                                                          {'loss': 0.0939, 'grad_norm': 0.43644312024116516, 'learning_rate': 2.8580102755721626e-05, 'epoch': 3.42}
 14%|█▍        | 11201/78504 [6:49:11<38:33:14,  2.06s/it] 14%|█▍        | 11202/78504 [6:49:13<37:32:45,  2.01s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.34795263409614563, 'learning_rate': 2.857967814530169e-05, 'epoch': 3.42}
 14%|█▍        | 11202/78504 [6:49:13<37:32:45,  2.01s/it] 14%|█▍        | 11203/78504 [6:49:15<36:08:36,  1.93s/it]                                                          {'loss': 0.1738, 'grad_norm': 0.8085882663726807, 'learning_rate': 2.8579253534881747e-05, 'epoch': 3.42}
 14%|█▍        | 11203/78504 [6:49:15<36:08:36,  1.93s/it] 14%|█▍        | 11204/78504 [6:49:16<34:10:21,  1.83s/it]                                                          {'loss': 0.1589, 'grad_norm': 1.2353655099868774, 'learning_rate': 2.857882892446181e-05, 'epoch': 3.43}
 14%|█▍        | 11204/78504 [6:49:17<34:10:21,  1.83s/it] 14%|█▍        | 11205/78504 [6:49:18<32:34:35,  1.74s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.7843267917633057, 'learning_rate': 2.8578404314041868e-05, 'epoch': 3.43}
 14%|█▍        | 11205/78504 [6:49:18<32:34:35,  1.74s/it] 14%|█▍        | 11206/78504 [6:49:19<31:00:29,  1.66s/it]                                                          {'loss': 0.1719, 'grad_norm': 1.0672463178634644, 'learning_rate': 2.857797970362193e-05, 'epoch': 3.43}
 14%|█▍        | 11206/78504 [6:49:20<31:00:29,  1.66s/it] 14%|█▍        | 11207/78504 [6:49:21<29:37:14,  1.58s/it]                                                          {'loss': 0.1702, 'grad_norm': 0.7055094838142395, 'learning_rate': 2.857755509320199e-05, 'epoch': 3.43}
 14%|█▍        | 11207/78504 [6:49:21<29:37:14,  1.58s/it] 14%|█▍        | 11208/78504 [6:49:22<27:57:15,  1.50s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.49495846033096313, 'learning_rate': 2.8577130482782048e-05, 'epoch': 3.43}
 14%|█▍        | 11208/78504 [6:49:22<27:57:15,  1.50s/it] 14%|█▍        | 11209/78504 [6:49:23<26:00:23,  1.39s/it]                                                          {'loss': 0.185, 'grad_norm': 1.1161152124404907, 'learning_rate': 2.857670587236211e-05, 'epoch': 3.43}
 14%|█▍        | 11209/78504 [6:49:23<26:00:23,  1.39s/it] 14%|█▍        | 11210/78504 [6:49:24<24:17:53,  1.30s/it]                                                          {'loss': 0.1818, 'grad_norm': 2.031763792037964, 'learning_rate': 2.8576281261942168e-05, 'epoch': 3.43}
 14%|█▍        | 11210/78504 [6:49:24<24:17:53,  1.30s/it] 14%|█▍        | 11211/78504 [6:49:25<22:51:51,  1.22s/it]                                                          {'loss': 0.1998, 'grad_norm': 0.57451993227005, 'learning_rate': 2.857585665152223e-05, 'epoch': 3.43}
 14%|█▍        | 11211/78504 [6:49:25<22:51:51,  1.22s/it] 14%|█▍        | 11212/78504 [6:49:26<21:11:55,  1.13s/it]                                                          {'loss': 0.1926, 'grad_norm': 3.0181312561035156, 'learning_rate': 2.857543204110229e-05, 'epoch': 3.43}
 14%|█▍        | 11212/78504 [6:49:26<21:11:55,  1.13s/it] 14%|█▍        | 11213/78504 [6:49:27<19:16:43,  1.03s/it]                                                          {'loss': 0.2407, 'grad_norm': 2.4608497619628906, 'learning_rate': 2.857500743068235e-05, 'epoch': 3.43}
 14%|█▍        | 11213/78504 [6:49:27<19:16:43,  1.03s/it] 14%|█▍        | 11214/78504 [6:49:35<59:40:40,  3.19s/it]                                                          {'loss': 0.1504, 'grad_norm': 0.33264708518981934, 'learning_rate': 2.857458282026241e-05, 'epoch': 3.43}
 14%|█▍        | 11214/78504 [6:49:35<59:40:40,  3.19s/it] 14%|█▍        | 11215/78504 [6:49:39<59:15:49,  3.17s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.3837297856807709, 'learning_rate': 2.8574158209842472e-05, 'epoch': 3.43}
 14%|█▍        | 11215/78504 [6:49:39<59:15:49,  3.17s/it] 14%|█▍        | 11216/78504 [6:49:41<55:55:12,  2.99s/it]                                                          {'loss': 0.109, 'grad_norm': 0.4726308584213257, 'learning_rate': 2.857373359942253e-05, 'epoch': 3.43}
 14%|█▍        | 11216/78504 [6:49:41<55:55:12,  2.99s/it] 14%|█▍        | 11217/78504 [6:49:44<53:49:21,  2.88s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.2989474833011627, 'learning_rate': 2.8573308989002593e-05, 'epoch': 3.43}
 14%|█▍        | 11217/78504 [6:49:44<53:49:21,  2.88s/it] 14%|█▍        | 11218/78504 [6:49:46<51:31:40,  2.76s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.4340091943740845, 'learning_rate': 2.857288437858265e-05, 'epoch': 3.43}
 14%|█▍        | 11218/78504 [6:49:46<51:31:40,  2.76s/it] 14%|█▍        | 11219/78504 [6:49:48<48:46:28,  2.61s/it]                                                          {'loss': 0.0509, 'grad_norm': 1.098655343055725, 'learning_rate': 2.857245976816271e-05, 'epoch': 3.43}
 14%|█▍        | 11219/78504 [6:49:48<48:46:28,  2.61s/it] 14%|█▍        | 11220/78504 [6:49:51<47:10:03,  2.52s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.3345983326435089, 'learning_rate': 2.8572035157742772e-05, 'epoch': 3.43}
 14%|█▍        | 11220/78504 [6:49:51<47:10:03,  2.52s/it] 14%|█▍        | 11221/78504 [6:49:53<44:51:51,  2.40s/it]                                                          {'loss': 0.074, 'grad_norm': 0.357097327709198, 'learning_rate': 2.857161054732283e-05, 'epoch': 3.43}
 14%|█▍        | 11221/78504 [6:49:53<44:51:51,  2.40s/it] 14%|█▍        | 11222/78504 [6:49:55<43:39:20,  2.34s/it]                                                          {'loss': 0.06, 'grad_norm': 0.20017167925834656, 'learning_rate': 2.8571185936902893e-05, 'epoch': 3.43}
 14%|█▍        | 11222/78504 [6:49:55<43:39:20,  2.34s/it] 14%|█▍        | 11223/78504 [6:49:57<42:42:56,  2.29s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.4276970326900482, 'learning_rate': 2.8570761326482952e-05, 'epoch': 3.43}
 14%|█▍        | 11223/78504 [6:49:57<42:42:56,  2.29s/it] 14%|█▍        | 11224/78504 [6:49:59<40:17:04,  2.16s/it]                                                          {'loss': 0.1039, 'grad_norm': 1.2892823219299316, 'learning_rate': 2.8570336716063014e-05, 'epoch': 3.43}
 14%|█▍        | 11224/78504 [6:49:59<40:17:04,  2.16s/it] 14%|█▍        | 11225/78504 [6:50:01<39:20:01,  2.10s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.29828134179115295, 'learning_rate': 2.8569912105643073e-05, 'epoch': 3.43}
 14%|█▍        | 11225/78504 [6:50:01<39:20:01,  2.10s/it] 14%|█▍        | 11226/78504 [6:50:03<38:05:34,  2.04s/it]                                                          {'loss': 0.1376, 'grad_norm': 0.42545345425605774, 'learning_rate': 2.8569487495223135e-05, 'epoch': 3.43}
 14%|█▍        | 11226/78504 [6:50:03<38:05:34,  2.04s/it] 14%|█▍        | 11227/78504 [6:50:05<37:10:00,  1.99s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.5995786190032959, 'learning_rate': 2.8569062884803193e-05, 'epoch': 3.43}
 14%|█▍        | 11227/78504 [6:50:05<37:10:00,  1.99s/it] 14%|█▍        | 11228/78504 [6:50:07<35:54:36,  1.92s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.5276011228561401, 'learning_rate': 2.8568638274383255e-05, 'epoch': 3.43}
 14%|█▍        | 11228/78504 [6:50:07<35:54:36,  1.92s/it] 14%|█▍        | 11229/78504 [6:50:08<34:22:04,  1.84s/it]                                                          {'loss': 0.196, 'grad_norm': 0.4868644177913666, 'learning_rate': 2.8568213663963314e-05, 'epoch': 3.43}
 14%|█▍        | 11229/78504 [6:50:08<34:22:04,  1.84s/it] 14%|█▍        | 11230/78504 [6:50:10<32:38:39,  1.75s/it]                                                          {'loss': 0.1709, 'grad_norm': 0.5763110518455505, 'learning_rate': 2.8567789053543376e-05, 'epoch': 3.43}
 14%|█▍        | 11230/78504 [6:50:10<32:38:39,  1.75s/it] 14%|█▍        | 11231/78504 [6:50:11<31:06:31,  1.66s/it]                                                          {'loss': 0.1769, 'grad_norm': 2.0266921520233154, 'learning_rate': 2.8567364443123435e-05, 'epoch': 3.43}
 14%|█▍        | 11231/78504 [6:50:11<31:06:31,  1.66s/it] 14%|█▍        | 11232/78504 [6:50:13<29:43:45,  1.59s/it]                                                          {'loss': 0.1842, 'grad_norm': 0.7400306463241577, 'learning_rate': 2.8566939832703494e-05, 'epoch': 3.43}
 14%|█▍        | 11232/78504 [6:50:13<29:43:45,  1.59s/it] 14%|█▍        | 11233/78504 [6:50:14<28:00:58,  1.50s/it]                                                          {'loss': 0.2036, 'grad_norm': 0.5746641755104065, 'learning_rate': 2.8566515222283556e-05, 'epoch': 3.43}
 14%|█▍        | 11233/78504 [6:50:14<28:00:58,  1.50s/it] 14%|█▍        | 11234/78504 [6:50:15<26:00:51,  1.39s/it]                                                          {'loss': 0.2867, 'grad_norm': 0.8421096205711365, 'learning_rate': 2.8566090611863614e-05, 'epoch': 3.43}
 14%|█▍        | 11234/78504 [6:50:15<26:00:51,  1.39s/it] 14%|█▍        | 11235/78504 [6:50:16<24:26:42,  1.31s/it]                                                          {'loss': 0.2161, 'grad_norm': 0.7130597829818726, 'learning_rate': 2.8565666001443676e-05, 'epoch': 3.43}
 14%|█▍        | 11235/78504 [6:50:16<24:26:42,  1.31s/it] 14%|█▍        | 11236/78504 [6:50:17<22:41:47,  1.21s/it]                                                          {'loss': 0.2122, 'grad_norm': 1.2640281915664673, 'learning_rate': 2.8565241391023735e-05, 'epoch': 3.44}
 14%|█▍        | 11236/78504 [6:50:17<22:41:47,  1.21s/it] 14%|█▍        | 11237/78504 [6:50:18<21:10:48,  1.13s/it]                                                          {'loss': 0.2117, 'grad_norm': 0.7829792499542236, 'learning_rate': 2.8564816780603797e-05, 'epoch': 3.44}
 14%|█▍        | 11237/78504 [6:50:18<21:10:48,  1.13s/it] 14%|█▍        | 11238/78504 [6:50:19<19:13:28,  1.03s/it]                                                          {'loss': 0.245, 'grad_norm': 1.7060266733169556, 'learning_rate': 2.8564392170183856e-05, 'epoch': 3.44}
 14%|█▍        | 11238/78504 [6:50:19<19:13:28,  1.03s/it] 14%|█▍        | 11239/78504 [6:50:27<58:43:49,  3.14s/it]                                                          {'loss': 0.1545, 'grad_norm': 1.5544251203536987, 'learning_rate': 2.8563967559763918e-05, 'epoch': 3.44}
 14%|█▍        | 11239/78504 [6:50:27<58:43:49,  3.14s/it] 14%|█▍        | 11240/78504 [6:50:30<58:29:34,  3.13s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.3039417266845703, 'learning_rate': 2.8563542949343977e-05, 'epoch': 3.44}
 14%|█▍        | 11240/78504 [6:50:30<58:29:34,  3.13s/it] 14%|█▍        | 11241/78504 [6:50:33<56:10:02,  3.01s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.3587471842765808, 'learning_rate': 2.856311833892404e-05, 'epoch': 3.44}
 14%|█▍        | 11241/78504 [6:50:33<56:10:02,  3.01s/it] 14%|█▍        | 11242/78504 [6:50:35<53:50:11,  2.88s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.3013661503791809, 'learning_rate': 2.8562693728504098e-05, 'epoch': 3.44}
 14%|█▍        | 11242/78504 [6:50:35<53:50:11,  2.88s/it] 14%|█▍        | 11243/78504 [6:50:38<51:38:02,  2.76s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.4879480302333832, 'learning_rate': 2.856226911808416e-05, 'epoch': 3.44}
 14%|█▍        | 11243/78504 [6:50:38<51:38:02,  2.76s/it] 14%|█▍        | 11244/78504 [6:50:40<49:21:59,  2.64s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.2938022017478943, 'learning_rate': 2.8561844507664218e-05, 'epoch': 3.44}
 14%|█▍        | 11244/78504 [6:50:40<49:21:59,  2.64s/it] 14%|█▍        | 11245/78504 [6:50:43<47:36:12,  2.55s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.6890708208084106, 'learning_rate': 2.8561419897244277e-05, 'epoch': 3.44}
 14%|█▍        | 11245/78504 [6:50:43<47:36:12,  2.55s/it] 14%|█▍        | 11246/78504 [6:50:45<45:58:46,  2.46s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.36310383677482605, 'learning_rate': 2.856099528682434e-05, 'epoch': 3.44}
 14%|█▍        | 11246/78504 [6:50:45<45:58:46,  2.46s/it] 14%|█▍        | 11247/78504 [6:50:47<44:29:21,  2.38s/it]                                                          {'loss': 0.096, 'grad_norm': 0.7234895825386047, 'learning_rate': 2.8560570676404398e-05, 'epoch': 3.44}
 14%|█▍        | 11247/78504 [6:50:47<44:29:21,  2.38s/it] 14%|█▍        | 11248/78504 [6:50:49<43:07:46,  2.31s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.35860487818717957, 'learning_rate': 2.856014606598446e-05, 'epoch': 3.44}
 14%|█▍        | 11248/78504 [6:50:49<43:07:46,  2.31s/it] 14%|█▍        | 11249/78504 [6:50:51<41:18:23,  2.21s/it]                                                          {'loss': 0.1167, 'grad_norm': 0.4805558919906616, 'learning_rate': 2.855972145556452e-05, 'epoch': 3.44}
 14%|█▍        | 11249/78504 [6:50:51<41:18:23,  2.21s/it] 14%|█▍        | 11250/78504 [6:50:53<39:41:50,  2.12s/it]                                                          {'loss': 0.07, 'grad_norm': 0.33242037892341614, 'learning_rate': 2.855929684514458e-05, 'epoch': 3.44}
 14%|█▍        | 11250/78504 [6:50:53<39:41:50,  2.12s/it] 14%|█▍        | 11251/78504 [6:50:55<38:14:56,  2.05s/it]                                                          {'loss': 0.133, 'grad_norm': 0.5215994119644165, 'learning_rate': 2.855887223472464e-05, 'epoch': 3.44}
 14%|█▍        | 11251/78504 [6:50:55<38:14:56,  2.05s/it] 14%|█▍        | 11252/78504 [6:50:57<36:25:43,  1.95s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.5715591311454773, 'learning_rate': 2.85584476243047e-05, 'epoch': 3.44}
 14%|█▍        | 11252/78504 [6:50:57<36:25:43,  1.95s/it] 14%|█▍        | 11253/78504 [6:50:58<34:45:15,  1.86s/it]                                                          {'loss': 0.1524, 'grad_norm': 0.48361289501190186, 'learning_rate': 2.855802301388476e-05, 'epoch': 3.44}
 14%|█▍        | 11253/78504 [6:50:58<34:45:15,  1.86s/it] 14%|█▍        | 11254/78504 [6:51:00<33:30:56,  1.79s/it]                                                          {'loss': 0.1464, 'grad_norm': 0.7075240612030029, 'learning_rate': 2.8557598403464822e-05, 'epoch': 3.44}
 14%|█▍        | 11254/78504 [6:51:00<33:30:56,  1.79s/it] 14%|█▍        | 11255/78504 [6:51:02<32:22:49,  1.73s/it]                                                          {'loss': 0.166, 'grad_norm': 2.535809278488159, 'learning_rate': 2.855717379304488e-05, 'epoch': 3.44}
 14%|█▍        | 11255/78504 [6:51:02<32:22:49,  1.73s/it] 14%|█▍        | 11256/78504 [6:51:03<30:55:36,  1.66s/it]                                                          {'loss': 0.146, 'grad_norm': 0.5684098601341248, 'learning_rate': 2.8556749182624943e-05, 'epoch': 3.44}
 14%|█▍        | 11256/78504 [6:51:03<30:55:36,  1.66s/it] 14%|█▍        | 11257/78504 [6:51:04<29:32:58,  1.58s/it]                                                          {'loss': 0.1521, 'grad_norm': 0.6821333765983582, 'learning_rate': 2.8556324572205002e-05, 'epoch': 3.44}
 14%|█▍        | 11257/78504 [6:51:04<29:32:58,  1.58s/it] 14%|█▍        | 11258/78504 [6:51:06<27:52:26,  1.49s/it]                                                          {'loss': 0.2309, 'grad_norm': 1.4391567707061768, 'learning_rate': 2.855589996178506e-05, 'epoch': 3.44}
 14%|█▍        | 11258/78504 [6:51:06<27:52:26,  1.49s/it] 14%|█▍        | 11259/78504 [6:51:07<26:00:18,  1.39s/it]                                                          {'loss': 0.2007, 'grad_norm': 0.7324361801147461, 'learning_rate': 2.8555475351365123e-05, 'epoch': 3.44}
 14%|█▍        | 11259/78504 [6:51:07<26:00:18,  1.39s/it] 14%|█▍        | 11260/78504 [6:51:08<24:24:55,  1.31s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.8995396494865417, 'learning_rate': 2.855505074094518e-05, 'epoch': 3.44}
 14%|█▍        | 11260/78504 [6:51:08<24:24:55,  1.31s/it] 14%|█▍        | 11261/78504 [6:51:09<22:58:41,  1.23s/it]                                                          {'loss': 0.171, 'grad_norm': 0.7046141624450684, 'learning_rate': 2.8554626130525243e-05, 'epoch': 3.44}
 14%|█▍        | 11261/78504 [6:51:09<22:58:41,  1.23s/it] 14%|█▍        | 11262/78504 [6:51:10<21:13:51,  1.14s/it]                                                          {'loss': 0.267, 'grad_norm': 2.1006903648376465, 'learning_rate': 2.8554201520105302e-05, 'epoch': 3.44}
 14%|█▍        | 11262/78504 [6:51:10<21:13:51,  1.14s/it] 14%|█▍        | 11263/78504 [6:51:11<19:20:53,  1.04s/it]                                                          {'loss': 0.2522, 'grad_norm': 1.4310050010681152, 'learning_rate': 2.8553776909685364e-05, 'epoch': 3.44}
 14%|█▍        | 11263/78504 [6:51:11<19:20:53,  1.04s/it] 14%|█▍        | 11264/78504 [6:51:19<60:11:48,  3.22s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.5349249243736267, 'learning_rate': 2.8553352299265423e-05, 'epoch': 3.44}
 14%|█▍        | 11264/78504 [6:51:19<60:11:48,  3.22s/it] 14%|█▍        | 11265/78504 [6:51:22<60:24:04,  3.23s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.2685914635658264, 'learning_rate': 2.8552927688845485e-05, 'epoch': 3.44}
 14%|█▍        | 11265/78504 [6:51:22<60:24:04,  3.23s/it] 14%|█▍        | 11266/78504 [6:51:25<59:01:00,  3.16s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.24599753320217133, 'learning_rate': 2.8552503078425544e-05, 'epoch': 3.44}
 14%|█▍        | 11266/78504 [6:51:25<59:01:00,  3.16s/it] 14%|█▍        | 11267/78504 [6:51:28<55:49:07,  2.99s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.26190057396888733, 'learning_rate': 2.8552078468005606e-05, 'epoch': 3.44}
 14%|█▍        | 11267/78504 [6:51:28<55:49:07,  2.99s/it] 14%|█▍        | 11268/78504 [6:51:30<53:02:59,  2.84s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.23265700042247772, 'learning_rate': 2.8551653857585664e-05, 'epoch': 3.44}
 14%|█▍        | 11268/78504 [6:51:30<53:02:59,  2.84s/it] 14%|█▍        | 11269/78504 [6:51:33<49:20:42,  2.64s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.5232430696487427, 'learning_rate': 2.8551229247165726e-05, 'epoch': 3.45}
 14%|█▍        | 11269/78504 [6:51:33<49:20:42,  2.64s/it] 14%|█▍        | 11270/78504 [6:51:35<47:39:19,  2.55s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.3303511142730713, 'learning_rate': 2.8550804636745785e-05, 'epoch': 3.45}
 14%|█▍        | 11270/78504 [6:51:35<47:39:19,  2.55s/it] 14%|█▍        | 11271/78504 [6:51:37<46:00:32,  2.46s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.5395406484603882, 'learning_rate': 2.8550380026325844e-05, 'epoch': 3.45}
 14%|█▍        | 11271/78504 [6:51:37<46:00:32,  2.46s/it] 14%|█▍        | 11272/78504 [6:51:39<44:29:12,  2.38s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.3607071042060852, 'learning_rate': 2.8549955415905906e-05, 'epoch': 3.45}
 14%|█▍        | 11272/78504 [6:51:39<44:29:12,  2.38s/it] 14%|█▍        | 11273/78504 [6:51:42<43:07:22,  2.31s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.2960799038410187, 'learning_rate': 2.8549530805485965e-05, 'epoch': 3.45}
 14%|█▍        | 11273/78504 [6:51:42<43:07:22,  2.31s/it] 14%|█▍        | 11274/78504 [6:51:44<41:18:19,  2.21s/it]                                                          {'loss': 0.0997, 'grad_norm': 2.580223798751831, 'learning_rate': 2.8549106195066027e-05, 'epoch': 3.45}
 14%|█▍        | 11274/78504 [6:51:44<41:18:19,  2.21s/it] 14%|█▍        | 11275/78504 [6:51:45<39:43:14,  2.13s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.35427916049957275, 'learning_rate': 2.8548681584646085e-05, 'epoch': 3.45}
 14%|█▍        | 11275/78504 [6:51:45<39:43:14,  2.13s/it] 14%|█▍        | 11276/78504 [6:51:47<38:19:34,  2.05s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.6593188047409058, 'learning_rate': 2.8548256974226148e-05, 'epoch': 3.45}
 14%|█▍        | 11276/78504 [6:51:47<38:19:34,  2.05s/it] 14%|█▍        | 11277/78504 [6:51:49<36:25:40,  1.95s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.4378340244293213, 'learning_rate': 2.8547832363806206e-05, 'epoch': 3.45}
 14%|█▍        | 11277/78504 [6:51:49<36:25:40,  1.95s/it] 14%|█▍        | 11278/78504 [6:51:51<35:26:45,  1.90s/it]                                                          {'loss': 0.1702, 'grad_norm': 0.7397594451904297, 'learning_rate': 2.854740775338627e-05, 'epoch': 3.45}
 14%|█▍        | 11278/78504 [6:51:51<35:26:45,  1.90s/it] 14%|█▍        | 11279/78504 [6:51:52<34:00:09,  1.82s/it]                                                          {'loss': 0.1135, 'grad_norm': 0.5291993618011475, 'learning_rate': 2.8546983142966327e-05, 'epoch': 3.45}
 14%|█▍        | 11279/78504 [6:51:52<34:00:09,  1.82s/it] 14%|█▍        | 11280/78504 [6:51:54<32:15:50,  1.73s/it]                                                          {'loss': 0.1759, 'grad_norm': 0.9286319017410278, 'learning_rate': 2.854655853254639e-05, 'epoch': 3.45}
 14%|█▍        | 11280/78504 [6:51:54<32:15:50,  1.73s/it] 14%|█▍        | 11281/78504 [6:51:55<30:36:06,  1.64s/it]                                                          {'loss': 0.157, 'grad_norm': 0.48664259910583496, 'learning_rate': 2.8546133922126448e-05, 'epoch': 3.45}
 14%|█▍        | 11281/78504 [6:51:55<30:36:06,  1.64s/it] 14%|█▍        | 11282/78504 [6:51:57<29:21:55,  1.57s/it]                                                          {'loss': 0.2009, 'grad_norm': 0.6817853450775146, 'learning_rate': 2.854570931170651e-05, 'epoch': 3.45}
 14%|█▍        | 11282/78504 [6:51:57<29:21:55,  1.57s/it] 14%|█▍        | 11283/78504 [6:51:58<27:23:53,  1.47s/it]                                                          {'loss': 0.1781, 'grad_norm': 0.5224918723106384, 'learning_rate': 2.8545284701286572e-05, 'epoch': 3.45}
 14%|█▍        | 11283/78504 [6:51:58<27:23:53,  1.47s/it] 14%|█▍        | 11284/78504 [6:51:59<25:28:09,  1.36s/it]                                                          {'loss': 0.2102, 'grad_norm': 1.0849593877792358, 'learning_rate': 2.854486009086663e-05, 'epoch': 3.45}
 14%|█▍        | 11284/78504 [6:51:59<25:28:09,  1.36s/it] 14%|█▍        | 11285/78504 [6:52:00<23:55:31,  1.28s/it]                                                          {'loss': 0.2104, 'grad_norm': 0.9128221273422241, 'learning_rate': 2.8544435480446693e-05, 'epoch': 3.45}
 14%|█▍        | 11285/78504 [6:52:00<23:55:31,  1.28s/it] 14%|█▍        | 11286/78504 [6:52:01<22:23:24,  1.20s/it]                                                          {'loss': 0.2615, 'grad_norm': 0.7959086298942566, 'learning_rate': 2.854401087002675e-05, 'epoch': 3.45}
 14%|█▍        | 11286/78504 [6:52:01<22:23:24,  1.20s/it] 14%|█▍        | 11287/78504 [6:52:02<20:53:50,  1.12s/it]                                                          {'loss': 0.1992, 'grad_norm': 1.0221836566925049, 'learning_rate': 2.8543586259606814e-05, 'epoch': 3.45}
 14%|█▍        | 11287/78504 [6:52:02<20:53:50,  1.12s/it] 14%|█▍        | 11288/78504 [6:52:03<19:00:17,  1.02s/it]                                                          {'loss': 0.2745, 'grad_norm': 3.9314517974853516, 'learning_rate': 2.8543161649186872e-05, 'epoch': 3.45}
 14%|█▍        | 11288/78504 [6:52:03<19:00:17,  1.02s/it] 14%|█▍        | 11289/78504 [6:52:14<72:10:32,  3.87s/it]                                                          {'loss': 0.163, 'grad_norm': 1.0184390544891357, 'learning_rate': 2.8542737038766934e-05, 'epoch': 3.45}
 14%|█▍        | 11289/78504 [6:52:14<72:10:32,  3.87s/it] 14%|█▍        | 11290/78504 [6:52:16<66:48:22,  3.58s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.2449783831834793, 'learning_rate': 2.8542312428346993e-05, 'epoch': 3.45}
 14%|█▍        | 11290/78504 [6:52:16<66:48:22,  3.58s/it] 14%|█▍        | 11291/78504 [6:52:19<62:20:24,  3.34s/it]                                                          {'loss': 0.068, 'grad_norm': 0.6575819849967957, 'learning_rate': 2.8541887817927055e-05, 'epoch': 3.45}
 14%|█▍        | 11291/78504 [6:52:19<62:20:24,  3.34s/it] 14%|█▍        | 11292/78504 [6:52:22<58:02:09,  3.11s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.2224055975675583, 'learning_rate': 2.8541463207507114e-05, 'epoch': 3.45}
 14%|█▍        | 11292/78504 [6:52:22<58:02:09,  3.11s/it] 14%|█▍        | 11293/78504 [6:52:24<54:36:03,  2.92s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.2879335582256317, 'learning_rate': 2.8541038597087176e-05, 'epoch': 3.45}
 14%|█▍        | 11293/78504 [6:52:24<54:36:03,  2.92s/it] 14%|█▍        | 11294/78504 [6:52:27<51:49:28,  2.78s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.18428242206573486, 'learning_rate': 2.8540613986667235e-05, 'epoch': 3.45}
 14%|█▍        | 11294/78504 [6:52:27<51:49:28,  2.78s/it] 14%|█▍        | 11295/78504 [6:52:29<49:14:08,  2.64s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.30078479647636414, 'learning_rate': 2.8540189376247297e-05, 'epoch': 3.45}
 14%|█▍        | 11295/78504 [6:52:29<49:14:08,  2.64s/it] 14%|█▍        | 11296/78504 [6:52:31<46:18:52,  2.48s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.3593904674053192, 'learning_rate': 2.8539764765827355e-05, 'epoch': 3.45}
 14%|█▍        | 11296/78504 [6:52:31<46:18:52,  2.48s/it] 14%|█▍        | 11297/78504 [6:52:33<44:38:13,  2.39s/it]                                                          {'loss': 0.0602, 'grad_norm': 1.1135681867599487, 'learning_rate': 2.8539340155407414e-05, 'epoch': 3.45}
 14%|█▍        | 11297/78504 [6:52:33<44:38:13,  2.39s/it] 14%|█▍        | 11298/78504 [6:52:35<43:15:31,  2.32s/it]                                                          {'loss': 0.0734, 'grad_norm': 0.5326744318008423, 'learning_rate': 2.8538915544987476e-05, 'epoch': 3.45}
 14%|█▍        | 11298/78504 [6:52:35<43:15:31,  2.32s/it] 14%|█▍        | 11299/78504 [6:52:37<41:36:58,  2.23s/it]                                                          {'loss': 0.108, 'grad_norm': 0.46083229780197144, 'learning_rate': 2.8538490934567535e-05, 'epoch': 3.45}
 14%|█▍        | 11299/78504 [6:52:37<41:36:58,  2.23s/it] 14%|█▍        | 11300/78504 [6:52:39<40:12:41,  2.15s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.2609047293663025, 'learning_rate': 2.8538066324147597e-05, 'epoch': 3.45}
 14%|█▍        | 11300/78504 [6:52:39<40:12:41,  2.15s/it] 14%|█▍        | 11301/78504 [6:52:41<38:43:47,  2.07s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.34027621150016785, 'learning_rate': 2.8537641713727656e-05, 'epoch': 3.45}
 14%|█▍        | 11301/78504 [6:52:41<38:43:47,  2.07s/it] 14%|█▍        | 11302/78504 [6:52:43<37:33:06,  2.01s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.5679340362548828, 'learning_rate': 2.8537217103307718e-05, 'epoch': 3.46}
 14%|█▍        | 11302/78504 [6:52:43<37:33:06,  2.01s/it] 14%|█▍        | 11303/78504 [6:52:45<36:09:06,  1.94s/it]                                                          {'loss': 0.1468, 'grad_norm': 0.6877142190933228, 'learning_rate': 2.8536792492887776e-05, 'epoch': 3.46}
 14%|█▍        | 11303/78504 [6:52:45<36:09:06,  1.94s/it] 14%|█▍        | 11304/78504 [6:52:47<34:35:13,  1.85s/it]                                                          {'loss': 0.1555, 'grad_norm': 0.9959607124328613, 'learning_rate': 2.853636788246784e-05, 'epoch': 3.46}
 14%|█▍        | 11304/78504 [6:52:47<34:35:13,  1.85s/it] 14%|█▍        | 11305/78504 [6:52:48<32:50:19,  1.76s/it]                                                          {'loss': 0.131, 'grad_norm': 0.647853672504425, 'learning_rate': 2.8535943272047897e-05, 'epoch': 3.46}
 14%|█▍        | 11305/78504 [6:52:48<32:50:19,  1.76s/it] 14%|█▍        | 11306/78504 [6:52:50<30:56:40,  1.66s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.4793001115322113, 'learning_rate': 2.853551866162796e-05, 'epoch': 3.46}
 14%|█▍        | 11306/78504 [6:52:50<30:56:40,  1.66s/it] 14%|█▍        | 11307/78504 [6:52:51<29:35:38,  1.59s/it]                                                          {'loss': 0.1966, 'grad_norm': 0.7990772724151611, 'learning_rate': 2.8535094051208018e-05, 'epoch': 3.46}
 14%|█▍        | 11307/78504 [6:52:51<29:35:38,  1.59s/it] 14%|█▍        | 11308/78504 [6:52:52<27:35:40,  1.48s/it]                                                          {'loss': 0.1743, 'grad_norm': 0.870517373085022, 'learning_rate': 2.853466944078808e-05, 'epoch': 3.46}
 14%|█▍        | 11308/78504 [6:52:52<27:35:40,  1.48s/it] 14%|█▍        | 11309/78504 [6:52:53<25:41:44,  1.38s/it]                                                          {'loss': 0.17, 'grad_norm': 0.9628502130508423, 'learning_rate': 2.853424483036814e-05, 'epoch': 3.46}
 14%|█▍        | 11309/78504 [6:52:53<25:41:44,  1.38s/it] 14%|█▍        | 11310/78504 [6:52:54<24:04:45,  1.29s/it]                                                          {'loss': 0.1977, 'grad_norm': 0.7041844725608826, 'learning_rate': 2.8533820219948198e-05, 'epoch': 3.46}
 14%|█▍        | 11310/78504 [6:52:54<24:04:45,  1.29s/it] 14%|█▍        | 11311/78504 [6:52:55<22:42:32,  1.22s/it]                                                          {'loss': 0.2444, 'grad_norm': 1.8725132942199707, 'learning_rate': 2.853339560952826e-05, 'epoch': 3.46}
 14%|█▍        | 11311/78504 [6:52:56<22:42:32,  1.22s/it] 14%|█▍        | 11312/78504 [6:52:56<21:10:14,  1.13s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.755177915096283, 'learning_rate': 2.853297099910832e-05, 'epoch': 3.46}
 14%|█▍        | 11312/78504 [6:52:56<21:10:14,  1.13s/it] 14%|█▍        | 11313/78504 [6:52:57<19:11:27,  1.03s/it]                                                          {'loss': 0.2813, 'grad_norm': 1.8864519596099854, 'learning_rate': 2.853254638868838e-05, 'epoch': 3.46}
 14%|█▍        | 11313/78504 [6:52:57<19:11:27,  1.03s/it] 14%|█▍        | 11314/78504 [6:53:06<60:40:34,  3.25s/it]                                                          {'loss': 0.1455, 'grad_norm': 0.39647915959358215, 'learning_rate': 2.853212177826844e-05, 'epoch': 3.46}
 14%|█▍        | 11314/78504 [6:53:06<60:40:34,  3.25s/it] 14%|█▍        | 11315/78504 [6:53:09<61:13:35,  3.28s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.5808576941490173, 'learning_rate': 2.85316971678485e-05, 'epoch': 3.46}
 14%|█▍        | 11315/78504 [6:53:09<61:13:35,  3.28s/it] 14%|█▍        | 11316/78504 [6:53:12<59:43:27,  3.20s/it]                                                          {'loss': 0.0679, 'grad_norm': 0.37843021750450134, 'learning_rate': 2.853127255742856e-05, 'epoch': 3.46}
 14%|█▍        | 11316/78504 [6:53:12<59:43:27,  3.20s/it] 14%|█▍        | 11317/78504 [6:53:15<56:27:24,  3.03s/it]                                                          {'loss': 0.0454, 'grad_norm': 0.3310873508453369, 'learning_rate': 2.8530847947008622e-05, 'epoch': 3.46}
 14%|█▍        | 11317/78504 [6:53:15<56:27:24,  3.03s/it] 14%|█▍        | 11318/78504 [6:53:17<53:19:53,  2.86s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.22694648802280426, 'learning_rate': 2.853042333658868e-05, 'epoch': 3.46}
 14%|█▍        | 11318/78504 [6:53:17<53:19:53,  2.86s/it] 14%|█▍        | 11319/78504 [6:53:19<50:03:18,  2.68s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.2615300714969635, 'learning_rate': 2.8529998726168743e-05, 'epoch': 3.46}
 14%|█▍        | 11319/78504 [6:53:19<50:03:18,  2.68s/it] 14%|█▍        | 11320/78504 [6:53:22<48:01:33,  2.57s/it]                                                          {'loss': 0.1052, 'grad_norm': 0.33539271354675293, 'learning_rate': 2.85295741157488e-05, 'epoch': 3.46}
 14%|█▍        | 11320/78504 [6:53:22<48:01:33,  2.57s/it] 14%|█▍        | 11321/78504 [6:53:24<45:26:29,  2.43s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.6923887729644775, 'learning_rate': 2.8529149505328864e-05, 'epoch': 3.46}
 14%|█▍        | 11321/78504 [6:53:24<45:26:29,  2.43s/it] 14%|█▍        | 11322/78504 [6:53:26<44:04:14,  2.36s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.27677854895591736, 'learning_rate': 2.8528724894908922e-05, 'epoch': 3.46}
 14%|█▍        | 11322/78504 [6:53:26<44:04:14,  2.36s/it] 14%|█▍        | 11323/78504 [6:53:28<42:49:59,  2.30s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.3146294355392456, 'learning_rate': 2.852830028448898e-05, 'epoch': 3.46}
 14%|█▍        | 11323/78504 [6:53:28<42:49:59,  2.30s/it] 14%|█▍        | 11324/78504 [6:53:30<41:21:09,  2.22s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.25200799107551575, 'learning_rate': 2.8527875674069043e-05, 'epoch': 3.46}
 14%|█▍        | 11324/78504 [6:53:30<41:21:09,  2.22s/it] 14%|█▍        | 11325/78504 [6:53:32<40:03:43,  2.15s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.22961124777793884, 'learning_rate': 2.8527451063649102e-05, 'epoch': 3.46}
 14%|█▍        | 11325/78504 [6:53:32<40:03:43,  2.15s/it] 14%|█▍        | 11326/78504 [6:53:34<38:29:33,  2.06s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.32707926630973816, 'learning_rate': 2.8527026453229164e-05, 'epoch': 3.46}
 14%|█▍        | 11326/78504 [6:53:34<38:29:33,  2.06s/it] 14%|█▍        | 11327/78504 [6:53:36<37:25:42,  2.01s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.8964866399765015, 'learning_rate': 2.8526601842809223e-05, 'epoch': 3.46}
 14%|█▍        | 11327/78504 [6:53:36<37:25:42,  2.01s/it] 14%|█▍        | 11328/78504 [6:53:38<36:04:22,  1.93s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.5053001046180725, 'learning_rate': 2.8526177232389285e-05, 'epoch': 3.46}
 14%|█▍        | 11328/78504 [6:53:38<36:04:22,  1.93s/it] 14%|█▍        | 11329/78504 [6:53:39<34:30:13,  1.85s/it]                                                          {'loss': 0.1586, 'grad_norm': 0.44359588623046875, 'learning_rate': 2.8525752621969343e-05, 'epoch': 3.46}
 14%|█▍        | 11329/78504 [6:53:39<34:30:13,  1.85s/it] 14%|█▍        | 11330/78504 [6:53:41<32:51:19,  1.76s/it]                                                          {'loss': 0.1662, 'grad_norm': 0.5006656050682068, 'learning_rate': 2.8525328011549405e-05, 'epoch': 3.46}
 14%|█▍        | 11330/78504 [6:53:41<32:51:19,  1.76s/it] 14%|█▍        | 11331/78504 [6:53:42<31:13:11,  1.67s/it]                                                          {'loss': 0.1584, 'grad_norm': 0.46795547008514404, 'learning_rate': 2.8524903401129464e-05, 'epoch': 3.46}
 14%|█▍        | 11331/78504 [6:53:42<31:13:11,  1.67s/it] 14%|█▍        | 11332/78504 [6:53:44<29:42:29,  1.59s/it]                                                          {'loss': 0.1798, 'grad_norm': 0.4886009991168976, 'learning_rate': 2.8524478790709526e-05, 'epoch': 3.46}
 14%|█▍        | 11332/78504 [6:53:44<29:42:29,  1.59s/it] 14%|█▍        | 11333/78504 [6:53:45<27:57:01,  1.50s/it]                                                          {'loss': 0.1769, 'grad_norm': 1.4820148944854736, 'learning_rate': 2.8524054180289585e-05, 'epoch': 3.46}
 14%|█▍        | 11333/78504 [6:53:45<27:57:01,  1.50s/it] 14%|█▍        | 11334/78504 [6:53:46<26:01:10,  1.39s/it]                                                          {'loss': 0.2182, 'grad_norm': 0.776319146156311, 'learning_rate': 2.8523629569869647e-05, 'epoch': 3.46}
 14%|█▍        | 11334/78504 [6:53:46<26:01:10,  1.39s/it] 14%|█▍        | 11335/78504 [6:53:47<24:23:06,  1.31s/it]                                                          {'loss': 0.2069, 'grad_norm': 0.9147388935089111, 'learning_rate': 2.8523204959449706e-05, 'epoch': 3.47}
 14%|█▍        | 11335/78504 [6:53:47<24:23:06,  1.31s/it] 14%|█▍        | 11336/78504 [6:53:48<22:39:09,  1.21s/it]                                                          {'loss': 0.2008, 'grad_norm': 1.1325361728668213, 'learning_rate': 2.8522780349029764e-05, 'epoch': 3.47}
 14%|█▍        | 11336/78504 [6:53:48<22:39:09,  1.21s/it] 14%|█▍        | 11337/78504 [6:53:49<21:04:15,  1.13s/it]                                                          {'loss': 0.2546, 'grad_norm': 1.6940199136734009, 'learning_rate': 2.8522355738609826e-05, 'epoch': 3.47}
 14%|█▍        | 11337/78504 [6:53:49<21:04:15,  1.13s/it] 14%|█▍        | 11338/78504 [6:53:50<18:55:45,  1.01s/it]                                                          {'loss': 0.2265, 'grad_norm': 1.9625250101089478, 'learning_rate': 2.8521931128189885e-05, 'epoch': 3.47}
 14%|█▍        | 11338/78504 [6:53:50<18:55:45,  1.01s/it] 14%|█▍        | 11339/78504 [6:53:57<55:19:11,  2.97s/it]                                                          {'loss': 0.1554, 'grad_norm': 0.3467671871185303, 'learning_rate': 2.8521506517769947e-05, 'epoch': 3.47}
 14%|█▍        | 11339/78504 [6:53:57<55:19:11,  2.97s/it] 14%|█▍        | 11340/78504 [6:54:00<55:00:32,  2.95s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.4298381507396698, 'learning_rate': 2.8521081907350006e-05, 'epoch': 3.47}
 14%|█▍        | 11340/78504 [6:54:00<55:00:32,  2.95s/it] 14%|█▍        | 11341/78504 [6:54:03<52:53:27,  2.84s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.438882440328598, 'learning_rate': 2.8520657296930068e-05, 'epoch': 3.47}
 14%|█▍        | 11341/78504 [6:54:03<52:53:27,  2.84s/it] 14%|█▍        | 11342/78504 [6:54:05<50:07:57,  2.69s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.22480154037475586, 'learning_rate': 2.8520232686510127e-05, 'epoch': 3.47}
 14%|█▍        | 11342/78504 [6:54:05<50:07:57,  2.69s/it] 14%|█▍        | 11343/78504 [6:54:08<48:54:51,  2.62s/it]                                                          {'loss': 0.0594, 'grad_norm': 0.3221060037612915, 'learning_rate': 2.851980807609019e-05, 'epoch': 3.47}
 14%|█▍        | 11343/78504 [6:54:08<48:54:51,  2.62s/it] 14%|█▍        | 11344/78504 [6:54:10<46:55:37,  2.52s/it]                                                          {'loss': 0.0374, 'grad_norm': 0.16212166845798492, 'learning_rate': 2.8519383465670248e-05, 'epoch': 3.47}
 14%|█▍        | 11344/78504 [6:54:10<46:55:37,  2.52s/it] 14%|█▍        | 11345/78504 [6:54:12<45:48:43,  2.46s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.22855263948440552, 'learning_rate': 2.851895885525031e-05, 'epoch': 3.47}
 14%|█▍        | 11345/78504 [6:54:12<45:48:43,  2.46s/it] 14%|█▍        | 11346/78504 [6:54:14<43:54:43,  2.35s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.45545798540115356, 'learning_rate': 2.851853424483037e-05, 'epoch': 3.47}
 14%|█▍        | 11346/78504 [6:54:14<43:54:43,  2.35s/it] 14%|█▍        | 11347/78504 [6:54:17<42:58:29,  2.30s/it]                                                          {'loss': 0.083, 'grad_norm': 0.2434130758047104, 'learning_rate': 2.8518109634410427e-05, 'epoch': 3.47}
 14%|█▍        | 11347/78504 [6:54:17<42:58:29,  2.30s/it] 14%|█▍        | 11348/78504 [6:54:19<42:12:24,  2.26s/it]                                                          {'loss': 0.062, 'grad_norm': 0.5001268982887268, 'learning_rate': 2.851768502399049e-05, 'epoch': 3.47}
 14%|█▍        | 11348/78504 [6:54:19<42:12:24,  2.26s/it] 14%|█▍        | 11349/78504 [6:54:21<40:51:14,  2.19s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.230449840426445, 'learning_rate': 2.8517260413570548e-05, 'epoch': 3.47}
 14%|█▍        | 11349/78504 [6:54:21<40:51:14,  2.19s/it] 14%|█▍        | 11350/78504 [6:54:23<39:40:21,  2.13s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.22864101827144623, 'learning_rate': 2.851683580315061e-05, 'epoch': 3.47}
 14%|█▍        | 11350/78504 [6:54:23<39:40:21,  2.13s/it] 14%|█▍        | 11351/78504 [6:54:25<38:12:47,  2.05s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.4223034381866455, 'learning_rate': 2.851641119273067e-05, 'epoch': 3.47}
 14%|█▍        | 11351/78504 [6:54:25<38:12:47,  2.05s/it] 14%|█▍        | 11352/78504 [6:54:27<37:12:24,  1.99s/it]                                                          {'loss': 0.1278, 'grad_norm': 1.5232298374176025, 'learning_rate': 2.851598658231073e-05, 'epoch': 3.47}
 14%|█▍        | 11352/78504 [6:54:27<37:12:24,  1.99s/it] 14%|█▍        | 11353/78504 [6:54:28<35:54:39,  1.93s/it]                                                          {'loss': 0.131, 'grad_norm': 0.5497438311576843, 'learning_rate': 2.851556197189079e-05, 'epoch': 3.47}
 14%|█▍        | 11353/78504 [6:54:28<35:54:39,  1.93s/it] 14%|█▍        | 11354/78504 [6:54:30<34:20:11,  1.84s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.5384012460708618, 'learning_rate': 2.851513736147085e-05, 'epoch': 3.47}
 14%|█▍        | 11354/78504 [6:54:30<34:20:11,  1.84s/it] 14%|█▍        | 11355/78504 [6:54:31<32:34:06,  1.75s/it]                                                          {'loss': 0.1918, 'grad_norm': 0.7203657627105713, 'learning_rate': 2.851471275105091e-05, 'epoch': 3.47}
 14%|█▍        | 11355/78504 [6:54:31<32:34:06,  1.75s/it] 14%|█▍        | 11356/78504 [6:54:33<31:00:51,  1.66s/it]                                                          {'loss': 0.172, 'grad_norm': 0.9012494683265686, 'learning_rate': 2.8514288140630972e-05, 'epoch': 3.47}
 14%|█▍        | 11356/78504 [6:54:33<31:00:51,  1.66s/it] 14%|█▍        | 11357/78504 [6:54:34<29:36:39,  1.59s/it]                                                          {'loss': 0.1775, 'grad_norm': 0.9350446462631226, 'learning_rate': 2.851386353021103e-05, 'epoch': 3.47}
 14%|█▍        | 11357/78504 [6:54:34<29:36:39,  1.59s/it] 14%|█▍        | 11358/78504 [6:54:36<27:55:42,  1.50s/it]                                                          {'loss': 0.1518, 'grad_norm': 1.311978816986084, 'learning_rate': 2.8513438919791093e-05, 'epoch': 3.47}
 14%|█▍        | 11358/78504 [6:54:36<27:55:42,  1.50s/it] 14%|█▍        | 11359/78504 [6:54:37<26:02:23,  1.40s/it]                                                          {'loss': 0.1536, 'grad_norm': 0.6597777605056763, 'learning_rate': 2.8513014309371152e-05, 'epoch': 3.47}
 14%|█▍        | 11359/78504 [6:54:37<26:02:23,  1.40s/it] 14%|█▍        | 11360/78504 [6:54:38<24:22:03,  1.31s/it]                                                          {'loss': 0.2142, 'grad_norm': 1.2731540203094482, 'learning_rate': 2.851258969895121e-05, 'epoch': 3.47}
 14%|█▍        | 11360/78504 [6:54:38<24:22:03,  1.31s/it] 14%|█▍        | 11361/78504 [6:54:39<22:34:58,  1.21s/it]                                                          {'loss': 0.1906, 'grad_norm': 1.3904006481170654, 'learning_rate': 2.8512165088531273e-05, 'epoch': 3.47}
 14%|█▍        | 11361/78504 [6:54:39<22:34:58,  1.21s/it] 14%|█▍        | 11362/78504 [6:54:40<21:00:27,  1.13s/it]                                                          {'loss': 0.2257, 'grad_norm': 0.9410531520843506, 'learning_rate': 2.851174047811133e-05, 'epoch': 3.47}
 14%|█▍        | 11362/78504 [6:54:40<21:00:27,  1.13s/it] 14%|█▍        | 11363/78504 [6:54:41<19:06:07,  1.02s/it]                                                          {'loss': 0.2648, 'grad_norm': 1.1796958446502686, 'learning_rate': 2.8511315867691393e-05, 'epoch': 3.47}
 14%|█▍        | 11363/78504 [6:54:41<19:06:07,  1.02s/it] 14%|█▍        | 11364/78504 [6:54:48<52:08:11,  2.80s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.36743414402008057, 'learning_rate': 2.8510891257271452e-05, 'epoch': 3.47}
 14%|█▍        | 11364/78504 [6:54:48<52:08:11,  2.80s/it] 14%|█▍        | 11365/78504 [6:54:51<53:55:35,  2.89s/it]                                                          {'loss': 0.104, 'grad_norm': 0.6382285356521606, 'learning_rate': 2.8510466646851514e-05, 'epoch': 3.47}
 14%|█▍        | 11365/78504 [6:54:51<53:55:35,  2.89s/it] 14%|█▍        | 11366/78504 [6:54:54<54:39:47,  2.93s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.3812567889690399, 'learning_rate': 2.8510042036431573e-05, 'epoch': 3.47}
 14%|█▍        | 11366/78504 [6:54:54<54:39:47,  2.93s/it] 14%|█▍        | 11367/78504 [6:54:56<52:51:56,  2.83s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.24122491478919983, 'learning_rate': 2.8509617426011635e-05, 'epoch': 3.48}
 14%|█▍        | 11367/78504 [6:54:56<52:51:56,  2.83s/it] 14%|█▍        | 11368/78504 [6:54:59<50:50:26,  2.73s/it]                                                          {'loss': 0.0478, 'grad_norm': 0.15925545990467072, 'learning_rate': 2.8509192815591694e-05, 'epoch': 3.48}
 14%|█▍        | 11368/78504 [6:54:59<50:50:26,  2.73s/it] 14%|█▍        | 11369/78504 [6:55:01<49:11:09,  2.64s/it]                                                          {'loss': 0.063, 'grad_norm': 0.15356849133968353, 'learning_rate': 2.8508768205171756e-05, 'epoch': 3.48}
 14%|█▍        | 11369/78504 [6:55:01<49:11:09,  2.64s/it] 14%|█▍        | 11370/78504 [6:55:04<47:24:25,  2.54s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.2225913107395172, 'learning_rate': 2.8508343594751814e-05, 'epoch': 3.48}
 14%|█▍        | 11370/78504 [6:55:04<47:24:25,  2.54s/it] 14%|█▍        | 11371/78504 [6:55:06<46:04:55,  2.47s/it]                                                          {'loss': 0.0922, 'grad_norm': 0.2522819936275482, 'learning_rate': 2.8507918984331876e-05, 'epoch': 3.48}
 14%|█▍        | 11371/78504 [6:55:06<46:04:55,  2.47s/it] 14%|█▍        | 11372/78504 [6:55:08<44:30:50,  2.39s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.8713470101356506, 'learning_rate': 2.8507494373911935e-05, 'epoch': 3.48}
 14%|█▍        | 11372/78504 [6:55:08<44:30:50,  2.39s/it] 14%|█▍        | 11373/78504 [6:55:10<43:20:59,  2.32s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.19900065660476685, 'learning_rate': 2.8507069763491994e-05, 'epoch': 3.48}
 14%|█▍        | 11373/78504 [6:55:10<43:20:59,  2.32s/it] 14%|█▍        | 11374/78504 [6:55:12<40:48:30,  2.19s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.31019866466522217, 'learning_rate': 2.8506645153072056e-05, 'epoch': 3.48}
 14%|█▍        | 11374/78504 [6:55:12<40:48:30,  2.19s/it] 14%|█▍        | 11375/78504 [6:55:14<39:39:18,  2.13s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.4666471481323242, 'learning_rate': 2.8506220542652115e-05, 'epoch': 3.48}
 14%|█▍        | 11375/78504 [6:55:14<39:39:18,  2.13s/it] 14%|█▍        | 11376/78504 [6:55:16<38:31:06,  2.07s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.3982682526111603, 'learning_rate': 2.8505795932232177e-05, 'epoch': 3.48}
 14%|█▍        | 11376/78504 [6:55:16<38:31:06,  2.07s/it] 14%|█▍        | 11377/78504 [6:55:18<37:32:07,  2.01s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.6024423241615295, 'learning_rate': 2.8505371321812235e-05, 'epoch': 3.48}
 14%|█▍        | 11377/78504 [6:55:18<37:32:07,  2.01s/it] 14%|█▍        | 11378/78504 [6:55:20<36:08:54,  1.94s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.5077764391899109, 'learning_rate': 2.8504946711392298e-05, 'epoch': 3.48}
 14%|█▍        | 11378/78504 [6:55:20<36:08:54,  1.94s/it] 14%|█▍        | 11379/78504 [6:55:21<34:12:25,  1.83s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.44966500997543335, 'learning_rate': 2.8504522100972356e-05, 'epoch': 3.48}
 14%|█▍        | 11379/78504 [6:55:21<34:12:25,  1.83s/it] 14%|█▍        | 11380/78504 [6:55:23<32:32:53,  1.75s/it]                                                          {'loss': 0.146, 'grad_norm': 0.9931373596191406, 'learning_rate': 2.850409749055242e-05, 'epoch': 3.48}
 14%|█▍        | 11380/78504 [6:55:23<32:32:53,  1.75s/it] 14%|█▍        | 11381/78504 [6:55:24<31:12:53,  1.67s/it]                                                          {'loss': 0.2046, 'grad_norm': 0.5340157747268677, 'learning_rate': 2.8503672880132477e-05, 'epoch': 3.48}
 14%|█▍        | 11381/78504 [6:55:24<31:12:53,  1.67s/it] 14%|█▍        | 11382/78504 [6:55:26<29:38:45,  1.59s/it]                                                          {'loss': 0.1812, 'grad_norm': 0.6756018400192261, 'learning_rate': 2.850324826971254e-05, 'epoch': 3.48}
 14%|█▍        | 11382/78504 [6:55:26<29:38:45,  1.59s/it] 14%|█▍        | 11383/78504 [6:55:27<27:56:33,  1.50s/it]                                                          {'loss': 0.2145, 'grad_norm': 0.9688618779182434, 'learning_rate': 2.8502823659292598e-05, 'epoch': 3.48}
 14%|█▍        | 11383/78504 [6:55:27<27:56:33,  1.50s/it] 15%|█▍        | 11384/78504 [6:55:28<25:58:15,  1.39s/it]                                                          {'loss': 0.229, 'grad_norm': 0.832491397857666, 'learning_rate': 2.850239904887266e-05, 'epoch': 3.48}
 15%|█▍        | 11384/78504 [6:55:28<25:58:15,  1.39s/it] 15%|█▍        | 11385/78504 [6:55:29<24:17:33,  1.30s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.6163973808288574, 'learning_rate': 2.8501974438452722e-05, 'epoch': 3.48}
 15%|█▍        | 11385/78504 [6:55:29<24:17:33,  1.30s/it] 15%|█▍        | 11386/78504 [6:55:30<22:53:05,  1.23s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.7795174717903137, 'learning_rate': 2.850154982803278e-05, 'epoch': 3.48}
 15%|█▍        | 11386/78504 [6:55:30<22:53:05,  1.23s/it] 15%|█▍        | 11387/78504 [6:55:31<21:14:37,  1.14s/it]                                                          {'loss': 0.2091, 'grad_norm': 0.665359377861023, 'learning_rate': 2.8501125217612843e-05, 'epoch': 3.48}
 15%|█▍        | 11387/78504 [6:55:31<21:14:37,  1.14s/it] 15%|█▍        | 11388/78504 [6:55:32<19:23:42,  1.04s/it]                                                          {'loss': 0.2429, 'grad_norm': 1.4279351234436035, 'learning_rate': 2.85007006071929e-05, 'epoch': 3.48}
 15%|█▍        | 11388/78504 [6:55:32<19:23:42,  1.04s/it] 15%|█▍        | 11389/78504 [6:55:41<65:08:21,  3.49s/it]                                                          {'loss': 0.2002, 'grad_norm': 0.35106366872787476, 'learning_rate': 2.8500275996772964e-05, 'epoch': 3.48}
 15%|█▍        | 11389/78504 [6:55:41<65:08:21,  3.49s/it] 15%|█▍        | 11390/78504 [6:55:44<63:07:26,  3.39s/it]                                                          {'loss': 0.0829, 'grad_norm': 0.5045731663703918, 'learning_rate': 2.8499851386353022e-05, 'epoch': 3.48}
 15%|█▍        | 11390/78504 [6:55:44<63:07:26,  3.39s/it] 15%|█▍        | 11391/78504 [6:55:47<58:32:24,  3.14s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.23386335372924805, 'learning_rate': 2.8499426775933084e-05, 'epoch': 3.48}
 15%|█▍        | 11391/78504 [6:55:47<58:32:24,  3.14s/it] 15%|█▍        | 11392/78504 [6:55:49<55:37:07,  2.98s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.8404673933982849, 'learning_rate': 2.8499002165513143e-05, 'epoch': 3.48}
 15%|█▍        | 11392/78504 [6:55:50<55:37:07,  2.98s/it] 15%|█▍        | 11393/78504 [6:55:52<52:04:34,  2.79s/it]                                                          {'loss': 0.0553, 'grad_norm': 0.1676418036222458, 'learning_rate': 2.8498577555093205e-05, 'epoch': 3.48}
 15%|█▍        | 11393/78504 [6:55:52<52:04:34,  2.79s/it] 15%|█▍        | 11394/78504 [6:55:54<49:07:14,  2.64s/it]                                                          {'loss': 0.0328, 'grad_norm': 0.22680307924747467, 'learning_rate': 2.8498152944673264e-05, 'epoch': 3.48}
 15%|█▍        | 11394/78504 [6:55:54<49:07:14,  2.64s/it] 15%|█▍        | 11395/78504 [6:55:56<47:19:38,  2.54s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.324039489030838, 'learning_rate': 2.8497728334253326e-05, 'epoch': 3.48}
 15%|█▍        | 11395/78504 [6:55:56<47:19:38,  2.54s/it] 15%|█▍        | 11396/78504 [6:55:59<44:57:30,  2.41s/it]                                                          {'loss': 0.062, 'grad_norm': 0.2235116958618164, 'learning_rate': 2.8497303723833385e-05, 'epoch': 3.48}
 15%|█▍        | 11396/78504 [6:55:59<44:57:30,  2.41s/it] 15%|█▍        | 11397/78504 [6:56:01<43:42:21,  2.34s/it]                                                          {'loss': 0.078, 'grad_norm': 0.5210524201393127, 'learning_rate': 2.8496879113413447e-05, 'epoch': 3.48}
 15%|█▍        | 11397/78504 [6:56:01<43:42:21,  2.34s/it] 15%|█▍        | 11398/78504 [6:56:03<42:32:38,  2.28s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.4013563096523285, 'learning_rate': 2.8496454502993505e-05, 'epoch': 3.48}
 15%|█▍        | 11398/78504 [6:56:03<42:32:38,  2.28s/it] 15%|█▍        | 11399/78504 [6:56:05<41:10:37,  2.21s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.2912479639053345, 'learning_rate': 2.8496029892573564e-05, 'epoch': 3.48}
 15%|█▍        | 11399/78504 [6:56:05<41:10:37,  2.21s/it] 15%|█▍        | 11400/78504 [6:56:07<39:54:38,  2.14s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.7112475633621216, 'learning_rate': 2.8495605282153626e-05, 'epoch': 3.49}
 15%|█▍        | 11400/78504 [6:56:07<39:54:38,  2.14s/it] 15%|█▍        | 11401/78504 [6:56:09<38:21:02,  2.06s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.38377124071121216, 'learning_rate': 2.8495180671733685e-05, 'epoch': 3.49}
 15%|█▍        | 11401/78504 [6:56:09<38:21:02,  2.06s/it] 15%|█▍        | 11402/78504 [6:56:11<37:12:21,  2.00s/it]                                                          {'loss': 0.136, 'grad_norm': 0.40957850217819214, 'learning_rate': 2.8494756061313747e-05, 'epoch': 3.49}
 15%|█▍        | 11402/78504 [6:56:11<37:12:21,  2.00s/it] 15%|█▍        | 11403/78504 [6:56:12<35:55:13,  1.93s/it]                                                          {'loss': 0.119, 'grad_norm': 0.5405424237251282, 'learning_rate': 2.8494331450893806e-05, 'epoch': 3.49}
 15%|█▍        | 11403/78504 [6:56:12<35:55:13,  1.93s/it] 15%|█▍        | 11404/78504 [6:56:14<34:18:53,  1.84s/it]                                                          {'loss': 0.1969, 'grad_norm': 1.1068066358566284, 'learning_rate': 2.8493906840473868e-05, 'epoch': 3.49}
 15%|█▍        | 11404/78504 [6:56:14<34:18:53,  1.84s/it] 15%|█▍        | 11405/78504 [6:56:16<32:39:44,  1.75s/it]                                                          {'loss': 0.1794, 'grad_norm': 0.7953932881355286, 'learning_rate': 2.8493482230053927e-05, 'epoch': 3.49}
 15%|█▍        | 11405/78504 [6:56:16<32:39:44,  1.75s/it] 15%|█▍        | 11406/78504 [6:56:17<31:04:32,  1.67s/it]                                                          {'loss': 0.1845, 'grad_norm': 0.578853189945221, 'learning_rate': 2.849305761963399e-05, 'epoch': 3.49}
 15%|█▍        | 11406/78504 [6:56:17<31:04:32,  1.67s/it] 15%|█▍        | 11407/78504 [6:56:18<29:38:44,  1.59s/it]                                                          {'loss': 0.1686, 'grad_norm': 1.1918203830718994, 'learning_rate': 2.8492633009214047e-05, 'epoch': 3.49}
 15%|█▍        | 11407/78504 [6:56:18<29:38:44,  1.59s/it] 15%|█▍        | 11408/78504 [6:56:20<27:56:48,  1.50s/it]                                                          {'loss': 0.2157, 'grad_norm': 0.8109108209609985, 'learning_rate': 2.849220839879411e-05, 'epoch': 3.49}
 15%|█▍        | 11408/78504 [6:56:20<27:56:48,  1.50s/it] 15%|█▍        | 11409/78504 [6:56:21<26:01:06,  1.40s/it]                                                          {'loss': 0.1656, 'grad_norm': 1.6038247346878052, 'learning_rate': 2.8491783788374168e-05, 'epoch': 3.49}
 15%|█▍        | 11409/78504 [6:56:21<26:01:06,  1.40s/it] 15%|█▍        | 11410/78504 [6:56:22<24:20:51,  1.31s/it]                                                          {'loss': 0.2307, 'grad_norm': 5.733242034912109, 'learning_rate': 2.849135917795423e-05, 'epoch': 3.49}
 15%|█▍        | 11410/78504 [6:56:22<24:20:51,  1.31s/it] 15%|█▍        | 11411/78504 [6:56:23<22:54:07,  1.23s/it]                                                          {'loss': 0.1972, 'grad_norm': 1.5683422088623047, 'learning_rate': 2.849093456753429e-05, 'epoch': 3.49}
 15%|█▍        | 11411/78504 [6:56:23<22:54:07,  1.23s/it] 15%|█▍        | 11412/78504 [6:56:24<21:12:20,  1.14s/it]                                                          {'loss': 0.2022, 'grad_norm': 0.995733916759491, 'learning_rate': 2.8490509957114348e-05, 'epoch': 3.49}
 15%|█▍        | 11412/78504 [6:56:24<21:12:20,  1.14s/it] 15%|█▍        | 11413/78504 [6:56:25<19:19:25,  1.04s/it]                                                          {'loss': 0.2289, 'grad_norm': 1.551689863204956, 'learning_rate': 2.849008534669441e-05, 'epoch': 3.49}
 15%|█▍        | 11413/78504 [6:56:25<19:19:25,  1.04s/it] 15%|█▍        | 11414/78504 [6:56:34<67:59:08,  3.65s/it]                                                          {'loss': 0.1975, 'grad_norm': 1.3901945352554321, 'learning_rate': 2.848966073627447e-05, 'epoch': 3.49}
 15%|█▍        | 11414/78504 [6:56:35<67:59:08,  3.65s/it] 15%|█▍        | 11415/78504 [6:56:38<64:48:46,  3.48s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.2698350250720978, 'learning_rate': 2.848923612585453e-05, 'epoch': 3.49}
 15%|█▍        | 11415/78504 [6:56:38<64:48:46,  3.48s/it] 15%|█▍        | 11416/78504 [6:56:40<59:42:08,  3.20s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.21980762481689453, 'learning_rate': 2.848881151543459e-05, 'epoch': 3.49}
 15%|█▍        | 11416/78504 [6:56:40<59:42:08,  3.20s/it] 15%|█▍        | 11417/78504 [6:56:43<56:24:15,  3.03s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.3083381652832031, 'learning_rate': 2.848838690501465e-05, 'epoch': 3.49}
 15%|█▍        | 11417/78504 [6:56:43<56:24:15,  3.03s/it] 15%|█▍        | 11418/78504 [6:56:45<53:16:55,  2.86s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.22719649970531464, 'learning_rate': 2.848796229459471e-05, 'epoch': 3.49}
 15%|█▍        | 11418/78504 [6:56:45<53:16:55,  2.86s/it] 15%|█▍        | 11419/78504 [6:56:47<49:57:11,  2.68s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.19541360437870026, 'learning_rate': 2.8487537684174772e-05, 'epoch': 3.49}
 15%|█▍        | 11419/78504 [6:56:47<49:57:11,  2.68s/it] 15%|█▍        | 11420/78504 [6:56:50<47:57:30,  2.57s/it]                                                          {'loss': 0.084, 'grad_norm': 0.34072354435920715, 'learning_rate': 2.848711307375483e-05, 'epoch': 3.49}
 15%|█▍        | 11420/78504 [6:56:50<47:57:30,  2.57s/it] 15%|█▍        | 11421/78504 [6:56:52<45:14:07,  2.43s/it]                                                          {'loss': 0.0741, 'grad_norm': 0.34657979011535645, 'learning_rate': 2.8486688463334893e-05, 'epoch': 3.49}
 15%|█▍        | 11421/78504 [6:56:52<45:14:07,  2.43s/it] 15%|█▍        | 11422/78504 [6:56:54<43:53:41,  2.36s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.38249915838241577, 'learning_rate': 2.848626385291495e-05, 'epoch': 3.49}
 15%|█▍        | 11422/78504 [6:56:54<43:53:41,  2.36s/it] 15%|█▍        | 11423/78504 [6:56:56<42:43:59,  2.29s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.40435683727264404, 'learning_rate': 2.8485839242495014e-05, 'epoch': 3.49}
 15%|█▍        | 11423/78504 [6:56:56<42:43:59,  2.29s/it] 15%|█▍        | 11424/78504 [6:56:58<41:14:42,  2.21s/it]                                                          {'loss': 0.082, 'grad_norm': 0.2765819728374481, 'learning_rate': 2.8485414632075072e-05, 'epoch': 3.49}
 15%|█▍        | 11424/78504 [6:56:58<41:14:42,  2.21s/it] 15%|█▍        | 11425/78504 [6:57:00<39:57:35,  2.14s/it]                                                          {'loss': 0.0755, 'grad_norm': 0.5292683243751526, 'learning_rate': 2.848499002165513e-05, 'epoch': 3.49}
 15%|█▍        | 11425/78504 [6:57:00<39:57:35,  2.14s/it] 15%|█▍        | 11426/78504 [6:57:02<38:42:56,  2.08s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.3266717791557312, 'learning_rate': 2.8484565411235193e-05, 'epoch': 3.49}
 15%|█▍        | 11426/78504 [6:57:02<38:42:56,  2.08s/it] 15%|█▍        | 11427/78504 [6:57:04<37:36:25,  2.02s/it]                                                          {'loss': 0.102, 'grad_norm': 0.2891128957271576, 'learning_rate': 2.8484140800815252e-05, 'epoch': 3.49}
 15%|█▍        | 11427/78504 [6:57:04<37:36:25,  2.02s/it] 15%|█▍        | 11428/78504 [6:57:06<36:12:39,  1.94s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.4062090516090393, 'learning_rate': 2.8483716190395314e-05, 'epoch': 3.49}
 15%|█▍        | 11428/78504 [6:57:06<36:12:39,  1.94s/it] 15%|█▍        | 11429/78504 [6:57:08<35:03:56,  1.88s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.9411286115646362, 'learning_rate': 2.8483291579975373e-05, 'epoch': 3.49}
 15%|█▍        | 11429/78504 [6:57:08<35:03:56,  1.88s/it] 15%|█▍        | 11430/78504 [6:57:09<32:57:36,  1.77s/it]                                                          {'loss': 0.161, 'grad_norm': 0.7439152598381042, 'learning_rate': 2.8482866969555435e-05, 'epoch': 3.49}
 15%|█▍        | 11430/78504 [6:57:09<32:57:36,  1.77s/it] 15%|█▍        | 11431/78504 [6:57:11<31:34:42,  1.69s/it]                                                          {'loss': 0.1552, 'grad_norm': 1.036895990371704, 'learning_rate': 2.8482442359135493e-05, 'epoch': 3.49}
 15%|█▍        | 11431/78504 [6:57:11<31:34:42,  1.69s/it] 15%|█▍        | 11432/78504 [6:57:12<30:04:45,  1.61s/it]                                                          {'loss': 0.2111, 'grad_norm': 0.6867927312850952, 'learning_rate': 2.8482017748715555e-05, 'epoch': 3.49}
 15%|█▍        | 11432/78504 [6:57:12<30:04:45,  1.61s/it] 15%|█▍        | 11433/78504 [6:57:13<27:54:42,  1.50s/it]                                                          {'loss': 0.1625, 'grad_norm': 0.6055060625076294, 'learning_rate': 2.8481593138295614e-05, 'epoch': 3.5}
 15%|█▍        | 11433/78504 [6:57:13<27:54:42,  1.50s/it] 15%|█▍        | 11434/78504 [6:57:14<26:19:19,  1.41s/it]                                                          {'loss': 0.1627, 'grad_norm': 0.7361211180686951, 'learning_rate': 2.8481168527875676e-05, 'epoch': 3.5}
 15%|█▍        | 11434/78504 [6:57:14<26:19:19,  1.41s/it] 15%|█▍        | 11435/78504 [6:57:16<24:34:56,  1.32s/it]                                                          {'loss': 0.1995, 'grad_norm': 0.9004834890365601, 'learning_rate': 2.8480743917455735e-05, 'epoch': 3.5}
 15%|█▍        | 11435/78504 [6:57:16<24:34:56,  1.32s/it] 15%|█▍        | 11436/78504 [6:57:17<23:06:19,  1.24s/it]                                                          {'loss': 0.2172, 'grad_norm': 0.970980703830719, 'learning_rate': 2.8480319307035797e-05, 'epoch': 3.5}
 15%|█▍        | 11436/78504 [6:57:17<23:06:19,  1.24s/it] 15%|█▍        | 11437/78504 [6:57:18<21:22:32,  1.15s/it]                                                          {'loss': 0.1695, 'grad_norm': 0.654110848903656, 'learning_rate': 2.8479894696615856e-05, 'epoch': 3.5}
 15%|█▍        | 11437/78504 [6:57:18<21:22:32,  1.15s/it] 15%|█▍        | 11438/78504 [6:57:18<19:27:50,  1.04s/it]                                                          {'loss': 0.2248, 'grad_norm': 0.9024820327758789, 'learning_rate': 2.8479470086195914e-05, 'epoch': 3.5}
 15%|█▍        | 11438/78504 [6:57:18<19:27:50,  1.04s/it] 15%|█▍        | 11439/78504 [6:57:26<57:20:05,  3.08s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.6135653257369995, 'learning_rate': 2.8479045475775977e-05, 'epoch': 3.5}
 15%|█▍        | 11439/78504 [6:57:26<57:20:05,  3.08s/it] 15%|█▍        | 11440/78504 [6:57:29<58:35:35,  3.15s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.26746511459350586, 'learning_rate': 2.8478620865356035e-05, 'epoch': 3.5}
 15%|█▍        | 11440/78504 [6:57:29<58:35:35,  3.15s/it] 15%|█▍        | 11441/78504 [6:57:32<57:40:41,  3.10s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.3774074912071228, 'learning_rate': 2.8478196254936097e-05, 'epoch': 3.5}
 15%|█▍        | 11441/78504 [6:57:32<57:40:41,  3.10s/it] 15%|█▍        | 11442/78504 [6:57:35<54:59:22,  2.95s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.2779954671859741, 'learning_rate': 2.8477771644516156e-05, 'epoch': 3.5}
 15%|█▍        | 11442/78504 [6:57:35<54:59:22,  2.95s/it] 15%|█▍        | 11443/78504 [6:57:38<52:17:40,  2.81s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.3161855638027191, 'learning_rate': 2.8477347034096218e-05, 'epoch': 3.5}
 15%|█▍        | 11443/78504 [6:57:38<52:17:40,  2.81s/it] 15%|█▍        | 11444/78504 [6:57:40<49:18:07,  2.65s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.6093910336494446, 'learning_rate': 2.8476922423676277e-05, 'epoch': 3.5}
 15%|█▍        | 11444/78504 [6:57:40<49:18:07,  2.65s/it] 15%|█▍        | 11445/78504 [6:57:42<47:28:08,  2.55s/it]                                                          {'loss': 0.07, 'grad_norm': 0.2108757644891739, 'learning_rate': 2.847649781325634e-05, 'epoch': 3.5}
 15%|█▍        | 11445/78504 [6:57:42<47:28:08,  2.55s/it] 15%|█▍        | 11446/78504 [6:57:44<44:57:31,  2.41s/it]                                                          {'loss': 0.0473, 'grad_norm': 0.5073111057281494, 'learning_rate': 2.8476073202836398e-05, 'epoch': 3.5}
 15%|█▍        | 11446/78504 [6:57:44<44:57:31,  2.41s/it] 15%|█▍        | 11447/78504 [6:57:46<43:40:03,  2.34s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.39042380452156067, 'learning_rate': 2.847564859241646e-05, 'epoch': 3.5}
 15%|█▍        | 11447/78504 [6:57:46<43:40:03,  2.34s/it] 15%|█▍        | 11448/78504 [6:57:49<42:33:32,  2.28s/it]                                                          {'loss': 0.094, 'grad_norm': 0.5247715711593628, 'learning_rate': 2.847522398199652e-05, 'epoch': 3.5}
 15%|█▍        | 11448/78504 [6:57:49<42:33:32,  2.28s/it] 15%|█▍        | 11449/78504 [6:57:51<41:08:21,  2.21s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.4532693028450012, 'learning_rate': 2.847479937157658e-05, 'epoch': 3.5}
 15%|█▍        | 11449/78504 [6:57:51<41:08:21,  2.21s/it] 15%|█▍        | 11450/78504 [6:57:53<39:51:14,  2.14s/it]                                                          {'loss': 0.0973, 'grad_norm': 0.5646331310272217, 'learning_rate': 2.847437476115664e-05, 'epoch': 3.5}
 15%|█▍        | 11450/78504 [6:57:53<39:51:14,  2.14s/it] 15%|█▍        | 11451/78504 [6:57:54<38:26:39,  2.06s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.7378602623939514, 'learning_rate': 2.8473950150736698e-05, 'epoch': 3.5}
 15%|█▍        | 11451/78504 [6:57:54<38:26:39,  2.06s/it] 15%|█▍        | 11452/78504 [6:57:56<37:20:43,  2.01s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.6067817211151123, 'learning_rate': 2.847352554031676e-05, 'epoch': 3.5}
 15%|█▍        | 11452/78504 [6:57:56<37:20:43,  2.01s/it] 15%|█▍        | 11453/78504 [6:57:58<35:57:34,  1.93s/it]                                                          {'loss': 0.1383, 'grad_norm': 0.7781251072883606, 'learning_rate': 2.847310092989682e-05, 'epoch': 3.5}
 15%|█▍        | 11453/78504 [6:57:58<35:57:34,  1.93s/it] 15%|█▍        | 11454/78504 [6:58:00<34:26:28,  1.85s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.9678758382797241, 'learning_rate': 2.847267631947688e-05, 'epoch': 3.5}
 15%|█▍        | 11454/78504 [6:58:00<34:26:28,  1.85s/it] 15%|█▍        | 11455/78504 [6:58:01<32:45:00,  1.76s/it]                                                          {'loss': 0.159, 'grad_norm': 0.49234700202941895, 'learning_rate': 2.847225170905694e-05, 'epoch': 3.5}
 15%|█▍        | 11455/78504 [6:58:01<32:45:00,  1.76s/it] 15%|█▍        | 11456/78504 [6:58:03<31:05:40,  1.67s/it]                                                          {'loss': 0.1633, 'grad_norm': 0.5465881824493408, 'learning_rate': 2.8471827098637e-05, 'epoch': 3.5}
 15%|█▍        | 11456/78504 [6:58:03<31:05:40,  1.67s/it] 15%|█▍        | 11457/78504 [6:58:04<29:40:49,  1.59s/it]                                                          {'loss': 0.1991, 'grad_norm': 0.7654823064804077, 'learning_rate': 2.847140248821706e-05, 'epoch': 3.5}
 15%|█▍        | 11457/78504 [6:58:04<29:40:49,  1.59s/it] 15%|█▍        | 11458/78504 [6:58:05<27:59:09,  1.50s/it]                                                          {'loss': 0.2011, 'grad_norm': 0.5092651844024658, 'learning_rate': 2.8470977877797122e-05, 'epoch': 3.5}
 15%|█▍        | 11458/78504 [6:58:05<27:59:09,  1.50s/it] 15%|█▍        | 11459/78504 [6:58:07<26:01:42,  1.40s/it]                                                          {'loss': 0.2444, 'grad_norm': 0.9590121507644653, 'learning_rate': 2.847055326737718e-05, 'epoch': 3.5}
 15%|█▍        | 11459/78504 [6:58:07<26:01:42,  1.40s/it] 15%|█▍        | 11460/78504 [6:58:08<24:21:57,  1.31s/it]                                                          {'loss': 0.2006, 'grad_norm': 0.9401979446411133, 'learning_rate': 2.8470128656957243e-05, 'epoch': 3.5}
 15%|█▍        | 11460/78504 [6:58:08<24:21:57,  1.31s/it] 15%|█▍        | 11461/78504 [6:58:09<22:34:02,  1.21s/it]                                                          {'loss': 0.1876, 'grad_norm': 0.7927969098091125, 'learning_rate': 2.8469704046537302e-05, 'epoch': 3.5}
 15%|█▍        | 11461/78504 [6:58:09<22:34:02,  1.21s/it] 15%|█▍        | 11462/78504 [6:58:10<21:06:29,  1.13s/it]                                                          {'loss': 0.2595, 'grad_norm': 0.9923880100250244, 'learning_rate': 2.846927943611736e-05, 'epoch': 3.5}
 15%|█▍        | 11462/78504 [6:58:10<21:06:29,  1.13s/it] 15%|█▍        | 11463/78504 [6:58:10<19:12:02,  1.03s/it]                                                          {'loss': 0.2977, 'grad_norm': 2.0358598232269287, 'learning_rate': 2.8468854825697423e-05, 'epoch': 3.5}
 15%|█▍        | 11463/78504 [6:58:10<19:12:02,  1.03s/it] 15%|█▍        | 11464/78504 [6:58:20<65:08:04,  3.50s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.5781574845314026, 'learning_rate': 2.846843021527748e-05, 'epoch': 3.5}
 15%|█▍        | 11464/78504 [6:58:20<65:08:04,  3.50s/it] 15%|█▍        | 11465/78504 [6:58:23<64:20:04,  3.45s/it]                                                          {'loss': 0.0885, 'grad_norm': 0.32750701904296875, 'learning_rate': 2.8468005604857543e-05, 'epoch': 3.51}
 15%|█▍        | 11465/78504 [6:58:23<64:20:04,  3.45s/it] 15%|█▍        | 11466/78504 [6:58:26<61:20:44,  3.29s/it]                                                          {'loss': 0.0836, 'grad_norm': 0.3895922303199768, 'learning_rate': 2.8467580994437602e-05, 'epoch': 3.51}
 15%|█▍        | 11466/78504 [6:58:26<61:20:44,  3.29s/it] 15%|█▍        | 11467/78504 [6:58:29<57:21:04,  3.08s/it]                                                          {'loss': 0.0703, 'grad_norm': 0.3422072231769562, 'learning_rate': 2.8467156384017664e-05, 'epoch': 3.51}
 15%|█▍        | 11467/78504 [6:58:29<57:21:04,  3.08s/it] 15%|█▍        | 11468/78504 [6:58:31<53:55:59,  2.90s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.30199843645095825, 'learning_rate': 2.8466731773597723e-05, 'epoch': 3.51}
 15%|█▍        | 11468/78504 [6:58:31<53:55:59,  2.90s/it] 15%|█▍        | 11469/78504 [6:58:33<51:20:07,  2.76s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.3430488705635071, 'learning_rate': 2.8466307163177785e-05, 'epoch': 3.51}
 15%|█▍        | 11469/78504 [6:58:33<51:20:07,  2.76s/it] 15%|█▍        | 11470/78504 [6:58:36<48:55:13,  2.63s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.4778077304363251, 'learning_rate': 2.8465882552757844e-05, 'epoch': 3.51}
 15%|█▍        | 11470/78504 [6:58:36<48:55:13,  2.63s/it] 15%|█▍        | 11471/78504 [6:58:38<45:53:17,  2.46s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.24532267451286316, 'learning_rate': 2.8465457942337906e-05, 'epoch': 3.51}
 15%|█▍        | 11471/78504 [6:58:38<45:53:17,  2.46s/it] 15%|█▍        | 11472/78504 [6:58:40<43:25:31,  2.33s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.4214217960834503, 'learning_rate': 2.8465033331917964e-05, 'epoch': 3.51}
 15%|█▍        | 11472/78504 [6:58:40<43:25:31,  2.33s/it] 15%|█▍        | 11473/78504 [6:58:42<42:17:50,  2.27s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.34652963280677795, 'learning_rate': 2.8464608721498027e-05, 'epoch': 3.51}
 15%|█▍        | 11473/78504 [6:58:42<42:17:50,  2.27s/it] 15%|█▍        | 11474/78504 [6:58:44<40:45:10,  2.19s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.3354351222515106, 'learning_rate': 2.8464184111078085e-05, 'epoch': 3.51}
 15%|█▍        | 11474/78504 [6:58:44<40:45:10,  2.19s/it] 15%|█▍        | 11475/78504 [6:58:46<39:37:35,  2.13s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.6133198142051697, 'learning_rate': 2.8463759500658144e-05, 'epoch': 3.51}
 15%|█▍        | 11475/78504 [6:58:46<39:37:35,  2.13s/it] 15%|█▍        | 11476/78504 [6:58:48<38:07:18,  2.05s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.2999522387981415, 'learning_rate': 2.8463334890238206e-05, 'epoch': 3.51}
 15%|█▍        | 11476/78504 [6:58:48<38:07:18,  2.05s/it] 15%|█▍        | 11477/78504 [6:58:50<37:09:34,  2.00s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.5687159895896912, 'learning_rate': 2.8462910279818265e-05, 'epoch': 3.51}
 15%|█▍        | 11477/78504 [6:58:50<37:09:34,  2.00s/it] 15%|█▍        | 11478/78504 [6:58:51<35:51:51,  1.93s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.29086631536483765, 'learning_rate': 2.8462485669398327e-05, 'epoch': 3.51}
 15%|█▍        | 11478/78504 [6:58:52<35:51:51,  1.93s/it] 15%|█▍        | 11479/78504 [6:58:53<34:33:04,  1.86s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.34547746181488037, 'learning_rate': 2.8462061058978385e-05, 'epoch': 3.51}
 15%|█▍        | 11479/78504 [6:58:53<34:33:04,  1.86s/it] 15%|█▍        | 11480/78504 [6:58:55<32:49:20,  1.76s/it]                                                          {'loss': 0.1769, 'grad_norm': 0.5128869414329529, 'learning_rate': 2.8461636448558448e-05, 'epoch': 3.51}
 15%|█▍        | 11480/78504 [6:58:55<32:49:20,  1.76s/it] 15%|█▍        | 11481/78504 [6:58:56<31:27:29,  1.69s/it]                                                          {'loss': 0.1636, 'grad_norm': 1.495835304260254, 'learning_rate': 2.8461211838138506e-05, 'epoch': 3.51}
 15%|█▍        | 11481/78504 [6:58:56<31:27:29,  1.69s/it] 15%|█▍        | 11482/78504 [6:58:58<29:55:24,  1.61s/it]                                                          {'loss': 0.2106, 'grad_norm': 0.7294812798500061, 'learning_rate': 2.846078722771857e-05, 'epoch': 3.51}
 15%|█▍        | 11482/78504 [6:58:58<29:55:24,  1.61s/it] 15%|█▍        | 11483/78504 [6:58:59<28:07:51,  1.51s/it]                                                          {'loss': 0.1858, 'grad_norm': 0.6004093885421753, 'learning_rate': 2.8460362617298627e-05, 'epoch': 3.51}
 15%|█▍        | 11483/78504 [6:58:59<28:07:51,  1.51s/it] 15%|█▍        | 11484/78504 [6:59:00<26:10:35,  1.41s/it]                                                          {'loss': 0.1817, 'grad_norm': 0.5743131041526794, 'learning_rate': 2.845993800687869e-05, 'epoch': 3.51}
 15%|█▍        | 11484/78504 [6:59:00<26:10:35,  1.41s/it] 15%|█▍        | 11485/78504 [6:59:01<24:26:24,  1.31s/it]                                                          {'loss': 0.1843, 'grad_norm': 0.571833610534668, 'learning_rate': 2.8459513396458748e-05, 'epoch': 3.51}
 15%|█▍        | 11485/78504 [6:59:01<24:26:24,  1.31s/it] 15%|█▍        | 11486/78504 [6:59:02<22:56:51,  1.23s/it]                                                          {'loss': 0.1993, 'grad_norm': 2.9073407649993896, 'learning_rate': 2.845908878603881e-05, 'epoch': 3.51}
 15%|█▍        | 11486/78504 [6:59:02<22:56:51,  1.23s/it] 15%|█▍        | 11487/78504 [6:59:03<21:12:53,  1.14s/it]                                                          {'loss': 0.2037, 'grad_norm': 1.7250263690948486, 'learning_rate': 2.8458664175618872e-05, 'epoch': 3.51}
 15%|█▍        | 11487/78504 [6:59:03<21:12:53,  1.14s/it] 15%|█▍        | 11488/78504 [6:59:04<19:18:55,  1.04s/it]                                                          {'loss': 0.2848, 'grad_norm': 1.559813380241394, 'learning_rate': 2.845823956519893e-05, 'epoch': 3.51}
 15%|█▍        | 11488/78504 [6:59:04<19:18:55,  1.04s/it] 15%|█▍        | 11489/78504 [6:59:12<58:56:35,  3.17s/it]                                                          {'loss': 0.1413, 'grad_norm': 0.6587136387825012, 'learning_rate': 2.8457814954778993e-05, 'epoch': 3.51}
 15%|█▍        | 11489/78504 [6:59:12<58:56:35,  3.17s/it] 15%|█▍        | 11490/78504 [6:59:15<58:38:39,  3.15s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.5518613457679749, 'learning_rate': 2.845739034435905e-05, 'epoch': 3.51}
 15%|█▍        | 11490/78504 [6:59:15<58:38:39,  3.15s/it] 15%|█▍        | 11491/78504 [6:59:18<57:56:25,  3.11s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.3848462402820587, 'learning_rate': 2.8456965733939114e-05, 'epoch': 3.51}
 15%|█▍        | 11491/78504 [6:59:18<57:56:25,  3.11s/it] 15%|█▍        | 11492/78504 [6:59:21<55:07:19,  2.96s/it]                                                          {'loss': 0.054, 'grad_norm': 0.27591460943222046, 'learning_rate': 2.8456541123519172e-05, 'epoch': 3.51}
 15%|█▍        | 11492/78504 [6:59:21<55:07:19,  2.96s/it] 15%|█▍        | 11493/78504 [6:59:23<51:46:02,  2.78s/it]                                                          {'loss': 0.0675, 'grad_norm': 0.22865070402622223, 'learning_rate': 2.8456116513099234e-05, 'epoch': 3.51}
 15%|█▍        | 11493/78504 [6:59:23<51:46:02,  2.78s/it] 15%|█▍        | 11494/78504 [6:59:25<48:52:02,  2.63s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.3022361695766449, 'learning_rate': 2.8455691902679293e-05, 'epoch': 3.51}
 15%|█▍        | 11494/78504 [6:59:25<48:52:02,  2.63s/it] 15%|█▍        | 11495/78504 [6:59:28<47:09:49,  2.53s/it]                                                          {'loss': 0.051, 'grad_norm': 0.24340510368347168, 'learning_rate': 2.8455267292259355e-05, 'epoch': 3.51}
 15%|█▍        | 11495/78504 [6:59:28<47:09:49,  2.53s/it] 15%|█▍        | 11496/78504 [6:59:30<44:42:55,  2.40s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.2980298101902008, 'learning_rate': 2.8454842681839414e-05, 'epoch': 3.51}
 15%|█▍        | 11496/78504 [6:59:30<44:42:55,  2.40s/it] 15%|█▍        | 11497/78504 [6:59:32<42:35:54,  2.29s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.29164668917655945, 'learning_rate': 2.8454418071419476e-05, 'epoch': 3.51}
 15%|█▍        | 11497/78504 [6:59:32<42:35:54,  2.29s/it] 15%|█▍        | 11498/78504 [6:59:34<41:46:43,  2.24s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.3395784795284271, 'learning_rate': 2.8453993460999535e-05, 'epoch': 3.52}
 15%|█▍        | 11498/78504 [6:59:34<41:46:43,  2.24s/it] 15%|█▍        | 11499/78504 [6:59:36<40:33:57,  2.18s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.47711285948753357, 'learning_rate': 2.8453568850579597e-05, 'epoch': 3.52}
 15%|█▍        | 11499/78504 [6:59:36<40:33:57,  2.18s/it] 15%|█▍        | 11500/78504 [6:59:38<39:24:30,  2.12s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.2944624423980713, 'learning_rate': 2.8453144240159655e-05, 'epoch': 3.52}
 15%|█▍        | 11500/78504 [6:59:38<39:24:30,  2.12s/it] 15%|█▍        | 11501/78504 [6:59:40<38:10:01,  2.05s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.4849626421928406, 'learning_rate': 2.8452719629739714e-05, 'epoch': 3.52}
 15%|█▍        | 11501/78504 [6:59:40<38:10:01,  2.05s/it] 15%|█▍        | 11502/78504 [6:59:42<37:05:56,  1.99s/it]                                                          {'loss': 0.1634, 'grad_norm': 0.5351730585098267, 'learning_rate': 2.8452295019319776e-05, 'epoch': 3.52}
 15%|█▍        | 11502/78504 [6:59:42<37:05:56,  1.99s/it] 15%|█▍        | 11503/78504 [6:59:44<35:48:34,  1.92s/it]                                                          {'loss': 0.1367, 'grad_norm': 0.5417189598083496, 'learning_rate': 2.8451870408899835e-05, 'epoch': 3.52}
 15%|█▍        | 11503/78504 [6:59:44<35:48:34,  1.92s/it] 15%|█▍        | 11504/78504 [6:59:45<33:55:30,  1.82s/it]                                                          {'loss': 0.131, 'grad_norm': 0.5286691188812256, 'learning_rate': 2.8451445798479897e-05, 'epoch': 3.52}
 15%|█▍        | 11504/78504 [6:59:45<33:55:30,  1.82s/it] 15%|█▍        | 11505/78504 [6:59:47<33:33:20,  1.80s/it]                                                          {'loss': 0.2037, 'grad_norm': 0.6983892917633057, 'learning_rate': 2.8451021188059956e-05, 'epoch': 3.52}
 15%|█▍        | 11505/78504 [6:59:47<33:33:20,  1.80s/it] 15%|█▍        | 11506/78504 [6:59:48<31:39:11,  1.70s/it]                                                          {'loss': 0.1634, 'grad_norm': 0.8080576658248901, 'learning_rate': 2.8450596577640018e-05, 'epoch': 3.52}
 15%|█▍        | 11506/78504 [6:59:48<31:39:11,  1.70s/it] 15%|█▍        | 11507/78504 [6:59:50<30:03:58,  1.62s/it]                                                          {'loss': 0.1923, 'grad_norm': 0.4139341711997986, 'learning_rate': 2.8450171967220077e-05, 'epoch': 3.52}
 15%|█▍        | 11507/78504 [6:59:50<30:03:58,  1.62s/it] 15%|█▍        | 11508/78504 [6:59:51<28:13:42,  1.52s/it]                                                          {'loss': 0.1598, 'grad_norm': 0.7558646202087402, 'learning_rate': 2.844974735680014e-05, 'epoch': 3.52}
 15%|█▍        | 11508/78504 [6:59:51<28:13:42,  1.52s/it] 15%|█▍        | 11509/78504 [6:59:52<26:10:42,  1.41s/it]                                                          {'loss': 0.2225, 'grad_norm': 0.9610670804977417, 'learning_rate': 2.8449322746380197e-05, 'epoch': 3.52}
 15%|█▍        | 11509/78504 [6:59:52<26:10:42,  1.41s/it] 15%|█▍        | 11510/78504 [6:59:53<24:24:34,  1.31s/it]                                                          {'loss': 0.174, 'grad_norm': 0.9078764319419861, 'learning_rate': 2.844889813596026e-05, 'epoch': 3.52}
 15%|█▍        | 11510/78504 [6:59:53<24:24:34,  1.31s/it] 15%|█▍        | 11511/78504 [6:59:54<22:38:06,  1.22s/it]                                                          {'loss': 0.1966, 'grad_norm': 1.1578933000564575, 'learning_rate': 2.8448473525540318e-05, 'epoch': 3.52}
 15%|█▍        | 11511/78504 [6:59:54<22:38:06,  1.22s/it] 15%|█▍        | 11512/78504 [6:59:55<21:04:15,  1.13s/it]                                                          {'loss': 0.2247, 'grad_norm': 1.5946648120880127, 'learning_rate': 2.844804891512038e-05, 'epoch': 3.52}
 15%|█▍        | 11512/78504 [6:59:55<21:04:15,  1.13s/it] 15%|█▍        | 11513/78504 [6:59:56<19:08:33,  1.03s/it]                                                          {'loss': 0.2121, 'grad_norm': 1.275651216506958, 'learning_rate': 2.844762430470044e-05, 'epoch': 3.52}
 15%|█▍        | 11513/78504 [6:59:56<19:08:33,  1.03s/it] 15%|█▍        | 11514/78504 [7:00:05<65:54:31,  3.54s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.32618406414985657, 'learning_rate': 2.8447199694280498e-05, 'epoch': 3.52}
 15%|█▍        | 11514/78504 [7:00:05<65:54:31,  3.54s/it] 15%|█▍        | 11515/78504 [7:00:09<64:54:55,  3.49s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.25047048926353455, 'learning_rate': 2.844677508386056e-05, 'epoch': 3.52}
 15%|█▍        | 11515/78504 [7:00:09<64:54:55,  3.49s/it] 15%|█▍        | 11516/78504 [7:00:12<61:44:53,  3.32s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.229536235332489, 'learning_rate': 2.844635047344062e-05, 'epoch': 3.52}
 15%|█▍        | 11516/78504 [7:00:12<61:44:53,  3.32s/it] 15%|█▍        | 11517/78504 [7:00:14<57:51:23,  3.11s/it]                                                          {'loss': 0.065, 'grad_norm': 0.4554395079612732, 'learning_rate': 2.844592586302068e-05, 'epoch': 3.52}
 15%|█▍        | 11517/78504 [7:00:14<57:51:23,  3.11s/it] 15%|█▍        | 11518/78504 [7:00:17<54:18:00,  2.92s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.21899832785129547, 'learning_rate': 2.844550125260074e-05, 'epoch': 3.52}
 15%|█▍        | 11518/78504 [7:00:17<54:18:00,  2.92s/it] 15%|█▍        | 11519/78504 [7:00:19<50:39:51,  2.72s/it]                                                          {'loss': 0.0494, 'grad_norm': 0.24704717099666595, 'learning_rate': 2.84450766421808e-05, 'epoch': 3.52}
 15%|█▍        | 11519/78504 [7:00:19<50:39:51,  2.72s/it] 15%|█▍        | 11520/78504 [7:00:21<48:22:28,  2.60s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.23019635677337646, 'learning_rate': 2.844465203176086e-05, 'epoch': 3.52}
 15%|█▍        | 11520/78504 [7:00:21<48:22:28,  2.60s/it] 15%|█▍        | 11521/78504 [7:00:23<45:34:14,  2.45s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.37012794613838196, 'learning_rate': 2.8444227421340922e-05, 'epoch': 3.52}
 15%|█▍        | 11521/78504 [7:00:24<45:34:14,  2.45s/it] 15%|█▍        | 11522/78504 [7:00:26<43:14:39,  2.32s/it]                                                          {'loss': 0.089, 'grad_norm': 0.3373015522956848, 'learning_rate': 2.844380281092098e-05, 'epoch': 3.52}
 15%|█▍        | 11522/78504 [7:00:26<43:14:39,  2.32s/it] 15%|█▍        | 11523/78504 [7:00:28<42:11:53,  2.27s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.39675235748291016, 'learning_rate': 2.8443378200501043e-05, 'epoch': 3.52}
 15%|█▍        | 11523/78504 [7:00:28<42:11:53,  2.27s/it] 15%|█▍        | 11524/78504 [7:00:30<40:53:17,  2.20s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.4130776524543762, 'learning_rate': 2.84429535900811e-05, 'epoch': 3.52}
 15%|█▍        | 11524/78504 [7:00:30<40:53:17,  2.20s/it] 15%|█▍        | 11525/78504 [7:00:32<39:36:55,  2.13s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.3030373156070709, 'learning_rate': 2.8442528979661164e-05, 'epoch': 3.52}
 15%|█▍        | 11525/78504 [7:00:32<39:36:55,  2.13s/it] 15%|█▍        | 11526/78504 [7:00:34<38:10:38,  2.05s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.48010289669036865, 'learning_rate': 2.8442104369241222e-05, 'epoch': 3.52}
 15%|█▍        | 11526/78504 [7:00:34<38:10:38,  2.05s/it] 15%|█▍        | 11527/78504 [7:00:35<36:20:19,  1.95s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.40027084946632385, 'learning_rate': 2.844167975882128e-05, 'epoch': 3.52}
 15%|█▍        | 11527/78504 [7:00:35<36:20:19,  1.95s/it] 15%|█▍        | 11528/78504 [7:00:37<35:17:43,  1.90s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.43213796615600586, 'learning_rate': 2.8441255148401343e-05, 'epoch': 3.52}
 15%|█▍        | 11528/78504 [7:00:37<35:17:43,  1.90s/it] 15%|█▍        | 11529/78504 [7:00:39<33:51:48,  1.82s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.6389030814170837, 'learning_rate': 2.8440830537981402e-05, 'epoch': 3.52}
 15%|█▍        | 11529/78504 [7:00:39<33:51:48,  1.82s/it] 15%|█▍        | 11530/78504 [7:00:40<32:20:37,  1.74s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.7710555195808411, 'learning_rate': 2.8440405927561464e-05, 'epoch': 3.52}
 15%|█▍        | 11530/78504 [7:00:40<32:20:37,  1.74s/it] 15%|█▍        | 11531/78504 [7:00:42<30:48:38,  1.66s/it]                                                          {'loss': 0.163, 'grad_norm': 0.640352725982666, 'learning_rate': 2.8439981317141523e-05, 'epoch': 3.53}
 15%|█▍        | 11531/78504 [7:00:42<30:48:38,  1.66s/it] 15%|█▍        | 11532/78504 [7:00:43<29:26:50,  1.58s/it]                                                          {'loss': 0.1864, 'grad_norm': 1.0999804735183716, 'learning_rate': 2.8439556706721585e-05, 'epoch': 3.53}
 15%|█▍        | 11532/78504 [7:00:43<29:26:50,  1.58s/it] 15%|█▍        | 11533/78504 [7:00:44<27:25:41,  1.47s/it]                                                          {'loss': 0.1916, 'grad_norm': 1.8030943870544434, 'learning_rate': 2.8439132096301643e-05, 'epoch': 3.53}
 15%|█▍        | 11533/78504 [7:00:44<27:25:41,  1.47s/it] 15%|█▍        | 11534/78504 [7:00:45<25:30:45,  1.37s/it]                                                          {'loss': 0.2005, 'grad_norm': 0.7956291437149048, 'learning_rate': 2.8438707485881705e-05, 'epoch': 3.53}
 15%|█▍        | 11534/78504 [7:00:45<25:30:45,  1.37s/it] 15%|█▍        | 11535/78504 [7:00:47<24:01:18,  1.29s/it]                                                          {'loss': 0.1624, 'grad_norm': 1.059709906578064, 'learning_rate': 2.8438282875461764e-05, 'epoch': 3.53}
 15%|█▍        | 11535/78504 [7:00:47<24:01:18,  1.29s/it] 15%|█▍        | 11536/78504 [7:00:48<22:21:52,  1.20s/it]                                                          {'loss': 0.2071, 'grad_norm': 1.0205696821212769, 'learning_rate': 2.8437858265041826e-05, 'epoch': 3.53}
 15%|█▍        | 11536/78504 [7:00:48<22:21:52,  1.20s/it] 15%|█▍        | 11537/78504 [7:00:48<20:50:07,  1.12s/it]                                                          {'loss': 0.2174, 'grad_norm': 0.6790058016777039, 'learning_rate': 2.8437433654621885e-05, 'epoch': 3.53}
 15%|█▍        | 11537/78504 [7:00:48<20:50:07,  1.12s/it] 15%|█▍        | 11538/78504 [7:00:49<18:48:59,  1.01s/it]                                                          {'loss': 0.2793, 'grad_norm': 1.7033050060272217, 'learning_rate': 2.8437009044201947e-05, 'epoch': 3.53}
 15%|█▍        | 11538/78504 [7:00:49<18:48:59,  1.01s/it] 15%|█▍        | 11539/78504 [7:00:58<61:54:30,  3.33s/it]                                                          {'loss': 0.152, 'grad_norm': 0.4140586853027344, 'learning_rate': 2.8436584433782006e-05, 'epoch': 3.53}
 15%|█▍        | 11539/78504 [7:00:58<61:54:30,  3.33s/it] 15%|█▍        | 11540/78504 [7:01:01<62:01:37,  3.33s/it]                                                          {'loss': 0.071, 'grad_norm': 0.3229818642139435, 'learning_rate': 2.8436159823362064e-05, 'epoch': 3.53}
 15%|█▍        | 11540/78504 [7:01:01<62:01:37,  3.33s/it] 15%|█▍        | 11541/78504 [7:01:04<57:44:52,  3.10s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.4780507981777191, 'learning_rate': 2.8435735212942127e-05, 'epoch': 3.53}
 15%|█▍        | 11541/78504 [7:01:04<57:44:52,  3.10s/it] 15%|█▍        | 11542/78504 [7:01:06<54:46:38,  2.94s/it]                                                          {'loss': 0.0589, 'grad_norm': 0.6339280605316162, 'learning_rate': 2.8435310602522185e-05, 'epoch': 3.53}
 15%|█▍        | 11542/78504 [7:01:06<54:46:38,  2.94s/it] 15%|█▍        | 11543/78504 [7:01:09<52:09:42,  2.80s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.2628802955150604, 'learning_rate': 2.8434885992102247e-05, 'epoch': 3.53}
 15%|█▍        | 11543/78504 [7:01:09<52:09:42,  2.80s/it] 15%|█▍        | 11544/78504 [7:01:11<49:08:44,  2.64s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.32245561480522156, 'learning_rate': 2.8434461381682306e-05, 'epoch': 3.53}
 15%|█▍        | 11544/78504 [7:01:11<49:08:44,  2.64s/it] 15%|█▍        | 11545/78504 [7:01:14<47:20:36,  2.55s/it]                                                          {'loss': 0.0756, 'grad_norm': 0.3815990090370178, 'learning_rate': 2.8434036771262368e-05, 'epoch': 3.53}
 15%|█▍        | 11545/78504 [7:01:14<47:20:36,  2.55s/it] 15%|█▍        | 11546/78504 [7:01:16<44:55:00,  2.41s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.8275772929191589, 'learning_rate': 2.8433612160842427e-05, 'epoch': 3.53}
 15%|█▍        | 11546/78504 [7:01:16<44:55:00,  2.41s/it] 15%|█▍        | 11547/78504 [7:01:18<43:37:39,  2.35s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.26662030816078186, 'learning_rate': 2.843318755042249e-05, 'epoch': 3.53}
 15%|█▍        | 11547/78504 [7:01:18<43:37:39,  2.35s/it] 15%|█▍        | 11548/78504 [7:01:20<42:30:13,  2.29s/it]                                                          {'loss': 0.0488, 'grad_norm': 0.28198570013046265, 'learning_rate': 2.8432762940002548e-05, 'epoch': 3.53}
 15%|█▍        | 11548/78504 [7:01:20<42:30:13,  2.29s/it] 15%|█▍        | 11549/78504 [7:01:22<41:01:51,  2.21s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.5089575052261353, 'learning_rate': 2.843233832958261e-05, 'epoch': 3.53}
 15%|█▍        | 11549/78504 [7:01:22<41:01:51,  2.21s/it] 15%|█▍        | 11550/78504 [7:01:24<39:48:46,  2.14s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.2844114601612091, 'learning_rate': 2.843191371916267e-05, 'epoch': 3.53}
 15%|█▍        | 11550/78504 [7:01:24<39:48:46,  2.14s/it] 15%|█▍        | 11551/78504 [7:01:26<38:25:26,  2.07s/it]                                                          {'loss': 0.1202, 'grad_norm': 0.5490170121192932, 'learning_rate': 2.843148910874273e-05, 'epoch': 3.53}
 15%|█▍        | 11551/78504 [7:01:26<38:25:26,  2.07s/it] 15%|█▍        | 11552/78504 [7:01:28<37:18:36,  2.01s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.5534006953239441, 'learning_rate': 2.843106449832279e-05, 'epoch': 3.53}
 15%|█▍        | 11552/78504 [7:01:28<37:18:36,  2.01s/it] 15%|█▍        | 11553/78504 [7:01:29<36:00:46,  1.94s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.5542840957641602, 'learning_rate': 2.8430639887902848e-05, 'epoch': 3.53}
 15%|█▍        | 11553/78504 [7:01:30<36:00:46,  1.94s/it] 15%|█▍        | 11554/78504 [7:01:31<34:24:17,  1.85s/it]                                                          {'loss': 0.1526, 'grad_norm': 0.9074380993843079, 'learning_rate': 2.843021527748291e-05, 'epoch': 3.53}
 15%|█▍        | 11554/78504 [7:01:31<34:24:17,  1.85s/it] 15%|█▍        | 11555/78504 [7:01:33<32:33:33,  1.75s/it]                                                          {'loss': 0.1383, 'grad_norm': 0.5023823976516724, 'learning_rate': 2.842979066706297e-05, 'epoch': 3.53}
 15%|█▍        | 11555/78504 [7:01:33<32:33:33,  1.75s/it] 15%|█▍        | 11556/78504 [7:01:34<30:59:40,  1.67s/it]                                                          {'loss': 0.1588, 'grad_norm': 1.7264856100082397, 'learning_rate': 2.842936605664303e-05, 'epoch': 3.53}
 15%|█▍        | 11556/78504 [7:01:34<30:59:40,  1.67s/it] 15%|█▍        | 11557/78504 [7:01:36<29:31:56,  1.59s/it]                                                          {'loss': 0.1763, 'grad_norm': 0.7313159704208374, 'learning_rate': 2.842894144622309e-05, 'epoch': 3.53}
 15%|█▍        | 11557/78504 [7:01:36<29:31:56,  1.59s/it] 15%|█▍        | 11558/78504 [7:01:37<27:51:30,  1.50s/it]                                                          {'loss': 0.1855, 'grad_norm': 0.4500439465045929, 'learning_rate': 2.842851683580315e-05, 'epoch': 3.53}
 15%|█▍        | 11558/78504 [7:01:37<27:51:30,  1.50s/it] 15%|█▍        | 11559/78504 [7:01:38<25:52:38,  1.39s/it]                                                          {'loss': 0.2095, 'grad_norm': 0.9771196842193604, 'learning_rate': 2.842809222538321e-05, 'epoch': 3.53}
 15%|█▍        | 11559/78504 [7:01:38<25:52:38,  1.39s/it] 15%|█▍        | 11560/78504 [7:01:39<24:14:56,  1.30s/it]                                                          {'loss': 0.1924, 'grad_norm': 1.1302992105484009, 'learning_rate': 2.8427667614963272e-05, 'epoch': 3.53}
 15%|█▍        | 11560/78504 [7:01:39<24:14:56,  1.30s/it] 15%|█▍        | 11561/78504 [7:01:40<22:30:52,  1.21s/it]                                                          {'loss': 0.1563, 'grad_norm': 1.0376131534576416, 'learning_rate': 2.842724300454333e-05, 'epoch': 3.53}
 15%|█▍        | 11561/78504 [7:01:40<22:30:52,  1.21s/it] 15%|█▍        | 11562/78504 [7:01:41<21:01:14,  1.13s/it]                                                          {'loss': 0.216, 'grad_norm': 3.332500696182251, 'learning_rate': 2.8426818394123393e-05, 'epoch': 3.53}
 15%|█▍        | 11562/78504 [7:01:41<21:01:14,  1.13s/it] 15%|█▍        | 11563/78504 [7:01:42<18:56:22,  1.02s/it]                                                          {'loss': 0.2341, 'grad_norm': 1.3901996612548828, 'learning_rate': 2.8426393783703452e-05, 'epoch': 3.54}
 15%|█▍        | 11563/78504 [7:01:42<18:56:22,  1.02s/it] 15%|█▍        | 11564/78504 [7:01:50<60:50:58,  3.27s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.6331530809402466, 'learning_rate': 2.8425969173283514e-05, 'epoch': 3.54}
 15%|█▍        | 11564/78504 [7:01:50<60:50:58,  3.27s/it] 15%|█▍        | 11565/78504 [7:01:54<61:17:35,  3.30s/it]                                                          {'loss': 0.088, 'grad_norm': 0.36887872219085693, 'learning_rate': 2.8425544562863573e-05, 'epoch': 3.54}
 15%|█▍        | 11565/78504 [7:01:54<61:17:35,  3.30s/it] 15%|█▍        | 11566/78504 [7:01:57<59:32:07,  3.20s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.47864270210266113, 'learning_rate': 2.842511995244363e-05, 'epoch': 3.54}
 15%|█▍        | 11566/78504 [7:01:57<59:32:07,  3.20s/it] 15%|█▍        | 11567/78504 [7:01:59<56:06:02,  3.02s/it]                                                          {'loss': 0.0501, 'grad_norm': 0.19780413806438446, 'learning_rate': 2.8424695342023693e-05, 'epoch': 3.54}
 15%|█▍        | 11567/78504 [7:01:59<56:06:02,  3.02s/it] 15%|█▍        | 11568/78504 [7:02:02<53:10:21,  2.86s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.5565905570983887, 'learning_rate': 2.8424270731603752e-05, 'epoch': 3.54}
 15%|█▍        | 11568/78504 [7:02:02<53:10:21,  2.86s/it] 15%|█▍        | 11569/78504 [7:02:04<49:52:11,  2.68s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.327531099319458, 'learning_rate': 2.8423846121183814e-05, 'epoch': 3.54}
 15%|█▍        | 11569/78504 [7:02:04<49:52:11,  2.68s/it] 15%|█▍        | 11570/78504 [7:02:06<47:52:50,  2.58s/it]                                                          {'loss': 0.0428, 'grad_norm': 0.21474432945251465, 'learning_rate': 2.8423421510763873e-05, 'epoch': 3.54}
 15%|█▍        | 11570/78504 [7:02:06<47:52:50,  2.58s/it] 15%|█▍        | 11571/78504 [7:02:08<45:11:37,  2.43s/it]                                                          {'loss': 0.0476, 'grad_norm': 0.25374218821525574, 'learning_rate': 2.8422996900343935e-05, 'epoch': 3.54}
 15%|█▍        | 11571/78504 [7:02:08<45:11:37,  2.43s/it] 15%|█▍        | 11572/78504 [7:02:10<42:54:49,  2.31s/it]                                                          {'loss': 0.0836, 'grad_norm': 0.2844635546207428, 'learning_rate': 2.8422572289923994e-05, 'epoch': 3.54}
 15%|█▍        | 11572/78504 [7:02:10<42:54:49,  2.31s/it] 15%|█▍        | 11573/78504 [7:02:13<41:58:18,  2.26s/it]                                                          {'loss': 0.072, 'grad_norm': 0.5565991997718811, 'learning_rate': 2.8422147679504056e-05, 'epoch': 3.54}
 15%|█▍        | 11573/78504 [7:02:13<41:58:18,  2.26s/it] 15%|█▍        | 11574/78504 [7:02:15<40:31:53,  2.18s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.3755410313606262, 'learning_rate': 2.8421723069084114e-05, 'epoch': 3.54}
 15%|█▍        | 11574/78504 [7:02:15<40:31:53,  2.18s/it] 15%|█▍        | 11575/78504 [7:02:16<38:23:07,  2.06s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.37353792786598206, 'learning_rate': 2.8421298458664177e-05, 'epoch': 3.54}
 15%|█▍        | 11575/78504 [7:02:16<38:23:07,  2.06s/it] 15%|█▍        | 11576/78504 [7:02:18<37:16:10,  2.00s/it]                                                          {'loss': 0.097, 'grad_norm': 0.3638252019882202, 'learning_rate': 2.8420873848244235e-05, 'epoch': 3.54}
 15%|█▍        | 11576/78504 [7:02:18<37:16:10,  2.00s/it] 15%|█▍        | 11577/78504 [7:02:20<36:21:10,  1.96s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.7192012667655945, 'learning_rate': 2.8420449237824294e-05, 'epoch': 3.54}
 15%|█▍        | 11577/78504 [7:02:20<36:21:10,  1.96s/it] 15%|█▍        | 11578/78504 [7:02:22<35:20:37,  1.90s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.399249404668808, 'learning_rate': 2.8420024627404356e-05, 'epoch': 3.54}
 15%|█▍        | 11578/78504 [7:02:22<35:20:37,  1.90s/it] 15%|█▍        | 11579/78504 [7:02:23<33:54:24,  1.82s/it]                                                          {'loss': 0.1383, 'grad_norm': 0.5784982442855835, 'learning_rate': 2.8419600016984415e-05, 'epoch': 3.54}
 15%|█▍        | 11579/78504 [7:02:23<33:54:24,  1.82s/it] 15%|█▍        | 11580/78504 [7:02:25<32:24:14,  1.74s/it]                                                          {'loss': 0.147, 'grad_norm': 0.4093351662158966, 'learning_rate': 2.8419175406564477e-05, 'epoch': 3.54}
 15%|█▍        | 11580/78504 [7:02:25<32:24:14,  1.74s/it] 15%|█▍        | 11581/78504 [7:02:26<30:51:48,  1.66s/it]                                                          {'loss': 0.158, 'grad_norm': 1.2135051488876343, 'learning_rate': 2.8418750796144536e-05, 'epoch': 3.54}
 15%|█▍        | 11581/78504 [7:02:27<30:51:48,  1.66s/it] 15%|█▍        | 11582/78504 [7:02:28<29:29:32,  1.59s/it]                                                          {'loss': 0.1796, 'grad_norm': 0.568932056427002, 'learning_rate': 2.8418326185724598e-05, 'epoch': 3.54}
 15%|█▍        | 11582/78504 [7:02:28<29:29:32,  1.59s/it] 15%|█▍        | 11583/78504 [7:02:29<27:49:33,  1.50s/it]                                                          {'loss': 0.1878, 'grad_norm': 0.7059070467948914, 'learning_rate': 2.8417901575304656e-05, 'epoch': 3.54}
 15%|█▍        | 11583/78504 [7:02:29<27:49:33,  1.50s/it] 15%|█▍        | 11584/78504 [7:02:30<25:54:57,  1.39s/it]                                                          {'loss': 0.1993, 'grad_norm': 0.7659462094306946, 'learning_rate': 2.841747696488472e-05, 'epoch': 3.54}
 15%|█▍        | 11584/78504 [7:02:30<25:54:57,  1.39s/it] 15%|█▍        | 11585/78504 [7:02:31<24:14:13,  1.30s/it]                                                          {'loss': 0.1893, 'grad_norm': 1.0457464456558228, 'learning_rate': 2.8417052354464777e-05, 'epoch': 3.54}
 15%|█▍        | 11585/78504 [7:02:31<24:14:13,  1.30s/it] 15%|█▍        | 11586/78504 [7:02:32<22:48:20,  1.23s/it]                                                          {'loss': 0.1702, 'grad_norm': 0.8749816417694092, 'learning_rate': 2.841662774404484e-05, 'epoch': 3.54}
 15%|█▍        | 11586/78504 [7:02:32<22:48:20,  1.23s/it] 15%|█▍        | 11587/78504 [7:02:33<21:07:01,  1.14s/it]                                                          {'loss': 0.2242, 'grad_norm': 1.15398371219635, 'learning_rate': 2.8416203133624898e-05, 'epoch': 3.54}
 15%|█▍        | 11587/78504 [7:02:33<21:07:01,  1.14s/it] 15%|█▍        | 11588/78504 [7:02:34<19:16:29,  1.04s/it]                                                          {'loss': 0.2837, 'grad_norm': 2.236189603805542, 'learning_rate': 2.841577852320496e-05, 'epoch': 3.54}
 15%|█▍        | 11588/78504 [7:02:34<19:16:29,  1.04s/it] 15%|█▍        | 11589/78504 [7:02:43<59:54:49,  3.22s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.3813992738723755, 'learning_rate': 2.8415353912785022e-05, 'epoch': 3.54}
 15%|█▍        | 11589/78504 [7:02:43<59:54:49,  3.22s/it] 15%|█▍        | 11590/78504 [7:02:46<60:40:56,  3.26s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.46310845017433167, 'learning_rate': 2.841492930236508e-05, 'epoch': 3.54}
 15%|█▍        | 11590/78504 [7:02:46<60:40:56,  3.26s/it] 15%|█▍        | 11591/78504 [7:02:48<56:47:24,  3.06s/it]                                                          {'loss': 0.1109, 'grad_norm': 1.0048072338104248, 'learning_rate': 2.8414504691945143e-05, 'epoch': 3.54}
 15%|█▍        | 11591/78504 [7:02:48<56:47:24,  3.06s/it] 15%|█▍        | 11592/78504 [7:02:51<52:46:59,  2.84s/it]                                                          {'loss': 0.0456, 'grad_norm': 0.2660067677497864, 'learning_rate': 2.84140800815252e-05, 'epoch': 3.54}
 15%|█▍        | 11592/78504 [7:02:51<52:46:59,  2.84s/it] 15%|█▍        | 11593/78504 [7:02:53<50:45:18,  2.73s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.324781209230423, 'learning_rate': 2.8413655471105264e-05, 'epoch': 3.54}
 15%|█▍        | 11593/78504 [7:02:53<50:45:18,  2.73s/it] 15%|█▍        | 11594/78504 [7:02:56<48:09:36,  2.59s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.2947094440460205, 'learning_rate': 2.8413230860685322e-05, 'epoch': 3.54}
 15%|█▍        | 11594/78504 [7:02:56<48:09:36,  2.59s/it] 15%|█▍        | 11595/78504 [7:02:58<46:39:13,  2.51s/it]                                                          {'loss': 0.0378, 'grad_norm': 0.23147529363632202, 'learning_rate': 2.8412806250265384e-05, 'epoch': 3.54}
 15%|█▍        | 11595/78504 [7:02:58<46:39:13,  2.51s/it] 15%|█▍        | 11596/78504 [7:03:00<44:26:30,  2.39s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.41921573877334595, 'learning_rate': 2.8412381639845443e-05, 'epoch': 3.55}
 15%|█▍        | 11596/78504 [7:03:00<44:26:30,  2.39s/it] 15%|█▍        | 11597/78504 [7:03:02<43:16:39,  2.33s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.3211387097835541, 'learning_rate': 2.8411957029425505e-05, 'epoch': 3.55}
 15%|█▍        | 11597/78504 [7:03:02<43:16:39,  2.33s/it] 15%|█▍        | 11598/78504 [7:03:04<42:23:33,  2.28s/it]                                                          {'loss': 0.072, 'grad_norm': 0.678422212600708, 'learning_rate': 2.8411532419005564e-05, 'epoch': 3.55}
 15%|█▍        | 11598/78504 [7:03:04<42:23:33,  2.28s/it] 15%|█▍        | 11599/78504 [7:03:06<40:55:40,  2.20s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.46211937069892883, 'learning_rate': 2.8411107808585626e-05, 'epoch': 3.55}
 15%|█▍        | 11599/78504 [7:03:06<40:55:40,  2.20s/it] 15%|█▍        | 11600/78504 [7:03:08<39:40:20,  2.13s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.640656054019928, 'learning_rate': 2.8410683198165685e-05, 'epoch': 3.55}
 15%|█▍        | 11600/78504 [7:03:08<39:40:20,  2.13s/it] 15%|█▍        | 11601/78504 [7:03:10<38:18:25,  2.06s/it]                                                          {'loss': 0.1205, 'grad_norm': 0.4672847390174866, 'learning_rate': 2.8410258587745747e-05, 'epoch': 3.55}
 15%|█▍        | 11601/78504 [7:03:10<38:18:25,  2.06s/it] 15%|█▍        | 11602/78504 [7:03:12<37:21:47,  2.01s/it]                                                          {'loss': 0.128, 'grad_norm': 2.6840438842773438, 'learning_rate': 2.8409833977325805e-05, 'epoch': 3.55}
 15%|█▍        | 11602/78504 [7:03:12<37:21:47,  2.01s/it] 15%|█▍        | 11603/78504 [7:03:14<35:59:42,  1.94s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.6033338904380798, 'learning_rate': 2.8409409366905864e-05, 'epoch': 3.55}
 15%|█▍        | 11603/78504 [7:03:14<35:59:42,  1.94s/it] 15%|█▍        | 11604/78504 [7:03:16<34:23:49,  1.85s/it]                                                          {'loss': 0.1446, 'grad_norm': 0.4765825569629669, 'learning_rate': 2.8408984756485926e-05, 'epoch': 3.55}
 15%|█▍        | 11604/78504 [7:03:16<34:23:49,  1.85s/it] 15%|█▍        | 11605/78504 [7:03:17<32:21:25,  1.74s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.47841647267341614, 'learning_rate': 2.8408560146065985e-05, 'epoch': 3.55}
 15%|█▍        | 11605/78504 [7:03:17<32:21:25,  1.74s/it] 15%|█▍        | 11606/78504 [7:03:19<31:05:10,  1.67s/it]                                                          {'loss': 0.154, 'grad_norm': 0.6063072681427002, 'learning_rate': 2.8408135535646047e-05, 'epoch': 3.55}
 15%|█▍        | 11606/78504 [7:03:19<31:05:10,  1.67s/it] 15%|█▍        | 11607/78504 [7:03:20<29:39:19,  1.60s/it]                                                          {'loss': 0.1873, 'grad_norm': 0.9406918883323669, 'learning_rate': 2.8407710925226106e-05, 'epoch': 3.55}
 15%|█▍        | 11607/78504 [7:03:20<29:39:19,  1.60s/it] 15%|█▍        | 11608/78504 [7:03:21<27:36:32,  1.49s/it]                                                          {'loss': 0.1993, 'grad_norm': 0.6821566224098206, 'learning_rate': 2.8407286314806168e-05, 'epoch': 3.55}
 15%|█▍        | 11608/78504 [7:03:21<27:36:32,  1.49s/it] 15%|█▍        | 11609/78504 [7:03:22<26:04:41,  1.40s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.5806258916854858, 'learning_rate': 2.8406861704386227e-05, 'epoch': 3.55}
 15%|█▍        | 11609/78504 [7:03:22<26:04:41,  1.40s/it] 15%|█▍        | 11610/78504 [7:03:23<24:20:29,  1.31s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.8073420524597168, 'learning_rate': 2.840643709396629e-05, 'epoch': 3.55}
 15%|█▍        | 11610/78504 [7:03:23<24:20:29,  1.31s/it] 15%|█▍        | 11611/78504 [7:03:25<22:55:49,  1.23s/it]                                                          {'loss': 0.215, 'grad_norm': 1.0767936706542969, 'learning_rate': 2.8406012483546347e-05, 'epoch': 3.55}
 15%|█▍        | 11611/78504 [7:03:25<22:55:49,  1.23s/it] 15%|█▍        | 11612/78504 [7:03:25<21:17:30,  1.15s/it]                                                          {'loss': 0.2152, 'grad_norm': 1.4746923446655273, 'learning_rate': 2.840558787312641e-05, 'epoch': 3.55}
 15%|█▍        | 11612/78504 [7:03:25<21:17:30,  1.15s/it] 15%|█▍        | 11613/78504 [7:03:26<19:16:36,  1.04s/it]                                                          {'loss': 0.2823, 'grad_norm': 2.01702880859375, 'learning_rate': 2.8405163262706468e-05, 'epoch': 3.55}
 15%|█▍        | 11613/78504 [7:03:26<19:16:36,  1.04s/it] 15%|█▍        | 11614/78504 [7:03:34<58:15:38,  3.14s/it]                                                          {'loss': 0.1673, 'grad_norm': 0.25539761781692505, 'learning_rate': 2.840473865228653e-05, 'epoch': 3.55}
 15%|█▍        | 11614/78504 [7:03:34<58:15:38,  3.14s/it] 15%|█▍        | 11615/78504 [7:03:38<59:31:44,  3.20s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.515259325504303, 'learning_rate': 2.840431404186659e-05, 'epoch': 3.55}
 15%|█▍        | 11615/78504 [7:03:38<59:31:44,  3.20s/it] 15%|█▍        | 11616/78504 [7:03:40<55:57:33,  3.01s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.28102707862854004, 'learning_rate': 2.8403889431446648e-05, 'epoch': 3.55}
 15%|█▍        | 11616/78504 [7:03:40<55:57:33,  3.01s/it] 15%|█▍        | 11617/78504 [7:03:43<52:39:14,  2.83s/it]                                                          {'loss': 0.0513, 'grad_norm': 0.4108816981315613, 'learning_rate': 2.840346482102671e-05, 'epoch': 3.55}
 15%|█▍        | 11617/78504 [7:03:43<52:39:14,  2.83s/it] 15%|█▍        | 11618/78504 [7:03:45<50:39:27,  2.73s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.2238505482673645, 'learning_rate': 2.840304021060677e-05, 'epoch': 3.55}
 15%|█▍        | 11618/78504 [7:03:45<50:39:27,  2.73s/it] 15%|█▍        | 11619/78504 [7:03:47<48:05:56,  2.59s/it]                                                          {'loss': 0.0462, 'grad_norm': 0.298963725566864, 'learning_rate': 2.840261560018683e-05, 'epoch': 3.55}
 15%|█▍        | 11619/78504 [7:03:47<48:05:56,  2.59s/it] 15%|█▍        | 11620/78504 [7:03:50<46:35:54,  2.51s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.682094395160675, 'learning_rate': 2.840219098976689e-05, 'epoch': 3.55}
 15%|█▍        | 11620/78504 [7:03:50<46:35:54,  2.51s/it] 15%|█▍        | 11621/78504 [7:03:52<44:22:17,  2.39s/it]                                                          {'loss': 0.0533, 'grad_norm': 1.181045651435852, 'learning_rate': 2.840176637934695e-05, 'epoch': 3.55}
 15%|█▍        | 11621/78504 [7:03:52<44:22:17,  2.39s/it] 15%|█▍        | 11622/78504 [7:03:54<43:16:25,  2.33s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.27104729413986206, 'learning_rate': 2.840134176892701e-05, 'epoch': 3.55}
 15%|█▍        | 11622/78504 [7:03:54<43:16:25,  2.33s/it] 15%|█▍        | 11623/78504 [7:03:56<42:13:04,  2.27s/it]                                                          {'loss': 0.0761, 'grad_norm': 1.5319441556930542, 'learning_rate': 2.8400917158507072e-05, 'epoch': 3.55}
 15%|█▍        | 11623/78504 [7:03:56<42:13:04,  2.27s/it] 15%|█▍        | 11624/78504 [7:03:58<40:50:08,  2.20s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.3496967554092407, 'learning_rate': 2.840049254808713e-05, 'epoch': 3.55}
 15%|█▍        | 11624/78504 [7:03:58<40:50:08,  2.20s/it] 15%|█▍        | 11625/78504 [7:04:00<39:37:28,  2.13s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.5452714562416077, 'learning_rate': 2.8400067937667193e-05, 'epoch': 3.55}
 15%|█▍        | 11625/78504 [7:04:00<39:37:28,  2.13s/it] 15%|█▍        | 11626/78504 [7:04:02<38:26:27,  2.07s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.270303338766098, 'learning_rate': 2.839964332724725e-05, 'epoch': 3.55}
 15%|█▍        | 11626/78504 [7:04:02<38:26:27,  2.07s/it] 15%|█▍        | 11627/78504 [7:04:04<37:20:49,  2.01s/it]                                                          {'loss': 0.108, 'grad_norm': 0.4135800302028656, 'learning_rate': 2.8399218716827314e-05, 'epoch': 3.55}
 15%|█▍        | 11627/78504 [7:04:04<37:20:49,  2.01s/it] 15%|█▍        | 11628/78504 [7:04:06<35:58:31,  1.94s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.5310267210006714, 'learning_rate': 2.8398794106407372e-05, 'epoch': 3.55}
 15%|█▍        | 11628/78504 [7:04:06<35:58:31,  1.94s/it] 15%|█▍        | 11629/78504 [7:04:07<34:21:30,  1.85s/it]                                                          {'loss': 0.1596, 'grad_norm': 0.4938777685165405, 'learning_rate': 2.839836949598743e-05, 'epoch': 3.56}
 15%|█▍        | 11629/78504 [7:04:07<34:21:30,  1.85s/it] 15%|█▍        | 11630/78504 [7:04:09<32:40:02,  1.76s/it]                                                          {'loss': 0.145, 'grad_norm': 1.8012338876724243, 'learning_rate': 2.8397944885567493e-05, 'epoch': 3.56}
 15%|█▍        | 11630/78504 [7:04:09<32:40:02,  1.76s/it] 15%|█▍        | 11631/78504 [7:04:10<31:04:04,  1.67s/it]                                                          {'loss': 0.1657, 'grad_norm': 0.6352095007896423, 'learning_rate': 2.8397520275147552e-05, 'epoch': 3.56}
 15%|█▍        | 11631/78504 [7:04:10<31:04:04,  1.67s/it] 15%|█▍        | 11632/78504 [7:04:12<29:35:54,  1.59s/it]                                                          {'loss': 0.197, 'grad_norm': 0.9520487785339355, 'learning_rate': 2.8397095664727614e-05, 'epoch': 3.56}
 15%|█▍        | 11632/78504 [7:04:12<29:35:54,  1.59s/it] 15%|█▍        | 11633/78504 [7:04:13<27:48:27,  1.50s/it]                                                          {'loss': 0.1763, 'grad_norm': 5.520075798034668, 'learning_rate': 2.8396671054307673e-05, 'epoch': 3.56}
 15%|█▍        | 11633/78504 [7:04:13<27:48:27,  1.50s/it] 15%|█▍        | 11634/78504 [7:04:14<25:52:15,  1.39s/it]                                                          {'loss': 0.2117, 'grad_norm': 1.286476492881775, 'learning_rate': 2.8396246443887735e-05, 'epoch': 3.56}
 15%|█▍        | 11634/78504 [7:04:14<25:52:15,  1.39s/it] 15%|█▍        | 11635/78504 [7:04:15<24:12:32,  1.30s/it]                                                          {'loss': 0.2244, 'grad_norm': 0.6994674801826477, 'learning_rate': 2.8395821833467793e-05, 'epoch': 3.56}
 15%|█▍        | 11635/78504 [7:04:15<24:12:32,  1.30s/it] 15%|█▍        | 11636/78504 [7:04:16<22:46:42,  1.23s/it]                                                          {'loss': 0.1863, 'grad_norm': 1.090482473373413, 'learning_rate': 2.8395397223047856e-05, 'epoch': 3.56}
 15%|█▍        | 11636/78504 [7:04:16<22:46:42,  1.23s/it] 15%|█▍        | 11637/78504 [7:04:17<21:10:36,  1.14s/it]                                                          {'loss': 0.2121, 'grad_norm': 1.2555532455444336, 'learning_rate': 2.8394972612627914e-05, 'epoch': 3.56}
 15%|█▍        | 11637/78504 [7:04:17<21:10:36,  1.14s/it] 15%|█▍        | 11638/78504 [7:04:18<19:08:58,  1.03s/it]                                                          {'loss': 0.2519, 'grad_norm': 1.9046069383621216, 'learning_rate': 2.8394548002207976e-05, 'epoch': 3.56}
 15%|█▍        | 11638/78504 [7:04:18<19:08:58,  1.03s/it] 15%|█▍        | 11639/78504 [7:04:27<62:54:09,  3.39s/it]                                                          {'loss': 0.15, 'grad_norm': 0.5318306684494019, 'learning_rate': 2.8394123391788035e-05, 'epoch': 3.56}
 15%|█▍        | 11639/78504 [7:04:27<62:54:09,  3.39s/it] 15%|█▍        | 11640/78504 [7:04:30<61:30:51,  3.31s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.3486272990703583, 'learning_rate': 2.8393698781368097e-05, 'epoch': 3.56}
 15%|█▍        | 11640/78504 [7:04:30<61:30:51,  3.31s/it] 15%|█▍        | 11641/78504 [7:04:33<59:53:27,  3.22s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.2701771557331085, 'learning_rate': 2.8393274170948156e-05, 'epoch': 3.56}
 15%|█▍        | 11641/78504 [7:04:33<59:53:27,  3.22s/it] 15%|█▍        | 11642/78504 [7:04:36<56:28:11,  3.04s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.3228515386581421, 'learning_rate': 2.8392849560528214e-05, 'epoch': 3.56}
 15%|█▍        | 11642/78504 [7:04:36<56:28:11,  3.04s/it] 15%|█▍        | 11643/78504 [7:04:38<53:25:09,  2.88s/it]                                                          {'loss': 0.0787, 'grad_norm': 0.8724523186683655, 'learning_rate': 2.8392424950108277e-05, 'epoch': 3.56}
 15%|█▍        | 11643/78504 [7:04:38<53:25:09,  2.88s/it] 15%|█▍        | 11644/78504 [7:04:40<49:38:56,  2.67s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.9084330201148987, 'learning_rate': 2.8392000339688335e-05, 'epoch': 3.56}
 15%|█▍        | 11644/78504 [7:04:40<49:38:56,  2.67s/it] 15%|█▍        | 11645/78504 [7:04:43<47:44:15,  2.57s/it]                                                          {'loss': 0.0391, 'grad_norm': 0.22866421937942505, 'learning_rate': 2.8391575729268397e-05, 'epoch': 3.56}
 15%|█▍        | 11645/78504 [7:04:43<47:44:15,  2.57s/it] 15%|█▍        | 11646/78504 [7:04:45<45:02:48,  2.43s/it]                                                          {'loss': 0.0516, 'grad_norm': 0.28577765822410583, 'learning_rate': 2.8391151118848456e-05, 'epoch': 3.56}
 15%|█▍        | 11646/78504 [7:04:45<45:02:48,  2.43s/it] 15%|█▍        | 11647/78504 [7:04:47<42:51:14,  2.31s/it]                                                          {'loss': 0.1275, 'grad_norm': 0.5192993879318237, 'learning_rate': 2.8390726508428518e-05, 'epoch': 3.56}
 15%|█▍        | 11647/78504 [7:04:47<42:51:14,  2.31s/it] 15%|█▍        | 11648/78504 [7:04:49<41:55:43,  2.26s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.33329087495803833, 'learning_rate': 2.8390301898008577e-05, 'epoch': 3.56}
 15%|█▍        | 11648/78504 [7:04:49<41:55:43,  2.26s/it] 15%|█▍        | 11649/78504 [7:04:51<40:29:18,  2.18s/it]                                                          {'loss': 0.0614, 'grad_norm': 0.6497235298156738, 'learning_rate': 2.838987728758864e-05, 'epoch': 3.56}
 15%|█▍        | 11649/78504 [7:04:51<40:29:18,  2.18s/it] 15%|█▍        | 11650/78504 [7:04:53<38:24:57,  2.07s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.41588231921195984, 'learning_rate': 2.8389452677168698e-05, 'epoch': 3.56}
 15%|█▍        | 11650/78504 [7:04:53<38:24:57,  2.07s/it] 15%|█▍        | 11651/78504 [7:04:55<37:18:01,  2.01s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.276182621717453, 'learning_rate': 2.838902806674876e-05, 'epoch': 3.56}
 15%|█▍        | 11651/78504 [7:04:55<37:18:01,  2.01s/it] 15%|█▍        | 11652/78504 [7:04:57<36:29:39,  1.97s/it]                                                          {'loss': 0.1187, 'grad_norm': 0.6442866921424866, 'learning_rate': 2.838860345632882e-05, 'epoch': 3.56}
 15%|█▍        | 11652/78504 [7:04:57<36:29:39,  1.97s/it] 15%|█▍        | 11653/78504 [7:04:58<35:09:33,  1.89s/it]                                                          {'loss': 0.1208, 'grad_norm': 0.7814022302627563, 'learning_rate': 2.838817884590888e-05, 'epoch': 3.56}
 15%|█▍        | 11653/78504 [7:04:58<35:09:33,  1.89s/it] 15%|█▍        | 11654/78504 [7:05:00<33:47:37,  1.82s/it]                                                          {'loss': 0.1648, 'grad_norm': 0.5732600688934326, 'learning_rate': 2.838775423548894e-05, 'epoch': 3.56}
 15%|█▍        | 11654/78504 [7:05:00<33:47:37,  1.82s/it] 15%|█▍        | 11655/78504 [7:05:01<32:12:59,  1.73s/it]                                                          {'loss': 0.1636, 'grad_norm': 0.5714125037193298, 'learning_rate': 2.8387329625068998e-05, 'epoch': 3.56}
 15%|█▍        | 11655/78504 [7:05:01<32:12:59,  1.73s/it] 15%|█▍        | 11656/78504 [7:05:03<30:46:00,  1.66s/it]                                                          {'loss': 0.1632, 'grad_norm': 2.167201519012451, 'learning_rate': 2.838690501464906e-05, 'epoch': 3.56}
 15%|█▍        | 11656/78504 [7:05:03<30:46:00,  1.66s/it] 15%|█▍        | 11657/78504 [7:05:04<29:25:45,  1.58s/it]                                                          {'loss': 0.1823, 'grad_norm': 0.8507255911827087, 'learning_rate': 2.838648040422912e-05, 'epoch': 3.56}
 15%|█▍        | 11657/78504 [7:05:04<29:25:45,  1.58s/it] 15%|█▍        | 11658/78504 [7:05:06<27:44:53,  1.49s/it]                                                          {'loss': 0.1744, 'grad_norm': 0.8246555924415588, 'learning_rate': 2.838605579380918e-05, 'epoch': 3.56}
 15%|█▍        | 11658/78504 [7:05:06<27:44:53,  1.49s/it] 15%|█▍        | 11659/78504 [7:05:07<25:49:28,  1.39s/it]                                                          {'loss': 0.159, 'grad_norm': 0.9439881443977356, 'learning_rate': 2.838563118338924e-05, 'epoch': 3.56}
 15%|█▍        | 11659/78504 [7:05:07<25:49:28,  1.39s/it] 15%|█▍        | 11660/78504 [7:05:08<24:13:10,  1.30s/it]                                                          {'loss': 0.2678, 'grad_norm': 1.2449336051940918, 'learning_rate': 2.83852065729693e-05, 'epoch': 3.56}
 15%|█▍        | 11660/78504 [7:05:08<24:13:10,  1.30s/it] 15%|█▍        | 11661/78504 [7:05:09<22:48:14,  1.23s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.9609862565994263, 'learning_rate': 2.838478196254936e-05, 'epoch': 3.56}
 15%|█▍        | 11661/78504 [7:05:09<22:48:14,  1.23s/it] 15%|█▍        | 11662/78504 [7:05:10<21:06:29,  1.14s/it]                                                          {'loss': 0.2387, 'grad_norm': 1.342763900756836, 'learning_rate': 2.8384357352129422e-05, 'epoch': 3.57}
 15%|█▍        | 11662/78504 [7:05:10<21:06:29,  1.14s/it] 15%|█▍        | 11663/78504 [7:05:11<19:16:19,  1.04s/it]                                                          {'loss': 0.2857, 'grad_norm': 1.5780553817749023, 'learning_rate': 2.838393274170948e-05, 'epoch': 3.57}
 15%|█▍        | 11663/78504 [7:05:11<19:16:19,  1.04s/it] 15%|█▍        | 11664/78504 [7:05:19<62:46:24,  3.38s/it]                                                          {'loss': 0.1765, 'grad_norm': 0.606106698513031, 'learning_rate': 2.8383508131289543e-05, 'epoch': 3.57}
 15%|█▍        | 11664/78504 [7:05:20<62:46:24,  3.38s/it] 15%|█▍        | 11665/78504 [7:05:23<62:42:40,  3.38s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.20238758623600006, 'learning_rate': 2.8383083520869602e-05, 'epoch': 3.57}
 15%|█▍        | 11665/78504 [7:05:23<62:42:40,  3.38s/it] 15%|█▍        | 11666/78504 [7:05:26<60:41:05,  3.27s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.1805974245071411, 'learning_rate': 2.8382658910449664e-05, 'epoch': 3.57}
 15%|█▍        | 11666/78504 [7:05:26<60:41:05,  3.27s/it] 15%|█▍        | 11667/78504 [7:05:28<56:54:17,  3.07s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.4178202748298645, 'learning_rate': 2.8382234300029723e-05, 'epoch': 3.57}
 15%|█▍        | 11667/78504 [7:05:28<56:54:17,  3.07s/it] 15%|█▍        | 11668/78504 [7:05:31<52:58:56,  2.85s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.3794001340866089, 'learning_rate': 2.838180968960978e-05, 'epoch': 3.57}
 15%|█▍        | 11668/78504 [7:05:31<52:58:56,  2.85s/it] 15%|█▍        | 11669/78504 [7:05:33<50:13:27,  2.71s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.6603590250015259, 'learning_rate': 2.8381385079189843e-05, 'epoch': 3.57}
 15%|█▍        | 11669/78504 [7:05:33<50:13:27,  2.71s/it] 15%|█▍        | 11670/78504 [7:05:36<48:07:24,  2.59s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.23926708102226257, 'learning_rate': 2.8380960468769902e-05, 'epoch': 3.57}
 15%|█▍        | 11670/78504 [7:05:36<48:07:24,  2.59s/it] 15%|█▍        | 11671/78504 [7:05:38<45:19:45,  2.44s/it]                                                          {'loss': 0.0547, 'grad_norm': 0.48903489112854004, 'learning_rate': 2.8380535858349964e-05, 'epoch': 3.57}
 15%|█▍        | 11671/78504 [7:05:38<45:19:45,  2.44s/it] 15%|█▍        | 11672/78504 [7:05:40<43:02:35,  2.32s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.3253152668476105, 'learning_rate': 2.8380111247930023e-05, 'epoch': 3.57}
 15%|█▍        | 11672/78504 [7:05:40<43:02:35,  2.32s/it] 15%|█▍        | 11673/78504 [7:05:42<42:01:04,  2.26s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.6168380379676819, 'learning_rate': 2.8379686637510085e-05, 'epoch': 3.57}
 15%|█▍        | 11673/78504 [7:05:42<42:01:04,  2.26s/it] 15%|█▍        | 11674/78504 [7:05:44<40:40:56,  2.19s/it]                                                          {'loss': 0.1029, 'grad_norm': 0.49521321058273315, 'learning_rate': 2.8379262027090144e-05, 'epoch': 3.57}
 15%|█▍        | 11674/78504 [7:05:44<40:40:56,  2.19s/it] 15%|█▍        | 11675/78504 [7:05:46<39:28:22,  2.13s/it]                                                          {'loss': 0.1091, 'grad_norm': 0.835713267326355, 'learning_rate': 2.8378837416670206e-05, 'epoch': 3.57}
 15%|█▍        | 11675/78504 [7:05:46<39:28:22,  2.13s/it] 15%|█▍        | 11676/78504 [7:05:48<38:00:32,  2.05s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.33132320642471313, 'learning_rate': 2.8378412806250264e-05, 'epoch': 3.57}
 15%|█▍        | 11676/78504 [7:05:48<38:00:32,  2.05s/it] 15%|█▍        | 11677/78504 [7:05:49<36:50:44,  1.98s/it]                                                          {'loss': 0.1354, 'grad_norm': 0.6139249205589294, 'learning_rate': 2.8377988195830327e-05, 'epoch': 3.57}
 15%|█▍        | 11677/78504 [7:05:49<36:50:44,  1.98s/it] 15%|█▍        | 11678/78504 [7:05:51<35:36:24,  1.92s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.6477430462837219, 'learning_rate': 2.8377563585410385e-05, 'epoch': 3.57}
 15%|█▍        | 11678/78504 [7:05:51<35:36:24,  1.92s/it] 15%|█▍        | 11679/78504 [7:05:53<34:07:12,  1.84s/it]                                                          {'loss': 0.1244, 'grad_norm': 0.5189515352249146, 'learning_rate': 2.8377138974990447e-05, 'epoch': 3.57}
 15%|█▍        | 11679/78504 [7:05:53<34:07:12,  1.84s/it] 15%|█▍        | 11680/78504 [7:05:54<32:28:38,  1.75s/it]                                                          {'loss': 0.1489, 'grad_norm': 0.626003623008728, 'learning_rate': 2.8376714364570506e-05, 'epoch': 3.57}
 15%|█▍        | 11680/78504 [7:05:54<32:28:38,  1.75s/it] 15%|█▍        | 11681/78504 [7:05:56<31:06:54,  1.68s/it]                                                          {'loss': 0.1949, 'grad_norm': 0.9480247497558594, 'learning_rate': 2.8376289754150565e-05, 'epoch': 3.57}
 15%|█▍        | 11681/78504 [7:05:56<31:06:54,  1.68s/it] 15%|█▍        | 11682/78504 [7:05:57<29:30:38,  1.59s/it]                                                          {'loss': 0.1912, 'grad_norm': 0.5300143361091614, 'learning_rate': 2.8375865143730627e-05, 'epoch': 3.57}
 15%|█▍        | 11682/78504 [7:05:57<29:30:38,  1.59s/it] 15%|█▍        | 11683/78504 [7:05:59<27:49:50,  1.50s/it]                                                          {'loss': 0.1785, 'grad_norm': 1.6775410175323486, 'learning_rate': 2.8375440533310686e-05, 'epoch': 3.57}
 15%|█▍        | 11683/78504 [7:05:59<27:49:50,  1.50s/it] 15%|█▍        | 11684/78504 [7:06:00<25:52:44,  1.39s/it]                                                          {'loss': 0.2032, 'grad_norm': 0.6460542678833008, 'learning_rate': 2.8375015922890748e-05, 'epoch': 3.57}
 15%|█▍        | 11684/78504 [7:06:00<25:52:44,  1.39s/it] 15%|█▍        | 11685/78504 [7:06:01<24:11:48,  1.30s/it]                                                          {'loss': 0.2006, 'grad_norm': 0.8204830288887024, 'learning_rate': 2.8374591312470806e-05, 'epoch': 3.57}
 15%|█▍        | 11685/78504 [7:06:01<24:11:48,  1.30s/it] 15%|█▍        | 11686/78504 [7:06:02<22:44:41,  1.23s/it]                                                          {'loss': 0.2087, 'grad_norm': 0.5102282762527466, 'learning_rate': 2.837416670205087e-05, 'epoch': 3.57}
 15%|█▍        | 11686/78504 [7:06:02<22:44:41,  1.23s/it] 15%|█▍        | 11687/78504 [7:06:03<21:08:18,  1.14s/it]                                                          {'loss': 0.2282, 'grad_norm': 0.7959402799606323, 'learning_rate': 2.8373742091630927e-05, 'epoch': 3.57}
 15%|█▍        | 11687/78504 [7:06:03<21:08:18,  1.14s/it] 15%|█▍        | 11688/78504 [7:06:04<18:57:16,  1.02s/it]                                                          {'loss': 0.2668, 'grad_norm': 1.096182942390442, 'learning_rate': 2.837331748121099e-05, 'epoch': 3.57}
 15%|█▍        | 11688/78504 [7:06:04<18:57:16,  1.02s/it] 15%|█▍        | 11689/78504 [7:06:12<60:10:19,  3.24s/it]                                                          {'loss': 0.1607, 'grad_norm': 0.6326525211334229, 'learning_rate': 2.8372892870791048e-05, 'epoch': 3.57}
 15%|█▍        | 11689/78504 [7:06:12<60:10:19,  3.24s/it] 15%|█▍        | 11690/78504 [7:06:15<58:15:51,  3.14s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.2521153688430786, 'learning_rate': 2.837246826037111e-05, 'epoch': 3.57}
 15%|█▍        | 11690/78504 [7:06:15<58:15:51,  3.14s/it] 15%|█▍        | 11691/78504 [7:06:17<55:05:33,  2.97s/it]                                                          {'loss': 0.0847, 'grad_norm': 0.21493850648403168, 'learning_rate': 2.837204364995117e-05, 'epoch': 3.57}
 15%|█▍        | 11691/78504 [7:06:17<55:05:33,  2.97s/it] 15%|█▍        | 11692/78504 [7:06:20<53:07:08,  2.86s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.3454105854034424, 'learning_rate': 2.837161903953123e-05, 'epoch': 3.57}
 15%|█▍        | 11692/78504 [7:06:20<53:07:08,  2.86s/it] 15%|█▍        | 11693/78504 [7:06:23<50:57:48,  2.75s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.2186533808708191, 'learning_rate': 2.8371194429111293e-05, 'epoch': 3.57}
 15%|█▍        | 11693/78504 [7:06:23<50:57:48,  2.75s/it] 15%|█▍        | 11694/78504 [7:06:25<49:11:10,  2.65s/it]                                                          {'loss': 0.0502, 'grad_norm': 0.2498197853565216, 'learning_rate': 2.837076981869135e-05, 'epoch': 3.58}
 15%|█▍        | 11694/78504 [7:06:25<49:11:10,  2.65s/it] 15%|█▍        | 11695/78504 [7:06:27<47:21:03,  2.55s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.35339871048927307, 'learning_rate': 2.8370345208271414e-05, 'epoch': 3.58}
 15%|█▍        | 11695/78504 [7:06:27<47:21:03,  2.55s/it] 15%|█▍        | 11696/78504 [7:06:29<44:52:48,  2.42s/it]                                                          {'loss': 0.0711, 'grad_norm': 0.267624169588089, 'learning_rate': 2.8369920597851472e-05, 'epoch': 3.58}
 15%|█▍        | 11696/78504 [7:06:29<44:52:48,  2.42s/it] 15%|█▍        | 11697/78504 [7:06:31<42:42:58,  2.30s/it]                                                          {'loss': 0.0893, 'grad_norm': 0.3471984267234802, 'learning_rate': 2.8369495987431534e-05, 'epoch': 3.58}
 15%|█▍        | 11697/78504 [7:06:31<42:42:58,  2.30s/it] 15%|█▍        | 11698/78504 [7:06:34<41:50:06,  2.25s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.35348477959632874, 'learning_rate': 2.8369071377011593e-05, 'epoch': 3.58}
 15%|█▍        | 11698/78504 [7:06:34<41:50:06,  2.25s/it] 15%|█▍        | 11699/78504 [7:06:36<40:25:16,  2.18s/it]                                                          {'loss': 0.1062, 'grad_norm': 1.1440945863723755, 'learning_rate': 2.8368646766591655e-05, 'epoch': 3.58}
 15%|█▍        | 11699/78504 [7:06:36<40:25:16,  2.18s/it] 15%|█▍        | 11700/78504 [7:06:37<38:20:28,  2.07s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.2518911063671112, 'learning_rate': 2.8368222156171714e-05, 'epoch': 3.58}
 15%|█▍        | 11700/78504 [7:06:37<38:20:28,  2.07s/it] 15%|█▍        | 11701/78504 [7:06:39<37:13:42,  2.01s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.38847821950912476, 'learning_rate': 2.8367797545751776e-05, 'epoch': 3.58}
 15%|█▍        | 11701/78504 [7:06:39<37:13:42,  2.01s/it] 15%|█▍        | 11702/78504 [7:06:41<35:35:21,  1.92s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.2563537061214447, 'learning_rate': 2.8367372935331835e-05, 'epoch': 3.58}
 15%|█▍        | 11702/78504 [7:06:41<35:35:21,  1.92s/it] 15%|█▍        | 11703/78504 [7:06:43<34:44:58,  1.87s/it]                                                          {'loss': 0.1378, 'grad_norm': 0.4627496898174286, 'learning_rate': 2.8366948324911897e-05, 'epoch': 3.58}
 15%|█▍        | 11703/78504 [7:06:43<34:44:58,  1.87s/it] 15%|█▍        | 11704/78504 [7:06:44<33:29:08,  1.80s/it]                                                          {'loss': 0.1477, 'grad_norm': 0.4263947904109955, 'learning_rate': 2.8366523714491956e-05, 'epoch': 3.58}
 15%|█▍        | 11704/78504 [7:06:44<33:29:08,  1.80s/it] 15%|█▍        | 11705/78504 [7:06:46<31:53:06,  1.72s/it]                                                          {'loss': 0.1812, 'grad_norm': 0.5060939788818359, 'learning_rate': 2.8366099104072014e-05, 'epoch': 3.58}
 15%|█▍        | 11705/78504 [7:06:46<31:53:06,  1.72s/it] 15%|█▍        | 11706/78504 [7:06:47<30:17:22,  1.63s/it]                                                          {'loss': 0.1876, 'grad_norm': 0.9655070304870605, 'learning_rate': 2.8365674493652076e-05, 'epoch': 3.58}
 15%|█▍        | 11706/78504 [7:06:47<30:17:22,  1.63s/it] 15%|█▍        | 11707/78504 [7:06:49<29:03:37,  1.57s/it]                                                          {'loss': 0.1973, 'grad_norm': 0.7038581371307373, 'learning_rate': 2.8365249883232135e-05, 'epoch': 3.58}
 15%|█▍        | 11707/78504 [7:06:49<29:03:37,  1.57s/it] 15%|█▍        | 11708/78504 [7:06:50<27:09:00,  1.46s/it]                                                          {'loss': 0.2121, 'grad_norm': 0.8331713080406189, 'learning_rate': 2.8364825272812197e-05, 'epoch': 3.58}
 15%|█▍        | 11708/78504 [7:06:50<27:09:00,  1.46s/it] 15%|█▍        | 11709/78504 [7:06:51<25:23:54,  1.37s/it]                                                          {'loss': 0.2219, 'grad_norm': 0.8518937230110168, 'learning_rate': 2.8364400662392256e-05, 'epoch': 3.58}
 15%|█▍        | 11709/78504 [7:06:51<25:23:54,  1.37s/it] 15%|█▍        | 11710/78504 [7:06:52<23:49:50,  1.28s/it]                                                          {'loss': 0.2097, 'grad_norm': 0.645575225353241, 'learning_rate': 2.8363976051972318e-05, 'epoch': 3.58}
 15%|█▍        | 11710/78504 [7:06:52<23:49:50,  1.28s/it] 15%|█▍        | 11711/78504 [7:06:53<22:29:16,  1.21s/it]                                                          {'loss': 0.1941, 'grad_norm': 0.8484359383583069, 'learning_rate': 2.8363551441552377e-05, 'epoch': 3.58}
 15%|█▍        | 11711/78504 [7:06:53<22:29:16,  1.21s/it] 15%|█▍        | 11712/78504 [7:06:54<20:58:29,  1.13s/it]                                                          {'loss': 0.2106, 'grad_norm': 0.7489464282989502, 'learning_rate': 2.836312683113244e-05, 'epoch': 3.58}
 15%|█▍        | 11712/78504 [7:06:54<20:58:29,  1.13s/it] 15%|█▍        | 11713/78504 [7:06:55<19:02:26,  1.03s/it]                                                          {'loss': 0.2788, 'grad_norm': 1.037770390510559, 'learning_rate': 2.8362702220712497e-05, 'epoch': 3.58}
 15%|█▍        | 11713/78504 [7:06:55<19:02:26,  1.03s/it] 15%|█▍        | 11714/78504 [7:07:05<69:33:51,  3.75s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.25767821073532104, 'learning_rate': 2.836227761029256e-05, 'epoch': 3.58}
 15%|█▍        | 11714/78504 [7:07:05<69:33:51,  3.75s/it] 15%|█▍        | 11715/78504 [7:07:08<67:24:55,  3.63s/it]                                                          {'loss': 0.0761, 'grad_norm': 1.5222755670547485, 'learning_rate': 2.8361852999872618e-05, 'epoch': 3.58}
 15%|█▍        | 11715/78504 [7:07:08<67:24:55,  3.63s/it] 15%|█▍        | 11716/78504 [7:07:11<61:28:19,  3.31s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.4082672894001007, 'learning_rate': 2.836142838945268e-05, 'epoch': 3.58}
 15%|█▍        | 11716/78504 [7:07:11<61:28:19,  3.31s/it] 15%|█▍        | 11717/78504 [7:07:14<57:32:58,  3.10s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.37242844700813293, 'learning_rate': 2.836100377903274e-05, 'epoch': 3.58}
 15%|█▍        | 11717/78504 [7:07:14<57:32:58,  3.10s/it] 15%|█▍        | 11718/78504 [7:07:16<54:02:31,  2.91s/it]                                                          {'loss': 0.07, 'grad_norm': 0.2506983280181885, 'learning_rate': 2.8360579168612798e-05, 'epoch': 3.58}
 15%|█▍        | 11718/78504 [7:07:16<54:02:31,  2.91s/it] 15%|█▍        | 11719/78504 [7:07:18<50:26:53,  2.72s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.29395100474357605, 'learning_rate': 2.836015455819286e-05, 'epoch': 3.58}
 15%|█▍        | 11719/78504 [7:07:18<50:26:53,  2.72s/it] 15%|█▍        | 11720/78504 [7:07:21<48:13:59,  2.60s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.24214395880699158, 'learning_rate': 2.835972994777292e-05, 'epoch': 3.58}
 15%|█▍        | 11720/78504 [7:07:21<48:13:59,  2.60s/it] 15%|█▍        | 11721/78504 [7:07:23<45:32:02,  2.45s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.2703808844089508, 'learning_rate': 2.835930533735298e-05, 'epoch': 3.58}
 15%|█▍        | 11721/78504 [7:07:23<45:32:02,  2.45s/it] 15%|█▍        | 11722/78504 [7:07:25<44:00:18,  2.37s/it]                                                          {'loss': 0.0681, 'grad_norm': 0.2234671413898468, 'learning_rate': 2.835888072693304e-05, 'epoch': 3.58}
 15%|█▍        | 11722/78504 [7:07:25<44:00:18,  2.37s/it] 15%|█▍        | 11723/78504 [7:07:27<42:51:04,  2.31s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.24812379479408264, 'learning_rate': 2.83584561165131e-05, 'epoch': 3.58}
 15%|█▍        | 11723/78504 [7:07:27<42:51:04,  2.31s/it] 15%|█▍        | 11724/78504 [7:07:29<40:18:53,  2.17s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.43398743867874146, 'learning_rate': 2.835803150609316e-05, 'epoch': 3.58}
 15%|█▍        | 11724/78504 [7:07:29<40:18:53,  2.17s/it] 15%|█▍        | 11725/78504 [7:07:31<39:15:36,  2.12s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.32900938391685486, 'learning_rate': 2.8357606895673222e-05, 'epoch': 3.58}
 15%|█▍        | 11725/78504 [7:07:31<39:15:36,  2.12s/it] 15%|█▍        | 11726/78504 [7:07:33<38:09:57,  2.06s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.22131651639938354, 'learning_rate': 2.835718228525328e-05, 'epoch': 3.58}
 15%|█▍        | 11726/78504 [7:07:33<38:09:57,  2.06s/it] 15%|█▍        | 11727/78504 [7:07:35<37:02:13,  2.00s/it]                                                          {'loss': 0.1201, 'grad_norm': 0.47590190172195435, 'learning_rate': 2.8356757674833343e-05, 'epoch': 3.59}
 15%|█▍        | 11727/78504 [7:07:35<37:02:13,  2.00s/it] 15%|█▍        | 11728/78504 [7:07:37<35:44:20,  1.93s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.404462993144989, 'learning_rate': 2.83563330644134e-05, 'epoch': 3.59}
 15%|█▍        | 11728/78504 [7:07:37<35:44:20,  1.93s/it] 15%|█▍        | 11729/78504 [7:07:38<34:12:55,  1.84s/it]                                                          {'loss': 0.136, 'grad_norm': 0.6286687850952148, 'learning_rate': 2.8355908453993464e-05, 'epoch': 3.59}
 15%|█▍        | 11729/78504 [7:07:38<34:12:55,  1.84s/it] 15%|█▍        | 11730/78504 [7:07:40<32:31:44,  1.75s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.8662146925926208, 'learning_rate': 2.8355483843573522e-05, 'epoch': 3.59}
 15%|█▍        | 11730/78504 [7:07:40<32:31:44,  1.75s/it] 15%|█▍        | 11731/78504 [7:07:41<31:07:03,  1.68s/it]                                                          {'loss': 0.1966, 'grad_norm': 0.8975753784179688, 'learning_rate': 2.835505923315358e-05, 'epoch': 3.59}
 15%|█▍        | 11731/78504 [7:07:41<31:07:03,  1.68s/it] 15%|█▍        | 11732/78504 [7:07:43<29:37:36,  1.60s/it]                                                          {'loss': 0.1793, 'grad_norm': 0.7335655689239502, 'learning_rate': 2.8354634622733643e-05, 'epoch': 3.59}
 15%|█▍        | 11732/78504 [7:07:43<29:37:36,  1.60s/it] 15%|█▍        | 11733/78504 [7:07:44<27:55:46,  1.51s/it]                                                          {'loss': 0.1901, 'grad_norm': 0.6103354692459106, 'learning_rate': 2.8354210012313702e-05, 'epoch': 3.59}
 15%|█▍        | 11733/78504 [7:07:44<27:55:46,  1.51s/it] 15%|█▍        | 11734/78504 [7:07:45<26:17:55,  1.42s/it]                                                          {'loss': 0.1875, 'grad_norm': 0.6258367300033569, 'learning_rate': 2.8353785401893764e-05, 'epoch': 3.59}
 15%|█▍        | 11734/78504 [7:07:45<26:17:55,  1.42s/it] 15%|█▍        | 11735/78504 [7:07:46<24:29:58,  1.32s/it]                                                          {'loss': 0.2678, 'grad_norm': 1.8256609439849854, 'learning_rate': 2.8353360791473823e-05, 'epoch': 3.59}
 15%|█▍        | 11735/78504 [7:07:46<24:29:58,  1.32s/it] 15%|█▍        | 11736/78504 [7:07:47<22:58:54,  1.24s/it]                                                          {'loss': 0.2269, 'grad_norm': 0.7031739354133606, 'learning_rate': 2.8352936181053885e-05, 'epoch': 3.59}
 15%|█▍        | 11736/78504 [7:07:47<22:58:54,  1.24s/it] 15%|█▍        | 11737/78504 [7:07:48<21:14:37,  1.15s/it]                                                          {'loss': 0.1792, 'grad_norm': 0.9871903657913208, 'learning_rate': 2.8352511570633943e-05, 'epoch': 3.59}
 15%|█▍        | 11737/78504 [7:07:48<21:14:37,  1.15s/it] 15%|█▍        | 11738/78504 [7:07:49<19:13:32,  1.04s/it]                                                          {'loss': 0.264, 'grad_norm': 1.003570795059204, 'learning_rate': 2.8352086960214006e-05, 'epoch': 3.59}
 15%|█▍        | 11738/78504 [7:07:49<19:13:32,  1.04s/it] 15%|█▍        | 11739/78504 [7:07:56<54:26:12,  2.94s/it]                                                          {'loss': 0.1569, 'grad_norm': 1.2770717144012451, 'learning_rate': 2.8351662349794064e-05, 'epoch': 3.59}
 15%|█▍        | 11739/78504 [7:07:56<54:26:12,  2.94s/it] 15%|█▍        | 11740/78504 [7:08:00<56:45:51,  3.06s/it]                                                          {'loss': 0.0876, 'grad_norm': 0.4013620913028717, 'learning_rate': 2.8351237739374126e-05, 'epoch': 3.59}
 15%|█▍        | 11740/78504 [7:08:00<56:45:51,  3.06s/it] 15%|█▍        | 11741/78504 [7:08:02<55:12:13,  2.98s/it]                                                          {'loss': 0.0769, 'grad_norm': 0.28413209319114685, 'learning_rate': 2.8350813128954185e-05, 'epoch': 3.59}
 15%|█▍        | 11741/78504 [7:08:02<55:12:13,  2.98s/it] 15%|█▍        | 11742/78504 [7:08:05<53:09:28,  2.87s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.2972313463687897, 'learning_rate': 2.8350388518534247e-05, 'epoch': 3.59}
 15%|█▍        | 11742/78504 [7:08:05<53:09:28,  2.87s/it] 15%|█▍        | 11743/78504 [7:08:08<50:56:55,  2.75s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.2651325464248657, 'learning_rate': 2.8349963908114306e-05, 'epoch': 3.59}
 15%|█▍        | 11743/78504 [7:08:08<50:56:55,  2.75s/it] 15%|█▍        | 11744/78504 [7:08:10<49:10:38,  2.65s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.19471749663352966, 'learning_rate': 2.8349539297694365e-05, 'epoch': 3.59}
 15%|█▍        | 11744/78504 [7:08:10<49:10:38,  2.65s/it] 15%|█▍        | 11745/78504 [7:08:12<47:23:55,  2.56s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.22795620560646057, 'learning_rate': 2.8349114687274427e-05, 'epoch': 3.59}
 15%|█▍        | 11745/78504 [7:08:12<47:23:55,  2.56s/it] 15%|█▍        | 11746/78504 [7:08:15<45:59:21,  2.48s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.240395650267601, 'learning_rate': 2.8348690076854485e-05, 'epoch': 3.59}
 15%|█▍        | 11746/78504 [7:08:15<45:59:21,  2.48s/it] 15%|█▍        | 11747/78504 [7:08:17<44:24:56,  2.40s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.3435830771923065, 'learning_rate': 2.8348265466434547e-05, 'epoch': 3.59}
 15%|█▍        | 11747/78504 [7:08:17<44:24:56,  2.40s/it] 15%|█▍        | 11748/78504 [7:08:19<43:08:17,  2.33s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.2818073630332947, 'learning_rate': 2.8347840856014606e-05, 'epoch': 3.59}
 15%|█▍        | 11748/78504 [7:08:19<43:08:17,  2.33s/it] 15%|█▍        | 11749/78504 [7:08:21<40:56:46,  2.21s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.45901039242744446, 'learning_rate': 2.8347416245594668e-05, 'epoch': 3.59}
 15%|█▍        | 11749/78504 [7:08:21<40:56:46,  2.21s/it] 15%|█▍        | 11750/78504 [7:08:23<39:45:44,  2.14s/it]                                                          {'loss': 0.094, 'grad_norm': 0.37557363510131836, 'learning_rate': 2.8346991635174727e-05, 'epoch': 3.59}
 15%|█▍        | 11750/78504 [7:08:23<39:45:44,  2.14s/it] 15%|█▍        | 11751/78504 [7:08:25<38:32:55,  2.08s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.47588273882865906, 'learning_rate': 2.834656702475479e-05, 'epoch': 3.59}
 15%|█▍        | 11751/78504 [7:08:25<38:32:55,  2.08s/it] 15%|█▍        | 11752/78504 [7:08:27<37:28:29,  2.02s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.39239197969436646, 'learning_rate': 2.8346142414334848e-05, 'epoch': 3.59}
 15%|█▍        | 11752/78504 [7:08:27<37:28:29,  2.02s/it] 15%|█▍        | 11753/78504 [7:08:28<36:04:24,  1.95s/it]                                                          {'loss': 0.142, 'grad_norm': 0.6141964793205261, 'learning_rate': 2.834571780391491e-05, 'epoch': 3.59}
 15%|█▍        | 11753/78504 [7:08:29<36:04:24,  1.95s/it] 15%|█▍        | 11754/78504 [7:08:30<34:02:39,  1.84s/it]                                                          {'loss': 0.1898, 'grad_norm': 0.6001500487327576, 'learning_rate': 2.834529319349497e-05, 'epoch': 3.59}
 15%|█▍        | 11754/78504 [7:08:30<34:02:39,  1.84s/it] 15%|█▍        | 11755/78504 [7:08:32<32:22:22,  1.75s/it]                                                          {'loss': 0.1786, 'grad_norm': 0.6181190609931946, 'learning_rate': 2.834486858307503e-05, 'epoch': 3.59}
 15%|█▍        | 11755/78504 [7:08:32<32:22:22,  1.75s/it] 15%|█▍        | 11756/78504 [7:08:33<31:07:36,  1.68s/it]                                                          {'loss': 0.1578, 'grad_norm': 1.5686442852020264, 'learning_rate': 2.834444397265509e-05, 'epoch': 3.59}
 15%|█▍        | 11756/78504 [7:08:33<31:07:36,  1.68s/it] 15%|█▍        | 11757/78504 [7:08:35<29:29:57,  1.59s/it]                                                          {'loss': 0.19, 'grad_norm': 0.7555628418922424, 'learning_rate': 2.8344019362235148e-05, 'epoch': 3.59}
 15%|█▍        | 11757/78504 [7:08:35<29:29:57,  1.59s/it] 15%|█▍        | 11758/78504 [7:08:36<27:45:50,  1.50s/it]                                                          {'loss': 0.2106, 'grad_norm': 0.704319953918457, 'learning_rate': 2.834359475181521e-05, 'epoch': 3.59}
 15%|█▍        | 11758/78504 [7:08:36<27:45:50,  1.50s/it] 15%|█▍        | 11759/78504 [7:08:37<25:48:36,  1.39s/it]                                                          {'loss': 0.2251, 'grad_norm': 0.8975332975387573, 'learning_rate': 2.834317014139527e-05, 'epoch': 3.59}
 15%|█▍        | 11759/78504 [7:08:37<25:48:36,  1.39s/it] 15%|█▍        | 11760/78504 [7:08:38<24:07:45,  1.30s/it]                                                          {'loss': 0.1937, 'grad_norm': 1.1731657981872559, 'learning_rate': 2.834274553097533e-05, 'epoch': 3.6}
 15%|█▍        | 11760/78504 [7:08:38<24:07:45,  1.30s/it] 15%|█▍        | 11761/78504 [7:08:39<22:41:20,  1.22s/it]                                                          {'loss': 0.2019, 'grad_norm': 0.9381893873214722, 'learning_rate': 2.834232092055539e-05, 'epoch': 3.6}
 15%|█▍        | 11761/78504 [7:08:39<22:41:20,  1.22s/it] 15%|█▍        | 11762/78504 [7:08:40<21:03:10,  1.14s/it]                                                          {'loss': 0.2276, 'grad_norm': 4.522054195404053, 'learning_rate': 2.834189631013545e-05, 'epoch': 3.6}
 15%|█▍        | 11762/78504 [7:08:40<21:03:10,  1.14s/it] 15%|█▍        | 11763/78504 [7:08:41<19:11:41,  1.04s/it]                                                          {'loss': 0.2442, 'grad_norm': 1.1806584596633911, 'learning_rate': 2.834147169971551e-05, 'epoch': 3.6}
 15%|█▍        | 11763/78504 [7:08:41<19:11:41,  1.04s/it] 15%|█▍        | 11764/78504 [7:08:50<63:46:44,  3.44s/it]                                                          {'loss': 0.1436, 'grad_norm': 0.4213605523109436, 'learning_rate': 2.8341047089295572e-05, 'epoch': 3.6}
 15%|█▍        | 11764/78504 [7:08:50<63:46:44,  3.44s/it] 15%|█▍        | 11765/78504 [7:08:53<61:46:11,  3.33s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.8128756880760193, 'learning_rate': 2.834062247887563e-05, 'epoch': 3.6}
 15%|█▍        | 11765/78504 [7:08:53<61:46:11,  3.33s/it] 15%|█▍        | 11766/78504 [7:08:56<60:01:25,  3.24s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.33513790369033813, 'learning_rate': 2.8340197868455693e-05, 'epoch': 3.6}
 15%|█▍        | 11766/78504 [7:08:56<60:01:25,  3.24s/it] 15%|█▍        | 11767/78504 [7:08:59<56:32:53,  3.05s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.3210385739803314, 'learning_rate': 2.8339773258035752e-05, 'epoch': 3.6}
 15%|█▍        | 11767/78504 [7:08:59<56:32:53,  3.05s/it] 15%|█▍        | 11768/78504 [7:09:01<53:19:05,  2.88s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.32529187202453613, 'learning_rate': 2.8339348647615814e-05, 'epoch': 3.6}
 15%|█▍        | 11768/78504 [7:09:01<53:19:05,  2.88s/it] 15%|█▍        | 11769/78504 [7:09:03<50:50:16,  2.74s/it]                                                          {'loss': 0.0579, 'grad_norm': 0.44311121106147766, 'learning_rate': 2.8338924037195873e-05, 'epoch': 3.6}
 15%|█▍        | 11769/78504 [7:09:03<50:50:16,  2.74s/it] 15%|█▍        | 11770/78504 [7:09:06<48:28:17,  2.61s/it]                                                          {'loss': 0.067, 'grad_norm': 0.4259544909000397, 'learning_rate': 2.833849942677593e-05, 'epoch': 3.6}
 15%|█▍        | 11770/78504 [7:09:06<48:28:17,  2.61s/it] 15%|█▍        | 11771/78504 [7:09:08<45:41:54,  2.47s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.48747342824935913, 'learning_rate': 2.8338074816355993e-05, 'epoch': 3.6}
 15%|█▍        | 11771/78504 [7:09:08<45:41:54,  2.47s/it] 15%|█▍        | 11772/78504 [7:09:10<44:06:51,  2.38s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.42608121037483215, 'learning_rate': 2.8337650205936052e-05, 'epoch': 3.6}
 15%|█▍        | 11772/78504 [7:09:10<44:06:51,  2.38s/it] 15%|█▍        | 11773/78504 [7:09:12<42:47:53,  2.31s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.360583633184433, 'learning_rate': 2.8337225595516114e-05, 'epoch': 3.6}
 15%|█▍        | 11773/78504 [7:09:12<42:47:53,  2.31s/it] 15%|█▍        | 11774/78504 [7:09:14<41:15:16,  2.23s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.4813787639141083, 'learning_rate': 2.8336800985096173e-05, 'epoch': 3.6}
 15%|█▍        | 11774/78504 [7:09:14<41:15:16,  2.23s/it] 15%|█▍        | 11775/78504 [7:09:16<39:49:56,  2.15s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.3514440357685089, 'learning_rate': 2.8336376374676235e-05, 'epoch': 3.6}
 15%|█▍        | 11775/78504 [7:09:16<39:49:56,  2.15s/it] 15%|█▌        | 11776/78504 [7:09:18<38:16:03,  2.06s/it]                                                          {'loss': 0.1156, 'grad_norm': 0.3553240895271301, 'learning_rate': 2.8335951764256294e-05, 'epoch': 3.6}
 15%|█▌        | 11776/78504 [7:09:18<38:16:03,  2.06s/it] 15%|█▌        | 11777/78504 [7:09:20<37:01:01,  2.00s/it]                                                          {'loss': 0.1447, 'grad_norm': 0.37313753366470337, 'learning_rate': 2.8335527153836356e-05, 'epoch': 3.6}
 15%|█▌        | 11777/78504 [7:09:20<37:01:01,  2.00s/it] 15%|█▌        | 11778/78504 [7:09:22<35:46:30,  1.93s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.5706823468208313, 'learning_rate': 2.8335102543416415e-05, 'epoch': 3.6}
 15%|█▌        | 11778/78504 [7:09:22<35:46:30,  1.93s/it] 15%|█▌        | 11779/78504 [7:09:23<34:13:22,  1.85s/it]                                                          {'loss': 0.14, 'grad_norm': 0.47223323583602905, 'learning_rate': 2.8334677932996477e-05, 'epoch': 3.6}
 15%|█▌        | 11779/78504 [7:09:23<34:13:22,  1.85s/it] 15%|█▌        | 11780/78504 [7:09:25<32:26:00,  1.75s/it]                                                          {'loss': 0.1898, 'grad_norm': 0.6221165657043457, 'learning_rate': 2.8334253322576535e-05, 'epoch': 3.6}
 15%|█▌        | 11780/78504 [7:09:25<32:26:00,  1.75s/it] 15%|█▌        | 11781/78504 [7:09:26<30:37:59,  1.65s/it]                                                          {'loss': 0.1704, 'grad_norm': 0.6243786811828613, 'learning_rate': 2.8333828712156597e-05, 'epoch': 3.6}
 15%|█▌        | 11781/78504 [7:09:26<30:37:59,  1.65s/it] 15%|█▌        | 11782/78504 [7:09:28<29:17:05,  1.58s/it]                                                          {'loss': 0.1627, 'grad_norm': 3.352388858795166, 'learning_rate': 2.8333404101736656e-05, 'epoch': 3.6}
 15%|█▌        | 11782/78504 [7:09:28<29:17:05,  1.58s/it] 15%|█▌        | 11783/78504 [7:09:29<27:18:41,  1.47s/it]                                                          {'loss': 0.1707, 'grad_norm': 0.6272567510604858, 'learning_rate': 2.8332979491316715e-05, 'epoch': 3.6}
 15%|█▌        | 11783/78504 [7:09:29<27:18:41,  1.47s/it] 15%|█▌        | 11784/78504 [7:09:30<25:24:26,  1.37s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.614588737487793, 'learning_rate': 2.8332554880896777e-05, 'epoch': 3.6}
 15%|█▌        | 11784/78504 [7:09:30<25:24:26,  1.37s/it] 15%|█▌        | 11785/78504 [7:09:31<23:50:11,  1.29s/it]                                                          {'loss': 0.1867, 'grad_norm': 2.817972183227539, 'learning_rate': 2.8332130270476836e-05, 'epoch': 3.6}
 15%|█▌        | 11785/78504 [7:09:31<23:50:11,  1.29s/it] 15%|█▌        | 11786/78504 [7:09:32<22:15:52,  1.20s/it]                                                          {'loss': 0.2242, 'grad_norm': 1.475066065788269, 'learning_rate': 2.8331705660056898e-05, 'epoch': 3.6}
 15%|█▌        | 11786/78504 [7:09:32<22:15:52,  1.20s/it] 15%|█▌        | 11787/78504 [7:09:33<20:49:01,  1.12s/it]                                                          {'loss': 0.2568, 'grad_norm': 3.2115471363067627, 'learning_rate': 2.8331281049636956e-05, 'epoch': 3.6}
 15%|█▌        | 11787/78504 [7:09:33<20:49:01,  1.12s/it] 15%|█▌        | 11788/78504 [7:09:34<18:56:20,  1.02s/it]                                                          {'loss': 0.3607, 'grad_norm': 1.5505328178405762, 'learning_rate': 2.833085643921702e-05, 'epoch': 3.6}
 15%|█▌        | 11788/78504 [7:09:34<18:56:20,  1.02s/it] 15%|█▌        | 11789/78504 [7:09:42<56:59:34,  3.08s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.2845970392227173, 'learning_rate': 2.8330431828797077e-05, 'epoch': 3.6}
 15%|█▌        | 11789/78504 [7:09:42<56:59:34,  3.08s/it] 15%|█▌        | 11790/78504 [7:09:45<58:30:54,  3.16s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.5124988555908203, 'learning_rate': 2.833000721837714e-05, 'epoch': 3.6}
 15%|█▌        | 11790/78504 [7:09:45<58:30:54,  3.16s/it] 15%|█▌        | 11791/78504 [7:09:48<55:13:57,  2.98s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.3382508456707001, 'learning_rate': 2.8329582607957198e-05, 'epoch': 3.6}
 15%|█▌        | 11791/78504 [7:09:48<55:13:57,  2.98s/it] 15%|█▌        | 11792/78504 [7:09:50<53:12:18,  2.87s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.2346203774213791, 'learning_rate': 2.832915799753726e-05, 'epoch': 3.61}
 15%|█▌        | 11792/78504 [7:09:50<53:12:18,  2.87s/it] 15%|█▌        | 11793/78504 [7:09:53<50:22:41,  2.72s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.2435457557439804, 'learning_rate': 2.832873338711732e-05, 'epoch': 3.61}
 15%|█▌        | 11793/78504 [7:09:53<50:22:41,  2.72s/it] 15%|█▌        | 11794/78504 [7:09:55<47:49:25,  2.58s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.23458489775657654, 'learning_rate': 2.832830877669738e-05, 'epoch': 3.61}
 15%|█▌        | 11794/78504 [7:09:55<47:49:25,  2.58s/it] 15%|█▌        | 11795/78504 [7:09:57<46:25:50,  2.51s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.1946381777524948, 'learning_rate': 2.8327884166277443e-05, 'epoch': 3.61}
 15%|█▌        | 11795/78504 [7:09:57<46:25:50,  2.51s/it] 15%|█▌        | 11796/78504 [7:09:59<44:06:05,  2.38s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.29896920919418335, 'learning_rate': 2.83274595558575e-05, 'epoch': 3.61}
 15%|█▌        | 11796/78504 [7:09:59<44:06:05,  2.38s/it] 15%|█▌        | 11797/78504 [7:10:02<43:01:59,  2.32s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.48729196190834045, 'learning_rate': 2.8327034945437564e-05, 'epoch': 3.61}
 15%|█▌        | 11797/78504 [7:10:02<43:01:59,  2.32s/it] 15%|█▌        | 11798/78504 [7:10:04<42:02:17,  2.27s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.597442626953125, 'learning_rate': 2.8326610335017622e-05, 'epoch': 3.61}
 15%|█▌        | 11798/78504 [7:10:04<42:02:17,  2.27s/it] 15%|█▌        | 11799/78504 [7:10:06<40:41:02,  2.20s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.4484374523162842, 'learning_rate': 2.8326185724597684e-05, 'epoch': 3.61}
 15%|█▌        | 11799/78504 [7:10:06<40:41:02,  2.20s/it] 15%|█▌        | 11800/78504 [7:10:08<39:28:25,  2.13s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.5087063312530518, 'learning_rate': 2.8325761114177743e-05, 'epoch': 3.61}
 15%|█▌        | 11800/78504 [7:10:08<39:28:25,  2.13s/it] 15%|█▌        | 11801/78504 [7:10:10<37:59:39,  2.05s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.2482924461364746, 'learning_rate': 2.8325336503757805e-05, 'epoch': 3.61}
 15%|█▌        | 11801/78504 [7:10:10<37:59:39,  2.05s/it] 15%|█▌        | 11802/78504 [7:10:11<36:58:59,  2.00s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.40980562567710876, 'learning_rate': 2.8324911893337864e-05, 'epoch': 3.61}
 15%|█▌        | 11802/78504 [7:10:11<36:58:59,  2.00s/it] 15%|█▌        | 11803/78504 [7:10:13<35:41:07,  1.93s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.35672327876091003, 'learning_rate': 2.8324487282917926e-05, 'epoch': 3.61}
 15%|█▌        | 11803/78504 [7:10:13<35:41:07,  1.93s/it] 15%|█▌        | 11804/78504 [7:10:15<33:46:22,  1.82s/it]                                                          {'loss': 0.112, 'grad_norm': 0.44848132133483887, 'learning_rate': 2.8324062672497985e-05, 'epoch': 3.61}
 15%|█▌        | 11804/78504 [7:10:15<33:46:22,  1.82s/it] 15%|█▌        | 11805/78504 [7:10:16<31:58:55,  1.73s/it]                                                          {'loss': 0.1856, 'grad_norm': 0.7811030745506287, 'learning_rate': 2.8323638062078047e-05, 'epoch': 3.61}
 15%|█▌        | 11805/78504 [7:10:16<31:58:55,  1.73s/it] 15%|█▌        | 11806/78504 [7:10:18<30:47:29,  1.66s/it]                                                          {'loss': 0.1649, 'grad_norm': 0.5563563108444214, 'learning_rate': 2.8323213451658106e-05, 'epoch': 3.61}
 15%|█▌        | 11806/78504 [7:10:18<30:47:29,  1.66s/it] 15%|█▌        | 11807/78504 [7:10:19<29:25:03,  1.59s/it]                                                          {'loss': 0.1814, 'grad_norm': 0.5300674438476562, 'learning_rate': 2.8322788841238168e-05, 'epoch': 3.61}
 15%|█▌        | 11807/78504 [7:10:19<29:25:03,  1.59s/it] 15%|█▌        | 11808/78504 [7:10:20<27:45:07,  1.50s/it]                                                          {'loss': 0.1724, 'grad_norm': 0.793218195438385, 'learning_rate': 2.8322364230818226e-05, 'epoch': 3.61}
 15%|█▌        | 11808/78504 [7:10:20<27:45:07,  1.50s/it] 15%|█▌        | 11809/78504 [7:10:22<26:04:31,  1.41s/it]                                                          {'loss': 0.1821, 'grad_norm': 0.5493916273117065, 'learning_rate': 2.8321939620398285e-05, 'epoch': 3.61}
 15%|█▌        | 11809/78504 [7:10:22<26:04:31,  1.41s/it] 15%|█▌        | 11810/78504 [7:10:23<24:17:39,  1.31s/it]                                                          {'loss': 0.2253, 'grad_norm': 1.1759570837020874, 'learning_rate': 2.8321515009978347e-05, 'epoch': 3.61}
 15%|█▌        | 11810/78504 [7:10:23<24:17:39,  1.31s/it] 15%|█▌        | 11811/78504 [7:10:24<22:31:15,  1.22s/it]                                                          {'loss': 0.2097, 'grad_norm': 0.8095409274101257, 'learning_rate': 2.8321090399558406e-05, 'epoch': 3.61}
 15%|█▌        | 11811/78504 [7:10:24<22:31:15,  1.22s/it] 15%|█▌        | 11812/78504 [7:10:25<20:56:37,  1.13s/it]                                                          {'loss': 0.1956, 'grad_norm': 0.603877604007721, 'learning_rate': 2.8320665789138468e-05, 'epoch': 3.61}
 15%|█▌        | 11812/78504 [7:10:25<20:56:37,  1.13s/it] 15%|█▌        | 11813/78504 [7:10:25<18:59:02,  1.02s/it]                                                          {'loss': 0.2963, 'grad_norm': 1.1549371480941772, 'learning_rate': 2.8320241178718527e-05, 'epoch': 3.61}
 15%|█▌        | 11813/78504 [7:10:25<18:59:02,  1.02s/it] 15%|█▌        | 11814/78504 [7:10:32<49:41:32,  2.68s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.2915317714214325, 'learning_rate': 2.831981656829859e-05, 'epoch': 3.61}
 15%|█▌        | 11814/78504 [7:10:32<49:41:32,  2.68s/it] 15%|█▌        | 11815/78504 [7:10:35<53:08:39,  2.87s/it]                                                          {'loss': 0.0656, 'grad_norm': 0.18560990691184998, 'learning_rate': 2.8319391957878647e-05, 'epoch': 3.61}
 15%|█▌        | 11815/78504 [7:10:35<53:08:39,  2.87s/it] 15%|█▌        | 11816/78504 [7:10:38<53:55:24,  2.91s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.23090894520282745, 'learning_rate': 2.831896734745871e-05, 'epoch': 3.61}
 15%|█▌        | 11816/78504 [7:10:38<53:55:24,  2.91s/it] 15%|█▌        | 11817/78504 [7:10:41<52:17:30,  2.82s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.2937065362930298, 'learning_rate': 2.8318542737038768e-05, 'epoch': 3.61}
 15%|█▌        | 11817/78504 [7:10:41<52:17:30,  2.82s/it] 15%|█▌        | 11818/78504 [7:10:43<50:17:47,  2.72s/it]                                                          {'loss': 0.0579, 'grad_norm': 0.24488480389118195, 'learning_rate': 2.831811812661883e-05, 'epoch': 3.61}
 15%|█▌        | 11818/78504 [7:10:43<50:17:47,  2.72s/it] 15%|█▌        | 11819/78504 [7:10:46<47:46:56,  2.58s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.15870939195156097, 'learning_rate': 2.831769351619889e-05, 'epoch': 3.61}
 15%|█▌        | 11819/78504 [7:10:46<47:46:56,  2.58s/it] 15%|█▌        | 11820/78504 [7:10:48<46:18:46,  2.50s/it]                                                          {'loss': 0.0521, 'grad_norm': 0.30639928579330444, 'learning_rate': 2.8317268905778948e-05, 'epoch': 3.61}
 15%|█▌        | 11820/78504 [7:10:48<46:18:46,  2.50s/it] 15%|█▌        | 11821/78504 [7:10:50<44:08:15,  2.38s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.3682774007320404, 'learning_rate': 2.831684429535901e-05, 'epoch': 3.61}
 15%|█▌        | 11821/78504 [7:10:50<44:08:15,  2.38s/it] 15%|█▌        | 11822/78504 [7:10:52<43:01:44,  2.32s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.1878669112920761, 'learning_rate': 2.831641968493907e-05, 'epoch': 3.61}
 15%|█▌        | 11822/78504 [7:10:52<43:01:44,  2.32s/it] 15%|█▌        | 11823/78504 [7:10:54<42:06:30,  2.27s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.3402140140533447, 'learning_rate': 2.831599507451913e-05, 'epoch': 3.61}
 15%|█▌        | 11823/78504 [7:10:54<42:06:30,  2.27s/it] 15%|█▌        | 11824/78504 [7:10:56<39:47:54,  2.15s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.3549704849720001, 'learning_rate': 2.831557046409919e-05, 'epoch': 3.61}
 15%|█▌        | 11824/78504 [7:10:56<39:47:54,  2.15s/it] 15%|█▌        | 11825/78504 [7:10:58<38:52:27,  2.10s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.3391115665435791, 'learning_rate': 2.831514585367925e-05, 'epoch': 3.62}
 15%|█▌        | 11825/78504 [7:10:58<38:52:27,  2.10s/it] 15%|█▌        | 11826/78504 [7:11:00<37:35:46,  2.03s/it]                                                          {'loss': 0.079, 'grad_norm': 0.2593439817428589, 'learning_rate': 2.831472124325931e-05, 'epoch': 3.62}
 15%|█▌        | 11826/78504 [7:11:00<37:35:46,  2.03s/it] 15%|█▌        | 11827/78504 [7:11:02<36:41:38,  1.98s/it]                                                          {'loss': 0.1324, 'grad_norm': 0.460860937833786, 'learning_rate': 2.8314296632839372e-05, 'epoch': 3.62}
 15%|█▌        | 11827/78504 [7:11:02<36:41:38,  1.98s/it] 15%|█▌        | 11828/78504 [7:11:04<35:29:28,  1.92s/it]                                                          {'loss': 0.115, 'grad_norm': 0.3076055645942688, 'learning_rate': 2.831387202241943e-05, 'epoch': 3.62}
 15%|█▌        | 11828/78504 [7:11:04<35:29:28,  1.92s/it] 15%|█▌        | 11829/78504 [7:11:05<33:36:18,  1.81s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.34216636419296265, 'learning_rate': 2.8313447411999493e-05, 'epoch': 3.62}
 15%|█▌        | 11829/78504 [7:11:05<33:36:18,  1.81s/it] 15%|█▌        | 11830/78504 [7:11:07<32:04:24,  1.73s/it]                                                          {'loss': 0.1447, 'grad_norm': 0.5176770091056824, 'learning_rate': 2.831302280157955e-05, 'epoch': 3.62}
 15%|█▌        | 11830/78504 [7:11:07<32:04:24,  1.73s/it] 15%|█▌        | 11831/78504 [7:11:08<30:22:44,  1.64s/it]                                                          {'loss': 0.1845, 'grad_norm': 0.8467203974723816, 'learning_rate': 2.8312598191159614e-05, 'epoch': 3.62}
 15%|█▌        | 11831/78504 [7:11:08<30:22:44,  1.64s/it] 15%|█▌        | 11832/78504 [7:11:10<29:08:06,  1.57s/it]                                                          {'loss': 0.1836, 'grad_norm': 0.6569538712501526, 'learning_rate': 2.8312173580739672e-05, 'epoch': 3.62}
 15%|█▌        | 11832/78504 [7:11:10<29:08:06,  1.57s/it] 15%|█▌        | 11833/78504 [7:11:11<27:29:17,  1.48s/it]                                                          {'loss': 0.1982, 'grad_norm': 0.7074881792068481, 'learning_rate': 2.831174897031973e-05, 'epoch': 3.62}
 15%|█▌        | 11833/78504 [7:11:11<27:29:17,  1.48s/it] 15%|█▌        | 11834/78504 [7:11:12<25:36:30,  1.38s/it]                                                          {'loss': 0.165, 'grad_norm': 0.9201061725616455, 'learning_rate': 2.8311324359899793e-05, 'epoch': 3.62}
 15%|█▌        | 11834/78504 [7:11:12<25:36:30,  1.38s/it] 15%|█▌        | 11835/78504 [7:11:13<24:05:19,  1.30s/it]                                                          {'loss': 0.178, 'grad_norm': 0.9862549901008606, 'learning_rate': 2.8310899749479852e-05, 'epoch': 3.62}
 15%|█▌        | 11835/78504 [7:11:13<24:05:19,  1.30s/it] 15%|█▌        | 11836/78504 [7:11:14<22:21:19,  1.21s/it]                                                          {'loss': 0.2063, 'grad_norm': 1.086486577987671, 'learning_rate': 2.8310475139059914e-05, 'epoch': 3.62}
 15%|█▌        | 11836/78504 [7:11:14<22:21:19,  1.21s/it] 15%|█▌        | 11837/78504 [7:11:15<20:51:13,  1.13s/it]                                                          {'loss': 0.1866, 'grad_norm': 0.8128204345703125, 'learning_rate': 2.8310050528639973e-05, 'epoch': 3.62}
 15%|█▌        | 11837/78504 [7:11:15<20:51:13,  1.13s/it] 15%|█▌        | 11838/78504 [7:11:16<18:54:13,  1.02s/it]                                                          {'loss': 0.2788, 'grad_norm': 1.418892741203308, 'learning_rate': 2.8309625918220035e-05, 'epoch': 3.62}
 15%|█▌        | 11838/78504 [7:11:16<18:54:13,  1.02s/it] 15%|█▌        | 11839/78504 [7:11:25<63:58:52,  3.46s/it]                                                          {'loss': 0.1303, 'grad_norm': 0.40972211956977844, 'learning_rate': 2.8309201307800093e-05, 'epoch': 3.62}
 15%|█▌        | 11839/78504 [7:11:25<63:58:52,  3.46s/it] 15%|█▌        | 11840/78504 [7:11:28<62:10:55,  3.36s/it]                                                          {'loss': 0.0678, 'grad_norm': 1.2899149656295776, 'learning_rate': 2.8308776697380156e-05, 'epoch': 3.62}
 15%|█▌        | 11840/78504 [7:11:28<62:10:55,  3.36s/it] 15%|█▌        | 11841/78504 [7:11:31<57:49:25,  3.12s/it]                                                          {'loss': 0.0791, 'grad_norm': 1.1042253971099854, 'learning_rate': 2.8308352086960214e-05, 'epoch': 3.62}
 15%|█▌        | 11841/78504 [7:11:31<57:49:25,  3.12s/it] 15%|█▌        | 11842/78504 [7:11:33<53:54:26,  2.91s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.2848855257034302, 'learning_rate': 2.8307927476540276e-05, 'epoch': 3.62}
 15%|█▌        | 11842/78504 [7:11:33<53:54:26,  2.91s/it] 15%|█▌        | 11843/78504 [7:11:36<51:29:37,  2.78s/it]                                                          {'loss': 0.0517, 'grad_norm': 0.840053379535675, 'learning_rate': 2.8307502866120335e-05, 'epoch': 3.62}
 15%|█▌        | 11843/78504 [7:11:36<51:29:37,  2.78s/it] 15%|█▌        | 11844/78504 [7:11:38<49:31:14,  2.67s/it]                                                          {'loss': 0.0441, 'grad_norm': 0.2192358821630478, 'learning_rate': 2.8307078255700397e-05, 'epoch': 3.62}
 15%|█▌        | 11844/78504 [7:11:38<49:31:14,  2.67s/it] 15%|█▌        | 11845/78504 [7:11:40<47:33:42,  2.57s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.356291264295578, 'learning_rate': 2.8306653645280456e-05, 'epoch': 3.62}
 15%|█▌        | 11845/78504 [7:11:40<47:33:42,  2.57s/it] 15%|█▌        | 11846/78504 [7:11:43<46:06:57,  2.49s/it]                                                          {'loss': 0.071, 'grad_norm': 0.4403637647628784, 'learning_rate': 2.8306229034860515e-05, 'epoch': 3.62}
 15%|█▌        | 11846/78504 [7:11:43<46:06:57,  2.49s/it] 15%|█▌        | 11847/78504 [7:11:45<44:22:48,  2.40s/it]                                                          {'loss': 0.0519, 'grad_norm': 0.3787027895450592, 'learning_rate': 2.8305804424440577e-05, 'epoch': 3.62}
 15%|█▌        | 11847/78504 [7:11:45<44:22:48,  2.40s/it] 15%|█▌        | 11848/78504 [7:11:47<42:59:13,  2.32s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.3120979070663452, 'learning_rate': 2.8305379814020635e-05, 'epoch': 3.62}
 15%|█▌        | 11848/78504 [7:11:47<42:59:13,  2.32s/it] 15%|█▌        | 11849/78504 [7:11:49<40:25:17,  2.18s/it]                                                          {'loss': 0.1353, 'grad_norm': 0.35446107387542725, 'learning_rate': 2.8304955203600697e-05, 'epoch': 3.62}
 15%|█▌        | 11849/78504 [7:11:49<40:25:17,  2.18s/it] 15%|█▌        | 11850/78504 [7:11:51<39:18:50,  2.12s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.3796779215335846, 'learning_rate': 2.8304530593180756e-05, 'epoch': 3.62}
 15%|█▌        | 11850/78504 [7:11:51<39:18:50,  2.12s/it] 15%|█▌        | 11851/78504 [7:11:53<37:59:46,  2.05s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.2249758392572403, 'learning_rate': 2.8304105982760818e-05, 'epoch': 3.62}
 15%|█▌        | 11851/78504 [7:11:53<37:59:46,  2.05s/it] 15%|█▌        | 11852/78504 [7:11:55<36:58:07,  2.00s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.28351303935050964, 'learning_rate': 2.8303681372340877e-05, 'epoch': 3.62}
 15%|█▌        | 11852/78504 [7:11:55<36:58:07,  2.00s/it] 15%|█▌        | 11853/78504 [7:11:56<35:41:18,  1.93s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.5886611342430115, 'learning_rate': 2.830325676192094e-05, 'epoch': 3.62}
 15%|█▌        | 11853/78504 [7:11:56<35:41:18,  1.93s/it] 15%|█▌        | 11854/78504 [7:11:58<34:10:58,  1.85s/it]                                                          {'loss': 0.1764, 'grad_norm': 0.7195833325386047, 'learning_rate': 2.8302832151500998e-05, 'epoch': 3.62}
 15%|█▌        | 11854/78504 [7:11:58<34:10:58,  1.85s/it] 15%|█▌        | 11855/78504 [7:12:00<32:27:59,  1.75s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.564130425453186, 'learning_rate': 2.830240754108106e-05, 'epoch': 3.62}
 15%|█▌        | 11855/78504 [7:12:00<32:27:59,  1.75s/it] 15%|█▌        | 11856/78504 [7:12:01<30:51:11,  1.67s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.5940136313438416, 'learning_rate': 2.830198293066112e-05, 'epoch': 3.62}
 15%|█▌        | 11856/78504 [7:12:01<30:51:11,  1.67s/it] 15%|█▌        | 11857/78504 [7:12:03<29:28:27,  1.59s/it]                                                          {'loss': 0.1474, 'grad_norm': 0.39409518241882324, 'learning_rate': 2.830155832024118e-05, 'epoch': 3.62}
 15%|█▌        | 11857/78504 [7:12:03<29:28:27,  1.59s/it] 15%|█▌        | 11858/78504 [7:12:04<27:48:02,  1.50s/it]                                                          {'loss': 0.1878, 'grad_norm': 0.6379450559616089, 'learning_rate': 2.830113370982124e-05, 'epoch': 3.63}
 15%|█▌        | 11858/78504 [7:12:04<27:48:02,  1.50s/it] 15%|█▌        | 11859/78504 [7:12:05<25:52:47,  1.40s/it]                                                          {'loss': 0.2046, 'grad_norm': 0.6521804332733154, 'learning_rate': 2.8300709099401298e-05, 'epoch': 3.63}
 15%|█▌        | 11859/78504 [7:12:05<25:52:47,  1.40s/it] 15%|█▌        | 11860/78504 [7:12:06<24:06:15,  1.30s/it]                                                          {'loss': 0.1812, 'grad_norm': 0.5331445336341858, 'learning_rate': 2.830028448898136e-05, 'epoch': 3.63}
 15%|█▌        | 11860/78504 [7:12:06<24:06:15,  1.30s/it] 15%|█▌        | 11861/78504 [7:12:07<22:23:44,  1.21s/it]                                                          {'loss': 0.2612, 'grad_norm': 1.2426602840423584, 'learning_rate': 2.829985987856142e-05, 'epoch': 3.63}
 15%|█▌        | 11861/78504 [7:12:07<22:23:44,  1.21s/it] 15%|█▌        | 11862/78504 [7:12:08<20:53:58,  1.13s/it]                                                          {'loss': 0.2464, 'grad_norm': 0.8613545298576355, 'learning_rate': 2.829943526814148e-05, 'epoch': 3.63}
 15%|█▌        | 11862/78504 [7:12:08<20:53:58,  1.13s/it] 15%|█▌        | 11863/78504 [7:12:09<18:58:27,  1.03s/it]                                                          {'loss': 0.2913, 'grad_norm': 1.9958122968673706, 'learning_rate': 2.829901065772154e-05, 'epoch': 3.63}
 15%|█▌        | 11863/78504 [7:12:09<18:58:27,  1.03s/it] 15%|█▌        | 11864/78504 [7:12:19<67:33:22,  3.65s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.3943147659301758, 'learning_rate': 2.82985860473016e-05, 'epoch': 3.63}
 15%|█▌        | 11864/78504 [7:12:19<67:33:22,  3.65s/it] 15%|█▌        | 11865/78504 [7:12:22<64:40:46,  3.49s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.20072075724601746, 'learning_rate': 2.829816143688166e-05, 'epoch': 3.63}
 15%|█▌        | 11865/78504 [7:12:22<64:40:46,  3.49s/it] 15%|█▌        | 11866/78504 [7:12:25<62:01:33,  3.35s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.31539222598075867, 'learning_rate': 2.8297736826461722e-05, 'epoch': 3.63}
 15%|█▌        | 11866/78504 [7:12:25<62:01:33,  3.35s/it] 15%|█▌        | 11867/78504 [7:12:27<57:47:48,  3.12s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.25249236822128296, 'learning_rate': 2.829731221604178e-05, 'epoch': 3.63}
 15%|█▌        | 11867/78504 [7:12:27<57:47:48,  3.12s/it] 15%|█▌        | 11868/78504 [7:12:30<54:15:31,  2.93s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.1778499335050583, 'learning_rate': 2.8296887605621843e-05, 'epoch': 3.63}
 15%|█▌        | 11868/78504 [7:12:30<54:15:31,  2.93s/it] 15%|█▌        | 11869/78504 [7:12:32<51:03:32,  2.76s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.19797830283641815, 'learning_rate': 2.8296462995201902e-05, 'epoch': 3.63}
 15%|█▌        | 11869/78504 [7:12:32<51:03:32,  2.76s/it] 15%|█▌        | 11870/78504 [7:12:34<48:39:29,  2.63s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.9754933714866638, 'learning_rate': 2.8296038384781964e-05, 'epoch': 3.63}
 15%|█▌        | 11870/78504 [7:12:34<48:39:29,  2.63s/it] 15%|█▌        | 11871/78504 [7:12:37<45:41:06,  2.47s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.2639389634132385, 'learning_rate': 2.8295613774362023e-05, 'epoch': 3.63}
 15%|█▌        | 11871/78504 [7:12:37<45:41:06,  2.47s/it] 15%|█▌        | 11872/78504 [7:12:39<44:08:44,  2.39s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.2764546871185303, 'learning_rate': 2.829518916394208e-05, 'epoch': 3.63}
 15%|█▌        | 11872/78504 [7:12:39<44:08:44,  2.39s/it] 15%|█▌        | 11873/78504 [7:12:41<41:37:04,  2.25s/it]                                                          {'loss': 0.0656, 'grad_norm': 0.4844982922077179, 'learning_rate': 2.8294764553522143e-05, 'epoch': 3.63}
 15%|█▌        | 11873/78504 [7:12:41<41:37:04,  2.25s/it] 15%|█▌        | 11874/78504 [7:12:43<40:13:09,  2.17s/it]                                                          {'loss': 0.0972, 'grad_norm': 0.41692227125167847, 'learning_rate': 2.8294339943102202e-05, 'epoch': 3.63}
 15%|█▌        | 11874/78504 [7:12:43<40:13:09,  2.17s/it] 15%|█▌        | 11875/78504 [7:12:45<38:49:29,  2.10s/it]                                                          {'loss': 0.097, 'grad_norm': 0.3153003454208374, 'learning_rate': 2.8293915332682264e-05, 'epoch': 3.63}
 15%|█▌        | 11875/78504 [7:12:45<38:49:29,  2.10s/it] 15%|█▌        | 11876/78504 [7:12:46<37:35:30,  2.03s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.31045061349868774, 'learning_rate': 2.8293490722262323e-05, 'epoch': 3.63}
 15%|█▌        | 11876/78504 [7:12:46<37:35:30,  2.03s/it] 15%|█▌        | 11877/78504 [7:12:48<35:48:30,  1.93s/it]                                                          {'loss': 0.1016, 'grad_norm': 0.4595772922039032, 'learning_rate': 2.8293066111842385e-05, 'epoch': 3.63}
 15%|█▌        | 11877/78504 [7:12:48<35:48:30,  1.93s/it] 15%|█▌        | 11878/78504 [7:12:50<34:55:13,  1.89s/it]                                                          {'loss': 0.1364, 'grad_norm': 0.36308732628822327, 'learning_rate': 2.8292641501422444e-05, 'epoch': 3.63}
 15%|█▌        | 11878/78504 [7:12:50<34:55:13,  1.89s/it] 15%|█▌        | 11879/78504 [7:12:52<33:32:30,  1.81s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.7252886891365051, 'learning_rate': 2.8292216891002506e-05, 'epoch': 3.63}
 15%|█▌        | 11879/78504 [7:12:52<33:32:30,  1.81s/it] 15%|█▌        | 11880/78504 [7:12:53<31:54:56,  1.72s/it]                                                          {'loss': 0.1615, 'grad_norm': 0.49741190671920776, 'learning_rate': 2.8291792280582565e-05, 'epoch': 3.63}
 15%|█▌        | 11880/78504 [7:12:53<31:54:56,  1.72s/it] 15%|█▌        | 11881/78504 [7:12:55<30:32:17,  1.65s/it]                                                          {'loss': 0.1489, 'grad_norm': 0.4849351942539215, 'learning_rate': 2.8291367670162627e-05, 'epoch': 3.63}
 15%|█▌        | 11881/78504 [7:12:55<30:32:17,  1.65s/it] 15%|█▌        | 11882/78504 [7:12:56<29:14:15,  1.58s/it]                                                          {'loss': 0.1738, 'grad_norm': 0.5441967248916626, 'learning_rate': 2.8290943059742685e-05, 'epoch': 3.63}
 15%|█▌        | 11882/78504 [7:12:56<29:14:15,  1.58s/it] 15%|█▌        | 11883/78504 [7:12:57<27:16:30,  1.47s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.8647991418838501, 'learning_rate': 2.8290518449322747e-05, 'epoch': 3.63}
 15%|█▌        | 11883/78504 [7:12:57<27:16:30,  1.47s/it] 15%|█▌        | 11884/78504 [7:12:58<25:22:59,  1.37s/it]                                                          {'loss': 0.1925, 'grad_norm': 0.5764318108558655, 'learning_rate': 2.8290093838902806e-05, 'epoch': 3.63}
 15%|█▌        | 11884/78504 [7:12:58<25:22:59,  1.37s/it] 15%|█▌        | 11885/78504 [7:12:59<23:51:10,  1.29s/it]                                                          {'loss': 0.1858, 'grad_norm': 0.6718711853027344, 'learning_rate': 2.8289669228482865e-05, 'epoch': 3.63}
 15%|█▌        | 11885/78504 [7:12:59<23:51:10,  1.29s/it] 15%|█▌        | 11886/78504 [7:13:00<22:16:00,  1.20s/it]                                                          {'loss': 0.2024, 'grad_norm': 0.7766542434692383, 'learning_rate': 2.8289244618062927e-05, 'epoch': 3.63}
 15%|█▌        | 11886/78504 [7:13:00<22:16:00,  1.20s/it] 15%|█▌        | 11887/78504 [7:13:01<20:42:54,  1.12s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.7827467322349548, 'learning_rate': 2.8288820007642986e-05, 'epoch': 3.63}
 15%|█▌        | 11887/78504 [7:13:01<20:42:54,  1.12s/it] 15%|█▌        | 11888/78504 [7:13:02<18:50:31,  1.02s/it]                                                          {'loss': 0.2725, 'grad_norm': 1.0433706045150757, 'learning_rate': 2.8288395397223048e-05, 'epoch': 3.63}
 15%|█▌        | 11888/78504 [7:13:02<18:50:31,  1.02s/it] 15%|█▌        | 11889/78504 [7:13:09<52:00:00,  2.81s/it]                                                          {'loss': 0.1593, 'grad_norm': 0.5693661570549011, 'learning_rate': 2.8287970786803106e-05, 'epoch': 3.63}
 15%|█▌        | 11889/78504 [7:13:09<52:00:00,  2.81s/it] 15%|█▌        | 11890/78504 [7:13:12<53:48:57,  2.91s/it]                                                          {'loss': 0.1113, 'grad_norm': 0.3470436632633209, 'learning_rate': 2.828754617638317e-05, 'epoch': 3.63}
 15%|█▌        | 11890/78504 [7:13:12<53:48:57,  2.91s/it] 15%|█▌        | 11891/78504 [7:13:15<54:25:35,  2.94s/it]                                                          {'loss': 0.0679, 'grad_norm': 0.3419566750526428, 'learning_rate': 2.8287121565963227e-05, 'epoch': 3.64}
 15%|█▌        | 11891/78504 [7:13:15<54:25:35,  2.94s/it] 15%|█▌        | 11892/78504 [7:13:18<51:30:05,  2.78s/it]                                                          {'loss': 0.0494, 'grad_norm': 0.4354007840156555, 'learning_rate': 2.828669695554329e-05, 'epoch': 3.64}
 15%|█▌        | 11892/78504 [7:13:18<51:30:05,  2.78s/it] 15%|█▌        | 11893/78504 [7:13:20<49:47:05,  2.69s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.2459566444158554, 'learning_rate': 2.8286272345123348e-05, 'epoch': 3.64}
 15%|█▌        | 11893/78504 [7:13:20<49:47:05,  2.69s/it] 15%|█▌        | 11894/78504 [7:13:22<47:25:34,  2.56s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.2599288523197174, 'learning_rate': 2.828584773470341e-05, 'epoch': 3.64}
 15%|█▌        | 11894/78504 [7:13:22<47:25:34,  2.56s/it] 15%|█▌        | 11895/78504 [7:13:25<46:02:14,  2.49s/it]                                                          {'loss': 0.0515, 'grad_norm': 0.2675650417804718, 'learning_rate': 2.828542312428347e-05, 'epoch': 3.64}
 15%|█▌        | 11895/78504 [7:13:25<46:02:14,  2.49s/it] 15%|█▌        | 11896/78504 [7:13:27<45:03:00,  2.43s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.8202938437461853, 'learning_rate': 2.828499851386353e-05, 'epoch': 3.64}
 15%|█▌        | 11896/78504 [7:13:27<45:03:00,  2.43s/it] 15%|█▌        | 11897/78504 [7:13:29<43:37:34,  2.36s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.3784049451351166, 'learning_rate': 2.8284573903443593e-05, 'epoch': 3.64}
 15%|█▌        | 11897/78504 [7:13:29<43:37:34,  2.36s/it] 15%|█▌        | 11898/78504 [7:13:31<42:34:40,  2.30s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.295743465423584, 'learning_rate': 2.828414929302365e-05, 'epoch': 3.64}
 15%|█▌        | 11898/78504 [7:13:31<42:34:40,  2.30s/it] 15%|█▌        | 11899/78504 [7:13:33<40:12:23,  2.17s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.27304309606552124, 'learning_rate': 2.8283724682603714e-05, 'epoch': 3.64}
 15%|█▌        | 11899/78504 [7:13:33<40:12:23,  2.17s/it] 15%|█▌        | 11900/78504 [7:13:35<39:07:41,  2.11s/it]                                                          {'loss': 0.1073, 'grad_norm': 0.523847222328186, 'learning_rate': 2.8283300072183772e-05, 'epoch': 3.64}
 15%|█▌        | 11900/78504 [7:13:35<39:07:41,  2.11s/it] 15%|█▌        | 11901/78504 [7:13:37<38:07:15,  2.06s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.26696890592575073, 'learning_rate': 2.8282875461763835e-05, 'epoch': 3.64}
 15%|█▌        | 11901/78504 [7:13:37<38:07:15,  2.06s/it] 15%|█▌        | 11902/78504 [7:13:39<37:03:24,  2.00s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.26565709710121155, 'learning_rate': 2.8282450851343893e-05, 'epoch': 3.64}
 15%|█▌        | 11902/78504 [7:13:39<37:03:24,  2.00s/it] 15%|█▌        | 11903/78504 [7:13:41<35:42:46,  1.93s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.40301448106765747, 'learning_rate': 2.8282026240923955e-05, 'epoch': 3.64}
 15%|█▌        | 11903/78504 [7:13:41<35:42:46,  1.93s/it] 15%|█▌        | 11904/78504 [7:13:42<34:11:53,  1.85s/it]                                                          {'loss': 0.1524, 'grad_norm': 0.5433918237686157, 'learning_rate': 2.8281601630504014e-05, 'epoch': 3.64}
 15%|█▌        | 11904/78504 [7:13:43<34:11:53,  1.85s/it] 15%|█▌        | 11905/78504 [7:13:44<32:32:22,  1.76s/it]                                                          {'loss': 0.1444, 'grad_norm': 0.7293044924736023, 'learning_rate': 2.8281177020084076e-05, 'epoch': 3.64}
 15%|█▌        | 11905/78504 [7:13:44<32:32:22,  1.76s/it] 15%|█▌        | 11906/78504 [7:13:45<30:53:11,  1.67s/it]                                                          {'loss': 0.1744, 'grad_norm': 0.6483283042907715, 'learning_rate': 2.8280752409664135e-05, 'epoch': 3.64}
 15%|█▌        | 11906/78504 [7:13:46<30:53:11,  1.67s/it] 15%|█▌        | 11907/78504 [7:13:47<29:16:04,  1.58s/it]                                                          {'loss': 0.1846, 'grad_norm': 0.7163029909133911, 'learning_rate': 2.8280327799244197e-05, 'epoch': 3.64}
 15%|█▌        | 11907/78504 [7:13:47<29:16:04,  1.58s/it] 15%|█▌        | 11908/78504 [7:13:48<27:35:33,  1.49s/it]                                                          {'loss': 0.1716, 'grad_norm': 1.1382486820220947, 'learning_rate': 2.8279903188824256e-05, 'epoch': 3.64}
 15%|█▌        | 11908/78504 [7:13:48<27:35:33,  1.49s/it] 15%|█▌        | 11909/78504 [7:13:49<25:44:44,  1.39s/it]                                                          {'loss': 0.1574, 'grad_norm': 1.0966808795928955, 'learning_rate': 2.8279478578404318e-05, 'epoch': 3.64}
 15%|█▌        | 11909/78504 [7:13:49<25:44:44,  1.39s/it] 15%|█▌        | 11910/78504 [7:13:50<24:03:36,  1.30s/it]                                                          {'loss': 0.1959, 'grad_norm': 0.555380642414093, 'learning_rate': 2.8279053967984376e-05, 'epoch': 3.64}
 15%|█▌        | 11910/78504 [7:13:50<24:03:36,  1.30s/it] 15%|█▌        | 11911/78504 [7:13:51<22:36:28,  1.22s/it]                                                          {'loss': 0.2063, 'grad_norm': 0.7282954454421997, 'learning_rate': 2.8278629357564435e-05, 'epoch': 3.64}
 15%|█▌        | 11911/78504 [7:13:51<22:36:28,  1.22s/it] 15%|█▌        | 11912/78504 [7:13:52<20:57:29,  1.13s/it]                                                          {'loss': 0.1896, 'grad_norm': 0.8728958368301392, 'learning_rate': 2.8278204747144497e-05, 'epoch': 3.64}
 15%|█▌        | 11912/78504 [7:13:52<20:57:29,  1.13s/it] 15%|█▌        | 11913/78504 [7:13:53<19:01:00,  1.03s/it]                                                          {'loss': 0.2187, 'grad_norm': 0.7409018874168396, 'learning_rate': 2.8277780136724556e-05, 'epoch': 3.64}
 15%|█▌        | 11913/78504 [7:13:53<19:01:00,  1.03s/it] 15%|█▌        | 11914/78504 [7:14:01<58:29:20,  3.16s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.42394164204597473, 'learning_rate': 2.8277355526304618e-05, 'epoch': 3.64}
 15%|█▌        | 11914/78504 [7:14:01<58:29:20,  3.16s/it] 15%|█▌        | 11915/78504 [7:14:05<59:35:30,  3.22s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.3460516929626465, 'learning_rate': 2.8276930915884677e-05, 'epoch': 3.64}
 15%|█▌        | 11915/78504 [7:14:05<59:35:30,  3.22s/it] 15%|█▌        | 11916/78504 [7:14:07<55:56:32,  3.02s/it]                                                          {'loss': 0.0801, 'grad_norm': 0.3719013035297394, 'learning_rate': 2.827650630546474e-05, 'epoch': 3.64}
 15%|█▌        | 11916/78504 [7:14:07<55:56:32,  3.02s/it] 15%|█▌        | 11917/78504 [7:14:10<53:41:20,  2.90s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.27545908093452454, 'learning_rate': 2.8276081695044797e-05, 'epoch': 3.64}
 15%|█▌        | 11917/78504 [7:14:10<53:41:20,  2.90s/it] 15%|█▌        | 11918/78504 [7:14:12<51:15:46,  2.77s/it]                                                          {'loss': 0.0494, 'grad_norm': 0.19549356400966644, 'learning_rate': 2.827565708462486e-05, 'epoch': 3.64}
 15%|█▌        | 11918/78504 [7:14:12<51:15:46,  2.77s/it] 15%|█▌        | 11919/78504 [7:14:15<48:58:43,  2.65s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.2865433990955353, 'learning_rate': 2.8275232474204918e-05, 'epoch': 3.64}
 15%|█▌        | 11919/78504 [7:14:15<48:58:43,  2.65s/it] 15%|█▌        | 11920/78504 [7:14:17<47:14:37,  2.55s/it]                                                          {'loss': 0.08, 'grad_norm': 0.9130196571350098, 'learning_rate': 2.827480786378498e-05, 'epoch': 3.64}
 15%|█▌        | 11920/78504 [7:14:17<47:14:37,  2.55s/it] 15%|█▌        | 11921/78504 [7:14:19<44:38:25,  2.41s/it]                                                          {'loss': 0.041, 'grad_norm': 0.21596695482730865, 'learning_rate': 2.827438325336504e-05, 'epoch': 3.64}
 15%|█▌        | 11921/78504 [7:14:19<44:38:25,  2.41s/it] 15%|█▌        | 11922/78504 [7:14:21<43:26:12,  2.35s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.28996333479881287, 'learning_rate': 2.82739586429451e-05, 'epoch': 3.64}
 15%|█▌        | 11922/78504 [7:14:21<43:26:12,  2.35s/it] 15%|█▌        | 11923/78504 [7:14:23<42:14:53,  2.28s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.3829897940158844, 'learning_rate': 2.827353403252516e-05, 'epoch': 3.65}
 15%|█▌        | 11923/78504 [7:14:23<42:14:53,  2.28s/it] 15%|█▌        | 11924/78504 [7:14:25<40:38:43,  2.20s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.291230171918869, 'learning_rate': 2.827310942210522e-05, 'epoch': 3.65}
 15%|█▌        | 11924/78504 [7:14:25<40:38:43,  2.20s/it] 15%|█▌        | 11925/78504 [7:14:27<39:11:15,  2.12s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.4493353068828583, 'learning_rate': 2.827268481168528e-05, 'epoch': 3.65}
 15%|█▌        | 11925/78504 [7:14:27<39:11:15,  2.12s/it] 15%|█▌        | 11926/78504 [7:14:29<37:46:56,  2.04s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.4543725550174713, 'learning_rate': 2.827226020126534e-05, 'epoch': 3.65}
 15%|█▌        | 11926/78504 [7:14:29<37:46:56,  2.04s/it] 15%|█▌        | 11927/78504 [7:14:31<36:01:39,  1.95s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.40504026412963867, 'learning_rate': 2.82718355908454e-05, 'epoch': 3.65}
 15%|█▌        | 11927/78504 [7:14:31<36:01:39,  1.95s/it] 15%|█▌        | 11928/78504 [7:14:33<35:01:02,  1.89s/it]                                                          {'loss': 0.1528, 'grad_norm': 1.3106497526168823, 'learning_rate': 2.827141098042546e-05, 'epoch': 3.65}
 15%|█▌        | 11928/78504 [7:14:33<35:01:02,  1.89s/it] 15%|█▌        | 11929/78504 [7:14:34<33:34:45,  1.82s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.8654216527938843, 'learning_rate': 2.8270986370005522e-05, 'epoch': 3.65}
 15%|█▌        | 11929/78504 [7:14:34<33:34:45,  1.82s/it] 15%|█▌        | 11930/78504 [7:14:36<31:54:49,  1.73s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.6887930035591125, 'learning_rate': 2.827056175958558e-05, 'epoch': 3.65}
 15%|█▌        | 11930/78504 [7:14:36<31:54:49,  1.73s/it] 15%|█▌        | 11931/78504 [7:14:37<30:19:41,  1.64s/it]                                                          {'loss': 0.1795, 'grad_norm': 0.7851628065109253, 'learning_rate': 2.8270137149165643e-05, 'epoch': 3.65}
 15%|█▌        | 11931/78504 [7:14:37<30:19:41,  1.64s/it] 15%|█▌        | 11932/78504 [7:14:39<29:05:14,  1.57s/it]                                                          {'loss': 0.1736, 'grad_norm': 1.4753180742263794, 'learning_rate': 2.82697125387457e-05, 'epoch': 3.65}
 15%|█▌        | 11932/78504 [7:14:39<29:05:14,  1.57s/it] 15%|█▌        | 11933/78504 [7:14:40<27:27:27,  1.48s/it]                                                          {'loss': 0.1685, 'grad_norm': 1.0199941396713257, 'learning_rate': 2.8269287928325764e-05, 'epoch': 3.65}
 15%|█▌        | 11933/78504 [7:14:40<27:27:27,  1.48s/it] 15%|█▌        | 11934/78504 [7:14:41<25:25:57,  1.38s/it]                                                          {'loss': 0.1939, 'grad_norm': 0.9823446273803711, 'learning_rate': 2.8268863317905822e-05, 'epoch': 3.65}
 15%|█▌        | 11934/78504 [7:14:41<25:25:57,  1.38s/it] 15%|█▌        | 11935/78504 [7:14:42<23:54:17,  1.29s/it]                                                          {'loss': 0.1871, 'grad_norm': 0.8424067497253418, 'learning_rate': 2.826843870748588e-05, 'epoch': 3.65}
 15%|█▌        | 11935/78504 [7:14:42<23:54:17,  1.29s/it] 15%|█▌        | 11936/78504 [7:14:43<22:15:14,  1.20s/it]                                                          {'loss': 0.1821, 'grad_norm': 3.5172178745269775, 'learning_rate': 2.8268014097065943e-05, 'epoch': 3.65}
 15%|█▌        | 11936/78504 [7:14:43<22:15:14,  1.20s/it] 15%|█▌        | 11937/78504 [7:14:44<20:45:55,  1.12s/it]                                                          {'loss': 0.2247, 'grad_norm': 1.0149189233779907, 'learning_rate': 2.8267589486646002e-05, 'epoch': 3.65}
 15%|█▌        | 11937/78504 [7:14:44<20:45:55,  1.12s/it] 15%|█▌        | 11938/78504 [7:14:45<18:53:25,  1.02s/it]                                                          {'loss': 0.266, 'grad_norm': 1.1313700675964355, 'learning_rate': 2.8267164876226064e-05, 'epoch': 3.65}
 15%|█▌        | 11938/78504 [7:14:45<18:53:25,  1.02s/it] 15%|█▌        | 11939/78504 [7:14:53<60:35:19,  3.28s/it]                                                          {'loss': 0.1492, 'grad_norm': 0.8226147890090942, 'learning_rate': 2.8266740265806123e-05, 'epoch': 3.65}
 15%|█▌        | 11939/78504 [7:14:53<60:35:19,  3.28s/it] 15%|█▌        | 11940/78504 [7:14:57<59:48:11,  3.23s/it]                                                          {'loss': 0.0979, 'grad_norm': 0.2629293203353882, 'learning_rate': 2.8266315655386185e-05, 'epoch': 3.65}
 15%|█▌        | 11940/78504 [7:14:57<59:48:11,  3.23s/it] 15%|█▌        | 11941/78504 [7:14:59<56:07:54,  3.04s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.29179292917251587, 'learning_rate': 2.8265891044966244e-05, 'epoch': 3.65}
 15%|█▌        | 11941/78504 [7:14:59<56:07:54,  3.04s/it] 15%|█▌        | 11942/78504 [7:15:02<53:47:14,  2.91s/it]                                                          {'loss': 0.066, 'grad_norm': 0.546625018119812, 'learning_rate': 2.8265466434546306e-05, 'epoch': 3.65}
 15%|█▌        | 11942/78504 [7:15:02<53:47:14,  2.91s/it] 15%|█▌        | 11943/78504 [7:15:04<51:26:09,  2.78s/it]                                                          {'loss': 0.053, 'grad_norm': 0.30035799741744995, 'learning_rate': 2.8265041824126364e-05, 'epoch': 3.65}
 15%|█▌        | 11943/78504 [7:15:04<51:26:09,  2.78s/it] 15%|█▌        | 11944/78504 [7:15:07<49:29:36,  2.68s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.21405397355556488, 'learning_rate': 2.8264617213706426e-05, 'epoch': 3.65}
 15%|█▌        | 11944/78504 [7:15:07<49:29:36,  2.68s/it] 15%|█▌        | 11945/78504 [7:15:09<47:28:35,  2.57s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.32638850808143616, 'learning_rate': 2.8264192603286485e-05, 'epoch': 3.65}
 15%|█▌        | 11945/78504 [7:15:09<47:28:35,  2.57s/it] 15%|█▌        | 11946/78504 [7:15:11<44:59:03,  2.43s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.33142006397247314, 'learning_rate': 2.8263767992866547e-05, 'epoch': 3.65}
 15%|█▌        | 11946/78504 [7:15:11<44:59:03,  2.43s/it] 15%|█▌        | 11947/78504 [7:15:13<43:35:33,  2.36s/it]                                                          {'loss': 0.0879, 'grad_norm': 0.35431045293807983, 'learning_rate': 2.8263343382446606e-05, 'epoch': 3.65}
 15%|█▌        | 11947/78504 [7:15:13<43:35:33,  2.36s/it] 15%|█▌        | 11948/78504 [7:15:15<42:23:20,  2.29s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.3443698287010193, 'learning_rate': 2.8262918772026665e-05, 'epoch': 3.65}
 15%|█▌        | 11948/78504 [7:15:15<42:23:20,  2.29s/it] 15%|█▌        | 11949/78504 [7:15:17<40:57:45,  2.22s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.32301855087280273, 'learning_rate': 2.8262494161606727e-05, 'epoch': 3.65}
 15%|█▌        | 11949/78504 [7:15:18<40:57:45,  2.22s/it] 15%|█▌        | 11950/78504 [7:15:19<39:37:52,  2.14s/it]                                                          {'loss': 0.0991, 'grad_norm': 0.2930426597595215, 'learning_rate': 2.8262069551186785e-05, 'epoch': 3.65}
 15%|█▌        | 11950/78504 [7:15:19<39:37:52,  2.14s/it] 15%|█▌        | 11951/78504 [7:15:21<38:06:08,  2.06s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.3499718904495239, 'learning_rate': 2.8261644940766847e-05, 'epoch': 3.65}
 15%|█▌        | 11951/78504 [7:15:21<38:06:08,  2.06s/it] 15%|█▌        | 11952/78504 [7:15:23<36:50:41,  1.99s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.5135340094566345, 'learning_rate': 2.8261220330346906e-05, 'epoch': 3.65}
 15%|█▌        | 11952/78504 [7:15:23<36:50:41,  1.99s/it] 15%|█▌        | 11953/78504 [7:15:25<35:21:50,  1.91s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.5223749279975891, 'learning_rate': 2.8260795719926968e-05, 'epoch': 3.65}
 15%|█▌        | 11953/78504 [7:15:25<35:21:50,  1.91s/it] 15%|█▌        | 11954/78504 [7:15:27<33:55:21,  1.84s/it]                                                          {'loss': 0.1881, 'grad_norm': 0.5707592368125916, 'learning_rate': 2.8260371109507027e-05, 'epoch': 3.65}
 15%|█▌        | 11954/78504 [7:15:27<33:55:21,  1.84s/it] 15%|█▌        | 11955/78504 [7:15:28<32:10:38,  1.74s/it]                                                          {'loss': 0.1706, 'grad_norm': 0.45949888229370117, 'learning_rate': 2.825994649908709e-05, 'epoch': 3.65}
 15%|█▌        | 11955/78504 [7:15:28<32:10:38,  1.74s/it] 15%|█▌        | 11956/78504 [7:15:29<30:27:05,  1.65s/it]                                                          {'loss': 0.1678, 'grad_norm': 0.5113751292228699, 'learning_rate': 2.8259521888667148e-05, 'epoch': 3.66}
 15%|█▌        | 11956/78504 [7:15:30<30:27:05,  1.65s/it] 15%|█▌        | 11957/78504 [7:15:31<29:06:17,  1.57s/it]                                                          {'loss': 0.1765, 'grad_norm': 0.5510910749435425, 'learning_rate': 2.825909727824721e-05, 'epoch': 3.66}
 15%|█▌        | 11957/78504 [7:15:31<29:06:17,  1.57s/it] 15%|█▌        | 11958/78504 [7:15:32<27:08:48,  1.47s/it]                                                          {'loss': 0.2124, 'grad_norm': 0.5246974229812622, 'learning_rate': 2.825867266782727e-05, 'epoch': 3.66}
 15%|█▌        | 11958/78504 [7:15:32<27:08:48,  1.47s/it] 15%|█▌        | 11959/78504 [7:15:33<25:22:20,  1.37s/it]                                                          {'loss': 0.2123, 'grad_norm': 1.031203269958496, 'learning_rate': 2.825824805740733e-05, 'epoch': 3.66}
 15%|█▌        | 11959/78504 [7:15:33<25:22:20,  1.37s/it] 15%|█▌        | 11960/78504 [7:15:34<23:51:56,  1.29s/it]                                                          {'loss': 0.2031, 'grad_norm': 0.58543860912323, 'learning_rate': 2.825782344698739e-05, 'epoch': 3.66}
 15%|█▌        | 11960/78504 [7:15:34<23:51:56,  1.29s/it] 15%|█▌        | 11961/78504 [7:15:35<22:11:59,  1.20s/it]                                                          {'loss': 0.2088, 'grad_norm': 2.0182247161865234, 'learning_rate': 2.8257398836567448e-05, 'epoch': 3.66}
 15%|█▌        | 11961/78504 [7:15:35<22:11:59,  1.20s/it] 15%|█▌        | 11962/78504 [7:15:36<20:42:36,  1.12s/it]                                                          {'loss': 0.2252, 'grad_norm': 1.3058240413665771, 'learning_rate': 2.825697422614751e-05, 'epoch': 3.66}
 15%|█▌        | 11962/78504 [7:15:36<20:42:36,  1.12s/it] 15%|█▌        | 11963/78504 [7:15:37<18:50:56,  1.02s/it]                                                          {'loss': 0.2807, 'grad_norm': 1.1558605432510376, 'learning_rate': 2.825654961572757e-05, 'epoch': 3.66}
 15%|█▌        | 11963/78504 [7:15:37<18:50:56,  1.02s/it] 15%|█▌        | 11964/78504 [7:15:46<59:55:57,  3.24s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.40271344780921936, 'learning_rate': 2.825612500530763e-05, 'epoch': 3.66}
 15%|█▌        | 11964/78504 [7:15:46<59:55:57,  3.24s/it] 15%|█▌        | 11965/78504 [7:15:48<58:05:29,  3.14s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.4470112919807434, 'learning_rate': 2.825570039488769e-05, 'epoch': 3.66}
 15%|█▌        | 11965/78504 [7:15:48<58:05:29,  3.14s/it] 15%|█▌        | 11966/78504 [7:15:51<56:52:12,  3.08s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.353147029876709, 'learning_rate': 2.825527578446775e-05, 'epoch': 3.66}
 15%|█▌        | 11966/78504 [7:15:51<56:52:12,  3.08s/it] 15%|█▌        | 11967/78504 [7:15:54<54:06:28,  2.93s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.27411630749702454, 'learning_rate': 2.825485117404781e-05, 'epoch': 3.66}
 15%|█▌        | 11967/78504 [7:15:54<54:06:28,  2.93s/it] 15%|█▌        | 11968/78504 [7:15:56<51:41:01,  2.80s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.2623741328716278, 'learning_rate': 2.8254426563627872e-05, 'epoch': 3.66}
 15%|█▌        | 11968/78504 [7:15:56<51:41:01,  2.80s/it] 15%|█▌        | 11969/78504 [7:15:59<49:45:13,  2.69s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.3266567885875702, 'learning_rate': 2.825400195320793e-05, 'epoch': 3.66}
 15%|█▌        | 11969/78504 [7:15:59<49:45:13,  2.69s/it] 15%|█▌        | 11970/78504 [7:16:01<47:43:52,  2.58s/it]                                                          {'loss': 0.0499, 'grad_norm': 0.34803199768066406, 'learning_rate': 2.8253577342787993e-05, 'epoch': 3.66}
 15%|█▌        | 11970/78504 [7:16:01<47:43:52,  2.58s/it] 15%|█▌        | 11971/78504 [7:16:03<46:11:12,  2.50s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.7812053561210632, 'learning_rate': 2.8253152732368052e-05, 'epoch': 3.66}
 15%|█▌        | 11971/78504 [7:16:04<46:11:12,  2.50s/it] 15%|█▌        | 11972/78504 [7:16:06<44:26:47,  2.40s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.2711164355278015, 'learning_rate': 2.8252728121948114e-05, 'epoch': 3.66}
 15%|█▌        | 11972/78504 [7:16:06<44:26:47,  2.40s/it] 15%|█▌        | 11973/78504 [7:16:08<43:07:46,  2.33s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.7918285727500916, 'learning_rate': 2.8252303511528173e-05, 'epoch': 3.66}
 15%|█▌        | 11973/78504 [7:16:08<43:07:46,  2.33s/it] 15%|█▌        | 11974/78504 [7:16:10<40:28:40,  2.19s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.47233960032463074, 'learning_rate': 2.825187890110823e-05, 'epoch': 3.66}
 15%|█▌        | 11974/78504 [7:16:10<40:28:40,  2.19s/it] 15%|█▌        | 11975/78504 [7:16:12<39:23:15,  2.13s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.2258080393075943, 'learning_rate': 2.8251454290688294e-05, 'epoch': 3.66}
 15%|█▌        | 11975/78504 [7:16:12<39:23:15,  2.13s/it] 15%|█▌        | 11976/78504 [7:16:14<38:13:37,  2.07s/it]                                                          {'loss': 0.087, 'grad_norm': 0.3886774182319641, 'learning_rate': 2.8251029680268352e-05, 'epoch': 3.66}
 15%|█▌        | 11976/78504 [7:16:14<38:13:37,  2.07s/it] 15%|█▌        | 11977/78504 [7:16:15<37:11:44,  2.01s/it]                                                          {'loss': 0.1214, 'grad_norm': 0.5262261033058167, 'learning_rate': 2.8250605069848414e-05, 'epoch': 3.66}
 15%|█▌        | 11977/78504 [7:16:16<37:11:44,  2.01s/it] 15%|█▌        | 11978/78504 [7:16:17<35:49:15,  1.94s/it]                                                          {'loss': 0.1175, 'grad_norm': 0.5174117088317871, 'learning_rate': 2.8250180459428473e-05, 'epoch': 3.66}
 15%|█▌        | 11978/78504 [7:16:17<35:49:15,  1.94s/it] 15%|█▌        | 11979/78504 [7:16:19<33:51:06,  1.83s/it]                                                          {'loss': 0.1641, 'grad_norm': 0.40949687361717224, 'learning_rate': 2.8249755849008535e-05, 'epoch': 3.66}
 15%|█▌        | 11979/78504 [7:16:19<33:51:06,  1.83s/it] 15%|█▌        | 11980/78504 [7:16:20<32:13:57,  1.74s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.5645827054977417, 'learning_rate': 2.8249331238588594e-05, 'epoch': 3.66}
 15%|█▌        | 11980/78504 [7:16:20<32:13:57,  1.74s/it] 15%|█▌        | 11981/78504 [7:16:22<30:43:20,  1.66s/it]                                                          {'loss': 0.166, 'grad_norm': 0.676817774772644, 'learning_rate': 2.8248906628168656e-05, 'epoch': 3.66}
 15%|█▌        | 11981/78504 [7:16:22<30:43:20,  1.66s/it] 15%|█▌        | 11982/78504 [7:16:23<29:17:40,  1.59s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.5432229042053223, 'learning_rate': 2.8248482017748715e-05, 'epoch': 3.66}
 15%|█▌        | 11982/78504 [7:16:23<29:17:40,  1.59s/it] 15%|█▌        | 11983/78504 [7:16:25<27:36:17,  1.49s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.5186040997505188, 'learning_rate': 2.8248057407328777e-05, 'epoch': 3.66}
 15%|█▌        | 11983/78504 [7:16:25<27:36:17,  1.49s/it] 15%|█▌        | 11984/78504 [7:16:26<25:58:37,  1.41s/it]                                                          {'loss': 0.2008, 'grad_norm': 0.6970278024673462, 'learning_rate': 2.8247632796908835e-05, 'epoch': 3.66}
 15%|█▌        | 11984/78504 [7:16:26<25:58:37,  1.41s/it] 15%|█▌        | 11985/78504 [7:16:27<24:15:51,  1.31s/it]                                                          {'loss': 0.2131, 'grad_norm': 6.348059177398682, 'learning_rate': 2.8247208186488897e-05, 'epoch': 3.66}
 15%|█▌        | 11985/78504 [7:16:27<24:15:51,  1.31s/it] 15%|█▌        | 11986/78504 [7:16:28<22:51:10,  1.24s/it]                                                          {'loss': 0.193, 'grad_norm': 0.8249282836914062, 'learning_rate': 2.8246783576068956e-05, 'epoch': 3.66}
 15%|█▌        | 11986/78504 [7:16:28<22:51:10,  1.24s/it] 15%|█▌        | 11987/78504 [7:16:29<21:09:43,  1.15s/it]                                                          {'loss': 0.172, 'grad_norm': 1.3885554075241089, 'learning_rate': 2.8246358965649015e-05, 'epoch': 3.66}
 15%|█▌        | 11987/78504 [7:16:29<21:09:43,  1.15s/it] 15%|█▌        | 11988/78504 [7:16:30<19:08:35,  1.04s/it]                                                          {'loss': 0.2549, 'grad_norm': 1.1010934114456177, 'learning_rate': 2.8245934355229077e-05, 'epoch': 3.66}
 15%|█▌        | 11988/78504 [7:16:30<19:08:35,  1.04s/it] 15%|█▌        | 11989/78504 [7:16:37<56:31:04,  3.06s/it]                                                          {'loss': 0.1437, 'grad_norm': 0.36208802461624146, 'learning_rate': 2.8245509744809136e-05, 'epoch': 3.67}
 15%|█▌        | 11989/78504 [7:16:37<56:31:04,  3.06s/it] 15%|█▌        | 11990/78504 [7:16:41<58:12:46,  3.15s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.35959386825561523, 'learning_rate': 2.8245085134389198e-05, 'epoch': 3.67}
 15%|█▌        | 11990/78504 [7:16:41<58:12:46,  3.15s/it] 15%|█▌        | 11991/78504 [7:16:43<54:58:48,  2.98s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.3354943096637726, 'learning_rate': 2.8244660523969256e-05, 'epoch': 3.67}
 15%|█▌        | 11991/78504 [7:16:43<54:58:48,  2.98s/it] 15%|█▌        | 11992/78504 [7:16:46<52:59:28,  2.87s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.40667563676834106, 'learning_rate': 2.824423591354932e-05, 'epoch': 3.67}
 15%|█▌        | 11992/78504 [7:16:46<52:59:28,  2.87s/it] 15%|█▌        | 11993/78504 [7:16:48<50:45:07,  2.75s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.23361313343048096, 'learning_rate': 2.8243811303129377e-05, 'epoch': 3.67}
 15%|█▌        | 11993/78504 [7:16:48<50:45:07,  2.75s/it] 15%|█▌        | 11994/78504 [7:16:51<49:01:07,  2.65s/it]                                                          {'loss': 0.054, 'grad_norm': 0.13685326278209686, 'learning_rate': 2.824338669270944e-05, 'epoch': 3.67}
 15%|█▌        | 11994/78504 [7:16:51<49:01:07,  2.65s/it] 15%|█▌        | 11995/78504 [7:16:53<47:08:25,  2.55s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.4498595893383026, 'learning_rate': 2.8242962082289498e-05, 'epoch': 3.67}
 15%|█▌        | 11995/78504 [7:16:53<47:08:25,  2.55s/it] 15%|█▌        | 11996/78504 [7:16:55<44:37:42,  2.42s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.37972524762153625, 'learning_rate': 2.824253747186956e-05, 'epoch': 3.67}
 15%|█▌        | 11996/78504 [7:16:55<44:37:42,  2.42s/it] 15%|█▌        | 11997/78504 [7:16:57<43:21:02,  2.35s/it]                                                          {'loss': 0.08, 'grad_norm': 0.39554455876350403, 'learning_rate': 2.824211286144962e-05, 'epoch': 3.67}
 15%|█▌        | 11997/78504 [7:16:57<43:21:02,  2.35s/it] 15%|█▌        | 11998/78504 [7:17:00<42:12:22,  2.28s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.27266043424606323, 'learning_rate': 2.824168825102968e-05, 'epoch': 3.67}
 15%|█▌        | 11998/78504 [7:17:00<42:12:22,  2.28s/it] 15%|█▌        | 11999/78504 [7:17:02<40:48:01,  2.21s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.3923933506011963, 'learning_rate': 2.8241263640609743e-05, 'epoch': 3.67}
 15%|█▌        | 11999/78504 [7:17:02<40:48:01,  2.21s/it] 15%|█▌        | 12000/78504 [7:17:04<39:30:09,  2.14s/it]                                                          {'loss': 0.0859, 'grad_norm': 1.4726812839508057, 'learning_rate': 2.82408390301898e-05, 'epoch': 3.67}
 15%|█▌        | 12000/78504 [7:17:04<39:30:09,  2.14s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.55it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.73it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.74it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.91it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.21it/s][A
 47%|████▋     | 7/15 [00:02<00:02,  2.67it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.52it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.72it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.08it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.45it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.28it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
                                               [A{'eval_loss': 0.23735006153583527, 'eval_wer': 0.33256054300159216, 'eval_cer': 0.1892354860179154, 'eval_runtime': 18.9875, 'eval_samples_per_second': 238.999, 'eval_steps_per_second': 0.79, 'epoch': 3.67}
 15%|█▌        | 12000/78504 [7:18:08<39:30:09,  2.14s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-12000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-10000] due to args.save_total_limit
 15%|█▌        | 12001/78504 [7:18:25<476:34:38, 25.80s/it]                                                           {'loss': 0.1003, 'grad_norm': 0.30162861943244934, 'learning_rate': 2.8240414419769864e-05, 'epoch': 3.67}
 15%|█▌        | 12001/78504 [7:18:25<476:34:38, 25.80s/it] 15%|█▌        | 12002/78504 [7:18:26<343:47:48, 18.61s/it]                                                           {'loss': 0.1059, 'grad_norm': 0.33009031414985657, 'learning_rate': 2.8239989809349922e-05, 'epoch': 3.67}
 15%|█▌        | 12002/78504 [7:18:26<343:47:48, 18.61s/it] 15%|█▌        | 12003/78504 [7:18:28<250:25:36, 13.56s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.6069833040237427, 'learning_rate': 2.8239565198929985e-05, 'epoch': 3.67}
 15%|█▌        | 12003/78504 [7:18:28<250:25:36, 13.56s/it] 15%|█▌        | 12004/78504 [7:18:30<184:25:24,  9.98s/it]                                                           {'loss': 0.1538, 'grad_norm': 0.38457947969436646, 'learning_rate': 2.8239140588510043e-05, 'epoch': 3.67}
 15%|█▌        | 12004/78504 [7:18:30<184:25:24,  9.98s/it] 15%|█▌        | 12005/78504 [7:18:31<137:33:48,  7.45s/it]                                                           {'loss': 0.152, 'grad_norm': 0.6652607321739197, 'learning_rate': 2.8238715978090105e-05, 'epoch': 3.67}
 15%|█▌        | 12005/78504 [7:18:31<137:33:48,  7.45s/it] 15%|█▌        | 12006/78504 [7:18:33<104:23:31,  5.65s/it]                                                           {'loss': 0.2029, 'grad_norm': 0.8202066421508789, 'learning_rate': 2.8238291367670164e-05, 'epoch': 3.67}
 15%|█▌        | 12006/78504 [7:18:33<104:23:31,  5.65s/it] 15%|█▌        | 12007/78504 [7:18:34<80:53:48,  4.38s/it]                                                           {'loss': 0.1641, 'grad_norm': 0.6052011847496033, 'learning_rate': 2.8237866757250226e-05, 'epoch': 3.67}
 15%|█▌        | 12007/78504 [7:18:34<80:53:48,  4.38s/it] 15%|█▌        | 12008/78504 [7:18:36<63:45:10,  3.45s/it]                                                          {'loss': 0.2032, 'grad_norm': 0.46525266766548157, 'learning_rate': 2.8237442146830285e-05, 'epoch': 3.67}
 15%|█▌        | 12008/78504 [7:18:36<63:45:10,  3.45s/it] 15%|█▌        | 12009/78504 [7:18:37<51:00:01,  2.76s/it]                                                          {'loss': 0.2526, 'grad_norm': 0.7314935326576233, 'learning_rate': 2.8237017536410347e-05, 'epoch': 3.67}
 15%|█▌        | 12009/78504 [7:18:37<51:00:01,  2.76s/it] 15%|█▌        | 12010/78504 [7:18:38<41:44:00,  2.26s/it]                                                          {'loss': 0.1936, 'grad_norm': 0.7591322660446167, 'learning_rate': 2.8236592925990406e-05, 'epoch': 3.67}
 15%|█▌        | 12010/78504 [7:18:38<41:44:00,  2.26s/it] 15%|█▌        | 12011/78504 [7:18:39<34:48:14,  1.88s/it]                                                          {'loss': 0.2174, 'grad_norm': 2.0682785511016846, 'learning_rate': 2.8236168315570468e-05, 'epoch': 3.67}
 15%|█▌        | 12011/78504 [7:18:39<34:48:14,  1.88s/it] 15%|█▌        | 12012/78504 [7:18:40<29:34:56,  1.60s/it]                                                          {'loss': 0.2102, 'grad_norm': 1.585244059562683, 'learning_rate': 2.8235743705150526e-05, 'epoch': 3.67}
 15%|█▌        | 12012/78504 [7:18:40<29:34:56,  1.60s/it] 15%|█▌        | 12013/78504 [7:18:41<25:04:15,  1.36s/it]                                                          {'loss': 0.267, 'grad_norm': 1.6153252124786377, 'learning_rate': 2.8235319094730585e-05, 'epoch': 3.67}
 15%|█▌        | 12013/78504 [7:18:41<25:04:15,  1.36s/it] 15%|█▌        | 12014/78504 [7:18:51<73:49:00,  4.00s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.4876508116722107, 'learning_rate': 2.8234894484310647e-05, 'epoch': 3.67}
 15%|█▌        | 12014/78504 [7:18:51<73:49:00,  4.00s/it] 15%|█▌        | 12015/78504 [7:18:54<69:01:35,  3.74s/it]                                                          {'loss': 0.1235, 'grad_norm': 0.26835665106773376, 'learning_rate': 2.8234469873890706e-05, 'epoch': 3.67}
 15%|█▌        | 12015/78504 [7:18:54<69:01:35,  3.74s/it] 15%|█▌        | 12016/78504 [7:18:57<64:47:56,  3.51s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.3133852481842041, 'learning_rate': 2.8234045263470768e-05, 'epoch': 3.67}
 15%|█▌        | 12016/78504 [7:18:57<64:47:56,  3.51s/it] 15%|█▌        | 12017/78504 [7:18:59<59:39:07,  3.23s/it]                                                          {'loss': 0.0468, 'grad_norm': 0.1616891324520111, 'learning_rate': 2.8233620653050827e-05, 'epoch': 3.67}
 15%|█▌        | 12017/78504 [7:18:59<59:39:07,  3.23s/it] 15%|█▌        | 12018/78504 [7:19:02<54:47:26,  2.97s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.757885754108429, 'learning_rate': 2.823319604263089e-05, 'epoch': 3.67}
 15%|█▌        | 12018/78504 [7:19:02<54:47:26,  2.97s/it] 15%|█▌        | 12019/78504 [7:19:04<50:31:35,  2.74s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.36823827028274536, 'learning_rate': 2.8232771432210947e-05, 'epoch': 3.67}
 15%|█▌        | 12019/78504 [7:19:04<50:31:35,  2.74s/it] 15%|█▌        | 12020/78504 [7:19:06<48:11:50,  2.61s/it]                                                          {'loss': 0.0509, 'grad_norm': 0.21234993636608124, 'learning_rate': 2.823234682179101e-05, 'epoch': 3.67}
 15%|█▌        | 12020/78504 [7:19:06<48:11:50,  2.61s/it] 15%|█▌        | 12021/78504 [7:19:08<45:19:02,  2.45s/it]                                                          {'loss': 0.0459, 'grad_norm': 0.3347912132740021, 'learning_rate': 2.8231922211371068e-05, 'epoch': 3.68}
 15%|█▌        | 12021/78504 [7:19:08<45:19:02,  2.45s/it] 15%|█▌        | 12022/78504 [7:19:10<43:45:34,  2.37s/it]                                                          {'loss': 0.0811, 'grad_norm': 4.138100624084473, 'learning_rate': 2.823149760095113e-05, 'epoch': 3.68}
 15%|█▌        | 12022/78504 [7:19:11<43:45:34,  2.37s/it] 15%|█▌        | 12023/78504 [7:19:13<42:30:36,  2.30s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.5946982502937317, 'learning_rate': 2.823107299053119e-05, 'epoch': 3.68}
 15%|█▌        | 12023/78504 [7:19:13<42:30:36,  2.30s/it] 15%|█▌        | 12024/78504 [7:19:15<40:54:52,  2.22s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.5198044180870056, 'learning_rate': 2.823064838011125e-05, 'epoch': 3.68}
 15%|█▌        | 12024/78504 [7:19:15<40:54:52,  2.22s/it] 15%|█▌        | 12025/78504 [7:19:17<39:31:56,  2.14s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.2680531442165375, 'learning_rate': 2.823022376969131e-05, 'epoch': 3.68}
 15%|█▌        | 12025/78504 [7:19:17<39:31:56,  2.14s/it] 15%|█▌        | 12026/78504 [7:19:18<38:06:47,  2.06s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.6768645644187927, 'learning_rate': 2.822979915927137e-05, 'epoch': 3.68}
 15%|█▌        | 12026/78504 [7:19:19<38:06:47,  2.06s/it] 15%|█▌        | 12027/78504 [7:19:20<37:02:47,  2.01s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.32915419340133667, 'learning_rate': 2.822937454885143e-05, 'epoch': 3.68}
 15%|█▌        | 12027/78504 [7:19:20<37:02:47,  2.01s/it] 15%|█▌        | 12028/78504 [7:19:22<35:39:43,  1.93s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.3419412076473236, 'learning_rate': 2.822894993843149e-05, 'epoch': 3.68}
 15%|█▌        | 12028/78504 [7:19:22<35:39:43,  1.93s/it] 15%|█▌        | 12029/78504 [7:19:24<34:04:15,  1.85s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.44523292779922485, 'learning_rate': 2.822852532801155e-05, 'epoch': 3.68}
 15%|█▌        | 12029/78504 [7:19:24<34:04:15,  1.85s/it] 15%|█▌        | 12030/78504 [7:19:25<32:24:21,  1.76s/it]                                                          {'loss': 0.1939, 'grad_norm': 0.8937473297119141, 'learning_rate': 2.822810071759161e-05, 'epoch': 3.68}
 15%|█▌        | 12030/78504 [7:19:25<32:24:21,  1.76s/it] 15%|█▌        | 12031/78504 [7:19:27<30:45:04,  1.67s/it]                                                          {'loss': 0.1938, 'grad_norm': 0.6277521848678589, 'learning_rate': 2.8227676107171672e-05, 'epoch': 3.68}
 15%|█▌        | 12031/78504 [7:19:27<30:45:04,  1.67s/it] 15%|█▌        | 12032/78504 [7:19:28<29:19:38,  1.59s/it]                                                          {'loss': 0.1881, 'grad_norm': 0.9641230702400208, 'learning_rate': 2.822725149675173e-05, 'epoch': 3.68}
 15%|█▌        | 12032/78504 [7:19:28<29:19:38,  1.59s/it] 15%|█▌        | 12033/78504 [7:19:29<27:13:55,  1.47s/it]                                                          {'loss': 0.1957, 'grad_norm': 1.0644123554229736, 'learning_rate': 2.8226826886331793e-05, 'epoch': 3.68}
 15%|█▌        | 12033/78504 [7:19:29<27:13:55,  1.47s/it] 15%|█▌        | 12034/78504 [7:19:31<25:18:19,  1.37s/it]                                                          {'loss': 0.3038, 'grad_norm': 1.6015177965164185, 'learning_rate': 2.822640227591185e-05, 'epoch': 3.68}
 15%|█▌        | 12034/78504 [7:19:31<25:18:19,  1.37s/it] 15%|█▌        | 12035/78504 [7:19:32<23:43:29,  1.28s/it]                                                          {'loss': 0.2005, 'grad_norm': 0.783247172832489, 'learning_rate': 2.8225977665491914e-05, 'epoch': 3.68}
 15%|█▌        | 12035/78504 [7:19:32<23:43:29,  1.28s/it] 15%|█▌        | 12036/78504 [7:19:33<22:03:44,  1.19s/it]                                                          {'loss': 0.2524, 'grad_norm': 0.8882373571395874, 'learning_rate': 2.8225553055071972e-05, 'epoch': 3.68}
 15%|█▌        | 12036/78504 [7:19:33<22:03:44,  1.19s/it] 15%|█▌        | 12037/78504 [7:19:34<20:35:30,  1.12s/it]                                                          {'loss': 0.1843, 'grad_norm': 0.9530139565467834, 'learning_rate': 2.8225128444652035e-05, 'epoch': 3.68}
 15%|█▌        | 12037/78504 [7:19:34<20:35:30,  1.12s/it] 15%|█▌        | 12038/78504 [7:19:34<18:48:41,  1.02s/it]                                                          {'loss': 0.2946, 'grad_norm': 2.159282922744751, 'learning_rate': 2.8224703834232093e-05, 'epoch': 3.68}
 15%|█▌        | 12038/78504 [7:19:34<18:48:41,  1.02s/it] 15%|█▌        | 12039/78504 [7:19:44<65:44:24,  3.56s/it]                                                          {'loss': 0.1715, 'grad_norm': 0.7108483910560608, 'learning_rate': 2.8224279223812152e-05, 'epoch': 3.68}
 15%|█▌        | 12039/78504 [7:19:44<65:44:24,  3.56s/it] 15%|█▌        | 12040/78504 [7:19:47<64:34:09,  3.50s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.6257935762405396, 'learning_rate': 2.8223854613392214e-05, 'epoch': 3.68}
 15%|█▌        | 12040/78504 [7:19:47<64:34:09,  3.50s/it] 15%|█▌        | 12041/78504 [7:19:50<59:21:18,  3.22s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.3885909616947174, 'learning_rate': 2.8223430002972273e-05, 'epoch': 3.68}
 15%|█▌        | 12041/78504 [7:19:50<59:21:18,  3.22s/it] 15%|█▌        | 12042/78504 [7:19:52<56:00:46,  3.03s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.2675653398036957, 'learning_rate': 2.8223005392552335e-05, 'epoch': 3.68}
 15%|█▌        | 12042/78504 [7:19:52<56:00:46,  3.03s/it] 15%|█▌        | 12043/78504 [7:19:55<52:51:55,  2.86s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.24460680782794952, 'learning_rate': 2.8222580782132394e-05, 'epoch': 3.68}
 15%|█▌        | 12043/78504 [7:19:55<52:51:55,  2.86s/it] 15%|█▌        | 12044/78504 [7:19:57<49:32:48,  2.68s/it]                                                          {'loss': 0.0445, 'grad_norm': 0.1569153219461441, 'learning_rate': 2.8222156171712456e-05, 'epoch': 3.68}
 15%|█▌        | 12044/78504 [7:19:57<49:32:48,  2.68s/it] 15%|█▌        | 12045/78504 [7:19:59<47:30:35,  2.57s/it]                                                          {'loss': 0.071, 'grad_norm': 0.285241037607193, 'learning_rate': 2.8221731561292514e-05, 'epoch': 3.68}
 15%|█▌        | 12045/78504 [7:19:59<47:30:35,  2.57s/it] 15%|█▌        | 12046/78504 [7:20:01<44:49:16,  2.43s/it]                                                          {'loss': 0.0591, 'grad_norm': 0.2760595977306366, 'learning_rate': 2.8221306950872576e-05, 'epoch': 3.68}
 15%|█▌        | 12046/78504 [7:20:01<44:49:16,  2.43s/it] 15%|█▌        | 12047/78504 [7:20:04<43:27:09,  2.35s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.3598121106624603, 'learning_rate': 2.8220882340452635e-05, 'epoch': 3.68}
 15%|█▌        | 12047/78504 [7:20:04<43:27:09,  2.35s/it] 15%|█▌        | 12048/78504 [7:20:06<42:15:32,  2.29s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.36339646577835083, 'learning_rate': 2.8220457730032697e-05, 'epoch': 3.68}
 15%|█▌        | 12048/78504 [7:20:06<42:15:32,  2.29s/it] 15%|█▌        | 12049/78504 [7:20:08<40:47:49,  2.21s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.3260767459869385, 'learning_rate': 2.8220033119612756e-05, 'epoch': 3.68}
 15%|█▌        | 12049/78504 [7:20:08<40:47:49,  2.21s/it] 15%|█▌        | 12050/78504 [7:20:10<39:29:54,  2.14s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.2732526659965515, 'learning_rate': 2.8219608509192815e-05, 'epoch': 3.68}
 15%|█▌        | 12050/78504 [7:20:10<39:29:54,  2.14s/it] 15%|█▌        | 12051/78504 [7:20:12<37:58:52,  2.06s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.429093599319458, 'learning_rate': 2.8219183898772877e-05, 'epoch': 3.68}
 15%|█▌        | 12051/78504 [7:20:12<37:58:52,  2.06s/it] 15%|█▌        | 12052/78504 [7:20:13<36:57:38,  2.00s/it]                                                          {'loss': 0.1138, 'grad_norm': 0.32360491156578064, 'learning_rate': 2.8218759288352935e-05, 'epoch': 3.68}
 15%|█▌        | 12052/78504 [7:20:14<36:57:38,  2.00s/it] 15%|█▌        | 12053/78504 [7:20:15<35:26:54,  1.92s/it]                                                          {'loss': 0.1274, 'grad_norm': 1.077656626701355, 'learning_rate': 2.8218334677932997e-05, 'epoch': 3.68}
 15%|█▌        | 12053/78504 [7:20:15<35:26:54,  1.92s/it] 15%|█▌        | 12054/78504 [7:20:17<33:51:47,  1.83s/it]                                                          {'loss': 0.1849, 'grad_norm': 0.7752101421356201, 'learning_rate': 2.8217910067513056e-05, 'epoch': 3.69}
 15%|█▌        | 12054/78504 [7:20:17<33:51:47,  1.83s/it] 15%|█▌        | 12055/78504 [7:20:18<32:08:21,  1.74s/it]                                                          {'loss': 0.1597, 'grad_norm': 0.42795491218566895, 'learning_rate': 2.8217485457093118e-05, 'epoch': 3.69}
 15%|█▌        | 12055/78504 [7:20:18<32:08:21,  1.74s/it] 15%|█▌        | 12056/78504 [7:20:20<30:25:58,  1.65s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.6543185114860535, 'learning_rate': 2.8217060846673177e-05, 'epoch': 3.69}
 15%|█▌        | 12056/78504 [7:20:20<30:25:58,  1.65s/it] 15%|█▌        | 12057/78504 [7:20:21<29:07:54,  1.58s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.5095911026000977, 'learning_rate': 2.821663623625324e-05, 'epoch': 3.69}
 15%|█▌        | 12057/78504 [7:20:21<29:07:54,  1.58s/it] 15%|█▌        | 12058/78504 [7:20:23<27:30:54,  1.49s/it]                                                          {'loss': 0.1678, 'grad_norm': 1.2739832401275635, 'learning_rate': 2.8216211625833298e-05, 'epoch': 3.69}
 15%|█▌        | 12058/78504 [7:20:23<27:30:54,  1.49s/it] 15%|█▌        | 12059/78504 [7:20:24<25:39:10,  1.39s/it]                                                          {'loss': 0.1788, 'grad_norm': 0.8544392585754395, 'learning_rate': 2.821578701541336e-05, 'epoch': 3.69}
 15%|█▌        | 12059/78504 [7:20:24<25:39:10,  1.39s/it] 15%|█▌        | 12060/78504 [7:20:25<24:04:56,  1.30s/it]                                                          {'loss': 0.2062, 'grad_norm': 2.643709897994995, 'learning_rate': 2.821536240499342e-05, 'epoch': 3.69}
 15%|█▌        | 12060/78504 [7:20:25<24:04:56,  1.30s/it] 15%|█▌        | 12061/78504 [7:20:26<22:25:17,  1.21s/it]                                                          {'loss': 0.1752, 'grad_norm': 1.1053943634033203, 'learning_rate': 2.821493779457348e-05, 'epoch': 3.69}
 15%|█▌        | 12061/78504 [7:20:26<22:25:17,  1.21s/it] 15%|█▌        | 12062/78504 [7:20:27<20:53:45,  1.13s/it]                                                          {'loss': 0.2314, 'grad_norm': 0.9081541895866394, 'learning_rate': 2.821451318415354e-05, 'epoch': 3.69}
 15%|█▌        | 12062/78504 [7:20:27<20:53:45,  1.13s/it] 15%|█▌        | 12063/78504 [7:20:28<18:58:12,  1.03s/it]                                                          {'loss': 0.2741, 'grad_norm': 1.838461995124817, 'learning_rate': 2.8214088573733598e-05, 'epoch': 3.69}
 15%|█▌        | 12063/78504 [7:20:28<18:58:12,  1.03s/it] 15%|█▌        | 12064/78504 [7:20:37<65:58:34,  3.57s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.5558493733406067, 'learning_rate': 2.821366396331366e-05, 'epoch': 3.69}
 15%|█▌        | 12064/78504 [7:20:37<65:58:34,  3.57s/it] 15%|█▌        | 12065/78504 [7:20:40<63:32:00,  3.44s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.30870750546455383, 'learning_rate': 2.821323935289372e-05, 'epoch': 3.69}
 15%|█▌        | 12065/78504 [7:20:40<63:32:00,  3.44s/it] 15%|█▌        | 12066/78504 [7:20:43<61:00:06,  3.31s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.384689599275589, 'learning_rate': 2.821281474247378e-05, 'epoch': 3.69}
 15%|█▌        | 12066/78504 [7:20:43<61:00:06,  3.31s/it] 15%|█▌        | 12067/78504 [7:20:46<57:10:54,  3.10s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.3132034242153168, 'learning_rate': 2.821239013205384e-05, 'epoch': 3.69}
 15%|█▌        | 12067/78504 [7:20:46<57:10:54,  3.10s/it] 15%|█▌        | 12068/78504 [7:20:48<53:06:02,  2.88s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.215736523270607, 'learning_rate': 2.82119655216339e-05, 'epoch': 3.69}
 15%|█▌        | 12068/78504 [7:20:48<53:06:02,  2.88s/it] 15%|█▌        | 12069/78504 [7:20:50<49:40:56,  2.69s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.5045027732849121, 'learning_rate': 2.821154091121396e-05, 'epoch': 3.69}
 15%|█▌        | 12069/78504 [7:20:50<49:40:56,  2.69s/it] 15%|█▌        | 12070/78504 [7:20:53<47:42:19,  2.59s/it]                                                          {'loss': 0.0548, 'grad_norm': 0.31986773014068604, 'learning_rate': 2.8211116300794022e-05, 'epoch': 3.69}
 15%|█▌        | 12070/78504 [7:20:53<47:42:19,  2.59s/it] 15%|█▌        | 12071/78504 [7:20:55<44:56:32,  2.44s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.2540302276611328, 'learning_rate': 2.821069169037408e-05, 'epoch': 3.69}
 15%|█▌        | 12071/78504 [7:20:55<44:56:32,  2.44s/it] 15%|█▌        | 12072/78504 [7:20:57<42:42:54,  2.31s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.37901216745376587, 'learning_rate': 2.8210267079954143e-05, 'epoch': 3.69}
 15%|█▌        | 12072/78504 [7:20:57<42:42:54,  2.31s/it] 15%|█▌        | 12073/78504 [7:20:59<41:42:59,  2.26s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.7212011814117432, 'learning_rate': 2.8209842469534202e-05, 'epoch': 3.69}
 15%|█▌        | 12073/78504 [7:20:59<41:42:59,  2.26s/it] 15%|█▌        | 12074/78504 [7:21:01<40:14:35,  2.18s/it]                                                          {'loss': 0.0808, 'grad_norm': 0.7191643714904785, 'learning_rate': 2.8209417859114264e-05, 'epoch': 3.69}
 15%|█▌        | 12074/78504 [7:21:01<40:14:35,  2.18s/it] 15%|█▌        | 12075/78504 [7:21:03<39:09:11,  2.12s/it]                                                          {'loss': 0.1115, 'grad_norm': 0.586270272731781, 'learning_rate': 2.8208993248694323e-05, 'epoch': 3.69}
 15%|█▌        | 12075/78504 [7:21:03<39:09:11,  2.12s/it] 15%|█▌        | 12076/78504 [7:21:05<37:45:14,  2.05s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.3587043285369873, 'learning_rate': 2.820856863827438e-05, 'epoch': 3.69}
 15%|█▌        | 12076/78504 [7:21:05<37:45:14,  2.05s/it] 15%|█▌        | 12077/78504 [7:21:07<35:59:52,  1.95s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.4079412817955017, 'learning_rate': 2.8208144027854444e-05, 'epoch': 3.69}
 15%|█▌        | 12077/78504 [7:21:07<35:59:52,  1.95s/it] 15%|█▌        | 12078/78504 [7:21:08<35:00:00,  1.90s/it]                                                          {'loss': 0.1427, 'grad_norm': 1.5374773740768433, 'learning_rate': 2.8207719417434502e-05, 'epoch': 3.69}
 15%|█▌        | 12078/78504 [7:21:08<35:00:00,  1.90s/it] 15%|█▌        | 12079/78504 [7:21:10<33:35:37,  1.82s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.7580461502075195, 'learning_rate': 2.8207294807014564e-05, 'epoch': 3.69}
 15%|█▌        | 12079/78504 [7:21:10<33:35:37,  1.82s/it] 15%|█▌        | 12080/78504 [7:21:11<31:54:19,  1.73s/it]                                                          {'loss': 0.1652, 'grad_norm': 0.5761195421218872, 'learning_rate': 2.8206870196594623e-05, 'epoch': 3.69}
 15%|█▌        | 12080/78504 [7:21:12<31:54:19,  1.73s/it] 15%|█▌        | 12081/78504 [7:21:13<30:15:00,  1.64s/it]                                                          {'loss': 0.2103, 'grad_norm': 0.6495999097824097, 'learning_rate': 2.8206445586174685e-05, 'epoch': 3.69}
 15%|█▌        | 12081/78504 [7:21:13<30:15:00,  1.64s/it] 15%|█▌        | 12082/78504 [7:21:14<28:59:37,  1.57s/it]                                                          {'loss': 0.1826, 'grad_norm': 0.7713256478309631, 'learning_rate': 2.8206020975754744e-05, 'epoch': 3.69}
 15%|█▌        | 12082/78504 [7:21:14<28:59:37,  1.57s/it] 15%|█▌        | 12083/78504 [7:21:16<27:04:38,  1.47s/it]                                                          {'loss': 0.2008, 'grad_norm': 0.9481729865074158, 'learning_rate': 2.8205596365334806e-05, 'epoch': 3.69}
 15%|█▌        | 12083/78504 [7:21:16<27:04:38,  1.47s/it] 15%|█▌        | 12084/78504 [7:21:17<25:16:33,  1.37s/it]                                                          {'loss': 0.1933, 'grad_norm': 1.0538285970687866, 'learning_rate': 2.8205171754914865e-05, 'epoch': 3.69}
 15%|█▌        | 12084/78504 [7:21:17<25:16:33,  1.37s/it] 15%|█▌        | 12085/78504 [7:21:18<23:46:47,  1.29s/it]                                                          {'loss': 0.1833, 'grad_norm': 0.7417480945587158, 'learning_rate': 2.8204747144494927e-05, 'epoch': 3.69}
 15%|█▌        | 12085/78504 [7:21:18<23:46:47,  1.29s/it] 15%|█▌        | 12086/78504 [7:21:19<22:07:27,  1.20s/it]                                                          {'loss': 0.1807, 'grad_norm': 0.7142953276634216, 'learning_rate': 2.8204322534074985e-05, 'epoch': 3.69}
 15%|█▌        | 12086/78504 [7:21:19<22:07:27,  1.20s/it] 15%|█▌        | 12087/78504 [7:21:20<20:42:03,  1.12s/it]                                                          {'loss': 0.2072, 'grad_norm': 3.701155662536621, 'learning_rate': 2.8203897923655047e-05, 'epoch': 3.7}
 15%|█▌        | 12087/78504 [7:21:20<20:42:03,  1.12s/it] 15%|█▌        | 12088/78504 [7:21:21<18:51:45,  1.02s/it]                                                          {'loss': 0.2581, 'grad_norm': 1.0026227235794067, 'learning_rate': 2.8203473313235106e-05, 'epoch': 3.7}
 15%|█▌        | 12088/78504 [7:21:21<18:51:45,  1.02s/it] 15%|█▌        | 12089/78504 [7:21:30<68:11:41,  3.70s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.4979563355445862, 'learning_rate': 2.8203048702815165e-05, 'epoch': 3.7}
 15%|█▌        | 12089/78504 [7:21:30<68:11:41,  3.70s/it] 15%|█▌        | 12090/78504 [7:21:34<65:05:10,  3.53s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.43651899695396423, 'learning_rate': 2.8202624092395227e-05, 'epoch': 3.7}
 15%|█▌        | 12090/78504 [7:21:34<65:05:10,  3.53s/it] 15%|█▌        | 12091/78504 [7:21:37<62:16:48,  3.38s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.428185373544693, 'learning_rate': 2.8202199481975286e-05, 'epoch': 3.7}
 15%|█▌        | 12091/78504 [7:21:37<62:16:48,  3.38s/it] 15%|█▌        | 12092/78504 [7:21:39<57:59:40,  3.14s/it]                                                          {'loss': 0.066, 'grad_norm': 0.3377753496170044, 'learning_rate': 2.8201774871555348e-05, 'epoch': 3.7}
 15%|█▌        | 12092/78504 [7:21:39<57:59:40,  3.14s/it] 15%|█▌        | 12093/78504 [7:21:42<54:21:43,  2.95s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.26806655526161194, 'learning_rate': 2.8201350261135406e-05, 'epoch': 3.7}
 15%|█▌        | 12093/78504 [7:21:42<54:21:43,  2.95s/it] 15%|█▌        | 12094/78504 [7:21:44<51:05:27,  2.77s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.2806757688522339, 'learning_rate': 2.820092565071547e-05, 'epoch': 3.7}
 15%|█▌        | 12094/78504 [7:21:44<51:05:27,  2.77s/it] 15%|█▌        | 12095/78504 [7:21:46<48:40:16,  2.64s/it]                                                          {'loss': 0.051, 'grad_norm': 0.2086852788925171, 'learning_rate': 2.8200501040295527e-05, 'epoch': 3.7}
 15%|█▌        | 12095/78504 [7:21:46<48:40:16,  2.64s/it] 15%|█▌        | 12096/78504 [7:21:48<45:41:21,  2.48s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.8166077733039856, 'learning_rate': 2.820007642987559e-05, 'epoch': 3.7}
 15%|█▌        | 12096/78504 [7:21:48<45:41:21,  2.48s/it] 15%|█▌        | 12097/78504 [7:21:51<43:14:32,  2.34s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.28645652532577515, 'learning_rate': 2.8199651819455648e-05, 'epoch': 3.7}
 15%|█▌        | 12097/78504 [7:21:51<43:14:32,  2.34s/it] 15%|█▌        | 12098/78504 [7:21:53<42:07:17,  2.28s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.7048086524009705, 'learning_rate': 2.819922720903571e-05, 'epoch': 3.7}
 15%|█▌        | 12098/78504 [7:21:53<42:07:17,  2.28s/it] 15%|█▌        | 12099/78504 [7:21:55<40:39:00,  2.20s/it]                                                          {'loss': 0.0645, 'grad_norm': 0.9460377097129822, 'learning_rate': 2.819880259861577e-05, 'epoch': 3.7}
 15%|█▌        | 12099/78504 [7:21:55<40:39:00,  2.20s/it] 15%|█▌        | 12100/78504 [7:21:56<38:23:28,  2.08s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.34024712443351746, 'learning_rate': 2.819837798819583e-05, 'epoch': 3.7}
 15%|█▌        | 12100/78504 [7:21:56<38:23:28,  2.08s/it] 15%|█▌        | 12101/78504 [7:21:58<37:16:44,  2.02s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.3352932035923004, 'learning_rate': 2.8197953377775893e-05, 'epoch': 3.7}
 15%|█▌        | 12101/78504 [7:21:58<37:16:44,  2.02s/it] 15%|█▌        | 12102/78504 [7:22:00<35:31:47,  1.93s/it]                                                          {'loss': 0.1, 'grad_norm': 0.27072983980178833, 'learning_rate': 2.8197528767355952e-05, 'epoch': 3.7}
 15%|█▌        | 12102/78504 [7:22:00<35:31:47,  1.93s/it] 15%|█▌        | 12103/78504 [7:22:02<34:39:01,  1.88s/it]                                                          {'loss': 0.161, 'grad_norm': 0.7786687016487122, 'learning_rate': 2.8197104156936014e-05, 'epoch': 3.7}
 15%|█▌        | 12103/78504 [7:22:02<34:39:01,  1.88s/it] 15%|█▌        | 12104/78504 [7:22:03<33:22:54,  1.81s/it]                                                          {'loss': 0.15, 'grad_norm': 0.6363269686698914, 'learning_rate': 2.8196679546516072e-05, 'epoch': 3.7}
 15%|█▌        | 12104/78504 [7:22:03<33:22:54,  1.81s/it] 15%|█▌        | 12105/78504 [7:22:05<31:52:12,  1.73s/it]                                                          {'loss': 0.1885, 'grad_norm': 0.8042523860931396, 'learning_rate': 2.8196254936096135e-05, 'epoch': 3.7}
 15%|█▌        | 12105/78504 [7:22:05<31:52:12,  1.73s/it] 15%|█▌        | 12106/78504 [7:22:06<30:09:19,  1.63s/it]                                                          {'loss': 0.1635, 'grad_norm': 0.5880594849586487, 'learning_rate': 2.8195830325676193e-05, 'epoch': 3.7}
 15%|█▌        | 12106/78504 [7:22:06<30:09:19,  1.63s/it] 15%|█▌        | 12107/78504 [7:22:08<28:59:35,  1.57s/it]                                                          {'loss': 0.219, 'grad_norm': 0.8195476531982422, 'learning_rate': 2.8195405715256255e-05, 'epoch': 3.7}
 15%|█▌        | 12107/78504 [7:22:08<28:59:35,  1.57s/it] 15%|█▌        | 12108/78504 [7:22:09<27:02:59,  1.47s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.6792598366737366, 'learning_rate': 2.8194981104836314e-05, 'epoch': 3.7}
 15%|█▌        | 12108/78504 [7:22:09<27:02:59,  1.47s/it] 15%|█▌        | 12109/78504 [7:22:10<25:20:15,  1.37s/it]                                                          {'loss': 0.1826, 'grad_norm': 1.2919092178344727, 'learning_rate': 2.8194556494416376e-05, 'epoch': 3.7}
 15%|█▌        | 12109/78504 [7:22:10<25:20:15,  1.37s/it] 15%|█▌        | 12110/78504 [7:22:11<23:49:32,  1.29s/it]                                                          {'loss': 0.2004, 'grad_norm': 1.4620620012283325, 'learning_rate': 2.8194131883996435e-05, 'epoch': 3.7}
 15%|█▌        | 12110/78504 [7:22:11<23:49:32,  1.29s/it] 15%|█▌        | 12111/78504 [7:22:12<22:08:01,  1.20s/it]                                                          {'loss': 0.2379, 'grad_norm': 0.7329964637756348, 'learning_rate': 2.8193707273576497e-05, 'epoch': 3.7}
 15%|█▌        | 12111/78504 [7:22:12<22:08:01,  1.20s/it] 15%|█▌        | 12112/78504 [7:22:13<20:40:21,  1.12s/it]                                                          {'loss': 0.1852, 'grad_norm': 0.8668164610862732, 'learning_rate': 2.8193282663156556e-05, 'epoch': 3.7}
 15%|█▌        | 12112/78504 [7:22:13<20:40:21,  1.12s/it] 15%|█▌        | 12113/78504 [7:22:14<18:39:11,  1.01s/it]                                                          {'loss': 0.2588, 'grad_norm': 3.8335678577423096, 'learning_rate': 2.8192858052736618e-05, 'epoch': 3.7}
 15%|█▌        | 12113/78504 [7:22:14<18:39:11,  1.01s/it] 15%|█▌        | 12114/78504 [7:22:22<56:56:32,  3.09s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.3751384913921356, 'learning_rate': 2.8192433442316676e-05, 'epoch': 3.7}
 15%|█▌        | 12114/78504 [7:22:22<56:56:32,  3.09s/it] 15%|█▌        | 12115/78504 [7:22:25<57:05:28,  3.10s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.18363697826862335, 'learning_rate': 2.8192008831896735e-05, 'epoch': 3.7}
 15%|█▌        | 12115/78504 [7:22:25<57:05:28,  3.10s/it] 15%|█▌        | 12116/78504 [7:22:28<55:02:07,  2.98s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.30244120955467224, 'learning_rate': 2.8191584221476797e-05, 'epoch': 3.7}
 15%|█▌        | 12116/78504 [7:22:28<55:02:07,  2.98s/it] 15%|█▌        | 12117/78504 [7:22:30<52:51:09,  2.87s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.3364492952823639, 'learning_rate': 2.8191159611056856e-05, 'epoch': 3.7}
 15%|█▌        | 12117/78504 [7:22:30<52:51:09,  2.87s/it] 15%|█▌        | 12118/78504 [7:22:33<50:40:08,  2.75s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.3851816952228546, 'learning_rate': 2.8190735000636918e-05, 'epoch': 3.7}
 15%|█▌        | 12118/78504 [7:22:33<50:40:08,  2.75s/it] 15%|█▌        | 12119/78504 [7:22:35<48:00:17,  2.60s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.24666696786880493, 'learning_rate': 2.8190310390216977e-05, 'epoch': 3.7}
 15%|█▌        | 12119/78504 [7:22:35<48:00:17,  2.60s/it] 15%|█▌        | 12120/78504 [7:22:37<46:27:43,  2.52s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.19368377327919006, 'learning_rate': 2.818988577979704e-05, 'epoch': 3.71}
 15%|█▌        | 12120/78504 [7:22:37<46:27:43,  2.52s/it] 15%|█▌        | 12121/78504 [7:22:40<44:05:12,  2.39s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.9330170154571533, 'learning_rate': 2.8189461169377097e-05, 'epoch': 3.71}
 15%|█▌        | 12121/78504 [7:22:40<44:05:12,  2.39s/it] 15%|█▌        | 12122/78504 [7:22:42<42:05:54,  2.28s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.572128176689148, 'learning_rate': 2.818903655895716e-05, 'epoch': 3.71}
 15%|█▌        | 12122/78504 [7:22:42<42:05:54,  2.28s/it] 15%|█▌        | 12123/78504 [7:22:44<41:16:49,  2.24s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.3542979955673218, 'learning_rate': 2.8188611948537218e-05, 'epoch': 3.71}
 15%|█▌        | 12123/78504 [7:22:44<41:16:49,  2.24s/it] 15%|█▌        | 12124/78504 [7:22:46<39:54:28,  2.16s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.6591923832893372, 'learning_rate': 2.818818733811728e-05, 'epoch': 3.71}
 15%|█▌        | 12124/78504 [7:22:46<39:54:28,  2.16s/it] 15%|█▌        | 12125/78504 [7:22:47<37:57:43,  2.06s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.48752546310424805, 'learning_rate': 2.818776272769734e-05, 'epoch': 3.71}
 15%|█▌        | 12125/78504 [7:22:48<37:57:43,  2.06s/it] 15%|█▌        | 12126/78504 [7:22:49<36:54:10,  2.00s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.4888482689857483, 'learning_rate': 2.81873381172774e-05, 'epoch': 3.71}
 15%|█▌        | 12126/78504 [7:22:49<36:54:10,  2.00s/it] 15%|█▌        | 12127/78504 [7:22:51<35:20:46,  1.92s/it]                                                          {'loss': 0.1265, 'grad_norm': 0.5643006563186646, 'learning_rate': 2.818691350685746e-05, 'epoch': 3.71}
 15%|█▌        | 12127/78504 [7:22:51<35:20:46,  1.92s/it] 15%|█▌        | 12128/78504 [7:22:53<33:54:25,  1.84s/it]                                                          {'loss': 0.1434, 'grad_norm': 4.395726203918457, 'learning_rate': 2.818648889643752e-05, 'epoch': 3.71}
 15%|█▌        | 12128/78504 [7:22:53<33:54:25,  1.84s/it] 15%|█▌        | 12129/78504 [7:22:54<32:48:29,  1.78s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.6526485681533813, 'learning_rate': 2.818606428601758e-05, 'epoch': 3.71}
 15%|█▌        | 12129/78504 [7:22:54<32:48:29,  1.78s/it] 15%|█▌        | 12130/78504 [7:22:56<31:22:01,  1.70s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.8227155804634094, 'learning_rate': 2.818563967559764e-05, 'epoch': 3.71}
 15%|█▌        | 12130/78504 [7:22:56<31:22:01,  1.70s/it] 15%|█▌        | 12131/78504 [7:22:57<30:06:21,  1.63s/it]                                                          {'loss': 0.1597, 'grad_norm': 0.40990501642227173, 'learning_rate': 2.81852150651777e-05, 'epoch': 3.71}
 15%|█▌        | 12131/78504 [7:22:57<30:06:21,  1.63s/it] 15%|█▌        | 12132/78504 [7:22:59<28:56:44,  1.57s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.469353586435318, 'learning_rate': 2.818479045475776e-05, 'epoch': 3.71}
 15%|█▌        | 12132/78504 [7:22:59<28:56:44,  1.57s/it] 15%|█▌        | 12133/78504 [7:23:00<27:21:06,  1.48s/it]                                                          {'loss': 0.1828, 'grad_norm': 0.789216935634613, 'learning_rate': 2.8184365844337822e-05, 'epoch': 3.71}
 15%|█▌        | 12133/78504 [7:23:00<27:21:06,  1.48s/it] 15%|█▌        | 12134/78504 [7:23:01<25:32:55,  1.39s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.6251068711280823, 'learning_rate': 2.818394123391788e-05, 'epoch': 3.71}
 15%|█▌        | 12134/78504 [7:23:01<25:32:55,  1.39s/it] 15%|█▌        | 12135/78504 [7:23:02<23:56:14,  1.30s/it]                                                          {'loss': 0.1751, 'grad_norm': 0.6499804854393005, 'learning_rate': 2.8183516623497943e-05, 'epoch': 3.71}
 15%|█▌        | 12135/78504 [7:23:02<23:56:14,  1.30s/it] 15%|█▌        | 12136/78504 [7:23:03<22:16:26,  1.21s/it]                                                          {'loss': 0.2679, 'grad_norm': 1.0827223062515259, 'learning_rate': 2.8183092013078002e-05, 'epoch': 3.71}
 15%|█▌        | 12136/78504 [7:23:03<22:16:26,  1.21s/it] 15%|█▌        | 12137/78504 [7:23:04<20:49:32,  1.13s/it]                                                          {'loss': 0.2197, 'grad_norm': 2.0309183597564697, 'learning_rate': 2.8182667402658064e-05, 'epoch': 3.71}
 15%|█▌        | 12137/78504 [7:23:04<20:49:32,  1.13s/it] 15%|█▌        | 12138/78504 [7:23:05<18:57:23,  1.03s/it]                                                          {'loss': 0.2815, 'grad_norm': 1.6232401132583618, 'learning_rate': 2.8182242792238122e-05, 'epoch': 3.71}
 15%|█▌        | 12138/78504 [7:23:05<18:57:23,  1.03s/it] 15%|█▌        | 12139/78504 [7:23:15<69:09:48,  3.75s/it]                                                          {'loss': 0.1459, 'grad_norm': 0.6464628577232361, 'learning_rate': 2.8181818181818185e-05, 'epoch': 3.71}
 15%|█▌        | 12139/78504 [7:23:15<69:09:48,  3.75s/it] 15%|█▌        | 12140/78504 [7:23:19<66:56:00,  3.63s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.33790621161460876, 'learning_rate': 2.8181393571398243e-05, 'epoch': 3.71}
 15%|█▌        | 12140/78504 [7:23:19<66:56:00,  3.63s/it] 15%|█▌        | 12141/78504 [7:23:21<63:02:38,  3.42s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.2499135583639145, 'learning_rate': 2.8180968960978302e-05, 'epoch': 3.71}
 15%|█▌        | 12141/78504 [7:23:21<63:02:38,  3.42s/it] 15%|█▌        | 12142/78504 [7:23:24<57:32:40,  3.12s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.31241723895072937, 'learning_rate': 2.8180544350558364e-05, 'epoch': 3.71}
 15%|█▌        | 12142/78504 [7:23:24<57:32:40,  3.12s/it] 15%|█▌        | 12143/78504 [7:23:26<53:57:00,  2.93s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.4997214078903198, 'learning_rate': 2.8180119740138423e-05, 'epoch': 3.71}
 15%|█▌        | 12143/78504 [7:23:26<53:57:00,  2.93s/it] 15%|█▌        | 12144/78504 [7:23:29<50:19:07,  2.73s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.2369890809059143, 'learning_rate': 2.8179695129718485e-05, 'epoch': 3.71}
 15%|█▌        | 12144/78504 [7:23:29<50:19:07,  2.73s/it] 15%|█▌        | 12145/78504 [7:23:31<48:02:50,  2.61s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.727214515209198, 'learning_rate': 2.8179270519298544e-05, 'epoch': 3.71}
 15%|█▌        | 12145/78504 [7:23:31<48:02:50,  2.61s/it] 15%|█▌        | 12146/78504 [7:23:33<45:19:31,  2.46s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.7773690819740295, 'learning_rate': 2.8178845908878606e-05, 'epoch': 3.71}
 15%|█▌        | 12146/78504 [7:23:33<45:19:31,  2.46s/it] 15%|█▌        | 12147/78504 [7:23:35<43:46:45,  2.38s/it]                                                          {'loss': 0.1197, 'grad_norm': 0.45519429445266724, 'learning_rate': 2.8178421298458664e-05, 'epoch': 3.71}
 15%|█▌        | 12147/78504 [7:23:35<43:46:45,  2.38s/it] 15%|█▌        | 12148/78504 [7:23:37<42:30:59,  2.31s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.724873423576355, 'learning_rate': 2.8177996688038726e-05, 'epoch': 3.71}
 15%|█▌        | 12148/78504 [7:23:37<42:30:59,  2.31s/it] 15%|█▌        | 12149/78504 [7:23:39<40:44:21,  2.21s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.45441997051239014, 'learning_rate': 2.8177572077618785e-05, 'epoch': 3.71}
 15%|█▌        | 12149/78504 [7:23:39<40:44:21,  2.21s/it] 15%|█▌        | 12150/78504 [7:23:41<38:30:28,  2.09s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.3731149435043335, 'learning_rate': 2.8177147467198847e-05, 'epoch': 3.71}
 15%|█▌        | 12150/78504 [7:23:41<38:30:28,  2.09s/it] 15%|█▌        | 12151/78504 [7:23:43<37:18:41,  2.02s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.4723815619945526, 'learning_rate': 2.8176722856778906e-05, 'epoch': 3.71}
 15%|█▌        | 12151/78504 [7:23:43<37:18:41,  2.02s/it] 15%|█▌        | 12152/78504 [7:23:45<36:13:30,  1.97s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.6526547074317932, 'learning_rate': 2.8176298246358968e-05, 'epoch': 3.72}
 15%|█▌        | 12152/78504 [7:23:45<36:13:30,  1.97s/it] 15%|█▌        | 12153/78504 [7:23:47<34:32:14,  1.87s/it]                                                          {'loss': 0.1251, 'grad_norm': 0.5269560813903809, 'learning_rate': 2.8175873635939027e-05, 'epoch': 3.72}
 15%|█▌        | 12153/78504 [7:23:47<34:32:14,  1.87s/it] 15%|█▌        | 12154/78504 [7:23:48<33:19:51,  1.81s/it]                                                          {'loss': 0.13, 'grad_norm': 1.3701939582824707, 'learning_rate': 2.8175449025519085e-05, 'epoch': 3.72}
 15%|█▌        | 12154/78504 [7:23:48<33:19:51,  1.81s/it] 15%|█▌        | 12155/78504 [7:23:50<31:52:46,  1.73s/it]                                                          {'loss': 0.1915, 'grad_norm': 0.9154121279716492, 'learning_rate': 2.8175024415099148e-05, 'epoch': 3.72}
 15%|█▌        | 12155/78504 [7:23:50<31:52:46,  1.73s/it] 15%|█▌        | 12156/78504 [7:23:51<30:23:06,  1.65s/it]                                                          {'loss': 0.178, 'grad_norm': 0.9507400393486023, 'learning_rate': 2.8174599804679206e-05, 'epoch': 3.72}
 15%|█▌        | 12156/78504 [7:23:51<30:23:06,  1.65s/it] 15%|█▌        | 12157/78504 [7:23:53<28:54:15,  1.57s/it]                                                          {'loss': 0.1872, 'grad_norm': 1.4272516965866089, 'learning_rate': 2.8174175194259268e-05, 'epoch': 3.72}
 15%|█▌        | 12157/78504 [7:23:53<28:54:15,  1.57s/it] 15%|█▌        | 12158/78504 [7:23:54<27:19:24,  1.48s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.8014790415763855, 'learning_rate': 2.8173750583839327e-05, 'epoch': 3.72}
 15%|█▌        | 12158/78504 [7:23:54<27:19:24,  1.48s/it] 15%|█▌        | 12159/78504 [7:23:55<25:30:59,  1.38s/it]                                                          {'loss': 0.1959, 'grad_norm': 1.9106662273406982, 'learning_rate': 2.817332597341939e-05, 'epoch': 3.72}
 15%|█▌        | 12159/78504 [7:23:55<25:30:59,  1.38s/it] 15%|█▌        | 12160/78504 [7:23:56<23:53:09,  1.30s/it]                                                          {'loss': 0.2071, 'grad_norm': 4.368098735809326, 'learning_rate': 2.8172901362999448e-05, 'epoch': 3.72}
 15%|█▌        | 12160/78504 [7:23:56<23:53:09,  1.30s/it] 15%|█▌        | 12161/78504 [7:23:57<22:09:57,  1.20s/it]                                                          {'loss': 0.2283, 'grad_norm': 1.1558758020401, 'learning_rate': 2.817247675257951e-05, 'epoch': 3.72}
 15%|█▌        | 12161/78504 [7:23:57<22:09:57,  1.20s/it] 15%|█▌        | 12162/78504 [7:23:58<20:42:30,  1.12s/it]                                                          {'loss': 0.1964, 'grad_norm': 4.152878761291504, 'learning_rate': 2.817205214215957e-05, 'epoch': 3.72}
 15%|█▌        | 12162/78504 [7:23:58<20:42:30,  1.12s/it] 15%|█▌        | 12163/78504 [7:23:59<18:44:26,  1.02s/it]                                                          {'loss': 0.2455, 'grad_norm': 1.214240312576294, 'learning_rate': 2.817162753173963e-05, 'epoch': 3.72}
 15%|█▌        | 12163/78504 [7:23:59<18:44:26,  1.02s/it] 15%|█▌        | 12164/78504 [7:24:06<52:47:49,  2.87s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.5591237545013428, 'learning_rate': 2.817120292131969e-05, 'epoch': 3.72}
 15%|█▌        | 12164/78504 [7:24:06<52:47:49,  2.87s/it] 15%|█▌        | 12165/78504 [7:24:09<54:16:47,  2.95s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.6175518035888672, 'learning_rate': 2.8170778310899748e-05, 'epoch': 3.72}
 15%|█▌        | 12165/78504 [7:24:09<54:16:47,  2.95s/it] 15%|█▌        | 12166/78504 [7:24:12<54:43:18,  2.97s/it]                                                          {'loss': 0.077, 'grad_norm': 0.3873523473739624, 'learning_rate': 2.817035370047981e-05, 'epoch': 3.72}
 15%|█▌        | 12166/78504 [7:24:12<54:43:18,  2.97s/it] 15%|█▌        | 12167/78504 [7:24:15<52:36:33,  2.86s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.6352532505989075, 'learning_rate': 2.816992909005987e-05, 'epoch': 3.72}
 15%|█▌        | 12167/78504 [7:24:15<52:36:33,  2.86s/it] 15%|█▌        | 12168/78504 [7:24:17<50:28:41,  2.74s/it]                                                          {'loss': 0.0579, 'grad_norm': 0.4659424424171448, 'learning_rate': 2.816950447963993e-05, 'epoch': 3.72}
 15%|█▌        | 12168/78504 [7:24:17<50:28:41,  2.74s/it] 16%|█▌        | 12169/78504 [7:24:20<48:46:56,  2.65s/it]                                                          {'loss': 0.0358, 'grad_norm': 0.21096496284008026, 'learning_rate': 2.816907986921999e-05, 'epoch': 3.72}
 16%|█▌        | 12169/78504 [7:24:20<48:46:56,  2.65s/it] 16%|█▌        | 12170/78504 [7:24:22<46:59:45,  2.55s/it]                                                          {'loss': 0.062, 'grad_norm': 0.572263240814209, 'learning_rate': 2.8168655258800052e-05, 'epoch': 3.72}
 16%|█▌        | 12170/78504 [7:24:22<46:59:45,  2.55s/it] 16%|█▌        | 12171/78504 [7:24:24<44:34:50,  2.42s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.309483140707016, 'learning_rate': 2.816823064838011e-05, 'epoch': 3.72}
 16%|█▌        | 12171/78504 [7:24:24<44:34:50,  2.42s/it] 16%|█▌        | 12172/78504 [7:24:26<43:18:06,  2.35s/it]                                                          {'loss': 0.0703, 'grad_norm': 0.5543188452720642, 'learning_rate': 2.8167806037960173e-05, 'epoch': 3.72}
 16%|█▌        | 12172/78504 [7:24:26<43:18:06,  2.35s/it] 16%|█▌        | 12173/78504 [7:24:28<42:09:57,  2.29s/it]                                                          {'loss': 0.074, 'grad_norm': 0.469788521528244, 'learning_rate': 2.816738142754023e-05, 'epoch': 3.72}
 16%|█▌        | 12173/78504 [7:24:28<42:09:57,  2.29s/it] 16%|█▌        | 12174/78504 [7:24:30<40:43:06,  2.21s/it]                                                          {'loss': 0.0962, 'grad_norm': 1.0449360609054565, 'learning_rate': 2.8166956817120293e-05, 'epoch': 3.72}
 16%|█▌        | 12174/78504 [7:24:30<40:43:06,  2.21s/it] 16%|█▌        | 12175/78504 [7:24:32<39:28:11,  2.14s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.8292784094810486, 'learning_rate': 2.8166532206700352e-05, 'epoch': 3.72}
 16%|█▌        | 12175/78504 [7:24:32<39:28:11,  2.14s/it] 16%|█▌        | 12176/78504 [7:24:34<37:57:57,  2.06s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.5902529358863831, 'learning_rate': 2.8166107596280414e-05, 'epoch': 3.72}
 16%|█▌        | 12176/78504 [7:24:34<37:57:57,  2.06s/it] 16%|█▌        | 12177/78504 [7:24:36<36:46:45,  2.00s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.7138229608535767, 'learning_rate': 2.8165682985860473e-05, 'epoch': 3.72}
 16%|█▌        | 12177/78504 [7:24:36<36:46:45,  2.00s/it] 16%|█▌        | 12178/78504 [7:24:38<35:20:04,  1.92s/it]                                                          {'loss': 0.1312, 'grad_norm': 1.0475444793701172, 'learning_rate': 2.816525837544053e-05, 'epoch': 3.72}
 16%|█▌        | 12178/78504 [7:24:38<35:20:04,  1.92s/it] 16%|█▌        | 12179/78504 [7:24:39<33:50:10,  1.84s/it]                                                          {'loss': 0.1461, 'grad_norm': 0.6669849157333374, 'learning_rate': 2.8164833765020594e-05, 'epoch': 3.72}
 16%|█▌        | 12179/78504 [7:24:40<33:50:10,  1.84s/it] 16%|█▌        | 12180/78504 [7:24:41<32:12:08,  1.75s/it]                                                          {'loss': 0.1428, 'grad_norm': 1.412272572517395, 'learning_rate': 2.8164409154600652e-05, 'epoch': 3.72}
 16%|█▌        | 12180/78504 [7:24:41<32:12:08,  1.75s/it] 16%|█▌        | 12181/78504 [7:24:43<30:41:14,  1.67s/it]                                                          {'loss': 0.1685, 'grad_norm': 1.3975147008895874, 'learning_rate': 2.8163984544180714e-05, 'epoch': 3.72}
 16%|█▌        | 12181/78504 [7:24:43<30:41:14,  1.67s/it] 16%|█▌        | 12182/78504 [7:24:44<29:21:14,  1.59s/it]                                                          {'loss': 0.1739, 'grad_norm': 0.6232331991195679, 'learning_rate': 2.8163559933760773e-05, 'epoch': 3.72}
 16%|█▌        | 12182/78504 [7:24:44<29:21:14,  1.59s/it] 16%|█▌        | 12183/78504 [7:24:45<27:41:36,  1.50s/it]                                                          {'loss': 0.2094, 'grad_norm': 0.6990103125572205, 'learning_rate': 2.8163135323340835e-05, 'epoch': 3.72}
 16%|█▌        | 12183/78504 [7:24:45<27:41:36,  1.50s/it] 16%|█▌        | 12184/78504 [7:24:46<25:45:36,  1.40s/it]                                                          {'loss': 0.1865, 'grad_norm': 1.1468578577041626, 'learning_rate': 2.8162710712920894e-05, 'epoch': 3.72}
 16%|█▌        | 12184/78504 [7:24:46<25:45:36,  1.40s/it] 16%|█▌        | 12185/78504 [7:24:47<24:07:19,  1.31s/it]                                                          {'loss': 0.1645, 'grad_norm': 1.1241129636764526, 'learning_rate': 2.8162286102500956e-05, 'epoch': 3.73}
 16%|█▌        | 12185/78504 [7:24:48<24:07:19,  1.31s/it] 16%|█▌        | 12186/78504 [7:24:49<22:36:03,  1.23s/it]                                                          {'loss': 0.1749, 'grad_norm': 0.8806542158126831, 'learning_rate': 2.8161861492081015e-05, 'epoch': 3.73}
 16%|█▌        | 12186/78504 [7:24:49<22:36:03,  1.23s/it] 16%|█▌        | 12187/78504 [7:24:49<20:58:44,  1.14s/it]                                                          {'loss': 0.2404, 'grad_norm': 2.654649496078491, 'learning_rate': 2.8161436881661077e-05, 'epoch': 3.73}
 16%|█▌        | 12187/78504 [7:24:49<20:58:44,  1.14s/it] 16%|█▌        | 12188/78504 [7:24:50<19:01:56,  1.03s/it]                                                          {'loss': 0.1933, 'grad_norm': 1.181640386581421, 'learning_rate': 2.8161012271241135e-05, 'epoch': 3.73}
 16%|█▌        | 12188/78504 [7:24:50<19:01:56,  1.03s/it] 16%|█▌        | 12189/78504 [7:24:56<47:53:12,  2.60s/it]                                                          {'loss': 0.1348, 'grad_norm': 0.6183341145515442, 'learning_rate': 2.8160587660821198e-05, 'epoch': 3.73}
 16%|█▌        | 12189/78504 [7:24:57<47:53:12,  2.60s/it] 16%|█▌        | 12190/78504 [7:25:00<50:52:48,  2.76s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.4136729836463928, 'learning_rate': 2.8160163050401256e-05, 'epoch': 3.73}
 16%|█▌        | 12190/78504 [7:25:00<50:52:48,  2.76s/it] 16%|█▌        | 12191/78504 [7:25:03<52:18:05,  2.84s/it]                                                          {'loss': 0.06, 'grad_norm': 0.3077714145183563, 'learning_rate': 2.8159738439981315e-05, 'epoch': 3.73}
 16%|█▌        | 12191/78504 [7:25:03<52:18:05,  2.84s/it] 16%|█▌        | 12192/78504 [7:25:05<51:04:20,  2.77s/it]                                                          {'loss': 0.07, 'grad_norm': 0.29856252670288086, 'learning_rate': 2.8159313829561377e-05, 'epoch': 3.73}
 16%|█▌        | 12192/78504 [7:25:05<51:04:20,  2.77s/it] 16%|█▌        | 12193/78504 [7:25:08<48:48:14,  2.65s/it]                                                          {'loss': 0.062, 'grad_norm': 0.2239868938922882, 'learning_rate': 2.8158889219141436e-05, 'epoch': 3.73}
 16%|█▌        | 12193/78504 [7:25:08<48:48:14,  2.65s/it] 16%|█▌        | 12194/78504 [7:25:10<46:19:15,  2.51s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.30136963725090027, 'learning_rate': 2.8158464608721498e-05, 'epoch': 3.73}
 16%|█▌        | 12194/78504 [7:25:10<46:19:15,  2.51s/it] 16%|█▌        | 12195/78504 [7:25:12<45:21:55,  2.46s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.330839067697525, 'learning_rate': 2.8158039998301556e-05, 'epoch': 3.73}
 16%|█▌        | 12195/78504 [7:25:12<45:21:55,  2.46s/it] 16%|█▌        | 12196/78504 [7:25:14<43:17:27,  2.35s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.4506281614303589, 'learning_rate': 2.815761538788162e-05, 'epoch': 3.73}
 16%|█▌        | 12196/78504 [7:25:14<43:17:27,  2.35s/it] 16%|█▌        | 12197/78504 [7:25:16<42:24:03,  2.30s/it]                                                          {'loss': 0.096, 'grad_norm': 0.5013958811759949, 'learning_rate': 2.8157190777461677e-05, 'epoch': 3.73}
 16%|█▌        | 12197/78504 [7:25:16<42:24:03,  2.30s/it] 16%|█▌        | 12198/78504 [7:25:19<41:32:26,  2.26s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.28636181354522705, 'learning_rate': 2.815676616704174e-05, 'epoch': 3.73}
 16%|█▌        | 12198/78504 [7:25:19<41:32:26,  2.26s/it] 16%|█▌        | 12199/78504 [7:25:21<40:16:36,  2.19s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.401771605014801, 'learning_rate': 2.8156341556621798e-05, 'epoch': 3.73}
 16%|█▌        | 12199/78504 [7:25:21<40:16:36,  2.19s/it] 16%|█▌        | 12200/78504 [7:25:23<39:09:00,  2.13s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.6400455832481384, 'learning_rate': 2.815591694620186e-05, 'epoch': 3.73}
 16%|█▌        | 12200/78504 [7:25:23<39:09:00,  2.13s/it] 16%|█▌        | 12201/78504 [7:25:25<37:50:32,  2.05s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.8213857412338257, 'learning_rate': 2.815549233578192e-05, 'epoch': 3.73}
 16%|█▌        | 12201/78504 [7:25:25<37:50:32,  2.05s/it] 16%|█▌        | 12202/78504 [7:25:26<36:49:01,  2.00s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.7134050726890564, 'learning_rate': 2.815506772536198e-05, 'epoch': 3.73}
 16%|█▌        | 12202/78504 [7:25:26<36:49:01,  2.00s/it] 16%|█▌        | 12203/78504 [7:25:28<35:30:57,  1.93s/it]                                                          {'loss': 0.1286, 'grad_norm': 1.5304718017578125, 'learning_rate': 2.8154643114942043e-05, 'epoch': 3.73}
 16%|█▌        | 12203/78504 [7:25:28<35:30:57,  1.93s/it] 16%|█▌        | 12204/78504 [7:25:30<34:00:13,  1.85s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.49882763624191284, 'learning_rate': 2.8154218504522102e-05, 'epoch': 3.73}
 16%|█▌        | 12204/78504 [7:25:30<34:00:13,  1.85s/it] 16%|█▌        | 12205/78504 [7:25:31<32:20:33,  1.76s/it]                                                          {'loss': 0.1672, 'grad_norm': 0.7837218046188354, 'learning_rate': 2.8153793894102164e-05, 'epoch': 3.73}
 16%|█▌        | 12205/78504 [7:25:31<32:20:33,  1.76s/it] 16%|█▌        | 12206/78504 [7:25:33<30:47:40,  1.67s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.5777390003204346, 'learning_rate': 2.8153369283682223e-05, 'epoch': 3.73}
 16%|█▌        | 12206/78504 [7:25:33<30:47:40,  1.67s/it] 16%|█▌        | 12207/78504 [7:25:34<29:18:58,  1.59s/it]                                                          {'loss': 0.2118, 'grad_norm': 1.0442451238632202, 'learning_rate': 2.8152944673262285e-05, 'epoch': 3.73}
 16%|█▌        | 12207/78504 [7:25:34<29:18:58,  1.59s/it] 16%|█▌        | 12208/78504 [7:25:35<27:37:04,  1.50s/it]                                                          {'loss': 0.2012, 'grad_norm': 19.48548126220703, 'learning_rate': 2.8152520062842343e-05, 'epoch': 3.73}
 16%|█▌        | 12208/78504 [7:25:36<27:37:04,  1.50s/it] 16%|█▌        | 12209/78504 [7:25:37<25:42:33,  1.40s/it]                                                          {'loss': 0.208, 'grad_norm': 1.4159963130950928, 'learning_rate': 2.8152095452422405e-05, 'epoch': 3.73}
 16%|█▌        | 12209/78504 [7:25:37<25:42:33,  1.40s/it] 16%|█▌        | 12210/78504 [7:25:38<24:02:42,  1.31s/it]                                                          {'loss': 0.1858, 'grad_norm': 1.3350037336349487, 'learning_rate': 2.8151670842002464e-05, 'epoch': 3.73}
 16%|█▌        | 12210/78504 [7:25:38<24:02:42,  1.31s/it] 16%|█▌        | 12211/78504 [7:25:39<22:38:15,  1.23s/it]                                                          {'loss': 0.229, 'grad_norm': 1.1488580703735352, 'learning_rate': 2.8151246231582526e-05, 'epoch': 3.73}
 16%|█▌        | 12211/78504 [7:25:39<22:38:15,  1.23s/it] 16%|█▌        | 12212/78504 [7:25:40<21:00:54,  1.14s/it]                                                          {'loss': 0.2035, 'grad_norm': 1.9699434041976929, 'learning_rate': 2.8150821621162585e-05, 'epoch': 3.73}
 16%|█▌        | 12212/78504 [7:25:40<21:00:54,  1.14s/it] 16%|█▌        | 12213/78504 [7:25:41<19:04:25,  1.04s/it]                                                          {'loss': 0.3497, 'grad_norm': 2.5671133995056152, 'learning_rate': 2.8150397010742647e-05, 'epoch': 3.73}
 16%|█▌        | 12213/78504 [7:25:41<19:04:25,  1.04s/it] 16%|█▌        | 12214/78504 [7:25:47<49:56:49,  2.71s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.5518456697463989, 'learning_rate': 2.8149972400322706e-05, 'epoch': 3.73}
 16%|█▌        | 12214/78504 [7:25:47<49:56:49,  2.71s/it] 16%|█▌        | 12215/78504 [7:25:50<52:58:18,  2.88s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.28887030482292175, 'learning_rate': 2.8149547789902768e-05, 'epoch': 3.73}
 16%|█▌        | 12215/78504 [7:25:50<52:58:18,  2.88s/it] 16%|█▌        | 12216/78504 [7:25:53<53:32:11,  2.91s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.37304237484931946, 'learning_rate': 2.8149123179482826e-05, 'epoch': 3.73}
 16%|█▌        | 12216/78504 [7:25:53<53:32:11,  2.91s/it] 16%|█▌        | 12217/78504 [7:25:56<51:46:55,  2.81s/it]                                                          {'loss': 0.0439, 'grad_norm': 0.15185242891311646, 'learning_rate': 2.8148698569062885e-05, 'epoch': 3.73}
 16%|█▌        | 12217/78504 [7:25:56<51:46:55,  2.81s/it] 16%|█▌        | 12218/78504 [7:25:58<49:14:54,  2.67s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.2086067795753479, 'learning_rate': 2.8148273958642947e-05, 'epoch': 3.74}
 16%|█▌        | 12218/78504 [7:25:58<49:14:54,  2.67s/it] 16%|█▌        | 12219/78504 [7:26:01<46:58:01,  2.55s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.30341219902038574, 'learning_rate': 2.8147849348223006e-05, 'epoch': 3.74}
 16%|█▌        | 12219/78504 [7:26:01<46:58:01,  2.55s/it] 16%|█▌        | 12220/78504 [7:26:03<45:42:02,  2.48s/it]                                                          {'loss': 0.0458, 'grad_norm': 0.28236639499664307, 'learning_rate': 2.8147424737803068e-05, 'epoch': 3.74}
 16%|█▌        | 12220/78504 [7:26:03<45:42:02,  2.48s/it] 16%|█▌        | 12221/78504 [7:26:05<43:40:20,  2.37s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.4908217191696167, 'learning_rate': 2.8147000127383127e-05, 'epoch': 3.74}
 16%|█▌        | 12221/78504 [7:26:05<43:40:20,  2.37s/it] 16%|█▌        | 12222/78504 [7:26:07<41:46:41,  2.27s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.57806795835495, 'learning_rate': 2.814657551696319e-05, 'epoch': 3.74}
 16%|█▌        | 12222/78504 [7:26:07<41:46:41,  2.27s/it] 16%|█▌        | 12223/78504 [7:26:09<41:00:52,  2.23s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.22829490900039673, 'learning_rate': 2.8146150906543248e-05, 'epoch': 3.74}
 16%|█▌        | 12223/78504 [7:26:09<41:00:52,  2.23s/it] 16%|█▌        | 12224/78504 [7:26:11<39:42:02,  2.16s/it]                                                          {'loss': 0.1052, 'grad_norm': 1.2656680345535278, 'learning_rate': 2.814572629612331e-05, 'epoch': 3.74}
 16%|█▌        | 12224/78504 [7:26:11<39:42:02,  2.16s/it] 16%|█▌        | 12225/78504 [7:26:13<38:25:13,  2.09s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.35924702882766724, 'learning_rate': 2.814530168570337e-05, 'epoch': 3.74}
 16%|█▌        | 12225/78504 [7:26:13<38:25:13,  2.09s/it] 16%|█▌        | 12226/78504 [7:26:15<37:12:58,  2.02s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.37659087777137756, 'learning_rate': 2.814487707528343e-05, 'epoch': 3.74}
 16%|█▌        | 12226/78504 [7:26:15<37:12:58,  2.02s/it] 16%|█▌        | 12227/78504 [7:26:17<35:34:42,  1.93s/it]                                                          {'loss': 0.1137, 'grad_norm': 0.4647407829761505, 'learning_rate': 2.814445246486349e-05, 'epoch': 3.74}
 16%|█▌        | 12227/78504 [7:26:17<35:34:42,  1.93s/it] 16%|█▌        | 12228/78504 [7:26:18<34:41:54,  1.88s/it]                                                          {'loss': 0.1476, 'grad_norm': 0.5568381547927856, 'learning_rate': 2.814402785444355e-05, 'epoch': 3.74}
 16%|█▌        | 12228/78504 [7:26:18<34:41:54,  1.88s/it] 16%|█▌        | 12229/78504 [7:26:20<33:20:43,  1.81s/it]                                                          {'loss': 0.1326, 'grad_norm': 0.5223169922828674, 'learning_rate': 2.814360324402361e-05, 'epoch': 3.74}
 16%|█▌        | 12229/78504 [7:26:20<33:20:43,  1.81s/it] 16%|█▌        | 12230/78504 [7:26:22<31:46:43,  1.73s/it]                                                          {'loss': 0.158, 'grad_norm': 0.6964367032051086, 'learning_rate': 2.814317863360367e-05, 'epoch': 3.74}
 16%|█▌        | 12230/78504 [7:26:22<31:46:43,  1.73s/it] 16%|█▌        | 12231/78504 [7:26:23<30:22:53,  1.65s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.7660449147224426, 'learning_rate': 2.814275402318373e-05, 'epoch': 3.74}
 16%|█▌        | 12231/78504 [7:26:23<30:22:53,  1.65s/it] 16%|█▌        | 12232/78504 [7:26:25<29:04:42,  1.58s/it]                                                          {'loss': 0.1764, 'grad_norm': 1.186630129814148, 'learning_rate': 2.814232941276379e-05, 'epoch': 3.74}
 16%|█▌        | 12232/78504 [7:26:25<29:04:42,  1.58s/it] 16%|█▌        | 12233/78504 [7:26:26<27:25:22,  1.49s/it]                                                          {'loss': 0.1691, 'grad_norm': 2.713330030441284, 'learning_rate': 2.814190480234385e-05, 'epoch': 3.74}
 16%|█▌        | 12233/78504 [7:26:26<27:25:22,  1.49s/it] 16%|█▌        | 12234/78504 [7:26:27<25:35:01,  1.39s/it]                                                          {'loss': 0.2276, 'grad_norm': 4.667356491088867, 'learning_rate': 2.814148019192391e-05, 'epoch': 3.74}
 16%|█▌        | 12234/78504 [7:26:27<25:35:01,  1.39s/it] 16%|█▌        | 12235/78504 [7:26:28<23:59:57,  1.30s/it]                                                          {'loss': 0.182, 'grad_norm': 1.3183948993682861, 'learning_rate': 2.8141055581503972e-05, 'epoch': 3.74}
 16%|█▌        | 12235/78504 [7:26:28<23:59:57,  1.30s/it] 16%|█▌        | 12236/78504 [7:26:29<22:20:38,  1.21s/it]                                                          {'loss': 0.2683, 'grad_norm': 1.2263801097869873, 'learning_rate': 2.814063097108403e-05, 'epoch': 3.74}
 16%|█▌        | 12236/78504 [7:26:29<22:20:38,  1.21s/it] 16%|█▌        | 12237/78504 [7:26:30<20:50:53,  1.13s/it]                                                          {'loss': 0.2056, 'grad_norm': 1.3862416744232178, 'learning_rate': 2.8140206360664093e-05, 'epoch': 3.74}
 16%|█▌        | 12237/78504 [7:26:30<20:50:53,  1.13s/it] 16%|█▌        | 12238/78504 [7:26:31<18:53:23,  1.03s/it]                                                          {'loss': 0.2462, 'grad_norm': 1.4808170795440674, 'learning_rate': 2.8139781750244152e-05, 'epoch': 3.74}
 16%|█▌        | 12238/78504 [7:26:31<18:53:23,  1.03s/it] 16%|█▌        | 12239/78504 [7:26:39<60:58:06,  3.31s/it]                                                          {'loss': 0.1478, 'grad_norm': 0.4257934093475342, 'learning_rate': 2.8139357139824214e-05, 'epoch': 3.74}
 16%|█▌        | 12239/78504 [7:26:39<60:58:06,  3.31s/it] 16%|█▌        | 12240/78504 [7:26:43<59:54:19,  3.25s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.4928136467933655, 'learning_rate': 2.8138932529404273e-05, 'epoch': 3.74}
 16%|█▌        | 12240/78504 [7:26:43<59:54:19,  3.25s/it] 16%|█▌        | 12241/78504 [7:26:46<58:36:22,  3.18s/it]                                                          {'loss': 0.074, 'grad_norm': 0.2858369052410126, 'learning_rate': 2.8138507918984335e-05, 'epoch': 3.74}
 16%|█▌        | 12241/78504 [7:26:46<58:36:22,  3.18s/it] 16%|█▌        | 12242/78504 [7:26:48<55:19:11,  3.01s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.6616882681846619, 'learning_rate': 2.8138083308564393e-05, 'epoch': 3.74}
 16%|█▌        | 12242/78504 [7:26:48<55:19:11,  3.01s/it] 16%|█▌        | 12243/78504 [7:26:51<52:23:41,  2.85s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.3016863763332367, 'learning_rate': 2.8137658698144452e-05, 'epoch': 3.74}
 16%|█▌        | 12243/78504 [7:26:51<52:23:41,  2.85s/it] 16%|█▌        | 12244/78504 [7:26:53<49:12:26,  2.67s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.3037016987800598, 'learning_rate': 2.8137234087724514e-05, 'epoch': 3.74}
 16%|█▌        | 12244/78504 [7:26:53<49:12:26,  2.67s/it] 16%|█▌        | 12245/78504 [7:26:55<47:15:41,  2.57s/it]                                                          {'loss': 0.0594, 'grad_norm': 0.5066967010498047, 'learning_rate': 2.8136809477304573e-05, 'epoch': 3.74}
 16%|█▌        | 12245/78504 [7:26:55<47:15:41,  2.57s/it] 16%|█▌        | 12246/78504 [7:26:57<44:46:14,  2.43s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.4575718343257904, 'learning_rate': 2.8136384866884635e-05, 'epoch': 3.74}
 16%|█▌        | 12246/78504 [7:26:57<44:46:14,  2.43s/it] 16%|█▌        | 12247/78504 [7:27:00<43:23:44,  2.36s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.28400105237960815, 'learning_rate': 2.8135960256464694e-05, 'epoch': 3.74}
 16%|█▌        | 12247/78504 [7:27:00<43:23:44,  2.36s/it] 16%|█▌        | 12248/78504 [7:27:02<42:22:44,  2.30s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.23416449129581451, 'learning_rate': 2.8135535646044756e-05, 'epoch': 3.74}
 16%|█▌        | 12248/78504 [7:27:02<42:22:44,  2.30s/it] 16%|█▌        | 12249/78504 [7:27:04<40:51:04,  2.22s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.7189582586288452, 'learning_rate': 2.8135111035624814e-05, 'epoch': 3.74}
 16%|█▌        | 12249/78504 [7:27:04<40:51:04,  2.22s/it] 16%|█▌        | 12250/78504 [7:27:06<39:31:04,  2.15s/it]                                                          {'loss': 0.0729, 'grad_norm': 1.010986566543579, 'learning_rate': 2.8134686425204876e-05, 'epoch': 3.75}
 16%|█▌        | 12250/78504 [7:27:06<39:31:04,  2.15s/it] 16%|█▌        | 12251/78504 [7:27:08<38:05:10,  2.07s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.5499368906021118, 'learning_rate': 2.8134261814784935e-05, 'epoch': 3.75}
 16%|█▌        | 12251/78504 [7:27:08<38:05:10,  2.07s/it] 16%|█▌        | 12252/78504 [7:27:09<36:56:50,  2.01s/it]                                                          {'loss': 0.1815, 'grad_norm': 0.5039981007575989, 'learning_rate': 2.8133837204364997e-05, 'epoch': 3.75}
 16%|█▌        | 12252/78504 [7:27:09<36:56:50,  2.01s/it] 16%|█▌        | 12253/78504 [7:27:11<35:36:17,  1.93s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.8035646677017212, 'learning_rate': 2.8133412593945056e-05, 'epoch': 3.75}
 16%|█▌        | 12253/78504 [7:27:11<35:36:17,  1.93s/it] 16%|█▌        | 12254/78504 [7:27:13<34:04:39,  1.85s/it]                                                          {'loss': 0.168, 'grad_norm': 0.799053966999054, 'learning_rate': 2.8132987983525118e-05, 'epoch': 3.75}
 16%|█▌        | 12254/78504 [7:27:13<34:04:39,  1.85s/it] 16%|█▌        | 12255/78504 [7:27:14<32:20:53,  1.76s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.7801622152328491, 'learning_rate': 2.8132563373105177e-05, 'epoch': 3.75}
 16%|█▌        | 12255/78504 [7:27:14<32:20:53,  1.76s/it] 16%|█▌        | 12256/78504 [7:27:16<30:56:07,  1.68s/it]                                                          {'loss': 0.2033, 'grad_norm': 0.44199544191360474, 'learning_rate': 2.8132138762685235e-05, 'epoch': 3.75}
 16%|█▌        | 12256/78504 [7:27:16<30:56:07,  1.68s/it] 16%|█▌        | 12257/78504 [7:27:17<29:25:02,  1.60s/it]                                                          {'loss': 0.2082, 'grad_norm': 7.585861682891846, 'learning_rate': 2.8131714152265298e-05, 'epoch': 3.75}
 16%|█▌        | 12257/78504 [7:27:17<29:25:02,  1.60s/it] 16%|█▌        | 12258/78504 [7:27:19<27:44:22,  1.51s/it]                                                          {'loss': 0.2022, 'grad_norm': 1.317372441291809, 'learning_rate': 2.8131289541845356e-05, 'epoch': 3.75}
 16%|█▌        | 12258/78504 [7:27:19<27:44:22,  1.51s/it] 16%|█▌        | 12259/78504 [7:27:20<25:44:59,  1.40s/it]                                                          {'loss': 0.1766, 'grad_norm': 1.2263109683990479, 'learning_rate': 2.813086493142542e-05, 'epoch': 3.75}
 16%|█▌        | 12259/78504 [7:27:20<25:44:59,  1.40s/it] 16%|█▌        | 12260/78504 [7:27:21<24:04:35,  1.31s/it]                                                          {'loss': 0.2036, 'grad_norm': 0.9392316937446594, 'learning_rate': 2.8130440321005477e-05, 'epoch': 3.75}
 16%|█▌        | 12260/78504 [7:27:21<24:04:35,  1.31s/it] 16%|█▌        | 12261/78504 [7:27:22<22:39:41,  1.23s/it]                                                          {'loss': 0.1673, 'grad_norm': 1.2456028461456299, 'learning_rate': 2.813001571058554e-05, 'epoch': 3.75}
 16%|█▌        | 12261/78504 [7:27:22<22:39:41,  1.23s/it] 16%|█▌        | 12262/78504 [7:27:23<21:02:01,  1.14s/it]                                                          {'loss': 0.2169, 'grad_norm': 1.3599578142166138, 'learning_rate': 2.8129591100165598e-05, 'epoch': 3.75}
 16%|█▌        | 12262/78504 [7:27:23<21:02:01,  1.14s/it] 16%|█▌        | 12263/78504 [7:27:24<19:04:19,  1.04s/it]                                                          {'loss': 0.2372, 'grad_norm': 1.4408283233642578, 'learning_rate': 2.812916648974566e-05, 'epoch': 3.75}
 16%|█▌        | 12263/78504 [7:27:24<19:04:19,  1.04s/it] 16%|█▌        | 12264/78504 [7:27:33<64:19:12,  3.50s/it]                                                          {'loss': 0.1327, 'grad_norm': 0.8896666765213013, 'learning_rate': 2.812874187932572e-05, 'epoch': 3.75}
 16%|█▌        | 12264/78504 [7:27:33<64:19:12,  3.50s/it] 16%|█▌        | 12265/78504 [7:27:36<63:01:18,  3.43s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.39975547790527344, 'learning_rate': 2.812831726890578e-05, 'epoch': 3.75}
 16%|█▌        | 12265/78504 [7:27:36<63:01:18,  3.43s/it] 16%|█▌        | 12266/78504 [7:27:39<60:44:39,  3.30s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.32913240790367126, 'learning_rate': 2.812789265848584e-05, 'epoch': 3.75}
 16%|█▌        | 12266/78504 [7:27:39<60:44:39,  3.30s/it] 16%|█▌        | 12267/78504 [7:27:42<55:51:55,  3.04s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.4067794978618622, 'learning_rate': 2.81274680480659e-05, 'epoch': 3.75}
 16%|█▌        | 12267/78504 [7:27:42<55:51:55,  3.04s/it] 16%|█▌        | 12268/78504 [7:27:44<52:45:46,  2.87s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.490201860666275, 'learning_rate': 2.812704343764596e-05, 'epoch': 3.75}
 16%|█▌        | 12268/78504 [7:27:44<52:45:46,  2.87s/it] 16%|█▌        | 12269/78504 [7:27:46<49:26:32,  2.69s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.26230037212371826, 'learning_rate': 2.812661882722602e-05, 'epoch': 3.75}
 16%|█▌        | 12269/78504 [7:27:46<49:26:32,  2.69s/it] 16%|█▌        | 12270/78504 [7:27:49<47:23:02,  2.58s/it]                                                          {'loss': 0.055, 'grad_norm': 0.5442776679992676, 'learning_rate': 2.812619421680608e-05, 'epoch': 3.75}
 16%|█▌        | 12270/78504 [7:27:49<47:23:02,  2.58s/it] 16%|█▌        | 12271/78504 [7:27:51<44:51:26,  2.44s/it]                                                          {'loss': 0.0623, 'grad_norm': 0.5065364837646484, 'learning_rate': 2.812576960638614e-05, 'epoch': 3.75}
 16%|█▌        | 12271/78504 [7:27:51<44:51:26,  2.44s/it] 16%|█▌        | 12272/78504 [7:27:53<42:38:55,  2.32s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.44638004899024963, 'learning_rate': 2.8125344995966202e-05, 'epoch': 3.75}
 16%|█▌        | 12272/78504 [7:27:53<42:38:55,  2.32s/it] 16%|█▌        | 12273/78504 [7:27:55<41:39:19,  2.26s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.385575532913208, 'learning_rate': 2.812492038554626e-05, 'epoch': 3.75}
 16%|█▌        | 12273/78504 [7:27:55<41:39:19,  2.26s/it] 16%|█▌        | 12274/78504 [7:27:57<40:12:53,  2.19s/it]                                                          {'loss': 0.078, 'grad_norm': 0.773652195930481, 'learning_rate': 2.8124495775126323e-05, 'epoch': 3.75}
 16%|█▌        | 12274/78504 [7:27:57<40:12:53,  2.19s/it] 16%|█▌        | 12275/78504 [7:27:59<38:05:50,  2.07s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.5178918838500977, 'learning_rate': 2.812407116470638e-05, 'epoch': 3.75}
 16%|█▌        | 12275/78504 [7:27:59<38:05:50,  2.07s/it] 16%|█▌        | 12276/78504 [7:28:01<36:57:13,  2.01s/it]                                                          {'loss': 0.0997, 'grad_norm': 0.3317956030368805, 'learning_rate': 2.8123646554286443e-05, 'epoch': 3.75}
 16%|█▌        | 12276/78504 [7:28:01<36:57:13,  2.01s/it] 16%|█▌        | 12277/78504 [7:28:02<35:14:27,  1.92s/it]                                                          {'loss': 0.138, 'grad_norm': 0.9412323832511902, 'learning_rate': 2.8123221943866502e-05, 'epoch': 3.75}
 16%|█▌        | 12277/78504 [7:28:02<35:14:27,  1.92s/it] 16%|█▌        | 12278/78504 [7:28:04<34:26:53,  1.87s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.9097295999526978, 'learning_rate': 2.8122797333446564e-05, 'epoch': 3.75}
 16%|█▌        | 12278/78504 [7:28:04<34:26:53,  1.87s/it] 16%|█▌        | 12279/78504 [7:28:06<33:10:17,  1.80s/it]                                                          {'loss': 0.1648, 'grad_norm': 0.46672654151916504, 'learning_rate': 2.8122372723026623e-05, 'epoch': 3.75}
 16%|█▌        | 12279/78504 [7:28:06<33:10:17,  1.80s/it] 16%|█▌        | 12280/78504 [7:28:07<31:36:29,  1.72s/it]                                                          {'loss': 0.2031, 'grad_norm': 1.0524120330810547, 'learning_rate': 2.8121948112606685e-05, 'epoch': 3.75}
 16%|█▌        | 12280/78504 [7:28:07<31:36:29,  1.72s/it] 16%|█▌        | 12281/78504 [7:28:09<30:04:02,  1.63s/it]                                                          {'loss': 0.1502, 'grad_norm': 2.0074315071105957, 'learning_rate': 2.8121523502186744e-05, 'epoch': 3.75}
 16%|█▌        | 12281/78504 [7:28:09<30:04:02,  1.63s/it] 16%|█▌        | 12282/78504 [7:28:10<28:48:24,  1.57s/it]                                                          {'loss': 0.1797, 'grad_norm': 0.7241616249084473, 'learning_rate': 2.8121098891766802e-05, 'epoch': 3.75}
 16%|█▌        | 12282/78504 [7:28:10<28:48:24,  1.57s/it] 16%|█▌        | 12283/78504 [7:28:11<26:53:45,  1.46s/it]                                                          {'loss': 0.1806, 'grad_norm': 1.008439064025879, 'learning_rate': 2.8120674281346864e-05, 'epoch': 3.76}
 16%|█▌        | 12283/78504 [7:28:11<26:53:45,  1.46s/it] 16%|█▌        | 12284/78504 [7:28:12<25:12:17,  1.37s/it]                                                          {'loss': 0.1709, 'grad_norm': 0.6657471656799316, 'learning_rate': 2.8120249670926923e-05, 'epoch': 3.76}
 16%|█▌        | 12284/78504 [7:28:12<25:12:17,  1.37s/it] 16%|█▌        | 12285/78504 [7:28:14<23:43:55,  1.29s/it]                                                          {'loss': 0.2055, 'grad_norm': 1.6943691968917847, 'learning_rate': 2.8119825060506985e-05, 'epoch': 3.76}
 16%|█▌        | 12285/78504 [7:28:14<23:43:55,  1.29s/it] 16%|█▌        | 12286/78504 [7:28:15<22:06:06,  1.20s/it]                                                          {'loss': 0.2129, 'grad_norm': 1.392191767692566, 'learning_rate': 2.8119400450087044e-05, 'epoch': 3.76}
 16%|█▌        | 12286/78504 [7:28:15<22:06:06,  1.20s/it] 16%|█▌        | 12287/78504 [7:28:15<20:38:14,  1.12s/it]                                                          {'loss': 0.2326, 'grad_norm': 2.8516340255737305, 'learning_rate': 2.8118975839667106e-05, 'epoch': 3.76}
 16%|█▌        | 12287/78504 [7:28:15<20:38:14,  1.12s/it] 16%|█▌        | 12288/78504 [7:28:16<18:52:13,  1.03s/it]                                                          {'loss': 0.2578, 'grad_norm': 2.023428201675415, 'learning_rate': 2.8118551229247165e-05, 'epoch': 3.76}
 16%|█▌        | 12288/78504 [7:28:16<18:52:13,  1.03s/it] 16%|█▌        | 12289/78504 [7:28:23<50:10:01,  2.73s/it]                                                          {'loss': 0.1777, 'grad_norm': 2.0605077743530273, 'learning_rate': 2.8118126618827227e-05, 'epoch': 3.76}
 16%|█▌        | 12289/78504 [7:28:23<50:10:01,  2.73s/it] 16%|█▌        | 12290/78504 [7:28:26<52:21:29,  2.85s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.2228725403547287, 'learning_rate': 2.8117702008407285e-05, 'epoch': 3.76}
 16%|█▌        | 12290/78504 [7:28:26<52:21:29,  2.85s/it] 16%|█▌        | 12291/78504 [7:28:29<53:19:03,  2.90s/it]                                                          {'loss': 0.0591, 'grad_norm': 0.2228710651397705, 'learning_rate': 2.8117277397987348e-05, 'epoch': 3.76}
 16%|█▌        | 12291/78504 [7:28:29<53:19:03,  2.90s/it] 16%|█▌        | 12292/78504 [7:28:32<51:46:43,  2.82s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.3065859377384186, 'learning_rate': 2.8116852787567406e-05, 'epoch': 3.76}
 16%|█▌        | 12292/78504 [7:28:32<51:46:43,  2.82s/it] 16%|█▌        | 12293/78504 [7:28:34<49:51:18,  2.71s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.6911678910255432, 'learning_rate': 2.8116428177147465e-05, 'epoch': 3.76}
 16%|█▌        | 12293/78504 [7:28:34<49:51:18,  2.71s/it] 16%|█▌        | 12294/78504 [7:28:36<47:25:17,  2.58s/it]                                                          {'loss': 0.0503, 'grad_norm': 0.48828667402267456, 'learning_rate': 2.8116003566727527e-05, 'epoch': 3.76}
 16%|█▌        | 12294/78504 [7:28:37<47:25:17,  2.58s/it] 16%|█▌        | 12295/78504 [7:28:39<45:58:33,  2.50s/it]                                                          {'loss': 0.067, 'grad_norm': 0.3852267265319824, 'learning_rate': 2.8115578956307586e-05, 'epoch': 3.76}
 16%|█▌        | 12295/78504 [7:28:39<45:58:33,  2.50s/it] 16%|█▌        | 12296/78504 [7:28:41<44:57:43,  2.44s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.32718828320503235, 'learning_rate': 2.8115154345887648e-05, 'epoch': 3.76}
 16%|█▌        | 12296/78504 [7:28:41<44:57:43,  2.44s/it] 16%|█▌        | 12297/78504 [7:28:43<43:29:56,  2.37s/it]                                                          {'loss': 0.1062, 'grad_norm': 0.2173108011484146, 'learning_rate': 2.8114729735467707e-05, 'epoch': 3.76}
 16%|█▌        | 12297/78504 [7:28:43<43:29:56,  2.37s/it] 16%|█▌        | 12298/78504 [7:28:45<42:26:13,  2.31s/it]                                                          {'loss': 0.0777, 'grad_norm': 0.25570404529571533, 'learning_rate': 2.811430512504777e-05, 'epoch': 3.76}
 16%|█▌        | 12298/78504 [7:28:45<42:26:13,  2.31s/it] 16%|█▌        | 12299/78504 [7:28:47<40:54:46,  2.22s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.24534524977207184, 'learning_rate': 2.8113880514627827e-05, 'epoch': 3.76}
 16%|█▌        | 12299/78504 [7:28:48<40:54:46,  2.22s/it] 16%|█▌        | 12300/78504 [7:28:49<39:31:12,  2.15s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.2651313841342926, 'learning_rate': 2.811345590420789e-05, 'epoch': 3.76}
 16%|█▌        | 12300/78504 [7:28:49<39:31:12,  2.15s/it] 16%|█▌        | 12301/78504 [7:28:51<37:59:36,  2.07s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.34832167625427246, 'learning_rate': 2.8113031293787948e-05, 'epoch': 3.76}
 16%|█▌        | 12301/78504 [7:28:51<37:59:36,  2.07s/it] 16%|█▌        | 12302/78504 [7:28:53<36:45:48,  2.00s/it]                                                          {'loss': 0.1261, 'grad_norm': 0.6746938228607178, 'learning_rate': 2.811260668336801e-05, 'epoch': 3.76}
 16%|█▌        | 12302/78504 [7:28:53<36:45:48,  2.00s/it] 16%|█▌        | 12303/78504 [7:28:55<35:15:57,  1.92s/it]                                                          {'loss': 0.1676, 'grad_norm': 0.974989116191864, 'learning_rate': 2.811218207294807e-05, 'epoch': 3.76}
 16%|█▌        | 12303/78504 [7:28:55<35:15:57,  1.92s/it] 16%|█▌        | 12304/78504 [7:28:57<33:47:26,  1.84s/it]                                                          {'loss': 0.1521, 'grad_norm': 0.46498894691467285, 'learning_rate': 2.811175746252813e-05, 'epoch': 3.76}
 16%|█▌        | 12304/78504 [7:28:57<33:47:26,  1.84s/it] 16%|█▌        | 12305/78504 [7:28:58<32:02:25,  1.74s/it]                                                          {'loss': 0.1885, 'grad_norm': 0.9093959331512451, 'learning_rate': 2.8111332852108193e-05, 'epoch': 3.76}
 16%|█▌        | 12305/78504 [7:28:58<32:02:25,  1.74s/it] 16%|█▌        | 12306/78504 [7:29:00<30:17:44,  1.65s/it]                                                          {'loss': 0.1848, 'grad_norm': 0.4090564250946045, 'learning_rate': 2.8110908241688252e-05, 'epoch': 3.76}
 16%|█▌        | 12306/78504 [7:29:00<30:17:44,  1.65s/it] 16%|█▌        | 12307/78504 [7:29:01<29:00:58,  1.58s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.40995246171951294, 'learning_rate': 2.8110483631268314e-05, 'epoch': 3.76}
 16%|█▌        | 12307/78504 [7:29:01<29:00:58,  1.58s/it] 16%|█▌        | 12308/78504 [7:29:02<27:02:00,  1.47s/it]                                                          {'loss': 0.1736, 'grad_norm': 0.8992806077003479, 'learning_rate': 2.8110059020848373e-05, 'epoch': 3.76}
 16%|█▌        | 12308/78504 [7:29:02<27:02:00,  1.47s/it] 16%|█▌        | 12309/78504 [7:29:03<25:12:11,  1.37s/it]                                                          {'loss': 0.2071, 'grad_norm': 0.8713218569755554, 'learning_rate': 2.8109634410428435e-05, 'epoch': 3.76}
 16%|█▌        | 12309/78504 [7:29:03<25:12:11,  1.37s/it] 16%|█▌        | 12310/78504 [7:29:04<23:40:16,  1.29s/it]                                                          {'loss': 0.1784, 'grad_norm': 0.7891702055931091, 'learning_rate': 2.8109209800008493e-05, 'epoch': 3.76}
 16%|█▌        | 12310/78504 [7:29:04<23:40:16,  1.29s/it] 16%|█▌        | 12311/78504 [7:29:05<22:02:36,  1.20s/it]                                                          {'loss': 0.2267, 'grad_norm': 0.8857466578483582, 'learning_rate': 2.8108785189588555e-05, 'epoch': 3.76}
 16%|█▌        | 12311/78504 [7:29:05<22:02:36,  1.20s/it] 16%|█▌        | 12312/78504 [7:29:06<20:38:36,  1.12s/it]                                                          {'loss': 0.2486, 'grad_norm': 1.3312770128250122, 'learning_rate': 2.8108360579168614e-05, 'epoch': 3.76}
 16%|█▌        | 12312/78504 [7:29:06<20:38:36,  1.12s/it] 16%|█▌        | 12313/78504 [7:29:07<18:47:36,  1.02s/it]                                                          {'loss': 0.2499, 'grad_norm': 1.0752320289611816, 'learning_rate': 2.8107935968748676e-05, 'epoch': 3.76}
 16%|█▌        | 12313/78504 [7:29:07<18:47:36,  1.02s/it] 16%|█▌        | 12314/78504 [7:29:15<59:08:30,  3.22s/it]                                                          {'loss': 0.1608, 'grad_norm': 0.5050508379936218, 'learning_rate': 2.8107511358328735e-05, 'epoch': 3.76}
 16%|█▌        | 12314/78504 [7:29:15<59:08:30,  3.22s/it] 16%|█▌        | 12315/78504 [7:29:18<58:14:25,  3.17s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.2645193934440613, 'learning_rate': 2.8107086747908797e-05, 'epoch': 3.76}
 16%|█▌        | 12315/78504 [7:29:19<58:14:25,  3.17s/it] 16%|█▌        | 12316/78504 [7:29:21<54:57:35,  2.99s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.8045337200164795, 'learning_rate': 2.8106662137488856e-05, 'epoch': 3.77}
 16%|█▌        | 12316/78504 [7:29:21<54:57:35,  2.99s/it] 16%|█▌        | 12317/78504 [7:29:24<52:54:14,  2.88s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.3031395673751831, 'learning_rate': 2.8106237527068918e-05, 'epoch': 3.77}
 16%|█▌        | 12317/78504 [7:29:24<52:54:14,  2.88s/it] 16%|█▌        | 12318/78504 [7:29:26<50:39:17,  2.76s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.30917659401893616, 'learning_rate': 2.8105812916648976e-05, 'epoch': 3.77}
 16%|█▌        | 12318/78504 [7:29:26<50:39:17,  2.76s/it] 16%|█▌        | 12319/78504 [7:29:28<47:57:59,  2.61s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.7233683466911316, 'learning_rate': 2.8105388306229035e-05, 'epoch': 3.77}
 16%|█▌        | 12319/78504 [7:29:28<47:57:59,  2.61s/it] 16%|█▌        | 12320/78504 [7:29:31<46:23:30,  2.52s/it]                                                          {'loss': 0.0614, 'grad_norm': 0.39801478385925293, 'learning_rate': 2.8104963695809097e-05, 'epoch': 3.77}
 16%|█▌        | 12320/78504 [7:29:31<46:23:30,  2.52s/it] 16%|█▌        | 12321/78504 [7:29:33<44:10:18,  2.40s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.4693896770477295, 'learning_rate': 2.8104539085389156e-05, 'epoch': 3.77}
 16%|█▌        | 12321/78504 [7:29:33<44:10:18,  2.40s/it] 16%|█▌        | 12322/78504 [7:29:35<43:01:00,  2.34s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.44981345534324646, 'learning_rate': 2.8104114474969218e-05, 'epoch': 3.77}
 16%|█▌        | 12322/78504 [7:29:35<43:01:00,  2.34s/it] 16%|█▌        | 12323/78504 [7:29:37<42:04:47,  2.29s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.3182886838912964, 'learning_rate': 2.8103689864549277e-05, 'epoch': 3.77}
 16%|█▌        | 12323/78504 [7:29:37<42:04:47,  2.29s/it] 16%|█▌        | 12324/78504 [7:29:39<39:40:41,  2.16s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.4671022891998291, 'learning_rate': 2.810326525412934e-05, 'epoch': 3.77}
 16%|█▌        | 12324/78504 [7:29:39<39:40:41,  2.16s/it] 16%|█▌        | 12325/78504 [7:29:41<38:46:21,  2.11s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.41310185194015503, 'learning_rate': 2.8102840643709398e-05, 'epoch': 3.77}
 16%|█▌        | 12325/78504 [7:29:41<38:46:21,  2.11s/it] 16%|█▌        | 12326/78504 [7:29:43<37:44:27,  2.05s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.25075677037239075, 'learning_rate': 2.810241603328946e-05, 'epoch': 3.77}
 16%|█▌        | 12326/78504 [7:29:43<37:44:27,  2.05s/it] 16%|█▌        | 12327/78504 [7:29:45<36:41:58,  2.00s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.48422330617904663, 'learning_rate': 2.810199142286952e-05, 'epoch': 3.77}
 16%|█▌        | 12327/78504 [7:29:45<36:41:58,  2.00s/it] 16%|█▌        | 12328/78504 [7:29:47<35:26:00,  1.93s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.64329594373703, 'learning_rate': 2.810156681244958e-05, 'epoch': 3.77}
 16%|█▌        | 12328/78504 [7:29:47<35:26:00,  1.93s/it] 16%|█▌        | 12329/78504 [7:29:48<33:55:45,  1.85s/it]                                                          {'loss': 0.2126, 'grad_norm': 0.6714340448379517, 'learning_rate': 2.810114220202964e-05, 'epoch': 3.77}
 16%|█▌        | 12329/78504 [7:29:48<33:55:45,  1.85s/it] 16%|█▌        | 12330/78504 [7:29:50<32:13:23,  1.75s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.5756922960281372, 'learning_rate': 2.81007175916097e-05, 'epoch': 3.77}
 16%|█▌        | 12330/78504 [7:29:50<32:13:23,  1.75s/it] 16%|█▌        | 12331/78504 [7:29:51<30:41:19,  1.67s/it]                                                          {'loss': 0.188, 'grad_norm': 0.7431420683860779, 'learning_rate': 2.810029298118976e-05, 'epoch': 3.77}
 16%|█▌        | 12331/78504 [7:29:51<30:41:19,  1.67s/it] 16%|█▌        | 12332/78504 [7:29:53<29:08:23,  1.59s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.5142768025398254, 'learning_rate': 2.809986837076982e-05, 'epoch': 3.77}
 16%|█▌        | 12332/78504 [7:29:53<29:08:23,  1.59s/it] 16%|█▌        | 12333/78504 [7:29:54<27:09:01,  1.48s/it]                                                          {'loss': 0.1894, 'grad_norm': 1.0556930303573608, 'learning_rate': 2.809944376034988e-05, 'epoch': 3.77}
 16%|█▌        | 12333/78504 [7:29:54<27:09:01,  1.48s/it] 16%|█▌        | 12334/78504 [7:29:55<25:12:40,  1.37s/it]                                                          {'loss': 0.1791, 'grad_norm': 0.650965690612793, 'learning_rate': 2.809901914992994e-05, 'epoch': 3.77}
 16%|█▌        | 12334/78504 [7:29:55<25:12:40,  1.37s/it] 16%|█▌        | 12335/78504 [7:29:56<23:41:53,  1.29s/it]                                                          {'loss': 0.1924, 'grad_norm': 0.9178462624549866, 'learning_rate': 2.809859453951e-05, 'epoch': 3.77}
 16%|█▌        | 12335/78504 [7:29:56<23:41:53,  1.29s/it] 16%|█▌        | 12336/78504 [7:29:57<22:05:52,  1.20s/it]                                                          {'loss': 0.2291, 'grad_norm': 1.732070803642273, 'learning_rate': 2.809816992909006e-05, 'epoch': 3.77}
 16%|█▌        | 12336/78504 [7:29:57<22:05:52,  1.20s/it] 16%|█▌        | 12337/78504 [7:29:58<20:38:24,  1.12s/it]                                                          {'loss': 0.2183, 'grad_norm': 1.092232584953308, 'learning_rate': 2.8097745318670122e-05, 'epoch': 3.77}
 16%|█▌        | 12337/78504 [7:29:58<20:38:24,  1.12s/it] 16%|█▌        | 12338/78504 [7:29:59<18:45:52,  1.02s/it]                                                          {'loss': 0.2788, 'grad_norm': 1.7080106735229492, 'learning_rate': 2.809732070825018e-05, 'epoch': 3.77}
 16%|█▌        | 12338/78504 [7:29:59<18:45:52,  1.02s/it] 16%|█▌        | 12339/78504 [7:30:07<57:59:54,  3.16s/it]                                                          {'loss': 0.167, 'grad_norm': 0.8863224983215332, 'learning_rate': 2.8096896097830243e-05, 'epoch': 3.77}
 16%|█▌        | 12339/78504 [7:30:07<57:59:54,  3.16s/it] 16%|█▌        | 12340/78504 [7:30:10<57:48:33,  3.15s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.3173794150352478, 'learning_rate': 2.8096471487410302e-05, 'epoch': 3.77}
 16%|█▌        | 12340/78504 [7:30:10<57:48:33,  3.15s/it] 16%|█▌        | 12341/78504 [7:30:13<57:05:17,  3.11s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.24164195358753204, 'learning_rate': 2.8096046876990364e-05, 'epoch': 3.77}
 16%|█▌        | 12341/78504 [7:30:13<57:05:17,  3.11s/it] 16%|█▌        | 12342/78504 [7:30:16<54:22:44,  2.96s/it]                                                          {'loss': 0.0571, 'grad_norm': 0.3994818925857544, 'learning_rate': 2.8095622266570423e-05, 'epoch': 3.77}
 16%|█▌        | 12342/78504 [7:30:16<54:22:44,  2.96s/it] 16%|█▌        | 12343/78504 [7:30:18<51:39:05,  2.81s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.35951852798461914, 'learning_rate': 2.8095197656150485e-05, 'epoch': 3.77}
 16%|█▌        | 12343/78504 [7:30:18<51:39:05,  2.81s/it] 16%|█▌        | 12344/78504 [7:30:20<48:41:01,  2.65s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.24742157757282257, 'learning_rate': 2.8094773045730543e-05, 'epoch': 3.77}
 16%|█▌        | 12344/78504 [7:30:20<48:41:01,  2.65s/it] 16%|█▌        | 12345/78504 [7:30:23<46:50:40,  2.55s/it]                                                          {'loss': 0.0554, 'grad_norm': 0.2524430453777313, 'learning_rate': 2.8094348435310602e-05, 'epoch': 3.77}
 16%|█▌        | 12345/78504 [7:30:23<46:50:40,  2.55s/it] 16%|█▌        | 12346/78504 [7:30:25<44:28:06,  2.42s/it]                                                          {'loss': 0.054, 'grad_norm': 0.26777851581573486, 'learning_rate': 2.8093923824890664e-05, 'epoch': 3.77}
 16%|█▌        | 12346/78504 [7:30:25<44:28:06,  2.42s/it] 16%|█▌        | 12347/78504 [7:30:27<43:09:47,  2.35s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.2628082036972046, 'learning_rate': 2.8093499214470723e-05, 'epoch': 3.77}
 16%|█▌        | 12347/78504 [7:30:27<43:09:47,  2.35s/it] 16%|█▌        | 12348/78504 [7:30:29<42:01:08,  2.29s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.3572167754173279, 'learning_rate': 2.8093074604050785e-05, 'epoch': 3.77}
 16%|█▌        | 12348/78504 [7:30:29<42:01:08,  2.29s/it] 16%|█▌        | 12349/78504 [7:30:31<40:34:27,  2.21s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.25641393661499023, 'learning_rate': 2.8092649993630844e-05, 'epoch': 3.78}
 16%|█▌        | 12349/78504 [7:30:31<40:34:27,  2.21s/it] 16%|█▌        | 12350/78504 [7:30:33<38:16:13,  2.08s/it]                                                          {'loss': 0.1031, 'grad_norm': 0.4714646339416504, 'learning_rate': 2.8092225383210906e-05, 'epoch': 3.78}
 16%|█▌        | 12350/78504 [7:30:33<38:16:13,  2.08s/it] 16%|█▌        | 12351/78504 [7:30:35<37:03:05,  2.02s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.3458315432071686, 'learning_rate': 2.8091800772790964e-05, 'epoch': 3.78}
 16%|█▌        | 12351/78504 [7:30:35<37:03:05,  2.02s/it] 16%|█▌        | 12352/78504 [7:30:37<36:14:46,  1.97s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.4322526752948761, 'learning_rate': 2.8091376162371026e-05, 'epoch': 3.78}
 16%|█▌        | 12352/78504 [7:30:37<36:14:46,  1.97s/it] 16%|█▌        | 12353/78504 [7:30:39<34:53:24,  1.90s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.5219970941543579, 'learning_rate': 2.8090951551951085e-05, 'epoch': 3.78}
 16%|█▌        | 12353/78504 [7:30:39<34:53:24,  1.90s/it] 16%|█▌        | 12354/78504 [7:30:40<33:29:22,  1.82s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.6853410601615906, 'learning_rate': 2.8090526941531147e-05, 'epoch': 3.78}
 16%|█▌        | 12354/78504 [7:30:40<33:29:22,  1.82s/it] 16%|█▌        | 12355/78504 [7:30:42<31:49:11,  1.73s/it]                                                          {'loss': 0.1831, 'grad_norm': 0.6415146589279175, 'learning_rate': 2.8090102331111206e-05, 'epoch': 3.78}
 16%|█▌        | 12355/78504 [7:30:42<31:49:11,  1.73s/it] 16%|█▌        | 12356/78504 [7:30:43<30:07:49,  1.64s/it]                                                          {'loss': 0.1682, 'grad_norm': 0.6792811155319214, 'learning_rate': 2.8089677720691268e-05, 'epoch': 3.78}
 16%|█▌        | 12356/78504 [7:30:43<30:07:49,  1.64s/it] 16%|█▌        | 12357/78504 [7:30:45<28:51:32,  1.57s/it]                                                          {'loss': 0.1985, 'grad_norm': 0.7751348614692688, 'learning_rate': 2.8089253110271327e-05, 'epoch': 3.78}
 16%|█▌        | 12357/78504 [7:30:45<28:51:32,  1.57s/it] 16%|█▌        | 12358/78504 [7:30:46<27:18:04,  1.49s/it]                                                          {'loss': 0.2003, 'grad_norm': 0.674325704574585, 'learning_rate': 2.8088828499851385e-05, 'epoch': 3.78}
 16%|█▌        | 12358/78504 [7:30:46<27:18:04,  1.49s/it] 16%|█▌        | 12359/78504 [7:30:47<25:18:59,  1.38s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.527586817741394, 'learning_rate': 2.8088403889431448e-05, 'epoch': 3.78}
 16%|█▌        | 12359/78504 [7:30:47<25:18:59,  1.38s/it] 16%|█▌        | 12360/78504 [7:30:48<23:48:39,  1.30s/it]                                                          {'loss': 0.1673, 'grad_norm': 0.9603501558303833, 'learning_rate': 2.8087979279011506e-05, 'epoch': 3.78}
 16%|█▌        | 12360/78504 [7:30:48<23:48:39,  1.30s/it] 16%|█▌        | 12361/78504 [7:30:49<22:07:38,  1.20s/it]                                                          {'loss': 0.2034, 'grad_norm': 2.3503658771514893, 'learning_rate': 2.808755466859157e-05, 'epoch': 3.78}
 16%|█▌        | 12361/78504 [7:30:49<22:07:38,  1.20s/it] 16%|█▌        | 12362/78504 [7:30:50<20:37:03,  1.12s/it]                                                          {'loss': 0.2835, 'grad_norm': 0.8514179587364197, 'learning_rate': 2.8087130058171627e-05, 'epoch': 3.78}
 16%|█▌        | 12362/78504 [7:30:50<20:37:03,  1.12s/it] 16%|█▌        | 12363/78504 [7:30:51<18:34:36,  1.01s/it]                                                          {'loss': 0.2733, 'grad_norm': 1.3266047239303589, 'learning_rate': 2.808670544775169e-05, 'epoch': 3.78}
 16%|█▌        | 12363/78504 [7:30:51<18:34:36,  1.01s/it] 16%|█▌        | 12364/78504 [7:30:58<53:37:04,  2.92s/it]                                                          {'loss': 0.1562, 'grad_norm': 0.5678476095199585, 'learning_rate': 2.8086280837331748e-05, 'epoch': 3.78}
 16%|█▌        | 12364/78504 [7:30:58<53:37:04,  2.92s/it] 16%|█▌        | 12365/78504 [7:31:01<55:43:41,  3.03s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.25830110907554626, 'learning_rate': 2.808585622691181e-05, 'epoch': 3.78}
 16%|█▌        | 12365/78504 [7:31:01<55:43:41,  3.03s/it] 16%|█▌        | 12366/78504 [7:31:04<55:38:15,  3.03s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.2312336564064026, 'learning_rate': 2.808543161649187e-05, 'epoch': 3.78}
 16%|█▌        | 12366/78504 [7:31:04<55:38:15,  3.03s/it] 16%|█▌        | 12367/78504 [7:31:07<53:20:03,  2.90s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.4119085669517517, 'learning_rate': 2.808500700607193e-05, 'epoch': 3.78}
 16%|█▌        | 12367/78504 [7:31:07<53:20:03,  2.90s/it] 16%|█▌        | 12368/78504 [7:31:09<50:57:36,  2.77s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.37759414315223694, 'learning_rate': 2.808458239565199e-05, 'epoch': 3.78}
 16%|█▌        | 12368/78504 [7:31:09<50:57:36,  2.77s/it] 16%|█▌        | 12369/78504 [7:31:12<48:09:15,  2.62s/it]                                                          {'loss': 0.0554, 'grad_norm': 0.18851913511753082, 'learning_rate': 2.808415778523205e-05, 'epoch': 3.78}
 16%|█▌        | 12369/78504 [7:31:12<48:09:15,  2.62s/it] 16%|█▌        | 12370/78504 [7:31:14<46:29:29,  2.53s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.2378050535917282, 'learning_rate': 2.808373317481211e-05, 'epoch': 3.78}
 16%|█▌        | 12370/78504 [7:31:14<46:29:29,  2.53s/it] 16%|█▌        | 12371/78504 [7:31:16<44:06:37,  2.40s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.3793354332447052, 'learning_rate': 2.808330856439217e-05, 'epoch': 3.78}
 16%|█▌        | 12371/78504 [7:31:16<44:06:37,  2.40s/it] 16%|█▌        | 12372/78504 [7:31:18<42:53:11,  2.33s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.6015732288360596, 'learning_rate': 2.808288395397223e-05, 'epoch': 3.78}
 16%|█▌        | 12372/78504 [7:31:18<42:53:11,  2.33s/it] 16%|█▌        | 12373/78504 [7:31:20<41:51:28,  2.28s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.24390143156051636, 'learning_rate': 2.808245934355229e-05, 'epoch': 3.78}
 16%|█▌        | 12373/78504 [7:31:20<41:51:28,  2.28s/it] 16%|█▌        | 12374/78504 [7:31:23<40:28:46,  2.20s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.2633736729621887, 'learning_rate': 2.8082034733132352e-05, 'epoch': 3.78}
 16%|█▌        | 12374/78504 [7:31:23<40:28:46,  2.20s/it] 16%|█▌        | 12375/78504 [7:31:24<38:16:30,  2.08s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.33753344416618347, 'learning_rate': 2.808161012271241e-05, 'epoch': 3.78}
 16%|█▌        | 12375/78504 [7:31:24<38:16:30,  2.08s/it] 16%|█▌        | 12376/78504 [7:31:26<37:03:29,  2.02s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.27813705801963806, 'learning_rate': 2.8081185512292473e-05, 'epoch': 3.78}
 16%|█▌        | 12376/78504 [7:31:26<37:03:29,  2.02s/it] 16%|█▌        | 12377/78504 [7:31:28<37:16:37,  2.03s/it]                                                          {'loss': 0.1151, 'grad_norm': 0.6431933641433716, 'learning_rate': 2.808076090187253e-05, 'epoch': 3.78}
 16%|█▌        | 12377/78504 [7:31:28<37:16:37,  2.03s/it] 16%|█▌        | 12378/78504 [7:31:30<35:50:18,  1.95s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.44995835423469543, 'learning_rate': 2.8080336291452593e-05, 'epoch': 3.78}
 16%|█▌        | 12378/78504 [7:31:30<35:50:18,  1.95s/it] 16%|█▌        | 12379/78504 [7:31:32<34:07:03,  1.86s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.638580322265625, 'learning_rate': 2.8079911681032652e-05, 'epoch': 3.78}
 16%|█▌        | 12379/78504 [7:31:32<34:07:03,  1.86s/it] 16%|█▌        | 12380/78504 [7:31:33<32:15:31,  1.76s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.8659681677818298, 'learning_rate': 2.8079487070612714e-05, 'epoch': 3.78}
 16%|█▌        | 12380/78504 [7:31:33<32:15:31,  1.76s/it] 16%|█▌        | 12381/78504 [7:31:35<30:26:00,  1.66s/it]                                                          {'loss': 0.166, 'grad_norm': 0.6461348533630371, 'learning_rate': 2.8079062460192773e-05, 'epoch': 3.79}
 16%|█▌        | 12381/78504 [7:31:35<30:26:00,  1.66s/it] 16%|█▌        | 12382/78504 [7:31:36<29:02:11,  1.58s/it]                                                          {'loss': 0.1836, 'grad_norm': 1.2064989805221558, 'learning_rate': 2.8078637849772835e-05, 'epoch': 3.79}
 16%|█▌        | 12382/78504 [7:31:36<29:02:11,  1.58s/it] 16%|█▌        | 12383/78504 [7:31:37<27:04:40,  1.47s/it]                                                          {'loss': 0.1697, 'grad_norm': 0.9994871616363525, 'learning_rate': 2.8078213239352894e-05, 'epoch': 3.79}
 16%|█▌        | 12383/78504 [7:31:37<27:04:40,  1.47s/it] 16%|█▌        | 12384/78504 [7:31:38<25:11:00,  1.37s/it]                                                          {'loss': 0.2017, 'grad_norm': 0.8210234642028809, 'learning_rate': 2.8077788628932952e-05, 'epoch': 3.79}
 16%|█▌        | 12384/78504 [7:31:38<25:11:00,  1.37s/it] 16%|█▌        | 12385/78504 [7:31:39<23:38:43,  1.29s/it]                                                          {'loss': 0.2046, 'grad_norm': 1.034287691116333, 'learning_rate': 2.8077364018513014e-05, 'epoch': 3.79}
 16%|█▌        | 12385/78504 [7:31:39<23:38:43,  1.29s/it] 16%|█▌        | 12386/78504 [7:31:40<21:59:13,  1.20s/it]                                                          {'loss': 0.182, 'grad_norm': 1.4748069047927856, 'learning_rate': 2.8076939408093073e-05, 'epoch': 3.79}
 16%|█▌        | 12386/78504 [7:31:40<21:59:13,  1.20s/it] 16%|█▌        | 12387/78504 [7:31:41<20:30:48,  1.12s/it]                                                          {'loss': 0.171, 'grad_norm': 1.9795206785202026, 'learning_rate': 2.8076514797673135e-05, 'epoch': 3.79}
 16%|█▌        | 12387/78504 [7:31:41<20:30:48,  1.12s/it] 16%|█▌        | 12388/78504 [7:31:42<18:32:02,  1.01s/it]                                                          {'loss': 0.2916, 'grad_norm': 2.434643268585205, 'learning_rate': 2.8076090187253194e-05, 'epoch': 3.79}
 16%|█▌        | 12388/78504 [7:31:42<18:32:02,  1.01s/it] 16%|█▌        | 12389/78504 [7:31:50<56:20:34,  3.07s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.7861005663871765, 'learning_rate': 2.8075665576833256e-05, 'epoch': 3.79}
 16%|█▌        | 12389/78504 [7:31:50<56:20:34,  3.07s/it] 16%|█▌        | 12390/78504 [7:31:53<57:39:34,  3.14s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.8329139351844788, 'learning_rate': 2.8075240966413315e-05, 'epoch': 3.79}
 16%|█▌        | 12390/78504 [7:31:53<57:39:34,  3.14s/it] 16%|█▌        | 12391/78504 [7:31:56<56:57:19,  3.10s/it]                                                          {'loss': 0.0599, 'grad_norm': 1.0474094152450562, 'learning_rate': 2.8074816355993377e-05, 'epoch': 3.79}
 16%|█▌        | 12391/78504 [7:31:56<56:57:19,  3.10s/it] 16%|█▌        | 12392/78504 [7:31:59<54:17:00,  2.96s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.28338590264320374, 'learning_rate': 2.8074391745573435e-05, 'epoch': 3.79}
 16%|█▌        | 12392/78504 [7:31:59<54:17:00,  2.96s/it] 16%|█▌        | 12393/78504 [7:32:01<51:36:29,  2.81s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.8563012480735779, 'learning_rate': 2.8073967135153498e-05, 'epoch': 3.79}
 16%|█▌        | 12393/78504 [7:32:01<51:36:29,  2.81s/it] 16%|█▌        | 12394/78504 [7:32:04<49:30:10,  2.70s/it]                                                          {'loss': 0.069, 'grad_norm': 0.27740272879600525, 'learning_rate': 2.8073542524733556e-05, 'epoch': 3.79}
 16%|█▌        | 12394/78504 [7:32:04<49:30:10,  2.70s/it] 16%|█▌        | 12395/78504 [7:32:06<47:29:24,  2.59s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.3924362361431122, 'learning_rate': 2.807311791431362e-05, 'epoch': 3.79}
 16%|█▌        | 12395/78504 [7:32:06<47:29:24,  2.59s/it] 16%|█▌        | 12396/78504 [7:32:08<45:57:01,  2.50s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.40116220712661743, 'learning_rate': 2.8072693303893677e-05, 'epoch': 3.79}
 16%|█▌        | 12396/78504 [7:32:08<45:57:01,  2.50s/it] 16%|█▌        | 12397/78504 [7:32:11<44:16:43,  2.41s/it]                                                          {'loss': 0.069, 'grad_norm': 0.36154210567474365, 'learning_rate': 2.8072268693473736e-05, 'epoch': 3.79}
 16%|█▌        | 12397/78504 [7:32:11<44:16:43,  2.41s/it] 16%|█▌        | 12398/78504 [7:32:13<42:55:47,  2.34s/it]                                                          {'loss': 0.051, 'grad_norm': 0.24797381460666656, 'learning_rate': 2.8071844083053798e-05, 'epoch': 3.79}
 16%|█▌        | 12398/78504 [7:32:13<42:55:47,  2.34s/it] 16%|█▌        | 12399/78504 [7:32:15<40:22:04,  2.20s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.3712245225906372, 'learning_rate': 2.8071419472633857e-05, 'epoch': 3.79}
 16%|█▌        | 12399/78504 [7:32:15<40:22:04,  2.20s/it] 16%|█▌        | 12400/78504 [7:32:17<39:13:46,  2.14s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.6671234369277954, 'learning_rate': 2.807099486221392e-05, 'epoch': 3.79}
 16%|█▌        | 12400/78504 [7:32:17<39:13:46,  2.14s/it] 16%|█▌        | 12401/78504 [7:32:19<38:00:51,  2.07s/it]                                                          {'loss': 0.1227, 'grad_norm': 0.37003034353256226, 'learning_rate': 2.8070570251793977e-05, 'epoch': 3.79}
 16%|█▌        | 12401/78504 [7:32:19<38:00:51,  2.07s/it] 16%|█▌        | 12402/78504 [7:32:20<36:59:22,  2.01s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.49513179063796997, 'learning_rate': 2.807014564137404e-05, 'epoch': 3.79}
 16%|█▌        | 12402/78504 [7:32:21<36:59:22,  2.01s/it] 16%|█▌        | 12403/78504 [7:32:22<35:36:16,  1.94s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.5591790676116943, 'learning_rate': 2.8069721030954098e-05, 'epoch': 3.79}
 16%|█▌        | 12403/78504 [7:32:22<35:36:16,  1.94s/it] 16%|█▌        | 12404/78504 [7:32:24<34:00:05,  1.85s/it]                                                          {'loss': 0.1126, 'grad_norm': 0.3859288692474365, 'learning_rate': 2.806929642053416e-05, 'epoch': 3.79}
 16%|█▌        | 12404/78504 [7:32:24<34:00:05,  1.85s/it] 16%|█▌        | 12405/78504 [7:32:25<32:22:18,  1.76s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.7995820045471191, 'learning_rate': 2.806887181011422e-05, 'epoch': 3.79}
 16%|█▌        | 12405/78504 [7:32:25<32:22:18,  1.76s/it] 16%|█▌        | 12406/78504 [7:32:27<30:46:26,  1.68s/it]                                                          {'loss': 0.2026, 'grad_norm': 0.9248815178871155, 'learning_rate': 2.806844719969428e-05, 'epoch': 3.79}
 16%|█▌        | 12406/78504 [7:32:27<30:46:26,  1.68s/it] 16%|█▌        | 12407/78504 [7:32:28<29:19:06,  1.60s/it]                                                          {'loss': 0.1642, 'grad_norm': 0.5661753416061401, 'learning_rate': 2.8068022589274343e-05, 'epoch': 3.79}
 16%|█▌        | 12407/78504 [7:32:28<29:19:06,  1.60s/it] 16%|█▌        | 12408/78504 [7:32:30<27:33:59,  1.50s/it]                                                          {'loss': 0.1784, 'grad_norm': 1.5883691310882568, 'learning_rate': 2.8067597978854402e-05, 'epoch': 3.79}
 16%|█▌        | 12408/78504 [7:32:30<27:33:59,  1.50s/it] 16%|█▌        | 12409/78504 [7:32:31<25:55:36,  1.41s/it]                                                          {'loss': 0.189, 'grad_norm': 0.6325412392616272, 'learning_rate': 2.8067173368434464e-05, 'epoch': 3.79}
 16%|█▌        | 12409/78504 [7:32:31<25:55:36,  1.41s/it] 16%|█▌        | 12410/78504 [7:32:32<24:12:53,  1.32s/it]                                                          {'loss': 0.2195, 'grad_norm': 5.93735408782959, 'learning_rate': 2.8066748758014523e-05, 'epoch': 3.79}
 16%|█▌        | 12410/78504 [7:32:32<24:12:53,  1.32s/it] 16%|█▌        | 12411/78504 [7:32:33<22:46:12,  1.24s/it]                                                          {'loss': 0.2731, 'grad_norm': 1.204443097114563, 'learning_rate': 2.8066324147594585e-05, 'epoch': 3.79}
 16%|█▌        | 12411/78504 [7:32:33<22:46:12,  1.24s/it] 16%|█▌        | 12412/78504 [7:32:34<21:04:01,  1.15s/it]                                                          {'loss': 0.3064, 'grad_norm': 1.1439346075057983, 'learning_rate': 2.8065899537174643e-05, 'epoch': 3.79}
 16%|█▌        | 12412/78504 [7:32:34<21:04:01,  1.15s/it] 16%|█▌        | 12413/78504 [7:32:35<19:02:23,  1.04s/it]                                                          {'loss': 0.2966, 'grad_norm': 1.522173523902893, 'learning_rate': 2.8065474926754705e-05, 'epoch': 3.79}
 16%|█▌        | 12413/78504 [7:32:35<19:02:23,  1.04s/it] 16%|█▌        | 12414/78504 [7:32:44<64:10:55,  3.50s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.4014332890510559, 'learning_rate': 2.8065050316334764e-05, 'epoch': 3.8}
 16%|█▌        | 12414/78504 [7:32:44<64:10:55,  3.50s/it] 16%|█▌        | 12415/78504 [7:32:47<63:25:56,  3.46s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.27997058629989624, 'learning_rate': 2.8064625705914826e-05, 'epoch': 3.8}
 16%|█▌        | 12415/78504 [7:32:47<63:25:56,  3.46s/it] 16%|█▌        | 12416/78504 [7:32:50<58:33:44,  3.19s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.36205944418907166, 'learning_rate': 2.8064201095494885e-05, 'epoch': 3.8}
 16%|█▌        | 12416/78504 [7:32:50<58:33:44,  3.19s/it] 16%|█▌        | 12417/78504 [7:32:52<55:09:40,  3.00s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.24166327714920044, 'learning_rate': 2.8063776485074947e-05, 'epoch': 3.8}
 16%|█▌        | 12417/78504 [7:32:52<55:09:40,  3.00s/it] 16%|█▌        | 12418/78504 [7:32:55<52:15:58,  2.85s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.18260420858860016, 'learning_rate': 2.8063351874655006e-05, 'epoch': 3.8}
 16%|█▌        | 12418/78504 [7:32:55<52:15:58,  2.85s/it] 16%|█▌        | 12419/78504 [7:32:57<49:57:44,  2.72s/it]                                                          {'loss': 0.0434, 'grad_norm': 0.2275693267583847, 'learning_rate': 2.8062927264235068e-05, 'epoch': 3.8}
 16%|█▌        | 12419/78504 [7:32:57<49:57:44,  2.72s/it] 16%|█▌        | 12420/78504 [7:33:00<47:44:09,  2.60s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.2723166346549988, 'learning_rate': 2.8062502653815127e-05, 'epoch': 3.8}
 16%|█▌        | 12420/78504 [7:33:00<47:44:09,  2.60s/it] 16%|█▌        | 12421/78504 [7:33:02<45:01:56,  2.45s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.22989904880523682, 'learning_rate': 2.8062078043395185e-05, 'epoch': 3.8}
 16%|█▌        | 12421/78504 [7:33:02<45:01:56,  2.45s/it] 16%|█▌        | 12422/78504 [7:33:04<43:32:35,  2.37s/it]                                                          {'loss': 0.1027, 'grad_norm': 0.48757249116897583, 'learning_rate': 2.8061653432975247e-05, 'epoch': 3.8}
 16%|█▌        | 12422/78504 [7:33:04<43:32:35,  2.37s/it] 16%|█▌        | 12423/78504 [7:33:06<42:25:30,  2.31s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.3211931586265564, 'learning_rate': 2.8061228822555306e-05, 'epoch': 3.8}
 16%|█▌        | 12423/78504 [7:33:06<42:25:30,  2.31s/it] 16%|█▌        | 12424/78504 [7:33:08<40:49:56,  2.22s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.5690388083457947, 'learning_rate': 2.8060804212135368e-05, 'epoch': 3.8}
 16%|█▌        | 12424/78504 [7:33:08<40:49:56,  2.22s/it] 16%|█▌        | 12425/78504 [7:33:10<38:31:18,  2.10s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.25824373960494995, 'learning_rate': 2.8060379601715427e-05, 'epoch': 3.8}
 16%|█▌        | 12425/78504 [7:33:10<38:31:18,  2.10s/it] 16%|█▌        | 12426/78504 [7:33:12<37:12:59,  2.03s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.36754631996154785, 'learning_rate': 2.805995499129549e-05, 'epoch': 3.8}
 16%|█▌        | 12426/78504 [7:33:12<37:12:59,  2.03s/it] 16%|█▌        | 12427/78504 [7:33:14<36:07:41,  1.97s/it]                                                          {'loss': 0.173, 'grad_norm': 0.7297321557998657, 'learning_rate': 2.8059530380875548e-05, 'epoch': 3.8}
 16%|█▌        | 12427/78504 [7:33:14<36:07:41,  1.97s/it] 16%|█▌        | 12428/78504 [7:33:15<35:03:17,  1.91s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.35494324564933777, 'learning_rate': 2.805910577045561e-05, 'epoch': 3.8}
 16%|█▌        | 12428/78504 [7:33:15<35:03:17,  1.91s/it] 16%|█▌        | 12429/78504 [7:33:17<33:32:33,  1.83s/it]                                                          {'loss': 0.1357, 'grad_norm': 0.41168907284736633, 'learning_rate': 2.805868116003567e-05, 'epoch': 3.8}
 16%|█▌        | 12429/78504 [7:33:17<33:32:33,  1.83s/it] 16%|█▌        | 12430/78504 [7:33:19<31:49:39,  1.73s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.5613402128219604, 'learning_rate': 2.805825654961573e-05, 'epoch': 3.8}
 16%|█▌        | 12430/78504 [7:33:19<31:49:39,  1.73s/it] 16%|█▌        | 12431/78504 [7:33:20<30:23:31,  1.66s/it]                                                          {'loss': 0.1795, 'grad_norm': 0.5448596477508545, 'learning_rate': 2.805783193919579e-05, 'epoch': 3.8}
 16%|█▌        | 12431/78504 [7:33:20<30:23:31,  1.66s/it] 16%|█▌        | 12432/78504 [7:33:21<29:06:30,  1.59s/it]                                                          {'loss': 0.1764, 'grad_norm': 0.647794783115387, 'learning_rate': 2.805740732877585e-05, 'epoch': 3.8}
 16%|█▌        | 12432/78504 [7:33:21<29:06:30,  1.59s/it] 16%|█▌        | 12433/78504 [7:33:23<27:08:55,  1.48s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.5295434594154358, 'learning_rate': 2.805698271835591e-05, 'epoch': 3.8}
 16%|█▌        | 12433/78504 [7:33:23<27:08:55,  1.48s/it] 16%|█▌        | 12434/78504 [7:33:24<25:19:52,  1.38s/it]                                                          {'loss': 0.1919, 'grad_norm': 0.6888216137886047, 'learning_rate': 2.805655810793597e-05, 'epoch': 3.8}
 16%|█▌        | 12434/78504 [7:33:24<25:19:52,  1.38s/it] 16%|█▌        | 12435/78504 [7:33:25<23:44:35,  1.29s/it]                                                          {'loss': 0.2195, 'grad_norm': 0.7166035771369934, 'learning_rate': 2.805613349751603e-05, 'epoch': 3.8}
 16%|█▌        | 12435/78504 [7:33:25<23:44:35,  1.29s/it] 16%|█▌        | 12436/78504 [7:33:26<22:05:15,  1.20s/it]                                                          {'loss': 0.199, 'grad_norm': 2.694045066833496, 'learning_rate': 2.805570888709609e-05, 'epoch': 3.8}
 16%|█▌        | 12436/78504 [7:33:26<22:05:15,  1.20s/it] 16%|█▌        | 12437/78504 [7:33:27<20:34:56,  1.12s/it]                                                          {'loss': 0.1764, 'grad_norm': 1.24227774143219, 'learning_rate': 2.805528427667615e-05, 'epoch': 3.8}
 16%|█▌        | 12437/78504 [7:33:27<20:34:56,  1.12s/it] 16%|█▌        | 12438/78504 [7:33:28<18:42:27,  1.02s/it]                                                          {'loss': 0.284, 'grad_norm': 1.7213869094848633, 'learning_rate': 2.805485966625621e-05, 'epoch': 3.8}
 16%|█▌        | 12438/78504 [7:33:28<18:42:27,  1.02s/it] 16%|█▌        | 12439/78504 [7:33:37<62:36:10,  3.41s/it]                                                          {'loss': 0.1641, 'grad_norm': 0.5194447040557861, 'learning_rate': 2.8054435055836272e-05, 'epoch': 3.8}
 16%|█▌        | 12439/78504 [7:33:37<62:36:10,  3.41s/it] 16%|█▌        | 12440/78504 [7:33:40<61:04:34,  3.33s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.2529175579547882, 'learning_rate': 2.805401044541633e-05, 'epoch': 3.8}
 16%|█▌        | 12440/78504 [7:33:40<61:04:34,  3.33s/it] 16%|█▌        | 12441/78504 [7:33:43<59:24:07,  3.24s/it]                                                          {'loss': 0.073, 'grad_norm': 0.577483594417572, 'learning_rate': 2.8053585834996393e-05, 'epoch': 3.8}
 16%|█▌        | 12441/78504 [7:33:43<59:24:07,  3.24s/it] 16%|█▌        | 12442/78504 [7:33:45<54:54:04,  2.99s/it]                                                          {'loss': 0.0513, 'grad_norm': 0.3008013069629669, 'learning_rate': 2.8053161224576452e-05, 'epoch': 3.8}
 16%|█▌        | 12442/78504 [7:33:45<54:54:04,  2.99s/it] 16%|█▌        | 12443/78504 [7:33:48<52:02:04,  2.84s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.1449783593416214, 'learning_rate': 2.8052736614156514e-05, 'epoch': 3.8}
 16%|█▌        | 12443/78504 [7:33:48<52:02:04,  2.84s/it] 16%|█▌        | 12444/78504 [7:33:50<49:49:16,  2.72s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.20821447670459747, 'learning_rate': 2.8052312003736573e-05, 'epoch': 3.8}
 16%|█▌        | 12444/78504 [7:33:50<49:49:16,  2.72s/it] 16%|█▌        | 12445/78504 [7:33:52<47:37:32,  2.60s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.35097306966781616, 'learning_rate': 2.8051887393316635e-05, 'epoch': 3.8}
 16%|█▌        | 12445/78504 [7:33:52<47:37:32,  2.60s/it] 16%|█▌        | 12446/78504 [7:33:55<45:00:02,  2.45s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.31117650866508484, 'learning_rate': 2.8051462782896693e-05, 'epoch': 3.8}
 16%|█▌        | 12446/78504 [7:33:55<45:00:02,  2.45s/it] 16%|█▌        | 12447/78504 [7:33:57<43:31:04,  2.37s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.7909262776374817, 'learning_rate': 2.8051038172476752e-05, 'epoch': 3.81}
 16%|█▌        | 12447/78504 [7:33:57<43:31:04,  2.37s/it] 16%|█▌        | 12448/78504 [7:33:59<42:16:15,  2.30s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.2996687889099121, 'learning_rate': 2.8050613562056814e-05, 'epoch': 3.81}
 16%|█▌        | 12448/78504 [7:33:59<42:16:15,  2.30s/it] 16%|█▌        | 12449/78504 [7:34:01<39:49:48,  2.17s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.28973740339279175, 'learning_rate': 2.8050188951636873e-05, 'epoch': 3.81}
 16%|█▌        | 12449/78504 [7:34:01<39:49:48,  2.17s/it] 16%|█▌        | 12450/78504 [7:34:03<38:47:57,  2.11s/it]                                                          {'loss': 0.0679, 'grad_norm': 0.6349725723266602, 'learning_rate': 2.8049764341216935e-05, 'epoch': 3.81}
 16%|█▌        | 12450/78504 [7:34:03<38:47:57,  2.11s/it] 16%|█▌        | 12451/78504 [7:34:05<37:34:19,  2.05s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.2754019796848297, 'learning_rate': 2.8049339730796994e-05, 'epoch': 3.81}
 16%|█▌        | 12451/78504 [7:34:05<37:34:19,  2.05s/it] 16%|█▌        | 12452/78504 [7:34:06<36:37:14,  2.00s/it]                                                          {'loss': 0.137, 'grad_norm': 0.44330376386642456, 'learning_rate': 2.8048915120377056e-05, 'epoch': 3.81}
 16%|█▌        | 12452/78504 [7:34:06<36:37:14,  2.00s/it] 16%|█▌        | 12453/78504 [7:34:08<35:21:20,  1.93s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.5015212297439575, 'learning_rate': 2.8048490509957114e-05, 'epoch': 3.81}
 16%|█▌        | 12453/78504 [7:34:08<35:21:20,  1.93s/it] 16%|█▌        | 12454/78504 [7:34:10<33:26:34,  1.82s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.4138302505016327, 'learning_rate': 2.8048065899537177e-05, 'epoch': 3.81}
 16%|█▌        | 12454/78504 [7:34:10<33:26:34,  1.82s/it] 16%|█▌        | 12455/78504 [7:34:11<31:56:01,  1.74s/it]                                                          {'loss': 0.1762, 'grad_norm': 0.8856955766677856, 'learning_rate': 2.8047641289117235e-05, 'epoch': 3.81}
 16%|█▌        | 12455/78504 [7:34:11<31:56:01,  1.74s/it] 16%|█▌        | 12456/78504 [7:34:13<30:40:17,  1.67s/it]                                                          {'loss': 0.1924, 'grad_norm': 1.1740435361862183, 'learning_rate': 2.8047216678697297e-05, 'epoch': 3.81}
 16%|█▌        | 12456/78504 [7:34:13<30:40:17,  1.67s/it] 16%|█▌        | 12457/78504 [7:34:14<29:06:09,  1.59s/it]                                                          {'loss': 0.1908, 'grad_norm': 0.6348282694816589, 'learning_rate': 2.8046792068277356e-05, 'epoch': 3.81}
 16%|█▌        | 12457/78504 [7:34:14<29:06:09,  1.59s/it] 16%|█▌        | 12458/78504 [7:34:16<27:26:43,  1.50s/it]                                                          {'loss': 0.1856, 'grad_norm': 0.5664768815040588, 'learning_rate': 2.8046367457857418e-05, 'epoch': 3.81}
 16%|█▌        | 12458/78504 [7:34:16<27:26:43,  1.50s/it] 16%|█▌        | 12459/78504 [7:34:17<25:32:58,  1.39s/it]                                                          {'loss': 0.206, 'grad_norm': 0.7392383813858032, 'learning_rate': 2.8045942847437477e-05, 'epoch': 3.81}
 16%|█▌        | 12459/78504 [7:34:17<25:32:58,  1.39s/it] 16%|█▌        | 12460/78504 [7:34:18<23:57:47,  1.31s/it]                                                          {'loss': 0.1897, 'grad_norm': 0.5977333784103394, 'learning_rate': 2.8045518237017536e-05, 'epoch': 3.81}
 16%|█▌        | 12460/78504 [7:34:18<23:57:47,  1.31s/it] 16%|█▌        | 12461/78504 [7:34:19<22:13:38,  1.21s/it]                                                          {'loss': 0.2306, 'grad_norm': 0.8911076784133911, 'learning_rate': 2.8045093626597598e-05, 'epoch': 3.81}
 16%|█▌        | 12461/78504 [7:34:19<22:13:38,  1.21s/it] 16%|█▌        | 12462/78504 [7:34:20<20:39:52,  1.13s/it]                                                          {'loss': 0.2024, 'grad_norm': 1.0742074251174927, 'learning_rate': 2.8044669016177656e-05, 'epoch': 3.81}
 16%|█▌        | 12462/78504 [7:34:20<20:39:52,  1.13s/it] 16%|█▌        | 12463/78504 [7:34:21<18:49:13,  1.03s/it]                                                          {'loss': 0.2367, 'grad_norm': 1.0750017166137695, 'learning_rate': 2.804424440575772e-05, 'epoch': 3.81}
 16%|█▌        | 12463/78504 [7:34:21<18:49:13,  1.03s/it] 16%|█▌        | 12464/78504 [7:34:28<56:50:45,  3.10s/it]                                                          {'loss': 0.159, 'grad_norm': 0.4453577399253845, 'learning_rate': 2.8043819795337777e-05, 'epoch': 3.81}
 16%|█▌        | 12464/78504 [7:34:28<56:50:45,  3.10s/it] 16%|█▌        | 12465/78504 [7:34:32<58:14:15,  3.17s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.29093530774116516, 'learning_rate': 2.804339518491784e-05, 'epoch': 3.81}
 16%|█▌        | 12465/78504 [7:34:32<58:14:15,  3.17s/it] 16%|█▌        | 12466/78504 [7:34:34<54:52:06,  2.99s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.41168367862701416, 'learning_rate': 2.8042970574497898e-05, 'epoch': 3.81}
 16%|█▌        | 12466/78504 [7:34:34<54:52:06,  2.99s/it] 16%|█▌        | 12467/78504 [7:34:37<52:47:58,  2.88s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.20536379516124725, 'learning_rate': 2.804254596407796e-05, 'epoch': 3.81}
 16%|█▌        | 12467/78504 [7:34:37<52:47:58,  2.88s/it] 16%|█▌        | 12468/78504 [7:34:39<50:34:47,  2.76s/it]                                                          {'loss': 0.067, 'grad_norm': 0.34002557396888733, 'learning_rate': 2.804212135365802e-05, 'epoch': 3.81}
 16%|█▌        | 12468/78504 [7:34:39<50:34:47,  2.76s/it] 16%|█▌        | 12469/78504 [7:34:42<47:50:05,  2.61s/it]                                                          {'loss': 0.0589, 'grad_norm': 0.2336040586233139, 'learning_rate': 2.804169674323808e-05, 'epoch': 3.81}
 16%|█▌        | 12469/78504 [7:34:42<47:50:05,  2.61s/it] 16%|█▌        | 12470/78504 [7:34:44<46:14:55,  2.52s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.23405753076076508, 'learning_rate': 2.804127213281814e-05, 'epoch': 3.81}
 16%|█▌        | 12470/78504 [7:34:44<46:14:55,  2.52s/it] 16%|█▌        | 12471/78504 [7:34:46<43:59:17,  2.40s/it]                                                          {'loss': 0.0569, 'grad_norm': 0.2919888496398926, 'learning_rate': 2.80408475223982e-05, 'epoch': 3.81}
 16%|█▌        | 12471/78504 [7:34:46<43:59:17,  2.40s/it] 16%|█▌        | 12472/78504 [7:34:48<42:48:00,  2.33s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.2967952787876129, 'learning_rate': 2.804042291197826e-05, 'epoch': 3.81}
 16%|█▌        | 12472/78504 [7:34:48<42:48:00,  2.33s/it] 16%|█▌        | 12473/78504 [7:34:50<41:45:18,  2.28s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.3244171142578125, 'learning_rate': 2.803999830155832e-05, 'epoch': 3.81}
 16%|█▌        | 12473/78504 [7:34:50<41:45:18,  2.28s/it] 16%|█▌        | 12474/78504 [7:34:52<39:26:50,  2.15s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.452791690826416, 'learning_rate': 2.803957369113838e-05, 'epoch': 3.81}
 16%|█▌        | 12474/78504 [7:34:52<39:26:50,  2.15s/it] 16%|█▌        | 12475/78504 [7:34:54<38:33:10,  2.10s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.2347192019224167, 'learning_rate': 2.803914908071844e-05, 'epoch': 3.81}
 16%|█▌        | 12475/78504 [7:34:54<38:33:10,  2.10s/it] 16%|█▌        | 12476/78504 [7:34:56<37:15:17,  2.03s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.4014931321144104, 'learning_rate': 2.8038724470298502e-05, 'epoch': 3.81}
 16%|█▌        | 12476/78504 [7:34:56<37:15:17,  2.03s/it] 16%|█▌        | 12477/78504 [7:34:58<36:24:00,  1.98s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.5877811908721924, 'learning_rate': 2.803829985987856e-05, 'epoch': 3.81}
 16%|█▌        | 12477/78504 [7:34:58<36:24:00,  1.98s/it] 16%|█▌        | 12478/78504 [7:35:00<35:13:44,  1.92s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.3306513726711273, 'learning_rate': 2.8037875249458623e-05, 'epoch': 3.81}
 16%|█▌        | 12478/78504 [7:35:00<35:13:44,  1.92s/it] 16%|█▌        | 12479/78504 [7:35:01<33:43:55,  1.84s/it]                                                          {'loss': 0.131, 'grad_norm': 0.37583211064338684, 'learning_rate': 2.803745063903868e-05, 'epoch': 3.82}
 16%|█▌        | 12479/78504 [7:35:02<33:43:55,  1.84s/it] 16%|█▌        | 12480/78504 [7:35:03<32:05:24,  1.75s/it]                                                          {'loss': 0.1676, 'grad_norm': 2.0054688453674316, 'learning_rate': 2.8037026028618743e-05, 'epoch': 3.82}
 16%|█▌        | 12480/78504 [7:35:03<32:05:24,  1.75s/it] 16%|█▌        | 12481/78504 [7:35:04<30:18:17,  1.65s/it]                                                          {'loss': 0.1487, 'grad_norm': 0.6776883006095886, 'learning_rate': 2.8036601418198802e-05, 'epoch': 3.82}
 16%|█▌        | 12481/78504 [7:35:04<30:18:17,  1.65s/it] 16%|█▌        | 12482/78504 [7:35:06<29:01:03,  1.58s/it]                                                          {'loss': 0.2034, 'grad_norm': 0.6409081220626831, 'learning_rate': 2.8036176807778864e-05, 'epoch': 3.82}
 16%|█▌        | 12482/78504 [7:35:06<29:01:03,  1.58s/it] 16%|█▌        | 12483/78504 [7:35:07<27:23:00,  1.49s/it]                                                          {'loss': 0.2023, 'grad_norm': 0.6417822241783142, 'learning_rate': 2.8035752197358923e-05, 'epoch': 3.82}
 16%|█▌        | 12483/78504 [7:35:07<27:23:00,  1.49s/it] 16%|█▌        | 12484/78504 [7:35:08<25:22:15,  1.38s/it]                                                          {'loss': 0.171, 'grad_norm': 0.8259570598602295, 'learning_rate': 2.8035327586938985e-05, 'epoch': 3.82}
 16%|█▌        | 12484/78504 [7:35:08<25:22:15,  1.38s/it] 16%|█▌        | 12485/78504 [7:35:09<23:44:41,  1.29s/it]                                                          {'loss': 0.2064, 'grad_norm': 1.801918625831604, 'learning_rate': 2.8034902976519044e-05, 'epoch': 3.82}
 16%|█▌        | 12485/78504 [7:35:09<23:44:41,  1.29s/it] 16%|█▌        | 12486/78504 [7:35:10<22:06:58,  1.21s/it]                                                          {'loss': 0.2115, 'grad_norm': 0.7945690751075745, 'learning_rate': 2.8034478366099102e-05, 'epoch': 3.82}
 16%|█▌        | 12486/78504 [7:35:10<22:06:58,  1.21s/it] 16%|█▌        | 12487/78504 [7:35:11<20:42:21,  1.13s/it]                                                          {'loss': 0.2034, 'grad_norm': 0.6287004947662354, 'learning_rate': 2.8034053755679164e-05, 'epoch': 3.82}
 16%|█▌        | 12487/78504 [7:35:11<20:42:21,  1.13s/it] 16%|█▌        | 12488/78504 [7:35:12<18:50:18,  1.03s/it]                                                          {'loss': 0.2542, 'grad_norm': 1.5596656799316406, 'learning_rate': 2.8033629145259223e-05, 'epoch': 3.82}
 16%|█▌        | 12488/78504 [7:35:12<18:50:18,  1.03s/it] 16%|█▌        | 12489/78504 [7:35:21<59:31:35,  3.25s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.3610144853591919, 'learning_rate': 2.8033204534839285e-05, 'epoch': 3.82}
 16%|█▌        | 12489/78504 [7:35:21<59:31:35,  3.25s/it] 16%|█▌        | 12490/78504 [7:35:23<57:40:46,  3.15s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.6256545186042786, 'learning_rate': 2.8032779924419344e-05, 'epoch': 3.82}
 16%|█▌        | 12490/78504 [7:35:23<57:40:46,  3.15s/it] 16%|█▌        | 12491/78504 [7:35:26<56:26:02,  3.08s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.2708989977836609, 'learning_rate': 2.8032355313999406e-05, 'epoch': 3.82}
 16%|█▌        | 12491/78504 [7:35:26<56:26:02,  3.08s/it] 16%|█▌        | 12492/78504 [7:35:29<53:42:02,  2.93s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.21033187210559845, 'learning_rate': 2.8031930703579465e-05, 'epoch': 3.82}
 16%|█▌        | 12492/78504 [7:35:29<53:42:02,  2.93s/it] 16%|█▌        | 12493/78504 [7:35:31<51:10:34,  2.79s/it]                                                          {'loss': 0.0655, 'grad_norm': 1.305126428604126, 'learning_rate': 2.8031506093159527e-05, 'epoch': 3.82}
 16%|█▌        | 12493/78504 [7:35:31<51:10:34,  2.79s/it] 16%|█▌        | 12494/78504 [7:35:34<48:17:54,  2.63s/it]                                                          {'loss': 0.0396, 'grad_norm': 0.160169780254364, 'learning_rate': 2.8031081482739586e-05, 'epoch': 3.82}
 16%|█▌        | 12494/78504 [7:35:34<48:17:54,  2.63s/it] 16%|█▌        | 12495/78504 [7:35:36<46:31:39,  2.54s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.4137905538082123, 'learning_rate': 2.8030656872319648e-05, 'epoch': 3.82}
 16%|█▌        | 12495/78504 [7:35:36<46:31:39,  2.54s/it] 16%|█▌        | 12496/78504 [7:35:38<45:15:21,  2.47s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.5144973993301392, 'learning_rate': 2.8030232261899706e-05, 'epoch': 3.82}
 16%|█▌        | 12496/78504 [7:35:38<45:15:21,  2.47s/it] 16%|█▌        | 12497/78504 [7:35:40<43:40:37,  2.38s/it]                                                          {'loss': 0.0807, 'grad_norm': 0.4618794023990631, 'learning_rate': 2.802980765147977e-05, 'epoch': 3.82}
 16%|█▌        | 12497/78504 [7:35:41<43:40:37,  2.38s/it] 16%|█▌        | 12498/78504 [7:35:43<42:26:58,  2.32s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.22604918479919434, 'learning_rate': 2.8029383041059827e-05, 'epoch': 3.82}
 16%|█▌        | 12498/78504 [7:35:43<42:26:58,  2.32s/it] 16%|█▌        | 12499/78504 [7:35:45<39:55:57,  2.18s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.3566006124019623, 'learning_rate': 2.8028958430639886e-05, 'epoch': 3.82}
 16%|█▌        | 12499/78504 [7:35:45<39:55:57,  2.18s/it] 16%|█▌        | 12500/78504 [7:35:46<38:51:43,  2.12s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.26871711015701294, 'learning_rate': 2.8028533820219948e-05, 'epoch': 3.82}
 16%|█▌        | 12500/78504 [7:35:47<38:51:43,  2.12s/it] 16%|█▌        | 12501/78504 [7:35:48<37:45:03,  2.06s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.4687936007976532, 'learning_rate': 2.8028109209800007e-05, 'epoch': 3.82}
 16%|█▌        | 12501/78504 [7:35:48<37:45:03,  2.06s/it] 16%|█▌        | 12502/78504 [7:35:50<36:41:39,  2.00s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.4281185269355774, 'learning_rate': 2.802768459938007e-05, 'epoch': 3.82}
 16%|█▌        | 12502/78504 [7:35:50<36:41:39,  2.00s/it] 16%|█▌        | 12503/78504 [7:35:52<35:07:32,  1.92s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.5110422968864441, 'learning_rate': 2.8027259988960127e-05, 'epoch': 3.82}
 16%|█▌        | 12503/78504 [7:35:52<35:07:32,  1.92s/it] 16%|█▌        | 12504/78504 [7:35:54<33:36:33,  1.83s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.9024673700332642, 'learning_rate': 2.802683537854019e-05, 'epoch': 3.82}
 16%|█▌        | 12504/78504 [7:35:54<33:36:33,  1.83s/it] 16%|█▌        | 12505/78504 [7:35:55<32:00:19,  1.75s/it]                                                          {'loss': 0.1739, 'grad_norm': 0.44869598746299744, 'learning_rate': 2.8026410768120248e-05, 'epoch': 3.82}
 16%|█▌        | 12505/78504 [7:35:55<32:00:19,  1.75s/it] 16%|█▌        | 12506/78504 [7:35:57<30:33:12,  1.67s/it]                                                          {'loss': 0.1547, 'grad_norm': 0.6270476579666138, 'learning_rate': 2.802598615770031e-05, 'epoch': 3.82}
 16%|█▌        | 12506/78504 [7:35:57<30:33:12,  1.67s/it] 16%|█▌        | 12507/78504 [7:35:58<29:04:03,  1.59s/it]                                                          {'loss': 0.1736, 'grad_norm': 0.5017854571342468, 'learning_rate': 2.802556154728037e-05, 'epoch': 3.82}
 16%|█▌        | 12507/78504 [7:35:58<29:04:03,  1.59s/it] 16%|█▌        | 12508/78504 [7:35:59<27:23:06,  1.49s/it]                                                          {'loss': 0.1761, 'grad_norm': 0.5863416790962219, 'learning_rate': 2.802513693686043e-05, 'epoch': 3.82}
 16%|█▌        | 12508/78504 [7:35:59<27:23:06,  1.49s/it] 16%|█▌        | 12509/78504 [7:36:00<25:30:50,  1.39s/it]                                                          {'loss': 0.1782, 'grad_norm': 1.6251177787780762, 'learning_rate': 2.802471232644049e-05, 'epoch': 3.82}
 16%|█▌        | 12509/78504 [7:36:01<25:30:50,  1.39s/it] 16%|█▌        | 12510/78504 [7:36:02<23:56:05,  1.31s/it]                                                          {'loss': 0.1845, 'grad_norm': 2.333381414413452, 'learning_rate': 2.8024287716020552e-05, 'epoch': 3.82}
 16%|█▌        | 12510/78504 [7:36:02<23:56:05,  1.31s/it] 16%|█▌        | 12511/78504 [7:36:03<22:14:11,  1.21s/it]                                                          {'loss': 0.1805, 'grad_norm': 1.0324411392211914, 'learning_rate': 2.8023863105600614e-05, 'epoch': 3.82}
 16%|█▌        | 12511/78504 [7:36:03<22:14:11,  1.21s/it] 16%|█▌        | 12512/78504 [7:36:04<20:41:59,  1.13s/it]                                                          {'loss': 0.2176, 'grad_norm': 1.2396160364151, 'learning_rate': 2.8023438495180673e-05, 'epoch': 3.83}
 16%|█▌        | 12512/78504 [7:36:04<20:41:59,  1.13s/it] 16%|█▌        | 12513/78504 [7:36:04<18:34:48,  1.01s/it]                                                          {'loss': 0.2263, 'grad_norm': 0.9181387424468994, 'learning_rate': 2.8023013884760735e-05, 'epoch': 3.83}
 16%|█▌        | 12513/78504 [7:36:04<18:34:48,  1.01s/it] 16%|█▌        | 12514/78504 [7:36:13<61:42:54,  3.37s/it]                                                          {'loss': 0.129, 'grad_norm': 1.300673007965088, 'learning_rate': 2.8022589274340793e-05, 'epoch': 3.83}
 16%|█▌        | 12514/78504 [7:36:13<61:42:54,  3.37s/it] 16%|█▌        | 12515/78504 [7:36:16<61:37:46,  3.36s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.4328397214412689, 'learning_rate': 2.8022164663920855e-05, 'epoch': 3.83}
 16%|█▌        | 12515/78504 [7:36:16<61:37:46,  3.36s/it] 16%|█▌        | 12516/78504 [7:36:19<58:24:45,  3.19s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.23776859045028687, 'learning_rate': 2.8021740053500914e-05, 'epoch': 3.83}
 16%|█▌        | 12516/78504 [7:36:19<58:24:45,  3.19s/it] 16%|█▌        | 12517/78504 [7:36:22<55:13:54,  3.01s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.5769002437591553, 'learning_rate': 2.8021315443080976e-05, 'epoch': 3.83}
 16%|█▌        | 12517/78504 [7:36:22<55:13:54,  3.01s/it] 16%|█▌        | 12518/78504 [7:36:24<52:20:40,  2.86s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.2694486379623413, 'learning_rate': 2.8020890832661035e-05, 'epoch': 3.83}
 16%|█▌        | 12518/78504 [7:36:24<52:20:40,  2.86s/it] 16%|█▌        | 12519/78504 [7:36:27<49:58:42,  2.73s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.23653270304203033, 'learning_rate': 2.8020466222241097e-05, 'epoch': 3.83}
 16%|█▌        | 12519/78504 [7:36:27<49:58:42,  2.73s/it] 16%|█▌        | 12520/78504 [7:36:29<47:43:57,  2.60s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.31736814975738525, 'learning_rate': 2.8020041611821156e-05, 'epoch': 3.83}
 16%|█▌        | 12520/78504 [7:36:29<47:43:57,  2.60s/it] 16%|█▌        | 12521/78504 [7:36:31<45:01:15,  2.46s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.2450147420167923, 'learning_rate': 2.8019617001401218e-05, 'epoch': 3.83}
 16%|█▌        | 12521/78504 [7:36:31<45:01:15,  2.46s/it] 16%|█▌        | 12522/78504 [7:36:33<43:31:09,  2.37s/it]                                                          {'loss': 0.0883, 'grad_norm': 0.35669171810150146, 'learning_rate': 2.8019192390981277e-05, 'epoch': 3.83}
 16%|█▌        | 12522/78504 [7:36:33<43:31:09,  2.37s/it] 16%|█▌        | 12523/78504 [7:36:36<42:14:21,  2.30s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.2692742943763733, 'learning_rate': 2.8018767780561335e-05, 'epoch': 3.83}
 16%|█▌        | 12523/78504 [7:36:36<42:14:21,  2.30s/it] 16%|█▌        | 12524/78504 [7:36:38<40:30:56,  2.21s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.7210924625396729, 'learning_rate': 2.8018343170141397e-05, 'epoch': 3.83}
 16%|█▌        | 12524/78504 [7:36:38<40:30:56,  2.21s/it] 16%|█▌        | 12525/78504 [7:36:39<38:18:33,  2.09s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.26828286051750183, 'learning_rate': 2.8017918559721456e-05, 'epoch': 3.83}
 16%|█▌        | 12525/78504 [7:36:39<38:18:33,  2.09s/it] 16%|█▌        | 12526/78504 [7:36:41<37:04:20,  2.02s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.4483063220977783, 'learning_rate': 2.8017493949301518e-05, 'epoch': 3.83}
 16%|█▌        | 12526/78504 [7:36:41<37:04:20,  2.02s/it] 16%|█▌        | 12527/78504 [7:36:43<35:19:55,  1.93s/it]                                                          {'loss': 0.1, 'grad_norm': 0.26308587193489075, 'learning_rate': 2.8017069338881577e-05, 'epoch': 3.83}
 16%|█▌        | 12527/78504 [7:36:43<35:19:55,  1.93s/it] 16%|█▌        | 12528/78504 [7:36:45<34:28:14,  1.88s/it]                                                          {'loss': 0.1352, 'grad_norm': 0.5697556734085083, 'learning_rate': 2.801664472846164e-05, 'epoch': 3.83}
 16%|█▌        | 12528/78504 [7:36:45<34:28:14,  1.88s/it] 16%|█▌        | 12529/78504 [7:36:46<33:09:24,  1.81s/it]                                                          {'loss': 0.1274, 'grad_norm': 0.4635988175868988, 'learning_rate': 2.8016220118041698e-05, 'epoch': 3.83}
 16%|█▌        | 12529/78504 [7:36:46<33:09:24,  1.81s/it] 16%|█▌        | 12530/78504 [7:36:48<31:32:21,  1.72s/it]                                                          {'loss': 0.1753, 'grad_norm': 0.4893168807029724, 'learning_rate': 2.801579550762176e-05, 'epoch': 3.83}
 16%|█▌        | 12530/78504 [7:36:48<31:32:21,  1.72s/it] 16%|█▌        | 12531/78504 [7:36:49<29:56:37,  1.63s/it]                                                          {'loss': 0.1439, 'grad_norm': 0.48305267095565796, 'learning_rate': 2.801537089720182e-05, 'epoch': 3.83}
 16%|█▌        | 12531/78504 [7:36:49<29:56:37,  1.63s/it] 16%|█▌        | 12532/78504 [7:36:51<28:45:56,  1.57s/it]                                                          {'loss': 0.2114, 'grad_norm': 0.6316514611244202, 'learning_rate': 2.801494628678188e-05, 'epoch': 3.83}
 16%|█▌        | 12532/78504 [7:36:51<28:45:56,  1.57s/it] 16%|█▌        | 12533/78504 [7:36:52<27:01:00,  1.47s/it]                                                          {'loss': 0.1659, 'grad_norm': 1.4565715789794922, 'learning_rate': 2.801452167636194e-05, 'epoch': 3.83}
 16%|█▌        | 12533/78504 [7:36:52<27:01:00,  1.47s/it] 16%|█▌        | 12534/78504 [7:36:53<25:08:07,  1.37s/it]                                                          {'loss': 0.1726, 'grad_norm': 1.0363441705703735, 'learning_rate': 2.8014097065942e-05, 'epoch': 3.83}
 16%|█▌        | 12534/78504 [7:36:53<25:08:07,  1.37s/it] 16%|█▌        | 12535/78504 [7:36:54<23:35:47,  1.29s/it]                                                          {'loss': 0.1549, 'grad_norm': 1.0533645153045654, 'learning_rate': 2.801367245552206e-05, 'epoch': 3.83}
 16%|█▌        | 12535/78504 [7:36:54<23:35:47,  1.29s/it] 16%|█▌        | 12536/78504 [7:36:55<21:59:52,  1.20s/it]                                                          {'loss': 0.1964, 'grad_norm': 1.7414759397506714, 'learning_rate': 2.801324784510212e-05, 'epoch': 3.83}
 16%|█▌        | 12536/78504 [7:36:55<21:59:52,  1.20s/it] 16%|█▌        | 12537/78504 [7:36:56<20:31:31,  1.12s/it]                                                          {'loss': 0.2153, 'grad_norm': 1.8061569929122925, 'learning_rate': 2.801282323468218e-05, 'epoch': 3.83}
 16%|█▌        | 12537/78504 [7:36:56<20:31:31,  1.12s/it] 16%|█▌        | 12538/78504 [7:36:57<18:41:52,  1.02s/it]                                                          {'loss': 0.2554, 'grad_norm': 1.8790183067321777, 'learning_rate': 2.801239862426224e-05, 'epoch': 3.83}
 16%|█▌        | 12538/78504 [7:36:57<18:41:52,  1.02s/it] 16%|█▌        | 12539/78504 [7:37:05<60:03:27,  3.28s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.4284478425979614, 'learning_rate': 2.80119740138423e-05, 'epoch': 3.83}
 16%|█▌        | 12539/78504 [7:37:05<60:03:27,  3.28s/it] 16%|█▌        | 12540/78504 [7:37:08<57:59:23,  3.16s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.29985204339027405, 'learning_rate': 2.801154940342236e-05, 'epoch': 3.83}
 16%|█▌        | 12540/78504 [7:37:08<57:59:23,  3.16s/it] 16%|█▌        | 12541/78504 [7:37:11<54:39:22,  2.98s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.30905768275260925, 'learning_rate': 2.8011124793002422e-05, 'epoch': 3.83}
 16%|█▌        | 12541/78504 [7:37:11<54:39:22,  2.98s/it] 16%|█▌        | 12542/78504 [7:37:13<52:38:02,  2.87s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.2637423574924469, 'learning_rate': 2.801070018258248e-05, 'epoch': 3.83}
 16%|█▌        | 12542/78504 [7:37:14<52:38:02,  2.87s/it] 16%|█▌        | 12543/78504 [7:37:16<50:23:54,  2.75s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.326328843832016, 'learning_rate': 2.8010275572162543e-05, 'epoch': 3.83}
 16%|█▌        | 12543/78504 [7:37:16<50:23:54,  2.75s/it] 16%|█▌        | 12544/78504 [7:37:18<47:45:47,  2.61s/it]                                                          {'loss': 0.0405, 'grad_norm': 0.19063879549503326, 'learning_rate': 2.8009850961742602e-05, 'epoch': 3.83}
 16%|█▌        | 12544/78504 [7:37:18<47:45:47,  2.61s/it] 16%|█▌        | 12545/78504 [7:37:21<46:09:58,  2.52s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.2287713587284088, 'learning_rate': 2.8009426351322664e-05, 'epoch': 3.84}
 16%|█▌        | 12545/78504 [7:37:21<46:09:58,  2.52s/it] 16%|█▌        | 12546/78504 [7:37:23<43:54:32,  2.40s/it]                                                          {'loss': 0.096, 'grad_norm': 0.452837198972702, 'learning_rate': 2.8009001740902723e-05, 'epoch': 3.84}
 16%|█▌        | 12546/78504 [7:37:23<43:54:32,  2.40s/it] 16%|█▌        | 12547/78504 [7:37:25<42:46:50,  2.34s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.2401670664548874, 'learning_rate': 2.8008577130482785e-05, 'epoch': 3.84}
 16%|█▌        | 12547/78504 [7:37:25<42:46:50,  2.34s/it] 16%|█▌        | 12548/78504 [7:37:27<41:49:58,  2.28s/it]                                                          {'loss': 0.055, 'grad_norm': 0.3243342936038971, 'learning_rate': 2.8008152520062843e-05, 'epoch': 3.84}
 16%|█▌        | 12548/78504 [7:37:27<41:49:58,  2.28s/it] 16%|█▌        | 12549/78504 [7:37:29<39:30:57,  2.16s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.7515826225280762, 'learning_rate': 2.8007727909642902e-05, 'epoch': 3.84}
 16%|█▌        | 12549/78504 [7:37:29<39:30:57,  2.16s/it] 16%|█▌        | 12550/78504 [7:37:31<38:35:57,  2.11s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.36215806007385254, 'learning_rate': 2.8007303299222964e-05, 'epoch': 3.84}
 16%|█▌        | 12550/78504 [7:37:31<38:35:57,  2.11s/it] 16%|█▌        | 12551/78504 [7:37:33<37:34:13,  2.05s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.8725994229316711, 'learning_rate': 2.8006878688803023e-05, 'epoch': 3.84}
 16%|█▌        | 12551/78504 [7:37:33<37:34:13,  2.05s/it] 16%|█▌        | 12552/78504 [7:37:35<36:40:56,  2.00s/it]                                                          {'loss': 0.114, 'grad_norm': 0.5560895800590515, 'learning_rate': 2.8006454078383085e-05, 'epoch': 3.84}
 16%|█▌        | 12552/78504 [7:37:35<36:40:56,  2.00s/it] 16%|█▌        | 12553/78504 [7:37:36<35:22:02,  1.93s/it]                                                          {'loss': 0.1194, 'grad_norm': 0.7655998468399048, 'learning_rate': 2.8006029467963144e-05, 'epoch': 3.84}
 16%|█▌        | 12553/78504 [7:37:36<35:22:02,  1.93s/it] 16%|█▌        | 12554/78504 [7:37:38<33:51:19,  1.85s/it]                                                          {'loss': 0.1449, 'grad_norm': 1.0297931432724, 'learning_rate': 2.8005604857543206e-05, 'epoch': 3.84}
 16%|█▌        | 12554/78504 [7:37:38<33:51:19,  1.85s/it] 16%|█▌        | 12555/78504 [7:37:40<32:12:30,  1.76s/it]                                                          {'loss': 0.1435, 'grad_norm': 0.7554863691329956, 'learning_rate': 2.8005180247123264e-05, 'epoch': 3.84}
 16%|█▌        | 12555/78504 [7:37:40<32:12:30,  1.76s/it] 16%|█▌        | 12556/78504 [7:37:41<30:37:51,  1.67s/it]                                                          {'loss': 0.1929, 'grad_norm': 0.515485942363739, 'learning_rate': 2.8004755636703327e-05, 'epoch': 3.84}
 16%|█▌        | 12556/78504 [7:37:41<30:37:51,  1.67s/it] 16%|█▌        | 12557/78504 [7:37:43<29:13:57,  1.60s/it]                                                          {'loss': 0.1654, 'grad_norm': 1.1851871013641357, 'learning_rate': 2.8004331026283385e-05, 'epoch': 3.84}
 16%|█▌        | 12557/78504 [7:37:43<29:13:57,  1.60s/it] 16%|█▌        | 12558/78504 [7:37:44<27:31:41,  1.50s/it]                                                          {'loss': 0.1571, 'grad_norm': 0.63059401512146, 'learning_rate': 2.8003906415863447e-05, 'epoch': 3.84}
 16%|█▌        | 12558/78504 [7:37:44<27:31:41,  1.50s/it] 16%|█▌        | 12559/78504 [7:37:45<25:36:35,  1.40s/it]                                                          {'loss': 0.1941, 'grad_norm': 1.18667733669281, 'learning_rate': 2.8003481805443506e-05, 'epoch': 3.84}
 16%|█▌        | 12559/78504 [7:37:45<25:36:35,  1.40s/it] 16%|█▌        | 12560/78504 [7:37:46<23:53:24,  1.30s/it]                                                          {'loss': 0.1935, 'grad_norm': 0.7809451818466187, 'learning_rate': 2.8003057195023568e-05, 'epoch': 3.84}
 16%|█▌        | 12560/78504 [7:37:46<23:53:24,  1.30s/it] 16%|█▌        | 12561/78504 [7:37:47<22:29:28,  1.23s/it]                                                          {'loss': 0.2072, 'grad_norm': 0.8438601493835449, 'learning_rate': 2.8002632584603627e-05, 'epoch': 3.84}
 16%|█▌        | 12561/78504 [7:37:47<22:29:28,  1.23s/it] 16%|█▌        | 12562/78504 [7:37:48<20:52:05,  1.14s/it]                                                          {'loss': 0.2336, 'grad_norm': 2.006354808807373, 'learning_rate': 2.8002207974183686e-05, 'epoch': 3.84}
 16%|█▌        | 12562/78504 [7:37:48<20:52:05,  1.14s/it] 16%|█▌        | 12563/78504 [7:37:49<19:00:07,  1.04s/it]                                                          {'loss': 0.1999, 'grad_norm': 3.0057387351989746, 'learning_rate': 2.8001783363763748e-05, 'epoch': 3.84}
 16%|█▌        | 12563/78504 [7:37:49<19:00:07,  1.04s/it] 16%|█▌        | 12564/78504 [7:37:59<69:46:58,  3.81s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.9902729988098145, 'learning_rate': 2.8001358753343806e-05, 'epoch': 3.84}
 16%|█▌        | 12564/78504 [7:37:59<69:46:58,  3.81s/it] 16%|█▌        | 12565/78504 [7:38:02<64:51:12,  3.54s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.32469627261161804, 'learning_rate': 2.800093414292387e-05, 'epoch': 3.84}
 16%|█▌        | 12565/78504 [7:38:02<64:51:12,  3.54s/it] 16%|█▌        | 12566/78504 [7:38:05<61:26:39,  3.35s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.2715981900691986, 'learning_rate': 2.8000509532503927e-05, 'epoch': 3.84}
 16%|█▌        | 12566/78504 [7:38:05<61:26:39,  3.35s/it] 16%|█▌        | 12567/78504 [7:38:08<57:11:19,  3.12s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.6270651817321777, 'learning_rate': 2.800008492208399e-05, 'epoch': 3.84}
 16%|█▌        | 12567/78504 [7:38:08<57:11:19,  3.12s/it] 16%|█▌        | 12568/78504 [7:38:10<53:44:05,  2.93s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.3507998585700989, 'learning_rate': 2.7999660311664048e-05, 'epoch': 3.84}
 16%|█▌        | 12568/78504 [7:38:10<53:44:05,  2.93s/it] 16%|█▌        | 12569/78504 [7:38:12<51:06:42,  2.79s/it]                                                          {'loss': 0.0517, 'grad_norm': 0.574167788028717, 'learning_rate': 2.799923570124411e-05, 'epoch': 3.84}
 16%|█▌        | 12569/78504 [7:38:12<51:06:42,  2.79s/it] 16%|█▌        | 12570/78504 [7:38:15<48:34:11,  2.65s/it]                                                          {'loss': 0.0498, 'grad_norm': 0.2529152035713196, 'learning_rate': 2.799881109082417e-05, 'epoch': 3.84}
 16%|█▌        | 12570/78504 [7:38:15<48:34:11,  2.65s/it] 16%|█▌        | 12571/78504 [7:38:17<46:39:22,  2.55s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.422122061252594, 'learning_rate': 2.799838648040423e-05, 'epoch': 3.84}
 16%|█▌        | 12571/78504 [7:38:17<46:39:22,  2.55s/it] 16%|█▌        | 12572/78504 [7:38:19<44:40:16,  2.44s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.32984450459480286, 'learning_rate': 2.799796186998429e-05, 'epoch': 3.84}
 16%|█▌        | 12572/78504 [7:38:19<44:40:16,  2.44s/it] 16%|█▌        | 12573/78504 [7:38:21<43:03:04,  2.35s/it]                                                          {'loss': 0.1141, 'grad_norm': 0.36713382601737976, 'learning_rate': 2.799753725956435e-05, 'epoch': 3.84}
 16%|█▌        | 12573/78504 [7:38:21<43:03:04,  2.35s/it] 16%|█▌        | 12574/78504 [7:38:23<41:14:40,  2.25s/it]                                                          {'loss': 0.1025, 'grad_norm': 0.31342530250549316, 'learning_rate': 2.799711264914441e-05, 'epoch': 3.84}
 16%|█▌        | 12574/78504 [7:38:23<41:14:40,  2.25s/it] 16%|█▌        | 12575/78504 [7:38:25<39:47:28,  2.17s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.31111860275268555, 'learning_rate': 2.799668803872447e-05, 'epoch': 3.84}
 16%|█▌        | 12575/78504 [7:38:25<39:47:28,  2.17s/it] 16%|█▌        | 12576/78504 [7:38:27<38:06:59,  2.08s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.5451996326446533, 'learning_rate': 2.799626342830453e-05, 'epoch': 3.84}
 16%|█▌        | 12576/78504 [7:38:27<38:06:59,  2.08s/it] 16%|█▌        | 12577/78504 [7:38:29<36:58:52,  2.02s/it]                                                          {'loss': 0.1148, 'grad_norm': 0.4682769179344177, 'learning_rate': 2.799583881788459e-05, 'epoch': 3.85}
 16%|█▌        | 12577/78504 [7:38:29<36:58:52,  2.02s/it] 16%|█▌        | 12578/78504 [7:38:31<35:35:15,  1.94s/it]                                                          {'loss': 0.1655, 'grad_norm': 0.5644345879554749, 'learning_rate': 2.7995414207464652e-05, 'epoch': 3.85}
 16%|█▌        | 12578/78504 [7:38:31<35:35:15,  1.94s/it] 16%|█▌        | 12579/78504 [7:38:33<33:58:26,  1.86s/it]                                                          {'loss': 0.1556, 'grad_norm': 0.493988037109375, 'learning_rate': 2.799498959704471e-05, 'epoch': 3.85}
 16%|█▌        | 12579/78504 [7:38:33<33:58:26,  1.86s/it] 16%|█▌        | 12580/78504 [7:38:34<32:15:11,  1.76s/it]                                                          {'loss': 0.1499, 'grad_norm': 1.160312533378601, 'learning_rate': 2.7994564986624773e-05, 'epoch': 3.85}
 16%|█▌        | 12580/78504 [7:38:34<32:15:11,  1.76s/it] 16%|█▌        | 12581/78504 [7:38:36<30:40:02,  1.67s/it]                                                          {'loss': 0.1706, 'grad_norm': 0.6152557134628296, 'learning_rate': 2.799414037620483e-05, 'epoch': 3.85}
 16%|█▌        | 12581/78504 [7:38:36<30:40:02,  1.67s/it] 16%|█▌        | 12582/78504 [7:38:37<29:14:28,  1.60s/it]                                                          {'loss': 0.165, 'grad_norm': 0.9207544922828674, 'learning_rate': 2.7993715765784893e-05, 'epoch': 3.85}
 16%|█▌        | 12582/78504 [7:38:37<29:14:28,  1.60s/it] 16%|█▌        | 12583/78504 [7:38:38<27:30:10,  1.50s/it]                                                          {'loss': 0.1756, 'grad_norm': 0.6837823390960693, 'learning_rate': 2.7993291155364952e-05, 'epoch': 3.85}
 16%|█▌        | 12583/78504 [7:38:38<27:30:10,  1.50s/it] 16%|█▌        | 12584/78504 [7:38:39<25:31:45,  1.39s/it]                                                          {'loss': 0.1899, 'grad_norm': 1.2024978399276733, 'learning_rate': 2.7992866544945014e-05, 'epoch': 3.85}
 16%|█▌        | 12584/78504 [7:38:39<25:31:45,  1.39s/it] 16%|█▌        | 12585/78504 [7:38:41<23:53:00,  1.30s/it]                                                          {'loss': 0.2255, 'grad_norm': 1.5102390050888062, 'learning_rate': 2.7992441934525073e-05, 'epoch': 3.85}
 16%|█▌        | 12585/78504 [7:38:41<23:53:00,  1.30s/it] 16%|█▌        | 12586/78504 [7:38:42<22:29:12,  1.23s/it]                                                          {'loss': 0.1948, 'grad_norm': 1.9135948419570923, 'learning_rate': 2.7992017324105135e-05, 'epoch': 3.85}
 16%|█▌        | 12586/78504 [7:38:42<22:29:12,  1.23s/it] 16%|█▌        | 12587/78504 [7:38:43<20:47:28,  1.14s/it]                                                          {'loss': 0.2104, 'grad_norm': 1.4196580648422241, 'learning_rate': 2.7991592713685194e-05, 'epoch': 3.85}
 16%|█▌        | 12587/78504 [7:38:43<20:47:28,  1.14s/it] 16%|█▌        | 12588/78504 [7:38:43<18:49:08,  1.03s/it]                                                          {'loss': 0.2784, 'grad_norm': 2.9157817363739014, 'learning_rate': 2.7991168103265252e-05, 'epoch': 3.85}
 16%|█▌        | 12588/78504 [7:38:43<18:49:08,  1.03s/it] 16%|█▌        | 12589/78504 [7:38:54<71:22:27,  3.90s/it]                                                          {'loss': 0.1589, 'grad_norm': 0.36820700764656067, 'learning_rate': 2.7990743492845314e-05, 'epoch': 3.85}
 16%|█▌        | 12589/78504 [7:38:54<71:22:27,  3.90s/it] 16%|█▌        | 12590/78504 [7:38:57<65:55:35,  3.60s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.41592395305633545, 'learning_rate': 2.7990318882425373e-05, 'epoch': 3.85}
 16%|█▌        | 12590/78504 [7:38:57<65:55:35,  3.60s/it] 16%|█▌        | 12591/78504 [7:39:00<62:11:59,  3.40s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.2291109561920166, 'learning_rate': 2.7989894272005435e-05, 'epoch': 3.85}
 16%|█▌        | 12591/78504 [7:39:00<62:11:59,  3.40s/it] 16%|█▌        | 12592/78504 [7:39:02<57:41:51,  3.15s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.3152850866317749, 'learning_rate': 2.7989469661585494e-05, 'epoch': 3.85}
 16%|█▌        | 12592/78504 [7:39:02<57:41:51,  3.15s/it] 16%|█▌        | 12593/78504 [7:39:05<54:04:27,  2.95s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.2040436714887619, 'learning_rate': 2.7989045051165556e-05, 'epoch': 3.85}
 16%|█▌        | 12593/78504 [7:39:05<54:04:27,  2.95s/it] 16%|█▌        | 12594/78504 [7:39:07<51:11:55,  2.80s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.29800984263420105, 'learning_rate': 2.7988620440745615e-05, 'epoch': 3.85}
 16%|█▌        | 12594/78504 [7:39:07<51:11:55,  2.80s/it] 16%|█▌        | 12595/78504 [7:39:10<48:36:25,  2.65s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.4038722515106201, 'learning_rate': 2.7988195830325677e-05, 'epoch': 3.85}
 16%|█▌        | 12595/78504 [7:39:10<48:36:25,  2.65s/it] 16%|█▌        | 12596/78504 [7:39:12<46:40:10,  2.55s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.31257036328315735, 'learning_rate': 2.7987771219905736e-05, 'epoch': 3.85}
 16%|█▌        | 12596/78504 [7:39:12<46:40:10,  2.55s/it] 16%|█▌        | 12597/78504 [7:39:14<43:56:52,  2.40s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.27754515409469604, 'learning_rate': 2.7987346609485798e-05, 'epoch': 3.85}
 16%|█▌        | 12597/78504 [7:39:14<43:56:52,  2.40s/it] 16%|█▌        | 12598/78504 [7:39:16<42:29:32,  2.32s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.3895576298236847, 'learning_rate': 2.7986921999065856e-05, 'epoch': 3.85}
 16%|█▌        | 12598/78504 [7:39:16<42:29:32,  2.32s/it] 16%|█▌        | 12599/78504 [7:39:18<40:52:55,  2.23s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.2481229305267334, 'learning_rate': 2.798649738864592e-05, 'epoch': 3.85}
 16%|█▌        | 12599/78504 [7:39:18<40:52:55,  2.23s/it] 16%|█▌        | 12600/78504 [7:39:20<39:35:02,  2.16s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.30456846952438354, 'learning_rate': 2.7986072778225977e-05, 'epoch': 3.85}
 16%|█▌        | 12600/78504 [7:39:20<39:35:02,  2.16s/it] 16%|█▌        | 12601/78504 [7:39:22<37:29:30,  2.05s/it]                                                          {'loss': 0.1176, 'grad_norm': 0.31840184330940247, 'learning_rate': 2.7985648167806036e-05, 'epoch': 3.85}
 16%|█▌        | 12601/78504 [7:39:22<37:29:30,  2.05s/it] 16%|█▌        | 12602/78504 [7:39:24<36:34:39,  2.00s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.4634588956832886, 'learning_rate': 2.7985223557386098e-05, 'epoch': 3.85}
 16%|█▌        | 12602/78504 [7:39:24<36:34:39,  2.00s/it] 16%|█▌        | 12603/78504 [7:39:25<35:18:26,  1.93s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.5182746052742004, 'learning_rate': 2.7984798946966157e-05, 'epoch': 3.85}
 16%|█▌        | 12603/78504 [7:39:26<35:18:26,  1.93s/it] 16%|█▌        | 12604/78504 [7:39:27<33:23:53,  1.82s/it]                                                          {'loss': 0.1287, 'grad_norm': 0.5427331328392029, 'learning_rate': 2.798437433654622e-05, 'epoch': 3.85}
 16%|█▌        | 12604/78504 [7:39:27<33:23:53,  1.82s/it] 16%|█▌        | 12605/78504 [7:39:29<31:50:46,  1.74s/it]                                                          {'loss': 0.1676, 'grad_norm': 1.8184666633605957, 'learning_rate': 2.7983949726126277e-05, 'epoch': 3.85}
 16%|█▌        | 12605/78504 [7:39:29<31:50:46,  1.74s/it] 16%|█▌        | 12606/78504 [7:39:30<30:36:17,  1.67s/it]                                                          {'loss': 0.1504, 'grad_norm': 0.5097066164016724, 'learning_rate': 2.798352511570634e-05, 'epoch': 3.85}
 16%|█▌        | 12606/78504 [7:39:30<30:36:17,  1.67s/it] 16%|█▌        | 12607/78504 [7:39:32<29:13:00,  1.60s/it]                                                          {'loss': 0.2091, 'grad_norm': 0.7392906546592712, 'learning_rate': 2.7983100505286398e-05, 'epoch': 3.85}
 16%|█▌        | 12607/78504 [7:39:32<29:13:00,  1.60s/it] 16%|█▌        | 12608/78504 [7:39:33<27:31:51,  1.50s/it]                                                          {'loss': 0.1812, 'grad_norm': 1.1194647550582886, 'learning_rate': 2.798267589486646e-05, 'epoch': 3.85}
 16%|█▌        | 12608/78504 [7:39:33<27:31:51,  1.50s/it] 16%|█▌        | 12609/78504 [7:39:34<25:51:54,  1.41s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.6930502653121948, 'learning_rate': 2.798225128444652e-05, 'epoch': 3.85}
 16%|█▌        | 12609/78504 [7:39:34<25:51:54,  1.41s/it] 16%|█▌        | 12610/78504 [7:39:35<24:07:45,  1.32s/it]                                                          {'loss': 0.1638, 'grad_norm': 0.6558812856674194, 'learning_rate': 2.798182667402658e-05, 'epoch': 3.86}
 16%|█▌        | 12610/78504 [7:39:35<24:07:45,  1.32s/it] 16%|█▌        | 12611/78504 [7:39:36<22:44:38,  1.24s/it]                                                          {'loss': 0.1961, 'grad_norm': 0.641684889793396, 'learning_rate': 2.798140206360664e-05, 'epoch': 3.86}
 16%|█▌        | 12611/78504 [7:39:36<22:44:38,  1.24s/it] 16%|█▌        | 12612/78504 [7:39:37<21:02:17,  1.15s/it]                                                          {'loss': 0.2064, 'grad_norm': 0.7383394241333008, 'learning_rate': 2.7980977453186702e-05, 'epoch': 3.86}
 16%|█▌        | 12612/78504 [7:39:37<21:02:17,  1.15s/it] 16%|█▌        | 12613/78504 [7:39:38<19:07:49,  1.05s/it]                                                          {'loss': 0.2561, 'grad_norm': 1.2290722131729126, 'learning_rate': 2.7980552842766764e-05, 'epoch': 3.86}
 16%|█▌        | 12613/78504 [7:39:38<19:07:49,  1.05s/it] 16%|█▌        | 12614/78504 [7:39:45<53:49:23,  2.94s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.3651379942893982, 'learning_rate': 2.7980128232346823e-05, 'epoch': 3.86}
 16%|█▌        | 12614/78504 [7:39:45<53:49:23,  2.94s/it] 16%|█▌        | 12615/78504 [7:39:48<53:38:41,  2.93s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.5255253314971924, 'learning_rate': 2.7979703621926885e-05, 'epoch': 3.86}
 16%|█▌        | 12615/78504 [7:39:48<53:38:41,  2.93s/it] 16%|█▌        | 12616/78504 [7:39:51<51:37:30,  2.82s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.3543580174446106, 'learning_rate': 2.7979279011506943e-05, 'epoch': 3.86}
 16%|█▌        | 12616/78504 [7:39:51<51:37:30,  2.82s/it] 16%|█▌        | 12617/78504 [7:39:53<50:18:43,  2.75s/it]                                                          {'loss': 0.078, 'grad_norm': 0.26084062457084656, 'learning_rate': 2.7978854401087006e-05, 'epoch': 3.86}
 16%|█▌        | 12617/78504 [7:39:53<50:18:43,  2.75s/it] 16%|█▌        | 12618/78504 [7:39:56<48:54:12,  2.67s/it]                                                          {'loss': 0.045, 'grad_norm': 0.2819722592830658, 'learning_rate': 2.7978429790667064e-05, 'epoch': 3.86}
 16%|█▌        | 12618/78504 [7:39:56<48:54:12,  2.67s/it] 16%|█▌        | 12619/78504 [7:39:58<47:43:21,  2.61s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.5434988737106323, 'learning_rate': 2.7978005180247126e-05, 'epoch': 3.86}
 16%|█▌        | 12619/78504 [7:39:58<47:43:21,  2.61s/it] 16%|█▌        | 12620/78504 [7:40:01<46:06:43,  2.52s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.35328054428100586, 'learning_rate': 2.7977580569827185e-05, 'epoch': 3.86}
 16%|█▌        | 12620/78504 [7:40:01<46:06:43,  2.52s/it] 16%|█▌        | 12621/78504 [7:40:03<43:53:48,  2.40s/it]                                                          {'loss': 0.071, 'grad_norm': 0.38560211658477783, 'learning_rate': 2.7977155959407247e-05, 'epoch': 3.86}
 16%|█▌        | 12621/78504 [7:40:03<43:53:48,  2.40s/it] 16%|█▌        | 12622/78504 [7:40:05<42:43:18,  2.33s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.3137490451335907, 'learning_rate': 2.7976731348987306e-05, 'epoch': 3.86}
 16%|█▌        | 12622/78504 [7:40:05<42:43:18,  2.33s/it] 16%|█▌        | 12623/78504 [7:40:07<41:39:15,  2.28s/it]                                                          {'loss': 0.047, 'grad_norm': 0.2651955187320709, 'learning_rate': 2.7976306738567368e-05, 'epoch': 3.86}
 16%|█▌        | 12623/78504 [7:40:07<41:39:15,  2.28s/it] 16%|█▌        | 12624/78504 [7:40:09<40:11:03,  2.20s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.40356528759002686, 'learning_rate': 2.7975882128147427e-05, 'epoch': 3.86}
 16%|█▌        | 12624/78504 [7:40:09<40:11:03,  2.20s/it] 16%|█▌        | 12625/78504 [7:40:11<39:02:22,  2.13s/it]                                                          {'loss': 0.0822, 'grad_norm': 0.30936551094055176, 'learning_rate': 2.797545751772749e-05, 'epoch': 3.86}
 16%|█▌        | 12625/78504 [7:40:11<39:02:22,  2.13s/it] 16%|█▌        | 12626/78504 [7:40:13<37:32:21,  2.05s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.6283523440361023, 'learning_rate': 2.7975032907307547e-05, 'epoch': 3.86}
 16%|█▌        | 12626/78504 [7:40:13<37:32:21,  2.05s/it] 16%|█▌        | 12627/78504 [7:40:15<36:24:09,  1.99s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.4646620750427246, 'learning_rate': 2.7974608296887606e-05, 'epoch': 3.86}
 16%|█▌        | 12627/78504 [7:40:15<36:24:09,  1.99s/it] 16%|█▌        | 12628/78504 [7:40:17<35:12:18,  1.92s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.41724637150764465, 'learning_rate': 2.7974183686467668e-05, 'epoch': 3.86}
 16%|█▌        | 12628/78504 [7:40:17<35:12:18,  1.92s/it] 16%|█▌        | 12629/78504 [7:40:18<33:43:29,  1.84s/it]                                                          {'loss': 0.1287, 'grad_norm': 1.8181302547454834, 'learning_rate': 2.7973759076047727e-05, 'epoch': 3.86}
 16%|█▌        | 12629/78504 [7:40:18<33:43:29,  1.84s/it] 16%|█▌        | 12630/78504 [7:40:20<32:04:21,  1.75s/it]                                                          {'loss': 0.1679, 'grad_norm': 0.49251216650009155, 'learning_rate': 2.797333446562779e-05, 'epoch': 3.86}
 16%|█▌        | 12630/78504 [7:40:20<32:04:21,  1.75s/it] 16%|█▌        | 12631/78504 [7:40:21<30:47:16,  1.68s/it]                                                          {'loss': 0.1862, 'grad_norm': 0.5658133029937744, 'learning_rate': 2.7972909855207848e-05, 'epoch': 3.86}
 16%|█▌        | 12631/78504 [7:40:21<30:47:16,  1.68s/it] 16%|█▌        | 12632/78504 [7:40:23<29:15:39,  1.60s/it]                                                          {'loss': 0.19, 'grad_norm': 1.3713531494140625, 'learning_rate': 2.797248524478791e-05, 'epoch': 3.86}
 16%|█▌        | 12632/78504 [7:40:23<29:15:39,  1.60s/it] 16%|█▌        | 12633/78504 [7:40:24<27:29:19,  1.50s/it]                                                          {'loss': 0.1727, 'grad_norm': 1.6456631422042847, 'learning_rate': 2.797206063436797e-05, 'epoch': 3.86}
 16%|█▌        | 12633/78504 [7:40:24<27:29:19,  1.50s/it] 16%|█▌        | 12634/78504 [7:40:25<25:34:16,  1.40s/it]                                                          {'loss': 0.1963, 'grad_norm': 0.6230593919754028, 'learning_rate': 2.797163602394803e-05, 'epoch': 3.86}
 16%|█▌        | 12634/78504 [7:40:25<25:34:16,  1.40s/it] 16%|█▌        | 12635/78504 [7:40:26<23:57:39,  1.31s/it]                                                          {'loss': 0.1714, 'grad_norm': 1.5822346210479736, 'learning_rate': 2.797121141352809e-05, 'epoch': 3.86}
 16%|█▌        | 12635/78504 [7:40:26<23:57:39,  1.31s/it] 16%|█▌        | 12636/78504 [7:40:27<22:12:42,  1.21s/it]                                                          {'loss': 0.2031, 'grad_norm': 1.1170471906661987, 'learning_rate': 2.797078680310815e-05, 'epoch': 3.86}
 16%|█▌        | 12636/78504 [7:40:27<22:12:42,  1.21s/it] 16%|█▌        | 12637/78504 [7:40:28<20:39:31,  1.13s/it]                                                          {'loss': 0.2157, 'grad_norm': 1.5468894243240356, 'learning_rate': 2.797036219268821e-05, 'epoch': 3.86}
 16%|█▌        | 12637/78504 [7:40:28<20:39:31,  1.13s/it] 16%|█▌        | 12638/78504 [7:40:29<18:43:34,  1.02s/it]                                                          {'loss': 0.2426, 'grad_norm': 1.6510419845581055, 'learning_rate': 2.796993758226827e-05, 'epoch': 3.86}
 16%|█▌        | 12638/78504 [7:40:29<18:43:34,  1.02s/it] 16%|█▌        | 12639/78504 [7:40:37<58:23:27,  3.19s/it]                                                          {'loss': 0.1791, 'grad_norm': 0.680927038192749, 'learning_rate': 2.796951297184833e-05, 'epoch': 3.86}
 16%|█▌        | 12639/78504 [7:40:37<58:23:27,  3.19s/it] 16%|█▌        | 12640/78504 [7:40:40<56:50:10,  3.11s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.8228338956832886, 'learning_rate': 2.796908836142839e-05, 'epoch': 3.86}
 16%|█▌        | 12640/78504 [7:40:40<56:50:10,  3.11s/it] 16%|█▌        | 12641/78504 [7:40:43<55:50:49,  3.05s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.29219764471054077, 'learning_rate': 2.796866375100845e-05, 'epoch': 3.86}
 16%|█▌        | 12641/78504 [7:40:43<55:50:49,  3.05s/it] 16%|█▌        | 12642/78504 [7:40:45<52:23:21,  2.86s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.21323026716709137, 'learning_rate': 2.796823914058851e-05, 'epoch': 3.86}
 16%|█▌        | 12642/78504 [7:40:45<52:23:21,  2.86s/it] 16%|█▌        | 12643/78504 [7:40:48<50:15:35,  2.75s/it]                                                          {'loss': 0.0467, 'grad_norm': 0.7985320091247559, 'learning_rate': 2.7967814530168572e-05, 'epoch': 3.87}
 16%|█▌        | 12643/78504 [7:40:48<50:15:35,  2.75s/it] 16%|█▌        | 12644/78504 [7:40:50<48:32:05,  2.65s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.23243404924869537, 'learning_rate': 2.796738991974863e-05, 'epoch': 3.87}
 16%|█▌        | 12644/78504 [7:40:50<48:32:05,  2.65s/it] 16%|█▌        | 12645/78504 [7:40:53<46:41:31,  2.55s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.42685237526893616, 'learning_rate': 2.7966965309328693e-05, 'epoch': 3.87}
 16%|█▌        | 12645/78504 [7:40:53<46:41:31,  2.55s/it] 16%|█▌        | 12646/78504 [7:40:55<44:17:29,  2.42s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.340203195810318, 'learning_rate': 2.7966540698908752e-05, 'epoch': 3.87}
 16%|█▌        | 12646/78504 [7:40:55<44:17:29,  2.42s/it] 16%|█▌        | 12647/78504 [7:40:57<42:59:11,  2.35s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.47396591305732727, 'learning_rate': 2.7966116088488814e-05, 'epoch': 3.87}
 16%|█▌        | 12647/78504 [7:40:57<42:59:11,  2.35s/it] 16%|█▌        | 12648/78504 [7:40:59<41:54:18,  2.29s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.49132105708122253, 'learning_rate': 2.7965691478068873e-05, 'epoch': 3.87}
 16%|█▌        | 12648/78504 [7:40:59<41:54:18,  2.29s/it] 16%|█▌        | 12649/78504 [7:41:01<40:28:30,  2.21s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.3315005302429199, 'learning_rate': 2.7965266867648935e-05, 'epoch': 3.87}
 16%|█▌        | 12649/78504 [7:41:01<40:28:30,  2.21s/it] 16%|█▌        | 12650/78504 [7:41:03<39:12:30,  2.14s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.3473191559314728, 'learning_rate': 2.7964842257228993e-05, 'epoch': 3.87}
 16%|█▌        | 12650/78504 [7:41:03<39:12:30,  2.14s/it] 16%|█▌        | 12651/78504 [7:41:05<37:47:26,  2.07s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.5359255075454712, 'learning_rate': 2.7964417646809052e-05, 'epoch': 3.87}
 16%|█▌        | 12651/78504 [7:41:05<37:47:26,  2.07s/it] 16%|█▌        | 12652/78504 [7:41:07<36:40:16,  2.00s/it]                                                          {'loss': 0.1276, 'grad_norm': 0.4376867711544037, 'learning_rate': 2.7963993036389114e-05, 'epoch': 3.87}
 16%|█▌        | 12652/78504 [7:41:07<36:40:16,  2.00s/it] 16%|█▌        | 12653/78504 [7:41:09<35:22:48,  1.93s/it]                                                          {'loss': 0.1192, 'grad_norm': 1.5840872526168823, 'learning_rate': 2.7963568425969173e-05, 'epoch': 3.87}
 16%|█▌        | 12653/78504 [7:41:09<35:22:48,  1.93s/it] 16%|█▌        | 12654/78504 [7:41:10<33:25:00,  1.83s/it]                                                          {'loss': 0.121, 'grad_norm': 0.5089139938354492, 'learning_rate': 2.7963143815549235e-05, 'epoch': 3.87}
 16%|█▌        | 12654/78504 [7:41:10<33:25:00,  1.83s/it] 16%|█▌        | 12655/78504 [7:41:12<31:50:26,  1.74s/it]                                                          {'loss': 0.157, 'grad_norm': 0.6942740082740784, 'learning_rate': 2.7962719205129294e-05, 'epoch': 3.87}
 16%|█▌        | 12655/78504 [7:41:12<31:50:26,  1.74s/it] 16%|█▌        | 12656/78504 [7:41:13<30:18:23,  1.66s/it]                                                          {'loss': 0.2074, 'grad_norm': 1.296273112297058, 'learning_rate': 2.7962294594709356e-05, 'epoch': 3.87}
 16%|█▌        | 12656/78504 [7:41:13<30:18:23,  1.66s/it] 16%|█▌        | 12657/78504 [7:41:15<28:53:56,  1.58s/it]                                                          {'loss': 0.16, 'grad_norm': 0.9968715310096741, 'learning_rate': 2.7961869984289414e-05, 'epoch': 3.87}
 16%|█▌        | 12657/78504 [7:41:15<28:53:56,  1.58s/it] 16%|█▌        | 12658/78504 [7:41:16<27:16:55,  1.49s/it]                                                          {'loss': 0.1823, 'grad_norm': 0.6678184866905212, 'learning_rate': 2.7961445373869477e-05, 'epoch': 3.87}
 16%|█▌        | 12658/78504 [7:41:16<27:16:55,  1.49s/it] 16%|█▌        | 12659/78504 [7:41:17<25:23:01,  1.39s/it]                                                          {'loss': 0.1778, 'grad_norm': 0.5490761995315552, 'learning_rate': 2.7961020763449535e-05, 'epoch': 3.87}
 16%|█▌        | 12659/78504 [7:41:17<25:23:01,  1.39s/it] 16%|█▌        | 12660/78504 [7:41:18<23:46:48,  1.30s/it]                                                          {'loss': 0.2242, 'grad_norm': 1.0841007232666016, 'learning_rate': 2.7960596153029597e-05, 'epoch': 3.87}
 16%|█▌        | 12660/78504 [7:41:18<23:46:48,  1.30s/it] 16%|█▌        | 12661/78504 [7:41:19<22:06:32,  1.21s/it]                                                          {'loss': 0.1793, 'grad_norm': 0.8468596339225769, 'learning_rate': 2.7960171542609656e-05, 'epoch': 3.87}
 16%|█▌        | 12661/78504 [7:41:19<22:06:32,  1.21s/it] 16%|█▌        | 12662/78504 [7:41:20<20:36:10,  1.13s/it]                                                          {'loss': 0.2341, 'grad_norm': 1.0797983407974243, 'learning_rate': 2.7959746932189718e-05, 'epoch': 3.87}
 16%|█▌        | 12662/78504 [7:41:20<20:36:10,  1.13s/it] 16%|█▌        | 12663/78504 [7:41:21<18:44:15,  1.02s/it]                                                          {'loss': 0.25, 'grad_norm': 1.8849048614501953, 'learning_rate': 2.7959322321769777e-05, 'epoch': 3.87}
 16%|█▌        | 12663/78504 [7:41:21<18:44:15,  1.02s/it] 16%|█▌        | 12664/78504 [7:41:28<54:27:11,  2.98s/it]                                                          {'loss': 0.1434, 'grad_norm': 0.4510466754436493, 'learning_rate': 2.7958897711349836e-05, 'epoch': 3.87}
 16%|█▌        | 12664/78504 [7:41:28<54:27:11,  2.98s/it] 16%|█▌        | 12665/78504 [7:41:31<54:52:45,  3.00s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.46719905734062195, 'learning_rate': 2.7958473100929898e-05, 'epoch': 3.87}
 16%|█▌        | 12665/78504 [7:41:31<54:52:45,  3.00s/it] 16%|█▌        | 12666/78504 [7:41:34<54:56:57,  3.00s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.4482925534248352, 'learning_rate': 2.7958048490509956e-05, 'epoch': 3.87}
 16%|█▌        | 12666/78504 [7:41:34<54:56:57,  3.00s/it] 16%|█▌        | 12667/78504 [7:41:37<52:48:51,  2.89s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.4874393045902252, 'learning_rate': 2.795762388009002e-05, 'epoch': 3.87}
 16%|█▌        | 12667/78504 [7:41:37<52:48:51,  2.89s/it] 16%|█▌        | 12668/78504 [7:41:39<49:55:08,  2.73s/it]                                                          {'loss': 0.05, 'grad_norm': 0.19272422790527344, 'learning_rate': 2.7957199269670077e-05, 'epoch': 3.87}
 16%|█▌        | 12668/78504 [7:41:39<49:55:08,  2.73s/it] 16%|█▌        | 12669/78504 [7:41:42<47:22:10,  2.59s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.4689985513687134, 'learning_rate': 2.795677465925014e-05, 'epoch': 3.87}
 16%|█▌        | 12669/78504 [7:41:42<47:22:10,  2.59s/it] 16%|█▌        | 12670/78504 [7:41:44<45:54:50,  2.51s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.5978392958641052, 'learning_rate': 2.7956350048830198e-05, 'epoch': 3.87}
 16%|█▌        | 12670/78504 [7:41:44<45:54:50,  2.51s/it] 16%|█▌        | 12671/78504 [7:41:46<43:36:07,  2.38s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.7187896966934204, 'learning_rate': 2.795592543841026e-05, 'epoch': 3.87}
 16%|█▌        | 12671/78504 [7:41:46<43:36:07,  2.38s/it] 16%|█▌        | 12672/78504 [7:41:48<41:40:09,  2.28s/it]                                                          {'loss': 0.0974, 'grad_norm': 0.6463556885719299, 'learning_rate': 2.795550082799032e-05, 'epoch': 3.87}
 16%|█▌        | 12672/78504 [7:41:48<41:40:09,  2.28s/it] 16%|█▌        | 12673/78504 [7:41:50<40:53:42,  2.24s/it]                                                          {'loss': 0.0734, 'grad_norm': 0.362118661403656, 'learning_rate': 2.795507621757038e-05, 'epoch': 3.87}
 16%|█▌        | 12673/78504 [7:41:50<40:53:42,  2.24s/it] 16%|█▌        | 12674/78504 [7:41:52<39:44:33,  2.17s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.4804350435733795, 'learning_rate': 2.795465160715044e-05, 'epoch': 3.87}
 16%|█▌        | 12674/78504 [7:41:52<39:44:33,  2.17s/it] 16%|█▌        | 12675/78504 [7:41:54<38:42:43,  2.12s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.33483991026878357, 'learning_rate': 2.79542269967305e-05, 'epoch': 3.87}
 16%|█▌        | 12675/78504 [7:41:54<38:42:43,  2.12s/it] 16%|█▌        | 12676/78504 [7:41:56<37:20:30,  2.04s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.4869299829006195, 'learning_rate': 2.795380238631056e-05, 'epoch': 3.88}
 16%|█▌        | 12676/78504 [7:41:56<37:20:30,  2.04s/it] 16%|█▌        | 12677/78504 [7:41:58<36:23:13,  1.99s/it]                                                          {'loss': 0.1435, 'grad_norm': 0.820496141910553, 'learning_rate': 2.795337777589062e-05, 'epoch': 3.88}
 16%|█▌        | 12677/78504 [7:41:58<36:23:13,  1.99s/it] 16%|█▌        | 12678/78504 [7:42:00<35:08:32,  1.92s/it]                                                          {'loss': 0.1648, 'grad_norm': 0.5240147709846497, 'learning_rate': 2.795295316547068e-05, 'epoch': 3.88}
 16%|█▌        | 12678/78504 [7:42:00<35:08:32,  1.92s/it] 16%|█▌        | 12679/78504 [7:42:01<33:39:26,  1.84s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.513158917427063, 'learning_rate': 2.795252855505074e-05, 'epoch': 3.88}
 16%|█▌        | 12679/78504 [7:42:01<33:39:26,  1.84s/it] 16%|█▌        | 12680/78504 [7:42:03<31:59:47,  1.75s/it]                                                          {'loss': 0.1782, 'grad_norm': 0.4675637483596802, 'learning_rate': 2.7952103944630802e-05, 'epoch': 3.88}
 16%|█▌        | 12680/78504 [7:42:03<31:59:47,  1.75s/it] 16%|█▌        | 12681/78504 [7:42:04<30:28:27,  1.67s/it]                                                          {'loss': 0.1584, 'grad_norm': 0.5051162838935852, 'learning_rate': 2.795167933421086e-05, 'epoch': 3.88}
 16%|█▌        | 12681/78504 [7:42:04<30:28:27,  1.67s/it] 16%|█▌        | 12682/78504 [7:42:06<29:07:13,  1.59s/it]                                                          {'loss': 0.1839, 'grad_norm': 0.7653627395629883, 'learning_rate': 2.7951254723790923e-05, 'epoch': 3.88}
 16%|█▌        | 12682/78504 [7:42:06<29:07:13,  1.59s/it] 16%|█▌        | 12683/78504 [7:42:07<27:34:02,  1.51s/it]                                                          {'loss': 0.1682, 'grad_norm': 1.355432391166687, 'learning_rate': 2.795083011337098e-05, 'epoch': 3.88}
 16%|█▌        | 12683/78504 [7:42:07<27:34:02,  1.51s/it] 16%|█▌        | 12684/78504 [7:42:08<25:26:50,  1.39s/it]                                                          {'loss': 0.1919, 'grad_norm': 0.6204313635826111, 'learning_rate': 2.7950405502951043e-05, 'epoch': 3.88}
 16%|█▌        | 12684/78504 [7:42:08<25:26:50,  1.39s/it] 16%|█▌        | 12685/78504 [7:42:09<23:53:04,  1.31s/it]                                                          {'loss': 0.2111, 'grad_norm': 1.1736327409744263, 'learning_rate': 2.7949980892531102e-05, 'epoch': 3.88}
 16%|█▌        | 12685/78504 [7:42:09<23:53:04,  1.31s/it] 16%|█▌        | 12686/78504 [7:42:10<22:06:14,  1.21s/it]                                                          {'loss': 0.1788, 'grad_norm': nan, 'learning_rate': 2.7949980892531102e-05, 'epoch': 3.88}
 16%|█▌        | 12686/78504 [7:42:10<22:06:14,  1.21s/it] 16%|█▌        | 12687/78504 [7:42:11<20:31:30,  1.12s/it]                                                          {'loss': 0.2354, 'grad_norm': 3.1464972496032715, 'learning_rate': 2.7949556282111164e-05, 'epoch': 3.88}
 16%|█▌        | 12687/78504 [7:42:11<20:31:30,  1.12s/it] 16%|█▌        | 12688/78504 [7:42:12<18:39:23,  1.02s/it]                                                          {'loss': 0.2322, 'grad_norm': 1.7629034519195557, 'learning_rate': 2.7949131671691223e-05, 'epoch': 3.88}
 16%|█▌        | 12688/78504 [7:42:12<18:39:23,  1.02s/it] 16%|█▌        | 12689/78504 [7:42:21<62:49:07,  3.44s/it]                                                          {'loss': 0.1455, 'grad_norm': 0.685493528842926, 'learning_rate': 2.7948707061271285e-05, 'epoch': 3.88}
 16%|█▌        | 12689/78504 [7:42:21<62:49:07,  3.44s/it] 16%|█▌        | 12690/78504 [7:42:24<62:22:59,  3.41s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.44662249088287354, 'learning_rate': 2.7948282450851344e-05, 'epoch': 3.88}
 16%|█▌        | 12690/78504 [7:42:25<62:22:59,  3.41s/it] 16%|█▌        | 12691/78504 [7:42:27<59:40:19,  3.26s/it]                                                          {'loss': 0.06, 'grad_norm': 0.2385488897562027, 'learning_rate': 2.7947857840431402e-05, 'epoch': 3.88}
 16%|█▌        | 12691/78504 [7:42:27<59:40:19,  3.26s/it] 16%|█▌        | 12692/78504 [7:42:30<55:02:35,  3.01s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.22552873194217682, 'learning_rate': 2.7947433230011465e-05, 'epoch': 3.88}
 16%|█▌        | 12692/78504 [7:42:30<55:02:35,  3.01s/it] 16%|█▌        | 12693/78504 [7:42:32<52:05:57,  2.85s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.7397958636283875, 'learning_rate': 2.7947008619591523e-05, 'epoch': 3.88}
 16%|█▌        | 12693/78504 [7:42:32<52:05:57,  2.85s/it] 16%|█▌        | 12694/78504 [7:42:35<49:47:14,  2.72s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.34910714626312256, 'learning_rate': 2.7946584009171585e-05, 'epoch': 3.88}
 16%|█▌        | 12694/78504 [7:42:35<49:47:14,  2.72s/it] 16%|█▌        | 12695/78504 [7:42:37<47:32:36,  2.60s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.2212829887866974, 'learning_rate': 2.7946159398751644e-05, 'epoch': 3.88}
 16%|█▌        | 12695/78504 [7:42:37<47:32:36,  2.60s/it] 16%|█▌        | 12696/78504 [7:42:39<45:55:52,  2.51s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.4381672739982605, 'learning_rate': 2.7945734788331706e-05, 'epoch': 3.88}
 16%|█▌        | 12696/78504 [7:42:39<45:55:52,  2.51s/it] 16%|█▌        | 12697/78504 [7:42:42<44:05:58,  2.41s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.27672502398490906, 'learning_rate': 2.7945310177911765e-05, 'epoch': 3.88}
 16%|█▌        | 12697/78504 [7:42:42<44:05:58,  2.41s/it] 16%|█▌        | 12698/78504 [7:42:44<42:44:59,  2.34s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.3445660173892975, 'learning_rate': 2.7944885567491827e-05, 'epoch': 3.88}
 16%|█▌        | 12698/78504 [7:42:44<42:44:59,  2.34s/it] 16%|█▌        | 12699/78504 [7:42:46<40:04:46,  2.19s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.5745885372161865, 'learning_rate': 2.7944460957071886e-05, 'epoch': 3.88}
 16%|█▌        | 12699/78504 [7:42:46<40:04:46,  2.19s/it] 16%|█▌        | 12700/78504 [7:42:48<38:55:22,  2.13s/it]                                                          {'loss': 0.1107, 'grad_norm': 0.5489261746406555, 'learning_rate': 2.7944036346651948e-05, 'epoch': 3.88}
 16%|█▌        | 12700/78504 [7:42:48<38:55:22,  2.13s/it] 16%|█▌        | 12701/78504 [7:42:49<37:49:20,  2.07s/it]                                                          {'loss': 0.1097, 'grad_norm': 0.26507091522216797, 'learning_rate': 2.7943611736232006e-05, 'epoch': 3.88}
 16%|█▌        | 12701/78504 [7:42:49<37:49:20,  2.07s/it] 16%|█▌        | 12702/78504 [7:42:51<36:48:02,  2.01s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.35123124718666077, 'learning_rate': 2.794318712581207e-05, 'epoch': 3.88}
 16%|█▌        | 12702/78504 [7:42:51<36:48:02,  2.01s/it] 16%|█▌        | 12703/78504 [7:42:53<35:23:37,  1.94s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.4571612775325775, 'learning_rate': 2.7942762515392127e-05, 'epoch': 3.88}
 16%|█▌        | 12703/78504 [7:42:53<35:23:37,  1.94s/it] 16%|█▌        | 12704/78504 [7:42:55<33:26:22,  1.83s/it]                                                          {'loss': 0.1188, 'grad_norm': 0.4518432021141052, 'learning_rate': 2.7942337904972186e-05, 'epoch': 3.88}
 16%|█▌        | 12704/78504 [7:42:55<33:26:22,  1.83s/it] 16%|█▌        | 12705/78504 [7:42:56<31:50:22,  1.74s/it]                                                          {'loss': 0.1631, 'grad_norm': 0.5251731872558594, 'learning_rate': 2.7941913294552248e-05, 'epoch': 3.88}
 16%|█▌        | 12705/78504 [7:42:56<31:50:22,  1.74s/it] 16%|█▌        | 12706/78504 [7:42:58<30:33:54,  1.67s/it]                                                          {'loss': 0.1353, 'grad_norm': 0.993657648563385, 'learning_rate': 2.7941488684132307e-05, 'epoch': 3.88}
 16%|█▌        | 12706/78504 [7:42:58<30:33:54,  1.67s/it] 16%|█▌        | 12707/78504 [7:42:59<29:02:58,  1.59s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.6964758038520813, 'learning_rate': 2.794106407371237e-05, 'epoch': 3.88}
 16%|█▌        | 12707/78504 [7:42:59<29:02:58,  1.59s/it] 16%|█▌        | 12708/78504 [7:43:00<27:24:32,  1.50s/it]                                                          {'loss': 0.1828, 'grad_norm': 1.079908013343811, 'learning_rate': 2.7940639463292427e-05, 'epoch': 3.89}
 16%|█▌        | 12708/78504 [7:43:00<27:24:32,  1.50s/it] 16%|█▌        | 12709/78504 [7:43:02<25:29:19,  1.39s/it]                                                          {'loss': 0.1643, 'grad_norm': 1.3146628141403198, 'learning_rate': 2.794021485287249e-05, 'epoch': 3.89}
 16%|█▌        | 12709/78504 [7:43:02<25:29:19,  1.39s/it] 16%|█▌        | 12710/78504 [7:43:03<23:47:44,  1.30s/it]                                                          {'loss': 0.2038, 'grad_norm': 0.7540606260299683, 'learning_rate': 2.7939790242452548e-05, 'epoch': 3.89}
 16%|█▌        | 12710/78504 [7:43:03<23:47:44,  1.30s/it] 16%|█▌        | 12711/78504 [7:43:04<22:07:02,  1.21s/it]                                                          {'loss': 0.1938, 'grad_norm': 0.8865712881088257, 'learning_rate': 2.793936563203261e-05, 'epoch': 3.89}
 16%|█▌        | 12711/78504 [7:43:04<22:07:02,  1.21s/it] 16%|█▌        | 12712/78504 [7:43:05<20:37:34,  1.13s/it]                                                          {'loss': 0.2534, 'grad_norm': 0.9490522146224976, 'learning_rate': 2.793894102161267e-05, 'epoch': 3.89}
 16%|█▌        | 12712/78504 [7:43:05<20:37:34,  1.13s/it] 16%|█▌        | 12713/78504 [7:43:05<18:33:52,  1.02s/it]                                                          {'loss': 0.2327, 'grad_norm': 1.8484176397323608, 'learning_rate': 2.793851641119273e-05, 'epoch': 3.89}
 16%|█▌        | 12713/78504 [7:43:05<18:33:52,  1.02s/it] 16%|█▌        | 12714/78504 [7:43:15<67:52:38,  3.71s/it]                                                          {'loss': 0.1201, 'grad_norm': 1.310009241104126, 'learning_rate': 2.793809180077279e-05, 'epoch': 3.89}
 16%|█▌        | 12714/78504 [7:43:15<67:52:38,  3.71s/it] 16%|█▌        | 12715/78504 [7:43:19<65:22:11,  3.58s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.43328914046287537, 'learning_rate': 2.7937667190352852e-05, 'epoch': 3.89}
 16%|█▌        | 12715/78504 [7:43:19<65:22:11,  3.58s/it] 16%|█▌        | 12716/78504 [7:43:22<62:04:05,  3.40s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.17895495891571045, 'learning_rate': 2.7937242579932914e-05, 'epoch': 3.89}
 16%|█▌        | 12716/78504 [7:43:22<62:04:05,  3.40s/it] 16%|█▌        | 12717/78504 [7:43:24<57:46:22,  3.16s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.2049020677804947, 'learning_rate': 2.7936817969512973e-05, 'epoch': 3.89}
 16%|█▌        | 12717/78504 [7:43:24<57:46:22,  3.16s/it] 16%|█▌        | 12718/78504 [7:43:27<53:57:10,  2.95s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.18927831947803497, 'learning_rate': 2.7936393359093035e-05, 'epoch': 3.89}
 16%|█▌        | 12718/78504 [7:43:27<53:57:10,  2.95s/it] 16%|█▌        | 12719/78504 [7:43:29<50:12:11,  2.75s/it]                                                          {'loss': 0.0478, 'grad_norm': 0.17274145781993866, 'learning_rate': 2.7935968748673093e-05, 'epoch': 3.89}
 16%|█▌        | 12719/78504 [7:43:29<50:12:11,  2.75s/it] 16%|█▌        | 12720/78504 [7:43:31<47:48:35,  2.62s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.2876453995704651, 'learning_rate': 2.7935544138253156e-05, 'epoch': 3.89}
 16%|█▌        | 12720/78504 [7:43:31<47:48:35,  2.62s/it] 16%|█▌        | 12721/78504 [7:43:33<45:02:54,  2.47s/it]                                                          {'loss': 0.0569, 'grad_norm': 0.2086889147758484, 'learning_rate': 2.7935119527833214e-05, 'epoch': 3.89}
 16%|█▌        | 12721/78504 [7:43:33<45:02:54,  2.47s/it] 16%|█▌        | 12722/78504 [7:43:36<43:28:17,  2.38s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.2826918363571167, 'learning_rate': 2.7934694917413276e-05, 'epoch': 3.89}
 16%|█▌        | 12722/78504 [7:43:36<43:28:17,  2.38s/it] 16%|█▌        | 12723/78504 [7:43:38<42:17:23,  2.31s/it]                                                          {'loss': 0.0801, 'grad_norm': 0.24911901354789734, 'learning_rate': 2.7934270306993335e-05, 'epoch': 3.89}
 16%|█▌        | 12723/78504 [7:43:38<42:17:23,  2.31s/it] 16%|█▌        | 12724/78504 [7:43:40<39:46:55,  2.18s/it]                                                          {'loss': 0.1418, 'grad_norm': 0.6786152124404907, 'learning_rate': 2.7933845696573397e-05, 'epoch': 3.89}
 16%|█▌        | 12724/78504 [7:43:40<39:46:55,  2.18s/it] 16%|█▌        | 12725/78504 [7:43:42<38:41:04,  2.12s/it]                                                          {'loss': 0.085, 'grad_norm': 0.3590351939201355, 'learning_rate': 2.7933421086153456e-05, 'epoch': 3.89}
 16%|█▌        | 12725/78504 [7:43:42<38:41:04,  2.12s/it] 16%|█▌        | 12726/78504 [7:43:43<37:36:39,  2.06s/it]                                                          {'loss': 0.0882, 'grad_norm': 1.3081969022750854, 'learning_rate': 2.7932996475733518e-05, 'epoch': 3.89}
 16%|█▌        | 12726/78504 [7:43:43<37:36:39,  2.06s/it] 16%|█▌        | 12727/78504 [7:43:45<36:35:26,  2.00s/it]                                                          {'loss': 0.1684, 'grad_norm': 1.2886579036712646, 'learning_rate': 2.7932571865313577e-05, 'epoch': 3.89}
 16%|█▌        | 12727/78504 [7:43:45<36:35:26,  2.00s/it] 16%|█▌        | 12728/78504 [7:43:47<35:13:33,  1.93s/it]                                                          {'loss': 0.1416, 'grad_norm': 0.3913992941379547, 'learning_rate': 2.793214725489364e-05, 'epoch': 3.89}
 16%|█▌        | 12728/78504 [7:43:47<35:13:33,  1.93s/it] 16%|█▌        | 12729/78504 [7:43:49<33:17:57,  1.82s/it]                                                          {'loss': 0.1333, 'grad_norm': 0.858242392539978, 'learning_rate': 2.7931722644473697e-05, 'epoch': 3.89}
 16%|█▌        | 12729/78504 [7:43:49<33:17:57,  1.82s/it] 16%|█▌        | 12730/78504 [7:43:50<31:47:10,  1.74s/it]                                                          {'loss': 0.1485, 'grad_norm': 0.4540872275829315, 'learning_rate': 2.7931298034053756e-05, 'epoch': 3.89}
 16%|█▌        | 12730/78504 [7:43:50<31:47:10,  1.74s/it] 16%|█▌        | 12731/78504 [7:43:52<30:16:58,  1.66s/it]                                                          {'loss': 0.2027, 'grad_norm': 0.9360054731369019, 'learning_rate': 2.7930873423633818e-05, 'epoch': 3.89}
 16%|█▌        | 12731/78504 [7:43:52<30:16:58,  1.66s/it] 16%|█▌        | 12732/78504 [7:43:53<28:51:57,  1.58s/it]                                                          {'loss': 0.1892, 'grad_norm': 0.8387813568115234, 'learning_rate': 2.7930448813213877e-05, 'epoch': 3.89}
 16%|█▌        | 12732/78504 [7:43:53<28:51:57,  1.58s/it] 16%|█▌        | 12733/78504 [7:43:54<27:18:10,  1.49s/it]                                                          {'loss': 0.2165, 'grad_norm': 0.9267975091934204, 'learning_rate': 2.793002420279394e-05, 'epoch': 3.89}
 16%|█▌        | 12733/78504 [7:43:54<27:18:10,  1.49s/it] 16%|█▌        | 12734/78504 [7:43:56<25:24:27,  1.39s/it]                                                          {'loss': 0.1873, 'grad_norm': 0.6864867806434631, 'learning_rate': 2.7929599592373998e-05, 'epoch': 3.89}
 16%|█▌        | 12734/78504 [7:43:56<25:24:27,  1.39s/it] 16%|█▌        | 12735/78504 [7:43:57<23:48:00,  1.30s/it]                                                          {'loss': 0.2129, 'grad_norm': 0.7088063955307007, 'learning_rate': 2.792917498195406e-05, 'epoch': 3.89}
 16%|█▌        | 12735/78504 [7:43:57<23:48:00,  1.30s/it] 16%|█▌        | 12736/78504 [7:43:58<22:24:41,  1.23s/it]                                                          {'loss': 0.2092, 'grad_norm': 0.9340026378631592, 'learning_rate': 2.792875037153412e-05, 'epoch': 3.89}
 16%|█▌        | 12736/78504 [7:43:58<22:24:41,  1.23s/it] 16%|█▌        | 12737/78504 [7:43:59<20:45:49,  1.14s/it]                                                          {'loss': 0.273, 'grad_norm': 1.1072534322738647, 'learning_rate': 2.792832576111418e-05, 'epoch': 3.89}
 16%|█▌        | 12737/78504 [7:43:59<20:45:49,  1.14s/it] 16%|█▌        | 12738/78504 [7:43:59<18:51:09,  1.03s/it]                                                          {'loss': 0.2527, 'grad_norm': 1.8074456453323364, 'learning_rate': 2.792790115069424e-05, 'epoch': 3.89}
 16%|█▌        | 12738/78504 [7:43:59<18:51:09,  1.03s/it] 16%|█▌        | 12739/78504 [7:44:08<58:50:03,  3.22s/it]                                                          {'loss': 0.1557, 'grad_norm': 1.218425989151001, 'learning_rate': 2.79274765402743e-05, 'epoch': 3.89}
 16%|█▌        | 12739/78504 [7:44:08<58:50:03,  3.22s/it] 16%|█▌        | 12740/78504 [7:44:11<58:08:05,  3.18s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.29345351457595825, 'learning_rate': 2.792705192985436e-05, 'epoch': 3.89}
 16%|█▌        | 12740/78504 [7:44:11<58:08:05,  3.18s/it] 16%|█▌        | 12741/78504 [7:44:14<55:55:52,  3.06s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.26436176896095276, 'learning_rate': 2.7926627319434422e-05, 'epoch': 3.9}
 16%|█▌        | 12741/78504 [7:44:14<55:55:52,  3.06s/it] 16%|█▌        | 12742/78504 [7:44:16<53:27:24,  2.93s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.1694384515285492, 'learning_rate': 2.792620270901448e-05, 'epoch': 3.9}
 16%|█▌        | 12742/78504 [7:44:16<53:27:24,  2.93s/it] 16%|█▌        | 12743/78504 [7:44:19<50:56:08,  2.79s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.16130980849266052, 'learning_rate': 2.792577809859454e-05, 'epoch': 3.9}
 16%|█▌        | 12743/78504 [7:44:19<50:56:08,  2.79s/it] 16%|█▌        | 12744/78504 [7:44:21<48:02:01,  2.63s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.22639405727386475, 'learning_rate': 2.79253534881746e-05, 'epoch': 3.9}
 16%|█▌        | 12744/78504 [7:44:21<48:02:01,  2.63s/it] 16%|█▌        | 12745/78504 [7:44:23<46:22:23,  2.54s/it]                                                          {'loss': 0.043, 'grad_norm': 0.188930481672287, 'learning_rate': 2.792492887775466e-05, 'epoch': 3.9}
 16%|█▌        | 12745/78504 [7:44:23<46:22:23,  2.54s/it] 16%|█▌        | 12746/78504 [7:44:25<43:53:07,  2.40s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.6341919898986816, 'learning_rate': 2.7924504267334722e-05, 'epoch': 3.9}
 16%|█▌        | 12746/78504 [7:44:25<43:53:07,  2.40s/it] 16%|█▌        | 12747/78504 [7:44:27<41:52:18,  2.29s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.38212040066719055, 'learning_rate': 2.792407965691478e-05, 'epoch': 3.9}
 16%|█▌        | 12747/78504 [7:44:27<41:52:18,  2.29s/it] 16%|█▌        | 12748/78504 [7:44:29<41:01:18,  2.25s/it]                                                          {'loss': 0.0665, 'grad_norm': 0.2371101826429367, 'learning_rate': 2.7923655046494843e-05, 'epoch': 3.9}
 16%|█▌        | 12748/78504 [7:44:30<41:01:18,  2.25s/it] 16%|█▌        | 12749/78504 [7:44:31<39:35:57,  2.17s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.4689578413963318, 'learning_rate': 2.7923230436074902e-05, 'epoch': 3.9}
 16%|█▌        | 12749/78504 [7:44:31<39:35:57,  2.17s/it] 16%|█▌        | 12750/78504 [7:44:33<38:17:46,  2.10s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.38014277815818787, 'learning_rate': 2.7922805825654964e-05, 'epoch': 3.9}
 16%|█▌        | 12750/78504 [7:44:33<38:17:46,  2.10s/it] 16%|█▌        | 12751/78504 [7:44:35<37:03:27,  2.03s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.31048277020454407, 'learning_rate': 2.7922381215235023e-05, 'epoch': 3.9}
 16%|█▌        | 12751/78504 [7:44:35<37:03:27,  2.03s/it] 16%|█▌        | 12752/78504 [7:44:37<35:05:51,  1.92s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.365779310464859, 'learning_rate': 2.7921956604815085e-05, 'epoch': 3.9}
 16%|█▌        | 12752/78504 [7:44:37<35:05:51,  1.92s/it] 16%|█▌        | 12753/78504 [7:44:39<34:19:11,  1.88s/it]                                                          {'loss': 0.1411, 'grad_norm': 0.5072965025901794, 'learning_rate': 2.7921531994395143e-05, 'epoch': 3.9}
 16%|█▌        | 12753/78504 [7:44:39<34:19:11,  1.88s/it] 16%|█▌        | 12754/78504 [7:44:40<33:03:37,  1.81s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.42600077390670776, 'learning_rate': 2.7921107383975202e-05, 'epoch': 3.9}
 16%|█▌        | 12754/78504 [7:44:40<33:03:37,  1.81s/it] 16%|█▌        | 12755/78504 [7:44:42<31:25:30,  1.72s/it]                                                          {'loss': 0.2088, 'grad_norm': 1.0028384923934937, 'learning_rate': 2.7920682773555264e-05, 'epoch': 3.9}
 16%|█▌        | 12755/78504 [7:44:42<31:25:30,  1.72s/it] 16%|█▌        | 12756/78504 [7:44:43<29:49:13,  1.63s/it]                                                          {'loss': 0.1536, 'grad_norm': 0.8246336579322815, 'learning_rate': 2.7920258163135323e-05, 'epoch': 3.9}
 16%|█▌        | 12756/78504 [7:44:43<29:49:13,  1.63s/it] 16%|█▋        | 12757/78504 [7:44:45<28:38:08,  1.57s/it]                                                          {'loss': 0.1769, 'grad_norm': 0.6138439774513245, 'learning_rate': 2.7919833552715385e-05, 'epoch': 3.9}
 16%|█▋        | 12757/78504 [7:44:45<28:38:08,  1.57s/it] 16%|█▋        | 12758/78504 [7:44:46<27:05:40,  1.48s/it]                                                          {'loss': 0.1809, 'grad_norm': 0.4753778576850891, 'learning_rate': 2.7919408942295444e-05, 'epoch': 3.9}
 16%|█▋        | 12758/78504 [7:44:46<27:05:40,  1.48s/it] 16%|█▋        | 12759/78504 [7:44:47<25:13:33,  1.38s/it]                                                          {'loss': 0.1779, 'grad_norm': 1.102365493774414, 'learning_rate': 2.7918984331875506e-05, 'epoch': 3.9}
 16%|█▋        | 12759/78504 [7:44:47<25:13:33,  1.38s/it] 16%|█▋        | 12760/78504 [7:44:48<23:42:03,  1.30s/it]                                                          {'loss': 0.169, 'grad_norm': 0.756068766117096, 'learning_rate': 2.7918559721455565e-05, 'epoch': 3.9}
 16%|█▋        | 12760/78504 [7:44:48<23:42:03,  1.30s/it] 16%|█▋        | 12761/78504 [7:44:49<22:02:29,  1.21s/it]                                                          {'loss': 0.1939, 'grad_norm': 2.273047924041748, 'learning_rate': 2.7918135111035627e-05, 'epoch': 3.9}
 16%|█▋        | 12761/78504 [7:44:49<22:02:29,  1.21s/it] 16%|█▋        | 12762/78504 [7:44:50<20:33:30,  1.13s/it]                                                          {'loss': 0.2398, 'grad_norm': 0.8746192455291748, 'learning_rate': 2.7917710500615685e-05, 'epoch': 3.9}
 16%|█▋        | 12762/78504 [7:44:50<20:33:30,  1.13s/it] 16%|█▋        | 12763/78504 [7:44:51<18:30:15,  1.01s/it]                                                          {'loss': 0.2455, 'grad_norm': 1.293111801147461, 'learning_rate': 2.7917285890195747e-05, 'epoch': 3.9}
 16%|█▋        | 12763/78504 [7:44:51<18:30:15,  1.01s/it] 16%|█▋        | 12764/78504 [7:45:01<69:11:54,  3.79s/it]                                                          {'loss': 0.1236, 'grad_norm': 0.44301196932792664, 'learning_rate': 2.7916861279775806e-05, 'epoch': 3.9}
 16%|█▋        | 12764/78504 [7:45:01<69:11:54,  3.79s/it] 16%|█▋        | 12765/78504 [7:45:04<66:15:40,  3.63s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.3210761249065399, 'learning_rate': 2.7916436669355868e-05, 'epoch': 3.9}
 16%|█▋        | 12765/78504 [7:45:04<66:15:40,  3.63s/it] 16%|█▋        | 12766/78504 [7:45:07<62:43:28,  3.43s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.30250489711761475, 'learning_rate': 2.7916012058935927e-05, 'epoch': 3.9}
 16%|█▋        | 12766/78504 [7:45:07<62:43:28,  3.43s/it] 16%|█▋        | 12767/78504 [7:45:10<58:11:30,  3.19s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.19345293939113617, 'learning_rate': 2.7915587448515986e-05, 'epoch': 3.9}
 16%|█▋        | 12767/78504 [7:45:10<58:11:30,  3.19s/it] 16%|█▋        | 12768/78504 [7:45:13<54:14:34,  2.97s/it]                                                          {'loss': 0.0442, 'grad_norm': 0.21516959369182587, 'learning_rate': 2.7915162838096048e-05, 'epoch': 3.9}
 16%|█▋        | 12768/78504 [7:45:13<54:14:34,  2.97s/it] 16%|█▋        | 12769/78504 [7:45:15<50:21:11,  2.76s/it]                                                          {'loss': 0.0794, 'grad_norm': 1.0949440002441406, 'learning_rate': 2.7914738227676106e-05, 'epoch': 3.9}
 16%|█▋        | 12769/78504 [7:45:15<50:21:11,  2.76s/it] 16%|█▋        | 12770/78504 [7:45:17<47:56:17,  2.63s/it]                                                          {'loss': 0.0403, 'grad_norm': 0.2122853398323059, 'learning_rate': 2.791431361725617e-05, 'epoch': 3.9}
 16%|█▋        | 12770/78504 [7:45:17<47:56:17,  2.63s/it] 16%|█▋        | 12771/78504 [7:45:19<45:00:29,  2.46s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.2571423053741455, 'learning_rate': 2.7913889006836227e-05, 'epoch': 3.9}
 16%|█▋        | 12771/78504 [7:45:19<45:00:29,  2.46s/it] 16%|█▋        | 12772/78504 [7:45:21<42:35:14,  2.33s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.4223651885986328, 'learning_rate': 2.791346439641629e-05, 'epoch': 3.9}
 16%|█▋        | 12772/78504 [7:45:21<42:35:14,  2.33s/it] 16%|█▋        | 12773/78504 [7:45:23<41:30:29,  2.27s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.692964494228363, 'learning_rate': 2.7913039785996348e-05, 'epoch': 3.9}
 16%|█▋        | 12773/78504 [7:45:23<41:30:29,  2.27s/it] 16%|█▋        | 12774/78504 [7:45:25<40:08:56,  2.20s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.2764548361301422, 'learning_rate': 2.791261517557641e-05, 'epoch': 3.91}
 16%|█▋        | 12774/78504 [7:45:25<40:08:56,  2.20s/it] 16%|█▋        | 12775/78504 [7:45:27<38:54:33,  2.13s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.33426833152770996, 'learning_rate': 2.791219056515647e-05, 'epoch': 3.91}
 16%|█▋        | 12775/78504 [7:45:27<38:54:33,  2.13s/it] 16%|█▋        | 12776/78504 [7:45:29<37:25:27,  2.05s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.4209083914756775, 'learning_rate': 2.791176595473653e-05, 'epoch': 3.91}
 16%|█▋        | 12776/78504 [7:45:29<37:25:27,  2.05s/it] 16%|█▋        | 12777/78504 [7:45:31<36:15:02,  1.99s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.7264217734336853, 'learning_rate': 2.791134134431659e-05, 'epoch': 3.91}
 16%|█▋        | 12777/78504 [7:45:31<36:15:02,  1.99s/it] 16%|█▋        | 12778/78504 [7:45:33<34:28:14,  1.89s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.40508294105529785, 'learning_rate': 2.791091673389665e-05, 'epoch': 3.91}
 16%|█▋        | 12778/78504 [7:45:33<34:28:14,  1.89s/it] 16%|█▋        | 12779/78504 [7:45:34<33:06:08,  1.81s/it]                                                          {'loss': 0.1531, 'grad_norm': 0.5945075750350952, 'learning_rate': 2.791049212347671e-05, 'epoch': 3.91}
 16%|█▋        | 12779/78504 [7:45:34<33:06:08,  1.81s/it] 16%|█▋        | 12780/78504 [7:45:36<31:26:18,  1.72s/it]                                                          {'loss': 0.1666, 'grad_norm': 0.5529379844665527, 'learning_rate': 2.791006751305677e-05, 'epoch': 3.91}
 16%|█▋        | 12780/78504 [7:45:36<31:26:18,  1.72s/it] 16%|█▋        | 12781/78504 [7:45:37<30:03:22,  1.65s/it]                                                          {'loss': 0.1931, 'grad_norm': 1.0533090829849243, 'learning_rate': 2.790964290263683e-05, 'epoch': 3.91}
 16%|█▋        | 12781/78504 [7:45:37<30:03:22,  1.65s/it] 16%|█▋        | 12782/78504 [7:45:39<28:45:14,  1.58s/it]                                                          {'loss': 0.154, 'grad_norm': 1.1274863481521606, 'learning_rate': 2.790921829221689e-05, 'epoch': 3.91}
 16%|█▋        | 12782/78504 [7:45:39<28:45:14,  1.58s/it] 16%|█▋        | 12783/78504 [7:45:40<26:49:56,  1.47s/it]                                                          {'loss': 0.1805, 'grad_norm': 0.8706808090209961, 'learning_rate': 2.7908793681796952e-05, 'epoch': 3.91}
 16%|█▋        | 12783/78504 [7:45:40<26:49:56,  1.47s/it] 16%|█▋        | 12784/78504 [7:45:41<24:56:21,  1.37s/it]                                                          {'loss': 0.2172, 'grad_norm': 1.9931648969650269, 'learning_rate': 2.790836907137701e-05, 'epoch': 3.91}
 16%|█▋        | 12784/78504 [7:45:41<24:56:21,  1.37s/it] 16%|█▋        | 12785/78504 [7:45:42<23:24:16,  1.28s/it]                                                          {'loss': 0.1868, 'grad_norm': 0.9340153932571411, 'learning_rate': 2.7907944460957073e-05, 'epoch': 3.91}
 16%|█▋        | 12785/78504 [7:45:42<23:24:16,  1.28s/it] 16%|█▋        | 12786/78504 [7:45:43<21:46:53,  1.19s/it]                                                          {'loss': 0.2128, 'grad_norm': 1.0103460550308228, 'learning_rate': 2.790751985053713e-05, 'epoch': 3.91}
 16%|█▋        | 12786/78504 [7:45:43<21:46:53,  1.19s/it] 16%|█▋        | 12787/78504 [7:45:44<20:20:34,  1.11s/it]                                                          {'loss': 0.2243, 'grad_norm': 1.066827416419983, 'learning_rate': 2.7907095240117193e-05, 'epoch': 3.91}
 16%|█▋        | 12787/78504 [7:45:44<20:20:34,  1.11s/it] 16%|█▋        | 12788/78504 [7:45:45<18:32:11,  1.02s/it]                                                          {'loss': 0.2901, 'grad_norm': 2.8389601707458496, 'learning_rate': 2.7906670629697252e-05, 'epoch': 3.91}
 16%|█▋        | 12788/78504 [7:45:45<18:32:11,  1.02s/it] 16%|█▋        | 12789/78504 [7:45:53<58:05:49,  3.18s/it]                                                          {'loss': 0.137, 'grad_norm': 0.7854180932044983, 'learning_rate': 2.7906246019277314e-05, 'epoch': 3.91}
 16%|█▋        | 12789/78504 [7:45:53<58:05:49,  3.18s/it] 16%|█▋        | 12790/78504 [7:45:56<58:44:08,  3.22s/it]                                                          {'loss': 0.077, 'grad_norm': 0.4641217887401581, 'learning_rate': 2.7905821408857373e-05, 'epoch': 3.91}
 16%|█▋        | 12790/78504 [7:45:56<58:44:08,  3.22s/it] 16%|█▋        | 12791/78504 [7:45:59<55:08:50,  3.02s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.2512850761413574, 'learning_rate': 2.7905396798437435e-05, 'epoch': 3.91}
 16%|█▋        | 12791/78504 [7:45:59<55:08:50,  3.02s/it] 16%|█▋        | 12792/78504 [7:46:02<52:54:15,  2.90s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.25641295313835144, 'learning_rate': 2.7904972188017494e-05, 'epoch': 3.91}
 16%|█▋        | 12792/78504 [7:46:02<52:54:15,  2.90s/it] 16%|█▋        | 12793/78504 [7:46:04<50:32:26,  2.77s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.2716315686702728, 'learning_rate': 2.7904547577597552e-05, 'epoch': 3.91}
 16%|█▋        | 12793/78504 [7:46:04<50:32:26,  2.77s/it] 16%|█▋        | 12794/78504 [7:46:06<47:46:28,  2.62s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.18093951046466827, 'learning_rate': 2.7904122967177615e-05, 'epoch': 3.91}
 16%|█▋        | 12794/78504 [7:46:06<47:46:28,  2.62s/it] 16%|█▋        | 12795/78504 [7:46:09<46:08:40,  2.53s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.19502438604831696, 'learning_rate': 2.7903698356757673e-05, 'epoch': 3.91}
 16%|█▋        | 12795/78504 [7:46:09<46:08:40,  2.53s/it] 16%|█▋        | 12796/78504 [7:46:11<43:49:08,  2.40s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.2358929067850113, 'learning_rate': 2.7903273746337735e-05, 'epoch': 3.91}
 16%|█▋        | 12796/78504 [7:46:11<43:49:08,  2.40s/it] 16%|█▋        | 12797/78504 [7:46:13<41:50:22,  2.29s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.3667823076248169, 'learning_rate': 2.7902849135917794e-05, 'epoch': 3.91}
 16%|█▋        | 12797/78504 [7:46:13<41:50:22,  2.29s/it] 16%|█▋        | 12798/78504 [7:46:15<40:58:18,  2.24s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.31471842527389526, 'learning_rate': 2.7902424525497856e-05, 'epoch': 3.91}
 16%|█▋        | 12798/78504 [7:46:15<40:58:18,  2.24s/it] 16%|█▋        | 12799/78504 [7:46:17<39:44:57,  2.18s/it]                                                          {'loss': 0.1005, 'grad_norm': 0.23207080364227295, 'learning_rate': 2.7901999915077915e-05, 'epoch': 3.91}
 16%|█▋        | 12799/78504 [7:46:17<39:44:57,  2.18s/it] 16%|█▋        | 12800/78504 [7:46:19<38:39:08,  2.12s/it]                                                          {'loss': 0.1023, 'grad_norm': 0.23847700655460358, 'learning_rate': 2.7901575304657977e-05, 'epoch': 3.91}
 16%|█▋        | 12800/78504 [7:46:19<38:39:08,  2.12s/it] 16%|█▋        | 12801/78504 [7:46:21<37:15:47,  2.04s/it]                                                          {'loss': 0.1002, 'grad_norm': 0.396746963262558, 'learning_rate': 2.7901150694238036e-05, 'epoch': 3.91}
 16%|█▋        | 12801/78504 [7:46:21<37:15:47,  2.04s/it] 16%|█▋        | 12802/78504 [7:46:23<36:10:42,  1.98s/it]                                                          {'loss': 0.1296, 'grad_norm': 0.3721924424171448, 'learning_rate': 2.7900726083818098e-05, 'epoch': 3.91}
 16%|█▋        | 12802/78504 [7:46:23<36:10:42,  1.98s/it] 16%|█▋        | 12803/78504 [7:46:24<34:47:10,  1.91s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.37481170892715454, 'learning_rate': 2.7900301473398156e-05, 'epoch': 3.91}
 16%|█▋        | 12803/78504 [7:46:24<34:47:10,  1.91s/it] 16%|█▋        | 12804/78504 [7:46:26<33:20:11,  1.83s/it]                                                          {'loss': 0.1485, 'grad_norm': 0.6592788696289062, 'learning_rate': 2.789987686297822e-05, 'epoch': 3.91}
 16%|█▋        | 12804/78504 [7:46:26<33:20:11,  1.83s/it] 16%|█▋        | 12805/78504 [7:46:28<31:45:02,  1.74s/it]                                                          {'loss': 0.1393, 'grad_norm': 2.3731799125671387, 'learning_rate': 2.7899452252558277e-05, 'epoch': 3.91}
 16%|█▋        | 12805/78504 [7:46:28<31:45:02,  1.74s/it] 16%|█▋        | 12806/78504 [7:46:29<30:17:00,  1.66s/it]                                                          {'loss': 0.1889, 'grad_norm': 0.8018143177032471, 'learning_rate': 2.7899027642138336e-05, 'epoch': 3.92}
 16%|█▋        | 12806/78504 [7:46:29<30:17:00,  1.66s/it] 16%|█▋        | 12807/78504 [7:46:30<28:54:25,  1.58s/it]                                                          {'loss': 0.1905, 'grad_norm': 0.5641263127326965, 'learning_rate': 2.7898603031718398e-05, 'epoch': 3.92}
 16%|█▋        | 12807/78504 [7:46:30<28:54:25,  1.58s/it] 16%|█▋        | 12808/78504 [7:46:32<27:17:35,  1.50s/it]                                                          {'loss': 0.2104, 'grad_norm': 0.6855986714363098, 'learning_rate': 2.7898178421298457e-05, 'epoch': 3.92}
 16%|█▋        | 12808/78504 [7:46:32<27:17:35,  1.50s/it] 16%|█▋        | 12809/78504 [7:46:33<25:23:23,  1.39s/it]                                                          {'loss': 0.1669, 'grad_norm': 0.5901069641113281, 'learning_rate': 2.789775381087852e-05, 'epoch': 3.92}
 16%|█▋        | 12809/78504 [7:46:33<25:23:23,  1.39s/it] 16%|█▋        | 12810/78504 [7:46:34<23:44:34,  1.30s/it]                                                          {'loss': 0.1778, 'grad_norm': 0.7875247001647949, 'learning_rate': 2.7897329200458577e-05, 'epoch': 3.92}
 16%|█▋        | 12810/78504 [7:46:34<23:44:34,  1.30s/it] 16%|█▋        | 12811/78504 [7:46:35<22:04:42,  1.21s/it]                                                          {'loss': 0.1983, 'grad_norm': 1.207879662513733, 'learning_rate': 2.789690459003864e-05, 'epoch': 3.92}
 16%|█▋        | 12811/78504 [7:46:35<22:04:42,  1.21s/it] 16%|█▋        | 12812/78504 [7:46:36<20:36:36,  1.13s/it]                                                          {'loss': 0.2407, 'grad_norm': 1.0021964311599731, 'learning_rate': 2.7896479979618698e-05, 'epoch': 3.92}
 16%|█▋        | 12812/78504 [7:46:36<20:36:36,  1.13s/it] 16%|█▋        | 12813/78504 [7:46:37<18:44:14,  1.03s/it]                                                          {'loss': 0.2575, 'grad_norm': 1.9491335153579712, 'learning_rate': 2.789605536919876e-05, 'epoch': 3.92}
 16%|█▋        | 12813/78504 [7:46:37<18:44:14,  1.03s/it] 16%|█▋        | 12814/78504 [7:46:45<58:38:55,  3.21s/it]                                                          {'loss': 0.148, 'grad_norm': 0.5022057294845581, 'learning_rate': 2.789563075877882e-05, 'epoch': 3.92}
 16%|█▋        | 12814/78504 [7:46:45<58:38:55,  3.21s/it] 16%|█▋        | 12815/78504 [7:46:48<58:48:05,  3.22s/it]                                                          {'loss': 0.072, 'grad_norm': 0.2948642671108246, 'learning_rate': 2.789520614835888e-05, 'epoch': 3.92}
 16%|█▋        | 12815/78504 [7:46:48<58:48:05,  3.22s/it] 16%|█▋        | 12816/78504 [7:46:51<57:28:13,  3.15s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.4798768162727356, 'learning_rate': 2.789478153793894e-05, 'epoch': 3.92}
 16%|█▋        | 12816/78504 [7:46:51<57:28:13,  3.15s/it] 16%|█▋        | 12817/78504 [7:46:54<54:31:54,  2.99s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.49679526686668396, 'learning_rate': 2.7894356927519002e-05, 'epoch': 3.92}
 16%|█▋        | 12817/78504 [7:46:54<54:31:54,  2.99s/it] 16%|█▋        | 12818/78504 [7:46:56<51:41:05,  2.83s/it]                                                          {'loss': 0.048, 'grad_norm': 0.32980450987815857, 'learning_rate': 2.7893932317099064e-05, 'epoch': 3.92}
 16%|█▋        | 12818/78504 [7:46:56<51:41:05,  2.83s/it] 16%|█▋        | 12819/78504 [7:46:59<48:35:11,  2.66s/it]                                                          {'loss': 0.0506, 'grad_norm': 0.747016429901123, 'learning_rate': 2.7893507706679123e-05, 'epoch': 3.92}
 16%|█▋        | 12819/78504 [7:46:59<48:35:11,  2.66s/it] 16%|█▋        | 12820/78504 [7:47:01<46:41:18,  2.56s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.2783246636390686, 'learning_rate': 2.7893083096259185e-05, 'epoch': 3.92}
 16%|█▋        | 12820/78504 [7:47:01<46:41:18,  2.56s/it] 16%|█▋        | 12821/78504 [7:47:03<44:08:52,  2.42s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.20648419857025146, 'learning_rate': 2.7892658485839243e-05, 'epoch': 3.92}
 16%|█▋        | 12821/78504 [7:47:03<44:08:52,  2.42s/it] 16%|█▋        | 12822/78504 [7:47:05<42:50:50,  2.35s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.22106339037418365, 'learning_rate': 2.7892233875419306e-05, 'epoch': 3.92}
 16%|█▋        | 12822/78504 [7:47:05<42:50:50,  2.35s/it] 16%|█▋        | 12823/78504 [7:47:07<41:44:02,  2.29s/it]                                                          {'loss': 0.0614, 'grad_norm': 0.17246340215206146, 'learning_rate': 2.7891809264999364e-05, 'epoch': 3.92}
 16%|█▋        | 12823/78504 [7:47:07<41:44:02,  2.29s/it] 16%|█▋        | 12824/78504 [7:47:09<40:19:42,  2.21s/it]                                                          {'loss': 0.1067, 'grad_norm': 0.33810973167419434, 'learning_rate': 2.7891384654579426e-05, 'epoch': 3.92}
 16%|█▋        | 12824/78504 [7:47:09<40:19:42,  2.21s/it] 16%|█▋        | 12825/78504 [7:47:11<39:00:31,  2.14s/it]                                                          {'loss': 0.071, 'grad_norm': 0.3592131733894348, 'learning_rate': 2.7890960044159485e-05, 'epoch': 3.92}
 16%|█▋        | 12825/78504 [7:47:11<39:00:31,  2.14s/it] 16%|█▋        | 12826/78504 [7:47:13<37:30:31,  2.06s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.3666788637638092, 'learning_rate': 2.7890535433739547e-05, 'epoch': 3.92}
 16%|█▋        | 12826/78504 [7:47:13<37:30:31,  2.06s/it] 16%|█▋        | 12827/78504 [7:47:15<36:20:24,  1.99s/it]                                                          {'loss': 0.1474, 'grad_norm': 0.9718689918518066, 'learning_rate': 2.7890110823319606e-05, 'epoch': 3.92}
 16%|█▋        | 12827/78504 [7:47:15<36:20:24,  1.99s/it] 16%|█▋        | 12828/78504 [7:47:17<34:52:10,  1.91s/it]                                                          {'loss': 0.1073, 'grad_norm': 0.33510085940361023, 'learning_rate': 2.7889686212899668e-05, 'epoch': 3.92}
 16%|█▋        | 12828/78504 [7:47:17<34:52:10,  1.91s/it] 16%|█▋        | 12829/78504 [7:47:18<33:25:05,  1.83s/it]                                                          {'loss': 0.1215, 'grad_norm': 0.44898927211761475, 'learning_rate': 2.7889261602479727e-05, 'epoch': 3.92}
 16%|█▋        | 12829/78504 [7:47:18<33:25:05,  1.83s/it] 16%|█▋        | 12830/78504 [7:47:20<31:50:03,  1.75s/it]                                                          {'loss': 0.1603, 'grad_norm': 0.5295097827911377, 'learning_rate': 2.788883699205979e-05, 'epoch': 3.92}
 16%|█▋        | 12830/78504 [7:47:20<31:50:03,  1.75s/it] 16%|█▋        | 12831/78504 [7:47:21<30:20:58,  1.66s/it]                                                          {'loss': 0.1491, 'grad_norm': 0.602199375629425, 'learning_rate': 2.7888412381639847e-05, 'epoch': 3.92}
 16%|█▋        | 12831/78504 [7:47:21<30:20:58,  1.66s/it] 16%|█▋        | 12832/78504 [7:47:23<29:01:40,  1.59s/it]                                                          {'loss': 0.1708, 'grad_norm': 1.0715205669403076, 'learning_rate': 2.7887987771219906e-05, 'epoch': 3.92}
 16%|█▋        | 12832/78504 [7:47:23<29:01:40,  1.59s/it] 16%|█▋        | 12833/78504 [7:47:24<27:22:24,  1.50s/it]                                                          {'loss': 0.2093, 'grad_norm': 0.4915609061717987, 'learning_rate': 2.7887563160799968e-05, 'epoch': 3.92}
 16%|█▋        | 12833/78504 [7:47:24<27:22:24,  1.50s/it] 16%|█▋        | 12834/78504 [7:47:25<25:26:42,  1.39s/it]                                                          {'loss': 0.2174, 'grad_norm': 0.5506158471107483, 'learning_rate': 2.7887138550380027e-05, 'epoch': 3.92}
 16%|█▋        | 12834/78504 [7:47:25<25:26:42,  1.39s/it] 16%|█▋        | 12835/78504 [7:47:26<23:48:29,  1.31s/it]                                                          {'loss': 0.2022, 'grad_norm': 0.6764092445373535, 'learning_rate': 2.788671393996009e-05, 'epoch': 3.92}
 16%|█▋        | 12835/78504 [7:47:26<23:48:29,  1.31s/it] 16%|█▋        | 12836/78504 [7:47:27<22:22:29,  1.23s/it]                                                          {'loss': 0.2026, 'grad_norm': 1.448798656463623, 'learning_rate': 2.7886289329540148e-05, 'epoch': 3.92}
 16%|█▋        | 12836/78504 [7:47:27<22:22:29,  1.23s/it] 16%|█▋        | 12837/78504 [7:47:28<20:45:21,  1.14s/it]                                                          {'loss': 0.168, 'grad_norm': 0.6571189761161804, 'learning_rate': 2.788586471912021e-05, 'epoch': 3.92}
 16%|█▋        | 12837/78504 [7:47:28<20:45:21,  1.14s/it] 16%|█▋        | 12838/78504 [7:47:29<18:50:12,  1.03s/it]                                                          {'loss': 0.2683, 'grad_norm': 1.3480943441390991, 'learning_rate': 2.788544010870027e-05, 'epoch': 3.92}
 16%|█▋        | 12838/78504 [7:47:29<18:50:12,  1.03s/it] 16%|█▋        | 12839/78504 [7:47:38<60:57:06,  3.34s/it]                                                          {'loss': 0.1184, 'grad_norm': 0.4012591540813446, 'learning_rate': 2.788501549828033e-05, 'epoch': 3.93}
 16%|█▋        | 12839/78504 [7:47:38<60:57:06,  3.34s/it] 16%|█▋        | 12840/78504 [7:47:41<59:28:29,  3.26s/it]                                                          {'loss': 0.1022, 'grad_norm': 0.41694751381874084, 'learning_rate': 2.788459088786039e-05, 'epoch': 3.93}
 16%|█▋        | 12840/78504 [7:47:41<59:28:29,  3.26s/it] 16%|█▋        | 12841/78504 [7:47:43<55:38:13,  3.05s/it]                                                          {'loss': 0.0758, 'grad_norm': 0.3899916708469391, 'learning_rate': 2.788416627744045e-05, 'epoch': 3.93}
 16%|█▋        | 12841/78504 [7:47:43<55:38:13,  3.05s/it] 16%|█▋        | 12842/78504 [7:47:46<53:01:22,  2.91s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.23494024574756622, 'learning_rate': 2.788374166702051e-05, 'epoch': 3.93}
 16%|█▋        | 12842/78504 [7:47:46<53:01:22,  2.91s/it] 16%|█▋        | 12843/78504 [7:47:48<50:37:38,  2.78s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.3014655113220215, 'learning_rate': 2.7883317056600572e-05, 'epoch': 3.93}
 16%|█▋        | 12843/78504 [7:47:49<50:37:38,  2.78s/it] 16%|█▋        | 12844/78504 [7:47:51<47:48:57,  2.62s/it]                                                          {'loss': 0.0406, 'grad_norm': 0.6003100872039795, 'learning_rate': 2.788289244618063e-05, 'epoch': 3.93}
 16%|█▋        | 12844/78504 [7:47:51<47:48:57,  2.62s/it] 16%|█▋        | 12845/78504 [7:47:53<46:07:24,  2.53s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.682386040687561, 'learning_rate': 2.788246783576069e-05, 'epoch': 3.93}
 16%|█▋        | 12845/78504 [7:47:53<46:07:24,  2.53s/it] 16%|█▋        | 12846/78504 [7:47:55<43:48:20,  2.40s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.5480945706367493, 'learning_rate': 2.788204322534075e-05, 'epoch': 3.93}
 16%|█▋        | 12846/78504 [7:47:55<43:48:20,  2.40s/it] 16%|█▋        | 12847/78504 [7:47:57<42:38:18,  2.34s/it]                                                          {'loss': 0.0945, 'grad_norm': 0.4700543284416199, 'learning_rate': 2.788161861492081e-05, 'epoch': 3.93}
 16%|█▋        | 12847/78504 [7:47:57<42:38:18,  2.34s/it] 16%|█▋        | 12848/78504 [7:47:59<41:31:48,  2.28s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.4244331121444702, 'learning_rate': 2.7881194004500872e-05, 'epoch': 3.93}
 16%|█▋        | 12848/78504 [7:48:00<41:31:48,  2.28s/it] 16%|█▋        | 12849/78504 [7:48:01<39:56:48,  2.19s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.36176005005836487, 'learning_rate': 2.788076939408093e-05, 'epoch': 3.93}
 16%|█▋        | 12849/78504 [7:48:02<39:56:48,  2.19s/it] 16%|█▋        | 12850/78504 [7:48:03<37:51:37,  2.08s/it]                                                          {'loss': 0.087, 'grad_norm': 0.6713166236877441, 'learning_rate': 2.7880344783660993e-05, 'epoch': 3.93}
 16%|█▋        | 12850/78504 [7:48:03<37:51:37,  2.08s/it] 16%|█▋        | 12851/78504 [7:48:05<36:41:33,  2.01s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.5819852948188782, 'learning_rate': 2.7879920173241052e-05, 'epoch': 3.93}
 16%|█▋        | 12851/78504 [7:48:05<36:41:33,  2.01s/it] 16%|█▋        | 12852/78504 [7:48:07<35:41:29,  1.96s/it]                                                          {'loss': 0.1184, 'grad_norm': 2.3580875396728516, 'learning_rate': 2.7879495562821114e-05, 'epoch': 3.93}
 16%|█▋        | 12852/78504 [7:48:07<35:41:29,  1.96s/it] 16%|█▋        | 12853/78504 [7:48:09<34:25:49,  1.89s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.5240365266799927, 'learning_rate': 2.7879070952401173e-05, 'epoch': 3.93}
 16%|█▋        | 12853/78504 [7:48:09<34:25:49,  1.89s/it] 16%|█▋        | 12854/78504 [7:48:10<33:05:45,  1.81s/it]                                                          {'loss': 0.1484, 'grad_norm': 1.2682782411575317, 'learning_rate': 2.7878646341981235e-05, 'epoch': 3.93}
 16%|█▋        | 12854/78504 [7:48:10<33:05:45,  1.81s/it] 16%|█▋        | 12855/78504 [7:48:12<31:26:10,  1.72s/it]                                                          {'loss': 0.1683, 'grad_norm': 0.553189754486084, 'learning_rate': 2.7878221731561293e-05, 'epoch': 3.93}
 16%|█▋        | 12855/78504 [7:48:12<31:26:10,  1.72s/it] 16%|█▋        | 12856/78504 [7:48:13<29:48:39,  1.63s/it]                                                          {'loss': 0.1784, 'grad_norm': 0.5474544763565063, 'learning_rate': 2.7877797121141356e-05, 'epoch': 3.93}
 16%|█▋        | 12856/78504 [7:48:13<29:48:39,  1.63s/it] 16%|█▋        | 12857/78504 [7:48:15<28:35:19,  1.57s/it]                                                          {'loss': 0.2039, 'grad_norm': 1.0723536014556885, 'learning_rate': 2.7877372510721414e-05, 'epoch': 3.93}
 16%|█▋        | 12857/78504 [7:48:15<28:35:19,  1.57s/it] 16%|█▋        | 12858/78504 [7:48:16<26:40:32,  1.46s/it]                                                          {'loss': 0.1913, 'grad_norm': 0.81844562292099, 'learning_rate': 2.7876947900301473e-05, 'epoch': 3.93}
 16%|█▋        | 12858/78504 [7:48:16<26:40:32,  1.46s/it] 16%|█▋        | 12859/78504 [7:48:17<24:48:32,  1.36s/it]                                                          {'loss': 0.2128, 'grad_norm': 0.921522319316864, 'learning_rate': 2.7876523289881535e-05, 'epoch': 3.93}
 16%|█▋        | 12859/78504 [7:48:17<24:48:32,  1.36s/it] 16%|█▋        | 12860/78504 [7:48:18<23:22:53,  1.28s/it]                                                          {'loss': 0.1929, 'grad_norm': 1.2985124588012695, 'learning_rate': 2.7876098679461594e-05, 'epoch': 3.93}
 16%|█▋        | 12860/78504 [7:48:18<23:22:53,  1.28s/it] 16%|█▋        | 12861/78504 [7:48:19<21:48:16,  1.20s/it]                                                          {'loss': 0.233, 'grad_norm': 1.349522590637207, 'learning_rate': 2.7875674069041656e-05, 'epoch': 3.93}
 16%|█▋        | 12861/78504 [7:48:19<21:48:16,  1.20s/it] 16%|█▋        | 12862/78504 [7:48:20<20:22:56,  1.12s/it]                                                          {'loss': 0.2685, 'grad_norm': 1.8991618156433105, 'learning_rate': 2.7875249458621715e-05, 'epoch': 3.93}
 16%|█▋        | 12862/78504 [7:48:20<20:22:56,  1.12s/it] 16%|█▋        | 12863/78504 [7:48:21<18:32:56,  1.02s/it]                                                          {'loss': 0.2727, 'grad_norm': 1.435217022895813, 'learning_rate': 2.7874824848201777e-05, 'epoch': 3.93}
 16%|█▋        | 12863/78504 [7:48:21<18:32:56,  1.02s/it] 16%|█▋        | 12864/78504 [7:48:30<62:09:10,  3.41s/it]                                                          {'loss': 0.1569, 'grad_norm': 0.6399997472763062, 'learning_rate': 2.7874400237781835e-05, 'epoch': 3.93}
 16%|█▋        | 12864/78504 [7:48:30<62:09:10,  3.41s/it] 16%|█▋        | 12865/78504 [7:48:33<60:34:02,  3.32s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.6699171662330627, 'learning_rate': 2.7873975627361897e-05, 'epoch': 3.93}
 16%|█▋        | 12865/78504 [7:48:33<60:34:02,  3.32s/it] 16%|█▋        | 12866/78504 [7:48:36<58:43:35,  3.22s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.198660209774971, 'learning_rate': 2.7873551016941956e-05, 'epoch': 3.93}
 16%|█▋        | 12866/78504 [7:48:36<58:43:35,  3.22s/it] 16%|█▋        | 12867/78504 [7:48:39<55:24:17,  3.04s/it]                                                          {'loss': 0.0674, 'grad_norm': 0.21376225352287292, 'learning_rate': 2.7873126406522018e-05, 'epoch': 3.93}
 16%|█▋        | 12867/78504 [7:48:39<55:24:17,  3.04s/it] 16%|█▋        | 12868/78504 [7:48:41<52:16:33,  2.87s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.267231822013855, 'learning_rate': 2.7872701796102077e-05, 'epoch': 3.93}
 16%|█▋        | 12868/78504 [7:48:41<52:16:33,  2.87s/it] 16%|█▋        | 12869/78504 [7:48:43<49:01:05,  2.69s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.17424820363521576, 'learning_rate': 2.787227718568214e-05, 'epoch': 3.93}
 16%|█▋        | 12869/78504 [7:48:43<49:01:05,  2.69s/it] 16%|█▋        | 12870/78504 [7:48:46<47:01:35,  2.58s/it]                                                          {'loss': 0.0479, 'grad_norm': 0.2198694497346878, 'learning_rate': 2.7871852575262198e-05, 'epoch': 3.93}
 16%|█▋        | 12870/78504 [7:48:46<47:01:35,  2.58s/it] 16%|█▋        | 12871/78504 [7:48:48<44:19:24,  2.43s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.21448355913162231, 'learning_rate': 2.7871427964842256e-05, 'epoch': 3.93}
 16%|█▋        | 12871/78504 [7:48:48<44:19:24,  2.43s/it] 16%|█▋        | 12872/78504 [7:48:50<42:05:31,  2.31s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.3380422592163086, 'learning_rate': 2.787100335442232e-05, 'epoch': 3.94}
 16%|█▋        | 12872/78504 [7:48:50<42:05:31,  2.31s/it] 16%|█▋        | 12873/78504 [7:48:52<41:08:20,  2.26s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.312454491853714, 'learning_rate': 2.7870578744002377e-05, 'epoch': 3.94}
 16%|█▋        | 12873/78504 [7:48:52<41:08:20,  2.26s/it] 16%|█▋        | 12874/78504 [7:48:54<39:40:04,  2.18s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.3527754247188568, 'learning_rate': 2.787015413358244e-05, 'epoch': 3.94}
 16%|█▋        | 12874/78504 [7:48:54<39:40:04,  2.18s/it] 16%|█▋        | 12875/78504 [7:48:56<37:37:31,  2.06s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.43993595242500305, 'learning_rate': 2.7869729523162498e-05, 'epoch': 3.94}
 16%|█▋        | 12875/78504 [7:48:56<37:37:31,  2.06s/it] 16%|█▋        | 12876/78504 [7:48:58<36:33:06,  2.01s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.5072477459907532, 'learning_rate': 2.786930491274256e-05, 'epoch': 3.94}
 16%|█▋        | 12876/78504 [7:48:58<36:33:06,  2.01s/it] 16%|█▋        | 12877/78504 [7:48:59<34:59:07,  1.92s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.6820381283760071, 'learning_rate': 2.786888030232262e-05, 'epoch': 3.94}
 16%|█▋        | 12877/78504 [7:48:59<34:59:07,  1.92s/it] 16%|█▋        | 12878/78504 [7:49:01<33:32:41,  1.84s/it]                                                          {'loss': 0.1749, 'grad_norm': 0.47169771790504456, 'learning_rate': 2.786845569190268e-05, 'epoch': 3.94}
 16%|█▋        | 12878/78504 [7:49:01<33:32:41,  1.84s/it] 16%|█▋        | 12879/78504 [7:49:02<31:58:59,  1.75s/it]                                                          {'loss': 0.1483, 'grad_norm': 0.5099872946739197, 'learning_rate': 2.786803108148274e-05, 'epoch': 3.94}
 16%|█▋        | 12879/78504 [7:49:02<31:58:59,  1.75s/it] 16%|█▋        | 12880/78504 [7:49:04<30:43:27,  1.69s/it]                                                          {'loss': 0.1815, 'grad_norm': 0.9071097373962402, 'learning_rate': 2.78676064710628e-05, 'epoch': 3.94}
 16%|█▋        | 12880/78504 [7:49:04<30:43:27,  1.69s/it] 16%|█▋        | 12881/78504 [7:49:05<29:19:05,  1.61s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.5463353991508484, 'learning_rate': 2.786718186064286e-05, 'epoch': 3.94}
 16%|█▋        | 12881/78504 [7:49:05<29:19:05,  1.61s/it] 16%|█▋        | 12882/78504 [7:49:07<28:14:02,  1.55s/it]                                                          {'loss': 0.1774, 'grad_norm': 0.652990460395813, 'learning_rate': 2.786675725022292e-05, 'epoch': 3.94}
 16%|█▋        | 12882/78504 [7:49:07<28:14:02,  1.55s/it] 16%|█▋        | 12883/78504 [7:49:08<26:47:51,  1.47s/it]                                                          {'loss': 0.1864, 'grad_norm': 1.051215648651123, 'learning_rate': 2.786633263980298e-05, 'epoch': 3.94}
 16%|█▋        | 12883/78504 [7:49:08<26:47:51,  1.47s/it] 16%|█▋        | 12884/78504 [7:49:09<24:55:10,  1.37s/it]                                                          {'loss': 0.2069, 'grad_norm': 1.0634267330169678, 'learning_rate': 2.786590802938304e-05, 'epoch': 3.94}
 16%|█▋        | 12884/78504 [7:49:09<24:55:10,  1.37s/it] 16%|█▋        | 12885/78504 [7:49:10<23:24:36,  1.28s/it]                                                          {'loss': 0.1879, 'grad_norm': 0.738839864730835, 'learning_rate': 2.7865483418963102e-05, 'epoch': 3.94}
 16%|█▋        | 12885/78504 [7:49:10<23:24:36,  1.28s/it] 16%|█▋        | 12886/78504 [7:49:11<21:45:28,  1.19s/it]                                                          {'loss': 0.196, 'grad_norm': 1.232881784439087, 'learning_rate': 2.786505880854316e-05, 'epoch': 3.94}
 16%|█▋        | 12886/78504 [7:49:11<21:45:28,  1.19s/it] 16%|█▋        | 12887/78504 [7:49:12<20:19:03,  1.11s/it]                                                          {'loss': 0.2416, 'grad_norm': 1.26139235496521, 'learning_rate': 2.7864634198123223e-05, 'epoch': 3.94}
 16%|█▋        | 12887/78504 [7:49:12<20:19:03,  1.11s/it] 16%|█▋        | 12888/78504 [7:49:13<18:28:46,  1.01s/it]                                                          {'loss': 0.2745, 'grad_norm': 1.078547477722168, 'learning_rate': 2.786420958770328e-05, 'epoch': 3.94}
 16%|█▋        | 12888/78504 [7:49:13<18:28:46,  1.01s/it] 16%|█▋        | 12889/78504 [7:49:21<56:18:55,  3.09s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.3061031997203827, 'learning_rate': 2.7863784977283343e-05, 'epoch': 3.94}
 16%|█▋        | 12889/78504 [7:49:21<56:18:55,  3.09s/it] 16%|█▋        | 12890/78504 [7:49:24<56:25:42,  3.10s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.3701903820037842, 'learning_rate': 2.7863360366863402e-05, 'epoch': 3.94}
 16%|█▋        | 12890/78504 [7:49:24<56:25:42,  3.10s/it] 16%|█▋        | 12891/78504 [7:49:27<54:22:11,  2.98s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.36980706453323364, 'learning_rate': 2.7862935756443464e-05, 'epoch': 3.94}
 16%|█▋        | 12891/78504 [7:49:27<54:22:11,  2.98s/it] 16%|█▋        | 12892/78504 [7:49:29<52:10:27,  2.86s/it]                                                          {'loss': 0.0545, 'grad_norm': 0.2603070139884949, 'learning_rate': 2.7862511146023523e-05, 'epoch': 3.94}
 16%|█▋        | 12892/78504 [7:49:29<52:10:27,  2.86s/it] 16%|█▋        | 12893/78504 [7:49:32<50:01:18,  2.74s/it]                                                          {'loss': 0.0591, 'grad_norm': 0.2418753206729889, 'learning_rate': 2.7862086535603585e-05, 'epoch': 3.94}
 16%|█▋        | 12893/78504 [7:49:32<50:01:18,  2.74s/it] 16%|█▋        | 12894/78504 [7:49:34<47:22:50,  2.60s/it]                                                          {'loss': 0.0493, 'grad_norm': 0.2944003641605377, 'learning_rate': 2.7861661925183644e-05, 'epoch': 3.94}
 16%|█▋        | 12894/78504 [7:49:34<47:22:50,  2.60s/it] 16%|█▋        | 12895/78504 [7:49:36<45:52:14,  2.52s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.47913146018981934, 'learning_rate': 2.7861237314763702e-05, 'epoch': 3.94}
 16%|█▋        | 12895/78504 [7:49:36<45:52:14,  2.52s/it] 16%|█▋        | 12896/78504 [7:49:39<43:30:27,  2.39s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.3792876601219177, 'learning_rate': 2.7860812704343765e-05, 'epoch': 3.94}
 16%|█▋        | 12896/78504 [7:49:39<43:30:27,  2.39s/it] 16%|█▋        | 12897/78504 [7:49:41<42:24:29,  2.33s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.4120624363422394, 'learning_rate': 2.7860388093923823e-05, 'epoch': 3.94}
 16%|█▋        | 12897/78504 [7:49:41<42:24:29,  2.33s/it] 16%|█▋        | 12898/78504 [7:49:43<41:22:18,  2.27s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.49041685461997986, 'learning_rate': 2.7859963483503885e-05, 'epoch': 3.94}
 16%|█▋        | 12898/78504 [7:49:43<41:22:18,  2.27s/it] 16%|█▋        | 12899/78504 [7:49:45<39:53:03,  2.19s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.38143086433410645, 'learning_rate': 2.7859538873083944e-05, 'epoch': 3.94}
 16%|█▋        | 12899/78504 [7:49:45<39:53:03,  2.19s/it] 16%|█▋        | 12900/78504 [7:49:47<38:45:44,  2.13s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.33200570940971375, 'learning_rate': 2.7859114262664006e-05, 'epoch': 3.94}
 16%|█▋        | 12900/78504 [7:49:47<38:45:44,  2.13s/it] 16%|█▋        | 12901/78504 [7:49:49<37:20:35,  2.05s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.2797792851924896, 'learning_rate': 2.7858689652244065e-05, 'epoch': 3.94}
 16%|█▋        | 12901/78504 [7:49:49<37:20:35,  2.05s/it] 16%|█▋        | 12902/78504 [7:49:51<36:11:33,  1.99s/it]                                                          {'loss': 0.136, 'grad_norm': 0.4527464210987091, 'learning_rate': 2.7858265041824127e-05, 'epoch': 3.94}
 16%|█▋        | 12902/78504 [7:49:51<36:11:33,  1.99s/it] 16%|█▋        | 12903/78504 [7:49:52<34:47:53,  1.91s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.4643622040748596, 'learning_rate': 2.7857840431404186e-05, 'epoch': 3.94}
 16%|█▋        | 12903/78504 [7:49:52<34:47:53,  1.91s/it] 16%|█▋        | 12904/78504 [7:49:54<33:21:21,  1.83s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.7257064580917358, 'learning_rate': 2.7857415820984248e-05, 'epoch': 3.94}
 16%|█▋        | 12904/78504 [7:49:54<33:21:21,  1.83s/it] 16%|█▋        | 12905/78504 [7:49:55<31:38:53,  1.74s/it]                                                          {'loss': 0.1698, 'grad_norm': 0.7935320734977722, 'learning_rate': 2.7856991210564306e-05, 'epoch': 3.95}
 16%|█▋        | 12905/78504 [7:49:55<31:38:53,  1.74s/it] 16%|█▋        | 12906/78504 [7:49:57<30:12:42,  1.66s/it]                                                          {'loss': 0.1872, 'grad_norm': 0.46783432364463806, 'learning_rate': 2.785656660014437e-05, 'epoch': 3.95}
 16%|█▋        | 12906/78504 [7:49:57<30:12:42,  1.66s/it] 16%|█▋        | 12907/78504 [7:49:58<28:51:51,  1.58s/it]                                                          {'loss': 0.1716, 'grad_norm': 0.6540877819061279, 'learning_rate': 2.7856141989724427e-05, 'epoch': 3.95}
 16%|█▋        | 12907/78504 [7:49:58<28:51:51,  1.58s/it] 16%|█▋        | 12908/78504 [7:50:00<27:12:52,  1.49s/it]                                                          {'loss': 0.1849, 'grad_norm': 0.6668471097946167, 'learning_rate': 2.7855717379304486e-05, 'epoch': 3.95}
 16%|█▋        | 12908/78504 [7:50:00<27:12:52,  1.49s/it] 16%|█▋        | 12909/78504 [7:50:01<25:19:00,  1.39s/it]                                                          {'loss': 0.1602, 'grad_norm': 0.5857793688774109, 'learning_rate': 2.7855292768884548e-05, 'epoch': 3.95}
 16%|█▋        | 12909/78504 [7:50:01<25:19:00,  1.39s/it] 16%|█▋        | 12910/78504 [7:50:02<23:42:25,  1.30s/it]                                                          {'loss': 0.183, 'grad_norm': 0.9351179599761963, 'learning_rate': 2.7854868158464607e-05, 'epoch': 3.95}
 16%|█▋        | 12910/78504 [7:50:02<23:42:25,  1.30s/it] 16%|█▋        | 12911/78504 [7:50:03<22:20:43,  1.23s/it]                                                          {'loss': 0.2301, 'grad_norm': 0.7500543594360352, 'learning_rate': 2.785444354804467e-05, 'epoch': 3.95}
 16%|█▋        | 12911/78504 [7:50:03<22:20:43,  1.23s/it] 16%|█▋        | 12912/78504 [7:50:04<20:44:05,  1.14s/it]                                                          {'loss': 0.2524, 'grad_norm': 1.2025268077850342, 'learning_rate': 2.7854018937624727e-05, 'epoch': 3.95}
 16%|█▋        | 12912/78504 [7:50:04<20:44:05,  1.14s/it] 16%|█▋        | 12913/78504 [7:50:05<18:48:36,  1.03s/it]                                                          {'loss': 0.2761, 'grad_norm': 1.125483751296997, 'learning_rate': 2.785359432720479e-05, 'epoch': 3.95}
 16%|█▋        | 12913/78504 [7:50:05<18:48:36,  1.03s/it] 16%|█▋        | 12914/78504 [7:50:14<63:43:57,  3.50s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.3111622929573059, 'learning_rate': 2.7853169716784848e-05, 'epoch': 3.95}
 16%|█▋        | 12914/78504 [7:50:14<63:43:57,  3.50s/it] 16%|█▋        | 12915/78504 [7:50:17<62:55:02,  3.45s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.2309739738702774, 'learning_rate': 2.785274510636491e-05, 'epoch': 3.95}
 16%|█▋        | 12915/78504 [7:50:17<62:55:02,  3.45s/it] 16%|█▋        | 12916/78504 [7:50:20<58:04:48,  3.19s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.3425169885158539, 'learning_rate': 2.785232049594497e-05, 'epoch': 3.95}
 16%|█▋        | 12916/78504 [7:50:20<58:04:48,  3.19s/it] 16%|█▋        | 12917/78504 [7:50:22<54:56:36,  3.02s/it]                                                          {'loss': 0.053, 'grad_norm': 0.4303465485572815, 'learning_rate': 2.785189588552503e-05, 'epoch': 3.95}
 16%|█▋        | 12917/78504 [7:50:22<54:56:36,  3.02s/it] 16%|█▋        | 12918/78504 [7:50:25<51:55:28,  2.85s/it]                                                          {'loss': 0.0475, 'grad_norm': 0.20913124084472656, 'learning_rate': 2.785147127510509e-05, 'epoch': 3.95}
 16%|█▋        | 12918/78504 [7:50:25<51:55:28,  2.85s/it] 16%|█▋        | 12919/78504 [7:50:27<48:45:38,  2.68s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.22092673182487488, 'learning_rate': 2.7851046664685152e-05, 'epoch': 3.95}
 16%|█▋        | 12919/78504 [7:50:27<48:45:38,  2.68s/it] 16%|█▋        | 12920/78504 [7:50:29<46:45:38,  2.57s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.18935316801071167, 'learning_rate': 2.7850622054265214e-05, 'epoch': 3.95}
 16%|█▋        | 12920/78504 [7:50:29<46:45:38,  2.57s/it] 16%|█▋        | 12921/78504 [7:50:32<44:10:29,  2.42s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.21563056111335754, 'learning_rate': 2.7850197443845273e-05, 'epoch': 3.95}
 16%|█▋        | 12921/78504 [7:50:32<44:10:29,  2.42s/it] 16%|█▋        | 12922/78504 [7:50:34<42:50:39,  2.35s/it]                                                          {'loss': 0.096, 'grad_norm': 0.2944338023662567, 'learning_rate': 2.7849772833425335e-05, 'epoch': 3.95}
 16%|█▋        | 12922/78504 [7:50:34<42:50:39,  2.35s/it] 16%|█▋        | 12923/78504 [7:50:36<41:42:07,  2.29s/it]                                                          {'loss': 0.0835, 'grad_norm': 0.5362118482589722, 'learning_rate': 2.7849348223005394e-05, 'epoch': 3.95}
 16%|█▋        | 12923/78504 [7:50:36<41:42:07,  2.29s/it] 16%|█▋        | 12924/78504 [7:50:38<40:14:26,  2.21s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.46064451336860657, 'learning_rate': 2.7848923612585456e-05, 'epoch': 3.95}
 16%|█▋        | 12924/78504 [7:50:38<40:14:26,  2.21s/it] 16%|█▋        | 12925/78504 [7:50:40<38:57:11,  2.14s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.23316146433353424, 'learning_rate': 2.7848499002165514e-05, 'epoch': 3.95}
 16%|█▋        | 12925/78504 [7:50:40<38:57:11,  2.14s/it] 16%|█▋        | 12926/78504 [7:50:42<37:27:47,  2.06s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.46562862396240234, 'learning_rate': 2.7848074391745576e-05, 'epoch': 3.95}
 16%|█▋        | 12926/78504 [7:50:42<37:27:47,  2.06s/it] 16%|█▋        | 12927/78504 [7:50:44<36:17:00,  1.99s/it]                                                          {'loss': 0.1419, 'grad_norm': 0.35250261425971985, 'learning_rate': 2.7847649781325635e-05, 'epoch': 3.95}
 16%|█▋        | 12927/78504 [7:50:44<36:17:00,  1.99s/it] 16%|█▋        | 12928/78504 [7:50:45<35:00:44,  1.92s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.3646871745586395, 'learning_rate': 2.7847225170905697e-05, 'epoch': 3.95}
 16%|█▋        | 12928/78504 [7:50:45<35:00:44,  1.92s/it] 16%|█▋        | 12929/78504 [7:50:47<33:28:57,  1.84s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.5363051891326904, 'learning_rate': 2.7846800560485756e-05, 'epoch': 3.95}
 16%|█▋        | 12929/78504 [7:50:47<33:28:57,  1.84s/it] 16%|█▋        | 12930/78504 [7:50:48<31:54:08,  1.75s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.4267081916332245, 'learning_rate': 2.7846375950065818e-05, 'epoch': 3.95}
 16%|█▋        | 12930/78504 [7:50:49<31:54:08,  1.75s/it] 16%|█▋        | 12931/78504 [7:50:50<30:20:33,  1.67s/it]                                                          {'loss': 0.196, 'grad_norm': 0.39531266689300537, 'learning_rate': 2.7845951339645877e-05, 'epoch': 3.95}
 16%|█▋        | 12931/78504 [7:50:50<30:20:33,  1.67s/it] 16%|█▋        | 12932/78504 [7:50:51<28:50:27,  1.58s/it]                                                          {'loss': 0.1495, 'grad_norm': 0.591958224773407, 'learning_rate': 2.784552672922594e-05, 'epoch': 3.95}
 16%|█▋        | 12932/78504 [7:50:51<28:50:27,  1.58s/it] 16%|█▋        | 12933/78504 [7:50:53<27:13:41,  1.49s/it]                                                          {'loss': 0.1911, 'grad_norm': 0.605510950088501, 'learning_rate': 2.7845102118805997e-05, 'epoch': 3.95}
 16%|█▋        | 12933/78504 [7:50:53<27:13:41,  1.49s/it] 16%|█▋        | 12934/78504 [7:50:54<25:19:24,  1.39s/it]                                                          {'loss': 0.1664, 'grad_norm': 0.7253336310386658, 'learning_rate': 2.7844677508386056e-05, 'epoch': 3.95}
 16%|█▋        | 12934/78504 [7:50:54<25:19:24,  1.39s/it] 16%|█▋        | 12935/78504 [7:50:55<23:42:05,  1.30s/it]                                                          {'loss': 0.1962, 'grad_norm': 0.7151932120323181, 'learning_rate': 2.7844252897966118e-05, 'epoch': 3.95}
 16%|█▋        | 12935/78504 [7:50:55<23:42:05,  1.30s/it] 16%|█▋        | 12936/78504 [7:50:56<22:18:56,  1.23s/it]                                                          {'loss': 0.1892, 'grad_norm': 1.2851617336273193, 'learning_rate': 2.7843828287546177e-05, 'epoch': 3.95}
 16%|█▋        | 12936/78504 [7:50:56<22:18:56,  1.23s/it] 16%|█▋        | 12937/78504 [7:50:57<20:41:28,  1.14s/it]                                                          {'loss': 0.2215, 'grad_norm': 0.8114538192749023, 'learning_rate': 2.784340367712624e-05, 'epoch': 3.96}
 16%|█▋        | 12937/78504 [7:50:57<20:41:28,  1.14s/it] 16%|█▋        | 12938/78504 [7:50:58<18:47:32,  1.03s/it]                                                          {'loss': 0.2782, 'grad_norm': 1.330302119255066, 'learning_rate': 2.7842979066706298e-05, 'epoch': 3.96}
 16%|█▋        | 12938/78504 [7:50:58<18:47:32,  1.03s/it] 16%|█▋        | 12939/78504 [7:51:07<66:31:25,  3.65s/it]                                                          {'loss': 0.1636, 'grad_norm': 0.8392424583435059, 'learning_rate': 2.784255445628636e-05, 'epoch': 3.96}
 16%|█▋        | 12939/78504 [7:51:07<66:31:25,  3.65s/it] 16%|█▋        | 12940/78504 [7:51:11<64:54:59,  3.56s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.24898689985275269, 'learning_rate': 2.784212984586642e-05, 'epoch': 3.96}
 16%|█▋        | 12940/78504 [7:51:11<64:54:59,  3.56s/it] 16%|█▋        | 12941/78504 [7:51:14<61:21:18,  3.37s/it]                                                          {'loss': 0.0623, 'grad_norm': 0.20165856182575226, 'learning_rate': 2.784170523544648e-05, 'epoch': 3.96}
 16%|█▋        | 12941/78504 [7:51:14<61:21:18,  3.37s/it] 16%|█▋        | 12942/78504 [7:51:16<57:00:54,  3.13s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.7929010987281799, 'learning_rate': 2.784128062502654e-05, 'epoch': 3.96}
 16%|█▋        | 12942/78504 [7:51:16<57:00:54,  3.13s/it] 16%|█▋        | 12943/78504 [7:51:19<53:23:43,  2.93s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.24790024757385254, 'learning_rate': 2.78408560146066e-05, 'epoch': 3.96}
 16%|█▋        | 12943/78504 [7:51:19<53:23:43,  2.93s/it] 16%|█▋        | 12944/78504 [7:51:21<50:38:12,  2.78s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.2558095455169678, 'learning_rate': 2.784043140418666e-05, 'epoch': 3.96}
 16%|█▋        | 12944/78504 [7:51:21<50:38:12,  2.78s/it] 16%|█▋        | 12945/78504 [7:51:23<48:06:49,  2.64s/it]                                                          {'loss': 0.0517, 'grad_norm': 0.23334206640720367, 'learning_rate': 2.7840006793766722e-05, 'epoch': 3.96}
 16%|█▋        | 12945/78504 [7:51:23<48:06:49,  2.64s/it] 16%|█▋        | 12946/78504 [7:51:26<45:04:52,  2.48s/it]                                                          {'loss': 0.0594, 'grad_norm': 0.2631241977214813, 'learning_rate': 2.783958218334678e-05, 'epoch': 3.96}
 16%|█▋        | 12946/78504 [7:51:26<45:04:52,  2.48s/it] 16%|█▋        | 12947/78504 [7:51:28<42:40:35,  2.34s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.578944981098175, 'learning_rate': 2.783915757292684e-05, 'epoch': 3.96}
 16%|█▋        | 12947/78504 [7:51:28<42:40:35,  2.34s/it] 16%|█▋        | 12948/78504 [7:51:30<41:31:45,  2.28s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.32248103618621826, 'learning_rate': 2.78387329625069e-05, 'epoch': 3.96}
 16%|█▋        | 12948/78504 [7:51:30<41:31:45,  2.28s/it] 16%|█▋        | 12949/78504 [7:51:32<40:07:53,  2.20s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.6402571797370911, 'learning_rate': 2.783830835208696e-05, 'epoch': 3.96}
 16%|█▋        | 12949/78504 [7:51:32<40:07:53,  2.20s/it] 16%|█▋        | 12950/78504 [7:51:34<38:53:52,  2.14s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.2857830822467804, 'learning_rate': 2.7837883741667022e-05, 'epoch': 3.96}
 16%|█▋        | 12950/78504 [7:51:34<38:53:52,  2.14s/it] 16%|█▋        | 12951/78504 [7:51:36<37:23:58,  2.05s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.595598042011261, 'learning_rate': 2.783745913124708e-05, 'epoch': 3.96}
 16%|█▋        | 12951/78504 [7:51:36<37:23:58,  2.05s/it] 16%|█▋        | 12952/78504 [7:51:37<36:15:20,  1.99s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.44345834851264954, 'learning_rate': 2.7837034520827143e-05, 'epoch': 3.96}
 16%|█▋        | 12952/78504 [7:51:37<36:15:20,  1.99s/it] 16%|█▋        | 12953/78504 [7:51:39<34:48:42,  1.91s/it]                                                          {'loss': 0.1052, 'grad_norm': 1.083530306816101, 'learning_rate': 2.7836609910407202e-05, 'epoch': 3.96}
 16%|█▋        | 12953/78504 [7:51:39<34:48:42,  1.91s/it] 17%|█▋        | 12954/78504 [7:51:41<33:18:41,  1.83s/it]                                                          {'loss': 0.1493, 'grad_norm': 0.3428784906864166, 'learning_rate': 2.7836185299987264e-05, 'epoch': 3.96}
 17%|█▋        | 12954/78504 [7:51:41<33:18:41,  1.83s/it] 17%|█▋        | 12955/78504 [7:51:42<31:46:00,  1.74s/it]                                                          {'loss': 0.1537, 'grad_norm': 0.5745550394058228, 'learning_rate': 2.7835760689567323e-05, 'epoch': 3.96}
 17%|█▋        | 12955/78504 [7:51:42<31:46:00,  1.74s/it] 17%|█▋        | 12956/78504 [7:51:44<30:17:03,  1.66s/it]                                                          {'loss': 0.1709, 'grad_norm': 0.5295932292938232, 'learning_rate': 2.7835336079147385e-05, 'epoch': 3.96}
 17%|█▋        | 12956/78504 [7:51:44<30:17:03,  1.66s/it] 17%|█▋        | 12957/78504 [7:51:45<28:50:30,  1.58s/it]                                                          {'loss': 0.173, 'grad_norm': 0.543388843536377, 'learning_rate': 2.7834911468727444e-05, 'epoch': 3.96}
 17%|█▋        | 12957/78504 [7:51:45<28:50:30,  1.58s/it] 17%|█▋        | 12958/78504 [7:51:46<27:09:45,  1.49s/it]                                                          {'loss': 0.21, 'grad_norm': 1.1161088943481445, 'learning_rate': 2.7834486858307506e-05, 'epoch': 3.96}
 17%|█▋        | 12958/78504 [7:51:47<27:09:45,  1.49s/it] 17%|█▋        | 12959/78504 [7:51:48<25:38:01,  1.41s/it]                                                          {'loss': 0.1755, 'grad_norm': 0.908129870891571, 'learning_rate': 2.7834062247887564e-05, 'epoch': 3.96}
 17%|█▋        | 12959/78504 [7:51:48<25:38:01,  1.41s/it] 17%|█▋        | 12960/78504 [7:51:49<23:52:07,  1.31s/it]                                                          {'loss': 0.2162, 'grad_norm': 0.984261691570282, 'learning_rate': 2.7833637637467623e-05, 'epoch': 3.96}
 17%|█▋        | 12960/78504 [7:51:49<23:52:07,  1.31s/it] 17%|█▋        | 12961/78504 [7:51:50<22:27:00,  1.23s/it]                                                          {'loss': 0.2253, 'grad_norm': 0.9904894828796387, 'learning_rate': 2.7833213027047685e-05, 'epoch': 3.96}
 17%|█▋        | 12961/78504 [7:51:50<22:27:00,  1.23s/it] 17%|█▋        | 12962/78504 [7:51:51<20:45:45,  1.14s/it]                                                          {'loss': 0.1929, 'grad_norm': 0.8201888203620911, 'learning_rate': 2.7832788416627744e-05, 'epoch': 3.96}
 17%|█▋        | 12962/78504 [7:51:51<20:45:45,  1.14s/it] 17%|█▋        | 12963/78504 [7:51:52<18:51:05,  1.04s/it]                                                          {'loss': 0.2681, 'grad_norm': 1.6137237548828125, 'learning_rate': 2.7832363806207806e-05, 'epoch': 3.96}
 17%|█▋        | 12963/78504 [7:51:52<18:51:05,  1.04s/it] 17%|█▋        | 12964/78504 [7:52:01<63:49:36,  3.51s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.37956374883651733, 'learning_rate': 2.7831939195787865e-05, 'epoch': 3.96}
 17%|█▋        | 12964/78504 [7:52:01<63:49:36,  3.51s/it] 17%|█▋        | 12965/78504 [7:52:04<62:39:56,  3.44s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.40239790081977844, 'learning_rate': 2.7831514585367927e-05, 'epoch': 3.96}
 17%|█▋        | 12965/78504 [7:52:04<62:39:56,  3.44s/it] 17%|█▋        | 12966/78504 [7:52:07<60:06:46,  3.30s/it]                                                          {'loss': 0.0547, 'grad_norm': 0.28550857305526733, 'learning_rate': 2.7831089974947985e-05, 'epoch': 3.96}
 17%|█▋        | 12966/78504 [7:52:07<60:06:46,  3.30s/it] 17%|█▋        | 12967/78504 [7:52:10<56:19:02,  3.09s/it]                                                          {'loss': 0.0576, 'grad_norm': 0.35805800557136536, 'learning_rate': 2.7830665364528047e-05, 'epoch': 3.96}
 17%|█▋        | 12967/78504 [7:52:10<56:19:02,  3.09s/it] 17%|█▋        | 12968/78504 [7:52:12<52:54:25,  2.91s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.2699202597141266, 'learning_rate': 2.7830240754108106e-05, 'epoch': 3.96}
 17%|█▋        | 12968/78504 [7:52:12<52:54:25,  2.91s/it] 17%|█▋        | 12969/78504 [7:52:15<50:15:38,  2.76s/it]                                                          {'loss': 0.0502, 'grad_norm': 0.1932174265384674, 'learning_rate': 2.7829816143688168e-05, 'epoch': 3.96}
 17%|█▋        | 12969/78504 [7:52:15<50:15:38,  2.76s/it] 17%|█▋        | 12970/78504 [7:52:17<47:51:27,  2.63s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.17429250478744507, 'learning_rate': 2.7829391533268227e-05, 'epoch': 3.97}
 17%|█▋        | 12970/78504 [7:52:17<47:51:27,  2.63s/it] 17%|█▋        | 12971/78504 [7:52:19<45:00:29,  2.47s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.33172717690467834, 'learning_rate': 2.782896692284829e-05, 'epoch': 3.97}
 17%|█▋        | 12971/78504 [7:52:19<45:00:29,  2.47s/it] 17%|█▋        | 12972/78504 [7:52:21<43:24:36,  2.38s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.22129015624523163, 'learning_rate': 2.7828542312428348e-05, 'epoch': 3.97}
 17%|█▋        | 12972/78504 [7:52:21<43:24:36,  2.38s/it] 17%|█▋        | 12973/78504 [7:52:23<42:12:38,  2.32s/it]                                                          {'loss': 0.0424, 'grad_norm': 0.1617840826511383, 'learning_rate': 2.7828117702008406e-05, 'epoch': 3.97}
 17%|█▋        | 12973/78504 [7:52:23<42:12:38,  2.32s/it] 17%|█▋        | 12974/78504 [7:52:25<39:44:50,  2.18s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.42860743403434753, 'learning_rate': 2.782769309158847e-05, 'epoch': 3.97}
 17%|█▋        | 12974/78504 [7:52:25<39:44:50,  2.18s/it] 17%|█▋        | 12975/78504 [7:52:27<38:41:53,  2.13s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.3906301259994507, 'learning_rate': 2.7827268481168527e-05, 'epoch': 3.97}
 17%|█▋        | 12975/78504 [7:52:27<38:41:53,  2.13s/it] 17%|█▋        | 12976/78504 [7:52:29<37:36:22,  2.07s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.30319294333457947, 'learning_rate': 2.782684387074859e-05, 'epoch': 3.97}
 17%|█▋        | 12976/78504 [7:52:29<37:36:22,  2.07s/it] 17%|█▋        | 12977/78504 [7:52:31<36:29:29,  2.00s/it]                                                          {'loss': 0.1365, 'grad_norm': 0.4714825451374054, 'learning_rate': 2.7826419260328648e-05, 'epoch': 3.97}
 17%|█▋        | 12977/78504 [7:52:31<36:29:29,  2.00s/it] 17%|█▋        | 12978/78504 [7:52:33<35:11:12,  1.93s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.33611783385276794, 'learning_rate': 2.782599464990871e-05, 'epoch': 3.97}
 17%|█▋        | 12978/78504 [7:52:33<35:11:12,  1.93s/it] 17%|█▋        | 12979/78504 [7:52:34<33:39:38,  1.85s/it]                                                          {'loss': 0.1515, 'grad_norm': 0.49943050742149353, 'learning_rate': 2.782557003948877e-05, 'epoch': 3.97}
 17%|█▋        | 12979/78504 [7:52:34<33:39:38,  1.85s/it] 17%|█▋        | 12980/78504 [7:52:36<31:58:55,  1.76s/it]                                                          {'loss': 0.1403, 'grad_norm': 0.5730121731758118, 'learning_rate': 2.782514542906883e-05, 'epoch': 3.97}
 17%|█▋        | 12980/78504 [7:52:36<31:58:55,  1.76s/it] 17%|█▋        | 12981/78504 [7:52:37<30:26:58,  1.67s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.7508202195167542, 'learning_rate': 2.782472081864889e-05, 'epoch': 3.97}
 17%|█▋        | 12981/78504 [7:52:37<30:26:58,  1.67s/it] 17%|█▋        | 12982/78504 [7:52:39<29:03:20,  1.60s/it]                                                          {'loss': 0.1566, 'grad_norm': 0.6158155798912048, 'learning_rate': 2.782429620822895e-05, 'epoch': 3.97}
 17%|█▋        | 12982/78504 [7:52:39<29:03:20,  1.60s/it] 17%|█▋        | 12983/78504 [7:52:40<27:22:11,  1.50s/it]                                                          {'loss': 0.2191, 'grad_norm': 0.786291778087616, 'learning_rate': 2.782387159780901e-05, 'epoch': 3.97}
 17%|█▋        | 12983/78504 [7:52:40<27:22:11,  1.50s/it] 17%|█▋        | 12984/78504 [7:52:41<25:24:52,  1.40s/it]                                                          {'loss': 0.1599, 'grad_norm': 4.471213340759277, 'learning_rate': 2.7823446987389072e-05, 'epoch': 3.97}
 17%|█▋        | 12984/78504 [7:52:41<25:24:52,  1.40s/it] 17%|█▋        | 12985/78504 [7:52:42<23:47:11,  1.31s/it]                                                          {'loss': 0.1939, 'grad_norm': 3.4205591678619385, 'learning_rate': 2.782302237696913e-05, 'epoch': 3.97}
 17%|█▋        | 12985/78504 [7:52:42<23:47:11,  1.31s/it] 17%|█▋        | 12986/78504 [7:52:43<22:01:57,  1.21s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.7166623473167419, 'learning_rate': 2.782259776654919e-05, 'epoch': 3.97}
 17%|█▋        | 12986/78504 [7:52:43<22:01:57,  1.21s/it] 17%|█▋        | 12987/78504 [7:52:44<20:32:54,  1.13s/it]                                                          {'loss': 0.2335, 'grad_norm': 0.8187294006347656, 'learning_rate': 2.7822173156129252e-05, 'epoch': 3.97}
 17%|█▋        | 12987/78504 [7:52:44<20:32:54,  1.13s/it] 17%|█▋        | 12988/78504 [7:52:45<18:39:09,  1.02s/it]                                                          {'loss': 0.2254, 'grad_norm': 1.172858476638794, 'learning_rate': 2.782174854570931e-05, 'epoch': 3.97}
 17%|█▋        | 12988/78504 [7:52:45<18:39:09,  1.02s/it] 17%|█▋        | 12989/78504 [7:52:55<65:39:23,  3.61s/it]                                                          {'loss': 0.1517, 'grad_norm': 0.2780904173851013, 'learning_rate': 2.7821323935289373e-05, 'epoch': 3.97}
 17%|█▋        | 12989/78504 [7:52:55<65:39:23,  3.61s/it] 17%|█▋        | 12990/78504 [7:52:58<63:42:05,  3.50s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.49937790632247925, 'learning_rate': 2.782089932486943e-05, 'epoch': 3.97}
 17%|█▋        | 12990/78504 [7:52:58<63:42:05,  3.50s/it] 17%|█▋        | 12991/78504 [7:53:01<60:51:39,  3.34s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.26140475273132324, 'learning_rate': 2.7820474714449494e-05, 'epoch': 3.97}
 17%|█▋        | 12991/78504 [7:53:01<60:51:39,  3.34s/it] 17%|█▋        | 12992/78504 [7:53:04<56:50:07,  3.12s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.20148010551929474, 'learning_rate': 2.7820050104029552e-05, 'epoch': 3.97}
 17%|█▋        | 12992/78504 [7:53:04<56:50:07,  3.12s/it] 17%|█▋        | 12993/78504 [7:53:06<53:15:21,  2.93s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.19045689702033997, 'learning_rate': 2.7819625493609614e-05, 'epoch': 3.97}
 17%|█▋        | 12993/78504 [7:53:06<53:15:21,  2.93s/it] 17%|█▋        | 12994/78504 [7:53:08<50:30:54,  2.78s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.44812294840812683, 'learning_rate': 2.7819200883189673e-05, 'epoch': 3.97}
 17%|█▋        | 12994/78504 [7:53:08<50:30:54,  2.78s/it] 17%|█▋        | 12995/78504 [7:53:11<48:12:34,  2.65s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.16541166603565216, 'learning_rate': 2.7818776272769735e-05, 'epoch': 3.97}
 17%|█▋        | 12995/78504 [7:53:11<48:12:34,  2.65s/it] 17%|█▋        | 12996/78504 [7:53:13<46:20:30,  2.55s/it]                                                          {'loss': 0.0838, 'grad_norm': 0.38328465819358826, 'learning_rate': 2.7818351662349794e-05, 'epoch': 3.97}
 17%|█▋        | 12996/78504 [7:53:13<46:20:30,  2.55s/it] 17%|█▋        | 12997/78504 [7:53:15<44:20:00,  2.44s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.6651934385299683, 'learning_rate': 2.7817927051929853e-05, 'epoch': 3.97}
 17%|█▋        | 12997/78504 [7:53:15<44:20:00,  2.44s/it] 17%|█▋        | 12998/78504 [7:53:17<42:50:18,  2.35s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.28808534145355225, 'learning_rate': 2.7817502441509915e-05, 'epoch': 3.97}
 17%|█▋        | 12998/78504 [7:53:17<42:50:18,  2.35s/it] 17%|█▋        | 12999/78504 [7:53:19<40:11:19,  2.21s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.3395620286464691, 'learning_rate': 2.7817077831089973e-05, 'epoch': 3.97}
 17%|█▋        | 12999/78504 [7:53:19<40:11:19,  2.21s/it] 17%|█▋        | 13000/78504 [7:53:21<38:55:38,  2.14s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.34848931431770325, 'learning_rate': 2.7816653220670035e-05, 'epoch': 3.97}
 17%|█▋        | 13000/78504 [7:53:21<38:55:38,  2.14s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.92it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.76it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.83it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.14it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.59it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.75it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.12it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.47it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.86it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.25it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                          
                                               [A{'eval_loss': 0.23406705260276794, 'eval_wer': 0.3320298315689506, 'eval_cer': 0.1890881913303438, 'eval_runtime': 19.0114, 'eval_samples_per_second': 238.699, 'eval_steps_per_second': 0.789, 'epoch': 3.97}
 17%|█▋        | 13000/78504 [7:54:26<38:55:38,  2.14s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-13000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-11000] due to args.save_total_limit
 17%|█▋        | 13001/78504 [7:54:43<472:21:11, 25.96s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.27866998314857483, 'learning_rate': 2.7816228610250094e-05, 'epoch': 3.97}
 17%|█▋        | 13001/78504 [7:54:43<472:21:11, 25.96s/it] 17%|█▋        | 13002/78504 [7:54:45<340:36:25, 18.72s/it]                                                           {'loss': 0.1651, 'grad_norm': 0.3999832570552826, 'learning_rate': 2.7815803999830156e-05, 'epoch': 3.97}
 17%|█▋        | 13002/78504 [7:54:45<340:36:25, 18.72s/it] 17%|█▋        | 13003/78504 [7:54:46<247:57:48, 13.63s/it]                                                           {'loss': 0.1193, 'grad_norm': 0.8763354420661926, 'learning_rate': 2.7815379389410215e-05, 'epoch': 3.98}
 17%|█▋        | 13003/78504 [7:54:46<247:57:48, 13.63s/it] 17%|█▋        | 13004/78504 [7:54:48<182:26:33, 10.03s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.7047785520553589, 'learning_rate': 2.7814954778990277e-05, 'epoch': 3.98}
 17%|█▋        | 13004/78504 [7:54:48<182:26:33, 10.03s/it] 17%|█▋        | 13005/78504 [7:54:50<136:01:19,  7.48s/it]                                                           {'loss': 0.1526, 'grad_norm': 0.6140563488006592, 'learning_rate': 2.7814530168570336e-05, 'epoch': 3.98}
 17%|█▋        | 13005/78504 [7:54:50<136:01:19,  7.48s/it] 17%|█▋        | 13006/78504 [7:54:51<103:09:36,  5.67s/it]                                                           {'loss': 0.1761, 'grad_norm': 1.2771928310394287, 'learning_rate': 2.7814105558150398e-05, 'epoch': 3.98}
 17%|█▋        | 13006/78504 [7:54:51<103:09:36,  5.67s/it] 17%|█▋        | 13007/78504 [7:54:52<79:43:42,  4.38s/it]                                                           {'loss': 0.1468, 'grad_norm': 0.5398784279823303, 'learning_rate': 2.7813680947730456e-05, 'epoch': 3.98}
 17%|█▋        | 13007/78504 [7:54:52<79:43:42,  4.38s/it] 17%|█▋        | 13008/78504 [7:54:54<62:39:49,  3.44s/it]                                                          {'loss': 0.1706, 'grad_norm': 2.925163984298706, 'learning_rate': 2.781325633731052e-05, 'epoch': 3.98}
 17%|█▋        | 13008/78504 [7:54:54<62:39:49,  3.44s/it] 17%|█▋        | 13009/78504 [7:54:55<50:05:57,  2.75s/it]                                                          {'loss': 0.1825, 'grad_norm': 1.2124077081680298, 'learning_rate': 2.7812831726890577e-05, 'epoch': 3.98}
 17%|█▋        | 13009/78504 [7:54:55<50:05:57,  2.75s/it] 17%|█▋        | 13010/78504 [7:54:56<40:57:51,  2.25s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.947055995464325, 'learning_rate': 2.7812407116470636e-05, 'epoch': 3.98}
 17%|█▋        | 13010/78504 [7:54:56<40:57:51,  2.25s/it] 17%|█▋        | 13011/78504 [7:54:57<34:18:01,  1.89s/it]                                                          {'loss': 0.1877, 'grad_norm': 0.6207373738288879, 'learning_rate': 2.7811982506050698e-05, 'epoch': 3.98}
 17%|█▋        | 13011/78504 [7:54:57<34:18:01,  1.89s/it] 17%|█▋        | 13012/78504 [7:54:58<29:00:18,  1.59s/it]                                                          {'loss': 0.2073, 'grad_norm': 1.1321676969528198, 'learning_rate': 2.7811557895630757e-05, 'epoch': 3.98}
 17%|█▋        | 13012/78504 [7:54:58<29:00:18,  1.59s/it] 17%|█▋        | 13013/78504 [7:54:59<24:28:00,  1.34s/it]                                                          {'loss': 0.3198, 'grad_norm': 3.094856023788452, 'learning_rate': 2.781113328521082e-05, 'epoch': 3.98}
 17%|█▋        | 13013/78504 [7:54:59<24:28:00,  1.34s/it] 17%|█▋        | 13014/78504 [7:55:07<62:55:15,  3.46s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.4718695282936096, 'learning_rate': 2.7810708674790878e-05, 'epoch': 3.98}
 17%|█▋        | 13014/78504 [7:55:07<62:55:15,  3.46s/it] 17%|█▋        | 13015/78504 [7:55:10<61:04:59,  3.36s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.34490135312080383, 'learning_rate': 2.781028406437094e-05, 'epoch': 3.98}
 17%|█▋        | 13015/78504 [7:55:10<61:04:59,  3.36s/it] 17%|█▋        | 13016/78504 [7:55:13<58:39:39,  3.22s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.3110799193382263, 'learning_rate': 2.7809859453950998e-05, 'epoch': 3.98}
 17%|█▋        | 13016/78504 [7:55:13<58:39:39,  3.22s/it] 17%|█▋        | 13017/78504 [7:55:15<53:50:05,  2.96s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.48090416193008423, 'learning_rate': 2.780943484353106e-05, 'epoch': 3.98}
 17%|█▋        | 13017/78504 [7:55:15<53:50:05,  2.96s/it] 17%|█▋        | 13018/78504 [7:55:18<51:11:28,  2.81s/it]                                                          {'loss': 0.0482, 'grad_norm': 0.24548965692520142, 'learning_rate': 2.780901023311112e-05, 'epoch': 3.98}
 17%|█▋        | 13018/78504 [7:55:18<51:11:28,  2.81s/it] 17%|█▋        | 13019/78504 [7:55:20<48:18:37,  2.66s/it]                                                          {'loss': 0.075, 'grad_norm': 0.2716936767101288, 'learning_rate': 2.780858562269118e-05, 'epoch': 3.98}
 17%|█▋        | 13019/78504 [7:55:20<48:18:37,  2.66s/it] 17%|█▋        | 13020/78504 [7:55:22<46:25:43,  2.55s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.2524164915084839, 'learning_rate': 2.780816101227124e-05, 'epoch': 3.98}
 17%|█▋        | 13020/78504 [7:55:22<46:25:43,  2.55s/it] 17%|█▋        | 13021/78504 [7:55:25<43:50:51,  2.41s/it]                                                          {'loss': 0.058, 'grad_norm': 0.19210582971572876, 'learning_rate': 2.7807736401851302e-05, 'epoch': 3.98}
 17%|█▋        | 13021/78504 [7:55:25<43:50:51,  2.41s/it] 17%|█▋        | 13022/78504 [7:55:27<42:32:41,  2.34s/it]                                                          {'loss': 0.08, 'grad_norm': 0.3779352009296417, 'learning_rate': 2.7807311791431364e-05, 'epoch': 3.98}
 17%|█▋        | 13022/78504 [7:55:27<42:32:41,  2.34s/it] 17%|█▋        | 13023/78504 [7:55:29<41:25:10,  2.28s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.2908056676387787, 'learning_rate': 2.7806887181011423e-05, 'epoch': 3.98}
 17%|█▋        | 13023/78504 [7:55:29<41:25:10,  2.28s/it] 17%|█▋        | 13024/78504 [7:55:31<40:00:26,  2.20s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.3906140923500061, 'learning_rate': 2.7806462570591485e-05, 'epoch': 3.98}
 17%|█▋        | 13024/78504 [7:55:31<40:00:26,  2.20s/it] 17%|█▋        | 13025/78504 [7:55:33<38:43:05,  2.13s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.6357743144035339, 'learning_rate': 2.7806037960171544e-05, 'epoch': 3.98}
 17%|█▋        | 13025/78504 [7:55:33<38:43:05,  2.13s/it] 17%|█▋        | 13026/78504 [7:55:35<37:22:26,  2.05s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.25729790329933167, 'learning_rate': 2.7805613349751606e-05, 'epoch': 3.98}
 17%|█▋        | 13026/78504 [7:55:35<37:22:26,  2.05s/it] 17%|█▋        | 13027/78504 [7:55:37<36:12:31,  1.99s/it]                                                          {'loss': 0.1296, 'grad_norm': 1.4447846412658691, 'learning_rate': 2.7805188739331664e-05, 'epoch': 3.98}
 17%|█▋        | 13027/78504 [7:55:37<36:12:31,  1.99s/it] 17%|█▋        | 13028/78504 [7:55:38<34:52:06,  1.92s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.31299465894699097, 'learning_rate': 2.7804764128911726e-05, 'epoch': 3.98}
 17%|█▋        | 13028/78504 [7:55:38<34:52:06,  1.92s/it] 17%|█▋        | 13029/78504 [7:55:40<33:19:15,  1.83s/it]                                                          {'loss': 0.193, 'grad_norm': 0.49619099497795105, 'learning_rate': 2.7804339518491785e-05, 'epoch': 3.98}
 17%|█▋        | 13029/78504 [7:55:40<33:19:15,  1.83s/it] 17%|█▋        | 13030/78504 [7:55:41<31:37:37,  1.74s/it]                                                          {'loss': 0.1773, 'grad_norm': 0.5840837955474854, 'learning_rate': 2.7803914908071847e-05, 'epoch': 3.98}
 17%|█▋        | 13030/78504 [7:55:41<31:37:37,  1.74s/it] 17%|█▋        | 13031/78504 [7:55:43<30:03:13,  1.65s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.554854691028595, 'learning_rate': 2.7803490297651906e-05, 'epoch': 3.98}
 17%|█▋        | 13031/78504 [7:55:43<30:03:13,  1.65s/it] 17%|█▋        | 13032/78504 [7:55:44<28:36:48,  1.57s/it]                                                          {'loss': 0.1751, 'grad_norm': 0.7622833251953125, 'learning_rate': 2.7803065687231968e-05, 'epoch': 3.98}
 17%|█▋        | 13032/78504 [7:55:44<28:36:48,  1.57s/it] 17%|█▋        | 13033/78504 [7:55:46<26:59:14,  1.48s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.8360525369644165, 'learning_rate': 2.7802641076812027e-05, 'epoch': 3.98}
 17%|█▋        | 13033/78504 [7:55:46<26:59:14,  1.48s/it] 17%|█▋        | 13034/78504 [7:55:47<25:06:25,  1.38s/it]                                                          {'loss': 0.2068, 'grad_norm': 1.1400139331817627, 'learning_rate': 2.780221646639209e-05, 'epoch': 3.98}
 17%|█▋        | 13034/78504 [7:55:47<25:06:25,  1.38s/it] 17%|█▋        | 13035/78504 [7:55:48<23:28:29,  1.29s/it]                                                          {'loss': 0.2232, 'grad_norm': 0.8291430473327637, 'learning_rate': 2.7801791855972147e-05, 'epoch': 3.99}
 17%|█▋        | 13035/78504 [7:55:48<23:28:29,  1.29s/it] 17%|█▋        | 13036/78504 [7:55:49<21:43:56,  1.20s/it]                                                          {'loss': 0.182, 'grad_norm': 0.8613014221191406, 'learning_rate': 2.7801367245552206e-05, 'epoch': 3.99}
 17%|█▋        | 13036/78504 [7:55:49<21:43:56,  1.20s/it] 17%|█▋        | 13037/78504 [7:55:50<20:14:06,  1.11s/it]                                                          {'loss': 0.2082, 'grad_norm': 1.261579155921936, 'learning_rate': 2.7800942635132268e-05, 'epoch': 3.99}
 17%|█▋        | 13037/78504 [7:55:50<20:14:06,  1.11s/it] 17%|█▋        | 13038/78504 [7:55:50<18:21:23,  1.01s/it]                                                          {'loss': 0.2214, 'grad_norm': 2.3240444660186768, 'learning_rate': 2.7800518024712327e-05, 'epoch': 3.99}
 17%|█▋        | 13038/78504 [7:55:50<18:21:23,  1.01s/it] 17%|█▋        | 13039/78504 [7:56:00<65:10:43,  3.58s/it]                                                          {'loss': 0.1294, 'grad_norm': 0.27571120858192444, 'learning_rate': 2.780009341429239e-05, 'epoch': 3.99}
 17%|█▋        | 13039/78504 [7:56:00<65:10:43,  3.58s/it] 17%|█▋        | 13040/78504 [7:56:03<62:27:52,  3.44s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.38062331080436707, 'learning_rate': 2.7799668803872448e-05, 'epoch': 3.99}
 17%|█▋        | 13040/78504 [7:56:03<62:27:52,  3.44s/it] 17%|█▋        | 13041/78504 [7:56:06<60:06:28,  3.31s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.4973098635673523, 'learning_rate': 2.779924419345251e-05, 'epoch': 3.99}
 17%|█▋        | 13041/78504 [7:56:06<60:06:28,  3.31s/it] 17%|█▋        | 13042/78504 [7:56:09<56:18:11,  3.10s/it]                                                          {'loss': 0.0449, 'grad_norm': 0.2925884425640106, 'learning_rate': 2.779881958303257e-05, 'epoch': 3.99}
 17%|█▋        | 13042/78504 [7:56:09<56:18:11,  3.10s/it] 17%|█▋        | 13043/78504 [7:56:11<52:14:58,  2.87s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.5972641706466675, 'learning_rate': 2.779839497261263e-05, 'epoch': 3.99}
 17%|█▋        | 13043/78504 [7:56:11<52:14:58,  2.87s/it] 17%|█▋        | 13044/78504 [7:56:13<48:51:15,  2.69s/it]                                                          {'loss': 0.0606, 'grad_norm': 0.342106431722641, 'learning_rate': 2.779797036219269e-05, 'epoch': 3.99}
 17%|█▋        | 13044/78504 [7:56:13<48:51:15,  2.69s/it] 17%|█▋        | 13045/78504 [7:56:16<46:47:43,  2.57s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.2992664575576782, 'learning_rate': 2.779754575177275e-05, 'epoch': 3.99}
 17%|█▋        | 13045/78504 [7:56:16<46:47:43,  2.57s/it] 17%|█▋        | 13046/78504 [7:56:18<44:08:27,  2.43s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.5882282853126526, 'learning_rate': 2.779712114135281e-05, 'epoch': 3.99}
 17%|█▋        | 13046/78504 [7:56:18<44:08:27,  2.43s/it] 17%|█▋        | 13047/78504 [7:56:20<41:54:02,  2.30s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.31919240951538086, 'learning_rate': 2.7796696530932872e-05, 'epoch': 3.99}
 17%|█▋        | 13047/78504 [7:56:20<41:54:02,  2.30s/it] 17%|█▋        | 13048/78504 [7:56:22<40:55:04,  2.25s/it]                                                          {'loss': 0.0452, 'grad_norm': 0.19517868757247925, 'learning_rate': 2.779627192051293e-05, 'epoch': 3.99}
 17%|█▋        | 13048/78504 [7:56:22<40:55:04,  2.25s/it] 17%|█▋        | 13049/78504 [7:56:24<39:29:34,  2.17s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.7056368589401245, 'learning_rate': 2.779584731009299e-05, 'epoch': 3.99}
 17%|█▋        | 13049/78504 [7:56:24<39:29:34,  2.17s/it] 17%|█▋        | 13050/78504 [7:56:26<37:28:16,  2.06s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.2908773422241211, 'learning_rate': 2.7795422699673052e-05, 'epoch': 3.99}
 17%|█▋        | 13050/78504 [7:56:26<37:28:16,  2.06s/it] 17%|█▋        | 13051/78504 [7:56:28<36:19:46,  2.00s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.3899102210998535, 'learning_rate': 2.779499808925311e-05, 'epoch': 3.99}
 17%|█▋        | 13051/78504 [7:56:28<36:19:46,  2.00s/it] 17%|█▋        | 13052/78504 [7:56:29<35:21:58,  1.95s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.8748526573181152, 'learning_rate': 2.7794573478833172e-05, 'epoch': 3.99}
 17%|█▋        | 13052/78504 [7:56:29<35:21:58,  1.95s/it] 17%|█▋        | 13053/78504 [7:56:31<34:22:18,  1.89s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.5200314521789551, 'learning_rate': 2.779414886841323e-05, 'epoch': 3.99}
 17%|█▋        | 13053/78504 [7:56:31<34:22:18,  1.89s/it] 17%|█▋        | 13054/78504 [7:56:33<32:55:58,  1.81s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.4098909795284271, 'learning_rate': 2.7793724257993293e-05, 'epoch': 3.99}
 17%|█▋        | 13054/78504 [7:56:33<32:55:58,  1.81s/it] 17%|█▋        | 13055/78504 [7:56:34<31:26:15,  1.73s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.5371338725090027, 'learning_rate': 2.7793299647573352e-05, 'epoch': 3.99}
 17%|█▋        | 13055/78504 [7:56:34<31:26:15,  1.73s/it] 17%|█▋        | 13056/78504 [7:56:36<29:58:14,  1.65s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.5276004076004028, 'learning_rate': 2.7792875037153414e-05, 'epoch': 3.99}
 17%|█▋        | 13056/78504 [7:56:36<29:58:14,  1.65s/it] 17%|█▋        | 13057/78504 [7:56:37<28:37:29,  1.57s/it]                                                          {'loss': 0.172, 'grad_norm': 0.8973274230957031, 'learning_rate': 2.7792450426733473e-05, 'epoch': 3.99}
 17%|█▋        | 13057/78504 [7:56:37<28:37:29,  1.57s/it] 17%|█▋        | 13058/78504 [7:56:38<26:36:01,  1.46s/it]                                                          {'loss': 0.1622, 'grad_norm': 0.7399389743804932, 'learning_rate': 2.7792025816313535e-05, 'epoch': 3.99}
 17%|█▋        | 13058/78504 [7:56:38<26:36:01,  1.46s/it] 17%|█▋        | 13059/78504 [7:56:39<24:50:32,  1.37s/it]                                                          {'loss': 0.1816, 'grad_norm': 1.2844983339309692, 'learning_rate': 2.7791601205893594e-05, 'epoch': 3.99}
 17%|█▋        | 13059/78504 [7:56:39<24:50:32,  1.37s/it] 17%|█▋        | 13060/78504 [7:56:41<23:19:04,  1.28s/it]                                                          {'loss': 0.207, 'grad_norm': 0.7173266410827637, 'learning_rate': 2.7791176595473656e-05, 'epoch': 3.99}
 17%|█▋        | 13060/78504 [7:56:41<23:19:04,  1.28s/it] 17%|█▋        | 13061/78504 [7:56:42<21:41:49,  1.19s/it]                                                          {'loss': 0.186, 'grad_norm': 1.0227144956588745, 'learning_rate': 2.7790751985053714e-05, 'epoch': 3.99}
 17%|█▋        | 13061/78504 [7:56:42<21:41:49,  1.19s/it] 17%|█▋        | 13062/78504 [7:56:42<20:12:04,  1.11s/it]                                                          {'loss': 0.2191, 'grad_norm': 1.1135280132293701, 'learning_rate': 2.7790327374633773e-05, 'epoch': 3.99}
 17%|█▋        | 13062/78504 [7:56:42<20:12:04,  1.11s/it] 17%|█▋        | 13063/78504 [7:56:43<18:19:56,  1.01s/it]                                                          {'loss': 0.2508, 'grad_norm': 1.4549038410186768, 'learning_rate': 2.7789902764213835e-05, 'epoch': 3.99}
 17%|█▋        | 13063/78504 [7:56:43<18:19:56,  1.01s/it] 17%|█▋        | 13064/78504 [7:56:53<68:22:17,  3.76s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.5037142634391785, 'learning_rate': 2.7789478153793894e-05, 'epoch': 3.99}
 17%|█▋        | 13064/78504 [7:56:53<68:22:17,  3.76s/it] 17%|█▋        | 13065/78504 [7:56:57<65:30:24,  3.60s/it]                                                          {'loss': 0.078, 'grad_norm': 0.23481446504592896, 'learning_rate': 2.7789053543373956e-05, 'epoch': 3.99}
 17%|█▋        | 13065/78504 [7:56:57<65:30:24,  3.60s/it] 17%|█▋        | 13066/78504 [7:57:00<61:47:11,  3.40s/it]                                                          {'loss': 0.0787, 'grad_norm': 0.30090945959091187, 'learning_rate': 2.7788628932954015e-05, 'epoch': 3.99}
 17%|█▋        | 13066/78504 [7:57:00<61:47:11,  3.40s/it] 17%|█▋        | 13067/78504 [7:57:02<56:04:59,  3.09s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.2992687225341797, 'learning_rate': 2.7788204322534077e-05, 'epoch': 3.99}
 17%|█▋        | 13067/78504 [7:57:02<56:04:59,  3.09s/it] 17%|█▋        | 13068/78504 [7:57:04<52:36:26,  2.89s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.6511582732200623, 'learning_rate': 2.7787779712114135e-05, 'epoch': 4.0}
 17%|█▋        | 13068/78504 [7:57:04<52:36:26,  2.89s/it] 17%|█▋        | 13069/78504 [7:57:07<49:19:13,  2.71s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.3258184790611267, 'learning_rate': 2.7787355101694197e-05, 'epoch': 4.0}
 17%|█▋        | 13069/78504 [7:57:07<49:19:13,  2.71s/it] 17%|█▋        | 13070/78504 [7:57:09<46:53:04,  2.58s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.3458271324634552, 'learning_rate': 2.7786930491274256e-05, 'epoch': 4.0}
 17%|█▋        | 13070/78504 [7:57:09<46:53:04,  2.58s/it] 17%|█▋        | 13071/78504 [7:57:11<44:38:54,  2.46s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.34370648860931396, 'learning_rate': 2.7786505880854318e-05, 'epoch': 4.0}
 17%|█▋        | 13071/78504 [7:57:11<44:38:54,  2.46s/it] 17%|█▋        | 13072/78504 [7:57:13<42:08:17,  2.32s/it]                                                          {'loss': 0.077, 'grad_norm': 0.26616236567497253, 'learning_rate': 2.7786081270434377e-05, 'epoch': 4.0}
 17%|█▋        | 13072/78504 [7:57:13<42:08:17,  2.32s/it] 17%|█▋        | 13073/78504 [7:57:15<40:01:23,  2.20s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.3094501495361328, 'learning_rate': 2.778565666001444e-05, 'epoch': 4.0}
 17%|█▋        | 13073/78504 [7:57:15<40:01:23,  2.20s/it] 17%|█▋        | 13074/78504 [7:57:17<38:03:13,  2.09s/it]                                                          {'loss': 0.1147, 'grad_norm': 0.8096712231636047, 'learning_rate': 2.7785232049594498e-05, 'epoch': 4.0}
 17%|█▋        | 13074/78504 [7:57:17<38:03:13,  2.09s/it] 17%|█▋        | 13075/78504 [7:57:19<36:13:45,  1.99s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.39324840903282166, 'learning_rate': 2.7784807439174556e-05, 'epoch': 4.0}
 17%|█▋        | 13075/78504 [7:57:19<36:13:45,  1.99s/it] 17%|█▋        | 13076/78504 [7:57:20<34:20:42,  1.89s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.5214860439300537, 'learning_rate': 2.778438282875462e-05, 'epoch': 4.0}
 17%|█▋        | 13076/78504 [7:57:20<34:20:42,  1.89s/it] 17%|█▋        | 13077/78504 [7:57:22<32:13:39,  1.77s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.6880795955657959, 'learning_rate': 2.7783958218334677e-05, 'epoch': 4.0}
 17%|█▋        | 13077/78504 [7:57:22<32:13:39,  1.77s/it] 17%|█▋        | 13078/78504 [7:57:23<30:30:13,  1.68s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.6825464963912964, 'learning_rate': 2.778353360791474e-05, 'epoch': 4.0}
 17%|█▋        | 13078/78504 [7:57:23<30:30:13,  1.68s/it] 17%|█▋        | 13079/78504 [7:57:24<27:59:37,  1.54s/it]                                                          {'loss': 0.1721, 'grad_norm': 0.6482611298561096, 'learning_rate': 2.7783108997494798e-05, 'epoch': 4.0}
 17%|█▋        | 13079/78504 [7:57:24<27:59:37,  1.54s/it] 17%|█▋        | 13080/78504 [7:57:26<25:57:02,  1.43s/it]                                                          {'loss': 0.1653, 'grad_norm': 1.0701230764389038, 'learning_rate': 2.778268438707486e-05, 'epoch': 4.0}
 17%|█▋        | 13080/78504 [7:57:26<25:57:02,  1.43s/it] 17%|█▋        | 13081/78504 [7:57:27<24:02:17,  1.32s/it]                                                          {'loss': 0.1765, 'grad_norm': 0.7238001823425293, 'learning_rate': 2.778225977665492e-05, 'epoch': 4.0}
 17%|█▋        | 13081/78504 [7:57:27<24:02:17,  1.32s/it] 17%|█▋        | 13082/78504 [7:57:28<22:09:02,  1.22s/it]                                                          {'loss': 0.18, 'grad_norm': 0.8220131993293762, 'learning_rate': 2.778183516623498e-05, 'epoch': 4.0}
 17%|█▋        | 13082/78504 [7:57:28<22:09:02,  1.22s/it] 17%|█▋        | 13083/78504 [7:57:29<20:11:08,  1.11s/it]                                                          {'loss': 0.2375, 'grad_norm': 1.890055775642395, 'learning_rate': 2.778141055581504e-05, 'epoch': 4.0}
 17%|█▋        | 13083/78504 [7:57:29<20:11:08,  1.11s/it] 17%|█▋        | 13084/78504 [7:57:41<83:59:25,  4.62s/it]                                                          {'loss': 0.2019, 'grad_norm': 0.7529042959213257, 'learning_rate': 2.7780985945395102e-05, 'epoch': 4.0}
 17%|█▋        | 13084/78504 [7:57:41<83:59:25,  4.62s/it] 17%|█▋        | 13085/78504 [7:58:10<213:12:34, 11.73s/it]                                                           {'loss': 0.1433, 'grad_norm': 0.5561637282371521, 'learning_rate': 2.778056133497516e-05, 'epoch': 4.0}
 17%|█▋        | 13085/78504 [7:58:10<213:12:34, 11.73s/it] 17%|█▋        | 13086/78504 [7:58:13<165:54:35,  9.13s/it]                                                           {'loss': 0.0753, 'grad_norm': 0.49350544810295105, 'learning_rate': 2.7780136724555222e-05, 'epoch': 4.0}
 17%|█▋        | 13086/78504 [7:58:13<165:54:35,  9.13s/it] 17%|█▋        | 13087/78504 [7:58:15<130:04:54,  7.16s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.2820277512073517, 'learning_rate': 2.777971211413528e-05, 'epoch': 4.0}
 17%|█▋        | 13087/78504 [7:58:15<130:04:54,  7.16s/it] 17%|█▋        | 13088/78504 [7:58:18<105:21:31,  5.80s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.2706902027130127, 'learning_rate': 2.777928750371534e-05, 'epoch': 4.0}
 17%|█▋        | 13088/78504 [7:58:18<105:21:31,  5.80s/it] 17%|█▋        | 13089/78504 [7:58:20<87:11:53,  4.80s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.19382183253765106, 'learning_rate': 2.7778862893295402e-05, 'epoch': 4.0}
 17%|█▋        | 13089/78504 [7:58:20<87:11:53,  4.80s/it] 17%|█▋        | 13090/78504 [7:58:23<73:17:40,  4.03s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.5187515020370483, 'learning_rate': 2.777843828287546e-05, 'epoch': 4.0}
 17%|█▋        | 13090/78504 [7:58:23<73:17:40,  4.03s/it] 17%|█▋        | 13091/78504 [7:58:25<63:54:29,  3.52s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.24466392397880554, 'learning_rate': 2.7778013672455523e-05, 'epoch': 4.0}
 17%|█▋        | 13091/78504 [7:58:25<63:54:29,  3.52s/it] 17%|█▋        | 13092/78504 [7:58:27<56:07:57,  3.09s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.4994967579841614, 'learning_rate': 2.777758906203558e-05, 'epoch': 4.0}
 17%|█▋        | 13092/78504 [7:58:27<56:07:57,  3.09s/it] 17%|█▋        | 13093/78504 [7:58:29<50:18:09,  2.77s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.4118143916130066, 'learning_rate': 2.7777164451615644e-05, 'epoch': 4.0}
 17%|█▋        | 13093/78504 [7:58:29<50:18:09,  2.77s/it] 17%|█▋        | 13094/78504 [7:58:31<46:52:53,  2.58s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.4060824513435364, 'learning_rate': 2.7776739841195702e-05, 'epoch': 4.0}
 17%|█▋        | 13094/78504 [7:58:31<46:52:53,  2.58s/it] 17%|█▋        | 13095/78504 [7:58:33<43:35:28,  2.40s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.9333071708679199, 'learning_rate': 2.7776315230775764e-05, 'epoch': 4.0}
 17%|█▋        | 13095/78504 [7:58:33<43:35:28,  2.40s/it] 17%|█▋        | 13096/78504 [7:58:35<40:19:19,  2.22s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.34256935119628906, 'learning_rate': 2.7775890620355823e-05, 'epoch': 4.0}
 17%|█▋        | 13096/78504 [7:58:35<40:19:19,  2.22s/it] 17%|█▋        | 13097/78504 [7:58:37<38:23:34,  2.11s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.5853037238121033, 'learning_rate': 2.7775466009935885e-05, 'epoch': 4.0}
 17%|█▋        | 13097/78504 [7:58:37<38:23:34,  2.11s/it] 17%|█▋        | 13098/78504 [7:58:39<36:54:02,  2.03s/it]                                                          {'loss': 0.1377, 'grad_norm': 0.6122083067893982, 'learning_rate': 2.7775041399515944e-05, 'epoch': 4.0}
 17%|█▋        | 13098/78504 [7:58:39<36:54:02,  2.03s/it] 17%|█▋        | 13099/78504 [7:58:40<35:14:39,  1.94s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.4913578927516937, 'learning_rate': 2.7774616789096006e-05, 'epoch': 4.0}
 17%|█▋        | 13099/78504 [7:58:40<35:14:39,  1.94s/it] 17%|█▋        | 13100/78504 [7:58:42<33:38:48,  1.85s/it]                                                          {'loss': 0.1317, 'grad_norm': 17.43705177307129, 'learning_rate': 2.7774192178676065e-05, 'epoch': 4.0}
 17%|█▋        | 13100/78504 [7:58:42<33:38:48,  1.85s/it] 17%|█▋        | 13101/78504 [7:58:44<31:58:16,  1.76s/it]                                                          {'loss': 0.1583, 'grad_norm': 0.8716374635696411, 'learning_rate': 2.7773767568256123e-05, 'epoch': 4.01}
 17%|█▋        | 13101/78504 [7:58:44<31:58:16,  1.76s/it] 17%|█▋        | 13102/78504 [7:58:45<30:21:07,  1.67s/it]                                                          {'loss': 0.1569, 'grad_norm': 1.127442479133606, 'learning_rate': 2.7773342957836185e-05, 'epoch': 4.01}
 17%|█▋        | 13102/78504 [7:58:45<30:21:07,  1.67s/it] 17%|█▋        | 13103/78504 [7:58:46<28:57:52,  1.59s/it]                                                          {'loss': 0.1773, 'grad_norm': 0.7430824637413025, 'learning_rate': 2.7772918347416244e-05, 'epoch': 4.01}
 17%|█▋        | 13103/78504 [7:58:46<28:57:52,  1.59s/it] 17%|█▋        | 13104/78504 [7:58:48<27:16:13,  1.50s/it]                                                          {'loss': 0.1506, 'grad_norm': 1.36094069480896, 'learning_rate': 2.7772493736996306e-05, 'epoch': 4.01}
 17%|█▋        | 13104/78504 [7:58:48<27:16:13,  1.50s/it] 17%|█▋        | 13105/78504 [7:58:49<25:22:52,  1.40s/it]                                                          {'loss': 0.1853, 'grad_norm': 0.7315120697021484, 'learning_rate': 2.7772069126576365e-05, 'epoch': 4.01}
 17%|█▋        | 13105/78504 [7:58:49<25:22:52,  1.40s/it] 17%|█▋        | 13106/78504 [7:58:50<23:43:10,  1.31s/it]                                                          {'loss': 0.187, 'grad_norm': 2.918186664581299, 'learning_rate': 2.7771644516156427e-05, 'epoch': 4.01}
 17%|█▋        | 13106/78504 [7:58:50<23:43:10,  1.31s/it] 17%|█▋        | 13107/78504 [7:58:51<22:20:47,  1.23s/it]                                                          {'loss': 0.1945, 'grad_norm': 0.8365120887756348, 'learning_rate': 2.7771219905736486e-05, 'epoch': 4.01}
 17%|█▋        | 13107/78504 [7:58:51<22:20:47,  1.23s/it] 17%|█▋        | 13108/78504 [7:58:52<20:46:35,  1.14s/it]                                                          {'loss': 0.197, 'grad_norm': 1.1705658435821533, 'learning_rate': 2.7770795295316548e-05, 'epoch': 4.01}
 17%|█▋        | 13108/78504 [7:58:52<20:46:35,  1.14s/it] 17%|█▋        | 13109/78504 [7:58:53<18:50:34,  1.04s/it]                                                          {'loss': 0.2478, 'grad_norm': 1.0838514566421509, 'learning_rate': 2.7770370684896606e-05, 'epoch': 4.01}
 17%|█▋        | 13109/78504 [7:58:53<18:50:34,  1.04s/it] 17%|█▋        | 13110/78504 [7:59:00<53:02:31,  2.92s/it]                                                          {'loss': 0.1466, 'grad_norm': 0.48454856872558594, 'learning_rate': 2.776994607447667e-05, 'epoch': 4.01}
 17%|█▋        | 13110/78504 [7:59:00<53:02:31,  2.92s/it] 17%|█▋        | 13111/78504 [7:59:03<53:45:06,  2.96s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.3421136736869812, 'learning_rate': 2.7769521464056727e-05, 'epoch': 4.01}
 17%|█▋        | 13111/78504 [7:59:03<53:45:06,  2.96s/it] 17%|█▋        | 13112/78504 [7:59:06<53:31:43,  2.95s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.24013668298721313, 'learning_rate': 2.7769096853636786e-05, 'epoch': 4.01}
 17%|█▋        | 13112/78504 [7:59:06<53:31:43,  2.95s/it] 17%|█▋        | 13113/78504 [7:59:08<50:39:20,  2.79s/it]                                                          {'loss': 0.0473, 'grad_norm': 0.24736765027046204, 'learning_rate': 2.7768672243216848e-05, 'epoch': 4.01}
 17%|█▋        | 13113/78504 [7:59:09<50:39:20,  2.79s/it] 17%|█▋        | 13114/78504 [7:59:11<48:56:39,  2.69s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.3492421805858612, 'learning_rate': 2.7768247632796907e-05, 'epoch': 4.01}
 17%|█▋        | 13114/78504 [7:59:11<48:56:39,  2.69s/it] 17%|█▋        | 13115/78504 [7:59:13<46:34:00,  2.56s/it]                                                          {'loss': 0.0531, 'grad_norm': 0.5344838500022888, 'learning_rate': 2.776782302237697e-05, 'epoch': 4.01}
 17%|█▋        | 13115/78504 [7:59:13<46:34:00,  2.56s/it] 17%|█▋        | 13116/78504 [7:59:16<45:13:39,  2.49s/it]                                                          {'loss': 0.0438, 'grad_norm': 0.2605728805065155, 'learning_rate': 2.7767398411957028e-05, 'epoch': 4.01}
 17%|█▋        | 13116/78504 [7:59:16<45:13:39,  2.49s/it] 17%|█▋        | 13117/78504 [7:59:18<43:03:41,  2.37s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.5695974826812744, 'learning_rate': 2.776697380153709e-05, 'epoch': 4.01}
 17%|█▋        | 13117/78504 [7:59:18<43:03:41,  2.37s/it] 17%|█▋        | 13118/78504 [7:59:20<41:13:07,  2.27s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.4435711205005646, 'learning_rate': 2.776654919111715e-05, 'epoch': 4.01}
 17%|█▋        | 13118/78504 [7:59:20<41:13:07,  2.27s/it] 17%|█▋        | 13119/78504 [7:59:22<40:30:30,  2.23s/it]                                                          {'loss': 0.0516, 'grad_norm': 0.26083335280418396, 'learning_rate': 2.776612458069721e-05, 'epoch': 4.01}
 17%|█▋        | 13119/78504 [7:59:22<40:30:30,  2.23s/it] 17%|█▋        | 13120/78504 [7:59:24<39:10:20,  2.16s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.29490453004837036, 'learning_rate': 2.776569997027727e-05, 'epoch': 4.01}
 17%|█▋        | 13120/78504 [7:59:24<39:10:20,  2.16s/it] 17%|█▋        | 13121/78504 [7:59:26<38:13:12,  2.10s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.3246840536594391, 'learning_rate': 2.776527535985733e-05, 'epoch': 4.01}
 17%|█▋        | 13121/78504 [7:59:26<38:13:12,  2.10s/it] 17%|█▋        | 13122/78504 [7:59:28<36:53:41,  2.03s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.5003387928009033, 'learning_rate': 2.776485074943739e-05, 'epoch': 4.01}
 17%|█▋        | 13122/78504 [7:59:28<36:53:41,  2.03s/it] 17%|█▋        | 13123/78504 [7:59:29<35:08:18,  1.93s/it]                                                          {'loss': 0.1114, 'grad_norm': 0.4233975410461426, 'learning_rate': 2.7764426139017452e-05, 'epoch': 4.01}
 17%|█▋        | 13123/78504 [7:59:29<35:08:18,  1.93s/it] 17%|█▋        | 13124/78504 [7:59:31<34:12:45,  1.88s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.8697778582572937, 'learning_rate': 2.7764001528597514e-05, 'epoch': 4.01}
 17%|█▋        | 13124/78504 [7:59:31<34:12:45,  1.88s/it] 17%|█▋        | 13125/78504 [7:59:33<32:55:54,  1.81s/it]                                                          {'loss': 0.1214, 'grad_norm': 0.5533639788627625, 'learning_rate': 2.7763576918177573e-05, 'epoch': 4.01}
 17%|█▋        | 13125/78504 [7:59:33<32:55:54,  1.81s/it] 17%|█▋        | 13126/78504 [7:59:34<31:18:17,  1.72s/it]                                                          {'loss': 0.1582, 'grad_norm': 0.5409693121910095, 'learning_rate': 2.7763152307757635e-05, 'epoch': 4.01}
 17%|█▋        | 13126/78504 [7:59:34<31:18:17,  1.72s/it] 17%|█▋        | 13127/78504 [7:59:36<29:49:00,  1.64s/it]                                                          {'loss': 0.1742, 'grad_norm': 0.8201282024383545, 'learning_rate': 2.7762727697337694e-05, 'epoch': 4.01}
 17%|█▋        | 13127/78504 [7:59:36<29:49:00,  1.64s/it] 17%|█▋        | 13128/78504 [7:59:37<28:36:30,  1.58s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.8401950001716614, 'learning_rate': 2.7762303086917756e-05, 'epoch': 4.01}
 17%|█▋        | 13128/78504 [7:59:37<28:36:30,  1.58s/it] 17%|█▋        | 13129/78504 [7:59:38<26:44:51,  1.47s/it]                                                          {'loss': 0.1927, 'grad_norm': 0.6156793832778931, 'learning_rate': 2.7761878476497814e-05, 'epoch': 4.01}
 17%|█▋        | 13129/78504 [7:59:38<26:44:51,  1.47s/it] 17%|█▋        | 13130/78504 [7:59:39<24:52:51,  1.37s/it]                                                          {'loss': 0.202, 'grad_norm': 0.6012495160102844, 'learning_rate': 2.7761453866077876e-05, 'epoch': 4.01}
 17%|█▋        | 13130/78504 [7:59:40<24:52:51,  1.37s/it] 17%|█▋        | 13131/78504 [7:59:41<23:21:48,  1.29s/it]                                                          {'loss': 0.2123, 'grad_norm': 0.7582480311393738, 'learning_rate': 2.7761029255657935e-05, 'epoch': 4.01}
 17%|█▋        | 13131/78504 [7:59:41<23:21:48,  1.29s/it] 17%|█▋        | 13132/78504 [7:59:42<21:47:45,  1.20s/it]                                                          {'loss': 0.2047, 'grad_norm': 1.7585748434066772, 'learning_rate': 2.7760604645237997e-05, 'epoch': 4.01}
 17%|█▋        | 13132/78504 [7:59:42<21:47:45,  1.20s/it] 17%|█▋        | 13133/78504 [7:59:43<20:23:51,  1.12s/it]                                                          {'loss': 0.2334, 'grad_norm': 1.1534487009048462, 'learning_rate': 2.7760180034818056e-05, 'epoch': 4.01}
 17%|█▋        | 13133/78504 [7:59:43<20:23:51,  1.12s/it] 17%|█▋        | 13134/78504 [7:59:43<18:34:40,  1.02s/it]                                                          {'loss': 0.266, 'grad_norm': 1.845804214477539, 'learning_rate': 2.7759755424398118e-05, 'epoch': 4.02}
 17%|█▋        | 13134/78504 [7:59:43<18:34:40,  1.02s/it] 17%|█▋        | 13135/78504 [7:59:52<58:46:23,  3.24s/it]                                                          {'loss': 0.1547, 'grad_norm': 0.4766070246696472, 'learning_rate': 2.7759330813978177e-05, 'epoch': 4.02}
 17%|█▋        | 13135/78504 [7:59:52<58:46:23,  3.24s/it] 17%|█▋        | 13136/78504 [7:59:55<59:27:13,  3.27s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.570661723613739, 'learning_rate': 2.775890620355824e-05, 'epoch': 4.02}
 17%|█▋        | 13136/78504 [7:59:55<59:27:13,  3.27s/it] 17%|█▋        | 13137/78504 [7:59:58<58:02:49,  3.20s/it]                                                          {'loss': 0.113, 'grad_norm': 0.44751179218292236, 'learning_rate': 2.7758481593138298e-05, 'epoch': 4.02}
 17%|█▋        | 13137/78504 [7:59:58<58:02:49,  3.20s/it] 17%|█▋        | 13138/78504 [8:00:01<54:53:52,  3.02s/it]                                                          {'loss': 0.071, 'grad_norm': 0.3262402415275574, 'learning_rate': 2.7758056982718356e-05, 'epoch': 4.02}
 17%|█▋        | 13138/78504 [8:00:01<54:53:52,  3.02s/it] 17%|█▋        | 13139/78504 [8:00:03<51:52:08,  2.86s/it]                                                          {'loss': 0.047, 'grad_norm': 0.20011764764785767, 'learning_rate': 2.7757632372298418e-05, 'epoch': 4.02}
 17%|█▋        | 13139/78504 [8:00:03<51:52:08,  2.86s/it] 17%|█▋        | 13140/78504 [8:00:05<48:38:56,  2.68s/it]                                                          {'loss': 0.0441, 'grad_norm': 0.3400900959968567, 'learning_rate': 2.7757207761878477e-05, 'epoch': 4.02}
 17%|█▋        | 13140/78504 [8:00:05<48:38:56,  2.68s/it] 17%|█▋        | 13141/78504 [8:00:08<46:39:55,  2.57s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.19586902856826782, 'learning_rate': 2.775678315145854e-05, 'epoch': 4.02}
 17%|█▋        | 13141/78504 [8:00:08<46:39:55,  2.57s/it] 17%|█▋        | 13142/78504 [8:00:10<44:11:28,  2.43s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.43616411089897156, 'learning_rate': 2.7756358541038598e-05, 'epoch': 4.02}
 17%|█▋        | 13142/78504 [8:00:10<44:11:28,  2.43s/it] 17%|█▋        | 13143/78504 [8:00:12<42:50:52,  2.36s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.2441832423210144, 'learning_rate': 2.775593393061866e-05, 'epoch': 4.02}
 17%|█▋        | 13143/78504 [8:00:12<42:50:52,  2.36s/it] 17%|█▋        | 13144/78504 [8:00:14<41:47:37,  2.30s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.503880500793457, 'learning_rate': 2.775550932019872e-05, 'epoch': 4.02}
 17%|█▋        | 13144/78504 [8:00:14<41:47:37,  2.30s/it] 17%|█▋        | 13145/78504 [8:00:16<39:24:28,  2.17s/it]                                                          {'loss': 0.0984, 'grad_norm': 0.5915712714195251, 'learning_rate': 2.775508470977878e-05, 'epoch': 4.02}
 17%|█▋        | 13145/78504 [8:00:16<39:24:28,  2.17s/it] 17%|█▋        | 13146/78504 [8:00:18<38:22:11,  2.11s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.5355332493782043, 'learning_rate': 2.775466009935884e-05, 'epoch': 4.02}
 17%|█▋        | 13146/78504 [8:00:18<38:22:11,  2.11s/it] 17%|█▋        | 13147/78504 [8:00:20<37:20:03,  2.06s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.5675991177558899, 'learning_rate': 2.77542354889389e-05, 'epoch': 4.02}
 17%|█▋        | 13147/78504 [8:00:20<37:20:03,  2.06s/it] 17%|█▋        | 13148/78504 [8:00:22<36:25:57,  2.01s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.5127055048942566, 'learning_rate': 2.775381087851896e-05, 'epoch': 4.02}
 17%|█▋        | 13148/78504 [8:00:22<36:25:57,  2.01s/it] 17%|█▋        | 13149/78504 [8:00:24<35:05:35,  1.93s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.5228986740112305, 'learning_rate': 2.7753386268099022e-05, 'epoch': 4.02}
 17%|█▋        | 13149/78504 [8:00:24<35:05:35,  1.93s/it] 17%|█▋        | 13150/78504 [8:00:25<33:10:39,  1.83s/it]                                                          {'loss': 0.1595, 'grad_norm': 0.4891906976699829, 'learning_rate': 2.775296165767908e-05, 'epoch': 4.02}
 17%|█▋        | 13150/78504 [8:00:25<33:10:39,  1.83s/it] 17%|█▋        | 13151/78504 [8:00:27<31:38:16,  1.74s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.6112825870513916, 'learning_rate': 2.775253704725914e-05, 'epoch': 4.02}
 17%|█▋        | 13151/78504 [8:00:27<31:38:16,  1.74s/it] 17%|█▋        | 13152/78504 [8:00:28<30:09:25,  1.66s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.7379589080810547, 'learning_rate': 2.7752112436839202e-05, 'epoch': 4.02}
 17%|█▋        | 13152/78504 [8:00:28<30:09:25,  1.66s/it] 17%|█▋        | 13153/78504 [8:00:30<28:43:07,  1.58s/it]                                                          {'loss': 0.1796, 'grad_norm': 0.5909841656684875, 'learning_rate': 2.775168782641926e-05, 'epoch': 4.02}
 17%|█▋        | 13153/78504 [8:00:30<28:43:07,  1.58s/it] 17%|█▋        | 13154/78504 [8:00:31<27:07:05,  1.49s/it]                                                          {'loss': 0.1684, 'grad_norm': 0.5314594507217407, 'learning_rate': 2.7751263215999323e-05, 'epoch': 4.02}
 17%|█▋        | 13154/78504 [8:00:31<27:07:05,  1.49s/it] 17%|█▋        | 13155/78504 [8:00:32<25:18:01,  1.39s/it]                                                          {'loss': 0.1688, 'grad_norm': 0.5492422580718994, 'learning_rate': 2.775083860557938e-05, 'epoch': 4.02}
 17%|█▋        | 13155/78504 [8:00:32<25:18:01,  1.39s/it] 17%|█▋        | 13156/78504 [8:00:33<23:39:17,  1.30s/it]                                                          {'loss': 0.1507, 'grad_norm': 4.752148151397705, 'learning_rate': 2.7750413995159443e-05, 'epoch': 4.02}
 17%|█▋        | 13156/78504 [8:00:33<23:39:17,  1.30s/it] 17%|█▋        | 13157/78504 [8:00:34<22:14:22,  1.23s/it]                                                          {'loss': 0.186, 'grad_norm': 0.873337984085083, 'learning_rate': 2.7749989384739502e-05, 'epoch': 4.02}
 17%|█▋        | 13157/78504 [8:00:34<22:14:22,  1.23s/it] 17%|█▋        | 13158/78504 [8:00:35<20:36:40,  1.14s/it]                                                          {'loss': 0.1804, 'grad_norm': 1.3064409494400024, 'learning_rate': 2.7749564774319564e-05, 'epoch': 4.02}
 17%|█▋        | 13158/78504 [8:00:35<20:36:40,  1.14s/it] 17%|█▋        | 13159/78504 [8:00:36<18:47:58,  1.04s/it]                                                          {'loss': 0.2162, 'grad_norm': 2.019625425338745, 'learning_rate': 2.7749140163899623e-05, 'epoch': 4.02}
 17%|█▋        | 13159/78504 [8:00:36<18:47:58,  1.04s/it] 17%|█▋        | 13160/78504 [8:00:46<68:11:19,  3.76s/it]                                                          {'loss': 0.1537, 'grad_norm': 0.3802054524421692, 'learning_rate': 2.7748715553479685e-05, 'epoch': 4.02}
 17%|█▋        | 13160/78504 [8:00:46<68:11:19,  3.76s/it] 17%|█▋        | 13161/78504 [8:00:49<63:34:47,  3.50s/it]                                                          {'loss': 0.075, 'grad_norm': 0.35138580203056335, 'learning_rate': 2.7748290943059744e-05, 'epoch': 4.02}
 17%|█▋        | 13161/78504 [8:00:49<63:34:47,  3.50s/it] 17%|█▋        | 13162/78504 [8:00:52<59:37:04,  3.28s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.26006096601486206, 'learning_rate': 2.7747866332639806e-05, 'epoch': 4.02}
 17%|█▋        | 13162/78504 [8:00:52<59:37:04,  3.28s/it] 17%|█▋        | 13163/78504 [8:00:54<55:44:36,  3.07s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.5428351163864136, 'learning_rate': 2.7747441722219864e-05, 'epoch': 4.02}
 17%|█▋        | 13163/78504 [8:00:54<55:44:36,  3.07s/it] 17%|█▋        | 13164/78504 [8:00:57<52:33:24,  2.90s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.3297906816005707, 'learning_rate': 2.7747017111799923e-05, 'epoch': 4.02}
 17%|█▋        | 13164/78504 [8:00:57<52:33:24,  2.90s/it] 17%|█▋        | 13165/78504 [8:00:59<50:00:35,  2.76s/it]                                                          {'loss': 0.0591, 'grad_norm': 0.245903879404068, 'learning_rate': 2.7746592501379985e-05, 'epoch': 4.02}
 17%|█▋        | 13165/78504 [8:00:59<50:00:35,  2.76s/it] 17%|█▋        | 13166/78504 [8:01:02<47:35:55,  2.62s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.6710256934165955, 'learning_rate': 2.7746167890960044e-05, 'epoch': 4.03}
 17%|█▋        | 13166/78504 [8:01:02<47:35:55,  2.62s/it] 17%|█▋        | 13167/78504 [8:01:04<44:48:56,  2.47s/it]                                                          {'loss': 0.0713, 'grad_norm': 0.45569875836372375, 'learning_rate': 2.7745743280540106e-05, 'epoch': 4.03}
 17%|█▋        | 13167/78504 [8:01:04<44:48:56,  2.47s/it] 17%|█▋        | 13168/78504 [8:01:06<43:16:23,  2.38s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.3700437545776367, 'learning_rate': 2.7745318670120165e-05, 'epoch': 4.03}
 17%|█▋        | 13168/78504 [8:01:06<43:16:23,  2.38s/it] 17%|█▋        | 13169/78504 [8:01:08<41:56:51,  2.31s/it]                                                          {'loss': 0.0718, 'grad_norm': 0.3435668349266052, 'learning_rate': 2.7744894059700227e-05, 'epoch': 4.03}
 17%|█▋        | 13169/78504 [8:01:08<41:56:51,  2.31s/it] 17%|█▋        | 13170/78504 [8:01:10<40:26:04,  2.23s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.9352173209190369, 'learning_rate': 2.7744469449280285e-05, 'epoch': 4.03}
 17%|█▋        | 13170/78504 [8:01:10<40:26:04,  2.23s/it] 17%|█▋        | 13171/78504 [8:01:12<39:05:32,  2.15s/it]                                                          {'loss': 0.0846, 'grad_norm': 1.3400559425354004, 'learning_rate': 2.7744044838860348e-05, 'epoch': 4.03}
 17%|█▋        | 13171/78504 [8:01:12<39:05:32,  2.15s/it] 17%|█▋        | 13172/78504 [8:01:14<37:29:49,  2.07s/it]                                                          {'loss': 0.0987, 'grad_norm': 1.466352939605713, 'learning_rate': 2.7743620228440406e-05, 'epoch': 4.03}
 17%|█▋        | 13172/78504 [8:01:14<37:29:49,  2.07s/it] 17%|█▋        | 13173/78504 [8:01:16<36:27:16,  2.01s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.3611978590488434, 'learning_rate': 2.774319561802047e-05, 'epoch': 4.03}
 17%|█▋        | 13173/78504 [8:01:16<36:27:16,  2.01s/it] 17%|█▋        | 13174/78504 [8:01:18<35:08:14,  1.94s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.4267370104789734, 'learning_rate': 2.7742771007600527e-05, 'epoch': 4.03}
 17%|█▋        | 13174/78504 [8:01:18<35:08:14,  1.94s/it] 17%|█▋        | 13175/78504 [8:01:19<33:30:33,  1.85s/it]                                                          {'loss': 0.1529, 'grad_norm': 0.5259841680526733, 'learning_rate': 2.774234639718059e-05, 'epoch': 4.03}
 17%|█▋        | 13175/78504 [8:01:19<33:30:33,  1.85s/it] 17%|█▋        | 13176/78504 [8:01:21<31:50:10,  1.75s/it]                                                          {'loss': 0.1448, 'grad_norm': 0.8659301996231079, 'learning_rate': 2.7741921786760648e-05, 'epoch': 4.03}
 17%|█▋        | 13176/78504 [8:01:21<31:50:10,  1.75s/it] 17%|█▋        | 13177/78504 [8:01:22<30:17:11,  1.67s/it]                                                          {'loss': 0.184, 'grad_norm': 0.8450571894645691, 'learning_rate': 2.7741497176340706e-05, 'epoch': 4.03}
 17%|█▋        | 13177/78504 [8:01:22<30:17:11,  1.67s/it] 17%|█▋        | 13178/78504 [8:01:24<28:42:40,  1.58s/it]                                                          {'loss': 0.1718, 'grad_norm': 1.8106836080551147, 'learning_rate': 2.774107256592077e-05, 'epoch': 4.03}
 17%|█▋        | 13178/78504 [8:01:24<28:42:40,  1.58s/it] 17%|█▋        | 13179/78504 [8:01:25<27:02:28,  1.49s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.7797873616218567, 'learning_rate': 2.7740647955500827e-05, 'epoch': 4.03}
 17%|█▋        | 13179/78504 [8:01:25<27:02:28,  1.49s/it] 17%|█▋        | 13180/78504 [8:01:26<25:11:28,  1.39s/it]                                                          {'loss': 0.1789, 'grad_norm': 0.4887699782848358, 'learning_rate': 2.774022334508089e-05, 'epoch': 4.03}
 17%|█▋        | 13180/78504 [8:01:26<25:11:28,  1.39s/it] 17%|█▋        | 13181/78504 [8:01:27<23:38:55,  1.30s/it]                                                          {'loss': 0.1722, 'grad_norm': 1.3531928062438965, 'learning_rate': 2.7739798734660948e-05, 'epoch': 4.03}
 17%|█▋        | 13181/78504 [8:01:27<23:38:55,  1.30s/it] 17%|█▋        | 13182/78504 [8:01:28<21:59:52,  1.21s/it]                                                          {'loss': 0.1948, 'grad_norm': 0.7850187420845032, 'learning_rate': 2.773937412424101e-05, 'epoch': 4.03}
 17%|█▋        | 13182/78504 [8:01:28<21:59:52,  1.21s/it] 17%|█▋        | 13183/78504 [8:01:29<20:27:07,  1.13s/it]                                                          {'loss': 0.2392, 'grad_norm': 1.2633479833602905, 'learning_rate': 2.773894951382107e-05, 'epoch': 4.03}
 17%|█▋        | 13183/78504 [8:01:29<20:27:07,  1.13s/it] 17%|█▋        | 13184/78504 [8:01:30<18:24:23,  1.01s/it]                                                          {'loss': 0.2574, 'grad_norm': 0.9854757785797119, 'learning_rate': 2.773852490340113e-05, 'epoch': 4.03}
 17%|█▋        | 13184/78504 [8:01:30<18:24:23,  1.01s/it] 17%|█▋        | 13185/78504 [8:01:40<68:48:43,  3.79s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.5333064794540405, 'learning_rate': 2.773810029298119e-05, 'epoch': 4.03}
 17%|█▋        | 13185/78504 [8:01:40<68:48:43,  3.79s/it] 17%|█▋        | 13186/78504 [8:01:43<65:06:32,  3.59s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.30229488015174866, 'learning_rate': 2.7737675682561252e-05, 'epoch': 4.03}
 17%|█▋        | 13186/78504 [8:01:43<65:06:32,  3.59s/it] 17%|█▋        | 13187/78504 [8:01:46<61:49:44,  3.41s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.5042138695716858, 'learning_rate': 2.773725107214131e-05, 'epoch': 4.03}
 17%|█▋        | 13187/78504 [8:01:46<61:49:44,  3.41s/it] 17%|█▋        | 13188/78504 [8:01:49<57:29:26,  3.17s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.3010985553264618, 'learning_rate': 2.7736826461721373e-05, 'epoch': 4.03}
 17%|█▋        | 13188/78504 [8:01:49<57:29:26,  3.17s/it] 17%|█▋        | 13189/78504 [8:01:51<53:40:46,  2.96s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.4442216455936432, 'learning_rate': 2.773640185130143e-05, 'epoch': 4.03}
 17%|█▋        | 13189/78504 [8:01:51<53:40:46,  2.96s/it] 17%|█▋        | 13190/78504 [8:01:53<49:54:33,  2.75s/it]                                                          {'loss': 0.0466, 'grad_norm': 5.6682538986206055, 'learning_rate': 2.773597724088149e-05, 'epoch': 4.03}
 17%|█▋        | 13190/78504 [8:01:53<49:54:33,  2.75s/it] 17%|█▋        | 13191/78504 [8:01:56<47:33:59,  2.62s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.2679855525493622, 'learning_rate': 2.7735552630461552e-05, 'epoch': 4.03}
 17%|█▋        | 13191/78504 [8:01:56<47:33:59,  2.62s/it] 17%|█▋        | 13192/78504 [8:01:58<44:45:10,  2.47s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.30521583557128906, 'learning_rate': 2.773512802004161e-05, 'epoch': 4.03}
 17%|█▋        | 13192/78504 [8:01:58<44:45:10,  2.47s/it] 17%|█▋        | 13193/78504 [8:02:00<42:22:27,  2.34s/it]                                                          {'loss': 0.0835, 'grad_norm': 0.21537108719348907, 'learning_rate': 2.7734703409621673e-05, 'epoch': 4.03}
 17%|█▋        | 13193/78504 [8:02:00<42:22:27,  2.34s/it] 17%|█▋        | 13194/78504 [8:02:02<41:17:59,  2.28s/it]                                                          {'loss': 0.0564, 'grad_norm': 1.0049387216567993, 'learning_rate': 2.773427879920173e-05, 'epoch': 4.03}
 17%|█▋        | 13194/78504 [8:02:02<41:17:59,  2.28s/it] 17%|█▋        | 13195/78504 [8:02:04<39:53:46,  2.20s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.3992101848125458, 'learning_rate': 2.7733854188781794e-05, 'epoch': 4.03}
 17%|█▋        | 13195/78504 [8:02:04<39:53:46,  2.20s/it] 17%|█▋        | 13196/78504 [8:02:06<38:41:57,  2.13s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.33493342995643616, 'learning_rate': 2.7733429578361852e-05, 'epoch': 4.03}
 17%|█▋        | 13196/78504 [8:02:06<38:41:57,  2.13s/it] 17%|█▋        | 13197/78504 [8:02:08<37:20:58,  2.06s/it]                                                          {'loss': 0.1151, 'grad_norm': 1.133471965789795, 'learning_rate': 2.7733004967941914e-05, 'epoch': 4.03}
 17%|█▋        | 13197/78504 [8:02:08<37:20:58,  2.06s/it] 17%|█▋        | 13198/78504 [8:02:10<36:18:25,  2.00s/it]                                                          {'loss': 0.1165, 'grad_norm': 0.48921576142311096, 'learning_rate': 2.7732580357521973e-05, 'epoch': 4.03}
 17%|█▋        | 13198/78504 [8:02:10<36:18:25,  2.00s/it] 17%|█▋        | 13199/78504 [8:02:12<34:47:41,  1.92s/it]                                                          {'loss': 0.1184, 'grad_norm': 1.1269880533218384, 'learning_rate': 2.7732155747102035e-05, 'epoch': 4.04}
 17%|█▋        | 13199/78504 [8:02:12<34:47:41,  1.92s/it] 17%|█▋        | 13200/78504 [8:02:13<33:24:36,  1.84s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.4284026026725769, 'learning_rate': 2.7731731136682094e-05, 'epoch': 4.04}
 17%|█▋        | 13200/78504 [8:02:13<33:24:36,  1.84s/it] 17%|█▋        | 13201/78504 [8:02:15<31:48:23,  1.75s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.5981253981590271, 'learning_rate': 2.7731306526262156e-05, 'epoch': 4.04}
 17%|█▋        | 13201/78504 [8:02:15<31:48:23,  1.75s/it] 17%|█▋        | 13202/78504 [8:02:16<30:29:32,  1.68s/it]                                                          {'loss': 0.1448, 'grad_norm': 0.9232502579689026, 'learning_rate': 2.7730881915842215e-05, 'epoch': 4.04}
 17%|█▋        | 13202/78504 [8:02:16<30:29:32,  1.68s/it] 17%|█▋        | 13203/78504 [8:02:18<29:04:23,  1.60s/it]                                                          {'loss': 0.1672, 'grad_norm': 0.8058618903160095, 'learning_rate': 2.7730457305422273e-05, 'epoch': 4.04}
 17%|█▋        | 13203/78504 [8:02:18<29:04:23,  1.60s/it] 17%|█▋        | 13204/78504 [8:02:19<27:24:15,  1.51s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.9634830355644226, 'learning_rate': 2.7730032695002335e-05, 'epoch': 4.04}
 17%|█▋        | 13204/78504 [8:02:19<27:24:15,  1.51s/it] 17%|█▋        | 13205/78504 [8:02:20<25:45:26,  1.42s/it]                                                          {'loss': 0.1859, 'grad_norm': 0.6847993731498718, 'learning_rate': 2.7729608084582394e-05, 'epoch': 4.04}
 17%|█▋        | 13205/78504 [8:02:20<25:45:26,  1.42s/it] 17%|█▋        | 13206/78504 [8:02:21<23:56:15,  1.32s/it]                                                          {'loss': 0.1767, 'grad_norm': 0.9237799644470215, 'learning_rate': 2.7729183474162456e-05, 'epoch': 4.04}
 17%|█▋        | 13206/78504 [8:02:21<23:56:15,  1.32s/it] 17%|█▋        | 13207/78504 [8:02:22<22:29:17,  1.24s/it]                                                          {'loss': 0.1687, 'grad_norm': 2.1278016567230225, 'learning_rate': 2.7728758863742515e-05, 'epoch': 4.04}
 17%|█▋        | 13207/78504 [8:02:22<22:29:17,  1.24s/it] 17%|█▋        | 13208/78504 [8:02:23<20:47:41,  1.15s/it]                                                          {'loss': 0.1775, 'grad_norm': 0.8240693211555481, 'learning_rate': 2.7728334253322577e-05, 'epoch': 4.04}
 17%|█▋        | 13208/78504 [8:02:23<20:47:41,  1.15s/it] 17%|█▋        | 13209/78504 [8:02:24<18:47:39,  1.04s/it]                                                          {'loss': 0.2498, 'grad_norm': 1.9039785861968994, 'learning_rate': 2.7727909642902636e-05, 'epoch': 4.04}
 17%|█▋        | 13209/78504 [8:02:24<18:47:39,  1.04s/it] 17%|█▋        | 13210/78504 [8:02:33<63:20:52,  3.49s/it]                                                          {'loss': 0.168, 'grad_norm': 0.3197096586227417, 'learning_rate': 2.7727485032482698e-05, 'epoch': 4.04}
 17%|█▋        | 13210/78504 [8:02:33<63:20:52,  3.49s/it] 17%|█▋        | 13211/78504 [8:02:37<62:34:11,  3.45s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.4108821153640747, 'learning_rate': 2.7727060422062757e-05, 'epoch': 4.04}
 17%|█▋        | 13211/78504 [8:02:37<62:34:11,  3.45s/it] 17%|█▋        | 13212/78504 [8:02:39<57:45:36,  3.18s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.31489744782447815, 'learning_rate': 2.772663581164282e-05, 'epoch': 4.04}
 17%|█▋        | 13212/78504 [8:02:39<57:45:36,  3.18s/it] 17%|█▋        | 13213/78504 [8:02:42<54:38:35,  3.01s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.25250086188316345, 'learning_rate': 2.7726211201222877e-05, 'epoch': 4.04}
 17%|█▋        | 13213/78504 [8:02:42<54:38:35,  3.01s/it] 17%|█▋        | 13214/78504 [8:02:44<51:05:53,  2.82s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.2522953152656555, 'learning_rate': 2.772578659080294e-05, 'epoch': 4.04}
 17%|█▋        | 13214/78504 [8:02:44<51:05:53,  2.82s/it] 17%|█▋        | 13215/78504 [8:02:47<48:34:27,  2.68s/it]                                                          {'loss': 0.0646, 'grad_norm': 1.2273188829421997, 'learning_rate': 2.7725361980382998e-05, 'epoch': 4.04}
 17%|█▋        | 13215/78504 [8:02:47<48:34:27,  2.68s/it] 17%|█▋        | 13216/78504 [8:02:49<46:41:38,  2.57s/it]                                                          {'loss': 0.0515, 'grad_norm': 0.23266352713108063, 'learning_rate': 2.7724937369963057e-05, 'epoch': 4.04}
 17%|█▋        | 13216/78504 [8:02:49<46:41:38,  2.57s/it] 17%|█▋        | 13217/78504 [8:02:51<44:59:49,  2.48s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.2735312581062317, 'learning_rate': 2.772451275954312e-05, 'epoch': 4.04}
 17%|█▋        | 13217/78504 [8:02:51<44:59:49,  2.48s/it] 17%|█▋        | 13218/78504 [8:02:53<43:25:03,  2.39s/it]                                                          {'loss': 0.0839, 'grad_norm': 1.1647151708602905, 'learning_rate': 2.7724088149123178e-05, 'epoch': 4.04}
 17%|█▋        | 13218/78504 [8:02:53<43:25:03,  2.39s/it] 17%|█▋        | 13219/78504 [8:02:55<42:03:40,  2.32s/it]                                                          {'loss': 0.0743, 'grad_norm': 0.36253687739372253, 'learning_rate': 2.772366353870324e-05, 'epoch': 4.04}
 17%|█▋        | 13219/78504 [8:02:55<42:03:40,  2.32s/it] 17%|█▋        | 13220/78504 [8:02:57<40:14:40,  2.22s/it]                                                          {'loss': 0.082, 'grad_norm': 0.31601226329803467, 'learning_rate': 2.77232389282833e-05, 'epoch': 4.04}
 17%|█▋        | 13220/78504 [8:02:57<40:14:40,  2.22s/it] 17%|█▋        | 13221/78504 [8:03:00<39:29:49,  2.18s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.24620763957500458, 'learning_rate': 2.772281431786336e-05, 'epoch': 4.04}
 17%|█▋        | 13221/78504 [8:03:00<39:29:49,  2.18s/it] 17%|█▋        | 13222/78504 [8:03:01<37:48:16,  2.08s/it]                                                          {'loss': 0.1163, 'grad_norm': 0.9322500228881836, 'learning_rate': 2.772238970744342e-05, 'epoch': 4.04}
 17%|█▋        | 13222/78504 [8:03:01<37:48:16,  2.08s/it] 17%|█▋        | 13223/78504 [8:03:03<36:38:34,  2.02s/it]                                                          {'loss': 0.1368, 'grad_norm': 1.2387644052505493, 'learning_rate': 2.772196509702348e-05, 'epoch': 4.04}
 17%|█▋        | 13223/78504 [8:03:03<36:38:34,  2.02s/it] 17%|█▋        | 13224/78504 [8:03:05<35:13:35,  1.94s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.6523501873016357, 'learning_rate': 2.772154048660354e-05, 'epoch': 4.04}
 17%|█▋        | 13224/78504 [8:03:05<35:13:35,  1.94s/it] 17%|█▋        | 13225/78504 [8:03:07<33:17:18,  1.84s/it]                                                          {'loss': 0.1531, 'grad_norm': 0.6517122387886047, 'learning_rate': 2.7721115876183602e-05, 'epoch': 4.04}
 17%|█▋        | 13225/78504 [8:03:07<33:17:18,  1.84s/it] 17%|█▋        | 13226/78504 [8:03:08<31:39:25,  1.75s/it]                                                          {'loss': 0.1769, 'grad_norm': 0.6880832314491272, 'learning_rate': 2.7720691265763664e-05, 'epoch': 4.04}
 17%|█▋        | 13226/78504 [8:03:08<31:39:25,  1.75s/it] 17%|█▋        | 13227/78504 [8:03:10<30:20:59,  1.67s/it]                                                          {'loss': 0.1642, 'grad_norm': 0.5819571614265442, 'learning_rate': 2.7720266655343723e-05, 'epoch': 4.04}
 17%|█▋        | 13227/78504 [8:03:10<30:20:59,  1.67s/it] 17%|█▋        | 13228/78504 [8:03:11<28:58:36,  1.60s/it]                                                          {'loss': 0.2015, 'grad_norm': 1.0707420110702515, 'learning_rate': 2.7719842044923785e-05, 'epoch': 4.04}
 17%|█▋        | 13228/78504 [8:03:11<28:58:36,  1.60s/it] 17%|█▋        | 13229/78504 [8:03:12<27:17:36,  1.51s/it]                                                          {'loss': 0.1898, 'grad_norm': 1.7314585447311401, 'learning_rate': 2.7719417434503844e-05, 'epoch': 4.04}
 17%|█▋        | 13229/78504 [8:03:12<27:17:36,  1.51s/it] 17%|█▋        | 13230/78504 [8:03:13<25:23:36,  1.40s/it]                                                          {'loss': 0.1793, 'grad_norm': 0.9371612668037415, 'learning_rate': 2.7718992824083906e-05, 'epoch': 4.04}
 17%|█▋        | 13230/78504 [8:03:14<25:23:36,  1.40s/it] 17%|█▋        | 13231/78504 [8:03:15<23:39:10,  1.30s/it]                                                          {'loss': 0.1691, 'grad_norm': 0.5682465434074402, 'learning_rate': 2.7718568213663964e-05, 'epoch': 4.04}
 17%|█▋        | 13231/78504 [8:03:15<23:39:10,  1.30s/it] 17%|█▋        | 13232/78504 [8:03:16<22:14:38,  1.23s/it]                                                          {'loss': 0.1931, 'grad_norm': 1.218571662902832, 'learning_rate': 2.7718143603244026e-05, 'epoch': 4.05}
 17%|█▋        | 13232/78504 [8:03:16<22:14:38,  1.23s/it] 17%|█▋        | 13233/78504 [8:03:17<20:38:39,  1.14s/it]                                                          {'loss': 0.2008, 'grad_norm': 1.1195220947265625, 'learning_rate': 2.7717718992824085e-05, 'epoch': 4.05}
 17%|█▋        | 13233/78504 [8:03:17<20:38:39,  1.14s/it] 17%|█▋        | 13234/78504 [8:03:17<18:42:45,  1.03s/it]                                                          {'loss': 0.2644, 'grad_norm': 1.2325732707977295, 'learning_rate': 2.7717294382404147e-05, 'epoch': 4.05}
 17%|█▋        | 13234/78504 [8:03:17<18:42:45,  1.03s/it] 17%|█▋        | 13235/78504 [8:03:25<52:08:24,  2.88s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.36397120356559753, 'learning_rate': 2.7716869771984206e-05, 'epoch': 4.05}
 17%|█▋        | 13235/78504 [8:03:25<52:08:24,  2.88s/it] 17%|█▋        | 13236/78504 [8:03:28<53:31:27,  2.95s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.2702012062072754, 'learning_rate': 2.7716445161564268e-05, 'epoch': 4.05}
 17%|█▋        | 13236/78504 [8:03:28<53:31:27,  2.95s/it] 17%|█▋        | 13237/78504 [8:03:31<53:52:43,  2.97s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.2908802330493927, 'learning_rate': 2.7716020551144327e-05, 'epoch': 4.05}
 17%|█▋        | 13237/78504 [8:03:31<53:52:43,  2.97s/it] 17%|█▋        | 13238/78504 [8:03:33<51:55:56,  2.86s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.28217169642448425, 'learning_rate': 2.771559594072439e-05, 'epoch': 4.05}
 17%|█▋        | 13238/78504 [8:03:33<51:55:56,  2.86s/it] 17%|█▋        | 13239/78504 [8:03:36<49:46:27,  2.75s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.23459851741790771, 'learning_rate': 2.7715171330304448e-05, 'epoch': 4.05}
 17%|█▋        | 13239/78504 [8:03:36<49:46:27,  2.75s/it] 17%|█▋        | 13240/78504 [8:03:38<47:08:43,  2.60s/it]                                                          {'loss': 0.0562, 'grad_norm': 0.27578839659690857, 'learning_rate': 2.7714746719884506e-05, 'epoch': 4.05}
 17%|█▋        | 13240/78504 [8:03:38<47:08:43,  2.60s/it] 17%|█▋        | 13241/78504 [8:03:40<45:37:09,  2.52s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.48495253920555115, 'learning_rate': 2.771432210946457e-05, 'epoch': 4.05}
 17%|█▋        | 13241/78504 [8:03:40<45:37:09,  2.52s/it] 17%|█▋        | 13242/78504 [8:03:42<43:18:15,  2.39s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.26001307368278503, 'learning_rate': 2.7713897499044627e-05, 'epoch': 4.05}
 17%|█▋        | 13242/78504 [8:03:42<43:18:15,  2.39s/it] 17%|█▋        | 13243/78504 [8:03:44<41:21:09,  2.28s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.24727904796600342, 'learning_rate': 2.771347288862469e-05, 'epoch': 4.05}
 17%|█▋        | 13243/78504 [8:03:44<41:21:09,  2.28s/it] 17%|█▋        | 13244/78504 [8:03:47<40:35:53,  2.24s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.21962237358093262, 'learning_rate': 2.7713048278204748e-05, 'epoch': 4.05}
 17%|█▋        | 13244/78504 [8:03:47<40:35:53,  2.24s/it] 17%|█▋        | 13245/78504 [8:03:49<39:13:56,  2.16s/it]                                                          {'loss': 0.065, 'grad_norm': 0.22305352985858917, 'learning_rate': 2.771262366778481e-05, 'epoch': 4.05}
 17%|█▋        | 13245/78504 [8:03:49<39:13:56,  2.16s/it] 17%|█▋        | 13246/78504 [8:03:50<37:16:21,  2.06s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.5533862113952637, 'learning_rate': 2.771219905736487e-05, 'epoch': 4.05}
 17%|█▋        | 13246/78504 [8:03:50<37:16:21,  2.06s/it] 17%|█▋        | 13247/78504 [8:03:52<36:12:47,  2.00s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.36762064695358276, 'learning_rate': 2.771177444694493e-05, 'epoch': 4.05}
 17%|█▋        | 13247/78504 [8:03:52<36:12:47,  2.00s/it] 17%|█▋        | 13248/78504 [8:03:54<34:41:04,  1.91s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.8420436978340149, 'learning_rate': 2.771134983652499e-05, 'epoch': 4.05}
 17%|█▋        | 13248/78504 [8:03:54<34:41:04,  1.91s/it] 17%|█▋        | 13249/78504 [8:03:56<33:18:46,  1.84s/it]                                                          {'loss': 0.1926, 'grad_norm': 0.7324002981185913, 'learning_rate': 2.771092522610505e-05, 'epoch': 4.05}
 17%|█▋        | 13249/78504 [8:03:56<33:18:46,  1.84s/it] 17%|█▋        | 13250/78504 [8:03:57<32:16:24,  1.78s/it]                                                          {'loss': 0.158, 'grad_norm': 1.2423475980758667, 'learning_rate': 2.771050061568511e-05, 'epoch': 4.05}
 17%|█▋        | 13250/78504 [8:03:57<32:16:24,  1.78s/it] 17%|█▋        | 13251/78504 [8:03:59<30:50:13,  1.70s/it]                                                          {'loss': 0.1603, 'grad_norm': 0.5802162289619446, 'learning_rate': 2.7710076005265172e-05, 'epoch': 4.05}
 17%|█▋        | 13251/78504 [8:03:59<30:50:13,  1.70s/it] 17%|█▋        | 13252/78504 [8:04:00<29:36:49,  1.63s/it]                                                          {'loss': 0.1861, 'grad_norm': 5.434298515319824, 'learning_rate': 2.770965139484523e-05, 'epoch': 4.05}
 17%|█▋        | 13252/78504 [8:04:00<29:36:49,  1.63s/it] 17%|█▋        | 13253/78504 [8:04:02<28:19:36,  1.56s/it]                                                          {'loss': 0.1734, 'grad_norm': 0.6884622573852539, 'learning_rate': 2.770922678442529e-05, 'epoch': 4.05}
 17%|█▋        | 13253/78504 [8:04:02<28:19:36,  1.56s/it] 17%|█▋        | 13254/78504 [8:04:03<26:49:26,  1.48s/it]                                                          {'loss': 0.1955, 'grad_norm': 0.7117375731468201, 'learning_rate': 2.7708802174005352e-05, 'epoch': 4.05}
 17%|█▋        | 13254/78504 [8:04:03<26:49:26,  1.48s/it] 17%|█▋        | 13255/78504 [8:04:04<25:00:49,  1.38s/it]                                                          {'loss': 0.1994, 'grad_norm': 1.1411793231964111, 'learning_rate': 2.770837756358541e-05, 'epoch': 4.05}
 17%|█▋        | 13255/78504 [8:04:04<25:00:49,  1.38s/it] 17%|█▋        | 13256/78504 [8:04:05<23:31:33,  1.30s/it]                                                          {'loss': 0.2277, 'grad_norm': 1.0504168272018433, 'learning_rate': 2.7707952953165473e-05, 'epoch': 4.05}
 17%|█▋        | 13256/78504 [8:04:05<23:31:33,  1.30s/it] 17%|█▋        | 13257/78504 [8:04:06<21:52:59,  1.21s/it]                                                          {'loss': 0.1845, 'grad_norm': 0.9090582728385925, 'learning_rate': 2.770752834274553e-05, 'epoch': 4.05}
 17%|█▋        | 13257/78504 [8:04:06<21:52:59,  1.21s/it] 17%|█▋        | 13258/78504 [8:04:07<20:23:58,  1.13s/it]                                                          {'loss': 0.2205, 'grad_norm': 1.1021296977996826, 'learning_rate': 2.7707103732325593e-05, 'epoch': 4.05}
 17%|█▋        | 13258/78504 [8:04:07<20:23:58,  1.13s/it] 17%|█▋        | 13259/78504 [8:04:08<18:33:25,  1.02s/it]                                                          {'loss': 0.3079, 'grad_norm': 3.9203855991363525, 'learning_rate': 2.7706679121905652e-05, 'epoch': 4.05}
 17%|█▋        | 13259/78504 [8:04:08<18:33:25,  1.02s/it] 17%|█▋        | 13260/78504 [8:04:18<65:13:55,  3.60s/it]                                                          {'loss': 0.1393, 'grad_norm': 0.30544623732566833, 'learning_rate': 2.7706254511485714e-05, 'epoch': 4.05}
 17%|█▋        | 13260/78504 [8:04:18<65:13:55,  3.60s/it] 17%|█▋        | 13261/78504 [8:04:21<62:42:45,  3.46s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.26308855414390564, 'learning_rate': 2.7705829901065773e-05, 'epoch': 4.05}
 17%|█▋        | 13261/78504 [8:04:21<62:42:45,  3.46s/it] 17%|█▋        | 13262/78504 [8:04:24<60:19:09,  3.33s/it]                                                          {'loss': 0.0782, 'grad_norm': 0.2525118291378021, 'learning_rate': 2.7705405290645835e-05, 'epoch': 4.05}
 17%|█▋        | 13262/78504 [8:04:24<60:19:09,  3.33s/it] 17%|█▋        | 13263/78504 [8:04:26<56:24:20,  3.11s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.248046413064003, 'learning_rate': 2.7704980680225894e-05, 'epoch': 4.05}
 17%|█▋        | 13263/78504 [8:04:26<56:24:20,  3.11s/it] 17%|█▋        | 13264/78504 [8:04:29<52:53:19,  2.92s/it]                                                          {'loss': 0.054, 'grad_norm': 0.17864291369915009, 'learning_rate': 2.7704556069805956e-05, 'epoch': 4.06}
 17%|█▋        | 13264/78504 [8:04:29<52:53:19,  2.92s/it] 17%|█▋        | 13265/78504 [8:04:31<50:13:56,  2.77s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.21694180369377136, 'learning_rate': 2.7704131459386014e-05, 'epoch': 4.06}
 17%|█▋        | 13265/78504 [8:04:31<50:13:56,  2.77s/it] 17%|█▋        | 13266/78504 [8:04:33<47:44:34,  2.63s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.972935676574707, 'learning_rate': 2.7703706848966073e-05, 'epoch': 4.06}
 17%|█▋        | 13266/78504 [8:04:34<47:44:34,  2.63s/it] 17%|█▋        | 13267/78504 [8:04:36<44:53:55,  2.48s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.2888561487197876, 'learning_rate': 2.7703282238546135e-05, 'epoch': 4.06}
 17%|█▋        | 13267/78504 [8:04:36<44:53:55,  2.48s/it] 17%|█▋        | 13268/78504 [8:04:38<43:15:31,  2.39s/it]                                                          {'loss': 0.0655, 'grad_norm': 0.26751166582107544, 'learning_rate': 2.7702857628126194e-05, 'epoch': 4.06}
 17%|█▋        | 13268/78504 [8:04:38<43:15:31,  2.39s/it] 17%|█▋        | 13269/78504 [8:04:40<41:57:19,  2.32s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.2191745787858963, 'learning_rate': 2.7702433017706256e-05, 'epoch': 4.06}
 17%|█▋        | 13269/78504 [8:04:40<41:57:19,  2.32s/it] 17%|█▋        | 13270/78504 [8:04:42<39:26:55,  2.18s/it]                                                          {'loss': 0.109, 'grad_norm': 0.30992335081100464, 'learning_rate': 2.7702008407286315e-05, 'epoch': 4.06}
 17%|█▋        | 13270/78504 [8:04:42<39:26:55,  2.18s/it] 17%|█▋        | 13271/78504 [8:04:44<38:22:08,  2.12s/it]                                                          {'loss': 0.0827, 'grad_norm': 0.2382793426513672, 'learning_rate': 2.7701583796866377e-05, 'epoch': 4.06}
 17%|█▋        | 13271/78504 [8:04:44<38:22:08,  2.12s/it] 17%|█▋        | 13272/78504 [8:04:46<37:06:58,  2.05s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.3499319553375244, 'learning_rate': 2.7701159186446435e-05, 'epoch': 4.06}
 17%|█▋        | 13272/78504 [8:04:46<37:06:58,  2.05s/it] 17%|█▋        | 13273/78504 [8:04:48<36:07:48,  1.99s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.7869304418563843, 'learning_rate': 2.7700734576026498e-05, 'epoch': 4.06}
 17%|█▋        | 13273/78504 [8:04:48<36:07:48,  1.99s/it] 17%|█▋        | 13274/78504 [8:04:49<34:36:02,  1.91s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.6370041370391846, 'learning_rate': 2.7700309965606556e-05, 'epoch': 4.06}
 17%|█▋        | 13274/78504 [8:04:49<34:36:02,  1.91s/it] 17%|█▋        | 13275/78504 [8:04:51<33:12:10,  1.83s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.48254260420799255, 'learning_rate': 2.769988535518662e-05, 'epoch': 4.06}
 17%|█▋        | 13275/78504 [8:04:51<33:12:10,  1.83s/it] 17%|█▋        | 13276/78504 [8:04:52<31:32:23,  1.74s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.7314375042915344, 'learning_rate': 2.7699460744766677e-05, 'epoch': 4.06}
 17%|█▋        | 13276/78504 [8:04:52<31:32:23,  1.74s/it] 17%|█▋        | 13277/78504 [8:04:54<30:04:58,  1.66s/it]                                                          {'loss': 0.1772, 'grad_norm': 0.5956602692604065, 'learning_rate': 2.769903613434674e-05, 'epoch': 4.06}
 17%|█▋        | 13277/78504 [8:04:54<30:04:58,  1.66s/it] 17%|█▋        | 13278/78504 [8:04:55<28:40:13,  1.58s/it]                                                          {'loss': 0.164, 'grad_norm': 0.7385565638542175, 'learning_rate': 2.7698611523926798e-05, 'epoch': 4.06}
 17%|█▋        | 13278/78504 [8:04:55<28:40:13,  1.58s/it] 17%|█▋        | 13279/78504 [8:04:57<27:03:21,  1.49s/it]                                                          {'loss': 0.1702, 'grad_norm': 1.064041256904602, 'learning_rate': 2.7698186913506857e-05, 'epoch': 4.06}
 17%|█▋        | 13279/78504 [8:04:57<27:03:21,  1.49s/it] 17%|█▋        | 13280/78504 [8:04:58<25:12:37,  1.39s/it]                                                          {'loss': 0.1881, 'grad_norm': 0.8519697785377502, 'learning_rate': 2.769776230308692e-05, 'epoch': 4.06}
 17%|█▋        | 13280/78504 [8:04:58<25:12:37,  1.39s/it] 17%|█▋        | 13281/78504 [8:04:59<23:34:08,  1.30s/it]                                                          {'loss': 0.163, 'grad_norm': 0.9634599685668945, 'learning_rate': 2.7697337692666977e-05, 'epoch': 4.06}
 17%|█▋        | 13281/78504 [8:04:59<23:34:08,  1.30s/it] 17%|█▋        | 13282/78504 [8:05:00<22:13:37,  1.23s/it]                                                          {'loss': 0.1908, 'grad_norm': 0.6991767287254333, 'learning_rate': 2.769691308224704e-05, 'epoch': 4.06}
 17%|█▋        | 13282/78504 [8:05:00<22:13:37,  1.23s/it] 17%|█▋        | 13283/78504 [8:05:01<20:39:23,  1.14s/it]                                                          {'loss': 0.2318, 'grad_norm': 0.871757984161377, 'learning_rate': 2.7696488471827098e-05, 'epoch': 4.06}
 17%|█▋        | 13283/78504 [8:05:01<20:39:23,  1.14s/it] 17%|█▋        | 13284/78504 [8:05:02<18:50:13,  1.04s/it]                                                          {'loss': 0.2815, 'grad_norm': 1.608367919921875, 'learning_rate': 2.769606386140716e-05, 'epoch': 4.06}
 17%|█▋        | 13284/78504 [8:05:02<18:50:13,  1.04s/it] 17%|█▋        | 13285/78504 [8:05:11<62:00:35,  3.42s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.3256901502609253, 'learning_rate': 2.769563925098722e-05, 'epoch': 4.06}
 17%|█▋        | 13285/78504 [8:05:11<62:00:35,  3.42s/it] 17%|█▋        | 13286/78504 [8:05:14<60:07:40,  3.32s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.32326510548591614, 'learning_rate': 2.769521464056728e-05, 'epoch': 4.06}
 17%|█▋        | 13286/78504 [8:05:14<60:07:40,  3.32s/it] 17%|█▋        | 13287/78504 [8:05:16<56:00:24,  3.09s/it]                                                          {'loss': 0.078, 'grad_norm': 0.936809778213501, 'learning_rate': 2.769479003014734e-05, 'epoch': 4.06}
 17%|█▋        | 13287/78504 [8:05:16<56:00:24,  3.09s/it] 17%|█▋        | 13288/78504 [8:05:19<53:25:15,  2.95s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.18620572984218597, 'learning_rate': 2.7694365419727402e-05, 'epoch': 4.06}
 17%|█▋        | 13288/78504 [8:05:19<53:25:15,  2.95s/it] 17%|█▋        | 13289/78504 [8:05:21<50:11:06,  2.77s/it]                                                          {'loss': 0.0584, 'grad_norm': 1.2139346599578857, 'learning_rate': 2.769394080930746e-05, 'epoch': 4.06}
 17%|█▋        | 13289/78504 [8:05:21<50:11:06,  2.77s/it] 17%|█▋        | 13290/78504 [8:05:23<47:24:38,  2.62s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.2854005992412567, 'learning_rate': 2.7693516198887523e-05, 'epoch': 4.06}
 17%|█▋        | 13290/78504 [8:05:23<47:24:38,  2.62s/it] 17%|█▋        | 13291/78504 [8:05:26<45:46:00,  2.53s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.4340643584728241, 'learning_rate': 2.769309158846758e-05, 'epoch': 4.06}
 17%|█▋        | 13291/78504 [8:05:26<45:46:00,  2.53s/it] 17%|█▋        | 13292/78504 [8:05:28<43:22:48,  2.39s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.20346635580062866, 'learning_rate': 2.769266697804764e-05, 'epoch': 4.06}
 17%|█▋        | 13292/78504 [8:05:28<43:22:48,  2.39s/it] 17%|█▋        | 13293/78504 [8:05:30<42:15:11,  2.33s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.4495980441570282, 'learning_rate': 2.7692242367627702e-05, 'epoch': 4.06}
 17%|█▋        | 13293/78504 [8:05:30<42:15:11,  2.33s/it] 17%|█▋        | 13294/78504 [8:05:32<41:13:15,  2.28s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.31495851278305054, 'learning_rate': 2.769181775720776e-05, 'epoch': 4.06}
 17%|█▋        | 13294/78504 [8:05:32<41:13:15,  2.28s/it] 17%|█▋        | 13295/78504 [8:05:34<39:53:20,  2.20s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.5041214227676392, 'learning_rate': 2.7691393146787823e-05, 'epoch': 4.06}
 17%|█▋        | 13295/78504 [8:05:34<39:53:20,  2.20s/it] 17%|█▋        | 13296/78504 [8:05:36<38:40:56,  2.14s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.5187363028526306, 'learning_rate': 2.769096853636788e-05, 'epoch': 4.06}
 17%|█▋        | 13296/78504 [8:05:36<38:40:56,  2.14s/it] 17%|█▋        | 13297/78504 [8:05:38<37:12:49,  2.05s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.3904270529747009, 'learning_rate': 2.7690543925947944e-05, 'epoch': 4.07}
 17%|█▋        | 13297/78504 [8:05:38<37:12:49,  2.05s/it] 17%|█▋        | 13298/78504 [8:05:40<36:11:23,  2.00s/it]                                                          {'loss': 0.1535, 'grad_norm': 0.7110073566436768, 'learning_rate': 2.7690119315528002e-05, 'epoch': 4.07}
 17%|█▋        | 13298/78504 [8:05:40<36:11:23,  2.00s/it] 17%|█▋        | 13299/78504 [8:05:42<34:54:15,  1.93s/it]                                                          {'loss': 0.1494, 'grad_norm': 0.35271570086479187, 'learning_rate': 2.7689694705108064e-05, 'epoch': 4.07}
 17%|█▋        | 13299/78504 [8:05:42<34:54:15,  1.93s/it] 17%|█▋        | 13300/78504 [8:05:43<33:19:58,  1.84s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.3602530062198639, 'learning_rate': 2.7689270094688123e-05, 'epoch': 4.07}
 17%|█▋        | 13300/78504 [8:05:43<33:19:58,  1.84s/it] 17%|█▋        | 13301/78504 [8:05:45<31:42:23,  1.75s/it]                                                          {'loss': 0.1586, 'grad_norm': 0.8032369613647461, 'learning_rate': 2.7688845484268185e-05, 'epoch': 4.07}
 17%|█▋        | 13301/78504 [8:05:45<31:42:23,  1.75s/it] 17%|█▋        | 13302/78504 [8:05:46<30:09:10,  1.66s/it]                                                          {'loss': 0.1467, 'grad_norm': 0.44293680787086487, 'learning_rate': 2.7688420873848244e-05, 'epoch': 4.07}
 17%|█▋        | 13302/78504 [8:05:46<30:09:10,  1.66s/it] 17%|█▋        | 13303/78504 [8:05:48<28:47:57,  1.59s/it]                                                          {'loss': 0.1697, 'grad_norm': 1.0054148435592651, 'learning_rate': 2.7687996263428306e-05, 'epoch': 4.07}
 17%|█▋        | 13303/78504 [8:05:48<28:47:57,  1.59s/it] 17%|█▋        | 13304/78504 [8:05:49<26:44:09,  1.48s/it]                                                          {'loss': 0.1506, 'grad_norm': 1.3787002563476562, 'learning_rate': 2.7687571653008365e-05, 'epoch': 4.07}
 17%|█▋        | 13304/78504 [8:05:49<26:44:09,  1.48s/it] 17%|█▋        | 13305/78504 [8:05:50<24:49:47,  1.37s/it]                                                          {'loss': 0.2225, 'grad_norm': 0.6149824857711792, 'learning_rate': 2.7687147042588423e-05, 'epoch': 4.07}
 17%|█▋        | 13305/78504 [8:05:50<24:49:47,  1.37s/it] 17%|█▋        | 13306/78504 [8:05:51<23:19:45,  1.29s/it]                                                          {'loss': 0.1723, 'grad_norm': 0.8237692713737488, 'learning_rate': 2.7686722432168485e-05, 'epoch': 4.07}
 17%|█▋        | 13306/78504 [8:05:51<23:19:45,  1.29s/it] 17%|█▋        | 13307/78504 [8:05:52<21:42:08,  1.20s/it]                                                          {'loss': 0.2032, 'grad_norm': 0.999464750289917, 'learning_rate': 2.7686297821748544e-05, 'epoch': 4.07}
 17%|█▋        | 13307/78504 [8:05:52<21:42:08,  1.20s/it] 17%|█▋        | 13308/78504 [8:05:53<20:14:39,  1.12s/it]                                                          {'loss': 0.2011, 'grad_norm': 1.4945695400238037, 'learning_rate': 2.7685873211328606e-05, 'epoch': 4.07}
 17%|█▋        | 13308/78504 [8:05:53<20:14:39,  1.12s/it] 17%|█▋        | 13309/78504 [8:05:54<18:22:30,  1.01s/it]                                                          {'loss': 0.2908, 'grad_norm': 1.060049057006836, 'learning_rate': 2.7685448600908665e-05, 'epoch': 4.07}
 17%|█▋        | 13309/78504 [8:05:54<18:22:30,  1.01s/it] 17%|█▋        | 13310/78504 [8:06:02<58:42:05,  3.24s/it]                                                          {'loss': 0.139, 'grad_norm': 0.39099863171577454, 'learning_rate': 2.7685023990488727e-05, 'epoch': 4.07}
 17%|█▋        | 13310/78504 [8:06:02<58:42:05,  3.24s/it] 17%|█▋        | 13311/78504 [8:06:06<58:47:34,  3.25s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.3086581230163574, 'learning_rate': 2.7684599380068786e-05, 'epoch': 4.07}
 17%|█▋        | 13311/78504 [8:06:06<58:47:34,  3.25s/it] 17%|█▋        | 13312/78504 [8:06:09<57:19:50,  3.17s/it]                                                          {'loss': 0.0855, 'grad_norm': 1.0196938514709473, 'learning_rate': 2.7684174769648848e-05, 'epoch': 4.07}
 17%|█▋        | 13312/78504 [8:06:09<57:19:50,  3.17s/it] 17%|█▋        | 13313/78504 [8:06:11<54:10:36,  2.99s/it]                                                          {'loss': 0.05, 'grad_norm': 0.49017825722694397, 'learning_rate': 2.7683750159228907e-05, 'epoch': 4.07}
 17%|█▋        | 13313/78504 [8:06:11<54:10:36,  2.99s/it] 17%|█▋        | 13314/78504 [8:06:14<50:44:37,  2.80s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.21760299801826477, 'learning_rate': 2.768332554880897e-05, 'epoch': 4.07}
 17%|█▋        | 13314/78504 [8:06:14<50:44:37,  2.80s/it] 17%|█▋        | 13315/78504 [8:06:16<48:17:37,  2.67s/it]                                                          {'loss': 0.0441, 'grad_norm': 0.49326661229133606, 'learning_rate': 2.7682900938389027e-05, 'epoch': 4.07}
 17%|█▋        | 13315/78504 [8:06:16<48:17:37,  2.67s/it] 17%|█▋        | 13316/78504 [8:06:18<46:29:02,  2.57s/it]                                                          {'loss': 0.0412, 'grad_norm': 0.17504246532917023, 'learning_rate': 2.768247632796909e-05, 'epoch': 4.07}
 17%|█▋        | 13316/78504 [8:06:18<46:29:02,  2.57s/it] 17%|█▋        | 13317/78504 [8:06:20<43:53:47,  2.42s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.22925521433353424, 'learning_rate': 2.7682051717549148e-05, 'epoch': 4.07}
 17%|█▋        | 13317/78504 [8:06:20<43:53:47,  2.42s/it] 17%|█▋        | 13318/78504 [8:06:22<41:41:41,  2.30s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.22204285860061646, 'learning_rate': 2.7681627107129207e-05, 'epoch': 4.07}
 17%|█▋        | 13318/78504 [8:06:22<41:41:41,  2.30s/it] 17%|█▋        | 13319/78504 [8:06:24<40:46:49,  2.25s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.2704968750476837, 'learning_rate': 2.768120249670927e-05, 'epoch': 4.07}
 17%|█▋        | 13319/78504 [8:06:24<40:46:49,  2.25s/it] 17%|█▋        | 13320/78504 [8:06:26<39:20:33,  2.17s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.436727374792099, 'learning_rate': 2.7680777886289328e-05, 'epoch': 4.07}
 17%|█▋        | 13320/78504 [8:06:26<39:20:33,  2.17s/it] 17%|█▋        | 13321/78504 [8:06:28<37:56:45,  2.10s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.3756893575191498, 'learning_rate': 2.768035327586939e-05, 'epoch': 4.07}
 17%|█▋        | 13321/78504 [8:06:28<37:56:45,  2.10s/it] 17%|█▋        | 13322/78504 [8:06:30<36:43:09,  2.03s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.4183407127857208, 'learning_rate': 2.767992866544945e-05, 'epoch': 4.07}
 17%|█▋        | 13322/78504 [8:06:30<36:43:09,  2.03s/it] 17%|█▋        | 13323/78504 [8:06:32<35:39:50,  1.97s/it]                                                          {'loss': 0.117, 'grad_norm': 1.3328133821487427, 'learning_rate': 2.767950405502951e-05, 'epoch': 4.07}
 17%|█▋        | 13323/78504 [8:06:32<35:39:50,  1.97s/it] 17%|█▋        | 13324/78504 [8:06:34<34:34:25,  1.91s/it]                                                          {'loss': 0.1046, 'grad_norm': 0.38207876682281494, 'learning_rate': 2.767907944460957e-05, 'epoch': 4.07}
 17%|█▋        | 13324/78504 [8:06:34<34:34:25,  1.91s/it] 17%|█▋        | 13325/78504 [8:06:35<33:09:37,  1.83s/it]                                                          {'loss': 0.1885, 'grad_norm': 1.5391815900802612, 'learning_rate': 2.767865483418963e-05, 'epoch': 4.07}
 17%|█▋        | 13325/78504 [8:06:35<33:09:37,  1.83s/it] 17%|█▋        | 13326/78504 [8:06:37<31:34:57,  1.74s/it]                                                          {'loss': 0.1599, 'grad_norm': 0.794202983379364, 'learning_rate': 2.767823022376969e-05, 'epoch': 4.07}
 17%|█▋        | 13326/78504 [8:06:37<31:34:57,  1.74s/it] 17%|█▋        | 13327/78504 [8:06:38<30:03:31,  1.66s/it]                                                          {'loss': 0.1762, 'grad_norm': 0.5156667828559875, 'learning_rate': 2.7677805613349752e-05, 'epoch': 4.07}
 17%|█▋        | 13327/78504 [8:06:38<30:03:31,  1.66s/it] 17%|█▋        | 13328/78504 [8:06:40<28:39:28,  1.58s/it]                                                          {'loss': 0.2216, 'grad_norm': 0.8615328073501587, 'learning_rate': 2.767738100292981e-05, 'epoch': 4.07}
 17%|█▋        | 13328/78504 [8:06:40<28:39:28,  1.58s/it] 17%|█▋        | 13329/78504 [8:06:41<27:02:00,  1.49s/it]                                                          {'loss': 0.2202, 'grad_norm': 1.3398884534835815, 'learning_rate': 2.7676956392509873e-05, 'epoch': 4.07}
 17%|█▋        | 13329/78504 [8:06:41<27:02:00,  1.49s/it] 17%|█▋        | 13330/78504 [8:06:42<25:10:41,  1.39s/it]                                                          {'loss': 0.1925, 'grad_norm': 0.7466917634010315, 'learning_rate': 2.7676531782089935e-05, 'epoch': 4.08}
 17%|█▋        | 13330/78504 [8:06:42<25:10:41,  1.39s/it] 17%|█▋        | 13331/78504 [8:06:43<23:38:31,  1.31s/it]                                                          {'loss': 0.2022, 'grad_norm': 0.873742401599884, 'learning_rate': 2.7676107171669994e-05, 'epoch': 4.08}
 17%|█▋        | 13331/78504 [8:06:43<23:38:31,  1.31s/it] 17%|█▋        | 13332/78504 [8:06:44<21:56:41,  1.21s/it]                                                          {'loss': 0.2016, 'grad_norm': 0.6713085174560547, 'learning_rate': 2.7675682561250056e-05, 'epoch': 4.08}
 17%|█▋        | 13332/78504 [8:06:44<21:56:41,  1.21s/it] 17%|█▋        | 13333/78504 [8:06:45<20:24:36,  1.13s/it]                                                          {'loss': 0.2121, 'grad_norm': 5.718562602996826, 'learning_rate': 2.7675257950830114e-05, 'epoch': 4.08}
 17%|█▋        | 13333/78504 [8:06:45<20:24:36,  1.13s/it] 17%|█▋        | 13334/78504 [8:06:46<18:32:38,  1.02s/it]                                                          {'loss': 0.2718, 'grad_norm': 1.6939358711242676, 'learning_rate': 2.7674833340410177e-05, 'epoch': 4.08}
 17%|█▋        | 13334/78504 [8:06:46<18:32:38,  1.02s/it] 17%|█▋        | 13335/78504 [8:06:55<59:52:11,  3.31s/it]                                                          {'loss': 0.1511, 'grad_norm': 0.37923428416252136, 'learning_rate': 2.7674408729990235e-05, 'epoch': 4.08}
 17%|█▋        | 13335/78504 [8:06:55<59:52:11,  3.31s/it] 17%|█▋        | 13336/78504 [8:06:58<59:49:27,  3.30s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.29890885949134827, 'learning_rate': 2.7673984119570297e-05, 'epoch': 4.08}
 17%|█▋        | 13336/78504 [8:06:58<59:49:27,  3.30s/it] 17%|█▋        | 13337/78504 [8:07:01<58:02:33,  3.21s/it]                                                          {'loss': 0.094, 'grad_norm': 0.5412906408309937, 'learning_rate': 2.7673559509150356e-05, 'epoch': 4.08}
 17%|█▋        | 13337/78504 [8:07:01<58:02:33,  3.21s/it] 17%|█▋        | 13338/78504 [8:07:04<54:42:40,  3.02s/it]                                                          {'loss': 0.0471, 'grad_norm': 0.27878448367118835, 'learning_rate': 2.7673134898730418e-05, 'epoch': 4.08}
 17%|█▋        | 13338/78504 [8:07:04<54:42:40,  3.02s/it] 17%|█▋        | 13339/78504 [8:07:06<51:05:21,  2.82s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.7297509908676147, 'learning_rate': 2.7672710288310477e-05, 'epoch': 4.08}
 17%|█▋        | 13339/78504 [8:07:06<51:05:21,  2.82s/it] 17%|█▋        | 13340/78504 [8:07:08<48:04:14,  2.66s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.284709095954895, 'learning_rate': 2.767228567789054e-05, 'epoch': 4.08}
 17%|█▋        | 13340/78504 [8:07:08<48:04:14,  2.66s/it] 17%|█▋        | 13341/78504 [8:07:11<46:13:21,  2.55s/it]                                                          {'loss': 0.0773, 'grad_norm': 0.42724883556365967, 'learning_rate': 2.7671861067470598e-05, 'epoch': 4.08}
 17%|█▋        | 13341/78504 [8:07:11<46:13:21,  2.55s/it] 17%|█▋        | 13342/78504 [8:07:13<43:42:24,  2.41s/it]                                                          {'loss': 0.0468, 'grad_norm': 0.2504649758338928, 'learning_rate': 2.767143645705066e-05, 'epoch': 4.08}
 17%|█▋        | 13342/78504 [8:07:13<43:42:24,  2.41s/it] 17%|█▋        | 13343/78504 [8:07:15<42:28:10,  2.35s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.6507853269577026, 'learning_rate': 2.767101184663072e-05, 'epoch': 4.08}
 17%|█▋        | 13343/78504 [8:07:15<42:28:10,  2.35s/it] 17%|█▋        | 13344/78504 [8:07:17<41:20:29,  2.28s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.22269797325134277, 'learning_rate': 2.7670587236210777e-05, 'epoch': 4.08}
 17%|█▋        | 13344/78504 [8:07:17<41:20:29,  2.28s/it] 17%|█▋        | 13345/78504 [8:07:19<39:44:31,  2.20s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.4406808018684387, 'learning_rate': 2.767016262579084e-05, 'epoch': 4.08}
 17%|█▋        | 13345/78504 [8:07:19<39:44:31,  2.20s/it] 17%|█▋        | 13346/78504 [8:07:21<38:17:10,  2.12s/it]                                                          {'loss': 0.074, 'grad_norm': 0.3152027130126953, 'learning_rate': 2.7669738015370898e-05, 'epoch': 4.08}
 17%|█▋        | 13346/78504 [8:07:21<38:17:10,  2.12s/it] 17%|█▋        | 13347/78504 [8:07:23<36:57:59,  2.04s/it]                                                          {'loss': 0.134, 'grad_norm': 0.7587950825691223, 'learning_rate': 2.766931340495096e-05, 'epoch': 4.08}
 17%|█▋        | 13347/78504 [8:07:23<36:57:59,  2.04s/it] 17%|█▋        | 13348/78504 [8:07:24<35:14:05,  1.95s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.6022463440895081, 'learning_rate': 2.766888879453102e-05, 'epoch': 4.08}
 17%|█▋        | 13348/78504 [8:07:25<35:14:05,  1.95s/it] 17%|█▋        | 13349/78504 [8:07:26<34:17:48,  1.89s/it]                                                          {'loss': 0.1405, 'grad_norm': 0.5934556722640991, 'learning_rate': 2.766846418411108e-05, 'epoch': 4.08}
 17%|█▋        | 13349/78504 [8:07:26<34:17:48,  1.89s/it] 17%|█▋        | 13350/78504 [8:07:28<32:55:31,  1.82s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5627138018608093, 'learning_rate': 2.766803957369114e-05, 'epoch': 4.08}
 17%|█▋        | 13350/78504 [8:07:28<32:55:31,  1.82s/it] 17%|█▋        | 13351/78504 [8:07:29<31:17:40,  1.73s/it]                                                          {'loss': 0.1618, 'grad_norm': 0.42455270886421204, 'learning_rate': 2.76676149632712e-05, 'epoch': 4.08}
 17%|█▋        | 13351/78504 [8:07:29<31:17:40,  1.73s/it] 17%|█▋        | 13352/78504 [8:07:31<29:41:08,  1.64s/it]                                                          {'loss': 0.1812, 'grad_norm': 0.8116849064826965, 'learning_rate': 2.766719035285126e-05, 'epoch': 4.08}
 17%|█▋        | 13352/78504 [8:07:31<29:41:08,  1.64s/it] 17%|█▋        | 13353/78504 [8:07:32<28:25:20,  1.57s/it]                                                          {'loss': 0.1463, 'grad_norm': 0.8662304878234863, 'learning_rate': 2.7666765742431322e-05, 'epoch': 4.08}
 17%|█▋        | 13353/78504 [8:07:32<28:25:20,  1.57s/it] 17%|█▋        | 13354/78504 [8:07:33<26:30:24,  1.46s/it]                                                          {'loss': 0.191, 'grad_norm': 0.7022531032562256, 'learning_rate': 2.766634113201138e-05, 'epoch': 4.08}
 17%|█▋        | 13354/78504 [8:07:34<26:30:24,  1.46s/it] 17%|█▋        | 13355/78504 [8:07:35<24:47:37,  1.37s/it]                                                          {'loss': 0.1984, 'grad_norm': 3.0124266147613525, 'learning_rate': 2.766591652159144e-05, 'epoch': 4.08}
 17%|█▋        | 13355/78504 [8:07:35<24:47:37,  1.37s/it] 17%|█▋        | 13356/78504 [8:07:36<23:20:58,  1.29s/it]                                                          {'loss': 0.222, 'grad_norm': 0.7757308483123779, 'learning_rate': 2.7665491911171502e-05, 'epoch': 4.08}
 17%|█▋        | 13356/78504 [8:07:36<23:20:58,  1.29s/it] 17%|█▋        | 13357/78504 [8:07:37<21:45:12,  1.20s/it]                                                          {'loss': 0.2153, 'grad_norm': 0.7451691627502441, 'learning_rate': 2.766506730075156e-05, 'epoch': 4.08}
 17%|█▋        | 13357/78504 [8:07:37<21:45:12,  1.20s/it] 17%|█▋        | 13358/78504 [8:07:38<20:17:01,  1.12s/it]                                                          {'loss': 0.1957, 'grad_norm': 1.5831578969955444, 'learning_rate': 2.7664642690331623e-05, 'epoch': 4.08}
 17%|█▋        | 13358/78504 [8:07:38<20:17:01,  1.12s/it] 17%|█▋        | 13359/78504 [8:07:38<18:25:43,  1.02s/it]                                                          {'loss': 0.276, 'grad_norm': 2.6776318550109863, 'learning_rate': 2.766421807991168e-05, 'epoch': 4.08}
 17%|█▋        | 13359/78504 [8:07:38<18:25:43,  1.02s/it] 17%|█▋        | 13360/78504 [8:07:46<55:08:05,  3.05s/it]                                                          {'loss': 0.1787, 'grad_norm': 0.36884912848472595, 'learning_rate': 2.7663793469491743e-05, 'epoch': 4.08}
 17%|█▋        | 13360/78504 [8:07:46<55:08:05,  3.05s/it] 17%|█▋        | 13361/78504 [8:07:49<55:30:25,  3.07s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.36766737699508667, 'learning_rate': 2.7663368859071802e-05, 'epoch': 4.08}
 17%|█▋        | 13361/78504 [8:07:49<55:30:25,  3.07s/it] 17%|█▋        | 13362/78504 [8:07:52<55:02:28,  3.04s/it]                                                          {'loss': 0.062, 'grad_norm': 0.3524606227874756, 'learning_rate': 2.7662944248651864e-05, 'epoch': 4.08}
 17%|█▋        | 13362/78504 [8:07:52<55:02:28,  3.04s/it] 17%|█▋        | 13363/78504 [8:07:55<52:42:58,  2.91s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.39536333084106445, 'learning_rate': 2.7662519638231923e-05, 'epoch': 4.09}
 17%|█▋        | 13363/78504 [8:07:55<52:42:58,  2.91s/it] 17%|█▋        | 13364/78504 [8:07:57<49:41:29,  2.75s/it]                                                          {'loss': 0.0927, 'grad_norm': 0.44432905316352844, 'learning_rate': 2.7662095027811985e-05, 'epoch': 4.09}
 17%|█▋        | 13364/78504 [8:07:57<49:41:29,  2.75s/it] 17%|█▋        | 13365/78504 [8:08:00<47:03:27,  2.60s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.2595023810863495, 'learning_rate': 2.7661670417392044e-05, 'epoch': 4.09}
 17%|█▋        | 13365/78504 [8:08:00<47:03:27,  2.60s/it] 17%|█▋        | 13366/78504 [8:08:02<45:29:09,  2.51s/it]                                                          {'loss': 0.0683, 'grad_norm': 0.6353480815887451, 'learning_rate': 2.7661245806972106e-05, 'epoch': 4.09}
 17%|█▋        | 13366/78504 [8:08:02<45:29:09,  2.51s/it] 17%|█▋        | 13367/78504 [8:08:04<43:13:57,  2.39s/it]                                                          {'loss': 0.0373, 'grad_norm': 0.499379426240921, 'learning_rate': 2.7660821196552164e-05, 'epoch': 4.09}
 17%|█▋        | 13367/78504 [8:08:04<43:13:57,  2.39s/it] 17%|█▋        | 13368/78504 [8:08:06<41:16:21,  2.28s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.31915393471717834, 'learning_rate': 2.7660396586132223e-05, 'epoch': 4.09}
 17%|█▋        | 13368/78504 [8:08:06<41:16:21,  2.28s/it] 17%|█▋        | 13369/78504 [8:08:08<40:27:55,  2.24s/it]                                                          {'loss': 0.0722, 'grad_norm': 1.034541130065918, 'learning_rate': 2.7659971975712285e-05, 'epoch': 4.09}
 17%|█▋        | 13369/78504 [8:08:08<40:27:55,  2.24s/it] 17%|█▋        | 13370/78504 [8:08:10<39:08:46,  2.16s/it]                                                          {'loss': 0.077, 'grad_norm': 0.5514142513275146, 'learning_rate': 2.7659547365292344e-05, 'epoch': 4.09}
 17%|█▋        | 13370/78504 [8:08:10<39:08:46,  2.16s/it] 17%|█▋        | 13371/78504 [8:08:12<38:09:52,  2.11s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.5231286883354187, 'learning_rate': 2.7659122754872406e-05, 'epoch': 4.09}
 17%|█▋        | 13371/78504 [8:08:12<38:09:52,  2.11s/it] 17%|█▋        | 13372/78504 [8:08:14<36:51:15,  2.04s/it]                                                          {'loss': 0.1174, 'grad_norm': 0.4818457365036011, 'learning_rate': 2.7658698144452465e-05, 'epoch': 4.09}
 17%|█▋        | 13372/78504 [8:08:14<36:51:15,  2.04s/it] 17%|█▋        | 13373/78504 [8:08:16<35:56:46,  1.99s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.45574235916137695, 'learning_rate': 2.7658273534032527e-05, 'epoch': 4.09}
 17%|█▋        | 13373/78504 [8:08:16<35:56:46,  1.99s/it] 17%|█▋        | 13374/78504 [8:08:18<34:42:53,  1.92s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.3599547743797302, 'learning_rate': 2.7657848923612585e-05, 'epoch': 4.09}
 17%|█▋        | 13374/78504 [8:08:18<34:42:53,  1.92s/it] 17%|█▋        | 13375/78504 [8:08:19<33:15:29,  1.84s/it]                                                          {'loss': 0.146, 'grad_norm': 0.5157399773597717, 'learning_rate': 2.7657424313192648e-05, 'epoch': 4.09}
 17%|█▋        | 13375/78504 [8:08:19<33:15:29,  1.84s/it] 17%|█▋        | 13376/78504 [8:08:21<31:39:28,  1.75s/it]                                                          {'loss': 0.1505, 'grad_norm': 0.6005337238311768, 'learning_rate': 2.7656999702772706e-05, 'epoch': 4.09}
 17%|█▋        | 13376/78504 [8:08:21<31:39:28,  1.75s/it] 17%|█▋        | 13377/78504 [8:08:22<30:06:36,  1.66s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.6334528923034668, 'learning_rate': 2.765657509235277e-05, 'epoch': 4.09}
 17%|█▋        | 13377/78504 [8:08:22<30:06:36,  1.66s/it] 17%|█▋        | 13378/78504 [8:08:24<28:44:04,  1.59s/it]                                                          {'loss': 0.1576, 'grad_norm': 0.8277460336685181, 'learning_rate': 2.7656150481932827e-05, 'epoch': 4.09}
 17%|█▋        | 13378/78504 [8:08:24<28:44:04,  1.59s/it] 17%|█▋        | 13379/78504 [8:08:25<27:05:57,  1.50s/it]                                                          {'loss': 0.1557, 'grad_norm': 0.6884830594062805, 'learning_rate': 2.765572587151289e-05, 'epoch': 4.09}
 17%|█▋        | 13379/78504 [8:08:25<27:05:57,  1.50s/it] 17%|█▋        | 13380/78504 [8:08:26<25:13:21,  1.39s/it]                                                          {'loss': 0.165, 'grad_norm': 0.6673216223716736, 'learning_rate': 2.7655301261092948e-05, 'epoch': 4.09}
 17%|█▋        | 13380/78504 [8:08:26<25:13:21,  1.39s/it] 17%|█▋        | 13381/78504 [8:08:27<23:38:33,  1.31s/it]                                                          {'loss': 0.1954, 'grad_norm': 0.6315158009529114, 'learning_rate': 2.7654876650673007e-05, 'epoch': 4.09}
 17%|█▋        | 13381/78504 [8:08:27<23:38:33,  1.31s/it] 17%|█▋        | 13382/78504 [8:08:28<21:57:52,  1.21s/it]                                                          {'loss': 0.192, 'grad_norm': 0.8984721899032593, 'learning_rate': 2.765445204025307e-05, 'epoch': 4.09}
 17%|█▋        | 13382/78504 [8:08:28<21:57:52,  1.21s/it] 17%|█▋        | 13383/78504 [8:08:29<20:28:06,  1.13s/it]                                                          {'loss': 0.2543, 'grad_norm': 1.377252459526062, 'learning_rate': 2.7654027429833127e-05, 'epoch': 4.09}
 17%|█▋        | 13383/78504 [8:08:29<20:28:06,  1.13s/it] 17%|█▋        | 13384/78504 [8:08:30<18:38:28,  1.03s/it]                                                          {'loss': 0.2307, 'grad_norm': 1.710036039352417, 'learning_rate': 2.765360281941319e-05, 'epoch': 4.09}
 17%|█▋        | 13384/78504 [8:08:30<18:38:28,  1.03s/it] 17%|█▋        | 13385/78504 [8:08:38<56:53:53,  3.15s/it]                                                          {'loss': 0.1336, 'grad_norm': 0.3617965877056122, 'learning_rate': 2.7653178208993248e-05, 'epoch': 4.09}
 17%|█▋        | 13385/78504 [8:08:38<56:53:53,  3.15s/it] 17%|█▋        | 13386/78504 [8:08:41<55:33:04,  3.07s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.2534744441509247, 'learning_rate': 2.765275359857331e-05, 'epoch': 4.09}
 17%|█▋        | 13386/78504 [8:08:41<55:33:04,  3.07s/it] 17%|█▋        | 13387/78504 [8:08:43<52:48:23,  2.92s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.2625056803226471, 'learning_rate': 2.765232898815337e-05, 'epoch': 4.09}
 17%|█▋        | 13387/78504 [8:08:44<52:48:23,  2.92s/it] 17%|█▋        | 13388/78504 [8:08:46<50:53:19,  2.81s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.27595090866088867, 'learning_rate': 2.765190437773343e-05, 'epoch': 4.09}
 17%|█▋        | 13388/78504 [8:08:46<50:53:19,  2.81s/it] 17%|█▋        | 13389/78504 [8:08:49<49:02:13,  2.71s/it]                                                          {'loss': 0.069, 'grad_norm': 0.26508739590644836, 'learning_rate': 2.765147976731349e-05, 'epoch': 4.09}
 17%|█▋        | 13389/78504 [8:08:49<49:02:13,  2.71s/it] 17%|█▋        | 13390/78504 [8:08:51<47:28:53,  2.63s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.7136226892471313, 'learning_rate': 2.7651055156893552e-05, 'epoch': 4.09}
 17%|█▋        | 13390/78504 [8:08:51<47:28:53,  2.63s/it] 17%|█▋        | 13391/78504 [8:08:53<45:48:27,  2.53s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.2371574193239212, 'learning_rate': 2.765063054647361e-05, 'epoch': 4.09}
 17%|█▋        | 13391/78504 [8:08:53<45:48:27,  2.53s/it] 17%|█▋        | 13392/78504 [8:08:56<44:34:16,  2.46s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.37909889221191406, 'learning_rate': 2.7650205936053673e-05, 'epoch': 4.09}
 17%|█▋        | 13392/78504 [8:08:56<44:34:16,  2.46s/it] 17%|█▋        | 13393/78504 [8:08:58<43:02:17,  2.38s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.3401952087879181, 'learning_rate': 2.764978132563373e-05, 'epoch': 4.09}
 17%|█▋        | 13393/78504 [8:08:58<43:02:17,  2.38s/it] 17%|█▋        | 13394/78504 [8:09:00<41:46:16,  2.31s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.31582143902778625, 'learning_rate': 2.764935671521379e-05, 'epoch': 4.09}
 17%|█▋        | 13394/78504 [8:09:00<41:46:16,  2.31s/it] 17%|█▋        | 13395/78504 [8:09:02<40:13:20,  2.22s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.44678089022636414, 'learning_rate': 2.7648932104793852e-05, 'epoch': 4.1}
 17%|█▋        | 13395/78504 [8:09:02<40:13:20,  2.22s/it] 17%|█▋        | 13396/78504 [8:09:04<38:54:06,  2.15s/it]                                                          {'loss': 0.0775, 'grad_norm': 1.1464321613311768, 'learning_rate': 2.764850749437391e-05, 'epoch': 4.1}
 17%|█▋        | 13396/78504 [8:09:04<38:54:06,  2.15s/it] 17%|█▋        | 13397/78504 [8:09:06<37:41:16,  2.08s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.4697396457195282, 'learning_rate': 2.7648082883953973e-05, 'epoch': 4.1}
 17%|█▋        | 13397/78504 [8:09:06<37:41:16,  2.08s/it] 17%|█▋        | 13398/78504 [8:09:08<36:31:26,  2.02s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.8363460898399353, 'learning_rate': 2.764765827353403e-05, 'epoch': 4.1}
 17%|█▋        | 13398/78504 [8:09:08<36:31:26,  2.02s/it] 17%|█▋        | 13399/78504 [8:09:09<35:10:41,  1.95s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.4350399971008301, 'learning_rate': 2.7647233663114094e-05, 'epoch': 4.1}
 17%|█▋        | 13399/78504 [8:09:09<35:10:41,  1.95s/it] 17%|█▋        | 13400/78504 [8:09:11<33:11:03,  1.83s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.5419108867645264, 'learning_rate': 2.7646809052694152e-05, 'epoch': 4.1}
 17%|█▋        | 13400/78504 [8:09:11<33:11:03,  1.83s/it] 17%|█▋        | 13401/78504 [8:09:13<31:34:58,  1.75s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.927909791469574, 'learning_rate': 2.7646384442274214e-05, 'epoch': 4.1}
 17%|█▋        | 13401/78504 [8:09:13<31:34:58,  1.75s/it] 17%|█▋        | 13402/78504 [8:09:14<30:17:20,  1.67s/it]                                                          {'loss': 0.1708, 'grad_norm': 0.6581662893295288, 'learning_rate': 2.7645959831854273e-05, 'epoch': 4.1}
 17%|█▋        | 13402/78504 [8:09:14<30:17:20,  1.67s/it] 17%|█▋        | 13403/78504 [8:09:15<28:47:55,  1.59s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.6185435652732849, 'learning_rate': 2.7645535221434335e-05, 'epoch': 4.1}
 17%|█▋        | 13403/78504 [8:09:16<28:47:55,  1.59s/it] 17%|█▋        | 13404/78504 [8:09:17<27:11:33,  1.50s/it]                                                          {'loss': 0.1683, 'grad_norm': 0.9988043904304504, 'learning_rate': 2.7645110611014394e-05, 'epoch': 4.1}
 17%|█▋        | 13404/78504 [8:09:17<27:11:33,  1.50s/it] 17%|█▋        | 13405/78504 [8:09:18<25:35:04,  1.41s/it]                                                          {'loss': 0.2023, 'grad_norm': 2.774578332901001, 'learning_rate': 2.7644686000594456e-05, 'epoch': 4.1}
 17%|█▋        | 13405/78504 [8:09:18<25:35:04,  1.41s/it] 17%|█▋        | 13406/78504 [8:09:19<23:48:29,  1.32s/it]                                                          {'loss': 0.1967, 'grad_norm': 0.9952835440635681, 'learning_rate': 2.7644261390174515e-05, 'epoch': 4.1}
 17%|█▋        | 13406/78504 [8:09:19<23:48:29,  1.32s/it] 17%|█▋        | 13407/78504 [8:09:20<22:23:00,  1.24s/it]                                                          {'loss': 0.1823, 'grad_norm': 1.3824448585510254, 'learning_rate': 2.7643836779754573e-05, 'epoch': 4.1}
 17%|█▋        | 13407/78504 [8:09:20<22:23:00,  1.24s/it] 17%|█▋        | 13408/78504 [8:09:21<20:44:07,  1.15s/it]                                                          {'loss': 0.2247, 'grad_norm': 1.7185909748077393, 'learning_rate': 2.7643412169334635e-05, 'epoch': 4.1}
 17%|█▋        | 13408/78504 [8:09:21<20:44:07,  1.15s/it] 17%|█▋        | 13409/78504 [8:09:22<18:46:17,  1.04s/it]                                                          {'loss': 0.1903, 'grad_norm': 2.781747341156006, 'learning_rate': 2.7642987558914694e-05, 'epoch': 4.1}
 17%|█▋        | 13409/78504 [8:09:22<18:46:17,  1.04s/it] 17%|█▋        | 13410/78504 [8:09:30<57:50:15,  3.20s/it]                                                          {'loss': 0.1356, 'grad_norm': 0.4145406186580658, 'learning_rate': 2.7642562948494756e-05, 'epoch': 4.1}
 17%|█▋        | 13410/78504 [8:09:30<57:50:15,  3.20s/it] 17%|█▋        | 13411/78504 [8:09:33<57:17:22,  3.17s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.23560862243175507, 'learning_rate': 2.7642138338074815e-05, 'epoch': 4.1}
 17%|█▋        | 13411/78504 [8:09:33<57:17:22,  3.17s/it] 17%|█▋        | 13412/78504 [8:09:36<55:56:15,  3.09s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.33029523491859436, 'learning_rate': 2.7641713727654877e-05, 'epoch': 4.1}
 17%|█▋        | 13412/78504 [8:09:36<55:56:15,  3.09s/it] 17%|█▋        | 13413/78504 [8:09:39<53:07:12,  2.94s/it]                                                          {'loss': 0.0518, 'grad_norm': 0.20311781764030457, 'learning_rate': 2.7641289117234936e-05, 'epoch': 4.1}
 17%|█▋        | 13413/78504 [8:09:39<53:07:12,  2.94s/it] 17%|█▋        | 13414/78504 [8:09:41<50:41:00,  2.80s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.3655914068222046, 'learning_rate': 2.7640864506814998e-05, 'epoch': 4.1}
 17%|█▋        | 13414/78504 [8:09:41<50:41:00,  2.80s/it] 17%|█▋        | 13415/78504 [8:09:44<48:41:05,  2.69s/it]                                                          {'loss': 0.0686, 'grad_norm': 0.44152769446372986, 'learning_rate': 2.7640439896395057e-05, 'epoch': 4.1}
 17%|█▋        | 13415/78504 [8:09:44<48:41:05,  2.69s/it] 17%|█▋        | 13416/78504 [8:09:46<46:35:39,  2.58s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.2820490896701813, 'learning_rate': 2.764001528597512e-05, 'epoch': 4.1}
 17%|█▋        | 13416/78504 [8:09:46<46:35:39,  2.58s/it] 17%|█▋        | 13417/78504 [8:09:48<44:06:54,  2.44s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.18942564725875854, 'learning_rate': 2.7639590675555177e-05, 'epoch': 4.1}
 17%|█▋        | 13417/78504 [8:09:48<44:06:54,  2.44s/it] 17%|█▋        | 13418/78504 [8:09:50<42:43:09,  2.36s/it]                                                          {'loss': 0.0952, 'grad_norm': 0.41294124722480774, 'learning_rate': 2.763916606513524e-05, 'epoch': 4.1}
 17%|█▋        | 13418/78504 [8:09:50<42:43:09,  2.36s/it] 17%|█▋        | 13419/78504 [8:09:52<41:30:18,  2.30s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.7048726081848145, 'learning_rate': 2.7638741454715298e-05, 'epoch': 4.1}
 17%|█▋        | 13419/78504 [8:09:52<41:30:18,  2.30s/it] 17%|█▋        | 13420/78504 [8:09:54<40:03:17,  2.22s/it]                                                          {'loss': 0.1303, 'grad_norm': 0.9609678387641907, 'learning_rate': 2.7638316844295357e-05, 'epoch': 4.1}
 17%|█▋        | 13420/78504 [8:09:54<40:03:17,  2.22s/it] 17%|█▋        | 13421/78504 [8:09:56<37:49:01,  2.09s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.4411744773387909, 'learning_rate': 2.763789223387542e-05, 'epoch': 4.1}
 17%|█▋        | 13421/78504 [8:09:56<37:49:01,  2.09s/it] 17%|█▋        | 13422/78504 [8:09:58<36:33:00,  2.02s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.3789236545562744, 'learning_rate': 2.7637467623455478e-05, 'epoch': 4.1}
 17%|█▋        | 13422/78504 [8:09:58<36:33:00,  2.02s/it] 17%|█▋        | 13423/78504 [8:10:00<35:32:11,  1.97s/it]                                                          {'loss': 0.1286, 'grad_norm': 0.4466986656188965, 'learning_rate': 2.763704301303554e-05, 'epoch': 4.1}
 17%|█▋        | 13423/78504 [8:10:00<35:32:11,  1.97s/it] 17%|█▋        | 13424/78504 [8:10:02<34:28:13,  1.91s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.5159034132957458, 'learning_rate': 2.76366184026156e-05, 'epoch': 4.1}
 17%|█▋        | 13424/78504 [8:10:02<34:28:13,  1.91s/it] 17%|█▋        | 13425/78504 [8:10:03<33:06:24,  1.83s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.5575665831565857, 'learning_rate': 2.763619379219566e-05, 'epoch': 4.1}
 17%|█▋        | 13425/78504 [8:10:03<33:06:24,  1.83s/it] 17%|█▋        | 13426/78504 [8:10:05<31:33:12,  1.75s/it]                                                          {'loss': 0.142, 'grad_norm': 0.6690864562988281, 'learning_rate': 2.763576918177572e-05, 'epoch': 4.1}
 17%|█▋        | 13426/78504 [8:10:05<31:33:12,  1.75s/it] 17%|█▋        | 13427/78504 [8:10:06<30:17:45,  1.68s/it]                                                          {'loss': 0.1548, 'grad_norm': 0.6304564476013184, 'learning_rate': 2.763534457135578e-05, 'epoch': 4.1}
 17%|█▋        | 13427/78504 [8:10:06<30:17:45,  1.68s/it] 17%|█▋        | 13428/78504 [8:10:08<28:44:14,  1.59s/it]                                                          {'loss': 0.1813, 'grad_norm': 0.7957323789596558, 'learning_rate': 2.763491996093584e-05, 'epoch': 4.11}
 17%|█▋        | 13428/78504 [8:10:08<28:44:14,  1.59s/it] 17%|█▋        | 13429/78504 [8:10:09<27:02:40,  1.50s/it]                                                          {'loss': 0.1792, 'grad_norm': 0.6598344445228577, 'learning_rate': 2.7634495350515902e-05, 'epoch': 4.11}
 17%|█▋        | 13429/78504 [8:10:09<27:02:40,  1.50s/it] 17%|█▋        | 13430/78504 [8:10:10<25:30:39,  1.41s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.6299479007720947, 'learning_rate': 2.763407074009596e-05, 'epoch': 4.11}
 17%|█▋        | 13430/78504 [8:10:10<25:30:39,  1.41s/it] 17%|█▋        | 13431/78504 [8:10:11<23:45:00,  1.31s/it]                                                          {'loss': 0.1507, 'grad_norm': 1.0268802642822266, 'learning_rate': 2.7633646129676023e-05, 'epoch': 4.11}
 17%|█▋        | 13431/78504 [8:10:11<23:45:00,  1.31s/it] 17%|█▋        | 13432/78504 [8:10:12<22:18:03,  1.23s/it]                                                          {'loss': 0.2237, 'grad_norm': 1.2738488912582397, 'learning_rate': 2.7633221519256085e-05, 'epoch': 4.11}
 17%|█▋        | 13432/78504 [8:10:12<22:18:03,  1.23s/it] 17%|█▋        | 13433/78504 [8:10:13<20:35:28,  1.14s/it]                                                          {'loss': 0.2225, 'grad_norm': 1.1543468236923218, 'learning_rate': 2.7632796908836144e-05, 'epoch': 4.11}
 17%|█▋        | 13433/78504 [8:10:13<20:35:28,  1.14s/it] 17%|█▋        | 13434/78504 [8:10:14<18:44:27,  1.04s/it]                                                          {'loss': 0.3185, 'grad_norm': 1.523202896118164, 'learning_rate': 2.7632372298416206e-05, 'epoch': 4.11}
 17%|█▋        | 13434/78504 [8:10:14<18:44:27,  1.04s/it] 17%|█▋        | 13435/78504 [8:10:23<58:51:01,  3.26s/it]                                                          {'loss': 0.1727, 'grad_norm': 0.8906022906303406, 'learning_rate': 2.7631947687996264e-05, 'epoch': 4.11}
 17%|█▋        | 13435/78504 [8:10:23<58:51:01,  3.26s/it] 17%|█▋        | 13436/78504 [8:10:26<59:22:42,  3.29s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.2036709487438202, 'learning_rate': 2.7631523077576327e-05, 'epoch': 4.11}
 17%|█▋        | 13436/78504 [8:10:26<59:22:42,  3.29s/it] 17%|█▋        | 13437/78504 [8:10:29<57:23:22,  3.18s/it]                                                          {'loss': 0.0985, 'grad_norm': 0.46415209770202637, 'learning_rate': 2.7631098467156385e-05, 'epoch': 4.11}
 17%|█▋        | 13437/78504 [8:10:29<57:23:22,  3.18s/it] 17%|█▋        | 13438/78504 [8:10:31<53:19:42,  2.95s/it]                                                          {'loss': 0.089, 'grad_norm': 0.6526029109954834, 'learning_rate': 2.7630673856736447e-05, 'epoch': 4.11}
 17%|█▋        | 13438/78504 [8:10:31<53:19:42,  2.95s/it] 17%|█▋        | 13439/78504 [8:10:34<50:44:24,  2.81s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.2234593778848648, 'learning_rate': 2.7630249246316506e-05, 'epoch': 4.11}
 17%|█▋        | 13439/78504 [8:10:34<50:44:24,  2.81s/it] 17%|█▋        | 13440/78504 [8:10:36<47:47:09,  2.64s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.3694942593574524, 'learning_rate': 2.7629824635896568e-05, 'epoch': 4.11}
 17%|█▋        | 13440/78504 [8:10:36<47:47:09,  2.64s/it] 17%|█▋        | 13441/78504 [8:10:38<46:01:02,  2.55s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.7152299284934998, 'learning_rate': 2.7629400025476627e-05, 'epoch': 4.11}
 17%|█▋        | 13441/78504 [8:10:38<46:01:02,  2.55s/it] 17%|█▋        | 13442/78504 [8:10:40<43:33:16,  2.41s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.4256362318992615, 'learning_rate': 2.762897541505669e-05, 'epoch': 4.11}
 17%|█▋        | 13442/78504 [8:10:40<43:33:16,  2.41s/it] 17%|█▋        | 13443/78504 [8:10:43<42:19:06,  2.34s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.40510478615760803, 'learning_rate': 2.7628550804636748e-05, 'epoch': 4.11}
 17%|█▋        | 13443/78504 [8:10:43<42:19:06,  2.34s/it] 17%|█▋        | 13444/78504 [8:10:45<41:14:28,  2.28s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.7683449387550354, 'learning_rate': 2.762812619421681e-05, 'epoch': 4.11}
 17%|█▋        | 13444/78504 [8:10:45<41:14:28,  2.28s/it] 17%|█▋        | 13445/78504 [8:10:47<39:48:27,  2.20s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.5027934312820435, 'learning_rate': 2.762770158379687e-05, 'epoch': 4.11}
 17%|█▋        | 13445/78504 [8:10:47<39:48:27,  2.20s/it] 17%|█▋        | 13446/78504 [8:10:49<38:36:06,  2.14s/it]                                                          {'loss': 0.0933, 'grad_norm': 0.6219208836555481, 'learning_rate': 2.7627276973376927e-05, 'epoch': 4.11}
 17%|█▋        | 13446/78504 [8:10:49<38:36:06,  2.14s/it] 17%|█▋        | 13447/78504 [8:10:51<37:08:01,  2.05s/it]                                                          {'loss': 0.14, 'grad_norm': 0.48766809701919556, 'learning_rate': 2.762685236295699e-05, 'epoch': 4.11}
 17%|█▋        | 13447/78504 [8:10:51<37:08:01,  2.05s/it] 17%|█▋        | 13448/78504 [8:10:52<35:17:12,  1.95s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.37170127034187317, 'learning_rate': 2.7626427752537048e-05, 'epoch': 4.11}
 17%|█▋        | 13448/78504 [8:10:52<35:17:12,  1.95s/it] 17%|█▋        | 13449/78504 [8:10:54<34:17:16,  1.90s/it]                                                          {'loss': 0.1782, 'grad_norm': 1.0295515060424805, 'learning_rate': 2.762600314211711e-05, 'epoch': 4.11}
 17%|█▋        | 13449/78504 [8:10:54<34:17:16,  1.90s/it] 17%|█▋        | 13450/78504 [8:10:56<32:54:56,  1.82s/it]                                                          {'loss': 0.1778, 'grad_norm': 1.6675890684127808, 'learning_rate': 2.762557853169717e-05, 'epoch': 4.11}
 17%|█▋        | 13450/78504 [8:10:56<32:54:56,  1.82s/it] 17%|█▋        | 13451/78504 [8:10:57<31:13:54,  1.73s/it]                                                          {'loss': 0.1771, 'grad_norm': 0.6958795189857483, 'learning_rate': 2.762515392127723e-05, 'epoch': 4.11}
 17%|█▋        | 13451/78504 [8:10:57<31:13:54,  1.73s/it] 17%|█▋        | 13452/78504 [8:10:59<29:35:16,  1.64s/it]                                                          {'loss': 0.1939, 'grad_norm': 0.9432625770568848, 'learning_rate': 2.762472931085729e-05, 'epoch': 4.11}
 17%|█▋        | 13452/78504 [8:10:59<29:35:16,  1.64s/it] 17%|█▋        | 13453/78504 [8:11:00<28:22:23,  1.57s/it]                                                          {'loss': 0.2276, 'grad_norm': 0.6263432502746582, 'learning_rate': 2.762430470043735e-05, 'epoch': 4.11}
 17%|█▋        | 13453/78504 [8:11:00<28:22:23,  1.57s/it] 17%|█▋        | 13454/78504 [8:11:01<26:29:36,  1.47s/it]                                                          {'loss': 0.2023, 'grad_norm': 0.8888636231422424, 'learning_rate': 2.762388009001741e-05, 'epoch': 4.11}
 17%|█▋        | 13454/78504 [8:11:01<26:29:36,  1.47s/it] 17%|█▋        | 13455/78504 [8:11:02<24:48:09,  1.37s/it]                                                          {'loss': 0.2056, 'grad_norm': 1.1288386583328247, 'learning_rate': 2.7623455479597472e-05, 'epoch': 4.11}
 17%|█▋        | 13455/78504 [8:11:02<24:48:09,  1.37s/it] 17%|█▋        | 13456/78504 [8:11:04<23:17:06,  1.29s/it]                                                          {'loss': 0.1872, 'grad_norm': 1.3009971380233765, 'learning_rate': 2.762303086917753e-05, 'epoch': 4.11}
 17%|█▋        | 13456/78504 [8:11:04<23:17:06,  1.29s/it] 17%|█▋        | 13457/78504 [8:11:05<21:45:18,  1.20s/it]                                                          {'loss': 0.2023, 'grad_norm': 1.346588373184204, 'learning_rate': 2.7622606258757593e-05, 'epoch': 4.11}
 17%|█▋        | 13457/78504 [8:11:05<21:45:18,  1.20s/it] 17%|█▋        | 13458/78504 [8:11:05<20:20:05,  1.13s/it]                                                          {'loss': 0.2117, 'grad_norm': 1.5278897285461426, 'learning_rate': 2.7622181648337652e-05, 'epoch': 4.11}
 17%|█▋        | 13458/78504 [8:11:05<20:20:05,  1.13s/it] 17%|█▋        | 13459/78504 [8:11:06<18:29:17,  1.02s/it]                                                          {'loss': 0.2299, 'grad_norm': 1.724365234375, 'learning_rate': 2.762175703791771e-05, 'epoch': 4.11}
 17%|█▋        | 13459/78504 [8:11:06<18:29:17,  1.02s/it] 17%|█▋        | 13460/78504 [8:11:15<62:33:32,  3.46s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.4421626031398773, 'learning_rate': 2.7621332427497773e-05, 'epoch': 4.11}
 17%|█▋        | 13460/78504 [8:11:15<62:33:32,  3.46s/it] 17%|█▋        | 13461/78504 [8:11:19<60:45:05,  3.36s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.23736105859279633, 'learning_rate': 2.762090781707783e-05, 'epoch': 4.12}
 17%|█▋        | 13461/78504 [8:11:19<60:45:05,  3.36s/it] 17%|█▋        | 13462/78504 [8:11:22<58:51:31,  3.26s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.28268179297447205, 'learning_rate': 2.7620483206657893e-05, 'epoch': 4.12}
 17%|█▋        | 13462/78504 [8:11:22<58:51:31,  3.26s/it] 17%|█▋        | 13463/78504 [8:11:24<55:22:11,  3.06s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.19742044806480408, 'learning_rate': 2.7620058596237952e-05, 'epoch': 4.12}
 17%|█▋        | 13463/78504 [8:11:24<55:22:11,  3.06s/it] 17%|█▋        | 13464/78504 [8:11:27<52:07:04,  2.88s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.3517466187477112, 'learning_rate': 2.7619633985818014e-05, 'epoch': 4.12}
 17%|█▋        | 13464/78504 [8:11:27<52:07:04,  2.88s/it] 17%|█▋        | 13465/78504 [8:11:29<49:40:17,  2.75s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.22188733518123627, 'learning_rate': 2.7619209375398073e-05, 'epoch': 4.12}
 17%|█▋        | 13465/78504 [8:11:29<49:40:17,  2.75s/it] 17%|█▋        | 13466/78504 [8:11:31<47:17:04,  2.62s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.38915005326271057, 'learning_rate': 2.7618784764978135e-05, 'epoch': 4.12}
 17%|█▋        | 13466/78504 [8:11:31<47:17:04,  2.62s/it] 17%|█▋        | 13467/78504 [8:11:34<45:36:56,  2.52s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.3091684579849243, 'learning_rate': 2.7618360154558194e-05, 'epoch': 4.12}
 17%|█▋        | 13467/78504 [8:11:34<45:36:56,  2.52s/it] 17%|█▋        | 13468/78504 [8:11:36<43:44:19,  2.42s/it]                                                          {'loss': 0.081, 'grad_norm': 0.2889281213283539, 'learning_rate': 2.7617935544138256e-05, 'epoch': 4.12}
 17%|█▋        | 13468/78504 [8:11:36<43:44:19,  2.42s/it] 17%|█▋        | 13469/78504 [8:11:38<42:21:39,  2.34s/it]                                                          {'loss': 0.096, 'grad_norm': 0.249647855758667, 'learning_rate': 2.7617510933718314e-05, 'epoch': 4.12}
 17%|█▋        | 13469/78504 [8:11:38<42:21:39,  2.34s/it] 17%|█▋        | 13470/78504 [8:11:40<39:42:39,  2.20s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.2809579372406006, 'learning_rate': 2.7617086323298373e-05, 'epoch': 4.12}
 17%|█▋        | 13470/78504 [8:11:40<39:42:39,  2.20s/it] 17%|█▋        | 13471/78504 [8:11:42<38:33:06,  2.13s/it]                                                          {'loss': 0.066, 'grad_norm': 0.434131383895874, 'learning_rate': 2.7616661712878435e-05, 'epoch': 4.12}
 17%|█▋        | 13471/78504 [8:11:42<38:33:06,  2.13s/it] 17%|█▋        | 13472/78504 [8:11:44<37:07:09,  2.05s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.433318167924881, 'learning_rate': 2.7616237102458494e-05, 'epoch': 4.12}
 17%|█▋        | 13472/78504 [8:11:44<37:07:09,  2.05s/it] 17%|█▋        | 13473/78504 [8:11:46<36:06:57,  2.00s/it]                                                          {'loss': 0.1298, 'grad_norm': 0.5489268898963928, 'learning_rate': 2.7615812492038556e-05, 'epoch': 4.12}
 17%|█▋        | 13473/78504 [8:11:46<36:06:57,  2.00s/it] 17%|█▋        | 13474/78504 [8:11:47<34:49:21,  1.93s/it]                                                          {'loss': 0.1569, 'grad_norm': 0.5363247394561768, 'learning_rate': 2.7615387881618615e-05, 'epoch': 4.12}
 17%|█▋        | 13474/78504 [8:11:47<34:49:21,  1.93s/it] 17%|█▋        | 13475/78504 [8:11:49<33:21:00,  1.85s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.51360684633255, 'learning_rate': 2.7614963271198677e-05, 'epoch': 4.12}
 17%|█▋        | 13475/78504 [8:11:49<33:21:00,  1.85s/it] 17%|█▋        | 13476/78504 [8:11:51<32:00:18,  1.77s/it]                                                          {'loss': 0.1667, 'grad_norm': 0.6054378151893616, 'learning_rate': 2.7614538660778736e-05, 'epoch': 4.12}
 17%|█▋        | 13476/78504 [8:11:51<32:00:18,  1.77s/it] 17%|█▋        | 13477/78504 [8:11:52<30:22:04,  1.68s/it]                                                          {'loss': 0.1511, 'grad_norm': 0.6717725992202759, 'learning_rate': 2.7614114050358798e-05, 'epoch': 4.12}
 17%|█▋        | 13477/78504 [8:11:52<30:22:04,  1.68s/it] 17%|█▋        | 13478/78504 [8:11:53<28:53:02,  1.60s/it]                                                          {'loss': 0.2122, 'grad_norm': 0.7889077067375183, 'learning_rate': 2.7613689439938856e-05, 'epoch': 4.12}
 17%|█▋        | 13478/78504 [8:11:54<28:53:02,  1.60s/it] 17%|█▋        | 13479/78504 [8:11:55<27:14:27,  1.51s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.9043264389038086, 'learning_rate': 2.761326482951892e-05, 'epoch': 4.12}
 17%|█▋        | 13479/78504 [8:11:55<27:14:27,  1.51s/it] 17%|█▋        | 13480/78504 [8:11:56<25:17:58,  1.40s/it]                                                          {'loss': 0.1743, 'grad_norm': 0.7722340226173401, 'learning_rate': 2.7612840219098977e-05, 'epoch': 4.12}
 17%|█▋        | 13480/78504 [8:11:56<25:17:58,  1.40s/it] 17%|█▋        | 13481/78504 [8:11:57<23:39:15,  1.31s/it]                                                          {'loss': 0.1721, 'grad_norm': 1.3228894472122192, 'learning_rate': 2.761241560867904e-05, 'epoch': 4.12}
 17%|█▋        | 13481/78504 [8:11:57<23:39:15,  1.31s/it] 17%|█▋        | 13482/78504 [8:11:58<21:54:30,  1.21s/it]                                                          {'loss': 0.2119, 'grad_norm': 1.0842416286468506, 'learning_rate': 2.7611990998259098e-05, 'epoch': 4.12}
 17%|█▋        | 13482/78504 [8:11:58<21:54:30,  1.21s/it] 17%|█▋        | 13483/78504 [8:11:59<20:21:49,  1.13s/it]                                                          {'loss': 0.2575, 'grad_norm': 1.0924742221832275, 'learning_rate': 2.7611566387839157e-05, 'epoch': 4.12}
 17%|█▋        | 13483/78504 [8:11:59<20:21:49,  1.13s/it] 17%|█▋        | 13484/78504 [8:12:00<18:39:03,  1.03s/it]                                                          {'loss': 0.2254, 'grad_norm': 1.336381435394287, 'learning_rate': 2.761114177741922e-05, 'epoch': 4.12}
 17%|█▋        | 13484/78504 [8:12:00<18:39:03,  1.03s/it] 17%|█▋        | 13485/78504 [8:12:07<53:25:26,  2.96s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.30920660495758057, 'learning_rate': 2.7610717166999277e-05, 'epoch': 4.12}
 17%|█▋        | 13485/78504 [8:12:07<53:25:26,  2.96s/it] 17%|█▋        | 13486/78504 [8:12:10<54:22:05,  3.01s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.3160986006259918, 'learning_rate': 2.761029255657934e-05, 'epoch': 4.12}
 17%|█▋        | 13486/78504 [8:12:10<54:22:05,  3.01s/it] 17%|█▋        | 13487/78504 [8:12:13<54:24:37,  3.01s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.2555776536464691, 'learning_rate': 2.7609867946159398e-05, 'epoch': 4.12}
 17%|█▋        | 13487/78504 [8:12:13<54:24:37,  3.01s/it] 17%|█▋        | 13488/78504 [8:12:16<52:15:45,  2.89s/it]                                                          {'loss': 0.0681, 'grad_norm': 0.19614997506141663, 'learning_rate': 2.760944333573946e-05, 'epoch': 4.12}
 17%|█▋        | 13488/78504 [8:12:16<52:15:45,  2.89s/it] 17%|█▋        | 13489/78504 [8:12:18<49:56:11,  2.77s/it]                                                          {'loss': 0.0458, 'grad_norm': 0.28097623586654663, 'learning_rate': 2.760901872531952e-05, 'epoch': 4.12}
 17%|█▋        | 13489/78504 [8:12:18<49:56:11,  2.77s/it] 17%|█▋        | 13490/78504 [8:12:21<48:05:54,  2.66s/it]                                                          {'loss': 0.0409, 'grad_norm': 0.19429142773151398, 'learning_rate': 2.760859411489958e-05, 'epoch': 4.12}
 17%|█▋        | 13490/78504 [8:12:21<48:05:54,  2.66s/it] 17%|█▋        | 13491/78504 [8:12:23<46:13:56,  2.56s/it]                                                          {'loss': 0.0514, 'grad_norm': 0.366815984249115, 'learning_rate': 2.760816950447964e-05, 'epoch': 4.12}
 17%|█▋        | 13491/78504 [8:12:23<46:13:56,  2.56s/it] 17%|█▋        | 13492/78504 [8:12:25<43:40:23,  2.42s/it]                                                          {'loss': 0.05, 'grad_norm': 0.4811936914920807, 'learning_rate': 2.7607744894059702e-05, 'epoch': 4.12}
 17%|█▋        | 13492/78504 [8:12:25<43:40:23,  2.42s/it] 17%|█▋        | 13493/78504 [8:12:27<42:22:50,  2.35s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.2812938988208771, 'learning_rate': 2.760732028363976e-05, 'epoch': 4.13}
 17%|█▋        | 13493/78504 [8:12:27<42:22:50,  2.35s/it] 17%|█▋        | 13494/78504 [8:12:30<41:15:59,  2.29s/it]                                                          {'loss': 0.0682, 'grad_norm': 0.3837212026119232, 'learning_rate': 2.7606895673219823e-05, 'epoch': 4.13}
 17%|█▋        | 13494/78504 [8:12:30<41:15:59,  2.29s/it] 17%|█▋        | 13495/78504 [8:12:32<39:50:33,  2.21s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.5128830075263977, 'learning_rate': 2.760647106279988e-05, 'epoch': 4.13}
 17%|█▋        | 13495/78504 [8:12:32<39:50:33,  2.21s/it] 17%|█▋        | 13496/78504 [8:12:34<38:37:10,  2.14s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.3740437924861908, 'learning_rate': 2.760604645237994e-05, 'epoch': 4.13}
 17%|█▋        | 13496/78504 [8:12:34<38:37:10,  2.14s/it] 17%|█▋        | 13497/78504 [8:12:35<37:07:44,  2.06s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.5224207639694214, 'learning_rate': 2.7605621841960002e-05, 'epoch': 4.13}
 17%|█▋        | 13497/78504 [8:12:35<37:07:44,  2.06s/it] 17%|█▋        | 13498/78504 [8:12:37<35:56:36,  1.99s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.36339232325553894, 'learning_rate': 2.760519723154006e-05, 'epoch': 4.13}
 17%|█▋        | 13498/78504 [8:12:37<35:56:36,  1.99s/it] 17%|█▋        | 13499/78504 [8:12:39<34:31:56,  1.91s/it]                                                          {'loss': 0.13, 'grad_norm': 0.4319113790988922, 'learning_rate': 2.7604772621120123e-05, 'epoch': 4.13}
 17%|█▋        | 13499/78504 [8:12:39<34:31:56,  1.91s/it] 17%|█▋        | 13500/78504 [8:12:41<33:08:35,  1.84s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.832981288433075, 'learning_rate': 2.760434801070018e-05, 'epoch': 4.13}
 17%|█▋        | 13500/78504 [8:12:41<33:08:35,  1.84s/it] 17%|█▋        | 13501/78504 [8:12:42<31:31:29,  1.75s/it]                                                          {'loss': 0.1657, 'grad_norm': 0.9416308999061584, 'learning_rate': 2.7603923400280244e-05, 'epoch': 4.13}
 17%|█▋        | 13501/78504 [8:12:42<31:31:29,  1.75s/it] 17%|█▋        | 13502/78504 [8:12:44<30:13:57,  1.67s/it]                                                          {'loss': 0.1682, 'grad_norm': 0.6938762664794922, 'learning_rate': 2.7603498789860302e-05, 'epoch': 4.13}
 17%|█▋        | 13502/78504 [8:12:44<30:13:57,  1.67s/it] 17%|█▋        | 13503/78504 [8:12:45<28:48:19,  1.60s/it]                                                          {'loss': 0.1629, 'grad_norm': 1.2498770952224731, 'learning_rate': 2.7603074179440364e-05, 'epoch': 4.13}
 17%|█▋        | 13503/78504 [8:12:45<28:48:19,  1.60s/it] 17%|█▋        | 13504/78504 [8:12:46<27:07:10,  1.50s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.49280574917793274, 'learning_rate': 2.7602649569020423e-05, 'epoch': 4.13}
 17%|█▋        | 13504/78504 [8:12:46<27:07:10,  1.50s/it] 17%|█▋        | 13505/78504 [8:12:48<25:11:33,  1.40s/it]                                                          {'loss': 0.1721, 'grad_norm': 1.0527762174606323, 'learning_rate': 2.7602224958600485e-05, 'epoch': 4.13}
 17%|█▋        | 13505/78504 [8:12:48<25:11:33,  1.40s/it] 17%|█▋        | 13506/78504 [8:12:49<23:33:44,  1.31s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.8104509115219116, 'learning_rate': 2.7601800348180544e-05, 'epoch': 4.13}
 17%|█▋        | 13506/78504 [8:12:49<23:33:44,  1.31s/it] 17%|█▋        | 13507/78504 [8:12:50<22:13:12,  1.23s/it]                                                          {'loss': 0.1798, 'grad_norm': 0.7312922477722168, 'learning_rate': 2.7601375737760606e-05, 'epoch': 4.13}
 17%|█▋        | 13507/78504 [8:12:50<22:13:12,  1.23s/it] 17%|█▋        | 13508/78504 [8:12:51<20:34:26,  1.14s/it]                                                          {'loss': 0.1951, 'grad_norm': 1.0854089260101318, 'learning_rate': 2.7600951127340665e-05, 'epoch': 4.13}
 17%|█▋        | 13508/78504 [8:12:51<20:34:26,  1.14s/it] 17%|█▋        | 13509/78504 [8:12:51<18:40:36,  1.03s/it]                                                          {'loss': 0.2211, 'grad_norm': 3.805873394012451, 'learning_rate': 2.7600526516920723e-05, 'epoch': 4.13}
 17%|█▋        | 13509/78504 [8:12:51<18:40:36,  1.03s/it] 17%|█▋        | 13510/78504 [8:13:02<68:15:25,  3.78s/it]                                                          {'loss': 0.1551, 'grad_norm': 0.4957030415534973, 'learning_rate': 2.7600101906500786e-05, 'epoch': 4.13}
 17%|█▋        | 13510/78504 [8:13:02<68:15:25,  3.78s/it] 17%|█▋        | 13511/78504 [8:13:05<65:54:46,  3.65s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.2276565581560135, 'learning_rate': 2.7599677296080844e-05, 'epoch': 4.13}
 17%|█▋        | 13511/78504 [8:13:05<65:54:46,  3.65s/it] 17%|█▋        | 13512/78504 [8:13:08<60:02:06,  3.33s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.24009278416633606, 'learning_rate': 2.7599252685660906e-05, 'epoch': 4.13}
 17%|█▋        | 13512/78504 [8:13:08<60:02:06,  3.33s/it] 17%|█▋        | 13513/78504 [8:13:10<56:08:29,  3.11s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.6577039957046509, 'learning_rate': 2.7598828075240965e-05, 'epoch': 4.13}
 17%|█▋        | 13513/78504 [8:13:10<56:08:29,  3.11s/it] 17%|█▋        | 13514/78504 [8:13:13<52:40:57,  2.92s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.44031113386154175, 'learning_rate': 2.7598403464821027e-05, 'epoch': 4.13}
 17%|█▋        | 13514/78504 [8:13:13<52:40:57,  2.92s/it] 17%|█▋        | 13515/78504 [8:13:15<49:08:52,  2.72s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.20504431426525116, 'learning_rate': 2.7597978854401086e-05, 'epoch': 4.13}
 17%|█▋        | 13515/78504 [8:13:15<49:08:52,  2.72s/it] 17%|█▋        | 13516/78504 [8:13:17<46:56:27,  2.60s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.31223833560943604, 'learning_rate': 2.7597554243981148e-05, 'epoch': 4.13}
 17%|█▋        | 13516/78504 [8:13:17<46:56:27,  2.60s/it] 17%|█▋        | 13517/78504 [8:13:19<44:12:46,  2.45s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.3277880549430847, 'learning_rate': 2.7597129633561207e-05, 'epoch': 4.13}
 17%|█▋        | 13517/78504 [8:13:19<44:12:46,  2.45s/it] 17%|█▋        | 13518/78504 [8:13:21<42:45:08,  2.37s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.30768656730651855, 'learning_rate': 2.759670502314127e-05, 'epoch': 4.13}
 17%|█▋        | 13518/78504 [8:13:22<42:45:08,  2.37s/it] 17%|█▋        | 13519/78504 [8:13:24<41:34:48,  2.30s/it]                                                          {'loss': 0.0779, 'grad_norm': 0.4139818847179413, 'learning_rate': 2.7596280412721327e-05, 'epoch': 4.13}
 17%|█▋        | 13519/78504 [8:13:24<41:34:48,  2.30s/it] 17%|█▋        | 13520/78504 [8:13:26<40:02:37,  2.22s/it]                                                          {'loss': 0.0925, 'grad_norm': 0.25706589221954346, 'learning_rate': 2.759585580230139e-05, 'epoch': 4.13}
 17%|█▋        | 13520/78504 [8:13:26<40:02:37,  2.22s/it] 17%|█▋        | 13521/78504 [8:13:28<38:45:18,  2.15s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.404143750667572, 'learning_rate': 2.7595431191881448e-05, 'epoch': 4.13}
 17%|█▋        | 13521/78504 [8:13:28<38:45:18,  2.15s/it] 17%|█▋        | 13522/78504 [8:13:30<37:15:47,  2.06s/it]                                                          {'loss': 0.1051, 'grad_norm': 0.273002952337265, 'learning_rate': 2.7595006581461507e-05, 'epoch': 4.13}
 17%|█▋        | 13522/78504 [8:13:30<37:15:47,  2.06s/it] 17%|█▋        | 13523/78504 [8:13:31<36:12:29,  2.01s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.486341267824173, 'learning_rate': 2.759458197104157e-05, 'epoch': 4.13}
 17%|█▋        | 13523/78504 [8:13:31<36:12:29,  2.01s/it] 17%|█▋        | 13524/78504 [8:13:33<34:20:21,  1.90s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.4229927659034729, 'learning_rate': 2.7594157360621628e-05, 'epoch': 4.13}
 17%|█▋        | 13524/78504 [8:13:33<34:20:21,  1.90s/it] 17%|█▋        | 13525/78504 [8:13:35<32:56:44,  1.83s/it]                                                          {'loss': 0.1399, 'grad_norm': 0.4220741391181946, 'learning_rate': 2.759373275020169e-05, 'epoch': 4.13}
 17%|█▋        | 13525/78504 [8:13:35<32:56:44,  1.83s/it] 17%|█▋        | 13526/78504 [8:13:36<31:18:16,  1.73s/it]                                                          {'loss': 0.151, 'grad_norm': 0.43162477016448975, 'learning_rate': 2.759330813978175e-05, 'epoch': 4.14}
 17%|█▋        | 13526/78504 [8:13:36<31:18:16,  1.73s/it] 17%|█▋        | 13527/78504 [8:13:38<29:38:29,  1.64s/it]                                                          {'loss': 0.1421, 'grad_norm': 0.4982406795024872, 'learning_rate': 2.759288352936181e-05, 'epoch': 4.14}
 17%|█▋        | 13527/78504 [8:13:38<29:38:29,  1.64s/it] 17%|█▋        | 13528/78504 [8:13:39<28:23:16,  1.57s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.4916478991508484, 'learning_rate': 2.759245891894187e-05, 'epoch': 4.14}
 17%|█▋        | 13528/78504 [8:13:39<28:23:16,  1.57s/it] 17%|█▋        | 13529/78504 [8:13:40<26:34:00,  1.47s/it]                                                          {'loss': 0.1796, 'grad_norm': 1.2923979759216309, 'learning_rate': 2.759203430852193e-05, 'epoch': 4.14}
 17%|█▋        | 13529/78504 [8:13:40<26:34:00,  1.47s/it] 17%|█▋        | 13530/78504 [8:13:41<24:51:09,  1.38s/it]                                                          {'loss': 0.2147, 'grad_norm': 1.0402971506118774, 'learning_rate': 2.759160969810199e-05, 'epoch': 4.14}
 17%|█▋        | 13530/78504 [8:13:41<24:51:09,  1.38s/it] 17%|█▋        | 13531/78504 [8:13:43<23:18:12,  1.29s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.5450578331947327, 'learning_rate': 2.7591185087682052e-05, 'epoch': 4.14}
 17%|█▋        | 13531/78504 [8:13:43<23:18:12,  1.29s/it] 17%|█▋        | 13532/78504 [8:13:44<21:38:09,  1.20s/it]                                                          {'loss': 0.1573, 'grad_norm': 1.1370272636413574, 'learning_rate': 2.759076047726211e-05, 'epoch': 4.14}
 17%|█▋        | 13532/78504 [8:13:44<21:38:09,  1.20s/it] 17%|█▋        | 13533/78504 [8:13:44<20:14:37,  1.12s/it]                                                          {'loss': 0.207, 'grad_norm': 0.9290776252746582, 'learning_rate': 2.7590335866842173e-05, 'epoch': 4.14}
 17%|█▋        | 13533/78504 [8:13:44<20:14:37,  1.12s/it] 17%|█▋        | 13534/78504 [8:13:45<18:27:14,  1.02s/it]                                                          {'loss': 0.2275, 'grad_norm': 1.5972968339920044, 'learning_rate': 2.7589911256422235e-05, 'epoch': 4.14}
 17%|█▋        | 13534/78504 [8:13:45<18:27:14,  1.02s/it] 17%|█▋        | 13535/78504 [8:13:53<52:31:52,  2.91s/it]                                                          {'loss': 0.1454, 'grad_norm': 0.6147744059562683, 'learning_rate': 2.7589486646002294e-05, 'epoch': 4.14}
 17%|█▋        | 13535/78504 [8:13:53<52:31:52,  2.91s/it] 17%|█▋        | 13536/78504 [8:13:56<53:26:03,  2.96s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.2670133411884308, 'learning_rate': 2.7589062035582356e-05, 'epoch': 4.14}
 17%|█▋        | 13536/78504 [8:13:56<53:26:03,  2.96s/it] 17%|█▋        | 13537/78504 [8:13:59<53:32:02,  2.97s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.4106846749782562, 'learning_rate': 2.7588637425162414e-05, 'epoch': 4.14}
 17%|█▋        | 13537/78504 [8:13:59<53:32:02,  2.97s/it] 17%|█▋        | 13538/78504 [8:14:01<51:29:57,  2.85s/it]                                                          {'loss': 0.0407, 'grad_norm': 0.21746967732906342, 'learning_rate': 2.7588212814742477e-05, 'epoch': 4.14}
 17%|█▋        | 13538/78504 [8:14:01<51:29:57,  2.85s/it] 17%|█▋        | 13539/78504 [8:14:04<49:31:56,  2.74s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.3691830337047577, 'learning_rate': 2.7587788204322535e-05, 'epoch': 4.14}
 17%|█▋        | 13539/78504 [8:14:04<49:31:56,  2.74s/it] 17%|█▋        | 13540/78504 [8:14:06<46:34:05,  2.58s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.30988118052482605, 'learning_rate': 2.7587363593902597e-05, 'epoch': 4.14}
 17%|█▋        | 13540/78504 [8:14:06<46:34:05,  2.58s/it] 17%|█▋        | 13541/78504 [8:14:08<45:15:49,  2.51s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.8032299876213074, 'learning_rate': 2.7586938983482656e-05, 'epoch': 4.14}
 17%|█▋        | 13541/78504 [8:14:08<45:15:49,  2.51s/it] 17%|█▋        | 13542/78504 [8:14:10<42:58:47,  2.38s/it]                                                          {'loss': 0.0607, 'grad_norm': 0.5628619194030762, 'learning_rate': 2.7586514373062718e-05, 'epoch': 4.14}
 17%|█▋        | 13542/78504 [8:14:10<42:58:47,  2.38s/it] 17%|█▋        | 13543/78504 [8:14:12<41:02:01,  2.27s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.40600425004959106, 'learning_rate': 2.7586089762642777e-05, 'epoch': 4.14}
 17%|█▋        | 13543/78504 [8:14:12<41:02:01,  2.27s/it] 17%|█▋        | 13544/78504 [8:14:14<40:17:56,  2.23s/it]                                                          {'loss': 0.078, 'grad_norm': 0.34027203917503357, 'learning_rate': 2.758566515222284e-05, 'epoch': 4.14}
 17%|█▋        | 13544/78504 [8:14:15<40:17:56,  2.23s/it] 17%|█▋        | 13545/78504 [8:14:16<38:57:46,  2.16s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.26626336574554443, 'learning_rate': 2.7585240541802898e-05, 'epoch': 4.14}
 17%|█▋        | 13545/78504 [8:14:16<38:57:46,  2.16s/it] 17%|█▋        | 13546/78504 [8:14:18<37:03:05,  2.05s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.254874587059021, 'learning_rate': 2.758481593138296e-05, 'epoch': 4.14}
 17%|█▋        | 13546/78504 [8:14:18<37:03:05,  2.05s/it] 17%|█▋        | 13547/78504 [8:14:20<36:00:17,  2.00s/it]                                                          {'loss': 0.0909, 'grad_norm': 0.38677746057510376, 'learning_rate': 2.758439132096302e-05, 'epoch': 4.14}
 17%|█▋        | 13547/78504 [8:14:20<36:00:17,  2.00s/it] 17%|█▋        | 13548/78504 [8:14:22<34:30:49,  1.91s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.2579224407672882, 'learning_rate': 2.7583966710543077e-05, 'epoch': 4.14}
 17%|█▋        | 13548/78504 [8:14:22<34:30:49,  1.91s/it] 17%|█▋        | 13549/78504 [8:14:24<33:09:58,  1.84s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.4525660276412964, 'learning_rate': 2.758354210012314e-05, 'epoch': 4.14}
 17%|█▋        | 13549/78504 [8:14:24<33:09:58,  1.84s/it] 17%|█▋        | 13550/78504 [8:14:25<32:06:02,  1.78s/it]                                                          {'loss': 0.1535, 'grad_norm': 0.40845730900764465, 'learning_rate': 2.7583117489703198e-05, 'epoch': 4.14}
 17%|█▋        | 13550/78504 [8:14:25<32:06:02,  1.78s/it] 17%|█▋        | 13551/78504 [8:14:27<30:39:17,  1.70s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.5199663639068604, 'learning_rate': 2.758269287928326e-05, 'epoch': 4.14}
 17%|█▋        | 13551/78504 [8:14:27<30:39:17,  1.70s/it] 17%|█▋        | 13552/78504 [8:14:28<29:11:30,  1.62s/it]                                                          {'loss': 0.1699, 'grad_norm': 0.5446755886077881, 'learning_rate': 2.758226826886332e-05, 'epoch': 4.14}
 17%|█▋        | 13552/78504 [8:14:28<29:11:30,  1.62s/it] 17%|█▋        | 13553/78504 [8:14:30<28:05:25,  1.56s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.6477108001708984, 'learning_rate': 2.758184365844338e-05, 'epoch': 4.14}
 17%|█▋        | 13553/78504 [8:14:30<28:05:25,  1.56s/it] 17%|█▋        | 13554/78504 [8:14:31<26:14:52,  1.45s/it]                                                          {'loss': 0.2043, 'grad_norm': 0.683307409286499, 'learning_rate': 2.758141904802344e-05, 'epoch': 4.14}
 17%|█▋        | 13554/78504 [8:14:31<26:14:52,  1.45s/it] 17%|█▋        | 13555/78504 [8:14:32<24:31:21,  1.36s/it]                                                          {'loss': 0.1798, 'grad_norm': 0.8036741614341736, 'learning_rate': 2.75809944376035e-05, 'epoch': 4.14}
 17%|█▋        | 13555/78504 [8:14:32<24:31:21,  1.36s/it] 17%|█▋        | 13556/78504 [8:14:33<23:04:54,  1.28s/it]                                                          {'loss': 0.2342, 'grad_norm': 1.1697734594345093, 'learning_rate': 2.758056982718356e-05, 'epoch': 4.14}
 17%|█▋        | 13556/78504 [8:14:33<23:04:54,  1.28s/it] 17%|█▋        | 13557/78504 [8:14:34<21:31:34,  1.19s/it]                                                          {'loss': 0.2025, 'grad_norm': 0.7012492418289185, 'learning_rate': 2.7580145216763622e-05, 'epoch': 4.14}
 17%|█▋        | 13557/78504 [8:14:34<21:31:34,  1.19s/it] 17%|█▋        | 13558/78504 [8:14:35<20:06:42,  1.11s/it]                                                          {'loss': 0.2228, 'grad_norm': 5.989058494567871, 'learning_rate': 2.757972060634368e-05, 'epoch': 4.14}
 17%|█▋        | 13558/78504 [8:14:35<20:06:42,  1.11s/it] 17%|█▋        | 13559/78504 [8:14:36<18:09:44,  1.01s/it]                                                          {'loss': 0.2077, 'grad_norm': 1.200129508972168, 'learning_rate': 2.7579295995923743e-05, 'epoch': 4.15}
 17%|█▋        | 13559/78504 [8:14:36<18:09:44,  1.01s/it] 17%|█▋        | 13560/78504 [8:14:43<55:02:04,  3.05s/it]                                                          {'loss': 0.1579, 'grad_norm': 0.5042074918746948, 'learning_rate': 2.7578871385503802e-05, 'epoch': 4.15}
 17%|█▋        | 13560/78504 [8:14:43<55:02:04,  3.05s/it] 17%|█▋        | 13561/78504 [8:14:47<55:24:11,  3.07s/it]                                                          {'loss': 0.0703, 'grad_norm': 0.37576285004615784, 'learning_rate': 2.757844677508386e-05, 'epoch': 4.15}
 17%|█▋        | 13561/78504 [8:14:47<55:24:11,  3.07s/it] 17%|█▋        | 13562/78504 [8:14:50<54:56:29,  3.05s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.30053287744522095, 'learning_rate': 2.7578022164663923e-05, 'epoch': 4.15}
 17%|█▋        | 13562/78504 [8:14:50<54:56:29,  3.05s/it] 17%|█▋        | 13563/78504 [8:14:52<52:37:21,  2.92s/it]                                                          {'loss': 0.0406, 'grad_norm': 0.24985966086387634, 'learning_rate': 2.757759755424398e-05, 'epoch': 4.15}
 17%|█▋        | 13563/78504 [8:14:52<52:37:21,  2.92s/it] 17%|█▋        | 13564/78504 [8:14:55<50:11:43,  2.78s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.3449644148349762, 'learning_rate': 2.7577172943824043e-05, 'epoch': 4.15}
 17%|█▋        | 13564/78504 [8:14:55<50:11:43,  2.78s/it] 17%|█▋        | 13565/78504 [8:14:57<47:24:42,  2.63s/it]                                                          {'loss': 0.05, 'grad_norm': 0.17421963810920715, 'learning_rate': 2.7576748333404102e-05, 'epoch': 4.15}
 17%|█▋        | 13565/78504 [8:14:57<47:24:42,  2.63s/it] 17%|█▋        | 13566/78504 [8:14:59<45:41:29,  2.53s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.3342324495315552, 'learning_rate': 2.7576323722984164e-05, 'epoch': 4.15}
 17%|█▋        | 13566/78504 [8:14:59<45:41:29,  2.53s/it] 17%|█▋        | 13567/78504 [8:15:02<44:27:05,  2.46s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.46623915433883667, 'learning_rate': 2.7575899112564223e-05, 'epoch': 4.15}
 17%|█▋        | 13567/78504 [8:15:02<44:27:05,  2.46s/it] 17%|█▋        | 13568/78504 [8:15:04<43:01:13,  2.39s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.2799883186817169, 'learning_rate': 2.7575474502144285e-05, 'epoch': 4.15}
 17%|█▋        | 13568/78504 [8:15:04<43:01:13,  2.39s/it] 17%|█▋        | 13569/78504 [8:15:06<41:48:43,  2.32s/it]                                                          {'loss': 0.0677, 'grad_norm': 0.5394760966300964, 'learning_rate': 2.7575049891724344e-05, 'epoch': 4.15}
 17%|█▋        | 13569/78504 [8:15:06<41:48:43,  2.32s/it] 17%|█▋        | 13570/78504 [8:15:08<39:25:51,  2.19s/it]                                                          {'loss': 0.0999, 'grad_norm': 0.5418713092803955, 'learning_rate': 2.7574625281304406e-05, 'epoch': 4.15}
 17%|█▋        | 13570/78504 [8:15:08<39:25:51,  2.19s/it] 17%|█▋        | 13571/78504 [8:15:10<38:20:37,  2.13s/it]                                                          {'loss': 0.0987, 'grad_norm': 0.41552817821502686, 'learning_rate': 2.7574200670884464e-05, 'epoch': 4.15}
 17%|█▋        | 13571/78504 [8:15:10<38:20:37,  2.13s/it] 17%|█▋        | 13572/78504 [8:15:12<37:13:53,  2.06s/it]                                                          {'loss': 0.089, 'grad_norm': 0.6639132499694824, 'learning_rate': 2.7573776060464527e-05, 'epoch': 4.15}
 17%|█▋        | 13572/78504 [8:15:12<37:13:53,  2.06s/it] 17%|█▋        | 13573/78504 [8:15:14<36:11:02,  2.01s/it]                                                          {'loss': 0.102, 'grad_norm': 0.8495844006538391, 'learning_rate': 2.7573351450044585e-05, 'epoch': 4.15}
 17%|█▋        | 13573/78504 [8:15:14<36:11:02,  2.01s/it] 17%|█▋        | 13574/78504 [8:15:15<34:53:31,  1.93s/it]                                                          {'loss': 0.0946, 'grad_norm': 0.40802040696144104, 'learning_rate': 2.7572926839624644e-05, 'epoch': 4.15}
 17%|█▋        | 13574/78504 [8:15:15<34:53:31,  1.93s/it] 17%|█▋        | 13575/78504 [8:15:17<33:20:14,  1.85s/it]                                                          {'loss': 0.1497, 'grad_norm': 0.3492819368839264, 'learning_rate': 2.7572502229204706e-05, 'epoch': 4.15}
 17%|█▋        | 13575/78504 [8:15:17<33:20:14,  1.85s/it] 17%|█▋        | 13576/78504 [8:15:19<31:42:02,  1.76s/it]                                                          {'loss': 0.1191, 'grad_norm': 0.4138652980327606, 'learning_rate': 2.7572077618784765e-05, 'epoch': 4.15}
 17%|█▋        | 13576/78504 [8:15:19<31:42:02,  1.76s/it] 17%|█▋        | 13577/78504 [8:15:20<30:08:22,  1.67s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.64557284116745, 'learning_rate': 2.7571653008364827e-05, 'epoch': 4.15}
 17%|█▋        | 13577/78504 [8:15:20<30:08:22,  1.67s/it] 17%|█▋        | 13578/78504 [8:15:21<28:44:19,  1.59s/it]                                                          {'loss': 0.1427, 'grad_norm': 0.5272688865661621, 'learning_rate': 2.7571228397944886e-05, 'epoch': 4.15}
 17%|█▋        | 13578/78504 [8:15:21<28:44:19,  1.59s/it] 17%|█▋        | 13579/78504 [8:15:23<26:41:36,  1.48s/it]                                                          {'loss': 0.1575, 'grad_norm': 0.4682074189186096, 'learning_rate': 2.7570803787524948e-05, 'epoch': 4.15}
 17%|█▋        | 13579/78504 [8:15:23<26:41:36,  1.48s/it] 17%|█▋        | 13580/78504 [8:15:24<24:53:23,  1.38s/it]                                                          {'loss': 0.1782, 'grad_norm': 1.3708806037902832, 'learning_rate': 2.7570379177105006e-05, 'epoch': 4.15}
 17%|█▋        | 13580/78504 [8:15:24<24:53:23,  1.38s/it] 17%|█▋        | 13581/78504 [8:15:25<23:23:03,  1.30s/it]                                                          {'loss': 0.1658, 'grad_norm': 0.9650365710258484, 'learning_rate': 2.756995456668507e-05, 'epoch': 4.15}
 17%|█▋        | 13581/78504 [8:15:25<23:23:03,  1.30s/it] 17%|█▋        | 13582/78504 [8:15:26<21:43:54,  1.21s/it]                                                          {'loss': 0.2244, 'grad_norm': 0.6926095485687256, 'learning_rate': 2.7569529956265127e-05, 'epoch': 4.15}
 17%|█▋        | 13582/78504 [8:15:26<21:43:54,  1.21s/it] 17%|█▋        | 13583/78504 [8:15:27<20:14:04,  1.12s/it]                                                          {'loss': 0.2034, 'grad_norm': 0.9414966106414795, 'learning_rate': 2.756910534584519e-05, 'epoch': 4.15}
 17%|█▋        | 13583/78504 [8:15:27<20:14:04,  1.12s/it] 17%|█▋        | 13584/78504 [8:15:28<18:20:54,  1.02s/it]                                                          {'loss': 0.2266, 'grad_norm': 1.6602129936218262, 'learning_rate': 2.7568680735425248e-05, 'epoch': 4.15}
 17%|█▋        | 13584/78504 [8:15:28<18:20:54,  1.02s/it] 17%|█▋        | 13585/78504 [8:15:36<58:27:18,  3.24s/it]                                                          {'loss': 0.1609, 'grad_norm': 0.40350502729415894, 'learning_rate': 2.7568256125005307e-05, 'epoch': 4.15}
 17%|█▋        | 13585/78504 [8:15:36<58:27:18,  3.24s/it] 17%|█▋        | 13586/78504 [8:15:39<59:01:14,  3.27s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.42082032561302185, 'learning_rate': 2.756783151458537e-05, 'epoch': 4.15}
 17%|█▋        | 13586/78504 [8:15:39<59:01:14,  3.27s/it] 17%|█▋        | 13587/78504 [8:15:42<57:37:08,  3.20s/it]                                                          {'loss': 0.057, 'grad_norm': 0.22125457227230072, 'learning_rate': 2.7567406904165427e-05, 'epoch': 4.15}
 17%|█▋        | 13587/78504 [8:15:42<57:37:08,  3.20s/it] 17%|█▋        | 13588/78504 [8:15:45<54:19:38,  3.01s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.3215661644935608, 'learning_rate': 2.756698229374549e-05, 'epoch': 4.15}
 17%|█▋        | 13588/78504 [8:15:45<54:19:38,  3.01s/it] 17%|█▋        | 13589/78504 [8:15:47<51:23:53,  2.85s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.24371010065078735, 'learning_rate': 2.7566557683325548e-05, 'epoch': 4.15}
 17%|█▋        | 13589/78504 [8:15:47<51:23:53,  2.85s/it] 17%|█▋        | 13590/78504 [8:15:50<48:13:00,  2.67s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.23737861216068268, 'learning_rate': 2.756613307290561e-05, 'epoch': 4.15}
 17%|█▋        | 13590/78504 [8:15:50<48:13:00,  2.67s/it] 17%|█▋        | 13591/78504 [8:15:52<46:17:33,  2.57s/it]                                                          {'loss': 0.045, 'grad_norm': 0.24669504165649414, 'learning_rate': 2.756570846248567e-05, 'epoch': 4.15}
 17%|█▋        | 13591/78504 [8:15:52<46:17:33,  2.57s/it] 17%|█▋        | 13592/78504 [8:15:54<43:43:04,  2.42s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.2248280644416809, 'learning_rate': 2.756528385206573e-05, 'epoch': 4.16}
 17%|█▋        | 13592/78504 [8:15:54<43:43:04,  2.42s/it] 17%|█▋        | 13593/78504 [8:15:56<41:32:18,  2.30s/it]                                                          {'loss': 0.1065, 'grad_norm': 0.38748598098754883, 'learning_rate': 2.756485924164579e-05, 'epoch': 4.16}
 17%|█▋        | 13593/78504 [8:15:56<41:32:18,  2.30s/it] 17%|█▋        | 13594/78504 [8:15:58<40:37:49,  2.25s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.4265848994255066, 'learning_rate': 2.7564434631225852e-05, 'epoch': 4.16}
 17%|█▋        | 13594/78504 [8:15:58<40:37:49,  2.25s/it] 17%|█▋        | 13595/78504 [8:16:00<39:07:35,  2.17s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.25884440541267395, 'learning_rate': 2.756401002080591e-05, 'epoch': 4.16}
 17%|█▋        | 13595/78504 [8:16:00<39:07:35,  2.17s/it] 17%|█▋        | 13596/78504 [8:16:02<37:46:29,  2.10s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.5558943748474121, 'learning_rate': 2.7563585410385973e-05, 'epoch': 4.16}
 17%|█▋        | 13596/78504 [8:16:02<37:46:29,  2.10s/it] 17%|█▋        | 13597/78504 [8:16:04<36:34:44,  2.03s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.5212362408638, 'learning_rate': 2.756316079996603e-05, 'epoch': 4.16}
 17%|█▋        | 13597/78504 [8:16:04<36:34:44,  2.03s/it] 17%|█▋        | 13598/78504 [8:16:06<34:39:42,  1.92s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.31959566473960876, 'learning_rate': 2.756273618954609e-05, 'epoch': 4.16}
 17%|█▋        | 13598/78504 [8:16:06<34:39:42,  1.92s/it] 17%|█▋        | 13599/78504 [8:16:07<33:50:32,  1.88s/it]                                                          {'loss': 0.1422, 'grad_norm': 0.582105815410614, 'learning_rate': 2.7562311579126152e-05, 'epoch': 4.16}
 17%|█▋        | 13599/78504 [8:16:07<33:50:32,  1.88s/it] 17%|█▋        | 13600/78504 [8:16:09<32:35:07,  1.81s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.44287171959877014, 'learning_rate': 2.756188696870621e-05, 'epoch': 4.16}
 17%|█▋        | 13600/78504 [8:16:09<32:35:07,  1.81s/it] 17%|█▋        | 13601/78504 [8:16:11<30:59:14,  1.72s/it]                                                          {'loss': 0.1622, 'grad_norm': 0.7954109907150269, 'learning_rate': 2.7561462358286273e-05, 'epoch': 4.16}
 17%|█▋        | 13601/78504 [8:16:11<30:59:14,  1.72s/it] 17%|█▋        | 13602/78504 [8:16:12<29:23:30,  1.63s/it]                                                          {'loss': 0.1792, 'grad_norm': 0.5178627371788025, 'learning_rate': 2.756103774786633e-05, 'epoch': 4.16}
 17%|█▋        | 13602/78504 [8:16:12<29:23:30,  1.63s/it] 17%|█▋        | 13603/78504 [8:16:13<28:14:33,  1.57s/it]                                                          {'loss': 0.19, 'grad_norm': 2.953568458557129, 'learning_rate': 2.7560613137446394e-05, 'epoch': 4.16}
 17%|█▋        | 13603/78504 [8:16:13<28:14:33,  1.57s/it] 17%|█▋        | 13604/78504 [8:16:15<26:22:28,  1.46s/it]                                                          {'loss': 0.1605, 'grad_norm': 0.5061753392219543, 'learning_rate': 2.7560188527026452e-05, 'epoch': 4.16}
 17%|█▋        | 13604/78504 [8:16:15<26:22:28,  1.46s/it] 17%|█▋        | 13605/78504 [8:16:16<24:40:45,  1.37s/it]                                                          {'loss': 0.1699, 'grad_norm': 0.7890948057174683, 'learning_rate': 2.7559763916606514e-05, 'epoch': 4.16}
 17%|█▋        | 13605/78504 [8:16:16<24:40:45,  1.37s/it] 17%|█▋        | 13606/78504 [8:16:17<23:11:52,  1.29s/it]                                                          {'loss': 0.1777, 'grad_norm': 3.4891161918640137, 'learning_rate': 2.7559339306186573e-05, 'epoch': 4.16}
 17%|█▋        | 13606/78504 [8:16:17<23:11:52,  1.29s/it] 17%|█▋        | 13607/78504 [8:16:18<21:34:01,  1.20s/it]                                                          {'loss': 0.1717, 'grad_norm': 0.7543187737464905, 'learning_rate': 2.7558914695766635e-05, 'epoch': 4.16}
 17%|█▋        | 13607/78504 [8:16:18<21:34:01,  1.20s/it] 17%|█▋        | 13608/78504 [8:16:19<20:11:17,  1.12s/it]                                                          {'loss': 0.2131, 'grad_norm': 0.8775588274002075, 'learning_rate': 2.7558490085346694e-05, 'epoch': 4.16}
 17%|█▋        | 13608/78504 [8:16:19<20:11:17,  1.12s/it] 17%|█▋        | 13609/78504 [8:16:20<18:22:23,  1.02s/it]                                                          {'loss': 0.2541, 'grad_norm': 1.1491801738739014, 'learning_rate': 2.7558065474926756e-05, 'epoch': 4.16}
 17%|█▋        | 13609/78504 [8:16:20<18:22:23,  1.02s/it] 17%|█▋        | 13610/78504 [8:16:29<64:24:39,  3.57s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.2819606065750122, 'learning_rate': 2.7557640864506815e-05, 'epoch': 4.16}
 17%|█▋        | 13610/78504 [8:16:29<64:24:39,  3.57s/it] 17%|█▋        | 13611/78504 [8:16:32<61:49:51,  3.43s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.2075568288564682, 'learning_rate': 2.7557216254086873e-05, 'epoch': 4.16}
 17%|█▋        | 13611/78504 [8:16:32<61:49:51,  3.43s/it] 17%|█▋        | 13612/78504 [8:16:35<57:09:35,  3.17s/it]                                                          {'loss': 0.1027, 'grad_norm': 0.518045961856842, 'learning_rate': 2.7556791643666936e-05, 'epoch': 4.16}
 17%|█▋        | 13612/78504 [8:16:35<57:09:35,  3.17s/it] 17%|█▋        | 13613/78504 [8:16:37<54:10:05,  3.01s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.22626973688602448, 'learning_rate': 2.7556367033246994e-05, 'epoch': 4.16}
 17%|█▋        | 13613/78504 [8:16:37<54:10:05,  3.01s/it] 17%|█▋        | 13614/78504 [8:16:40<51:14:24,  2.84s/it]                                                          {'loss': 0.0415, 'grad_norm': 0.36540326476097107, 'learning_rate': 2.7555942422827056e-05, 'epoch': 4.16}
 17%|█▋        | 13614/78504 [8:16:40<51:14:24,  2.84s/it] 17%|█▋        | 13615/78504 [8:16:42<48:09:51,  2.67s/it]                                                          {'loss': 0.0608, 'grad_norm': 0.2553619146347046, 'learning_rate': 2.7555517812407115e-05, 'epoch': 4.16}
 17%|█▋        | 13615/78504 [8:16:42<48:09:51,  2.67s/it] 17%|█▋        | 13616/78504 [8:16:44<46:13:03,  2.56s/it]                                                          {'loss': 0.0623, 'grad_norm': 0.26952242851257324, 'learning_rate': 2.7555093201987177e-05, 'epoch': 4.16}
 17%|█▋        | 13616/78504 [8:16:45<46:13:03,  2.56s/it] 17%|█▋        | 13617/78504 [8:16:47<43:46:53,  2.43s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.2477789968252182, 'learning_rate': 2.7554668591567236e-05, 'epoch': 4.16}
 17%|█▋        | 13617/78504 [8:16:47<43:46:53,  2.43s/it] 17%|█▋        | 13618/78504 [8:16:49<42:26:49,  2.36s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.2966485321521759, 'learning_rate': 2.7554243981147298e-05, 'epoch': 4.16}
 17%|█▋        | 13618/78504 [8:16:49<42:26:49,  2.36s/it] 17%|█▋        | 13619/78504 [8:16:51<41:24:41,  2.30s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.29740071296691895, 'learning_rate': 2.7553819370727357e-05, 'epoch': 4.16}
 17%|█▋        | 13619/78504 [8:16:51<41:24:41,  2.30s/it] 17%|█▋        | 13620/78504 [8:16:53<39:56:36,  2.22s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.36662808060646057, 'learning_rate': 2.755339476030742e-05, 'epoch': 4.16}
 17%|█▋        | 13620/78504 [8:16:53<39:56:36,  2.22s/it] 17%|█▋        | 13621/78504 [8:16:55<38:39:29,  2.14s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.5040295124053955, 'learning_rate': 2.7552970149887477e-05, 'epoch': 4.16}
 17%|█▋        | 13621/78504 [8:16:55<38:39:29,  2.14s/it] 17%|█▋        | 13622/78504 [8:16:57<37:14:33,  2.07s/it]                                                          {'loss': 0.0798, 'grad_norm': 0.36477625370025635, 'learning_rate': 2.755254553946754e-05, 'epoch': 4.16}
 17%|█▋        | 13622/78504 [8:16:57<37:14:33,  2.07s/it] 17%|█▋        | 13623/78504 [8:16:59<36:13:58,  2.01s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.5290716290473938, 'learning_rate': 2.7552120929047598e-05, 'epoch': 4.16}
 17%|█▋        | 13623/78504 [8:16:59<36:13:58,  2.01s/it] 17%|█▋        | 13624/78504 [8:17:00<34:53:55,  1.94s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.4328950047492981, 'learning_rate': 2.7551696318627657e-05, 'epoch': 4.17}
 17%|█▋        | 13624/78504 [8:17:01<34:53:55,  1.94s/it] 17%|█▋        | 13625/78504 [8:17:02<33:21:20,  1.85s/it]                                                          {'loss': 0.1645, 'grad_norm': 0.6340389251708984, 'learning_rate': 2.755127170820772e-05, 'epoch': 4.17}
 17%|█▋        | 13625/78504 [8:17:02<33:21:20,  1.85s/it] 17%|█▋        | 13626/78504 [8:17:04<31:42:06,  1.76s/it]                                                          {'loss': 0.1545, 'grad_norm': 0.7424623966217041, 'learning_rate': 2.7550847097787778e-05, 'epoch': 4.17}
 17%|█▋        | 13626/78504 [8:17:04<31:42:06,  1.76s/it] 17%|█▋        | 13627/78504 [8:17:05<30:06:53,  1.67s/it]                                                          {'loss': 0.1392, 'grad_norm': 0.6656714677810669, 'learning_rate': 2.755042248736784e-05, 'epoch': 4.17}
 17%|█▋        | 13627/78504 [8:17:05<30:06:53,  1.67s/it] 17%|█▋        | 13628/78504 [8:17:07<28:45:09,  1.60s/it]                                                          {'loss': 0.1661, 'grad_norm': 0.9148986339569092, 'learning_rate': 2.75499978769479e-05, 'epoch': 4.17}
 17%|█▋        | 13628/78504 [8:17:07<28:45:09,  1.60s/it] 17%|█▋        | 13629/78504 [8:17:08<27:08:20,  1.51s/it]                                                          {'loss': 0.2169, 'grad_norm': 0.5911037921905518, 'learning_rate': 2.754957326652796e-05, 'epoch': 4.17}
 17%|█▋        | 13629/78504 [8:17:08<27:08:20,  1.51s/it] 17%|█▋        | 13630/78504 [8:17:09<25:14:24,  1.40s/it]                                                          {'loss': 0.196, 'grad_norm': 0.9484231472015381, 'learning_rate': 2.754914865610802e-05, 'epoch': 4.17}
 17%|█▋        | 13630/78504 [8:17:09<25:14:24,  1.40s/it] 17%|█▋        | 13631/78504 [8:17:10<23:39:52,  1.31s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.7973124384880066, 'learning_rate': 2.754872404568808e-05, 'epoch': 4.17}
 17%|█▋        | 13631/78504 [8:17:10<23:39:52,  1.31s/it] 17%|█▋        | 13632/78504 [8:17:11<22:13:02,  1.23s/it]                                                          {'loss': 0.1733, 'grad_norm': 0.6668093204498291, 'learning_rate': 2.754829943526814e-05, 'epoch': 4.17}
 17%|█▋        | 13632/78504 [8:17:11<22:13:02,  1.23s/it] 17%|█▋        | 13633/78504 [8:17:12<20:33:29,  1.14s/it]                                                          {'loss': 0.1965, 'grad_norm': 0.9055975079536438, 'learning_rate': 2.7547874824848202e-05, 'epoch': 4.17}
 17%|█▋        | 13633/78504 [8:17:12<20:33:29,  1.14s/it] 17%|█▋        | 13634/78504 [8:17:13<18:38:09,  1.03s/it]                                                          {'loss': 0.2257, 'grad_norm': 2.2767136096954346, 'learning_rate': 2.754745021442826e-05, 'epoch': 4.17}
 17%|█▋        | 13634/78504 [8:17:13<18:38:09,  1.03s/it] 17%|█▋        | 13635/78504 [8:17:23<65:11:16,  3.62s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.8835585713386536, 'learning_rate': 2.7547025604008323e-05, 'epoch': 4.17}
 17%|█▋        | 13635/78504 [8:17:23<65:11:16,  3.62s/it] 17%|█▋        | 13636/78504 [8:17:25<61:20:21,  3.40s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.7655414938926697, 'learning_rate': 2.7546600993588385e-05, 'epoch': 4.17}
 17%|█▋        | 13636/78504 [8:17:25<61:20:21,  3.40s/it] 17%|█▋        | 13637/78504 [8:17:28<56:48:52,  3.15s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.2782325744628906, 'learning_rate': 2.7546176383168444e-05, 'epoch': 4.17}
 17%|█▋        | 13637/78504 [8:17:28<56:48:52,  3.15s/it] 17%|█▋        | 13638/78504 [8:17:31<53:54:19,  2.99s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.29219892621040344, 'learning_rate': 2.7545751772748506e-05, 'epoch': 4.17}
 17%|█▋        | 13638/78504 [8:17:31<53:54:19,  2.99s/it] 17%|█▋        | 13639/78504 [8:17:33<51:03:29,  2.83s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.25291022658348083, 'learning_rate': 2.7545327162328565e-05, 'epoch': 4.17}
 17%|█▋        | 13639/78504 [8:17:33<51:03:29,  2.83s/it] 17%|█▋        | 13640/78504 [8:17:36<48:50:25,  2.71s/it]                                                          {'loss': 0.0578, 'grad_norm': 0.34402185678482056, 'learning_rate': 2.7544902551908627e-05, 'epoch': 4.17}
 17%|█▋        | 13640/78504 [8:17:36<48:50:25,  2.71s/it] 17%|█▋        | 13641/78504 [8:17:38<46:41:34,  2.59s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.23822307586669922, 'learning_rate': 2.7544477941488685e-05, 'epoch': 4.17}
 17%|█▋        | 13641/78504 [8:17:38<46:41:34,  2.59s/it] 17%|█▋        | 13642/78504 [8:17:40<44:03:35,  2.45s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.21404027938842773, 'learning_rate': 2.7544053331068747e-05, 'epoch': 4.17}
 17%|█▋        | 13642/78504 [8:17:40<44:03:35,  2.45s/it] 17%|█▋        | 13643/78504 [8:17:42<42:38:08,  2.37s/it]                                                          {'loss': 0.0758, 'grad_norm': 0.6928902864456177, 'learning_rate': 2.7543628720648806e-05, 'epoch': 4.17}
 17%|█▋        | 13643/78504 [8:17:42<42:38:08,  2.37s/it] 17%|█▋        | 13644/78504 [8:17:44<41:25:54,  2.30s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.2386694848537445, 'learning_rate': 2.7543204110228868e-05, 'epoch': 4.17}
 17%|█▋        | 13644/78504 [8:17:44<41:25:54,  2.30s/it] 17%|█▋        | 13645/78504 [8:17:46<39:57:23,  2.22s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.5258467793464661, 'learning_rate': 2.7542779499808927e-05, 'epoch': 4.17}
 17%|█▋        | 13645/78504 [8:17:46<39:57:23,  2.22s/it] 17%|█▋        | 13646/78504 [8:17:48<38:41:33,  2.15s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.41446709632873535, 'learning_rate': 2.754235488938899e-05, 'epoch': 4.17}
 17%|█▋        | 13646/78504 [8:17:48<38:41:33,  2.15s/it] 17%|█▋        | 13647/78504 [8:17:50<37:07:21,  2.06s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.27436861395835876, 'learning_rate': 2.7541930278969048e-05, 'epoch': 4.17}
 17%|█▋        | 13647/78504 [8:17:50<37:07:21,  2.06s/it] 17%|█▋        | 13648/78504 [8:17:52<35:54:43,  1.99s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.36093226075172424, 'learning_rate': 2.754150566854911e-05, 'epoch': 4.17}
 17%|█▋        | 13648/78504 [8:17:52<35:54:43,  1.99s/it] 17%|█▋        | 13649/78504 [8:17:54<34:43:19,  1.93s/it]                                                          {'loss': 0.1651, 'grad_norm': 0.3950074017047882, 'learning_rate': 2.754108105812917e-05, 'epoch': 4.17}
 17%|█▋        | 13649/78504 [8:17:54<34:43:19,  1.93s/it] 17%|█▋        | 13650/78504 [8:17:55<33:11:39,  1.84s/it]                                                          {'loss': 0.1471, 'grad_norm': 1.016940951347351, 'learning_rate': 2.7540656447709227e-05, 'epoch': 4.17}
 17%|█▋        | 13650/78504 [8:17:55<33:11:39,  1.84s/it] 17%|█▋        | 13651/78504 [8:17:57<31:24:07,  1.74s/it]                                                          {'loss': 0.1648, 'grad_norm': 0.6941959261894226, 'learning_rate': 2.754023183728929e-05, 'epoch': 4.17}
 17%|█▋        | 13651/78504 [8:17:57<31:24:07,  1.74s/it] 17%|█▋        | 13652/78504 [8:17:58<29:42:58,  1.65s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.5001826882362366, 'learning_rate': 2.7539807226869348e-05, 'epoch': 4.17}
 17%|█▋        | 13652/78504 [8:17:58<29:42:58,  1.65s/it] 17%|█▋        | 13653/78504 [8:18:00<28:27:34,  1.58s/it]                                                          {'loss': 0.173, 'grad_norm': 0.9830875396728516, 'learning_rate': 2.753938261644941e-05, 'epoch': 4.17}
 17%|█▋        | 13653/78504 [8:18:00<28:27:34,  1.58s/it] 17%|█▋        | 13654/78504 [8:18:01<26:30:16,  1.47s/it]                                                          {'loss': 0.172, 'grad_norm': 1.0358870029449463, 'learning_rate': 2.753895800602947e-05, 'epoch': 4.17}
 17%|█▋        | 13654/78504 [8:18:01<26:30:16,  1.47s/it] 17%|█▋        | 13655/78504 [8:18:02<24:42:30,  1.37s/it]                                                          {'loss': 0.1804, 'grad_norm': 1.5038286447525024, 'learning_rate': 2.753853339560953e-05, 'epoch': 4.17}
 17%|█▋        | 13655/78504 [8:18:02<24:42:30,  1.37s/it] 17%|█▋        | 13656/78504 [8:18:03<23:16:38,  1.29s/it]                                                          {'loss': 0.1705, 'grad_norm': 0.5542459487915039, 'learning_rate': 2.753810878518959e-05, 'epoch': 4.17}
 17%|█▋        | 13656/78504 [8:18:03<23:16:38,  1.29s/it] 17%|█▋        | 13657/78504 [8:18:04<22:00:23,  1.22s/it]                                                          {'loss': 0.2123, 'grad_norm': 1.3621718883514404, 'learning_rate': 2.753768417476965e-05, 'epoch': 4.18}
 17%|█▋        | 13657/78504 [8:18:04<22:00:23,  1.22s/it] 17%|█▋        | 13658/78504 [8:18:05<20:27:06,  1.14s/it]                                                          {'loss': 0.1684, 'grad_norm': 0.774776816368103, 'learning_rate': 2.753725956434971e-05, 'epoch': 4.18}
 17%|█▋        | 13658/78504 [8:18:05<20:27:06,  1.14s/it] 17%|█▋        | 13659/78504 [8:18:06<18:31:19,  1.03s/it]                                                          {'loss': 0.2211, 'grad_norm': 0.9957660436630249, 'learning_rate': 2.7536834953929772e-05, 'epoch': 4.18}
 17%|█▋        | 13659/78504 [8:18:06<18:31:19,  1.03s/it] 17%|█▋        | 13660/78504 [8:18:15<64:30:16,  3.58s/it]                                                          {'loss': 0.1591, 'grad_norm': 0.24926500022411346, 'learning_rate': 2.753641034350983e-05, 'epoch': 4.18}
 17%|█▋        | 13660/78504 [8:18:16<64:30:16,  3.58s/it] 17%|█▋        | 13661/78504 [8:18:18<60:47:14,  3.37s/it]                                                          {'loss': 0.0945, 'grad_norm': 0.2648554742336273, 'learning_rate': 2.7535985733089893e-05, 'epoch': 4.18}
 17%|█▋        | 13661/78504 [8:18:18<60:47:14,  3.37s/it] 17%|█▋        | 13662/78504 [8:18:21<56:25:21,  3.13s/it]                                                          {'loss': 0.0699, 'grad_norm': 0.6556075811386108, 'learning_rate': 2.7535561122669952e-05, 'epoch': 4.18}
 17%|█▋        | 13662/78504 [8:18:21<56:25:21,  3.13s/it] 17%|█▋        | 13663/78504 [8:18:24<53:36:00,  2.98s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.22760224342346191, 'learning_rate': 2.753513651225001e-05, 'epoch': 4.18}
 17%|█▋        | 13663/78504 [8:18:24<53:36:00,  2.98s/it] 17%|█▋        | 13664/78504 [8:18:26<50:51:24,  2.82s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.2605651021003723, 'learning_rate': 2.7534711901830073e-05, 'epoch': 4.18}
 17%|█▋        | 13664/78504 [8:18:26<50:51:24,  2.82s/it] 17%|█▋        | 13665/78504 [8:18:28<47:51:05,  2.66s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.5001703500747681, 'learning_rate': 2.753428729141013e-05, 'epoch': 4.18}
 17%|█▋        | 13665/78504 [8:18:28<47:51:05,  2.66s/it] 17%|█▋        | 13666/78504 [8:18:31<45:59:57,  2.55s/it]                                                          {'loss': 0.0986, 'grad_norm': 0.3141132891178131, 'learning_rate': 2.7533862680990193e-05, 'epoch': 4.18}
 17%|█▋        | 13666/78504 [8:18:31<45:59:57,  2.55s/it] 17%|█▋        | 13667/78504 [8:18:33<43:31:29,  2.42s/it]                                                          {'loss': 0.05, 'grad_norm': 0.321996808052063, 'learning_rate': 2.7533438070570252e-05, 'epoch': 4.18}
 17%|█▋        | 13667/78504 [8:18:33<43:31:29,  2.42s/it] 17%|█▋        | 13668/78504 [8:18:35<41:25:45,  2.30s/it]                                                          {'loss': 0.101, 'grad_norm': 0.33736541867256165, 'learning_rate': 2.7533013460150314e-05, 'epoch': 4.18}
 17%|█▋        | 13668/78504 [8:18:35<41:25:45,  2.30s/it] 17%|█▋        | 13669/78504 [8:18:37<40:33:15,  2.25s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.5877682566642761, 'learning_rate': 2.7532588849730373e-05, 'epoch': 4.18}
 17%|█▋        | 13669/78504 [8:18:37<40:33:15,  2.25s/it] 17%|█▋        | 13670/78504 [8:18:39<39:10:50,  2.18s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.37330934405326843, 'learning_rate': 2.7532164239310435e-05, 'epoch': 4.18}
 17%|█▋        | 13670/78504 [8:18:39<39:10:50,  2.18s/it] 17%|█▋        | 13671/78504 [8:18:41<38:08:02,  2.12s/it]                                                          {'loss': 0.088, 'grad_norm': 0.43524232506752014, 'learning_rate': 2.7531739628890494e-05, 'epoch': 4.18}
 17%|█▋        | 13671/78504 [8:18:41<38:08:02,  2.12s/it] 17%|█▋        | 13672/78504 [8:18:43<36:48:09,  2.04s/it]                                                          {'loss': 0.132, 'grad_norm': 0.7664813995361328, 'learning_rate': 2.7531315018470556e-05, 'epoch': 4.18}
 17%|█▋        | 13672/78504 [8:18:43<36:48:09,  2.04s/it] 17%|█▋        | 13673/78504 [8:18:45<35:52:48,  1.99s/it]                                                          {'loss': 0.1108, 'grad_norm': 0.47295111417770386, 'learning_rate': 2.7530890408050615e-05, 'epoch': 4.18}
 17%|█▋        | 13673/78504 [8:18:45<35:52:48,  1.99s/it] 17%|█▋        | 13674/78504 [8:18:46<34:38:49,  1.92s/it]                                                          {'loss': 0.0944, 'grad_norm': 0.43278253078460693, 'learning_rate': 2.7530465797630677e-05, 'epoch': 4.18}
 17%|█▋        | 13674/78504 [8:18:46<34:38:49,  1.92s/it] 17%|█▋        | 13675/78504 [8:18:48<33:13:21,  1.84s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.3325393795967102, 'learning_rate': 2.7530041187210735e-05, 'epoch': 4.18}
 17%|█▋        | 13675/78504 [8:18:48<33:13:21,  1.84s/it] 17%|█▋        | 13676/78504 [8:18:50<31:37:02,  1.76s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.5910556316375732, 'learning_rate': 2.7529616576790794e-05, 'epoch': 4.18}
 17%|█▋        | 13676/78504 [8:18:50<31:37:02,  1.76s/it] 17%|█▋        | 13677/78504 [8:18:51<30:00:04,  1.67s/it]                                                          {'loss': 0.1914, 'grad_norm': 0.78619784116745, 'learning_rate': 2.7529191966370856e-05, 'epoch': 4.18}
 17%|█▋        | 13677/78504 [8:18:51<30:00:04,  1.67s/it] 17%|█▋        | 13678/78504 [8:18:52<28:39:36,  1.59s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.4871615767478943, 'learning_rate': 2.7528767355950915e-05, 'epoch': 4.18}
 17%|█▋        | 13678/78504 [8:18:52<28:39:36,  1.59s/it] 17%|█▋        | 13679/78504 [8:18:54<27:00:08,  1.50s/it]                                                          {'loss': 0.2019, 'grad_norm': 0.8681051731109619, 'learning_rate': 2.7528342745530977e-05, 'epoch': 4.18}
 17%|█▋        | 13679/78504 [8:18:54<27:00:08,  1.50s/it] 17%|█▋        | 13680/78504 [8:18:55<25:00:34,  1.39s/it]                                                          {'loss': 0.1936, 'grad_norm': 0.9944502115249634, 'learning_rate': 2.7527918135111036e-05, 'epoch': 4.18}
 17%|█▋        | 13680/78504 [8:18:55<25:00:34,  1.39s/it] 17%|█▋        | 13681/78504 [8:18:56<23:26:41,  1.30s/it]                                                          {'loss': 0.2242, 'grad_norm': 0.8964234590530396, 'learning_rate': 2.7527493524691098e-05, 'epoch': 4.18}
 17%|█▋        | 13681/78504 [8:18:56<23:26:41,  1.30s/it] 17%|█▋        | 13682/78504 [8:18:57<21:44:47,  1.21s/it]                                                          {'loss': 0.2062, 'grad_norm': 0.7371673583984375, 'learning_rate': 2.7527068914271156e-05, 'epoch': 4.18}
 17%|█▋        | 13682/78504 [8:18:57<21:44:47,  1.21s/it] 17%|█▋        | 13683/78504 [8:18:58<20:21:13,  1.13s/it]                                                          {'loss': 0.2236, 'grad_norm': 1.029115080833435, 'learning_rate': 2.752664430385122e-05, 'epoch': 4.18}
 17%|█▋        | 13683/78504 [8:18:58<20:21:13,  1.13s/it] 17%|█▋        | 13684/78504 [8:18:59<18:35:00,  1.03s/it]                                                          {'loss': 0.2325, 'grad_norm': 1.9322454929351807, 'learning_rate': 2.7526219693431277e-05, 'epoch': 4.18}
 17%|█▋        | 13684/78504 [8:18:59<18:35:00,  1.03s/it] 17%|█▋        | 13685/78504 [8:19:08<63:46:31,  3.54s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.344448447227478, 'learning_rate': 2.752579508301134e-05, 'epoch': 4.18}
 17%|█▋        | 13685/78504 [8:19:08<63:46:31,  3.54s/it] 17%|█▋        | 13686/78504 [8:19:11<61:35:44,  3.42s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.2625230550765991, 'learning_rate': 2.7525370472591398e-05, 'epoch': 4.18}
 17%|█▋        | 13686/78504 [8:19:11<61:35:44,  3.42s/it] 17%|█▋        | 13687/78504 [8:19:14<59:24:49,  3.30s/it]                                                          {'loss': 0.0749, 'grad_norm': 0.6638964414596558, 'learning_rate': 2.752494586217146e-05, 'epoch': 4.18}
 17%|█▋        | 13687/78504 [8:19:14<59:24:49,  3.30s/it] 17%|█▋        | 13688/78504 [8:19:17<55:43:43,  3.10s/it]                                                          {'loss': 0.0475, 'grad_norm': 0.23204657435417175, 'learning_rate': 2.752452125175152e-05, 'epoch': 4.18}
 17%|█▋        | 13688/78504 [8:19:17<55:43:43,  3.10s/it] 17%|█▋        | 13689/78504 [8:19:19<52:19:11,  2.91s/it]                                                          {'loss': 0.0796, 'grad_norm': 0.31941676139831543, 'learning_rate': 2.7524096641331577e-05, 'epoch': 4.18}
 17%|█▋        | 13689/78504 [8:19:19<52:19:11,  2.91s/it] 17%|█▋        | 13690/78504 [8:19:22<48:52:36,  2.71s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.4776177406311035, 'learning_rate': 2.752367203091164e-05, 'epoch': 4.19}
 17%|█▋        | 13690/78504 [8:19:22<48:52:36,  2.71s/it] 17%|█▋        | 13691/78504 [8:19:24<46:41:22,  2.59s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.8182060718536377, 'learning_rate': 2.7523247420491698e-05, 'epoch': 4.19}
 17%|█▋        | 13691/78504 [8:19:24<46:41:22,  2.59s/it] 17%|█▋        | 13692/78504 [8:19:26<44:05:02,  2.45s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.26128584146499634, 'learning_rate': 2.752282281007176e-05, 'epoch': 4.19}
 17%|█▋        | 13692/78504 [8:19:26<44:05:02,  2.45s/it] 17%|█▋        | 13693/78504 [8:19:28<42:38:37,  2.37s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.3828282356262207, 'learning_rate': 2.752239819965182e-05, 'epoch': 4.19}
 17%|█▋        | 13693/78504 [8:19:28<42:38:37,  2.37s/it] 17%|█▋        | 13694/78504 [8:19:30<41:23:58,  2.30s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.202840656042099, 'learning_rate': 2.752197358923188e-05, 'epoch': 4.19}
 17%|█▋        | 13694/78504 [8:19:30<41:23:58,  2.30s/it] 17%|█▋        | 13695/78504 [8:19:32<39:56:11,  2.22s/it]                                                          {'loss': 0.081, 'grad_norm': 0.27018314599990845, 'learning_rate': 2.752154897881194e-05, 'epoch': 4.19}
 17%|█▋        | 13695/78504 [8:19:32<39:56:11,  2.22s/it] 17%|█▋        | 13696/78504 [8:19:34<38:36:46,  2.14s/it]                                                          {'loss': 0.0892, 'grad_norm': 0.6800670027732849, 'learning_rate': 2.7521124368392002e-05, 'epoch': 4.19}
 17%|█▋        | 13696/78504 [8:19:34<38:36:46,  2.14s/it] 17%|█▋        | 13697/78504 [8:19:36<37:04:16,  2.06s/it]                                                          {'loss': 0.117, 'grad_norm': 0.5062950253486633, 'learning_rate': 2.752069975797206e-05, 'epoch': 4.19}
 17%|█▋        | 13697/78504 [8:19:36<37:04:16,  2.06s/it] 17%|█▋        | 13698/78504 [8:19:38<35:53:37,  1.99s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.41888993978500366, 'learning_rate': 2.7520275147552123e-05, 'epoch': 4.19}
 17%|█▋        | 13698/78504 [8:19:38<35:53:37,  1.99s/it] 17%|█▋        | 13699/78504 [8:19:40<34:28:30,  1.92s/it]                                                          {'loss': 0.1539, 'grad_norm': 0.7992141842842102, 'learning_rate': 2.751985053713218e-05, 'epoch': 4.19}
 17%|█▋        | 13699/78504 [8:19:40<34:28:30,  1.92s/it] 17%|█▋        | 13700/78504 [8:19:41<32:58:16,  1.83s/it]                                                          {'loss': 0.1478, 'grad_norm': 1.2052396535873413, 'learning_rate': 2.751942592671224e-05, 'epoch': 4.19}
 17%|█▋        | 13700/78504 [8:19:41<32:58:16,  1.83s/it] 17%|█▋        | 13701/78504 [8:19:43<31:27:45,  1.75s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.5735210180282593, 'learning_rate': 2.7519001316292302e-05, 'epoch': 4.19}
 17%|█▋        | 13701/78504 [8:19:43<31:27:45,  1.75s/it] 17%|█▋        | 13702/78504 [8:19:44<29:43:40,  1.65s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.576945960521698, 'learning_rate': 2.751857670587236e-05, 'epoch': 4.19}
 17%|█▋        | 13702/78504 [8:19:44<29:43:40,  1.65s/it] 17%|█▋        | 13703/78504 [8:19:46<28:25:15,  1.58s/it]                                                          {'loss': 0.1541, 'grad_norm': 0.47089684009552, 'learning_rate': 2.7518152095452423e-05, 'epoch': 4.19}
 17%|█▋        | 13703/78504 [8:19:46<28:25:15,  1.58s/it] 17%|█▋        | 13704/78504 [8:19:47<26:26:30,  1.47s/it]                                                          {'loss': 0.1919, 'grad_norm': 1.479016900062561, 'learning_rate': 2.751772748503248e-05, 'epoch': 4.19}
 17%|█▋        | 13704/78504 [8:19:47<26:26:30,  1.47s/it] 17%|█▋        | 13705/78504 [8:19:48<24:44:16,  1.37s/it]                                                          {'loss': 0.1879, 'grad_norm': 1.299822211265564, 'learning_rate': 2.7517302874612544e-05, 'epoch': 4.19}
 17%|█▋        | 13705/78504 [8:19:48<24:44:16,  1.37s/it] 17%|█▋        | 13706/78504 [8:19:49<23:15:43,  1.29s/it]                                                          {'loss': 0.167, 'grad_norm': 0.911543071269989, 'learning_rate': 2.7516878264192602e-05, 'epoch': 4.19}
 17%|█▋        | 13706/78504 [8:19:49<23:15:43,  1.29s/it] 17%|█▋        | 13707/78504 [8:19:50<21:39:30,  1.20s/it]                                                          {'loss': 0.2194, 'grad_norm': 1.4794093370437622, 'learning_rate': 2.7516453653772665e-05, 'epoch': 4.19}
 17%|█▋        | 13707/78504 [8:19:50<21:39:30,  1.20s/it] 17%|█▋        | 13708/78504 [8:19:51<20:07:58,  1.12s/it]                                                          {'loss': 0.2493, 'grad_norm': 1.060352087020874, 'learning_rate': 2.7516029043352723e-05, 'epoch': 4.19}
 17%|█▋        | 13708/78504 [8:19:51<20:07:58,  1.12s/it] 17%|█▋        | 13709/78504 [8:19:52<18:05:30,  1.01s/it]                                                          {'loss': 0.2453, 'grad_norm': 0.982745885848999, 'learning_rate': 2.7515604432932785e-05, 'epoch': 4.19}
 17%|█▋        | 13709/78504 [8:19:52<18:05:30,  1.01s/it] 17%|█▋        | 13710/78504 [8:19:59<49:59:01,  2.78s/it]                                                          {'loss': 0.1707, 'grad_norm': 0.5419291257858276, 'learning_rate': 2.7515179822512844e-05, 'epoch': 4.19}
 17%|█▋        | 13710/78504 [8:19:59<49:59:01,  2.78s/it] 17%|█▋        | 13711/78504 [8:20:02<51:50:00,  2.88s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.23354953527450562, 'learning_rate': 2.7514755212092906e-05, 'epoch': 4.19}
 17%|█▋        | 13711/78504 [8:20:02<51:50:00,  2.88s/it] 17%|█▋        | 13712/78504 [8:20:05<52:34:22,  2.92s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.43485745787620544, 'learning_rate': 2.7514330601672965e-05, 'epoch': 4.19}
 17%|█▋        | 13712/78504 [8:20:05<52:34:22,  2.92s/it] 17%|█▋        | 13713/78504 [8:20:08<50:53:29,  2.83s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.3912777304649353, 'learning_rate': 2.7513905991253023e-05, 'epoch': 4.19}
 17%|█▋        | 13713/78504 [8:20:08<50:53:29,  2.83s/it] 17%|█▋        | 13714/78504 [8:20:10<48:55:07,  2.72s/it]                                                          {'loss': 0.0442, 'grad_norm': 0.2281094491481781, 'learning_rate': 2.7513481380833086e-05, 'epoch': 4.19}
 17%|█▋        | 13714/78504 [8:20:10<48:55:07,  2.72s/it] 17%|█▋        | 13715/78504 [8:20:12<46:29:30,  2.58s/it]                                                          {'loss': 0.075, 'grad_norm': 0.543449342250824, 'learning_rate': 2.7513056770413144e-05, 'epoch': 4.19}
 17%|█▋        | 13715/78504 [8:20:12<46:29:30,  2.58s/it] 17%|█▋        | 13716/78504 [8:20:15<45:02:03,  2.50s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.19872912764549255, 'learning_rate': 2.7512632159993206e-05, 'epoch': 4.19}
 17%|█▋        | 13716/78504 [8:20:15<45:02:03,  2.50s/it] 17%|█▋        | 13717/78504 [8:20:17<42:51:47,  2.38s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.3730262219905853, 'learning_rate': 2.7512207549573265e-05, 'epoch': 4.19}
 17%|█▋        | 13717/78504 [8:20:17<42:51:47,  2.38s/it] 17%|█▋        | 13718/78504 [8:20:19<40:57:57,  2.28s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.9778617024421692, 'learning_rate': 2.7511782939153327e-05, 'epoch': 4.19}
 17%|█▋        | 13718/78504 [8:20:19<40:57:57,  2.28s/it] 17%|█▋        | 13719/78504 [8:20:21<40:12:59,  2.23s/it]                                                          {'loss': 0.0825, 'grad_norm': 1.2817440032958984, 'learning_rate': 2.7511358328733386e-05, 'epoch': 4.19}
 17%|█▋        | 13719/78504 [8:20:21<40:12:59,  2.23s/it] 17%|█▋        | 13720/78504 [8:20:23<39:04:44,  2.17s/it]                                                          {'loss': 0.083, 'grad_norm': 0.2737765312194824, 'learning_rate': 2.7510933718313448e-05, 'epoch': 4.19}
 17%|█▋        | 13720/78504 [8:20:23<39:04:44,  2.17s/it] 17%|█▋        | 13721/78504 [8:20:25<37:02:12,  2.06s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.3809559643268585, 'learning_rate': 2.7510509107893507e-05, 'epoch': 4.19}
 17%|█▋        | 13721/78504 [8:20:25<37:02:12,  2.06s/it] 17%|█▋        | 13722/78504 [8:20:27<35:59:17,  2.00s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.44486045837402344, 'learning_rate': 2.751008449747357e-05, 'epoch': 4.2}
 17%|█▋        | 13722/78504 [8:20:27<35:59:17,  2.00s/it] 17%|█▋        | 13723/78504 [8:20:28<35:09:56,  1.95s/it]                                                          {'loss': 0.1252, 'grad_norm': 0.5720708966255188, 'learning_rate': 2.7509659887053627e-05, 'epoch': 4.2}
 17%|█▋        | 13723/78504 [8:20:28<35:09:56,  1.95s/it] 17%|█▋        | 13724/78504 [8:20:30<33:57:22,  1.89s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.7673816680908203, 'learning_rate': 2.750923527663369e-05, 'epoch': 4.2}
 17%|█▋        | 13724/78504 [8:20:30<33:57:22,  1.89s/it] 17%|█▋        | 13725/78504 [8:20:32<32:39:45,  1.82s/it]                                                          {'loss': 0.159, 'grad_norm': 0.5045298337936401, 'learning_rate': 2.7508810666213748e-05, 'epoch': 4.2}
 17%|█▋        | 13725/78504 [8:20:32<32:39:45,  1.82s/it] 17%|█▋        | 13726/78504 [8:20:33<31:13:02,  1.73s/it]                                                          {'loss': 0.1562, 'grad_norm': 2.966996669769287, 'learning_rate': 2.7508386055793807e-05, 'epoch': 4.2}
 17%|█▋        | 13726/78504 [8:20:33<31:13:02,  1.73s/it] 17%|█▋        | 13727/78504 [8:20:35<29:33:28,  1.64s/it]                                                          {'loss': 0.2026, 'grad_norm': 1.1346765756607056, 'learning_rate': 2.750796144537387e-05, 'epoch': 4.2}
 17%|█▋        | 13727/78504 [8:20:35<29:33:28,  1.64s/it] 17%|█▋        | 13728/78504 [8:20:36<28:17:45,  1.57s/it]                                                          {'loss': 0.1605, 'grad_norm': 1.0485683679580688, 'learning_rate': 2.7507536834953928e-05, 'epoch': 4.2}
 17%|█▋        | 13728/78504 [8:20:36<28:17:45,  1.57s/it] 17%|█▋        | 13729/78504 [8:20:37<26:45:13,  1.49s/it]                                                          {'loss': 0.1565, 'grad_norm': 0.6726252436637878, 'learning_rate': 2.750711222453399e-05, 'epoch': 4.2}
 17%|█▋        | 13729/78504 [8:20:38<26:45:13,  1.49s/it] 17%|█▋        | 13730/78504 [8:20:39<24:49:19,  1.38s/it]                                                          {'loss': 0.1801, 'grad_norm': 0.7929691076278687, 'learning_rate': 2.750668761411405e-05, 'epoch': 4.2}
 17%|█▋        | 13730/78504 [8:20:39<24:49:19,  1.38s/it] 17%|█▋        | 13731/78504 [8:20:40<23:22:02,  1.30s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.9206365346908569, 'learning_rate': 2.750626300369411e-05, 'epoch': 4.2}
 17%|█▋        | 13731/78504 [8:20:40<23:22:02,  1.30s/it] 17%|█▋        | 13732/78504 [8:20:41<21:44:14,  1.21s/it]                                                          {'loss': 0.2049, 'grad_norm': 1.3431751728057861, 'learning_rate': 2.750583839327417e-05, 'epoch': 4.2}
 17%|█▋        | 13732/78504 [8:20:41<21:44:14,  1.21s/it] 17%|█▋        | 13733/78504 [8:20:42<20:16:24,  1.13s/it]                                                          {'loss': 0.2015, 'grad_norm': 1.125525712966919, 'learning_rate': 2.750541378285423e-05, 'epoch': 4.2}
 17%|█▋        | 13733/78504 [8:20:42<20:16:24,  1.13s/it] 17%|█▋        | 13734/78504 [8:20:42<18:24:04,  1.02s/it]                                                          {'loss': 0.2987, 'grad_norm': 1.3718639612197876, 'learning_rate': 2.750498917243429e-05, 'epoch': 4.2}
 17%|█▋        | 13734/78504 [8:20:42<18:24:04,  1.02s/it] 17%|█▋        | 13735/78504 [8:20:50<55:07:20,  3.06s/it]                                                          {'loss': 0.1343, 'grad_norm': 0.3926018476486206, 'learning_rate': 2.7504564562014352e-05, 'epoch': 4.2}
 17%|█▋        | 13735/78504 [8:20:50<55:07:20,  3.06s/it] 17%|█▋        | 13736/78504 [8:20:53<55:22:54,  3.08s/it]                                                          {'loss': 0.0777, 'grad_norm': 0.2784746587276459, 'learning_rate': 2.750413995159441e-05, 'epoch': 4.2}
 17%|█▋        | 13736/78504 [8:20:53<55:22:54,  3.08s/it] 17%|█▋        | 13737/78504 [8:20:56<54:52:39,  3.05s/it]                                                          {'loss': 0.065, 'grad_norm': 0.44061052799224854, 'learning_rate': 2.7503715341174473e-05, 'epoch': 4.2}
 17%|█▋        | 13737/78504 [8:20:56<54:52:39,  3.05s/it] 17%|█▋        | 13738/78504 [8:20:59<52:20:50,  2.91s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.2717010974884033, 'learning_rate': 2.7503290730754535e-05, 'epoch': 4.2}
 17%|█▋        | 13738/78504 [8:20:59<52:20:50,  2.91s/it] 18%|█▊        | 13739/78504 [8:21:01<50:04:52,  2.78s/it]                                                          {'loss': 0.0504, 'grad_norm': 0.2224300354719162, 'learning_rate': 2.7502866120334594e-05, 'epoch': 4.2}
 18%|█▊        | 13739/78504 [8:21:01<50:04:52,  2.78s/it] 18%|█▊        | 13740/78504 [8:21:04<46:54:55,  2.61s/it]                                                          {'loss': 0.0893, 'grad_norm': 1.0398123264312744, 'learning_rate': 2.7502441509914656e-05, 'epoch': 4.2}
 18%|█▊        | 13740/78504 [8:21:04<46:54:55,  2.61s/it] 18%|█▊        | 13741/78504 [8:21:06<45:26:45,  2.53s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.3322748839855194, 'learning_rate': 2.7502016899494715e-05, 'epoch': 4.2}
 18%|█▊        | 13741/78504 [8:21:06<45:26:45,  2.53s/it] 18%|█▊        | 13742/78504 [8:21:08<43:05:11,  2.40s/it]                                                          {'loss': 0.0753, 'grad_norm': 0.22089943289756775, 'learning_rate': 2.7501592289074777e-05, 'epoch': 4.2}
 18%|█▊        | 13742/78504 [8:21:08<43:05:11,  2.40s/it] 18%|█▊        | 13743/78504 [8:21:10<41:55:25,  2.33s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.22454270720481873, 'learning_rate': 2.7501167678654835e-05, 'epoch': 4.2}
 18%|█▊        | 13743/78504 [8:21:10<41:55:25,  2.33s/it] 18%|█▊        | 13744/78504 [8:21:12<40:55:09,  2.27s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.243051677942276, 'learning_rate': 2.7500743068234897e-05, 'epoch': 4.2}
 18%|█▊        | 13744/78504 [8:21:12<40:55:09,  2.27s/it] 18%|█▊        | 13745/78504 [8:21:14<39:33:40,  2.20s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.5838326215744019, 'learning_rate': 2.7500318457814956e-05, 'epoch': 4.2}
 18%|█▊        | 13745/78504 [8:21:14<39:33:40,  2.20s/it] 18%|█▊        | 13746/78504 [8:21:16<38:21:16,  2.13s/it]                                                          {'loss': 0.0675, 'grad_norm': 0.31176891922950745, 'learning_rate': 2.7499893847395018e-05, 'epoch': 4.2}
 18%|█▊        | 13746/78504 [8:21:16<38:21:16,  2.13s/it] 18%|█▊        | 13747/78504 [8:21:18<36:53:11,  2.05s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.5504496693611145, 'learning_rate': 2.7499469236975077e-05, 'epoch': 4.2}
 18%|█▊        | 13747/78504 [8:21:18<36:53:11,  2.05s/it] 18%|█▊        | 13748/78504 [8:21:20<35:44:51,  1.99s/it]                                                          {'loss': 0.119, 'grad_norm': 0.4782331585884094, 'learning_rate': 2.749904462655514e-05, 'epoch': 4.2}
 18%|█▊        | 13748/78504 [8:21:20<35:44:51,  1.99s/it] 18%|█▊        | 13749/78504 [8:21:22<34:21:28,  1.91s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.3925847113132477, 'learning_rate': 2.7498620016135198e-05, 'epoch': 4.2}
 18%|█▊        | 13749/78504 [8:21:22<34:21:28,  1.91s/it] 18%|█▊        | 13750/78504 [8:21:23<32:55:43,  1.83s/it]                                                          {'loss': 0.148, 'grad_norm': 0.6280595660209656, 'learning_rate': 2.749819540571526e-05, 'epoch': 4.2}
 18%|█▊        | 13750/78504 [8:21:23<32:55:43,  1.83s/it] 18%|█▊        | 13751/78504 [8:21:25<31:14:46,  1.74s/it]                                                          {'loss': 0.1727, 'grad_norm': 1.0692858695983887, 'learning_rate': 2.749777079529532e-05, 'epoch': 4.2}
 18%|█▊        | 13751/78504 [8:21:25<31:14:46,  1.74s/it] 18%|█▊        | 13752/78504 [8:21:26<29:45:58,  1.65s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.628257691860199, 'learning_rate': 2.7497346184875377e-05, 'epoch': 4.2}
 18%|█▊        | 13752/78504 [8:21:26<29:45:58,  1.65s/it] 18%|█▊        | 13753/78504 [8:21:28<28:28:56,  1.58s/it]                                                          {'loss': 0.1475, 'grad_norm': 0.6037154197692871, 'learning_rate': 2.749692157445544e-05, 'epoch': 4.2}
 18%|█▊        | 13753/78504 [8:21:28<28:28:56,  1.58s/it] 18%|█▊        | 13754/78504 [8:21:29<26:52:27,  1.49s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.8773321509361267, 'learning_rate': 2.7496496964035498e-05, 'epoch': 4.2}
 18%|█▊        | 13754/78504 [8:21:29<26:52:27,  1.49s/it] 18%|█▊        | 13755/78504 [8:21:30<24:53:18,  1.38s/it]                                                          {'loss': 0.164, 'grad_norm': 0.6949993968009949, 'learning_rate': 2.749607235361556e-05, 'epoch': 4.21}
 18%|█▊        | 13755/78504 [8:21:30<24:53:18,  1.38s/it] 18%|█▊        | 13756/78504 [8:21:31<23:17:35,  1.30s/it]                                                          {'loss': 0.2191, 'grad_norm': 28.119911193847656, 'learning_rate': 2.749564774319562e-05, 'epoch': 4.21}
 18%|█▊        | 13756/78504 [8:21:31<23:17:35,  1.30s/it] 18%|█▊        | 13757/78504 [8:21:32<21:40:24,  1.21s/it]                                                          {'loss': 0.2052, 'grad_norm': 0.941990315914154, 'learning_rate': 2.749522313277568e-05, 'epoch': 4.21}
 18%|█▊        | 13757/78504 [8:21:32<21:40:24,  1.21s/it] 18%|█▊        | 13758/78504 [8:21:33<20:12:13,  1.12s/it]                                                          {'loss': 0.2102, 'grad_norm': 1.1734488010406494, 'learning_rate': 2.749479852235574e-05, 'epoch': 4.21}
 18%|█▊        | 13758/78504 [8:21:33<20:12:13,  1.12s/it] 18%|█▊        | 13759/78504 [8:21:34<18:22:18,  1.02s/it]                                                          {'loss': 0.2313, 'grad_norm': 0.7846343517303467, 'learning_rate': 2.74943739119358e-05, 'epoch': 4.21}
 18%|█▊        | 13759/78504 [8:21:34<18:22:18,  1.02s/it] 18%|█▊        | 13760/78504 [8:21:41<51:37:11,  2.87s/it]                                                          {'loss': 0.1412, 'grad_norm': 0.36135348677635193, 'learning_rate': 2.749394930151586e-05, 'epoch': 4.21}
 18%|█▊        | 13760/78504 [8:21:41<51:37:11,  2.87s/it] 18%|█▊        | 13761/78504 [8:21:45<54:16:09,  3.02s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.22758997976779938, 'learning_rate': 2.7493524691095922e-05, 'epoch': 4.21}
 18%|█▊        | 13761/78504 [8:21:45<54:16:09,  3.02s/it] 18%|█▊        | 13762/78504 [8:21:48<53:43:20,  2.99s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.21047718822956085, 'learning_rate': 2.749310008067598e-05, 'epoch': 4.21}
 18%|█▊        | 13762/78504 [8:21:48<53:43:20,  2.99s/it] 18%|█▊        | 13763/78504 [8:21:50<51:30:54,  2.86s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.24599620699882507, 'learning_rate': 2.7492675470256043e-05, 'epoch': 4.21}
 18%|█▊        | 13763/78504 [8:21:50<51:30:54,  2.86s/it] 18%|█▊        | 13764/78504 [8:21:53<49:22:49,  2.75s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.2903871238231659, 'learning_rate': 2.7492250859836102e-05, 'epoch': 4.21}
 18%|█▊        | 13764/78504 [8:21:53<49:22:49,  2.75s/it] 18%|█▊        | 13765/78504 [8:21:55<47:41:11,  2.65s/it]                                                          {'loss': 0.066, 'grad_norm': 0.4169386923313141, 'learning_rate': 2.749182624941616e-05, 'epoch': 4.21}
 18%|█▊        | 13765/78504 [8:21:55<47:41:11,  2.65s/it] 18%|█▊        | 13766/78504 [8:21:57<45:52:29,  2.55s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.2549358606338501, 'learning_rate': 2.7491401638996223e-05, 'epoch': 4.21}
 18%|█▊        | 13766/78504 [8:21:57<45:52:29,  2.55s/it] 18%|█▊        | 13767/78504 [8:21:59<43:23:10,  2.41s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.9725632667541504, 'learning_rate': 2.749097702857628e-05, 'epoch': 4.21}
 18%|█▊        | 13767/78504 [8:21:59<43:23:10,  2.41s/it] 18%|█▊        | 13768/78504 [8:22:02<42:09:55,  2.34s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.414288729429245, 'learning_rate': 2.7490552418156343e-05, 'epoch': 4.21}
 18%|█▊        | 13768/78504 [8:22:02<42:09:55,  2.34s/it] 18%|█▊        | 13769/78504 [8:22:04<41:04:01,  2.28s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.37708425521850586, 'learning_rate': 2.7490127807736402e-05, 'epoch': 4.21}
 18%|█▊        | 13769/78504 [8:22:04<41:04:01,  2.28s/it] 18%|█▊        | 13770/78504 [8:22:06<38:45:36,  2.16s/it]                                                          {'loss': 0.0775, 'grad_norm': 0.35756930708885193, 'learning_rate': 2.7489703197316464e-05, 'epoch': 4.21}
 18%|█▊        | 13770/78504 [8:22:06<38:45:36,  2.16s/it] 18%|█▊        | 13771/78504 [8:22:08<37:48:20,  2.10s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.2809881567955017, 'learning_rate': 2.7489278586896523e-05, 'epoch': 4.21}
 18%|█▊        | 13771/78504 [8:22:08<37:48:20,  2.10s/it] 18%|█▊        | 13772/78504 [8:22:09<36:49:10,  2.05s/it]                                                          {'loss': 0.1118, 'grad_norm': 0.7827501893043518, 'learning_rate': 2.7488853976476585e-05, 'epoch': 4.21}
 18%|█▊        | 13772/78504 [8:22:10<36:49:10,  2.05s/it] 18%|█▊        | 13773/78504 [8:22:11<35:55:56,  2.00s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.30876198410987854, 'learning_rate': 2.7488429366056644e-05, 'epoch': 4.21}
 18%|█▊        | 13773/78504 [8:22:11<35:55:56,  2.00s/it] 18%|█▊        | 13774/78504 [8:22:13<34:40:41,  1.93s/it]                                                          {'loss': 0.1127, 'grad_norm': 0.3686000108718872, 'learning_rate': 2.7488004755636706e-05, 'epoch': 4.21}
 18%|█▊        | 13774/78504 [8:22:13<34:40:41,  1.93s/it] 18%|█▊        | 13775/78504 [8:22:15<32:46:44,  1.82s/it]                                                          {'loss': 0.1401, 'grad_norm': 0.5875163078308105, 'learning_rate': 2.7487580145216765e-05, 'epoch': 4.21}
 18%|█▊        | 13775/78504 [8:22:15<32:46:44,  1.82s/it] 18%|█▊        | 13776/78504 [8:22:16<31:13:52,  1.74s/it]                                                          {'loss': 0.1299, 'grad_norm': 1.2649998664855957, 'learning_rate': 2.7487155534796827e-05, 'epoch': 4.21}
 18%|█▊        | 13776/78504 [8:22:16<31:13:52,  1.74s/it] 18%|█▊        | 13777/78504 [8:22:18<30:04:19,  1.67s/it]                                                          {'loss': 0.1427, 'grad_norm': 0.591430127620697, 'learning_rate': 2.7486730924376885e-05, 'epoch': 4.21}
 18%|█▊        | 13777/78504 [8:22:18<30:04:19,  1.67s/it] 18%|█▊        | 13778/78504 [8:22:19<28:33:11,  1.59s/it]                                                          {'loss': 0.1715, 'grad_norm': 4.961968421936035, 'learning_rate': 2.7486306313956944e-05, 'epoch': 4.21}
 18%|█▊        | 13778/78504 [8:22:19<28:33:11,  1.59s/it] 18%|█▊        | 13779/78504 [8:22:20<26:53:09,  1.50s/it]                                                          {'loss': 0.1885, 'grad_norm': 1.5561696290969849, 'learning_rate': 2.7485881703537006e-05, 'epoch': 4.21}
 18%|█▊        | 13779/78504 [8:22:20<26:53:09,  1.50s/it] 18%|█▊        | 13780/78504 [8:22:22<25:00:27,  1.39s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.7640284299850464, 'learning_rate': 2.7485457093117065e-05, 'epoch': 4.21}
 18%|█▊        | 13780/78504 [8:22:22<25:00:27,  1.39s/it] 18%|█▊        | 13781/78504 [8:22:23<23:26:05,  1.30s/it]                                                          {'loss': 0.2179, 'grad_norm': 1.518105387687683, 'learning_rate': 2.7485032482697127e-05, 'epoch': 4.21}
 18%|█▊        | 13781/78504 [8:22:23<23:26:05,  1.30s/it] 18%|█▊        | 13782/78504 [8:22:24<21:51:16,  1.22s/it]                                                          {'loss': 0.209, 'grad_norm': 1.1905827522277832, 'learning_rate': 2.7484607872277186e-05, 'epoch': 4.21}
 18%|█▊        | 13782/78504 [8:22:24<21:51:16,  1.22s/it] 18%|█▊        | 13783/78504 [8:22:25<20:22:46,  1.13s/it]                                                          {'loss': 0.2115, 'grad_norm': 1.2299885749816895, 'learning_rate': 2.7484183261857248e-05, 'epoch': 4.21}
 18%|█▊        | 13783/78504 [8:22:25<20:22:46,  1.13s/it] 18%|█▊        | 13784/78504 [8:22:25<18:28:42,  1.03s/it]                                                          {'loss': 0.2585, 'grad_norm': 1.0036016702651978, 'learning_rate': 2.7483758651437306e-05, 'epoch': 4.21}
 18%|█▊        | 13784/78504 [8:22:25<18:28:42,  1.03s/it] 18%|█▊        | 13785/78504 [8:22:36<67:26:43,  3.75s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.515030026435852, 'learning_rate': 2.748333404101737e-05, 'epoch': 4.21}
 18%|█▊        | 13785/78504 [8:22:36<67:26:43,  3.75s/it] 18%|█▊        | 13786/78504 [8:22:39<64:05:25,  3.57s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.25420722365379333, 'learning_rate': 2.7482909430597427e-05, 'epoch': 4.21}
 18%|█▊        | 13786/78504 [8:22:39<64:05:25,  3.57s/it] 18%|█▊        | 13787/78504 [8:22:41<58:44:33,  3.27s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.37479323148727417, 'learning_rate': 2.748248482017749e-05, 'epoch': 4.21}
 18%|█▊        | 13787/78504 [8:22:41<58:44:33,  3.27s/it] 18%|█▊        | 13788/78504 [8:22:44<55:12:24,  3.07s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.21312826871871948, 'learning_rate': 2.7482060209757548e-05, 'epoch': 4.22}
 18%|█▊        | 13788/78504 [8:22:44<55:12:24,  3.07s/it] 18%|█▊        | 13789/78504 [8:22:46<52:03:10,  2.90s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.3124435245990753, 'learning_rate': 2.748163559933761e-05, 'epoch': 4.22}
 18%|█▊        | 13789/78504 [8:22:46<52:03:10,  2.90s/it] 18%|█▊        | 13790/78504 [8:22:49<49:30:25,  2.75s/it]                                                          {'loss': 0.0378, 'grad_norm': 0.3738439977169037, 'learning_rate': 2.748121098891767e-05, 'epoch': 4.22}
 18%|█▊        | 13790/78504 [8:22:49<49:30:25,  2.75s/it] 18%|█▊        | 13791/78504 [8:22:51<47:08:23,  2.62s/it]                                                          {'loss': 0.0418, 'grad_norm': 0.2369433492422104, 'learning_rate': 2.7480786378497727e-05, 'epoch': 4.22}
 18%|█▊        | 13791/78504 [8:22:51<47:08:23,  2.62s/it] 18%|█▊        | 13792/78504 [8:22:53<44:22:11,  2.47s/it]                                                          {'loss': 0.07, 'grad_norm': 0.223827064037323, 'learning_rate': 2.748036176807779e-05, 'epoch': 4.22}
 18%|█▊        | 13792/78504 [8:22:53<44:22:11,  2.47s/it] 18%|█▊        | 13793/78504 [8:22:55<42:52:27,  2.39s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.24607685208320618, 'learning_rate': 2.7479937157657848e-05, 'epoch': 4.22}
 18%|█▊        | 13793/78504 [8:22:55<42:52:27,  2.39s/it] 18%|█▊        | 13794/78504 [8:22:58<41:40:49,  2.32s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.4022452235221863, 'learning_rate': 2.747951254723791e-05, 'epoch': 4.22}
 18%|█▊        | 13794/78504 [8:22:58<41:40:49,  2.32s/it] 18%|█▊        | 13795/78504 [8:22:59<39:15:40,  2.18s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.3804295063018799, 'learning_rate': 2.747908793681797e-05, 'epoch': 4.22}
 18%|█▊        | 13795/78504 [8:22:59<39:15:40,  2.18s/it] 18%|█▊        | 13796/78504 [8:23:01<38:13:00,  2.13s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.4162552058696747, 'learning_rate': 2.747866332639803e-05, 'epoch': 4.22}
 18%|█▊        | 13796/78504 [8:23:01<38:13:00,  2.13s/it] 18%|█▊        | 13797/78504 [8:23:03<37:06:21,  2.06s/it]                                                          {'loss': 0.1447, 'grad_norm': 0.4988885521888733, 'learning_rate': 2.747823871597809e-05, 'epoch': 4.22}
 18%|█▊        | 13797/78504 [8:23:03<37:06:21,  2.06s/it] 18%|█▊        | 13798/78504 [8:23:05<37:16:11,  2.07s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.3756488263607025, 'learning_rate': 2.7477814105558152e-05, 'epoch': 4.22}
 18%|█▊        | 13798/78504 [8:23:05<37:16:11,  2.07s/it] 18%|█▊        | 13799/78504 [8:23:07<35:36:47,  1.98s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.4009400010108948, 'learning_rate': 2.747738949513821e-05, 'epoch': 4.22}
 18%|█▊        | 13799/78504 [8:23:07<35:36:47,  1.98s/it] 18%|█▊        | 13800/78504 [8:23:09<33:48:36,  1.88s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.47158563137054443, 'learning_rate': 2.7476964884718273e-05, 'epoch': 4.22}
 18%|█▊        | 13800/78504 [8:23:09<33:48:36,  1.88s/it] 18%|█▊        | 13801/78504 [8:23:10<31:47:45,  1.77s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.8809833526611328, 'learning_rate': 2.747654027429833e-05, 'epoch': 4.22}
 18%|█▊        | 13801/78504 [8:23:10<31:47:45,  1.77s/it] 18%|█▊        | 13802/78504 [8:23:12<30:26:41,  1.69s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.5143085718154907, 'learning_rate': 2.7476115663878393e-05, 'epoch': 4.22}
 18%|█▊        | 13802/78504 [8:23:12<30:26:41,  1.69s/it] 18%|█▊        | 13803/78504 [8:23:13<28:50:23,  1.60s/it]                                                          {'loss': 0.1787, 'grad_norm': 1.02666175365448, 'learning_rate': 2.7475691053458452e-05, 'epoch': 4.22}
 18%|█▊        | 13803/78504 [8:23:13<28:50:23,  1.60s/it] 18%|█▊        | 13804/78504 [8:23:15<27:05:38,  1.51s/it]                                                          {'loss': 0.1633, 'grad_norm': 0.5622339844703674, 'learning_rate': 2.747526644303851e-05, 'epoch': 4.22}
 18%|█▊        | 13804/78504 [8:23:15<27:05:38,  1.51s/it] 18%|█▊        | 13805/78504 [8:23:16<25:07:38,  1.40s/it]                                                          {'loss': 0.1615, 'grad_norm': 2.072927474975586, 'learning_rate': 2.7474841832618573e-05, 'epoch': 4.22}
 18%|█▊        | 13805/78504 [8:23:16<25:07:38,  1.40s/it] 18%|█▊        | 13806/78504 [8:23:17<23:27:37,  1.31s/it]                                                          {'loss': 0.1963, 'grad_norm': 0.8734936118125916, 'learning_rate': 2.747441722219863e-05, 'epoch': 4.22}
 18%|█▊        | 13806/78504 [8:23:17<23:27:37,  1.31s/it] 18%|█▊        | 13807/78504 [8:23:18<21:49:51,  1.21s/it]                                                          {'loss': 0.1679, 'grad_norm': 0.9814215302467346, 'learning_rate': 2.7473992611778694e-05, 'epoch': 4.22}
 18%|█▊        | 13807/78504 [8:23:18<21:49:51,  1.21s/it] 18%|█▊        | 13808/78504 [8:23:19<20:19:49,  1.13s/it]                                                          {'loss': 0.1866, 'grad_norm': 0.6813483834266663, 'learning_rate': 2.7473568001358752e-05, 'epoch': 4.22}
 18%|█▊        | 13808/78504 [8:23:19<20:19:49,  1.13s/it] 18%|█▊        | 13809/78504 [8:23:19<18:26:22,  1.03s/it]                                                          {'loss': 0.2162, 'grad_norm': 3.0188639163970947, 'learning_rate': 2.7473143390938815e-05, 'epoch': 4.22}
 18%|█▊        | 13809/78504 [8:23:20<18:26:22,  1.03s/it] 18%|█▊        | 13810/78504 [8:23:28<56:36:53,  3.15s/it]                                                          {'loss': 0.1584, 'grad_norm': 1.3024553060531616, 'learning_rate': 2.7472718780518873e-05, 'epoch': 4.22}
 18%|█▊        | 13810/78504 [8:23:28<56:36:53,  3.15s/it] 18%|█▊        | 13811/78504 [8:23:31<57:45:08,  3.21s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.23311316967010498, 'learning_rate': 2.7472294170098935e-05, 'epoch': 4.22}
 18%|█▊        | 13811/78504 [8:23:31<57:45:08,  3.21s/it] 18%|█▊        | 13812/78504 [8:23:34<54:15:44,  3.02s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.272676557302475, 'learning_rate': 2.7471869559678994e-05, 'epoch': 4.22}
 18%|█▊        | 13812/78504 [8:23:34<54:15:44,  3.02s/it] 18%|█▊        | 13813/78504 [8:23:36<52:04:47,  2.90s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.23014971613883972, 'learning_rate': 2.7471444949259056e-05, 'epoch': 4.22}
 18%|█▊        | 13813/78504 [8:23:36<52:04:47,  2.90s/it] 18%|█▊        | 13814/78504 [8:23:39<49:44:05,  2.77s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.3350631296634674, 'learning_rate': 2.7471020338839115e-05, 'epoch': 4.22}
 18%|█▊        | 13814/78504 [8:23:39<49:44:05,  2.77s/it] 18%|█▊        | 13815/78504 [8:23:41<47:01:53,  2.62s/it]                                                          {'loss': 0.0431, 'grad_norm': 0.2058342546224594, 'learning_rate': 2.7470595728419174e-05, 'epoch': 4.22}
 18%|█▊        | 13815/78504 [8:23:41<47:01:53,  2.62s/it] 18%|█▊        | 13816/78504 [8:23:43<45:24:34,  2.53s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.4205544888973236, 'learning_rate': 2.7470171117999236e-05, 'epoch': 4.22}
 18%|█▊        | 13816/78504 [8:23:43<45:24:34,  2.53s/it] 18%|█▊        | 13817/78504 [8:23:45<43:04:40,  2.40s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.6880265474319458, 'learning_rate': 2.7469746507579294e-05, 'epoch': 4.22}
 18%|█▊        | 13817/78504 [8:23:45<43:04:40,  2.40s/it] 18%|█▊        | 13818/78504 [8:23:47<41:56:01,  2.33s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.41358622908592224, 'learning_rate': 2.7469321897159356e-05, 'epoch': 4.22}
 18%|█▊        | 13818/78504 [8:23:47<41:56:01,  2.33s/it] 18%|█▊        | 13819/78504 [8:23:50<40:53:24,  2.28s/it]                                                          {'loss': 0.0939, 'grad_norm': 0.23911304771900177, 'learning_rate': 2.7468897286739415e-05, 'epoch': 4.22}
 18%|█▊        | 13819/78504 [8:23:50<40:53:24,  2.28s/it] 18%|█▊        | 13820/78504 [8:23:52<39:34:33,  2.20s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.3329553008079529, 'learning_rate': 2.7468472676319477e-05, 'epoch': 4.23}
 18%|█▊        | 13820/78504 [8:23:52<39:34:33,  2.20s/it] 18%|█▊        | 13821/78504 [8:23:54<38:22:44,  2.14s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.32736802101135254, 'learning_rate': 2.7468048065899536e-05, 'epoch': 4.23}
 18%|█▊        | 13821/78504 [8:23:54<38:22:44,  2.14s/it] 18%|█▊        | 13822/78504 [8:23:56<37:02:45,  2.06s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.5566268563270569, 'learning_rate': 2.7467623455479598e-05, 'epoch': 4.23}
 18%|█▊        | 13822/78504 [8:23:56<37:02:45,  2.06s/it] 18%|█▊        | 13823/78504 [8:23:57<36:01:41,  2.01s/it]                                                          {'loss': 0.1423, 'grad_norm': 0.5525083541870117, 'learning_rate': 2.7467198845059657e-05, 'epoch': 4.23}
 18%|█▊        | 13823/78504 [8:23:57<36:01:41,  2.01s/it] 18%|█▊        | 13824/78504 [8:23:59<34:29:44,  1.92s/it]                                                          {'loss': 0.1264, 'grad_norm': 0.3213498294353485, 'learning_rate': 2.746677423463972e-05, 'epoch': 4.23}
 18%|█▊        | 13824/78504 [8:23:59<34:29:44,  1.92s/it] 18%|█▊        | 13825/78504 [8:24:01<32:59:45,  1.84s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.995932936668396, 'learning_rate': 2.7466349624219777e-05, 'epoch': 4.23}
 18%|█▊        | 13825/78504 [8:24:01<32:59:45,  1.84s/it] 18%|█▊        | 13826/78504 [8:24:02<31:20:17,  1.74s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.5951395034790039, 'learning_rate': 2.746592501379984e-05, 'epoch': 4.23}
 18%|█▊        | 13826/78504 [8:24:02<31:20:17,  1.74s/it] 18%|█▊        | 13827/78504 [8:24:04<29:53:16,  1.66s/it]                                                          {'loss': 0.1575, 'grad_norm': 1.3666330575942993, 'learning_rate': 2.7465500403379898e-05, 'epoch': 4.23}
 18%|█▊        | 13827/78504 [8:24:04<29:53:16,  1.66s/it] 18%|█▊        | 13828/78504 [8:24:05<28:31:57,  1.59s/it]                                                          {'loss': 0.1932, 'grad_norm': 0.5791121125221252, 'learning_rate': 2.7465075792959957e-05, 'epoch': 4.23}
 18%|█▊        | 13828/78504 [8:24:05<28:31:57,  1.59s/it] 18%|█▊        | 13829/78504 [8:24:06<26:52:33,  1.50s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.5949839353561401, 'learning_rate': 2.746465118254002e-05, 'epoch': 4.23}
 18%|█▊        | 13829/78504 [8:24:06<26:52:33,  1.50s/it] 18%|█▊        | 13830/78504 [8:24:08<25:02:18,  1.39s/it]                                                          {'loss': 0.1482, 'grad_norm': 1.147328495979309, 'learning_rate': 2.7464226572120078e-05, 'epoch': 4.23}
 18%|█▊        | 13830/78504 [8:24:08<25:02:18,  1.39s/it] 18%|█▊        | 13831/78504 [8:24:09<23:25:11,  1.30s/it]                                                          {'loss': 0.1913, 'grad_norm': 0.9628361463546753, 'learning_rate': 2.746380196170014e-05, 'epoch': 4.23}
 18%|█▊        | 13831/78504 [8:24:09<23:25:11,  1.30s/it] 18%|█▊        | 13832/78504 [8:24:10<22:01:24,  1.23s/it]                                                          {'loss': 0.1843, 'grad_norm': 0.7942927479743958, 'learning_rate': 2.74633773512802e-05, 'epoch': 4.23}
 18%|█▊        | 13832/78504 [8:24:10<22:01:24,  1.23s/it] 18%|█▊        | 13833/78504 [8:24:11<20:25:27,  1.14s/it]                                                          {'loss': 0.2311, 'grad_norm': 4.821360111236572, 'learning_rate': 2.746295274086026e-05, 'epoch': 4.23}
 18%|█▊        | 13833/78504 [8:24:11<20:25:27,  1.14s/it] 18%|█▊        | 13834/78504 [8:24:11<18:29:58,  1.03s/it]                                                          {'loss': 0.2903, 'grad_norm': 2.561540365219116, 'learning_rate': 2.746252813044032e-05, 'epoch': 4.23}
 18%|█▊        | 13834/78504 [8:24:11<18:29:58,  1.03s/it] 18%|█▊        | 13835/78504 [8:24:21<66:29:31,  3.70s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.5575928688049316, 'learning_rate': 2.746210352002038e-05, 'epoch': 4.23}
 18%|█▊        | 13835/78504 [8:24:21<66:29:31,  3.70s/it] 18%|█▊        | 13836/78504 [8:24:24<62:10:07,  3.46s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.3951088786125183, 'learning_rate': 2.746167890960044e-05, 'epoch': 4.23}
 18%|█▊        | 13836/78504 [8:24:24<62:10:07,  3.46s/it] 18%|█▊        | 13837/78504 [8:24:27<57:21:10,  3.19s/it]                                                          {'loss': 0.079, 'grad_norm': 0.360467791557312, 'learning_rate': 2.7461254299180502e-05, 'epoch': 4.23}
 18%|█▊        | 13837/78504 [8:24:27<57:21:10,  3.19s/it] 18%|█▊        | 13838/78504 [8:24:29<54:13:07,  3.02s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.46892303228378296, 'learning_rate': 2.746082968876056e-05, 'epoch': 4.23}
 18%|█▊        | 13838/78504 [8:24:29<54:13:07,  3.02s/it] 18%|█▊        | 13839/78504 [8:24:32<51:13:37,  2.85s/it]                                                          {'loss': 0.0564, 'grad_norm': 0.31855252385139465, 'learning_rate': 2.7460405078340623e-05, 'epoch': 4.23}
 18%|█▊        | 13839/78504 [8:24:32<51:13:37,  2.85s/it] 18%|█▊        | 13840/78504 [8:24:34<48:55:52,  2.72s/it]                                                          {'loss': 0.038, 'grad_norm': 0.15014953911304474, 'learning_rate': 2.7459980467920685e-05, 'epoch': 4.23}
 18%|█▊        | 13840/78504 [8:24:34<48:55:52,  2.72s/it] 18%|█▊        | 13841/78504 [8:24:37<46:42:43,  2.60s/it]                                                          {'loss': 0.055, 'grad_norm': 0.24111637473106384, 'learning_rate': 2.7459555857500744e-05, 'epoch': 4.23}
 18%|█▊        | 13841/78504 [8:24:37<46:42:43,  2.60s/it] 18%|█▊        | 13842/78504 [8:24:39<44:03:57,  2.45s/it]                                                          {'loss': 0.061, 'grad_norm': 0.40829768776893616, 'learning_rate': 2.7459131247080806e-05, 'epoch': 4.23}
 18%|█▊        | 13842/78504 [8:24:39<44:03:57,  2.45s/it] 18%|█▊        | 13843/78504 [8:24:41<42:36:01,  2.37s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.8522893190383911, 'learning_rate': 2.7458706636660865e-05, 'epoch': 4.23}
 18%|█▊        | 13843/78504 [8:24:41<42:36:01,  2.37s/it] 18%|█▊        | 13844/78504 [8:24:43<41:27:41,  2.31s/it]                                                          {'loss': 0.0657, 'grad_norm': 0.27972811460494995, 'learning_rate': 2.7458282026240927e-05, 'epoch': 4.23}
 18%|█▊        | 13844/78504 [8:24:43<41:27:41,  2.31s/it] 18%|█▊        | 13845/78504 [8:24:45<39:00:37,  2.17s/it]                                                          {'loss': 0.1006, 'grad_norm': 1.052746295928955, 'learning_rate': 2.7457857415820985e-05, 'epoch': 4.23}
 18%|█▊        | 13845/78504 [8:24:45<39:00:37,  2.17s/it] 18%|█▊        | 13846/78504 [8:24:47<38:01:27,  2.12s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.8152413964271545, 'learning_rate': 2.7457432805401047e-05, 'epoch': 4.23}
 18%|█▊        | 13846/78504 [8:24:47<38:01:27,  2.12s/it] 18%|█▊        | 13847/78504 [8:24:49<36:47:28,  2.05s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.3387407958507538, 'learning_rate': 2.7457008194981106e-05, 'epoch': 4.23}
 18%|█▊        | 13847/78504 [8:24:49<36:47:28,  2.05s/it] 18%|█▊        | 13848/78504 [8:24:51<35:51:07,  2.00s/it]                                                          {'loss': 0.1503, 'grad_norm': 1.1506966352462769, 'learning_rate': 2.7456583584561168e-05, 'epoch': 4.23}
 18%|█▊        | 13848/78504 [8:24:51<35:51:07,  2.00s/it] 18%|█▊        | 13849/78504 [8:24:52<34:34:53,  1.93s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.3250083923339844, 'learning_rate': 2.7456158974141227e-05, 'epoch': 4.23}
 18%|█▊        | 13849/78504 [8:24:53<34:34:53,  1.93s/it] 18%|█▊        | 13850/78504 [8:24:54<32:44:14,  1.82s/it]                                                          {'loss': 0.1397, 'grad_norm': 0.5331533551216125, 'learning_rate': 2.745573436372129e-05, 'epoch': 4.23}
 18%|█▊        | 13850/78504 [8:24:54<32:44:14,  1.82s/it] 18%|█▊        | 13851/78504 [8:24:56<31:10:05,  1.74s/it]                                                          {'loss': 0.1542, 'grad_norm': 0.597029983997345, 'learning_rate': 2.7455309753301348e-05, 'epoch': 4.23}
 18%|█▊        | 13851/78504 [8:24:56<31:10:05,  1.74s/it] 18%|█▊        | 13852/78504 [8:24:57<29:56:41,  1.67s/it]                                                          {'loss': 0.172, 'grad_norm': 0.45420506596565247, 'learning_rate': 2.745488514288141e-05, 'epoch': 4.23}
 18%|█▊        | 13852/78504 [8:24:57<29:56:41,  1.67s/it] 18%|█▊        | 13853/78504 [8:24:59<28:34:16,  1.59s/it]                                                          {'loss': 0.1594, 'grad_norm': 0.8446249961853027, 'learning_rate': 2.745446053246147e-05, 'epoch': 4.24}
 18%|█▊        | 13853/78504 [8:24:59<28:34:16,  1.59s/it] 18%|█▊        | 13854/78504 [8:25:00<26:53:42,  1.50s/it]                                                          {'loss': 0.1531, 'grad_norm': 0.8918272256851196, 'learning_rate': 2.7454035922041527e-05, 'epoch': 4.24}
 18%|█▊        | 13854/78504 [8:25:00<26:53:42,  1.50s/it] 18%|█▊        | 13855/78504 [8:25:01<25:00:36,  1.39s/it]                                                          {'loss': 0.1979, 'grad_norm': 0.8333079814910889, 'learning_rate': 2.745361131162159e-05, 'epoch': 4.24}
 18%|█▊        | 13855/78504 [8:25:01<25:00:36,  1.39s/it] 18%|█▊        | 13856/78504 [8:25:02<23:24:45,  1.30s/it]                                                          {'loss': 0.2094, 'grad_norm': 0.7814617156982422, 'learning_rate': 2.7453186701201648e-05, 'epoch': 4.24}
 18%|█▊        | 13856/78504 [8:25:02<23:24:45,  1.30s/it] 18%|█▊        | 13857/78504 [8:25:03<22:03:32,  1.23s/it]                                                          {'loss': 0.2107, 'grad_norm': 0.8708589673042297, 'learning_rate': 2.745276209078171e-05, 'epoch': 4.24}
 18%|█▊        | 13857/78504 [8:25:03<22:03:32,  1.23s/it] 18%|█▊        | 13858/78504 [8:25:04<20:33:23,  1.14s/it]                                                          {'loss': 0.219, 'grad_norm': 3.674281597137451, 'learning_rate': 2.745233748036177e-05, 'epoch': 4.24}
 18%|█▊        | 13858/78504 [8:25:04<20:33:23,  1.14s/it] 18%|█▊        | 13859/78504 [8:25:05<18:35:07,  1.04s/it]                                                          {'loss': 0.1933, 'grad_norm': 27.526968002319336, 'learning_rate': 2.745191286994183e-05, 'epoch': 4.24}
 18%|█▊        | 13859/78504 [8:25:05<18:35:07,  1.04s/it] 18%|█▊        | 13860/78504 [8:25:14<60:49:32,  3.39s/it]                                                          {'loss': 0.1378, 'grad_norm': 0.33537963032722473, 'learning_rate': 2.745148825952189e-05, 'epoch': 4.24}
 18%|█▊        | 13860/78504 [8:25:14<60:49:32,  3.39s/it] 18%|█▊        | 13861/78504 [8:25:17<59:21:33,  3.31s/it]                                                          {'loss': 0.0841, 'grad_norm': 0.9364458918571472, 'learning_rate': 2.745106364910195e-05, 'epoch': 4.24}
 18%|█▊        | 13861/78504 [8:25:17<59:21:33,  3.31s/it] 18%|█▊        | 13862/78504 [8:25:20<57:37:33,  3.21s/it]                                                          {'loss': 0.0679, 'grad_norm': 0.5118234157562256, 'learning_rate': 2.745063903868201e-05, 'epoch': 4.24}
 18%|█▊        | 13862/78504 [8:25:20<57:37:33,  3.21s/it] 18%|█▊        | 13863/78504 [8:25:22<54:24:19,  3.03s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.4102688729763031, 'learning_rate': 2.7450214428262072e-05, 'epoch': 4.24}
 18%|█▊        | 13863/78504 [8:25:22<54:24:19,  3.03s/it] 18%|█▊        | 13864/78504 [8:25:25<51:22:26,  2.86s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.2754855453968048, 'learning_rate': 2.744978981784213e-05, 'epoch': 4.24}
 18%|█▊        | 13864/78504 [8:25:25<51:22:26,  2.86s/it] 18%|█▊        | 13865/78504 [8:25:27<48:09:24,  2.68s/it]                                                          {'loss': 0.0456, 'grad_norm': 0.46609967947006226, 'learning_rate': 2.7449365207422193e-05, 'epoch': 4.24}
 18%|█▊        | 13865/78504 [8:25:27<48:09:24,  2.68s/it] 18%|█▊        | 13866/78504 [8:25:29<46:09:24,  2.57s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.15487615764141083, 'learning_rate': 2.7448940597002252e-05, 'epoch': 4.24}
 18%|█▊        | 13866/78504 [8:25:29<46:09:24,  2.57s/it] 18%|█▊        | 13867/78504 [8:25:32<43:42:59,  2.43s/it]                                                          {'loss': 0.0597, 'grad_norm': 2.6681020259857178, 'learning_rate': 2.744851598658231e-05, 'epoch': 4.24}
 18%|█▊        | 13867/78504 [8:25:32<43:42:59,  2.43s/it] 18%|█▊        | 13868/78504 [8:25:34<42:19:11,  2.36s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.24369582533836365, 'learning_rate': 2.7448091376162373e-05, 'epoch': 4.24}
 18%|█▊        | 13868/78504 [8:25:34<42:19:11,  2.36s/it] 18%|█▊        | 13869/78504 [8:25:36<41:18:41,  2.30s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.6466782093048096, 'learning_rate': 2.744766676574243e-05, 'epoch': 4.24}
 18%|█▊        | 13869/78504 [8:25:36<41:18:41,  2.30s/it] 18%|█▊        | 13870/78504 [8:25:38<39:49:33,  2.22s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.9712162017822266, 'learning_rate': 2.7447242155322494e-05, 'epoch': 4.24}
 18%|█▊        | 13870/78504 [8:25:38<39:49:33,  2.22s/it] 18%|█▊        | 13871/78504 [8:25:40<38:29:17,  2.14s/it]                                                          {'loss': 0.0787, 'grad_norm': 0.6061424612998962, 'learning_rate': 2.7446817544902552e-05, 'epoch': 4.24}
 18%|█▊        | 13871/78504 [8:25:40<38:29:17,  2.14s/it] 18%|█▊        | 13872/78504 [8:25:42<37:06:14,  2.07s/it]                                                          {'loss': 0.1089, 'grad_norm': 0.4333076775074005, 'learning_rate': 2.7446392934482614e-05, 'epoch': 4.24}
 18%|█▊        | 13872/78504 [8:25:42<37:06:14,  2.07s/it] 18%|█▊        | 13873/78504 [8:25:44<36:02:13,  2.01s/it]                                                          {'loss': 0.1151, 'grad_norm': 3.30010986328125, 'learning_rate': 2.7445968324062673e-05, 'epoch': 4.24}
 18%|█▊        | 13873/78504 [8:25:44<36:02:13,  2.01s/it] 18%|█▊        | 13874/78504 [8:25:45<34:40:53,  1.93s/it]                                                          {'loss': 0.1013, 'grad_norm': 0.32548514008522034, 'learning_rate': 2.7445543713642735e-05, 'epoch': 4.24}
 18%|█▊        | 13874/78504 [8:25:45<34:40:53,  1.93s/it] 18%|█▊        | 13875/78504 [8:25:47<33:09:33,  1.85s/it]                                                          {'loss': 0.1603, 'grad_norm': 0.5630825757980347, 'learning_rate': 2.7445119103222794e-05, 'epoch': 4.24}
 18%|█▊        | 13875/78504 [8:25:47<33:09:33,  1.85s/it] 18%|█▊        | 13876/78504 [8:25:49<31:30:09,  1.75s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.5689238905906677, 'learning_rate': 2.7444694492802856e-05, 'epoch': 4.24}
 18%|█▊        | 13876/78504 [8:25:49<31:30:09,  1.75s/it] 18%|█▊        | 13877/78504 [8:25:50<29:55:36,  1.67s/it]                                                          {'loss': 0.1553, 'grad_norm': 0.7590375542640686, 'learning_rate': 2.7444269882382915e-05, 'epoch': 4.24}
 18%|█▊        | 13877/78504 [8:25:50<29:55:36,  1.67s/it] 18%|█▊        | 13878/78504 [8:25:51<28:35:11,  1.59s/it]                                                          {'loss': 0.1279, 'grad_norm': 0.29537513852119446, 'learning_rate': 2.7443845271962977e-05, 'epoch': 4.24}
 18%|█▊        | 13878/78504 [8:25:52<28:35:11,  1.59s/it] 18%|█▊        | 13879/78504 [8:25:53<26:55:52,  1.50s/it]                                                          {'loss': 0.1676, 'grad_norm': 1.2026236057281494, 'learning_rate': 2.7443420661543035e-05, 'epoch': 4.24}
 18%|█▊        | 13879/78504 [8:25:53<26:55:52,  1.50s/it] 18%|█▊        | 13880/78504 [8:25:54<25:02:15,  1.39s/it]                                                          {'loss': 0.2041, 'grad_norm': 1.0668638944625854, 'learning_rate': 2.7442996051123094e-05, 'epoch': 4.24}
 18%|█▊        | 13880/78504 [8:25:54<25:02:15,  1.39s/it] 18%|█▊        | 13881/78504 [8:25:55<23:24:24,  1.30s/it]                                                          {'loss': 0.175, 'grad_norm': 1.1695964336395264, 'learning_rate': 2.7442571440703156e-05, 'epoch': 4.24}
 18%|█▊        | 13881/78504 [8:25:55<23:24:24,  1.30s/it] 18%|█▊        | 13882/78504 [8:25:56<21:42:13,  1.21s/it]                                                          {'loss': 0.1911, 'grad_norm': 0.9082977175712585, 'learning_rate': 2.7442146830283215e-05, 'epoch': 4.24}
 18%|█▊        | 13882/78504 [8:25:56<21:42:13,  1.21s/it] 18%|█▊        | 13883/78504 [8:25:57<20:14:40,  1.13s/it]                                                          {'loss': 0.183, 'grad_norm': 1.4864376783370972, 'learning_rate': 2.7441722219863277e-05, 'epoch': 4.24}
 18%|█▊        | 13883/78504 [8:25:57<20:14:40,  1.13s/it] 18%|█▊        | 13884/78504 [8:25:58<18:24:00,  1.03s/it]                                                          {'loss': 0.2466, 'grad_norm': 1.1338937282562256, 'learning_rate': 2.7441297609443336e-05, 'epoch': 4.24}
 18%|█▊        | 13884/78504 [8:25:58<18:24:00,  1.03s/it] 18%|█▊        | 13885/78504 [8:26:06<57:41:18,  3.21s/it]                                                          {'loss': 0.1646, 'grad_norm': 0.7551661729812622, 'learning_rate': 2.7440872999023398e-05, 'epoch': 4.24}
 18%|█▊        | 13885/78504 [8:26:06<57:41:18,  3.21s/it] 18%|█▊        | 13886/78504 [8:26:09<57:08:45,  3.18s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.49887213110923767, 'learning_rate': 2.7440448388603456e-05, 'epoch': 4.25}
 18%|█▊        | 13886/78504 [8:26:09<57:08:45,  3.18s/it] 18%|█▊        | 13887/78504 [8:26:12<56:13:06,  3.13s/it]                                                          {'loss': 0.057, 'grad_norm': 0.27633821964263916, 'learning_rate': 2.744002377818352e-05, 'epoch': 4.25}
 18%|█▊        | 13887/78504 [8:26:12<56:13:06,  3.13s/it] 18%|█▊        | 13888/78504 [8:26:15<53:26:37,  2.98s/it]                                                          {'loss': 0.0438, 'grad_norm': 0.3529573082923889, 'learning_rate': 2.7439599167763577e-05, 'epoch': 4.25}
 18%|█▊        | 13888/78504 [8:26:15<53:26:37,  2.98s/it] 18%|█▊        | 13889/78504 [8:26:17<50:06:40,  2.79s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.6697316765785217, 'learning_rate': 2.743917455734364e-05, 'epoch': 4.25}
 18%|█▊        | 13889/78504 [8:26:17<50:06:40,  2.79s/it] 18%|█▊        | 13890/78504 [8:26:20<47:45:09,  2.66s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.2857176661491394, 'learning_rate': 2.7438749946923698e-05, 'epoch': 4.25}
 18%|█▊        | 13890/78504 [8:26:20<47:45:09,  2.66s/it] 18%|█▊        | 13891/78504 [8:26:22<45:59:53,  2.56s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.717122495174408, 'learning_rate': 2.743832533650376e-05, 'epoch': 4.25}
 18%|█▊        | 13891/78504 [8:26:22<45:59:53,  2.56s/it] 18%|█▊        | 13892/78504 [8:26:24<43:25:25,  2.42s/it]                                                          {'loss': 0.0723, 'grad_norm': 1.2744301557540894, 'learning_rate': 2.743790072608382e-05, 'epoch': 4.25}
 18%|█▊        | 13892/78504 [8:26:24<43:25:25,  2.42s/it] 18%|█▊        | 13893/78504 [8:26:26<41:22:26,  2.31s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.4509321451187134, 'learning_rate': 2.7437476115663877e-05, 'epoch': 4.25}
 18%|█▊        | 13893/78504 [8:26:26<41:22:26,  2.31s/it] 18%|█▊        | 13894/78504 [8:26:28<40:27:54,  2.25s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.32986000180244446, 'learning_rate': 2.743705150524394e-05, 'epoch': 4.25}
 18%|█▊        | 13894/78504 [8:26:28<40:27:54,  2.25s/it] 18%|█▊        | 13895/78504 [8:26:30<39:05:37,  2.18s/it]                                                          {'loss': 0.076, 'grad_norm': 0.7163294553756714, 'learning_rate': 2.7436626894823998e-05, 'epoch': 4.25}
 18%|█▊        | 13895/78504 [8:26:30<39:05:37,  2.18s/it] 18%|█▊        | 13896/78504 [8:26:32<38:04:39,  2.12s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.6689328551292419, 'learning_rate': 2.743620228440406e-05, 'epoch': 4.25}
 18%|█▊        | 13896/78504 [8:26:32<38:04:39,  2.12s/it] 18%|█▊        | 13897/78504 [8:26:34<36:40:24,  2.04s/it]                                                          {'loss': 0.1505, 'grad_norm': 0.34999704360961914, 'learning_rate': 2.743577767398412e-05, 'epoch': 4.25}
 18%|█▊        | 13897/78504 [8:26:34<36:40:24,  2.04s/it] 18%|█▊        | 13898/78504 [8:26:36<35:33:35,  1.98s/it]                                                          {'loss': 0.16, 'grad_norm': 1.7152372598648071, 'learning_rate': 2.743535306356418e-05, 'epoch': 4.25}
 18%|█▊        | 13898/78504 [8:26:36<35:33:35,  1.98s/it] 18%|█▊        | 13899/78504 [8:26:38<34:12:39,  1.91s/it]                                                          {'loss': 0.1232, 'grad_norm': 0.34272152185440063, 'learning_rate': 2.743492845314424e-05, 'epoch': 4.25}
 18%|█▊        | 13899/78504 [8:26:38<34:12:39,  1.91s/it] 18%|█▊        | 13900/78504 [8:26:39<32:47:08,  1.83s/it]                                                          {'loss': 0.1517, 'grad_norm': 0.40798842906951904, 'learning_rate': 2.7434503842724302e-05, 'epoch': 4.25}
 18%|█▊        | 13900/78504 [8:26:39<32:47:08,  1.83s/it] 18%|█▊        | 13901/78504 [8:26:41<31:15:02,  1.74s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.5232248306274414, 'learning_rate': 2.743407923230436e-05, 'epoch': 4.25}
 18%|█▊        | 13901/78504 [8:26:41<31:15:02,  1.74s/it] 18%|█▊        | 13902/78504 [8:26:42<29:47:44,  1.66s/it]                                                          {'loss': 0.1863, 'grad_norm': 1.3416000604629517, 'learning_rate': 2.7433654621884423e-05, 'epoch': 4.25}
 18%|█▊        | 13902/78504 [8:26:42<29:47:44,  1.66s/it] 18%|█▊        | 13903/78504 [8:26:44<28:23:40,  1.58s/it]                                                          {'loss': 0.1818, 'grad_norm': 0.7117258310317993, 'learning_rate': 2.743323001146448e-05, 'epoch': 4.25}
 18%|█▊        | 13903/78504 [8:26:44<28:23:40,  1.58s/it] 18%|█▊        | 13904/78504 [8:26:45<26:46:45,  1.49s/it]                                                          {'loss': 0.185, 'grad_norm': 0.6423786282539368, 'learning_rate': 2.7432805401044544e-05, 'epoch': 4.25}
 18%|█▊        | 13904/78504 [8:26:45<26:46:45,  1.49s/it] 18%|█▊        | 13905/78504 [8:26:46<24:55:11,  1.39s/it]                                                          {'loss': 0.2266, 'grad_norm': 1.31887948513031, 'learning_rate': 2.7432380790624602e-05, 'epoch': 4.25}
 18%|█▊        | 13905/78504 [8:26:46<24:55:11,  1.39s/it] 18%|█▊        | 13906/78504 [8:26:47<23:24:22,  1.30s/it]                                                          {'loss': 0.1953, 'grad_norm': 1.4882012605667114, 'learning_rate': 2.743195618020466e-05, 'epoch': 4.25}
 18%|█▊        | 13906/78504 [8:26:47<23:24:22,  1.30s/it] 18%|█▊        | 13907/78504 [8:26:48<22:03:39,  1.23s/it]                                                          {'loss': 0.1914, 'grad_norm': 0.7844006419181824, 'learning_rate': 2.7431531569784723e-05, 'epoch': 4.25}
 18%|█▊        | 13907/78504 [8:26:48<22:03:39,  1.23s/it] 18%|█▊        | 13908/78504 [8:26:49<20:24:46,  1.14s/it]                                                          {'loss': 0.21, 'grad_norm': 0.863256573677063, 'learning_rate': 2.7431106959364782e-05, 'epoch': 4.25}
 18%|█▊        | 13908/78504 [8:26:49<20:24:46,  1.14s/it] 18%|█▊        | 13909/78504 [8:26:50<18:35:12,  1.04s/it]                                                          {'loss': 0.2497, 'grad_norm': 3.435513496398926, 'learning_rate': 2.7430682348944844e-05, 'epoch': 4.25}
 18%|█▊        | 13909/78504 [8:26:50<18:35:12,  1.04s/it] 18%|█▊        | 13910/78504 [8:26:59<62:18:01,  3.47s/it]                                                          {'loss': 0.1715, 'grad_norm': 0.713378369808197, 'learning_rate': 2.7430257738524902e-05, 'epoch': 4.25}
 18%|█▊        | 13910/78504 [8:26:59<62:18:01,  3.47s/it] 18%|█▊        | 13911/78504 [8:27:02<61:41:49,  3.44s/it]                                                          {'loss': 0.1036, 'grad_norm': 0.3617590665817261, 'learning_rate': 2.7429833128104965e-05, 'epoch': 4.25}
 18%|█▊        | 13911/78504 [8:27:02<61:41:49,  3.44s/it] 18%|█▊        | 13912/78504 [8:27:05<58:54:33,  3.28s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.23492959141731262, 'learning_rate': 2.7429408517685023e-05, 'epoch': 4.25}
 18%|█▊        | 13912/78504 [8:27:05<58:54:33,  3.28s/it] 18%|█▊        | 13913/78504 [8:27:08<55:04:32,  3.07s/it]                                                          {'loss': 0.0614, 'grad_norm': 0.245854914188385, 'learning_rate': 2.7428983907265085e-05, 'epoch': 4.25}
 18%|█▊        | 13913/78504 [8:27:08<55:04:32,  3.07s/it] 18%|█▊        | 13914/78504 [8:27:10<51:59:23,  2.90s/it]                                                          {'loss': 0.0515, 'grad_norm': 0.16395042836666107, 'learning_rate': 2.7428559296845144e-05, 'epoch': 4.25}
 18%|█▊        | 13914/78504 [8:27:10<51:59:23,  2.90s/it] 18%|█▊        | 13915/78504 [8:27:13<49:33:54,  2.76s/it]                                                          {'loss': 0.0531, 'grad_norm': 0.16950222849845886, 'learning_rate': 2.7428134686425206e-05, 'epoch': 4.25}
 18%|█▊        | 13915/78504 [8:27:13<49:33:54,  2.76s/it] 18%|█▊        | 13916/78504 [8:27:15<47:12:42,  2.63s/it]                                                          {'loss': 0.0458, 'grad_norm': 0.17844419181346893, 'learning_rate': 2.7427710076005265e-05, 'epoch': 4.25}
 18%|█▊        | 13916/78504 [8:27:15<47:12:42,  2.63s/it] 18%|█▊        | 13917/78504 [8:27:17<45:27:32,  2.53s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.31174176931381226, 'learning_rate': 2.7427285465585327e-05, 'epoch': 4.25}
 18%|█▊        | 13917/78504 [8:27:17<45:27:32,  2.53s/it] 18%|█▊        | 13918/78504 [8:27:20<43:33:52,  2.43s/it]                                                          {'loss': 0.0502, 'grad_norm': 0.2918841242790222, 'learning_rate': 2.7426860855165386e-05, 'epoch': 4.25}
 18%|█▊        | 13918/78504 [8:27:20<43:33:52,  2.43s/it] 18%|█▊        | 13919/78504 [8:27:22<42:10:31,  2.35s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.870884895324707, 'learning_rate': 2.7426436244745444e-05, 'epoch': 4.26}
 18%|█▊        | 13919/78504 [8:27:22<42:10:31,  2.35s/it] 18%|█▊        | 13920/78504 [8:27:24<39:29:31,  2.20s/it]                                                          {'loss': 0.06, 'grad_norm': 0.32386547327041626, 'learning_rate': 2.7426011634325506e-05, 'epoch': 4.26}
 18%|█▊        | 13920/78504 [8:27:24<39:29:31,  2.20s/it] 18%|█▊        | 13921/78504 [8:27:26<38:18:57,  2.14s/it]                                                          {'loss': 0.0872, 'grad_norm': 0.44546282291412354, 'learning_rate': 2.7425587023905565e-05, 'epoch': 4.26}
 18%|█▊        | 13921/78504 [8:27:26<38:18:57,  2.14s/it] 18%|█▊        | 13922/78504 [8:27:28<37:00:26,  2.06s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.20441387593746185, 'learning_rate': 2.7425162413485627e-05, 'epoch': 4.26}
 18%|█▊        | 13922/78504 [8:27:28<37:00:26,  2.06s/it] 18%|█▊        | 13923/78504 [8:27:29<35:57:25,  2.00s/it]                                                          {'loss': 0.0948, 'grad_norm': 0.5989581346511841, 'learning_rate': 2.7424737803065686e-05, 'epoch': 4.26}
 18%|█▊        | 13923/78504 [8:27:29<35:57:25,  2.00s/it] 18%|█▊        | 13924/78504 [8:27:31<34:25:43,  1.92s/it]                                                          {'loss': 0.1113, 'grad_norm': 1.673283576965332, 'learning_rate': 2.7424313192645748e-05, 'epoch': 4.26}
 18%|█▊        | 13924/78504 [8:27:31<34:25:43,  1.92s/it] 18%|█▊        | 13925/78504 [8:27:33<32:57:20,  1.84s/it]                                                          {'loss': 0.1552, 'grad_norm': 0.550168514251709, 'learning_rate': 2.7423888582225807e-05, 'epoch': 4.26}
 18%|█▊        | 13925/78504 [8:27:33<32:57:20,  1.84s/it] 18%|█▊        | 13926/78504 [8:27:34<31:22:00,  1.75s/it]                                                          {'loss': 0.1429, 'grad_norm': 0.8943251371383667, 'learning_rate': 2.742346397180587e-05, 'epoch': 4.26}
 18%|█▊        | 13926/78504 [8:27:34<31:22:00,  1.75s/it] 18%|█▊        | 13927/78504 [8:27:36<29:53:22,  1.67s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.7802530527114868, 'learning_rate': 2.7423039361385927e-05, 'epoch': 4.26}
 18%|█▊        | 13927/78504 [8:27:36<29:53:22,  1.67s/it] 18%|█▊        | 13928/78504 [8:27:37<28:29:06,  1.59s/it]                                                          {'loss': 0.1781, 'grad_norm': 0.9085826873779297, 'learning_rate': 2.742261475096599e-05, 'epoch': 4.26}
 18%|█▊        | 13928/78504 [8:27:37<28:29:06,  1.59s/it] 18%|█▊        | 13929/78504 [8:27:38<26:50:05,  1.50s/it]                                                          {'loss': 0.1752, 'grad_norm': 0.8080001473426819, 'learning_rate': 2.7422190140546048e-05, 'epoch': 4.26}
 18%|█▊        | 13929/78504 [8:27:39<26:50:05,  1.50s/it] 18%|█▊        | 13930/78504 [8:27:40<24:58:56,  1.39s/it]                                                          {'loss': 0.1966, 'grad_norm': 0.7055867910385132, 'learning_rate': 2.742176553012611e-05, 'epoch': 4.26}
 18%|█▊        | 13930/78504 [8:27:40<24:58:56,  1.39s/it] 18%|█▊        | 13931/78504 [8:27:41<23:19:05,  1.30s/it]                                                          {'loss': 0.1746, 'grad_norm': 0.849475085735321, 'learning_rate': 2.742134091970617e-05, 'epoch': 4.26}
 18%|█▊        | 13931/78504 [8:27:41<23:19:05,  1.30s/it] 18%|█▊        | 13932/78504 [8:27:42<21:58:15,  1.22s/it]                                                          {'loss': 0.1974, 'grad_norm': 2.3084330558776855, 'learning_rate': 2.7420916309286228e-05, 'epoch': 4.26}
 18%|█▊        | 13932/78504 [8:27:42<21:58:15,  1.22s/it] 18%|█▊        | 13933/78504 [8:27:43<20:22:19,  1.14s/it]                                                          {'loss': 0.2378, 'grad_norm': 1.1998445987701416, 'learning_rate': 2.742049169886629e-05, 'epoch': 4.26}
 18%|█▊        | 13933/78504 [8:27:43<20:22:19,  1.14s/it] 18%|█▊        | 13934/78504 [8:27:43<18:29:55,  1.03s/it]                                                          {'loss': 0.2212, 'grad_norm': 1.9239394664764404, 'learning_rate': 2.742006708844635e-05, 'epoch': 4.26}
 18%|█▊        | 13934/78504 [8:27:44<18:29:55,  1.03s/it] 18%|█▊        | 13935/78504 [8:27:52<56:36:57,  3.16s/it]                                                          {'loss': 0.1499, 'grad_norm': 0.9196375012397766, 'learning_rate': 2.741964247802641e-05, 'epoch': 4.26}
 18%|█▊        | 13935/78504 [8:27:52<56:36:57,  3.16s/it] 18%|█▊        | 13936/78504 [8:27:55<56:23:02,  3.14s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.4420221447944641, 'learning_rate': 2.741921786760647e-05, 'epoch': 4.26}
 18%|█▊        | 13936/78504 [8:27:55<56:23:02,  3.14s/it] 18%|█▊        | 13937/78504 [8:27:58<55:41:11,  3.10s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.3165205419063568, 'learning_rate': 2.741879325718653e-05, 'epoch': 4.26}
 18%|█▊        | 13937/78504 [8:27:58<55:41:11,  3.10s/it] 18%|█▊        | 13938/78504 [8:28:00<53:02:00,  2.96s/it]                                                          {'loss': 0.0822, 'grad_norm': 0.36954256892204285, 'learning_rate': 2.741836864676659e-05, 'epoch': 4.26}
 18%|█▊        | 13938/78504 [8:28:00<53:02:00,  2.96s/it] 18%|█▊        | 13939/78504 [8:28:03<50:22:59,  2.81s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.3371262848377228, 'learning_rate': 2.7417944036346652e-05, 'epoch': 4.26}
 18%|█▊        | 13939/78504 [8:28:03<50:22:59,  2.81s/it] 18%|█▊        | 13940/78504 [8:28:05<47:28:16,  2.65s/it]                                                          {'loss': 0.0501, 'grad_norm': 0.3790472447872162, 'learning_rate': 2.741751942592671e-05, 'epoch': 4.26}
 18%|█▊        | 13940/78504 [8:28:05<47:28:16,  2.65s/it] 18%|█▊        | 13941/78504 [8:28:07<45:40:50,  2.55s/it]                                                          {'loss': 0.0469, 'grad_norm': 0.22270093858242035, 'learning_rate': 2.7417094815506773e-05, 'epoch': 4.26}
 18%|█▊        | 13941/78504 [8:28:07<45:40:50,  2.55s/it] 18%|█▊        | 13942/78504 [8:28:09<43:20:04,  2.42s/it]                                                          {'loss': 0.0948, 'grad_norm': 0.470651775598526, 'learning_rate': 2.7416670205086835e-05, 'epoch': 4.26}
 18%|█▊        | 13942/78504 [8:28:10<43:20:04,  2.42s/it] 18%|█▊        | 13943/78504 [8:28:12<42:06:04,  2.35s/it]                                                          {'loss': 0.0505, 'grad_norm': 0.22374284267425537, 'learning_rate': 2.7416245594666894e-05, 'epoch': 4.26}
 18%|█▊        | 13943/78504 [8:28:12<42:06:04,  2.35s/it] 18%|█▊        | 13944/78504 [8:28:14<40:57:24,  2.28s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.21114778518676758, 'learning_rate': 2.7415820984246956e-05, 'epoch': 4.26}
 18%|█▊        | 13944/78504 [8:28:14<40:57:24,  2.28s/it] 18%|█▊        | 13945/78504 [8:28:16<39:36:45,  2.21s/it]                                                          {'loss': 0.0926, 'grad_norm': 0.32750168442726135, 'learning_rate': 2.7415396373827015e-05, 'epoch': 4.26}
 18%|█▊        | 13945/78504 [8:28:16<39:36:45,  2.21s/it] 18%|█▊        | 13946/78504 [8:28:18<38:23:10,  2.14s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.20836496353149414, 'learning_rate': 2.7414971763407077e-05, 'epoch': 4.26}
 18%|█▊        | 13946/78504 [8:28:18<38:23:10,  2.14s/it] 18%|█▊        | 13947/78504 [8:28:20<36:55:48,  2.06s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.374235600233078, 'learning_rate': 2.7414547152987135e-05, 'epoch': 4.26}
 18%|█▊        | 13947/78504 [8:28:20<36:55:48,  2.06s/it] 18%|█▊        | 13948/78504 [8:28:21<35:05:51,  1.96s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.41492149233818054, 'learning_rate': 2.7414122542567197e-05, 'epoch': 4.26}
 18%|█▊        | 13948/78504 [8:28:21<35:05:51,  1.96s/it] 18%|█▊        | 13949/78504 [8:28:23<33:48:05,  1.88s/it]                                                          {'loss': 0.1321, 'grad_norm': 0.4578406810760498, 'learning_rate': 2.7413697932147256e-05, 'epoch': 4.26}
 18%|█▊        | 13949/78504 [8:28:23<33:48:05,  1.88s/it] 18%|█▊        | 13950/78504 [8:28:25<32:29:03,  1.81s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.5130382180213928, 'learning_rate': 2.7413273321727318e-05, 'epoch': 4.26}
 18%|█▊        | 13950/78504 [8:28:25<32:29:03,  1.81s/it] 18%|█▊        | 13951/78504 [8:28:26<30:56:05,  1.73s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.6719509959220886, 'learning_rate': 2.7412848711307377e-05, 'epoch': 4.27}
 18%|█▊        | 13951/78504 [8:28:26<30:56:05,  1.73s/it] 18%|█▊        | 13952/78504 [8:28:28<29:22:15,  1.64s/it]                                                          {'loss': 0.169, 'grad_norm': 0.6780668497085571, 'learning_rate': 2.741242410088744e-05, 'epoch': 4.27}
 18%|█▊        | 13952/78504 [8:28:28<29:22:15,  1.64s/it] 18%|█▊        | 13953/78504 [8:28:29<28:09:31,  1.57s/it]                                                          {'loss': 0.1745, 'grad_norm': 0.4518777132034302, 'learning_rate': 2.7411999490467498e-05, 'epoch': 4.27}
 18%|█▊        | 13953/78504 [8:28:29<28:09:31,  1.57s/it] 18%|█▊        | 13954/78504 [8:28:30<26:14:53,  1.46s/it]                                                          {'loss': 0.185, 'grad_norm': 0.6264888644218445, 'learning_rate': 2.741157488004756e-05, 'epoch': 4.27}
 18%|█▊        | 13954/78504 [8:28:30<26:14:53,  1.46s/it] 18%|█▊        | 13955/78504 [8:28:32<24:33:05,  1.37s/it]                                                          {'loss': 0.1977, 'grad_norm': 1.2697755098342896, 'learning_rate': 2.741115026962762e-05, 'epoch': 4.27}
 18%|█▊        | 13955/78504 [8:28:32<24:33:05,  1.37s/it] 18%|█▊        | 13956/78504 [8:28:33<23:05:39,  1.29s/it]                                                          {'loss': 0.2113, 'grad_norm': 0.6657447814941406, 'learning_rate': 2.7410725659207677e-05, 'epoch': 4.27}
 18%|█▊        | 13956/78504 [8:28:33<23:05:39,  1.29s/it] 18%|█▊        | 13957/78504 [8:28:34<21:29:21,  1.20s/it]                                                          {'loss': 0.1788, 'grad_norm': 1.2380702495574951, 'learning_rate': 2.741030104878774e-05, 'epoch': 4.27}
 18%|█▊        | 13957/78504 [8:28:34<21:29:21,  1.20s/it] 18%|█▊        | 13958/78504 [8:28:35<20:02:06,  1.12s/it]                                                          {'loss': 0.2227, 'grad_norm': 1.1780891418457031, 'learning_rate': 2.7409876438367798e-05, 'epoch': 4.27}
 18%|█▊        | 13958/78504 [8:28:35<20:02:06,  1.12s/it] 18%|█▊        | 13959/78504 [8:28:35<18:14:00,  1.02s/it]                                                          {'loss': 0.2221, 'grad_norm': 12.714239120483398, 'learning_rate': 2.740945182794786e-05, 'epoch': 4.27}
 18%|█▊        | 13959/78504 [8:28:35<18:14:00,  1.02s/it] 18%|█▊        | 13960/78504 [8:28:45<64:24:22,  3.59s/it]                                                          {'loss': 0.1238, 'grad_norm': 0.35141682624816895, 'learning_rate': 2.740902721752792e-05, 'epoch': 4.27}
 18%|█▊        | 13960/78504 [8:28:45<64:24:22,  3.59s/it] 18%|█▊        | 13961/78504 [8:28:48<62:48:50,  3.50s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.3133683502674103, 'learning_rate': 2.740860260710798e-05, 'epoch': 4.27}
 18%|█▊        | 13961/78504 [8:28:48<62:48:50,  3.50s/it] 18%|█▊        | 13962/78504 [8:28:51<59:58:33,  3.35s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.2992732524871826, 'learning_rate': 2.740817799668804e-05, 'epoch': 4.27}
 18%|█▊        | 13962/78504 [8:28:51<59:58:33,  3.35s/it] 18%|█▊        | 13963/78504 [8:28:54<55:53:47,  3.12s/it]                                                          {'loss': 0.0496, 'grad_norm': 0.17963995039463043, 'learning_rate': 2.74077533862681e-05, 'epoch': 4.27}
 18%|█▊        | 13963/78504 [8:28:54<55:53:47,  3.12s/it] 18%|█▊        | 13964/78504 [8:28:56<52:31:03,  2.93s/it]                                                          {'loss': 0.048, 'grad_norm': 0.15333528816699982, 'learning_rate': 2.740732877584816e-05, 'epoch': 4.27}
 18%|█▊        | 13964/78504 [8:28:56<52:31:03,  2.93s/it] 18%|█▊        | 13965/78504 [8:28:59<49:24:08,  2.76s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.3516606390476227, 'learning_rate': 2.7406904165428222e-05, 'epoch': 4.27}
 18%|█▊        | 13965/78504 [8:28:59<49:24:08,  2.76s/it] 18%|█▊        | 13966/78504 [8:29:01<47:07:57,  2.63s/it]                                                          {'loss': 0.0545, 'grad_norm': 0.42882871627807617, 'learning_rate': 2.740647955500828e-05, 'epoch': 4.27}
 18%|█▊        | 13966/78504 [8:29:01<47:07:57,  2.63s/it] 18%|█▊        | 13967/78504 [8:29:03<44:11:41,  2.47s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.2359185814857483, 'learning_rate': 2.7406054944588343e-05, 'epoch': 4.27}
 18%|█▊        | 13967/78504 [8:29:03<44:11:41,  2.47s/it] 18%|█▊        | 13968/78504 [8:29:05<41:51:03,  2.33s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.3356930911540985, 'learning_rate': 2.7405630334168402e-05, 'epoch': 4.27}
 18%|█▊        | 13968/78504 [8:29:05<41:51:03,  2.33s/it] 18%|█▊        | 13969/78504 [8:29:07<40:47:44,  2.28s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.289013534784317, 'learning_rate': 2.740520572374846e-05, 'epoch': 4.27}
 18%|█▊        | 13969/78504 [8:29:07<40:47:44,  2.28s/it] 18%|█▊        | 13970/78504 [8:29:09<39:15:03,  2.19s/it]                                                          {'loss': 0.1227, 'grad_norm': 0.8400011658668518, 'learning_rate': 2.7404781113328523e-05, 'epoch': 4.27}
 18%|█▊        | 13970/78504 [8:29:09<39:15:03,  2.19s/it] 18%|█▊        | 13971/78504 [8:29:11<38:09:06,  2.13s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.31022948026657104, 'learning_rate': 2.740435650290858e-05, 'epoch': 4.27}
 18%|█▊        | 13971/78504 [8:29:11<38:09:06,  2.13s/it] 18%|█▊        | 13972/78504 [8:29:13<36:44:01,  2.05s/it]                                                          {'loss': 0.076, 'grad_norm': 0.3661097586154938, 'learning_rate': 2.7403931892488644e-05, 'epoch': 4.27}
 18%|█▊        | 13972/78504 [8:29:13<36:44:01,  2.05s/it] 18%|█▊        | 13973/78504 [8:29:15<35:44:09,  1.99s/it]                                                          {'loss': 0.1312, 'grad_norm': 0.4364772140979767, 'learning_rate': 2.7403507282068702e-05, 'epoch': 4.27}
 18%|█▊        | 13973/78504 [8:29:15<35:44:09,  1.99s/it] 18%|█▊        | 13974/78504 [8:29:17<34:16:53,  1.91s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.34803634881973267, 'learning_rate': 2.7403082671648764e-05, 'epoch': 4.27}
 18%|█▊        | 13974/78504 [8:29:17<34:16:53,  1.91s/it] 18%|█▊        | 13975/78504 [8:29:18<32:52:06,  1.83s/it]                                                          {'loss': 0.1361, 'grad_norm': 1.2530291080474854, 'learning_rate': 2.7402658061228823e-05, 'epoch': 4.27}
 18%|█▊        | 13975/78504 [8:29:18<32:52:06,  1.83s/it] 18%|█▊        | 13976/78504 [8:29:20<31:16:08,  1.74s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.3744623064994812, 'learning_rate': 2.7402233450808885e-05, 'epoch': 4.27}
 18%|█▊        | 13976/78504 [8:29:20<31:16:08,  1.74s/it] 18%|█▊        | 13977/78504 [8:29:21<29:45:29,  1.66s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.7661336660385132, 'learning_rate': 2.7401808840388944e-05, 'epoch': 4.27}
 18%|█▊        | 13977/78504 [8:29:21<29:45:29,  1.66s/it] 18%|█▊        | 13978/78504 [8:29:23<28:16:22,  1.58s/it]                                                          {'loss': 0.1533, 'grad_norm': 1.1080929040908813, 'learning_rate': 2.7401384229969006e-05, 'epoch': 4.27}
 18%|█▊        | 13978/78504 [8:29:23<28:16:22,  1.58s/it] 18%|█▊        | 13979/78504 [8:29:24<26:40:53,  1.49s/it]                                                          {'loss': 0.1786, 'grad_norm': 0.5138101577758789, 'learning_rate': 2.7400959619549065e-05, 'epoch': 4.27}
 18%|█▊        | 13979/78504 [8:29:24<26:40:53,  1.49s/it] 18%|█▊        | 13980/78504 [8:29:25<24:50:14,  1.39s/it]                                                          {'loss': 0.198, 'grad_norm': 0.6618227362632751, 'learning_rate': 2.7400535009129127e-05, 'epoch': 4.27}
 18%|█▊        | 13980/78504 [8:29:25<24:50:14,  1.39s/it] 18%|█▊        | 13981/78504 [8:29:26<23:14:16,  1.30s/it]                                                          {'loss': 0.1805, 'grad_norm': 1.413111686706543, 'learning_rate': 2.7400110398709185e-05, 'epoch': 4.27}
 18%|█▊        | 13981/78504 [8:29:26<23:14:16,  1.30s/it] 18%|█▊        | 13982/78504 [8:29:27<21:53:33,  1.22s/it]                                                          {'loss': 0.2066, 'grad_norm': 1.122929334640503, 'learning_rate': 2.7399685788289244e-05, 'epoch': 4.27}
 18%|█▊        | 13982/78504 [8:29:27<21:53:33,  1.22s/it] 18%|█▊        | 13983/78504 [8:29:28<20:17:20,  1.13s/it]                                                          {'loss': 0.1999, 'grad_norm': 0.9309731125831604, 'learning_rate': 2.7399261177869306e-05, 'epoch': 4.27}
 18%|█▊        | 13983/78504 [8:29:28<20:17:20,  1.13s/it] 18%|█▊        | 13984/78504 [8:29:29<18:30:28,  1.03s/it]                                                          {'loss': 0.2539, 'grad_norm': 2.7992069721221924, 'learning_rate': 2.7398836567449365e-05, 'epoch': 4.28}
 18%|█▊        | 13984/78504 [8:29:29<18:30:28,  1.03s/it] 18%|█▊        | 13985/78504 [8:29:38<60:32:23,  3.38s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.5704513192176819, 'learning_rate': 2.7398411957029427e-05, 'epoch': 4.28}
 18%|█▊        | 13985/78504 [8:29:38<60:32:23,  3.38s/it] 18%|█▊        | 13986/78504 [8:29:41<59:11:47,  3.30s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.27063798904418945, 'learning_rate': 2.7397987346609486e-05, 'epoch': 4.28}
 18%|█▊        | 13986/78504 [8:29:41<59:11:47,  3.30s/it] 18%|█▊        | 13987/78504 [8:29:44<57:08:31,  3.19s/it]                                                          {'loss': 0.0726, 'grad_norm': 0.2689717710018158, 'learning_rate': 2.7397562736189548e-05, 'epoch': 4.28}
 18%|█▊        | 13987/78504 [8:29:44<57:08:31,  3.19s/it] 18%|█▊        | 13988/78504 [8:29:46<53:50:30,  3.00s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.3024556338787079, 'learning_rate': 2.7397138125769606e-05, 'epoch': 4.28}
 18%|█▊        | 13988/78504 [8:29:46<53:50:30,  3.00s/it] 18%|█▊        | 13989/78504 [8:29:49<51:04:35,  2.85s/it]                                                          {'loss': 0.0437, 'grad_norm': 0.5549679398536682, 'learning_rate': 2.739671351534967e-05, 'epoch': 4.28}
 18%|█▊        | 13989/78504 [8:29:49<51:04:35,  2.85s/it] 18%|█▊        | 13990/78504 [8:29:51<48:54:00,  2.73s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.13055068254470825, 'learning_rate': 2.7396288904929727e-05, 'epoch': 4.28}
 18%|█▊        | 13990/78504 [8:29:51<48:54:00,  2.73s/it] 18%|█▊        | 13991/78504 [8:29:54<46:41:57,  2.61s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.3850674629211426, 'learning_rate': 2.739586429450979e-05, 'epoch': 4.28}
 18%|█▊        | 13991/78504 [8:29:54<46:41:57,  2.61s/it] 18%|█▊        | 13992/78504 [8:29:56<45:05:32,  2.52s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.3597561717033386, 'learning_rate': 2.7395439684089848e-05, 'epoch': 4.28}
 18%|█▊        | 13992/78504 [8:29:56<45:05:32,  2.52s/it] 18%|█▊        | 13993/78504 [8:29:58<43:19:25,  2.42s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.27843067049980164, 'learning_rate': 2.739501507366991e-05, 'epoch': 4.28}
 18%|█▊        | 13993/78504 [8:29:58<43:19:25,  2.42s/it] 18%|█▊        | 13994/78504 [8:30:00<41:57:52,  2.34s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.35756778717041016, 'learning_rate': 2.739459046324997e-05, 'epoch': 4.28}
 18%|█▊        | 13994/78504 [8:30:00<41:57:52,  2.34s/it] 18%|█▊        | 13995/78504 [8:30:02<39:26:46,  2.20s/it]                                                          {'loss': 0.096, 'grad_norm': 0.3351753354072571, 'learning_rate': 2.7394165852830028e-05, 'epoch': 4.28}
 18%|█▊        | 13995/78504 [8:30:02<39:26:46,  2.20s/it] 18%|█▊        | 13996/78504 [8:30:04<38:13:12,  2.13s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.3578203022480011, 'learning_rate': 2.739374124241009e-05, 'epoch': 4.28}
 18%|█▊        | 13996/78504 [8:30:04<38:13:12,  2.13s/it] 18%|█▊        | 13997/78504 [8:30:06<37:05:20,  2.07s/it]                                                          {'loss': 0.091, 'grad_norm': 0.3030267357826233, 'learning_rate': 2.7393316631990148e-05, 'epoch': 4.28}
 18%|█▊        | 13997/78504 [8:30:06<37:05:20,  2.07s/it] 18%|█▊        | 13998/78504 [8:30:08<35:54:52,  2.00s/it]                                                          {'loss': 0.1638, 'grad_norm': 0.9486894011497498, 'learning_rate': 2.739289202157021e-05, 'epoch': 4.28}
 18%|█▊        | 13998/78504 [8:30:08<35:54:52,  2.00s/it] 18%|█▊        | 13999/78504 [8:30:10<34:34:47,  1.93s/it]                                                          {'loss': 0.0934, 'grad_norm': 0.35746490955352783, 'learning_rate': 2.739246741115027e-05, 'epoch': 4.28}
 18%|█▊        | 13999/78504 [8:30:10<34:34:47,  1.93s/it] 18%|█▊        | 14000/78504 [8:30:11<33:06:48,  1.85s/it]                                                          {'loss': 0.1522, 'grad_norm': 0.4406617283821106, 'learning_rate': 2.739204280073033e-05, 'epoch': 4.28}
 18%|█▊        | 14000/78504 [8:30:11<33:06:48,  1.85s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.36it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.60it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.80it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.11it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.56it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.59it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.83it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.20it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.46it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.89it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.31it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
                                               [A{'eval_loss': 0.24142511188983917, 'eval_wer': 0.3308566799810061, 'eval_cer': 0.18947552180506913, 'eval_runtime': 19.2022, 'eval_samples_per_second': 236.327, 'eval_steps_per_second': 0.781, 'epoch': 4.28}
 18%|█▊        | 14000/78504 [8:31:16<33:06:48,  1.85s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-14000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-12000] due to args.save_total_limit
 18%|█▊        | 14001/78504 [8:31:32<457:23:39, 25.53s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.85866379737854, 'learning_rate': 2.739161819031039e-05, 'epoch': 4.28}
 18%|█▊        | 14001/78504 [8:31:32<457:23:39, 25.53s/it] 18%|█▊        | 14002/78504 [8:31:34<328:14:08, 18.32s/it]                                                           {'loss': 0.1593, 'grad_norm': 0.5128108263015747, 'learning_rate': 2.7391193579890452e-05, 'epoch': 4.28}
 18%|█▊        | 14002/78504 [8:31:34<328:14:08, 18.32s/it] 18%|█▊        | 14003/78504 [8:31:35<237:10:45, 13.24s/it]                                                           {'loss': 0.168, 'grad_norm': 0.7198511362075806, 'learning_rate': 2.739076896947051e-05, 'epoch': 4.28}
 18%|█▊        | 14003/78504 [8:31:35<237:10:45, 13.24s/it] 18%|█▊        | 14004/78504 [8:31:36<172:49:55,  9.65s/it]                                                           {'loss': 0.2058, 'grad_norm': 0.8459679484367371, 'learning_rate': 2.7390344359050573e-05, 'epoch': 4.28}
 18%|█▊        | 14004/78504 [8:31:36<172:49:55,  9.65s/it] 18%|█▊        | 14005/78504 [8:31:37<127:06:30,  7.09s/it]                                                           {'loss': 0.1785, 'grad_norm': 0.493407666683197, 'learning_rate': 2.738991974863063e-05, 'epoch': 4.28}
 18%|█▊        | 14005/78504 [8:31:37<127:06:30,  7.09s/it] 18%|█▊        | 14006/78504 [8:31:39<94:50:29,  5.29s/it]                                                           {'loss': 0.185, 'grad_norm': 0.6606143116950989, 'learning_rate': 2.7389495138210694e-05, 'epoch': 4.28}
 18%|█▊        | 14006/78504 [8:31:39<94:50:29,  5.29s/it] 18%|█▊        | 14007/78504 [8:31:40<71:41:10,  4.00s/it]                                                          {'loss': 0.217, 'grad_norm': 0.7644363641738892, 'learning_rate': 2.7389070527790752e-05, 'epoch': 4.28}
 18%|█▊        | 14007/78504 [8:31:40<71:41:10,  4.00s/it] 18%|█▊        | 14008/78504 [8:31:40<55:14:56,  3.08s/it]                                                          {'loss': 0.1815, 'grad_norm': 1.3940538167953491, 'learning_rate': 2.738864591737081e-05, 'epoch': 4.28}
 18%|█▊        | 14008/78504 [8:31:40<55:14:56,  3.08s/it] 18%|█▊        | 14009/78504 [8:31:41<42:49:02,  2.39s/it]                                                          {'loss': 0.2443, 'grad_norm': 3.1635193824768066, 'learning_rate': 2.7388221306950873e-05, 'epoch': 4.28}
 18%|█▊        | 14009/78504 [8:31:41<42:49:02,  2.39s/it] 18%|█▊        | 14010/78504 [8:31:49<69:50:14,  3.90s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.4992072880268097, 'learning_rate': 2.7387796696530932e-05, 'epoch': 4.28}
 18%|█▊        | 14010/78504 [8:31:49<69:50:14,  3.90s/it] 18%|█▊        | 14011/78504 [8:31:52<65:41:25,  3.67s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.31549200415611267, 'learning_rate': 2.7387372086110994e-05, 'epoch': 4.28}
 18%|█▊        | 14011/78504 [8:31:52<65:41:25,  3.67s/it] 18%|█▊        | 14012/78504 [8:31:54<59:43:15,  3.33s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.5289226770401001, 'learning_rate': 2.7386947475691053e-05, 'epoch': 4.28}
 18%|█▊        | 14012/78504 [8:31:54<59:43:15,  3.33s/it] 18%|█▊        | 14013/78504 [8:31:57<55:53:44,  3.12s/it]                                                          {'loss': 0.0491, 'grad_norm': 0.3030151128768921, 'learning_rate': 2.7386522865271115e-05, 'epoch': 4.28}
 18%|█▊        | 14013/78504 [8:31:57<55:53:44,  3.12s/it] 18%|█▊        | 14014/78504 [8:31:59<52:23:30,  2.92s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.29001349210739136, 'learning_rate': 2.7386098254851173e-05, 'epoch': 4.28}
 18%|█▊        | 14014/78504 [8:31:59<52:23:30,  2.92s/it] 18%|█▊        | 14015/78504 [8:32:02<49:41:20,  2.77s/it]                                                          {'loss': 0.0832, 'grad_norm': 0.3028789162635803, 'learning_rate': 2.7385673644431235e-05, 'epoch': 4.28}
 18%|█▊        | 14015/78504 [8:32:02<49:41:20,  2.77s/it] 18%|█▊        | 14016/78504 [8:32:04<47:11:48,  2.63s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.5700621008872986, 'learning_rate': 2.7385249034011294e-05, 'epoch': 4.28}
 18%|█▊        | 14016/78504 [8:32:04<47:11:48,  2.63s/it] 18%|█▊        | 14017/78504 [8:32:06<44:18:27,  2.47s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.49529504776000977, 'learning_rate': 2.7384824423591356e-05, 'epoch': 4.29}
 18%|█▊        | 14017/78504 [8:32:06<44:18:27,  2.47s/it] 18%|█▊        | 14018/78504 [8:32:08<42:44:35,  2.39s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.2799837291240692, 'learning_rate': 2.7384399813171415e-05, 'epoch': 4.29}
 18%|█▊        | 14018/78504 [8:32:08<42:44:35,  2.39s/it] 18%|█▊        | 14019/78504 [8:32:11<41:22:29,  2.31s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.4166446328163147, 'learning_rate': 2.7383975202751477e-05, 'epoch': 4.29}
 18%|█▊        | 14019/78504 [8:32:11<41:22:29,  2.31s/it] 18%|█▊        | 14020/78504 [8:32:13<39:49:44,  2.22s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.36522090435028076, 'learning_rate': 2.7383550592331536e-05, 'epoch': 4.29}
 18%|█▊        | 14020/78504 [8:32:13<39:49:44,  2.22s/it] 18%|█▊        | 14021/78504 [8:32:15<38:30:37,  2.15s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.7830626368522644, 'learning_rate': 2.7383125981911594e-05, 'epoch': 4.29}
 18%|█▊        | 14021/78504 [8:32:15<38:30:37,  2.15s/it] 18%|█▊        | 14022/78504 [8:32:16<37:14:09,  2.08s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.42291638255119324, 'learning_rate': 2.7382701371491656e-05, 'epoch': 4.29}
 18%|█▊        | 14022/78504 [8:32:16<37:14:09,  2.08s/it] 18%|█▊        | 14023/78504 [8:32:18<36:14:14,  2.02s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.48512208461761475, 'learning_rate': 2.7382276761071715e-05, 'epoch': 4.29}
 18%|█▊        | 14023/78504 [8:32:18<36:14:14,  2.02s/it] 18%|█▊        | 14024/78504 [8:32:20<34:49:36,  1.94s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.6699188351631165, 'learning_rate': 2.7381852150651777e-05, 'epoch': 4.29}
 18%|█▊        | 14024/78504 [8:32:20<34:49:36,  1.94s/it] 18%|█▊        | 14025/78504 [8:32:22<32:50:02,  1.83s/it]                                                          {'loss': 0.1518, 'grad_norm': 0.9305131435394287, 'learning_rate': 2.7381427540231836e-05, 'epoch': 4.29}
 18%|█▊        | 14025/78504 [8:32:22<32:50:02,  1.83s/it] 18%|█▊        | 14026/78504 [8:32:23<31:18:00,  1.75s/it]                                                          {'loss': 0.1621, 'grad_norm': 0.7198421359062195, 'learning_rate': 2.7381002929811898e-05, 'epoch': 4.29}
 18%|█▊        | 14026/78504 [8:32:23<31:18:00,  1.75s/it] 18%|█▊        | 14027/78504 [8:32:25<29:47:18,  1.66s/it]                                                          {'loss': 0.1513, 'grad_norm': 0.5670399069786072, 'learning_rate': 2.7380578319391957e-05, 'epoch': 4.29}
 18%|█▊        | 14027/78504 [8:32:25<29:47:18,  1.66s/it] 18%|█▊        | 14028/78504 [8:32:26<28:18:40,  1.58s/it]                                                          {'loss': 0.1598, 'grad_norm': 1.095263123512268, 'learning_rate': 2.738015370897202e-05, 'epoch': 4.29}
 18%|█▊        | 14028/78504 [8:32:26<28:18:40,  1.58s/it] 18%|█▊        | 14029/78504 [8:32:27<26:40:50,  1.49s/it]                                                          {'loss': 0.1755, 'grad_norm': 1.9932584762573242, 'learning_rate': 2.7379729098552078e-05, 'epoch': 4.29}
 18%|█▊        | 14029/78504 [8:32:27<26:40:50,  1.49s/it] 18%|█▊        | 14030/78504 [8:32:29<24:51:28,  1.39s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.8447781801223755, 'learning_rate': 2.737930448813214e-05, 'epoch': 4.29}
 18%|█▊        | 14030/78504 [8:32:29<24:51:28,  1.39s/it] 18%|█▊        | 14031/78504 [8:32:30<23:15:56,  1.30s/it]                                                          {'loss': 0.1531, 'grad_norm': 1.1525013446807861, 'learning_rate': 2.73788798777122e-05, 'epoch': 4.29}
 18%|█▊        | 14031/78504 [8:32:30<23:15:56,  1.30s/it] 18%|█▊        | 14032/78504 [8:32:31<21:54:45,  1.22s/it]                                                          {'loss': 0.1871, 'grad_norm': 0.9306631088256836, 'learning_rate': 2.737845526729226e-05, 'epoch': 4.29}
 18%|█▊        | 14032/78504 [8:32:31<21:54:45,  1.22s/it] 18%|█▊        | 14033/78504 [8:32:32<20:20:38,  1.14s/it]                                                          {'loss': 0.2086, 'grad_norm': 1.7150131464004517, 'learning_rate': 2.737803065687232e-05, 'epoch': 4.29}
 18%|█▊        | 14033/78504 [8:32:32<20:20:38,  1.14s/it] 18%|█▊        | 14034/78504 [8:32:32<18:25:40,  1.03s/it]                                                          {'loss': 0.2262, 'grad_norm': 1.1928538084030151, 'learning_rate': 2.7377606046452378e-05, 'epoch': 4.29}
 18%|█▊        | 14034/78504 [8:32:32<18:25:40,  1.03s/it] 18%|█▊        | 14035/78504 [8:32:39<48:25:58,  2.70s/it]                                                          {'loss': 0.1827, 'grad_norm': 0.4851502478122711, 'learning_rate': 2.737718143603244e-05, 'epoch': 4.29}
 18%|█▊        | 14035/78504 [8:32:39<48:25:58,  2.70s/it] 18%|█▊        | 14036/78504 [8:32:42<50:38:13,  2.83s/it]                                                          {'loss': 0.098, 'grad_norm': 0.3275355100631714, 'learning_rate': 2.73767568256125e-05, 'epoch': 4.29}
 18%|█▊        | 14036/78504 [8:32:42<50:38:13,  2.83s/it] 18%|█▊        | 14037/78504 [8:32:45<51:37:22,  2.88s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.3365787863731384, 'learning_rate': 2.737633221519256e-05, 'epoch': 4.29}
 18%|█▊        | 14037/78504 [8:32:45<51:37:22,  2.88s/it] 18%|█▊        | 14038/78504 [8:32:48<50:11:24,  2.80s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.27382969856262207, 'learning_rate': 2.737590760477262e-05, 'epoch': 4.29}
 18%|█▊        | 14038/78504 [8:32:48<50:11:24,  2.80s/it] 18%|█▊        | 14039/78504 [8:32:50<48:22:02,  2.70s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.23043540120124817, 'learning_rate': 2.737548299435268e-05, 'epoch': 4.29}
 18%|█▊        | 14039/78504 [8:32:50<48:22:02,  2.70s/it] 18%|█▊        | 14040/78504 [8:32:53<46:54:34,  2.62s/it]                                                          {'loss': 0.0518, 'grad_norm': 0.2352287918329239, 'learning_rate': 2.737505838393274e-05, 'epoch': 4.29}
 18%|█▊        | 14040/78504 [8:32:53<46:54:34,  2.62s/it] 18%|█▊        | 14041/78504 [8:32:55<45:14:31,  2.53s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.3604625463485718, 'learning_rate': 2.7374633773512802e-05, 'epoch': 4.29}
 18%|█▊        | 14041/78504 [8:32:55<45:14:31,  2.53s/it] 18%|█▊        | 14042/78504 [8:32:57<44:02:51,  2.46s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.5341261029243469, 'learning_rate': 2.737420916309286e-05, 'epoch': 4.29}
 18%|█▊        | 14042/78504 [8:32:57<44:02:51,  2.46s/it] 18%|█▊        | 14043/78504 [8:32:59<42:32:15,  2.38s/it]                                                          {'loss': 0.0993, 'grad_norm': 0.6867982149124146, 'learning_rate': 2.7373784552672923e-05, 'epoch': 4.29}
 18%|█▊        | 14043/78504 [8:32:59<42:32:15,  2.38s/it] 18%|█▊        | 14044/78504 [8:33:02<41:15:32,  2.30s/it]                                                          {'loss': 0.061, 'grad_norm': 0.36157000064849854, 'learning_rate': 2.7373359942252985e-05, 'epoch': 4.29}
 18%|█▊        | 14044/78504 [8:33:02<41:15:32,  2.30s/it] 18%|█▊        | 14045/78504 [8:33:03<38:50:26,  2.17s/it]                                                          {'loss': 0.1026, 'grad_norm': 0.8425976037979126, 'learning_rate': 2.7372935331833047e-05, 'epoch': 4.29}
 18%|█▊        | 14045/78504 [8:33:03<38:50:26,  2.17s/it] 18%|█▊        | 14046/78504 [8:33:05<37:50:21,  2.11s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.5143864154815674, 'learning_rate': 2.7372510721413106e-05, 'epoch': 4.29}
 18%|█▊        | 14046/78504 [8:33:05<37:50:21,  2.11s/it] 18%|█▊        | 14047/78504 [8:33:07<36:48:20,  2.06s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.36785101890563965, 'learning_rate': 2.7372086110993165e-05, 'epoch': 4.29}
 18%|█▊        | 14047/78504 [8:33:07<36:48:20,  2.06s/it] 18%|█▊        | 14048/78504 [8:33:09<35:45:19,  2.00s/it]                                                          {'loss': 0.1083, 'grad_norm': 0.31875407695770264, 'learning_rate': 2.7371661500573227e-05, 'epoch': 4.29}
 18%|█▊        | 14048/78504 [8:33:09<35:45:19,  2.00s/it] 18%|█▊        | 14049/78504 [8:33:11<34:28:27,  1.93s/it]                                                          {'loss': 0.1206, 'grad_norm': 1.0515844821929932, 'learning_rate': 2.7371236890153285e-05, 'epoch': 4.3}
 18%|█▊        | 14049/78504 [8:33:11<34:28:27,  1.93s/it] 18%|█▊        | 14050/78504 [8:33:13<32:36:06,  1.82s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.42662128806114197, 'learning_rate': 2.7370812279733347e-05, 'epoch': 4.3}
 18%|█▊        | 14050/78504 [8:33:13<32:36:06,  1.82s/it] 18%|█▊        | 14051/78504 [8:33:14<31:05:57,  1.74s/it]                                                          {'loss': 0.1739, 'grad_norm': 0.6119645833969116, 'learning_rate': 2.7370387669313406e-05, 'epoch': 4.3}
 18%|█▊        | 14051/78504 [8:33:14<31:05:57,  1.74s/it] 18%|█▊        | 14052/78504 [8:33:16<29:53:31,  1.67s/it]                                                          {'loss': 0.168, 'grad_norm': 0.8434609770774841, 'learning_rate': 2.7369963058893468e-05, 'epoch': 4.3}
 18%|█▊        | 14052/78504 [8:33:16<29:53:31,  1.67s/it] 18%|█▊        | 14053/78504 [8:33:17<28:20:56,  1.58s/it]                                                          {'loss': 0.1735, 'grad_norm': 0.4671836197376251, 'learning_rate': 2.7369538448473527e-05, 'epoch': 4.3}
 18%|█▊        | 14053/78504 [8:33:17<28:20:56,  1.58s/it] 18%|█▊        | 14054/78504 [8:33:18<26:46:51,  1.50s/it]                                                          {'loss': 0.1669, 'grad_norm': 1.2355303764343262, 'learning_rate': 2.736911383805359e-05, 'epoch': 4.3}
 18%|█▊        | 14054/78504 [8:33:18<26:46:51,  1.50s/it] 18%|█▊        | 14055/78504 [8:33:19<24:55:27,  1.39s/it]                                                          {'loss': 0.1872, 'grad_norm': 0.7317405939102173, 'learning_rate': 2.7368689227633648e-05, 'epoch': 4.3}
 18%|█▊        | 14055/78504 [8:33:19<24:55:27,  1.39s/it] 18%|█▊        | 14056/78504 [8:33:20<23:18:40,  1.30s/it]                                                          {'loss': 0.1562, 'grad_norm': 0.9848539233207703, 'learning_rate': 2.736826461721371e-05, 'epoch': 4.3}
 18%|█▊        | 14056/78504 [8:33:21<23:18:40,  1.30s/it] 18%|█▊        | 14057/78504 [8:33:22<21:56:27,  1.23s/it]                                                          {'loss': 0.1987, 'grad_norm': 1.0983805656433105, 'learning_rate': 2.736784000679377e-05, 'epoch': 4.3}
 18%|█▊        | 14057/78504 [8:33:22<21:56:27,  1.23s/it] 18%|█▊        | 14058/78504 [8:33:22<20:18:13,  1.13s/it]                                                          {'loss': 0.2558, 'grad_norm': 1.417351245880127, 'learning_rate': 2.7367415396373827e-05, 'epoch': 4.3}
 18%|█▊        | 14058/78504 [8:33:22<20:18:13,  1.13s/it] 18%|█▊        | 14059/78504 [8:33:23<18:30:28,  1.03s/it]                                                          {'loss': 0.2528, 'grad_norm': 1.2566285133361816, 'learning_rate': 2.736699078595389e-05, 'epoch': 4.3}
 18%|█▊        | 14059/78504 [8:33:23<18:30:28,  1.03s/it] 18%|█▊        | 14060/78504 [8:33:33<63:25:53,  3.54s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.4753519296646118, 'learning_rate': 2.7366566175533948e-05, 'epoch': 4.3}
 18%|█▊        | 14060/78504 [8:33:33<63:25:53,  3.54s/it] 18%|█▊        | 14061/78504 [8:33:36<62:25:02,  3.49s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.6424202919006348, 'learning_rate': 2.736614156511401e-05, 'epoch': 4.3}
 18%|█▊        | 14061/78504 [8:33:36<62:25:02,  3.49s/it] 18%|█▊        | 14062/78504 [8:33:39<59:20:40,  3.32s/it]                                                          {'loss': 0.0544, 'grad_norm': 0.14744873344898224, 'learning_rate': 2.736571695469407e-05, 'epoch': 4.3}
 18%|█▊        | 14062/78504 [8:33:39<59:20:40,  3.32s/it] 18%|█▊        | 14063/78504 [8:33:41<54:56:56,  3.07s/it]                                                          {'loss': 0.094, 'grad_norm': 0.22164766490459442, 'learning_rate': 2.736529234427413e-05, 'epoch': 4.3}
 18%|█▊        | 14063/78504 [8:33:41<54:56:56,  3.07s/it] 18%|█▊        | 14064/78504 [8:33:44<51:40:24,  2.89s/it]                                                          {'loss': 0.0716, 'grad_norm': 0.2092195451259613, 'learning_rate': 2.736486773385419e-05, 'epoch': 4.3}
 18%|█▊        | 14064/78504 [8:33:44<51:40:24,  2.89s/it] 18%|█▊        | 14065/78504 [8:33:46<49:13:22,  2.75s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.23492150008678436, 'learning_rate': 2.7364443123434252e-05, 'epoch': 4.3}
 18%|█▊        | 14065/78504 [8:33:46<49:13:22,  2.75s/it] 18%|█▊        | 14066/78504 [8:33:49<46:52:07,  2.62s/it]                                                          {'loss': 0.0487, 'grad_norm': 0.19796514511108398, 'learning_rate': 2.736401851301431e-05, 'epoch': 4.3}
 18%|█▊        | 14066/78504 [8:33:49<46:52:07,  2.62s/it] 18%|█▊        | 14067/78504 [8:33:51<44:08:54,  2.47s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.22485575079917908, 'learning_rate': 2.7363593902594372e-05, 'epoch': 4.3}
 18%|█▊        | 14067/78504 [8:33:51<44:08:54,  2.47s/it] 18%|█▊        | 14068/78504 [8:33:53<42:40:17,  2.38s/it]                                                          {'loss': 0.0823, 'grad_norm': 0.1904451996088028, 'learning_rate': 2.736316929217443e-05, 'epoch': 4.3}
 18%|█▊        | 14068/78504 [8:33:53<42:40:17,  2.38s/it] 18%|█▊        | 14069/78504 [8:33:55<41:21:03,  2.31s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.24391226470470428, 'learning_rate': 2.7362744681754493e-05, 'epoch': 4.3}
 18%|█▊        | 14069/78504 [8:33:55<41:21:03,  2.31s/it] 18%|█▊        | 14070/78504 [8:33:57<39:49:32,  2.23s/it]                                                          {'loss': 0.1293, 'grad_norm': 0.36540937423706055, 'learning_rate': 2.7362320071334552e-05, 'epoch': 4.3}
 18%|█▊        | 14070/78504 [8:33:57<39:49:32,  2.23s/it] 18%|█▊        | 14071/78504 [8:33:59<38:31:44,  2.15s/it]                                                          {'loss': 0.0764, 'grad_norm': 0.3381972908973694, 'learning_rate': 2.736189546091461e-05, 'epoch': 4.3}
 18%|█▊        | 14071/78504 [8:33:59<38:31:44,  2.15s/it] 18%|█▊        | 14072/78504 [8:34:01<37:04:41,  2.07s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.38233742117881775, 'learning_rate': 2.7361470850494673e-05, 'epoch': 4.3}
 18%|█▊        | 14072/78504 [8:34:01<37:04:41,  2.07s/it] 18%|█▊        | 14073/78504 [8:34:03<36:03:29,  2.01s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.41749435663223267, 'learning_rate': 2.736104624007473e-05, 'epoch': 4.3}
 18%|█▊        | 14073/78504 [8:34:03<36:03:29,  2.01s/it] 18%|█▊        | 14074/78504 [8:34:05<34:31:04,  1.93s/it]                                                          {'loss': 0.1153, 'grad_norm': 0.33893030881881714, 'learning_rate': 2.7360621629654794e-05, 'epoch': 4.3}
 18%|█▊        | 14074/78504 [8:34:05<34:31:04,  1.93s/it] 18%|█▊        | 14075/78504 [8:34:06<32:55:20,  1.84s/it]                                                          {'loss': 0.1402, 'grad_norm': 0.7785319685935974, 'learning_rate': 2.7360197019234852e-05, 'epoch': 4.3}
 18%|█▊        | 14075/78504 [8:34:06<32:55:20,  1.84s/it] 18%|█▊        | 14076/78504 [8:34:08<31:18:15,  1.75s/it]                                                          {'loss': 0.1734, 'grad_norm': 0.40333113074302673, 'learning_rate': 2.7359772408814914e-05, 'epoch': 4.3}
 18%|█▊        | 14076/78504 [8:34:08<31:18:15,  1.75s/it] 18%|█▊        | 14077/78504 [8:34:09<29:36:19,  1.65s/it]                                                          {'loss': 0.1978, 'grad_norm': 1.6344172954559326, 'learning_rate': 2.7359347798394973e-05, 'epoch': 4.3}
 18%|█▊        | 14077/78504 [8:34:09<29:36:19,  1.65s/it] 18%|█▊        | 14078/78504 [8:34:11<28:19:19,  1.58s/it]                                                          {'loss': 0.2301, 'grad_norm': 0.6379988789558411, 'learning_rate': 2.7358923187975035e-05, 'epoch': 4.3}
 18%|█▊        | 14078/78504 [8:34:11<28:19:19,  1.58s/it] 18%|█▊        | 14079/78504 [8:34:12<26:21:44,  1.47s/it]                                                          {'loss': 0.1378, 'grad_norm': 1.2892944812774658, 'learning_rate': 2.7358498577555094e-05, 'epoch': 4.3}
 18%|█▊        | 14079/78504 [8:34:12<26:21:44,  1.47s/it] 18%|█▊        | 14080/78504 [8:34:13<24:30:18,  1.37s/it]                                                          {'loss': 0.1511, 'grad_norm': 0.7156697511672974, 'learning_rate': 2.7358073967135156e-05, 'epoch': 4.3}
 18%|█▊        | 14080/78504 [8:34:13<24:30:18,  1.37s/it] 18%|█▊        | 14081/78504 [8:34:14<23:01:32,  1.29s/it]                                                          {'loss': 0.168, 'grad_norm': 0.8099051713943481, 'learning_rate': 2.7357649356715215e-05, 'epoch': 4.3}
 18%|█▊        | 14081/78504 [8:34:14<23:01:32,  1.29s/it] 18%|█▊        | 14082/78504 [8:34:15<21:27:05,  1.20s/it]                                                          {'loss': 0.1553, 'grad_norm': 0.6347202062606812, 'learning_rate': 2.7357224746295277e-05, 'epoch': 4.31}
 18%|█▊        | 14082/78504 [8:34:15<21:27:05,  1.20s/it] 18%|█▊        | 14083/78504 [8:34:16<20:03:05,  1.12s/it]                                                          {'loss': 0.1938, 'grad_norm': 0.7102508544921875, 'learning_rate': 2.7356800135875335e-05, 'epoch': 4.31}
 18%|█▊        | 14083/78504 [8:34:16<20:03:05,  1.12s/it] 18%|█▊        | 14084/78504 [8:34:17<18:11:04,  1.02s/it]                                                          {'loss': 0.2899, 'grad_norm': 1.3989017009735107, 'learning_rate': 2.7356375525455394e-05, 'epoch': 4.31}
 18%|█▊        | 14084/78504 [8:34:17<18:11:04,  1.02s/it] 18%|█▊        | 14085/78504 [8:34:27<68:15:00,  3.81s/it]                                                          {'loss': 0.1675, 'grad_norm': 0.30376648902893066, 'learning_rate': 2.7355950915035456e-05, 'epoch': 4.31}
 18%|█▊        | 14085/78504 [8:34:27<68:15:00,  3.81s/it] 18%|█▊        | 14086/78504 [8:34:30<63:20:25,  3.54s/it]                                                          {'loss': 0.1003, 'grad_norm': 0.31352150440216064, 'learning_rate': 2.7355526304615515e-05, 'epoch': 4.31}
 18%|█▊        | 14086/78504 [8:34:30<63:20:25,  3.54s/it] 18%|█▊        | 14087/78504 [8:34:33<60:00:41,  3.35s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.20619480311870575, 'learning_rate': 2.7355101694195577e-05, 'epoch': 4.31}
 18%|█▊        | 14087/78504 [8:34:33<60:00:41,  3.35s/it] 18%|█▊        | 14088/78504 [8:34:35<55:52:06,  3.12s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.3956781327724457, 'learning_rate': 2.7354677083775636e-05, 'epoch': 4.31}
 18%|█▊        | 14088/78504 [8:34:35<55:52:06,  3.12s/it] 18%|█▊        | 14089/78504 [8:34:38<52:26:35,  2.93s/it]                                                          {'loss': 0.067, 'grad_norm': 0.42238813638687134, 'learning_rate': 2.7354252473355698e-05, 'epoch': 4.31}
 18%|█▊        | 14089/78504 [8:34:38<52:26:35,  2.93s/it] 18%|█▊        | 14090/78504 [8:34:40<49:49:56,  2.79s/it]                                                          {'loss': 0.0501, 'grad_norm': 0.22072207927703857, 'learning_rate': 2.7353827862935756e-05, 'epoch': 4.31}
 18%|█▊        | 14090/78504 [8:34:40<49:49:56,  2.79s/it] 18%|█▊        | 14091/78504 [8:34:43<47:30:54,  2.66s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.4901805520057678, 'learning_rate': 2.735340325251582e-05, 'epoch': 4.31}
 18%|█▊        | 14091/78504 [8:34:43<47:30:54,  2.66s/it] 18%|█▊        | 14092/78504 [8:34:45<45:34:45,  2.55s/it]                                                          {'loss': 0.069, 'grad_norm': 0.2540338933467865, 'learning_rate': 2.7352978642095877e-05, 'epoch': 4.31}
 18%|█▊        | 14092/78504 [8:34:45<45:34:45,  2.55s/it] 18%|█▊        | 14093/78504 [8:34:47<42:54:01,  2.40s/it]                                                          {'loss': 0.0439, 'grad_norm': 0.2271185964345932, 'learning_rate': 2.735255403167594e-05, 'epoch': 4.31}
 18%|█▊        | 14093/78504 [8:34:47<42:54:01,  2.40s/it] 18%|█▊        | 14094/78504 [8:34:49<41:29:12,  2.32s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.24029132723808289, 'learning_rate': 2.7352129421255998e-05, 'epoch': 4.31}
 18%|█▊        | 14094/78504 [8:34:49<41:29:12,  2.32s/it] 18%|█▊        | 14095/78504 [8:34:51<39:26:55,  2.20s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.1983702927827835, 'learning_rate': 2.735170481083606e-05, 'epoch': 4.31}
 18%|█▊        | 14095/78504 [8:34:51<39:26:55,  2.20s/it] 18%|█▊        | 14096/78504 [8:34:53<38:19:19,  2.14s/it]                                                          {'loss': 0.085, 'grad_norm': 0.33192017674446106, 'learning_rate': 2.735128020041612e-05, 'epoch': 4.31}
 18%|█▊        | 14096/78504 [8:34:53<38:19:19,  2.14s/it] 18%|█▊        | 14097/78504 [8:34:55<37:05:16,  2.07s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.2689114809036255, 'learning_rate': 2.7350855589996178e-05, 'epoch': 4.31}
 18%|█▊        | 14097/78504 [8:34:55<37:05:16,  2.07s/it] 18%|█▊        | 14098/78504 [8:34:57<36:03:04,  2.02s/it]                                                          {'loss': 0.1, 'grad_norm': 0.4382350742816925, 'learning_rate': 2.735043097957624e-05, 'epoch': 4.31}
 18%|█▊        | 14098/78504 [8:34:57<36:03:04,  2.02s/it] 18%|█▊        | 14099/78504 [8:34:59<34:44:37,  1.94s/it]                                                          {'loss': 0.125, 'grad_norm': 0.8371070623397827, 'learning_rate': 2.73500063691563e-05, 'epoch': 4.31}
 18%|█▊        | 14099/78504 [8:34:59<34:44:37,  1.94s/it] 18%|█▊        | 14100/78504 [8:35:00<33:10:47,  1.85s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.5242752432823181, 'learning_rate': 2.734958175873636e-05, 'epoch': 4.31}
 18%|█▊        | 14100/78504 [8:35:00<33:10:47,  1.85s/it] 18%|█▊        | 14101/78504 [8:35:02<31:29:24,  1.76s/it]                                                          {'loss': 0.1427, 'grad_norm': 0.316903293132782, 'learning_rate': 2.734915714831642e-05, 'epoch': 4.31}
 18%|█▊        | 14101/78504 [8:35:02<31:29:24,  1.76s/it] 18%|█▊        | 14102/78504 [8:35:03<29:54:59,  1.67s/it]                                                          {'loss': 0.1726, 'grad_norm': 0.41123077273368835, 'learning_rate': 2.734873253789648e-05, 'epoch': 4.31}
 18%|█▊        | 14102/78504 [8:35:03<29:54:59,  1.67s/it] 18%|█▊        | 14103/78504 [8:35:05<28:30:17,  1.59s/it]                                                          {'loss': 0.1905, 'grad_norm': 3.553513288497925, 'learning_rate': 2.734830792747654e-05, 'epoch': 4.31}
 18%|█▊        | 14103/78504 [8:35:05<28:30:17,  1.59s/it] 18%|█▊        | 14104/78504 [8:35:06<26:50:55,  1.50s/it]                                                          {'loss': 0.1779, 'grad_norm': 0.5284780263900757, 'learning_rate': 2.7347883317056602e-05, 'epoch': 4.31}
 18%|█▊        | 14104/78504 [8:35:06<26:50:55,  1.50s/it] 18%|█▊        | 14105/78504 [8:35:07<24:56:37,  1.39s/it]                                                          {'loss': 0.1655, 'grad_norm': 0.5089156627655029, 'learning_rate': 2.734745870663666e-05, 'epoch': 4.31}
 18%|█▊        | 14105/78504 [8:35:07<24:56:37,  1.39s/it] 18%|█▊        | 14106/78504 [8:35:08<23:25:31,  1.31s/it]                                                          {'loss': 0.1937, 'grad_norm': 0.6542913317680359, 'learning_rate': 2.7347034096216723e-05, 'epoch': 4.31}
 18%|█▊        | 14106/78504 [8:35:08<23:25:31,  1.31s/it] 18%|█▊        | 14107/78504 [8:35:09<22:05:10,  1.23s/it]                                                          {'loss': 0.1936, 'grad_norm': 1.1651510000228882, 'learning_rate': 2.734660948579678e-05, 'epoch': 4.31}
 18%|█▊        | 14107/78504 [8:35:09<22:05:10,  1.23s/it] 18%|█▊        | 14108/78504 [8:35:10<20:29:47,  1.15s/it]                                                          {'loss': 0.1686, 'grad_norm': 0.6851086616516113, 'learning_rate': 2.7346184875376844e-05, 'epoch': 4.31}
 18%|█▊        | 14108/78504 [8:35:10<20:29:47,  1.15s/it] 18%|█▊        | 14109/78504 [8:35:11<18:40:24,  1.04s/it]                                                          {'loss': 0.2518, 'grad_norm': 1.0589467287063599, 'learning_rate': 2.7345760264956902e-05, 'epoch': 4.31}
 18%|█▊        | 14109/78504 [8:35:11<18:40:24,  1.04s/it] 18%|█▊        | 14110/78504 [8:35:22<69:24:44,  3.88s/it]                                                          {'loss': 0.159, 'grad_norm': 0.5504137873649597, 'learning_rate': 2.734533565453696e-05, 'epoch': 4.31}
 18%|█▊        | 14110/78504 [8:35:22<69:24:44,  3.88s/it] 18%|█▊        | 14111/78504 [8:35:25<65:22:54,  3.66s/it]                                                          {'loss': 0.0941, 'grad_norm': 0.45047080516815186, 'learning_rate': 2.7344911044117023e-05, 'epoch': 4.31}
 18%|█▊        | 14111/78504 [8:35:25<65:22:54,  3.66s/it] 18%|█▊        | 14112/78504 [8:35:28<61:56:01,  3.46s/it]                                                          {'loss': 0.0995, 'grad_norm': 0.7813011407852173, 'learning_rate': 2.7344486433697082e-05, 'epoch': 4.31}
 18%|█▊        | 14112/78504 [8:35:28<61:56:01,  3.46s/it] 18%|█▊        | 14113/78504 [8:35:30<57:22:04,  3.21s/it]                                                          {'loss': 0.073, 'grad_norm': 0.36480727791786194, 'learning_rate': 2.7344061823277144e-05, 'epoch': 4.31}
 18%|█▊        | 14113/78504 [8:35:30<57:22:04,  3.21s/it] 18%|█▊        | 14114/78504 [8:35:33<53:21:59,  2.98s/it]                                                          {'loss': 0.0708, 'grad_norm': 0.18682850897312164, 'learning_rate': 2.7343637212857203e-05, 'epoch': 4.31}
 18%|█▊        | 14114/78504 [8:35:33<53:21:59,  2.98s/it] 18%|█▊        | 14115/78504 [8:35:35<50:22:49,  2.82s/it]                                                          {'loss': 0.0387, 'grad_norm': 0.18934907019138336, 'learning_rate': 2.7343212602437265e-05, 'epoch': 4.32}
 18%|█▊        | 14115/78504 [8:35:35<50:22:49,  2.82s/it] 18%|█▊        | 14116/78504 [8:35:38<47:42:00,  2.67s/it]                                                          {'loss': 0.0514, 'grad_norm': 0.2434484362602234, 'learning_rate': 2.7342787992017323e-05, 'epoch': 4.32}
 18%|█▊        | 14116/78504 [8:35:38<47:42:00,  2.67s/it] 18%|█▊        | 14117/78504 [8:35:40<44:42:22,  2.50s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.3544362187385559, 'learning_rate': 2.7342363381597385e-05, 'epoch': 4.32}
 18%|█▊        | 14117/78504 [8:35:40<44:42:22,  2.50s/it] 18%|█▊        | 14118/78504 [8:35:42<42:59:21,  2.40s/it]                                                          {'loss': 0.0571, 'grad_norm': 0.31695249676704407, 'learning_rate': 2.7341938771177444e-05, 'epoch': 4.32}
 18%|█▊        | 14118/78504 [8:35:42<42:59:21,  2.40s/it] 18%|█▊        | 14119/78504 [8:35:44<41:43:39,  2.33s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.2700180113315582, 'learning_rate': 2.7341514160757506e-05, 'epoch': 4.32}
 18%|█▊        | 14119/78504 [8:35:44<41:43:39,  2.33s/it] 18%|█▊        | 14120/78504 [8:35:46<40:05:39,  2.24s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.2729020118713379, 'learning_rate': 2.7341089550337565e-05, 'epoch': 4.32}
 18%|█▊        | 14120/78504 [8:35:46<40:05:39,  2.24s/it] 18%|█▊        | 14121/78504 [8:35:48<38:41:24,  2.16s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.5931738018989563, 'learning_rate': 2.7340664939917627e-05, 'epoch': 4.32}
 18%|█▊        | 14121/78504 [8:35:48<38:41:24,  2.16s/it] 18%|█▊        | 14122/78504 [8:35:50<37:22:31,  2.09s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.3919568359851837, 'learning_rate': 2.7340240329497686e-05, 'epoch': 4.32}
 18%|█▊        | 14122/78504 [8:35:50<37:22:31,  2.09s/it] 18%|█▊        | 14123/78504 [8:35:52<36:15:12,  2.03s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.9183927774429321, 'learning_rate': 2.7339815719077744e-05, 'epoch': 4.32}
 18%|█▊        | 14123/78504 [8:35:52<36:15:12,  2.03s/it] 18%|█▊        | 14124/78504 [8:35:54<34:49:28,  1.95s/it]                                                          {'loss': 0.1567, 'grad_norm': 0.3961344063282013, 'learning_rate': 2.7339391108657806e-05, 'epoch': 4.32}
 18%|█▊        | 14124/78504 [8:35:54<34:49:28,  1.95s/it] 18%|█▊        | 14125/78504 [8:35:55<33:12:37,  1.86s/it]                                                          {'loss': 0.1325, 'grad_norm': 0.30138543248176575, 'learning_rate': 2.7338966498237865e-05, 'epoch': 4.32}
 18%|█▊        | 14125/78504 [8:35:55<33:12:37,  1.86s/it] 18%|█▊        | 14126/78504 [8:35:57<31:29:46,  1.76s/it]                                                          {'loss': 0.1212, 'grad_norm': 0.7328728437423706, 'learning_rate': 2.7338541887817927e-05, 'epoch': 4.32}
 18%|█▊        | 14126/78504 [8:35:57<31:29:46,  1.76s/it] 18%|█▊        | 14127/78504 [8:35:58<29:55:07,  1.67s/it]                                                          {'loss': 0.1621, 'grad_norm': 0.6603227853775024, 'learning_rate': 2.7338117277397986e-05, 'epoch': 4.32}
 18%|█▊        | 14127/78504 [8:35:58<29:55:07,  1.67s/it] 18%|█▊        | 14128/78504 [8:36:00<28:31:54,  1.60s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.518578052520752, 'learning_rate': 2.7337692666978048e-05, 'epoch': 4.32}
 18%|█▊        | 14128/78504 [8:36:00<28:31:54,  1.60s/it] 18%|█▊        | 14129/78504 [8:36:01<26:47:47,  1.50s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.5430636405944824, 'learning_rate': 2.7337268056558107e-05, 'epoch': 4.32}
 18%|█▊        | 14129/78504 [8:36:01<26:47:47,  1.50s/it] 18%|█▊        | 14130/78504 [8:36:02<24:54:31,  1.39s/it]                                                          {'loss': 0.1679, 'grad_norm': 0.45239096879959106, 'learning_rate': 2.733684344613817e-05, 'epoch': 4.32}
 18%|█▊        | 14130/78504 [8:36:02<24:54:31,  1.39s/it] 18%|█▊        | 14131/78504 [8:36:03<23:23:11,  1.31s/it]                                                          {'loss': 0.1984, 'grad_norm': 0.891975998878479, 'learning_rate': 2.7336418835718228e-05, 'epoch': 4.32}
 18%|█▊        | 14131/78504 [8:36:03<23:23:11,  1.31s/it] 18%|█▊        | 14132/78504 [8:36:04<22:01:03,  1.23s/it]                                                          {'loss': 0.178, 'grad_norm': 0.8088558316230774, 'learning_rate': 2.733599422529829e-05, 'epoch': 4.32}
 18%|█▊        | 14132/78504 [8:36:04<22:01:03,  1.23s/it] 18%|█▊        | 14133/78504 [8:36:05<20:24:34,  1.14s/it]                                                          {'loss': 0.2086, 'grad_norm': 0.9760035872459412, 'learning_rate': 2.733556961487835e-05, 'epoch': 4.32}
 18%|█▊        | 14133/78504 [8:36:05<20:24:34,  1.14s/it] 18%|█▊        | 14134/78504 [8:36:06<18:28:30,  1.03s/it]                                                          {'loss': 0.2117, 'grad_norm': 1.4491702318191528, 'learning_rate': 2.733514500445841e-05, 'epoch': 4.32}
 18%|█▊        | 14134/78504 [8:36:06<18:28:30,  1.03s/it] 18%|█▊        | 14135/78504 [8:36:13<51:36:55,  2.89s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.7593148946762085, 'learning_rate': 2.733472039403847e-05, 'epoch': 4.32}
 18%|█▊        | 14135/78504 [8:36:13<51:36:55,  2.89s/it] 18%|█▊        | 14136/78504 [8:36:17<53:50:31,  3.01s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.27714288234710693, 'learning_rate': 2.7334295783618528e-05, 'epoch': 4.32}
 18%|█▊        | 14136/78504 [8:36:17<53:50:31,  3.01s/it] 18%|█▊        | 14137/78504 [8:36:19<53:37:31,  3.00s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.31007611751556396, 'learning_rate': 2.733387117319859e-05, 'epoch': 4.32}
 18%|█▊        | 14137/78504 [8:36:19<53:37:31,  3.00s/it] 18%|█▊        | 14138/78504 [8:36:22<51:24:37,  2.88s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.3812117278575897, 'learning_rate': 2.733344656277865e-05, 'epoch': 4.32}
 18%|█▊        | 14138/78504 [8:36:22<51:24:37,  2.88s/it] 18%|█▊        | 14139/78504 [8:36:25<49:18:51,  2.76s/it]                                                          {'loss': 0.0511, 'grad_norm': 0.27635809779167175, 'learning_rate': 2.733302195235871e-05, 'epoch': 4.32}
 18%|█▊        | 14139/78504 [8:36:25<49:18:51,  2.76s/it] 18%|█▊        | 14140/78504 [8:36:27<47:10:36,  2.64s/it]                                                          {'loss': 0.0541, 'grad_norm': 0.178621307015419, 'learning_rate': 2.733259734193877e-05, 'epoch': 4.32}
 18%|█▊        | 14140/78504 [8:36:27<47:10:36,  2.64s/it] 18%|█▊        | 14141/78504 [8:36:29<45:29:56,  2.54s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.2132558822631836, 'learning_rate': 2.733217273151883e-05, 'epoch': 4.32}
 18%|█▊        | 14141/78504 [8:36:29<45:29:56,  2.54s/it] 18%|█▊        | 14142/78504 [8:36:31<43:04:07,  2.41s/it]                                                          {'loss': 0.0477, 'grad_norm': 0.2517443597316742, 'learning_rate': 2.733174812109889e-05, 'epoch': 4.32}
 18%|█▊        | 14142/78504 [8:36:31<43:04:07,  2.41s/it] 18%|█▊        | 14143/78504 [8:36:33<41:01:47,  2.29s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.2982519268989563, 'learning_rate': 2.7331323510678952e-05, 'epoch': 4.32}
 18%|█▊        | 14143/78504 [8:36:33<41:01:47,  2.29s/it] 18%|█▊        | 14144/78504 [8:36:35<40:09:42,  2.25s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.23923645913600922, 'learning_rate': 2.733089890025901e-05, 'epoch': 4.32}
 18%|█▊        | 14144/78504 [8:36:36<40:09:42,  2.25s/it] 18%|█▊        | 14145/78504 [8:36:37<38:45:07,  2.17s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.23974710702896118, 'learning_rate': 2.7330474289839073e-05, 'epoch': 4.32}
 18%|█▊        | 14145/78504 [8:36:37<38:45:07,  2.17s/it] 18%|█▊        | 14146/78504 [8:36:39<37:26:59,  2.09s/it]                                                          {'loss': 0.0776, 'grad_norm': 0.5581826567649841, 'learning_rate': 2.7330049679419132e-05, 'epoch': 4.32}
 18%|█▊        | 14146/78504 [8:36:39<37:26:59,  2.09s/it] 18%|█▊        | 14147/78504 [8:36:41<36:13:11,  2.03s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.7805964946746826, 'learning_rate': 2.7329625068999194e-05, 'epoch': 4.32}
 18%|█▊        | 14147/78504 [8:36:41<36:13:11,  2.03s/it] 18%|█▊        | 14148/78504 [8:36:43<34:34:18,  1.93s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.5249888300895691, 'learning_rate': 2.7329200458579256e-05, 'epoch': 4.33}
 18%|█▊        | 14148/78504 [8:36:43<34:34:18,  1.93s/it] 18%|█▊        | 14149/78504 [8:36:45<33:40:01,  1.88s/it]                                                          {'loss': 0.15, 'grad_norm': 0.7751972079277039, 'learning_rate': 2.7328775848159315e-05, 'epoch': 4.33}
 18%|█▊        | 14149/78504 [8:36:45<33:40:01,  1.88s/it] 18%|█▊        | 14150/78504 [8:36:46<31:53:14,  1.78s/it]                                                          {'loss': 0.1678, 'grad_norm': 0.6807534098625183, 'learning_rate': 2.7328351237739377e-05, 'epoch': 4.33}
 18%|█▊        | 14150/78504 [8:36:46<31:53:14,  1.78s/it] 18%|█▊        | 14151/78504 [8:36:48<30:28:27,  1.70s/it]                                                          {'loss': 0.1612, 'grad_norm': 0.5125371217727661, 'learning_rate': 2.7327926627319435e-05, 'epoch': 4.33}
 18%|█▊        | 14151/78504 [8:36:48<30:28:27,  1.70s/it] 18%|█▊        | 14152/78504 [8:36:49<29:01:57,  1.62s/it]                                                          {'loss': 0.17, 'grad_norm': 0.8204265832901001, 'learning_rate': 2.7327502016899498e-05, 'epoch': 4.33}
 18%|█▊        | 14152/78504 [8:36:49<29:01:57,  1.62s/it] 18%|█▊        | 14153/78504 [8:36:51<27:52:39,  1.56s/it]                                                          {'loss': 0.1819, 'grad_norm': 0.7689731121063232, 'learning_rate': 2.7327077406479556e-05, 'epoch': 4.33}
 18%|█▊        | 14153/78504 [8:36:51<27:52:39,  1.56s/it] 18%|█▊        | 14154/78504 [8:36:52<26:02:52,  1.46s/it]                                                          {'loss': 0.1746, 'grad_norm': 0.6164469718933105, 'learning_rate': 2.732665279605962e-05, 'epoch': 4.33}
 18%|█▊        | 14154/78504 [8:36:52<26:02:52,  1.46s/it] 18%|█▊        | 14155/78504 [8:36:53<24:26:07,  1.37s/it]                                                          {'loss': 0.1674, 'grad_norm': 1.392866611480713, 'learning_rate': 2.7326228185639677e-05, 'epoch': 4.33}
 18%|█▊        | 14155/78504 [8:36:53<24:26:07,  1.37s/it] 18%|█▊        | 14156/78504 [8:36:54<23:00:40,  1.29s/it]                                                          {'loss': 0.1734, 'grad_norm': 0.6336075067520142, 'learning_rate': 2.732580357521974e-05, 'epoch': 4.33}
 18%|█▊        | 14156/78504 [8:36:54<23:00:40,  1.29s/it] 18%|█▊        | 14157/78504 [8:36:55<21:25:25,  1.20s/it]                                                          {'loss': 0.1742, 'grad_norm': 0.8843508362770081, 'learning_rate': 2.7325378964799798e-05, 'epoch': 4.33}
 18%|█▊        | 14157/78504 [8:36:55<21:25:25,  1.20s/it] 18%|█▊        | 14158/78504 [8:36:56<19:58:54,  1.12s/it]                                                          {'loss': 0.2731, 'grad_norm': 1.018278956413269, 'learning_rate': 2.732495435437986e-05, 'epoch': 4.33}
 18%|█▊        | 14158/78504 [8:36:56<19:58:54,  1.12s/it] 18%|█▊        | 14159/78504 [8:36:57<18:09:14,  1.02s/it]                                                          {'loss': 0.2572, 'grad_norm': 1.8883224725723267, 'learning_rate': 2.732452974395992e-05, 'epoch': 4.33}
 18%|█▊        | 14159/78504 [8:36:57<18:09:14,  1.02s/it] 18%|█▊        | 14160/78504 [8:37:05<58:57:41,  3.30s/it]                                                          {'loss': 0.1468, 'grad_norm': 0.32279297709465027, 'learning_rate': 2.732410513353998e-05, 'epoch': 4.33}
 18%|█▊        | 14160/78504 [8:37:05<58:57:41,  3.30s/it] 18%|█▊        | 14161/78504 [8:37:09<58:04:44,  3.25s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.43826696276664734, 'learning_rate': 2.732368052312004e-05, 'epoch': 4.33}
 18%|█▊        | 14161/78504 [8:37:09<58:04:44,  3.25s/it] 18%|█▊        | 14162/78504 [8:37:12<56:21:27,  3.15s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.4750661551952362, 'learning_rate': 2.7323255912700098e-05, 'epoch': 4.33}
 18%|█▊        | 14162/78504 [8:37:12<56:21:27,  3.15s/it] 18%|█▊        | 14163/78504 [8:37:14<53:15:43,  2.98s/it]                                                          {'loss': 0.082, 'grad_norm': 0.20843777060508728, 'learning_rate': 2.732283130228016e-05, 'epoch': 4.33}
 18%|█▊        | 14163/78504 [8:37:14<53:15:43,  2.98s/it] 18%|█▊        | 14164/78504 [8:37:17<50:37:38,  2.83s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.259846031665802, 'learning_rate': 2.732240669186022e-05, 'epoch': 4.33}
 18%|█▊        | 14164/78504 [8:37:17<50:37:38,  2.83s/it] 18%|█▊        | 14165/78504 [8:37:19<48:33:17,  2.72s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.3341767489910126, 'learning_rate': 2.732198208144028e-05, 'epoch': 4.33}
 18%|█▊        | 14165/78504 [8:37:19<48:33:17,  2.72s/it] 18%|█▊        | 14166/78504 [8:37:21<46:24:58,  2.60s/it]                                                          {'loss': 0.0491, 'grad_norm': 0.1567402184009552, 'learning_rate': 2.732155747102034e-05, 'epoch': 4.33}
 18%|█▊        | 14166/78504 [8:37:21<46:24:58,  2.60s/it] 18%|█▊        | 14167/78504 [8:37:23<43:46:10,  2.45s/it]                                                          {'loss': 0.08, 'grad_norm': 0.24950094521045685, 'learning_rate': 2.7321132860600402e-05, 'epoch': 4.33}
 18%|█▊        | 14167/78504 [8:37:23<43:46:10,  2.45s/it] 18%|█▊        | 14168/78504 [8:37:26<42:19:22,  2.37s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.24388036131858826, 'learning_rate': 2.732070825018046e-05, 'epoch': 4.33}
 18%|█▊        | 14168/78504 [8:37:26<42:19:22,  2.37s/it] 18%|█▊        | 14169/78504 [8:37:28<41:06:54,  2.30s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.4284875988960266, 'learning_rate': 2.7320283639760523e-05, 'epoch': 4.33}
 18%|█▊        | 14169/78504 [8:37:28<41:06:54,  2.30s/it] 18%|█▊        | 14170/78504 [8:37:30<39:35:55,  2.22s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.2301848977804184, 'learning_rate': 2.731985902934058e-05, 'epoch': 4.33}
 18%|█▊        | 14170/78504 [8:37:30<39:35:55,  2.22s/it] 18%|█▊        | 14171/78504 [8:37:32<38:19:39,  2.14s/it]                                                          {'loss': 0.0994, 'grad_norm': 1.4044766426086426, 'learning_rate': 2.7319434418920643e-05, 'epoch': 4.33}
 18%|█▊        | 14171/78504 [8:37:32<38:19:39,  2.14s/it] 18%|█▊        | 14172/78504 [8:37:34<37:08:57,  2.08s/it]                                                          {'loss': 0.1124, 'grad_norm': 0.34617719054222107, 'learning_rate': 2.7319009808500702e-05, 'epoch': 4.33}
 18%|█▊        | 14172/78504 [8:37:34<37:08:57,  2.08s/it] 18%|█▊        | 14173/78504 [8:37:36<36:04:10,  2.02s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.3773300051689148, 'learning_rate': 2.731858519808076e-05, 'epoch': 4.33}
 18%|█▊        | 14173/78504 [8:37:36<36:04:10,  2.02s/it] 18%|█▊        | 14174/78504 [8:37:37<34:42:44,  1.94s/it]                                                          {'loss': 0.118, 'grad_norm': 0.5911105275154114, 'learning_rate': 2.7318160587660823e-05, 'epoch': 4.33}
 18%|█▊        | 14174/78504 [8:37:37<34:42:44,  1.94s/it] 18%|█▊        | 14175/78504 [8:37:39<32:46:30,  1.83s/it]                                                          {'loss': 0.1299, 'grad_norm': 0.2834663689136505, 'learning_rate': 2.731773597724088e-05, 'epoch': 4.33}
 18%|█▊        | 14175/78504 [8:37:39<32:46:30,  1.83s/it] 18%|█▊        | 14176/78504 [8:37:40<31:10:36,  1.74s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.8483585715293884, 'learning_rate': 2.7317311366820944e-05, 'epoch': 4.33}
 18%|█▊        | 14176/78504 [8:37:40<31:10:36,  1.74s/it] 18%|█▊        | 14177/78504 [8:37:42<29:41:39,  1.66s/it]                                                          {'loss': 0.2062, 'grad_norm': 0.49143701791763306, 'learning_rate': 2.7316886756401002e-05, 'epoch': 4.33}
 18%|█▊        | 14177/78504 [8:37:42<29:41:39,  1.66s/it] 18%|█▊        | 14178/78504 [8:37:43<28:14:42,  1.58s/it]                                                          {'loss': 0.174, 'grad_norm': 0.5556592345237732, 'learning_rate': 2.7316462145981064e-05, 'epoch': 4.33}
 18%|█▊        | 14178/78504 [8:37:43<28:14:42,  1.58s/it] 18%|█▊        | 14179/78504 [8:37:45<26:41:10,  1.49s/it]                                                          {'loss': 0.1742, 'grad_norm': 0.4796590805053711, 'learning_rate': 2.7316037535561123e-05, 'epoch': 4.33}
 18%|█▊        | 14179/78504 [8:37:45<26:41:10,  1.49s/it] 18%|█▊        | 14180/78504 [8:37:46<24:52:00,  1.39s/it]                                                          {'loss': 0.1702, 'grad_norm': 0.7583059668540955, 'learning_rate': 2.7315612925141185e-05, 'epoch': 4.34}
 18%|█▊        | 14180/78504 [8:37:46<24:52:00,  1.39s/it] 18%|█▊        | 14181/78504 [8:37:47<23:14:55,  1.30s/it]                                                          {'loss': 0.2119, 'grad_norm': 1.223792552947998, 'learning_rate': 2.7315188314721244e-05, 'epoch': 4.34}
 18%|█▊        | 14181/78504 [8:37:47<23:14:55,  1.30s/it] 18%|█▊        | 14182/78504 [8:37:48<21:38:08,  1.21s/it]                                                          {'loss': 0.1698, 'grad_norm': 0.6743370294570923, 'learning_rate': 2.7314763704301306e-05, 'epoch': 4.34}
 18%|█▊        | 14182/78504 [8:37:48<21:38:08,  1.21s/it] 18%|█▊        | 14183/78504 [8:37:49<20:08:01,  1.13s/it]                                                          {'loss': 0.2059, 'grad_norm': 0.7641844153404236, 'learning_rate': 2.7314339093881365e-05, 'epoch': 4.34}
 18%|█▊        | 14183/78504 [8:37:49<20:08:01,  1.13s/it] 18%|█▊        | 14184/78504 [8:37:50<18:16:36,  1.02s/it]                                                          {'loss': 0.2151, 'grad_norm': 2.1456127166748047, 'learning_rate': 2.7313914483461427e-05, 'epoch': 4.34}
 18%|█▊        | 14184/78504 [8:37:50<18:16:36,  1.02s/it] 18%|█▊        | 14185/78504 [8:38:00<67:24:44,  3.77s/it]                                                          {'loss': 0.1462, 'grad_norm': 0.8291619420051575, 'learning_rate': 2.7313489873041485e-05, 'epoch': 4.34}
 18%|█▊        | 14185/78504 [8:38:00<67:24:44,  3.77s/it] 18%|█▊        | 14186/78504 [8:38:03<63:46:11,  3.57s/it]                                                          {'loss': 0.091, 'grad_norm': 0.2801341116428375, 'learning_rate': 2.7313065262621544e-05, 'epoch': 4.34}
 18%|█▊        | 14186/78504 [8:38:03<63:46:11,  3.57s/it] 18%|█▊        | 14187/78504 [8:38:05<58:23:27,  3.27s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.30457383394241333, 'learning_rate': 2.7312640652201606e-05, 'epoch': 4.34}
 18%|█▊        | 14187/78504 [8:38:05<58:23:27,  3.27s/it] 18%|█▊        | 14188/78504 [8:38:08<53:48:24,  3.01s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.23733174800872803, 'learning_rate': 2.7312216041781665e-05, 'epoch': 4.34}
 18%|█▊        | 14188/78504 [8:38:08<53:48:24,  3.01s/it] 18%|█▊        | 14189/78504 [8:38:10<50:53:22,  2.85s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.24603864550590515, 'learning_rate': 2.7311791431361727e-05, 'epoch': 4.34}
 18%|█▊        | 14189/78504 [8:38:10<50:53:22,  2.85s/it] 18%|█▊        | 14190/78504 [8:38:13<48:39:24,  2.72s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.3961407244205475, 'learning_rate': 2.7311366820941786e-05, 'epoch': 4.34}
 18%|█▊        | 14190/78504 [8:38:13<48:39:24,  2.72s/it] 18%|█▊        | 14191/78504 [8:38:15<46:26:21,  2.60s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.26140472292900085, 'learning_rate': 2.7310942210521848e-05, 'epoch': 4.34}
 18%|█▊        | 14191/78504 [8:38:15<46:26:21,  2.60s/it] 18%|█▊        | 14192/78504 [8:38:17<43:49:55,  2.45s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.29579228162765503, 'learning_rate': 2.7310517600101907e-05, 'epoch': 4.34}
 18%|█▊        | 14192/78504 [8:38:17<43:49:55,  2.45s/it] 18%|█▊        | 14193/78504 [8:38:19<42:20:18,  2.37s/it]                                                          {'loss': 0.0535, 'grad_norm': 0.3680647015571594, 'learning_rate': 2.731009298968197e-05, 'epoch': 4.34}
 18%|█▊        | 14193/78504 [8:38:19<42:20:18,  2.37s/it] 18%|█▊        | 14194/78504 [8:38:22<41:14:27,  2.31s/it]                                                          {'loss': 0.0998, 'grad_norm': 0.3159578740596771, 'learning_rate': 2.7309668379262027e-05, 'epoch': 4.34}
 18%|█▊        | 14194/78504 [8:38:22<41:14:27,  2.31s/it] 18%|█▊        | 14195/78504 [8:38:23<38:53:44,  2.18s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.23684266209602356, 'learning_rate': 2.730924376884209e-05, 'epoch': 4.34}
 18%|█▊        | 14195/78504 [8:38:23<38:53:44,  2.18s/it] 18%|█▊        | 14196/78504 [8:38:25<37:50:19,  2.12s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.3143622875213623, 'learning_rate': 2.7308819158422148e-05, 'epoch': 4.34}
 18%|█▊        | 14196/78504 [8:38:25<37:50:19,  2.12s/it] 18%|█▊        | 14197/78504 [8:38:27<36:47:49,  2.06s/it]                                                          {'loss': 0.089, 'grad_norm': 0.24580857157707214, 'learning_rate': 2.730839454800221e-05, 'epoch': 4.34}
 18%|█▊        | 14197/78504 [8:38:27<36:47:49,  2.06s/it] 18%|█▊        | 14198/78504 [8:38:29<35:51:33,  2.01s/it]                                                          {'loss': 0.104, 'grad_norm': 0.4972340762615204, 'learning_rate': 2.730796993758227e-05, 'epoch': 4.34}
 18%|█▊        | 14198/78504 [8:38:29<35:51:33,  2.01s/it] 18%|█▊        | 14199/78504 [8:38:31<34:30:42,  1.93s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.3855232894420624, 'learning_rate': 2.7307545327162328e-05, 'epoch': 4.34}
 18%|█▊        | 14199/78504 [8:38:31<34:30:42,  1.93s/it] 18%|█▊        | 14200/78504 [8:38:32<32:36:53,  1.83s/it]                                                          {'loss': 0.1182, 'grad_norm': 1.2173281908035278, 'learning_rate': 2.730712071674239e-05, 'epoch': 4.34}
 18%|█▊        | 14200/78504 [8:38:33<32:36:53,  1.83s/it] 18%|█▊        | 14201/78504 [8:38:34<30:54:53,  1.73s/it]                                                          {'loss': 0.1576, 'grad_norm': 0.7494391202926636, 'learning_rate': 2.730669610632245e-05, 'epoch': 4.34}
 18%|█▊        | 14201/78504 [8:38:34<30:54:53,  1.73s/it] 18%|█▊        | 14202/78504 [8:38:36<29:44:14,  1.66s/it]                                                          {'loss': 0.1465, 'grad_norm': 0.9011579155921936, 'learning_rate': 2.730627149590251e-05, 'epoch': 4.34}
 18%|█▊        | 14202/78504 [8:38:36<29:44:14,  1.66s/it] 18%|█▊        | 14203/78504 [8:38:37<28:24:23,  1.59s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.6253871321678162, 'learning_rate': 2.730584688548257e-05, 'epoch': 4.34}
 18%|█▊        | 14203/78504 [8:38:37<28:24:23,  1.59s/it] 18%|█▊        | 14204/78504 [8:38:38<26:47:34,  1.50s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.6753238439559937, 'learning_rate': 2.730542227506263e-05, 'epoch': 4.34}
 18%|█▊        | 14204/78504 [8:38:38<26:47:34,  1.50s/it] 18%|█▊        | 14205/78504 [8:38:39<25:14:34,  1.41s/it]                                                          {'loss': 0.1913, 'grad_norm': 0.6452096700668335, 'learning_rate': 2.730499766464269e-05, 'epoch': 4.34}
 18%|█▊        | 14205/78504 [8:38:39<25:14:34,  1.41s/it] 18%|█▊        | 14206/78504 [8:38:41<23:28:41,  1.31s/it]                                                          {'loss': 0.1688, 'grad_norm': 0.5909054279327393, 'learning_rate': 2.7304573054222752e-05, 'epoch': 4.34}
 18%|█▊        | 14206/78504 [8:38:41<23:28:41,  1.31s/it] 18%|█▊        | 14207/78504 [8:38:42<22:02:34,  1.23s/it]                                                          {'loss': 0.2101, 'grad_norm': 1.5263280868530273, 'learning_rate': 2.730414844380281e-05, 'epoch': 4.34}
 18%|█▊        | 14207/78504 [8:38:42<22:02:34,  1.23s/it] 18%|█▊        | 14208/78504 [8:38:42<20:24:22,  1.14s/it]                                                          {'loss': 0.1825, 'grad_norm': 0.8992653489112854, 'learning_rate': 2.7303723833382873e-05, 'epoch': 4.34}
 18%|█▊        | 14208/78504 [8:38:43<20:24:22,  1.14s/it] 18%|█▊        | 14209/78504 [8:38:43<18:36:35,  1.04s/it]                                                          {'loss': 0.2206, 'grad_norm': 1.1652889251708984, 'learning_rate': 2.730329922296293e-05, 'epoch': 4.34}
 18%|█▊        | 14209/78504 [8:38:43<18:36:35,  1.04s/it] 18%|█▊        | 14210/78504 [8:38:53<63:53:31,  3.58s/it]                                                          {'loss': 0.1653, 'grad_norm': 0.350009560585022, 'learning_rate': 2.7302874612542994e-05, 'epoch': 4.34}
 18%|█▊        | 14210/78504 [8:38:53<63:53:31,  3.58s/it] 18%|█▊        | 14211/78504 [8:38:56<62:44:23,  3.51s/it]                                                          {'loss': 0.089, 'grad_norm': 0.3101792633533478, 'learning_rate': 2.7302450002123052e-05, 'epoch': 4.34}
 18%|█▊        | 14211/78504 [8:38:56<62:44:23,  3.51s/it] 18%|█▊        | 14212/78504 [8:38:59<60:03:49,  3.36s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.24774722754955292, 'learning_rate': 2.730202539170311e-05, 'epoch': 4.34}
 18%|█▊        | 14212/78504 [8:38:59<60:03:49,  3.36s/it] 18%|█▊        | 14213/78504 [8:39:02<55:01:29,  3.08s/it]                                                          {'loss': 0.0667, 'grad_norm': 1.1593408584594727, 'learning_rate': 2.7301600781283173e-05, 'epoch': 4.35}
 18%|█▊        | 14213/78504 [8:39:02<55:01:29,  3.08s/it] 18%|█▊        | 14214/78504 [8:39:04<51:44:26,  2.90s/it]                                                          {'loss': 0.0554, 'grad_norm': 0.20398308336734772, 'learning_rate': 2.7301176170863232e-05, 'epoch': 4.35}
 18%|█▊        | 14214/78504 [8:39:04<51:44:26,  2.90s/it] 18%|█▊        | 14215/78504 [8:39:06<48:22:23,  2.71s/it]                                                          {'loss': 0.0451, 'grad_norm': 0.227591872215271, 'learning_rate': 2.7300751560443294e-05, 'epoch': 4.35}
 18%|█▊        | 14215/78504 [8:39:06<48:22:23,  2.71s/it] 18%|█▊        | 14216/78504 [8:39:09<46:14:13,  2.59s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.8197818398475647, 'learning_rate': 2.7300326950023353e-05, 'epoch': 4.35}
 18%|█▊        | 14216/78504 [8:39:09<46:14:13,  2.59s/it] 18%|█▊        | 14217/78504 [8:39:11<43:39:29,  2.44s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.5134749412536621, 'learning_rate': 2.7299902339603415e-05, 'epoch': 4.35}
 18%|█▊        | 14217/78504 [8:39:11<43:39:29,  2.44s/it] 18%|█▊        | 14218/78504 [8:39:13<42:15:23,  2.37s/it]                                                          {'loss': 0.0623, 'grad_norm': 0.3570065498352051, 'learning_rate': 2.7299477729183473e-05, 'epoch': 4.35}
 18%|█▊        | 14218/78504 [8:39:13<42:15:23,  2.37s/it] 18%|█▊        | 14219/78504 [8:39:15<41:09:23,  2.30s/it]                                                          {'loss': 0.0629, 'grad_norm': 0.1945134699344635, 'learning_rate': 2.7299053118763535e-05, 'epoch': 4.35}
 18%|█▊        | 14219/78504 [8:39:15<41:09:23,  2.30s/it] 18%|█▊        | 14220/78504 [8:39:17<39:40:50,  2.22s/it]                                                          {'loss': 0.1231, 'grad_norm': 0.3434978425502777, 'learning_rate': 2.7298628508343594e-05, 'epoch': 4.35}
 18%|█▊        | 14220/78504 [8:39:17<39:40:50,  2.22s/it] 18%|█▊        | 14221/78504 [8:39:19<38:20:17,  2.15s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.4840087294578552, 'learning_rate': 2.7298203897923656e-05, 'epoch': 4.35}
 18%|█▊        | 14221/78504 [8:39:19<38:20:17,  2.15s/it] 18%|█▊        | 14222/78504 [8:39:21<36:55:46,  2.07s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.4645930528640747, 'learning_rate': 2.7297779287503715e-05, 'epoch': 4.35}
 18%|█▊        | 14222/78504 [8:39:21<36:55:46,  2.07s/it] 18%|█▊        | 14223/78504 [8:39:23<35:51:57,  2.01s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.5596492886543274, 'learning_rate': 2.7297354677083777e-05, 'epoch': 4.35}
 18%|█▊        | 14223/78504 [8:39:23<35:51:57,  2.01s/it] 18%|█▊        | 14224/78504 [8:39:25<34:31:40,  1.93s/it]                                                          {'loss': 0.1098, 'grad_norm': 0.4600352942943573, 'learning_rate': 2.7296930066663836e-05, 'epoch': 4.35}
 18%|█▊        | 14224/78504 [8:39:25<34:31:40,  1.93s/it] 18%|█▊        | 14225/78504 [8:39:26<32:59:50,  1.85s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.4407135248184204, 'learning_rate': 2.7296505456243894e-05, 'epoch': 4.35}
 18%|█▊        | 14225/78504 [8:39:26<32:59:50,  1.85s/it] 18%|█▊        | 14226/78504 [8:39:28<31:22:08,  1.76s/it]                                                          {'loss': 0.181, 'grad_norm': 1.324535608291626, 'learning_rate': 2.7296080845823957e-05, 'epoch': 4.35}
 18%|█▊        | 14226/78504 [8:39:28<31:22:08,  1.76s/it] 18%|█▊        | 14227/78504 [8:39:29<29:48:28,  1.67s/it]                                                          {'loss': 0.1662, 'grad_norm': 4.245535373687744, 'learning_rate': 2.7295656235404015e-05, 'epoch': 4.35}
 18%|█▊        | 14227/78504 [8:39:29<29:48:28,  1.67s/it] 18%|█▊        | 14228/78504 [8:39:31<28:19:41,  1.59s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.5334571003913879, 'learning_rate': 2.7295231624984077e-05, 'epoch': 4.35}
 18%|█▊        | 14228/78504 [8:39:31<28:19:41,  1.59s/it] 18%|█▊        | 14229/78504 [8:39:32<26:40:07,  1.49s/it]                                                          {'loss': 0.175, 'grad_norm': 0.6738114356994629, 'learning_rate': 2.7294807014564136e-05, 'epoch': 4.35}
 18%|█▊        | 14229/78504 [8:39:32<26:40:07,  1.49s/it] 18%|█▊        | 14230/78504 [8:39:33<25:06:58,  1.41s/it]                                                          {'loss': 0.1805, 'grad_norm': 0.5674344897270203, 'learning_rate': 2.7294382404144198e-05, 'epoch': 4.35}
 18%|█▊        | 14230/78504 [8:39:33<25:06:58,  1.41s/it] 18%|█▊        | 14231/78504 [8:39:34<23:22:15,  1.31s/it]                                                          {'loss': 0.18, 'grad_norm': 1.4564361572265625, 'learning_rate': 2.7293957793724257e-05, 'epoch': 4.35}
 18%|█▊        | 14231/78504 [8:39:34<23:22:15,  1.31s/it] 18%|█▊        | 14232/78504 [8:39:35<21:56:04,  1.23s/it]                                                          {'loss': 0.2075, 'grad_norm': 0.7308028340339661, 'learning_rate': 2.729353318330432e-05, 'epoch': 4.35}
 18%|█▊        | 14232/78504 [8:39:35<21:56:04,  1.23s/it] 18%|█▊        | 14233/78504 [8:39:36<20:16:46,  1.14s/it]                                                          {'loss': 0.2575, 'grad_norm': 2.7206850051879883, 'learning_rate': 2.7293108572884378e-05, 'epoch': 4.35}
 18%|█▊        | 14233/78504 [8:39:36<20:16:46,  1.14s/it] 18%|█▊        | 14234/78504 [8:39:37<18:21:58,  1.03s/it]                                                          {'loss': 0.2443, 'grad_norm': 1.6938326358795166, 'learning_rate': 2.729268396246444e-05, 'epoch': 4.35}
 18%|█▊        | 14234/78504 [8:39:37<18:21:58,  1.03s/it] 18%|█▊        | 14235/78504 [8:39:46<62:16:37,  3.49s/it]                                                          {'loss': 0.1338, 'grad_norm': 0.2746870815753937, 'learning_rate': 2.72922593520445e-05, 'epoch': 4.35}
 18%|█▊        | 14235/78504 [8:39:46<62:16:37,  3.49s/it] 18%|█▊        | 14236/78504 [8:39:49<60:07:26,  3.37s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.3828077018260956, 'learning_rate': 2.729183474162456e-05, 'epoch': 4.35}
 18%|█▊        | 14236/78504 [8:39:49<60:07:26,  3.37s/it] 18%|█▊        | 14237/78504 [8:39:52<57:43:37,  3.23s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.2140248566865921, 'learning_rate': 2.729141013120462e-05, 'epoch': 4.35}
 18%|█▊        | 14237/78504 [8:39:52<57:43:37,  3.23s/it] 18%|█▊        | 14238/78504 [8:39:55<54:12:03,  3.04s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.300726979970932, 'learning_rate': 2.7290985520784678e-05, 'epoch': 4.35}
 18%|█▊        | 14238/78504 [8:39:55<54:12:03,  3.04s/it] 18%|█▊        | 14239/78504 [8:39:57<51:18:00,  2.87s/it]                                                          {'loss': 0.0478, 'grad_norm': 0.16673973202705383, 'learning_rate': 2.729056091036474e-05, 'epoch': 4.35}
 18%|█▊        | 14239/78504 [8:39:57<51:18:00,  2.87s/it] 18%|█▊        | 14240/78504 [8:40:00<48:59:22,  2.74s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.2490721493959427, 'learning_rate': 2.72901362999448e-05, 'epoch': 4.35}
 18%|█▊        | 14240/78504 [8:40:00<48:59:22,  2.74s/it] 18%|█▊        | 14241/78504 [8:40:02<46:54:21,  2.63s/it]                                                          {'loss': 0.0569, 'grad_norm': 0.9127814769744873, 'learning_rate': 2.728971168952486e-05, 'epoch': 4.35}
 18%|█▊        | 14241/78504 [8:40:02<46:54:21,  2.63s/it] 18%|█▊        | 14242/78504 [8:40:04<45:07:48,  2.53s/it]                                                          {'loss': 0.074, 'grad_norm': 0.23870331048965454, 'learning_rate': 2.728928707910492e-05, 'epoch': 4.35}
 18%|█▊        | 14242/78504 [8:40:04<45:07:48,  2.53s/it] 18%|█▊        | 14243/78504 [8:40:06<42:34:56,  2.39s/it]                                                          {'loss': 0.0459, 'grad_norm': 0.31523698568344116, 'learning_rate': 2.728886246868498e-05, 'epoch': 4.35}
 18%|█▊        | 14243/78504 [8:40:06<42:34:56,  2.39s/it] 18%|█▊        | 14244/78504 [8:40:09<41:14:00,  2.31s/it]                                                          {'loss': 0.046, 'grad_norm': 0.3899202048778534, 'learning_rate': 2.728843785826504e-05, 'epoch': 4.35}
 18%|█▊        | 14244/78504 [8:40:09<41:14:00,  2.31s/it] 18%|█▊        | 14245/78504 [8:40:10<38:54:28,  2.18s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.3767424523830414, 'learning_rate': 2.7288013247845102e-05, 'epoch': 4.35}
 18%|█▊        | 14245/78504 [8:40:10<38:54:28,  2.18s/it] 18%|█▊        | 14246/78504 [8:40:12<37:52:54,  2.12s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.35145530104637146, 'learning_rate': 2.728758863742516e-05, 'epoch': 4.36}
 18%|█▊        | 14246/78504 [8:40:12<37:52:54,  2.12s/it] 18%|█▊        | 14247/78504 [8:40:14<36:47:11,  2.06s/it]                                                          {'loss': 0.1117, 'grad_norm': 0.6427071690559387, 'learning_rate': 2.7287164027005223e-05, 'epoch': 4.36}
 18%|█▊        | 14247/78504 [8:40:14<36:47:11,  2.06s/it] 18%|█▊        | 14248/78504 [8:40:16<35:47:51,  2.01s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.2868991792201996, 'learning_rate': 2.7286739416585282e-05, 'epoch': 4.36}
 18%|█▊        | 14248/78504 [8:40:16<35:47:51,  2.01s/it] 18%|█▊        | 14249/78504 [8:40:18<34:31:40,  1.93s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.8051638007164001, 'learning_rate': 2.7286314806165344e-05, 'epoch': 4.36}
 18%|█▊        | 14249/78504 [8:40:18<34:31:40,  1.93s/it] 18%|█▊        | 14250/78504 [8:40:20<32:37:12,  1.83s/it]                                                          {'loss': 0.1355, 'grad_norm': 0.31484684348106384, 'learning_rate': 2.7285890195745406e-05, 'epoch': 4.36}
 18%|█▊        | 14250/78504 [8:40:20<32:37:12,  1.83s/it] 18%|█▊        | 14251/78504 [8:40:21<31:04:06,  1.74s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.4529702663421631, 'learning_rate': 2.7285465585325465e-05, 'epoch': 4.36}
 18%|█▊        | 14251/78504 [8:40:21<31:04:06,  1.74s/it] 18%|█▊        | 14252/78504 [8:40:23<29:38:10,  1.66s/it]                                                          {'loss': 0.158, 'grad_norm': 1.024579405784607, 'learning_rate': 2.7285040974905527e-05, 'epoch': 4.36}
 18%|█▊        | 14252/78504 [8:40:23<29:38:10,  1.66s/it] 18%|█▊        | 14253/78504 [8:40:24<28:15:39,  1.58s/it]                                                          {'loss': 0.1577, 'grad_norm': 0.6130483150482178, 'learning_rate': 2.7284616364485585e-05, 'epoch': 4.36}
 18%|█▊        | 14253/78504 [8:40:24<28:15:39,  1.58s/it] 18%|█▊        | 14254/78504 [8:40:25<26:40:32,  1.49s/it]                                                          {'loss': 0.1957, 'grad_norm': 0.47328925132751465, 'learning_rate': 2.7284191754065648e-05, 'epoch': 4.36}
 18%|█▊        | 14254/78504 [8:40:25<26:40:32,  1.49s/it] 18%|█▊        | 14255/78504 [8:40:26<24:48:57,  1.39s/it]                                                          {'loss': 0.1587, 'grad_norm': 0.5040074586868286, 'learning_rate': 2.7283767143645706e-05, 'epoch': 4.36}
 18%|█▊        | 14255/78504 [8:40:26<24:48:57,  1.39s/it] 18%|█▊        | 14256/78504 [8:40:27<23:14:01,  1.30s/it]                                                          {'loss': 0.1744, 'grad_norm': 0.9729853272438049, 'learning_rate': 2.728334253322577e-05, 'epoch': 4.36}
 18%|█▊        | 14256/78504 [8:40:28<23:14:01,  1.30s/it] 18%|█▊        | 14257/78504 [8:40:28<21:35:35,  1.21s/it]                                                          {'loss': 0.1875, 'grad_norm': 3.7966649532318115, 'learning_rate': 2.7282917922805827e-05, 'epoch': 4.36}
 18%|█▊        | 14257/78504 [8:40:29<21:35:35,  1.21s/it] 18%|█▊        | 14258/78504 [8:40:29<20:07:22,  1.13s/it]                                                          {'loss': 0.2414, 'grad_norm': 1.0616683959960938, 'learning_rate': 2.728249331238589e-05, 'epoch': 4.36}
 18%|█▊        | 14258/78504 [8:40:29<20:07:22,  1.13s/it] 18%|█▊        | 14259/78504 [8:40:30<18:06:22,  1.01s/it]                                                          {'loss': 0.2434, 'grad_norm': 9.237844467163086, 'learning_rate': 2.7282068701965948e-05, 'epoch': 4.36}
 18%|█▊        | 14259/78504 [8:40:30<18:06:22,  1.01s/it] 18%|█▊        | 14260/78504 [8:40:38<55:04:33,  3.09s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.5932806134223938, 'learning_rate': 2.728164409154601e-05, 'epoch': 4.36}
 18%|█▊        | 14260/78504 [8:40:38<55:04:33,  3.09s/it] 18%|█▊        | 14261/78504 [8:40:41<54:52:26,  3.07s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.23908744752407074, 'learning_rate': 2.728121948112607e-05, 'epoch': 4.36}
 18%|█▊        | 14261/78504 [8:40:41<54:52:26,  3.07s/it] 18%|█▊        | 14262/78504 [8:40:44<54:20:23,  3.05s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.3862096667289734, 'learning_rate': 2.728079487070613e-05, 'epoch': 4.36}
 18%|█▊        | 14262/78504 [8:40:44<54:20:23,  3.05s/it] 18%|█▊        | 14263/78504 [8:40:47<52:01:44,  2.92s/it]                                                          {'loss': 0.0615, 'grad_norm': 1.0996389389038086, 'learning_rate': 2.728037026028619e-05, 'epoch': 4.36}
 18%|█▊        | 14263/78504 [8:40:47<52:01:44,  2.92s/it] 18%|█▊        | 14264/78504 [8:40:49<49:01:07,  2.75s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.2865076959133148, 'learning_rate': 2.7279945649866248e-05, 'epoch': 4.36}
 18%|█▊        | 14264/78504 [8:40:49<49:01:07,  2.75s/it] 18%|█▊        | 14265/78504 [8:40:51<46:26:08,  2.60s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.2803371846675873, 'learning_rate': 2.727952103944631e-05, 'epoch': 4.36}
 18%|█▊        | 14265/78504 [8:40:51<46:26:08,  2.60s/it] 18%|█▊        | 14266/78504 [8:40:54<44:52:35,  2.51s/it]                                                          {'loss': 0.0535, 'grad_norm': 1.1599035263061523, 'learning_rate': 2.727909642902637e-05, 'epoch': 4.36}
 18%|█▊        | 14266/78504 [8:40:54<44:52:35,  2.51s/it] 18%|█▊        | 14267/78504 [8:40:56<42:38:13,  2.39s/it]                                                          {'loss': 0.0517, 'grad_norm': 0.17760521173477173, 'learning_rate': 2.727867181860643e-05, 'epoch': 4.36}
 18%|█▊        | 14267/78504 [8:40:56<42:38:13,  2.39s/it] 18%|█▊        | 14268/78504 [8:40:58<41:33:06,  2.33s/it]                                                          {'loss': 0.0721, 'grad_norm': 0.3654142916202545, 'learning_rate': 2.727824720818649e-05, 'epoch': 4.36}
 18%|█▊        | 14268/78504 [8:40:58<41:33:06,  2.33s/it] 18%|█▊        | 14269/78504 [8:41:00<40:32:29,  2.27s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.1909300982952118, 'learning_rate': 2.7277822597766552e-05, 'epoch': 4.36}
 18%|█▊        | 14269/78504 [8:41:00<40:32:29,  2.27s/it] 18%|█▊        | 14270/78504 [8:41:02<39:16:49,  2.20s/it]                                                          {'loss': 0.0835, 'grad_norm': 0.30288422107696533, 'learning_rate': 2.727739798734661e-05, 'epoch': 4.36}
 18%|█▊        | 14270/78504 [8:41:02<39:16:49,  2.20s/it] 18%|█▊        | 14271/78504 [8:41:04<38:02:47,  2.13s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.6070531606674194, 'learning_rate': 2.7276973376926673e-05, 'epoch': 4.36}
 18%|█▊        | 14271/78504 [8:41:04<38:02:47,  2.13s/it] 18%|█▊        | 14272/78504 [8:41:06<36:37:16,  2.05s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.3637755215167999, 'learning_rate': 2.727654876650673e-05, 'epoch': 4.36}
 18%|█▊        | 14272/78504 [8:41:06<36:37:16,  2.05s/it] 18%|█▊        | 14273/78504 [8:41:08<35:38:54,  2.00s/it]                                                          {'loss': 0.1251, 'grad_norm': 0.5051128268241882, 'learning_rate': 2.7276124156086793e-05, 'epoch': 4.36}
 18%|█▊        | 14273/78504 [8:41:08<35:38:54,  2.00s/it] 18%|█▊        | 14274/78504 [8:41:10<34:21:25,  1.93s/it]                                                          {'loss': 0.1071, 'grad_norm': 4.192461013793945, 'learning_rate': 2.7275699545666852e-05, 'epoch': 4.36}
 18%|█▊        | 14274/78504 [8:41:10<34:21:25,  1.93s/it] 18%|█▊        | 14275/78504 [8:41:11<32:50:09,  1.84s/it]                                                          {'loss': 0.1527, 'grad_norm': 1.505017638206482, 'learning_rate': 2.7275274935246914e-05, 'epoch': 4.36}
 18%|█▊        | 14275/78504 [8:41:11<32:50:09,  1.84s/it] 18%|█▊        | 14276/78504 [8:41:13<31:14:21,  1.75s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.682859480381012, 'learning_rate': 2.7274850324826973e-05, 'epoch': 4.36}
 18%|█▊        | 14276/78504 [8:41:13<31:14:21,  1.75s/it] 18%|█▊        | 14277/78504 [8:41:14<29:30:33,  1.65s/it]                                                          {'loss': 0.1632, 'grad_norm': 0.7609994411468506, 'learning_rate': 2.727442571440703e-05, 'epoch': 4.36}
 18%|█▊        | 14277/78504 [8:41:14<29:30:33,  1.65s/it] 18%|█▊        | 14278/78504 [8:41:16<28:09:57,  1.58s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.6938153505325317, 'learning_rate': 2.7274001103987094e-05, 'epoch': 4.37}
 18%|█▊        | 14278/78504 [8:41:16<28:09:57,  1.58s/it] 18%|█▊        | 14279/78504 [8:41:17<26:34:36,  1.49s/it]                                                          {'loss': 0.1832, 'grad_norm': 0.7799692749977112, 'learning_rate': 2.7273576493567152e-05, 'epoch': 4.37}
 18%|█▊        | 14279/78504 [8:41:17<26:34:36,  1.49s/it] 18%|█▊        | 14280/78504 [8:41:18<24:45:12,  1.39s/it]                                                          {'loss': 0.1812, 'grad_norm': 0.6296644806861877, 'learning_rate': 2.7273151883147214e-05, 'epoch': 4.37}
 18%|█▊        | 14280/78504 [8:41:18<24:45:12,  1.39s/it] 18%|█▊        | 14281/78504 [8:41:19<23:13:29,  1.30s/it]                                                          {'loss': 0.1902, 'grad_norm': 0.9093557596206665, 'learning_rate': 2.7272727272727273e-05, 'epoch': 4.37}
 18%|█▊        | 14281/78504 [8:41:19<23:13:29,  1.30s/it] 18%|█▊        | 14282/78504 [8:41:20<21:32:33,  1.21s/it]                                                          {'loss': 0.2086, 'grad_norm': 0.7285810112953186, 'learning_rate': 2.7272302662307335e-05, 'epoch': 4.37}
 18%|█▊        | 14282/78504 [8:41:20<21:32:33,  1.21s/it] 18%|█▊        | 14283/78504 [8:41:21<20:02:38,  1.12s/it]                                                          {'loss': 0.2348, 'grad_norm': 1.201517939567566, 'learning_rate': 2.7271878051887394e-05, 'epoch': 4.37}
 18%|█▊        | 14283/78504 [8:41:21<20:02:38,  1.12s/it] 18%|█▊        | 14284/78504 [8:41:22<18:11:27,  1.02s/it]                                                          {'loss': 0.2203, 'grad_norm': 1.0778921842575073, 'learning_rate': 2.7271453441467456e-05, 'epoch': 4.37}
 18%|█▊        | 14284/78504 [8:41:22<18:11:27,  1.02s/it] 18%|█▊        | 14285/78504 [8:41:32<64:45:38,  3.63s/it]                                                          {'loss': 0.154, 'grad_norm': 0.9760522842407227, 'learning_rate': 2.7271028831047515e-05, 'epoch': 4.37}
 18%|█▊        | 14285/78504 [8:41:32<64:45:38,  3.63s/it] 18%|█▊        | 14286/78504 [8:41:35<62:06:47,  3.48s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.39916887879371643, 'learning_rate': 2.7270604220627577e-05, 'epoch': 4.37}
 18%|█▊        | 14286/78504 [8:41:35<62:06:47,  3.48s/it] 18%|█▊        | 14287/78504 [8:41:38<59:06:36,  3.31s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.19271422922611237, 'learning_rate': 2.7270179610207635e-05, 'epoch': 4.37}
 18%|█▊        | 14287/78504 [8:41:38<59:06:36,  3.31s/it] 18%|█▊        | 14288/78504 [8:41:40<54:20:59,  3.05s/it]                                                          {'loss': 0.069, 'grad_norm': 0.33832067251205444, 'learning_rate': 2.7269754999787694e-05, 'epoch': 4.37}
 18%|█▊        | 14288/78504 [8:41:40<54:20:59,  3.05s/it] 18%|█▊        | 14289/78504 [8:41:42<51:15:25,  2.87s/it]                                                          {'loss': 0.0812, 'grad_norm': 0.5417702794075012, 'learning_rate': 2.7269330389367756e-05, 'epoch': 4.37}
 18%|█▊        | 14289/78504 [8:41:43<51:15:25,  2.87s/it] 18%|█▊        | 14290/78504 [8:41:45<47:59:46,  2.69s/it]                                                          {'loss': 0.0498, 'grad_norm': 0.2913169264793396, 'learning_rate': 2.7268905778947815e-05, 'epoch': 4.37}
 18%|█▊        | 14290/78504 [8:41:45<47:59:46,  2.69s/it] 18%|█▊        | 14291/78504 [8:41:47<45:58:31,  2.58s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.3764575719833374, 'learning_rate': 2.7268481168527877e-05, 'epoch': 4.37}
 18%|█▊        | 14291/78504 [8:41:47<45:58:31,  2.58s/it] 18%|█▊        | 14292/78504 [8:41:49<43:26:46,  2.44s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.20870304107666016, 'learning_rate': 2.7268056558107936e-05, 'epoch': 4.37}
 18%|█▊        | 14292/78504 [8:41:49<43:26:46,  2.44s/it] 18%|█▊        | 14293/78504 [8:41:51<42:06:17,  2.36s/it]                                                          {'loss': 0.057, 'grad_norm': 0.4190097153186798, 'learning_rate': 2.7267631947687998e-05, 'epoch': 4.37}
 18%|█▊        | 14293/78504 [8:41:51<42:06:17,  2.36s/it] 18%|█▊        | 14294/78504 [8:41:54<41:03:40,  2.30s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.27470675110816956, 'learning_rate': 2.7267207337268057e-05, 'epoch': 4.37}
 18%|█▊        | 14294/78504 [8:41:54<41:03:40,  2.30s/it] 18%|█▊        | 14295/78504 [8:41:56<39:33:49,  2.22s/it]                                                          {'loss': 0.0914, 'grad_norm': 0.3366176187992096, 'learning_rate': 2.726678272684812e-05, 'epoch': 4.37}
 18%|█▊        | 14295/78504 [8:41:56<39:33:49,  2.22s/it] 18%|█▊        | 14296/78504 [8:41:58<38:16:44,  2.15s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.48107069730758667, 'learning_rate': 2.7266358116428177e-05, 'epoch': 4.37}
 18%|█▊        | 14296/78504 [8:41:58<38:16:44,  2.15s/it] 18%|█▊        | 14297/78504 [8:41:59<36:51:13,  2.07s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.5460048913955688, 'learning_rate': 2.726593350600824e-05, 'epoch': 4.37}
 18%|█▊        | 14297/78504 [8:41:59<36:51:13,  2.07s/it] 18%|█▊        | 14298/78504 [8:42:01<35:44:26,  2.00s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.3763912618160248, 'learning_rate': 2.7265508895588298e-05, 'epoch': 4.37}
 18%|█▊        | 14298/78504 [8:42:01<35:44:26,  2.00s/it] 18%|█▊        | 14299/78504 [8:42:03<34:28:05,  1.93s/it]                                                          {'loss': 0.0981, 'grad_norm': 0.41793110966682434, 'learning_rate': 2.726508428516836e-05, 'epoch': 4.37}
 18%|█▊        | 14299/78504 [8:42:03<34:28:05,  1.93s/it] 18%|█▊        | 14300/78504 [8:42:05<32:54:49,  1.85s/it]                                                          {'loss': 0.1208, 'grad_norm': 0.3967112600803375, 'learning_rate': 2.726465967474842e-05, 'epoch': 4.37}
 18%|█▊        | 14300/78504 [8:42:05<32:54:49,  1.85s/it] 18%|█▊        | 14301/78504 [8:42:06<31:14:48,  1.75s/it]                                                          {'loss': 0.1322, 'grad_norm': 0.4578920602798462, 'learning_rate': 2.7264235064328478e-05, 'epoch': 4.37}
 18%|█▊        | 14301/78504 [8:42:06<31:14:48,  1.75s/it] 18%|█▊        | 14302/78504 [8:42:08<29:43:30,  1.67s/it]                                                          {'loss': 0.1366, 'grad_norm': 0.6243684887886047, 'learning_rate': 2.726381045390854e-05, 'epoch': 4.37}
 18%|█▊        | 14302/78504 [8:42:08<29:43:30,  1.67s/it] 18%|█▊        | 14303/78504 [8:42:09<28:16:19,  1.59s/it]                                                          {'loss': 0.1533, 'grad_norm': 3.125779867172241, 'learning_rate': 2.72633858434886e-05, 'epoch': 4.37}
 18%|█▊        | 14303/78504 [8:42:09<28:16:19,  1.59s/it] 18%|█▊        | 14304/78504 [8:42:10<26:37:49,  1.49s/it]                                                          {'loss': 0.1598, 'grad_norm': 1.1410385370254517, 'learning_rate': 2.726296123306866e-05, 'epoch': 4.37}
 18%|█▊        | 14304/78504 [8:42:10<26:37:49,  1.49s/it] 18%|█▊        | 14305/78504 [8:42:12<24:45:38,  1.39s/it]                                                          {'loss': 0.1697, 'grad_norm': 1.864339828491211, 'learning_rate': 2.726253662264872e-05, 'epoch': 4.37}
 18%|█▊        | 14305/78504 [8:42:12<24:45:38,  1.39s/it] 18%|█▊        | 14306/78504 [8:42:13<23:10:00,  1.30s/it]                                                          {'loss': 0.1805, 'grad_norm': 0.47193339467048645, 'learning_rate': 2.726211201222878e-05, 'epoch': 4.37}
 18%|█▊        | 14306/78504 [8:42:13<23:10:00,  1.30s/it] 18%|█▊        | 14307/78504 [8:42:14<21:54:38,  1.23s/it]                                                          {'loss': 0.1722, 'grad_norm': 0.4943760335445404, 'learning_rate': 2.726168740180884e-05, 'epoch': 4.37}
 18%|█▊        | 14307/78504 [8:42:14<21:54:38,  1.23s/it] 18%|█▊        | 14308/78504 [8:42:15<20:19:38,  1.14s/it]                                                          {'loss': 0.2151, 'grad_norm': 0.8484916687011719, 'learning_rate': 2.7261262791388902e-05, 'epoch': 4.37}
 18%|█▊        | 14308/78504 [8:42:15<20:19:38,  1.14s/it] 18%|█▊        | 14309/78504 [8:42:15<18:29:20,  1.04s/it]                                                          {'loss': 0.3079, 'grad_norm': 1.3669146299362183, 'learning_rate': 2.726083818096896e-05, 'epoch': 4.37}
 18%|█▊        | 14309/78504 [8:42:15<18:29:20,  1.04s/it] 18%|█▊        | 14310/78504 [8:42:23<52:03:20,  2.92s/it]                                                          {'loss': 0.1285, 'grad_norm': 0.2767006456851959, 'learning_rate': 2.7260413570549023e-05, 'epoch': 4.37}
 18%|█▊        | 14310/78504 [8:42:23<52:03:20,  2.92s/it] 18%|█▊        | 14311/78504 [8:42:26<52:54:27,  2.97s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.35759463906288147, 'learning_rate': 2.725998896012908e-05, 'epoch': 4.38}
 18%|█▊        | 14311/78504 [8:42:26<52:54:27,  2.97s/it] 18%|█▊        | 14312/78504 [8:42:29<52:38:19,  2.95s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.37136778235435486, 'learning_rate': 2.7259564349709144e-05, 'epoch': 4.38}
 18%|█▊        | 14312/78504 [8:42:29<52:38:19,  2.95s/it] 18%|█▊        | 14313/78504 [8:42:31<50:38:35,  2.84s/it]                                                          {'loss': 0.0431, 'grad_norm': 0.1898246705532074, 'learning_rate': 2.7259139739289202e-05, 'epoch': 4.38}
 18%|█▊        | 14313/78504 [8:42:31<50:38:35,  2.84s/it] 18%|█▊        | 14314/78504 [8:42:34<48:39:57,  2.73s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.3954302668571472, 'learning_rate': 2.725871512886926e-05, 'epoch': 4.38}
 18%|█▊        | 14314/78504 [8:42:34<48:39:57,  2.73s/it] 18%|█▊        | 14315/78504 [8:42:36<47:04:05,  2.64s/it]                                                          {'loss': 0.0468, 'grad_norm': 0.1930275857448578, 'learning_rate': 2.7258290518449323e-05, 'epoch': 4.38}
 18%|█▊        | 14315/78504 [8:42:36<47:04:05,  2.64s/it] 18%|█▊        | 14316/78504 [8:42:38<45:18:42,  2.54s/it]                                                          {'loss': 0.0571, 'grad_norm': 0.27929583191871643, 'learning_rate': 2.7257865908029382e-05, 'epoch': 4.38}
 18%|█▊        | 14316/78504 [8:42:39<45:18:42,  2.54s/it] 18%|█▊        | 14317/78504 [8:42:41<42:56:27,  2.41s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.18468016386032104, 'learning_rate': 2.7257441297609444e-05, 'epoch': 4.38}
 18%|█▊        | 14317/78504 [8:42:41<42:56:27,  2.41s/it] 18%|█▊        | 14318/78504 [8:42:43<41:43:51,  2.34s/it]                                                          {'loss': 0.1093, 'grad_norm': 0.4246963858604431, 'learning_rate': 2.7257016687189503e-05, 'epoch': 4.38}
 18%|█▊        | 14318/78504 [8:42:43<41:43:51,  2.34s/it] 18%|█▊        | 14319/78504 [8:42:45<40:39:44,  2.28s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.22468972206115723, 'learning_rate': 2.7256592076769565e-05, 'epoch': 4.38}
 18%|█▊        | 14319/78504 [8:42:45<40:39:44,  2.28s/it] 18%|█▊        | 14320/78504 [8:42:47<39:17:45,  2.20s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.5065781474113464, 'learning_rate': 2.7256167466349623e-05, 'epoch': 4.38}
 18%|█▊        | 14320/78504 [8:42:47<39:17:45,  2.20s/it] 18%|█▊        | 14321/78504 [8:42:49<37:43:57,  2.12s/it]                                                          {'loss': 0.077, 'grad_norm': 0.2253914475440979, 'learning_rate': 2.7255742855929685e-05, 'epoch': 4.38}
 18%|█▊        | 14321/78504 [8:42:49<37:43:57,  2.12s/it] 18%|█▊        | 14322/78504 [8:42:51<36:23:04,  2.04s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.39910009503364563, 'learning_rate': 2.7255318245509744e-05, 'epoch': 4.38}
 18%|█▊        | 14322/78504 [8:42:51<36:23:04,  2.04s/it] 18%|█▊        | 14323/78504 [8:42:52<34:40:06,  1.94s/it]                                                          {'loss': 0.1055, 'grad_norm': 0.963843822479248, 'learning_rate': 2.7254893635089806e-05, 'epoch': 4.38}
 18%|█▊        | 14323/78504 [8:42:52<34:40:06,  1.94s/it] 18%|█▊        | 14324/78504 [8:42:54<33:41:55,  1.89s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.444304496049881, 'learning_rate': 2.7254469024669865e-05, 'epoch': 4.38}
 18%|█▊        | 14324/78504 [8:42:54<33:41:55,  1.89s/it] 18%|█▊        | 14325/78504 [8:42:56<32:21:00,  1.81s/it]                                                          {'loss': 0.1433, 'grad_norm': 1.5424660444259644, 'learning_rate': 2.7254044414249927e-05, 'epoch': 4.38}
 18%|█▊        | 14325/78504 [8:42:56<32:21:00,  1.81s/it] 18%|█▊        | 14326/78504 [8:42:57<30:44:11,  1.72s/it]                                                          {'loss': 0.1851, 'grad_norm': 0.7562119364738464, 'learning_rate': 2.7253619803829986e-05, 'epoch': 4.38}
 18%|█▊        | 14326/78504 [8:42:57<30:44:11,  1.72s/it] 18%|█▊        | 14327/78504 [8:42:59<29:09:39,  1.64s/it]                                                          {'loss': 0.1799, 'grad_norm': 0.5305968523025513, 'learning_rate': 2.7253195193410044e-05, 'epoch': 4.38}
 18%|█▊        | 14327/78504 [8:42:59<29:09:39,  1.64s/it] 18%|█▊        | 14328/78504 [8:43:00<27:55:50,  1.57s/it]                                                          {'loss': 0.1691, 'grad_norm': 0.7370104193687439, 'learning_rate': 2.7252770582990107e-05, 'epoch': 4.38}
 18%|█▊        | 14328/78504 [8:43:00<27:55:50,  1.57s/it] 18%|█▊        | 14329/78504 [8:43:01<26:08:33,  1.47s/it]                                                          {'loss': 0.1487, 'grad_norm': 0.48119068145751953, 'learning_rate': 2.7252345972570165e-05, 'epoch': 4.38}
 18%|█▊        | 14329/78504 [8:43:01<26:08:33,  1.47s/it] 18%|█▊        | 14330/78504 [8:43:03<24:26:53,  1.37s/it]                                                          {'loss': 0.173, 'grad_norm': 1.5127848386764526, 'learning_rate': 2.7251921362150227e-05, 'epoch': 4.38}
 18%|█▊        | 14330/78504 [8:43:03<24:26:53,  1.37s/it] 18%|█▊        | 14331/78504 [8:43:04<23:03:41,  1.29s/it]                                                          {'loss': 0.1893, 'grad_norm': 1.1392748355865479, 'learning_rate': 2.7251496751730286e-05, 'epoch': 4.38}
 18%|█▊        | 14331/78504 [8:43:04<23:03:41,  1.29s/it] 18%|█▊        | 14332/78504 [8:43:05<21:25:08,  1.20s/it]                                                          {'loss': 0.1736, 'grad_norm': 1.2895402908325195, 'learning_rate': 2.7251072141310348e-05, 'epoch': 4.38}
 18%|█▊        | 14332/78504 [8:43:05<21:25:08,  1.20s/it] 18%|█▊        | 14333/78504 [8:43:06<19:56:36,  1.12s/it]                                                          {'loss': 0.1992, 'grad_norm': 4.046663284301758, 'learning_rate': 2.7250647530890407e-05, 'epoch': 4.38}
 18%|█▊        | 14333/78504 [8:43:06<19:56:36,  1.12s/it] 18%|█▊        | 14334/78504 [8:43:06<18:06:31,  1.02s/it]                                                          {'loss': 0.2829, 'grad_norm': 1.7768094539642334, 'learning_rate': 2.725022292047047e-05, 'epoch': 4.38}
 18%|█▊        | 14334/78504 [8:43:06<18:06:31,  1.02s/it] 18%|█▊        | 14335/78504 [8:43:15<60:05:27,  3.37s/it]                                                          {'loss': 0.1349, 'grad_norm': 0.45087459683418274, 'learning_rate': 2.7249798310050528e-05, 'epoch': 4.38}
 18%|█▊        | 14335/78504 [8:43:15<60:05:27,  3.37s/it] 18%|█▊        | 14336/78504 [8:43:19<60:01:04,  3.37s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.3623490035533905, 'learning_rate': 2.724937369963059e-05, 'epoch': 4.38}
 18%|█▊        | 14336/78504 [8:43:19<60:01:04,  3.37s/it] 18%|█▊        | 14337/78504 [8:43:22<58:05:57,  3.26s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.2914038896560669, 'learning_rate': 2.724894908921065e-05, 'epoch': 4.38}
 18%|█▊        | 14337/78504 [8:43:22<58:05:57,  3.26s/it] 18%|█▊        | 14338/78504 [8:43:24<54:37:24,  3.06s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.45274779200553894, 'learning_rate': 2.724852447879071e-05, 'epoch': 4.38}
 18%|█▊        | 14338/78504 [8:43:24<54:37:24,  3.06s/it] 18%|█▊        | 14339/78504 [8:43:27<51:25:57,  2.89s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.47049999237060547, 'learning_rate': 2.724809986837077e-05, 'epoch': 4.38}
 18%|█▊        | 14339/78504 [8:43:27<51:25:57,  2.89s/it] 18%|█▊        | 14340/78504 [8:43:29<48:58:38,  2.75s/it]                                                          {'loss': 0.0479, 'grad_norm': 0.21526163816452026, 'learning_rate': 2.7247675257950828e-05, 'epoch': 4.38}
 18%|█▊        | 14340/78504 [8:43:29<48:58:38,  2.75s/it] 18%|█▊        | 14341/78504 [8:43:31<46:40:29,  2.62s/it]                                                          {'loss': 0.0337, 'grad_norm': 0.1837645322084427, 'learning_rate': 2.724725064753089e-05, 'epoch': 4.38}
 18%|█▊        | 14341/78504 [8:43:31<46:40:29,  2.62s/it] 18%|█▊        | 14342/78504 [8:43:34<43:56:30,  2.47s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.2838267982006073, 'learning_rate': 2.724682603711095e-05, 'epoch': 4.38}
 18%|█▊        | 14342/78504 [8:43:34<43:56:30,  2.47s/it] 18%|█▊        | 14343/78504 [8:43:36<42:25:35,  2.38s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.9670231938362122, 'learning_rate': 2.724640142669101e-05, 'epoch': 4.38}
 18%|█▊        | 14343/78504 [8:43:36<42:25:35,  2.38s/it] 18%|█▊        | 14344/78504 [8:43:38<41:15:55,  2.32s/it]                                                          {'loss': 0.0741, 'grad_norm': 0.2953696548938751, 'learning_rate': 2.724597681627107e-05, 'epoch': 4.39}
 18%|█▊        | 14344/78504 [8:43:38<41:15:55,  2.32s/it] 18%|█▊        | 14345/78504 [8:43:40<38:47:36,  2.18s/it]                                                          {'loss': 0.0979, 'grad_norm': 1.0236716270446777, 'learning_rate': 2.724555220585113e-05, 'epoch': 4.39}
 18%|█▊        | 14345/78504 [8:43:40<38:47:36,  2.18s/it] 18%|█▊        | 14346/78504 [8:43:42<37:46:25,  2.12s/it]                                                          {'loss': 0.0704, 'grad_norm': 2.1024210453033447, 'learning_rate': 2.724512759543119e-05, 'epoch': 4.39}
 18%|█▊        | 14346/78504 [8:43:42<37:46:25,  2.12s/it] 18%|█▊        | 14347/78504 [8:43:44<36:30:40,  2.05s/it]                                                          {'loss': 0.117, 'grad_norm': 0.4353124499320984, 'learning_rate': 2.7244702985011252e-05, 'epoch': 4.39}
 18%|█▊        | 14347/78504 [8:43:44<36:30:40,  2.05s/it] 18%|█▊        | 14348/78504 [8:43:45<35:36:03,  2.00s/it]                                                          {'loss': 0.1462, 'grad_norm': 1.0803172588348389, 'learning_rate': 2.724427837459131e-05, 'epoch': 4.39}
 18%|█▊        | 14348/78504 [8:43:45<35:36:03,  2.00s/it] 18%|█▊        | 14349/78504 [8:43:47<34:21:28,  1.93s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.6661896705627441, 'learning_rate': 2.7243853764171373e-05, 'epoch': 4.39}
 18%|█▊        | 14349/78504 [8:43:47<34:21:28,  1.93s/it] 18%|█▊        | 14350/78504 [8:43:49<32:29:05,  1.82s/it]                                                          {'loss': 0.1637, 'grad_norm': 1.0019354820251465, 'learning_rate': 2.7243429153751432e-05, 'epoch': 4.39}
 18%|█▊        | 14350/78504 [8:43:49<32:29:05,  1.82s/it] 18%|█▊        | 14351/78504 [8:43:50<30:57:57,  1.74s/it]                                                          {'loss': 0.2067, 'grad_norm': 0.644331157207489, 'learning_rate': 2.7243004543331494e-05, 'epoch': 4.39}
 18%|█▊        | 14351/78504 [8:43:50<30:57:57,  1.74s/it] 18%|█▊        | 14352/78504 [8:43:52<29:33:06,  1.66s/it]                                                          {'loss': 0.1576, 'grad_norm': 0.5394116640090942, 'learning_rate': 2.7242579932911556e-05, 'epoch': 4.39}
 18%|█▊        | 14352/78504 [8:43:52<29:33:06,  1.66s/it] 18%|█▊        | 14353/78504 [8:43:53<28:16:16,  1.59s/it]                                                          {'loss': 0.1818, 'grad_norm': 1.2662062644958496, 'learning_rate': 2.7242155322491615e-05, 'epoch': 4.39}
 18%|█▊        | 14353/78504 [8:43:53<28:16:16,  1.59s/it] 18%|█▊        | 14354/78504 [8:43:55<26:38:58,  1.50s/it]                                                          {'loss': 0.2359, 'grad_norm': 1.3087377548217773, 'learning_rate': 2.7241730712071677e-05, 'epoch': 4.39}
 18%|█▊        | 14354/78504 [8:43:55<26:38:58,  1.50s/it] 18%|█▊        | 14355/78504 [8:43:56<24:40:43,  1.38s/it]                                                          {'loss': 0.1747, 'grad_norm': 0.7593356966972351, 'learning_rate': 2.7241306101651735e-05, 'epoch': 4.39}
 18%|█▊        | 14355/78504 [8:43:56<24:40:43,  1.38s/it] 18%|█▊        | 14356/78504 [8:43:57<23:11:08,  1.30s/it]                                                          {'loss': 0.1892, 'grad_norm': 0.7735068798065186, 'learning_rate': 2.7240881491231798e-05, 'epoch': 4.39}
 18%|█▊        | 14356/78504 [8:43:57<23:11:08,  1.30s/it] 18%|█▊        | 14357/78504 [8:43:58<21:30:34,  1.21s/it]                                                          {'loss': 0.1803, 'grad_norm': 0.7341505289077759, 'learning_rate': 2.7240456880811856e-05, 'epoch': 4.39}
 18%|█▊        | 14357/78504 [8:43:58<21:30:34,  1.21s/it] 18%|█▊        | 14358/78504 [8:43:59<20:03:46,  1.13s/it]                                                          {'loss': 0.2235, 'grad_norm': 1.019860863685608, 'learning_rate': 2.724003227039192e-05, 'epoch': 4.39}
 18%|█▊        | 14358/78504 [8:43:59<20:03:46,  1.13s/it] 18%|█▊        | 14359/78504 [8:43:59<18:12:29,  1.02s/it]                                                          {'loss': 0.2566, 'grad_norm': 1.2741323709487915, 'learning_rate': 2.7239607659971977e-05, 'epoch': 4.39}
 18%|█▊        | 14359/78504 [8:43:59<18:12:29,  1.02s/it] 18%|█▊        | 14360/78504 [8:44:08<57:15:09,  3.21s/it]                                                          {'loss': 0.1486, 'grad_norm': 0.3941652178764343, 'learning_rate': 2.723918304955204e-05, 'epoch': 4.39}
 18%|█▊        | 14360/78504 [8:44:08<57:15:09,  3.21s/it] 18%|█▊        | 14361/78504 [8:44:11<56:49:16,  3.19s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.498052179813385, 'learning_rate': 2.7238758439132098e-05, 'epoch': 4.39}
 18%|█▊        | 14361/78504 [8:44:11<56:49:16,  3.19s/it] 18%|█▊        | 14362/78504 [8:44:14<55:52:16,  3.14s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.16004516184329987, 'learning_rate': 2.723833382871216e-05, 'epoch': 4.39}
 18%|█▊        | 14362/78504 [8:44:14<55:52:16,  3.14s/it] 18%|█▊        | 14363/78504 [8:44:17<53:04:15,  2.98s/it]                                                          {'loss': 0.0705, 'grad_norm': 0.3149740993976593, 'learning_rate': 2.723790921829222e-05, 'epoch': 4.39}
 18%|█▊        | 14363/78504 [8:44:17<53:04:15,  2.98s/it] 18%|█▊        | 14364/78504 [8:44:19<49:44:35,  2.79s/it]                                                          {'loss': 0.0485, 'grad_norm': 0.34052133560180664, 'learning_rate': 2.723748460787228e-05, 'epoch': 4.39}
 18%|█▊        | 14364/78504 [8:44:19<49:44:35,  2.79s/it] 18%|█▊        | 14365/78504 [8:44:21<47:23:54,  2.66s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.44678741693496704, 'learning_rate': 2.723705999745234e-05, 'epoch': 4.39}
 18%|█▊        | 14365/78504 [8:44:21<47:23:54,  2.66s/it] 18%|█▊        | 14366/78504 [8:44:24<45:33:00,  2.56s/it]                                                          {'loss': 0.0416, 'grad_norm': 0.15014933049678802, 'learning_rate': 2.7236635387032398e-05, 'epoch': 4.39}
 18%|█▊        | 14366/78504 [8:44:24<45:33:00,  2.56s/it] 18%|█▊        | 14367/78504 [8:44:26<43:06:52,  2.42s/it]                                                          {'loss': 0.0452, 'grad_norm': 0.4283859431743622, 'learning_rate': 2.723621077661246e-05, 'epoch': 4.39}
 18%|█▊        | 14367/78504 [8:44:26<43:06:52,  2.42s/it] 18%|█▊        | 14368/78504 [8:44:28<41:03:29,  2.30s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.5156069397926331, 'learning_rate': 2.723578616619252e-05, 'epoch': 4.39}
 18%|█▊        | 14368/78504 [8:44:28<41:03:29,  2.30s/it] 18%|█▊        | 14369/78504 [8:44:30<40:09:05,  2.25s/it]                                                          {'loss': 0.077, 'grad_norm': 0.48713886737823486, 'learning_rate': 2.723536155577258e-05, 'epoch': 4.39}
 18%|█▊        | 14369/78504 [8:44:30<40:09:05,  2.25s/it] 18%|█▊        | 14370/78504 [8:44:32<38:46:05,  2.18s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.6752716302871704, 'learning_rate': 2.723493694535264e-05, 'epoch': 4.39}
 18%|█▊        | 14370/78504 [8:44:32<38:46:05,  2.18s/it] 18%|█▊        | 14371/78504 [8:44:34<37:23:49,  2.10s/it]                                                          {'loss': 0.0884, 'grad_norm': 0.305848091840744, 'learning_rate': 2.7234512334932702e-05, 'epoch': 4.39}
 18%|█▊        | 14371/78504 [8:44:34<37:23:49,  2.10s/it] 18%|█▊        | 14372/78504 [8:44:36<36:10:40,  2.03s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.2887207567691803, 'learning_rate': 2.723408772451276e-05, 'epoch': 4.39}
 18%|█▊        | 14372/78504 [8:44:36<36:10:40,  2.03s/it] 18%|█▊        | 14373/78504 [8:44:37<35:08:55,  1.97s/it]                                                          {'loss': 0.122, 'grad_norm': 0.5574854612350464, 'learning_rate': 2.7233663114092823e-05, 'epoch': 4.39}
 18%|█▊        | 14373/78504 [8:44:37<35:08:55,  1.97s/it] 18%|█▊        | 14374/78504 [8:44:39<33:27:47,  1.88s/it]                                                          {'loss': 0.1189, 'grad_norm': 0.3658098578453064, 'learning_rate': 2.723323850367288e-05, 'epoch': 4.39}
 18%|█▊        | 14374/78504 [8:44:39<33:27:47,  1.88s/it] 18%|█▊        | 14375/78504 [8:44:41<32:10:43,  1.81s/it]                                                          {'loss': 0.1295, 'grad_norm': 1.0054949522018433, 'learning_rate': 2.7232813893252943e-05, 'epoch': 4.39}
 18%|█▊        | 14375/78504 [8:44:41<32:10:43,  1.81s/it] 18%|█▊        | 14376/78504 [8:44:42<30:43:32,  1.72s/it]                                                          {'loss': 0.1311, 'grad_norm': 0.8232479691505432, 'learning_rate': 2.7232389282833002e-05, 'epoch': 4.39}
 18%|█▊        | 14376/78504 [8:44:42<30:43:32,  1.72s/it] 18%|█▊        | 14377/78504 [8:44:44<29:21:17,  1.65s/it]                                                          {'loss': 0.1739, 'grad_norm': 0.5624608397483826, 'learning_rate': 2.7231964672413064e-05, 'epoch': 4.4}
 18%|█▊        | 14377/78504 [8:44:44<29:21:17,  1.65s/it] 18%|█▊        | 14378/78504 [8:44:45<28:05:27,  1.58s/it]                                                          {'loss': 0.1721, 'grad_norm': 1.0468456745147705, 'learning_rate': 2.7231540061993123e-05, 'epoch': 4.4}
 18%|█▊        | 14378/78504 [8:44:45<28:05:27,  1.58s/it] 18%|█▊        | 14379/78504 [8:44:46<26:30:41,  1.49s/it]                                                          {'loss': 0.162, 'grad_norm': 1.247160792350769, 'learning_rate': 2.723111545157318e-05, 'epoch': 4.4}
 18%|█▊        | 14379/78504 [8:44:46<26:30:41,  1.49s/it] 18%|█▊        | 14380/78504 [8:44:48<24:42:20,  1.39s/it]                                                          {'loss': 0.1872, 'grad_norm': 1.45285165309906, 'learning_rate': 2.7230690841153244e-05, 'epoch': 4.4}
 18%|█▊        | 14380/78504 [8:44:48<24:42:20,  1.39s/it] 18%|█▊        | 14381/78504 [8:44:49<23:11:11,  1.30s/it]                                                          {'loss': 0.2009, 'grad_norm': 0.9678321480751038, 'learning_rate': 2.7230266230733302e-05, 'epoch': 4.4}
 18%|█▊        | 14381/78504 [8:44:49<23:11:11,  1.30s/it] 18%|█▊        | 14382/78504 [8:44:50<22:40:52,  1.27s/it]                                                          {'loss': 0.2081, 'grad_norm': 1.2475181818008423, 'learning_rate': 2.7229841620313364e-05, 'epoch': 4.4}
 18%|█▊        | 14382/78504 [8:44:50<22:40:52,  1.27s/it] 18%|█▊        | 14383/78504 [8:44:51<20:49:36,  1.17s/it]                                                          {'loss': 0.1942, 'grad_norm': 1.3967269659042358, 'learning_rate': 2.7229417009893423e-05, 'epoch': 4.4}
 18%|█▊        | 14383/78504 [8:44:51<20:49:36,  1.17s/it] 18%|█▊        | 14384/78504 [8:44:52<18:46:23,  1.05s/it]                                                          {'loss': 0.2336, 'grad_norm': 1.0328490734100342, 'learning_rate': 2.7228992399473485e-05, 'epoch': 4.4}
 18%|█▊        | 14384/78504 [8:44:52<18:46:23,  1.05s/it] 18%|█▊        | 14385/78504 [8:44:59<54:58:08,  3.09s/it]                                                          {'loss': 0.1193, 'grad_norm': 0.24771282076835632, 'learning_rate': 2.7228567789053544e-05, 'epoch': 4.4}
 18%|█▊        | 14385/78504 [8:44:59<54:58:08,  3.09s/it] 18%|█▊        | 14386/78504 [8:45:03<55:11:24,  3.10s/it]                                                          {'loss': 0.0858, 'grad_norm': 0.2626550495624542, 'learning_rate': 2.7228143178633606e-05, 'epoch': 4.4}
 18%|█▊        | 14386/78504 [8:45:03<55:11:24,  3.10s/it] 18%|█▊        | 14387/78504 [8:45:05<52:21:33,  2.94s/it]                                                          {'loss': 0.062, 'grad_norm': 0.29993149638175964, 'learning_rate': 2.7227718568213665e-05, 'epoch': 4.4}
 18%|█▊        | 14387/78504 [8:45:05<52:21:33,  2.94s/it] 18%|█▊        | 14388/78504 [8:45:08<50:36:36,  2.84s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.26886773109436035, 'learning_rate': 2.7227293957793727e-05, 'epoch': 4.4}
 18%|█▊        | 14388/78504 [8:45:08<50:36:36,  2.84s/it] 18%|█▊        | 14389/78504 [8:45:10<48:01:53,  2.70s/it]                                                          {'loss': 0.0461, 'grad_norm': 0.23662430047988892, 'learning_rate': 2.7226869347373786e-05, 'epoch': 4.4}
 18%|█▊        | 14389/78504 [8:45:10<48:01:53,  2.70s/it] 18%|█▊        | 14390/78504 [8:45:12<45:40:39,  2.56s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.23339003324508667, 'learning_rate': 2.7226444736953848e-05, 'epoch': 4.4}
 18%|█▊        | 14390/78504 [8:45:12<45:40:39,  2.56s/it] 18%|█▊        | 14391/78504 [8:45:15<44:20:31,  2.49s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.3219698965549469, 'learning_rate': 2.7226020126533906e-05, 'epoch': 4.4}
 18%|█▊        | 14391/78504 [8:45:15<44:20:31,  2.49s/it] 18%|█▊        | 14392/78504 [8:45:17<42:13:11,  2.37s/it]                                                          {'loss': 0.0463, 'grad_norm': 0.29429832100868225, 'learning_rate': 2.7225595516113965e-05, 'epoch': 4.4}
 18%|█▊        | 14392/78504 [8:45:17<42:13:11,  2.37s/it] 18%|█▊        | 14393/78504 [8:45:19<40:20:19,  2.27s/it]                                                          {'loss': 0.1078, 'grad_norm': 0.37255653738975525, 'learning_rate': 2.7225170905694027e-05, 'epoch': 4.4}
 18%|█▊        | 14393/78504 [8:45:19<40:20:19,  2.27s/it] 18%|█▊        | 14394/78504 [8:45:21<39:40:05,  2.23s/it]                                                          {'loss': 0.0615, 'grad_norm': 0.37738069891929626, 'learning_rate': 2.7224746295274086e-05, 'epoch': 4.4}
 18%|█▊        | 14394/78504 [8:45:21<39:40:05,  2.23s/it] 18%|█▊        | 14395/78504 [8:45:23<38:35:21,  2.17s/it]                                                          {'loss': 0.0779, 'grad_norm': 0.40627893805503845, 'learning_rate': 2.7224321684854148e-05, 'epoch': 4.4}
 18%|█▊        | 14395/78504 [8:45:23<38:35:21,  2.17s/it] 18%|█▊        | 14396/78504 [8:45:25<37:33:07,  2.11s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.7666425704956055, 'learning_rate': 2.7223897074434207e-05, 'epoch': 4.4}
 18%|█▊        | 14396/78504 [8:45:25<37:33:07,  2.11s/it] 18%|█▊        | 14397/78504 [8:45:27<36:15:18,  2.04s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.3099823296070099, 'learning_rate': 2.722347246401427e-05, 'epoch': 4.4}
 18%|█▊        | 14397/78504 [8:45:27<36:15:18,  2.04s/it] 18%|█▊        | 14398/78504 [8:45:29<35:10:13,  1.98s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.5862555503845215, 'learning_rate': 2.7223047853594327e-05, 'epoch': 4.4}
 18%|█▊        | 14398/78504 [8:45:29<35:10:13,  1.98s/it] 18%|█▊        | 14399/78504 [8:45:30<34:02:36,  1.91s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.3953700363636017, 'learning_rate': 2.722262324317439e-05, 'epoch': 4.4}
 18%|█▊        | 14399/78504 [8:45:30<34:02:36,  1.91s/it] 18%|█▊        | 14400/78504 [8:45:32<32:35:42,  1.83s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.5585213899612427, 'learning_rate': 2.7222198632754448e-05, 'epoch': 4.4}
 18%|█▊        | 14400/78504 [8:45:32<32:35:42,  1.83s/it] 18%|█▊        | 14401/78504 [8:45:34<30:55:39,  1.74s/it]                                                          {'loss': 0.1705, 'grad_norm': 1.9296774864196777, 'learning_rate': 2.722177402233451e-05, 'epoch': 4.4}
 18%|█▊        | 14401/78504 [8:45:34<30:55:39,  1.74s/it] 18%|█▊        | 14402/78504 [8:45:35<29:15:05,  1.64s/it]                                                          {'loss': 0.2196, 'grad_norm': 1.030532717704773, 'learning_rate': 2.722134941191457e-05, 'epoch': 4.4}
 18%|█▊        | 14402/78504 [8:45:35<29:15:05,  1.64s/it] 18%|█▊        | 14403/78504 [8:45:36<28:01:35,  1.57s/it]                                                          {'loss': 0.1772, 'grad_norm': 0.6951220035552979, 'learning_rate': 2.722092480149463e-05, 'epoch': 4.4}
 18%|█▊        | 14403/78504 [8:45:36<28:01:35,  1.57s/it] 18%|█▊        | 14404/78504 [8:45:38<26:10:41,  1.47s/it]                                                          {'loss': 0.1607, 'grad_norm': 0.6964686512947083, 'learning_rate': 2.722050019107469e-05, 'epoch': 4.4}
 18%|█▊        | 14404/78504 [8:45:38<26:10:41,  1.47s/it] 18%|█▊        | 14405/78504 [8:45:39<24:22:15,  1.37s/it]                                                          {'loss': 0.1827, 'grad_norm': 1.630038857460022, 'learning_rate': 2.722007558065475e-05, 'epoch': 4.4}
 18%|█▊        | 14405/78504 [8:45:39<24:22:15,  1.37s/it] 18%|█▊        | 14406/78504 [8:45:40<22:56:45,  1.29s/it]                                                          {'loss': 0.1913, 'grad_norm': 1.4509801864624023, 'learning_rate': 2.721965097023481e-05, 'epoch': 4.4}
 18%|█▊        | 14406/78504 [8:45:40<22:56:45,  1.29s/it] 18%|█▊        | 14407/78504 [8:45:41<21:22:06,  1.20s/it]                                                          {'loss': 0.1803, 'grad_norm': 1.2261152267456055, 'learning_rate': 2.721922635981487e-05, 'epoch': 4.4}
 18%|█▊        | 14407/78504 [8:45:41<21:22:06,  1.20s/it] 18%|█▊        | 14408/78504 [8:45:42<19:58:06,  1.12s/it]                                                          {'loss': 0.263, 'grad_norm': 1.082324504852295, 'learning_rate': 2.721880174939493e-05, 'epoch': 4.4}
 18%|█▊        | 14408/78504 [8:45:42<19:58:06,  1.12s/it] 18%|█▊        | 14409/78504 [8:45:43<18:09:47,  1.02s/it]                                                          {'loss': 0.2564, 'grad_norm': 1.338180661201477, 'learning_rate': 2.721837713897499e-05, 'epoch': 4.41}
 18%|█▊        | 14409/78504 [8:45:43<18:09:47,  1.02s/it] 18%|█▊        | 14410/78504 [8:45:50<52:54:32,  2.97s/it]                                                          {'loss': 0.1247, 'grad_norm': 0.5680637359619141, 'learning_rate': 2.7217952528555052e-05, 'epoch': 4.41}
 18%|█▊        | 14410/78504 [8:45:50<52:54:32,  2.97s/it] 18%|█▊        | 14411/78504 [8:45:53<54:25:19,  3.06s/it]                                                          {'loss': 0.0864, 'grad_norm': 0.2874000668525696, 'learning_rate': 2.721752791813511e-05, 'epoch': 4.41}
 18%|█▊        | 14411/78504 [8:45:53<54:25:19,  3.06s/it] 18%|█▊        | 14412/78504 [8:45:56<53:59:17,  3.03s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.31927186250686646, 'learning_rate': 2.7217103307715173e-05, 'epoch': 4.41}
 18%|█▊        | 14412/78504 [8:45:56<53:59:17,  3.03s/it] 18%|█▊        | 14413/78504 [8:45:59<51:43:55,  2.91s/it]                                                          {'loss': 0.0523, 'grad_norm': 0.395269513130188, 'learning_rate': 2.721667869729523e-05, 'epoch': 4.41}
 18%|█▊        | 14413/78504 [8:45:59<51:43:55,  2.91s/it] 18%|█▊        | 14414/78504 [8:46:01<49:22:16,  2.77s/it]                                                          {'loss': 0.0511, 'grad_norm': 0.1703472137451172, 'learning_rate': 2.7216254086875294e-05, 'epoch': 4.41}
 18%|█▊        | 14414/78504 [8:46:01<49:22:16,  2.77s/it] 18%|█▊        | 14415/78504 [8:46:04<46:40:15,  2.62s/it]                                                          {'loss': 0.044, 'grad_norm': 0.26668426394462585, 'learning_rate': 2.7215829476455352e-05, 'epoch': 4.41}
 18%|█▊        | 14415/78504 [8:46:04<46:40:15,  2.62s/it] 18%|█▊        | 14416/78504 [8:46:06<45:01:39,  2.53s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.29748231172561646, 'learning_rate': 2.721540486603541e-05, 'epoch': 4.41}
 18%|█▊        | 14416/78504 [8:46:06<45:01:39,  2.53s/it] 18%|█▊        | 14417/78504 [8:46:08<42:39:55,  2.40s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.25659820437431335, 'learning_rate': 2.7214980255615473e-05, 'epoch': 4.41}
 18%|█▊        | 14417/78504 [8:46:08<42:39:55,  2.40s/it] 18%|█▊        | 14418/78504 [8:46:10<41:31:09,  2.33s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.4146851897239685, 'learning_rate': 2.7214555645195532e-05, 'epoch': 4.41}
 18%|█▊        | 14418/78504 [8:46:10<41:31:09,  2.33s/it] 18%|█▊        | 14419/78504 [8:46:12<40:37:42,  2.28s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.22579941153526306, 'learning_rate': 2.7214131034775594e-05, 'epoch': 4.41}
 18%|█▊        | 14419/78504 [8:46:12<40:37:42,  2.28s/it] 18%|█▊        | 14420/78504 [8:46:14<39:14:40,  2.20s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.518698513507843, 'learning_rate': 2.7213706424355653e-05, 'epoch': 4.41}
 18%|█▊        | 14420/78504 [8:46:14<39:14:40,  2.20s/it] 18%|█▊        | 14421/78504 [8:46:16<38:01:50,  2.14s/it]                                                          {'loss': 0.0839, 'grad_norm': 0.5573223829269409, 'learning_rate': 2.7213281813935715e-05, 'epoch': 4.41}
 18%|█▊        | 14421/78504 [8:46:16<38:01:50,  2.14s/it] 18%|█▊        | 14422/78504 [8:46:18<36:33:52,  2.05s/it]                                                          {'loss': 0.102, 'grad_norm': 0.5346655249595642, 'learning_rate': 2.7212857203515773e-05, 'epoch': 4.41}
 18%|█▊        | 14422/78504 [8:46:18<36:33:52,  2.05s/it] 18%|█▊        | 14423/78504 [8:46:20<35:25:28,  1.99s/it]                                                          {'loss': 0.1395, 'grad_norm': 1.4240003824234009, 'learning_rate': 2.7212432593095836e-05, 'epoch': 4.41}
 18%|█▊        | 14423/78504 [8:46:20<35:25:28,  1.99s/it] 18%|█▊        | 14424/78504 [8:46:22<34:14:38,  1.92s/it]                                                          {'loss': 0.114, 'grad_norm': 0.35537219047546387, 'learning_rate': 2.7212007982675894e-05, 'epoch': 4.41}
 18%|█▊        | 14424/78504 [8:46:22<34:14:38,  1.92s/it] 18%|█▊        | 14425/78504 [8:46:24<32:43:18,  1.84s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.7458460927009583, 'learning_rate': 2.7211583372255956e-05, 'epoch': 4.41}
 18%|█▊        | 14425/78504 [8:46:24<32:43:18,  1.84s/it] 18%|█▊        | 14426/78504 [8:46:25<30:59:46,  1.74s/it]                                                          {'loss': 0.1491, 'grad_norm': 0.8013120889663696, 'learning_rate': 2.7211158761836015e-05, 'epoch': 4.41}
 18%|█▊        | 14426/78504 [8:46:25<30:59:46,  1.74s/it] 18%|█▊        | 14427/78504 [8:46:27<29:34:59,  1.66s/it]                                                          {'loss': 0.1607, 'grad_norm': 0.718469500541687, 'learning_rate': 2.7210734151416077e-05, 'epoch': 4.41}
 18%|█▊        | 14427/78504 [8:46:27<29:34:59,  1.66s/it] 18%|█▊        | 14428/78504 [8:46:28<28:15:10,  1.59s/it]                                                          {'loss': 0.1488, 'grad_norm': 2.917618989944458, 'learning_rate': 2.7210309540996136e-05, 'epoch': 4.41}
 18%|█▊        | 14428/78504 [8:46:28<28:15:10,  1.59s/it] 18%|█▊        | 14429/78504 [8:46:29<26:38:24,  1.50s/it]                                                          {'loss': 0.2249, 'grad_norm': 1.346650242805481, 'learning_rate': 2.7209884930576194e-05, 'epoch': 4.41}
 18%|█▊        | 14429/78504 [8:46:29<26:38:24,  1.50s/it] 18%|█▊        | 14430/78504 [8:46:30<24:45:52,  1.39s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.8746318221092224, 'learning_rate': 2.7209460320156257e-05, 'epoch': 4.41}
 18%|█▊        | 14430/78504 [8:46:30<24:45:52,  1.39s/it] 18%|█▊        | 14431/78504 [8:46:31<23:12:15,  1.30s/it]                                                          {'loss': 0.1886, 'grad_norm': 0.6121952533721924, 'learning_rate': 2.7209035709736315e-05, 'epoch': 4.41}
 18%|█▊        | 14431/78504 [8:46:31<23:12:15,  1.30s/it] 18%|█▊        | 14432/78504 [8:46:32<21:33:17,  1.21s/it]                                                          {'loss': 0.2075, 'grad_norm': 1.1550586223602295, 'learning_rate': 2.7208611099316377e-05, 'epoch': 4.41}
 18%|█▊        | 14432/78504 [8:46:32<21:33:17,  1.21s/it] 18%|█▊        | 14433/78504 [8:46:33<20:07:09,  1.13s/it]                                                          {'loss': 0.1999, 'grad_norm': 0.9827742576599121, 'learning_rate': 2.7208186488896436e-05, 'epoch': 4.41}
 18%|█▊        | 14433/78504 [8:46:33<20:07:09,  1.13s/it] 18%|█▊        | 14434/78504 [8:46:34<18:14:12,  1.02s/it]                                                          {'loss': 0.2608, 'grad_norm': 1.2860413789749146, 'learning_rate': 2.7207761878476498e-05, 'epoch': 4.41}
 18%|█▊        | 14434/78504 [8:46:34<18:14:12,  1.02s/it] 18%|█▊        | 14435/78504 [8:46:42<54:35:15,  3.07s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.4302273988723755, 'learning_rate': 2.7207337268056557e-05, 'epoch': 4.41}
 18%|█▊        | 14435/78504 [8:46:42<54:35:15,  3.07s/it] 18%|█▊        | 14436/78504 [8:46:45<55:36:45,  3.12s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.4492913484573364, 'learning_rate': 2.720691265763662e-05, 'epoch': 4.41}
 18%|█▊        | 14436/78504 [8:46:45<55:36:45,  3.12s/it] 18%|█▊        | 14437/78504 [8:46:48<54:59:30,  3.09s/it]                                                          {'loss': 0.0645, 'grad_norm': 0.311043381690979, 'learning_rate': 2.7206488047216678e-05, 'epoch': 4.41}
 18%|█▊        | 14437/78504 [8:46:48<54:59:30,  3.09s/it] 18%|█▊        | 14438/78504 [8:46:51<52:24:55,  2.95s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.2703157365322113, 'learning_rate': 2.720606343679674e-05, 'epoch': 4.41}
 18%|█▊        | 14438/78504 [8:46:51<52:24:55,  2.95s/it] 18%|█▊        | 14439/78504 [8:46:53<49:57:10,  2.81s/it]                                                          {'loss': 0.0779, 'grad_norm': 0.3756953775882721, 'learning_rate': 2.72056388263768e-05, 'epoch': 4.41}
 18%|█▊        | 14439/78504 [8:46:53<49:57:10,  2.81s/it] 18%|█▊        | 14440/78504 [8:46:56<47:31:16,  2.67s/it]                                                          {'loss': 0.0588, 'grad_norm': 0.2738822102546692, 'learning_rate': 2.720521421595686e-05, 'epoch': 4.41}
 18%|█▊        | 14440/78504 [8:46:56<47:31:16,  2.67s/it] 18%|█▊        | 14441/78504 [8:46:58<45:40:11,  2.57s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.2296927273273468, 'learning_rate': 2.720478960553692e-05, 'epoch': 4.41}
 18%|█▊        | 14441/78504 [8:46:58<45:40:11,  2.57s/it] 18%|█▊        | 14442/78504 [8:47:00<44:02:45,  2.48s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.9186120629310608, 'learning_rate': 2.7204364995116978e-05, 'epoch': 4.42}
 18%|█▊        | 14442/78504 [8:47:00<44:02:45,  2.48s/it] 18%|█▊        | 14443/78504 [8:47:03<42:29:49,  2.39s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.7810412049293518, 'learning_rate': 2.720394038469704e-05, 'epoch': 4.42}
 18%|█▊        | 14443/78504 [8:47:03<42:29:49,  2.39s/it] 18%|█▊        | 14444/78504 [8:47:05<41:10:24,  2.31s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.2865216135978699, 'learning_rate': 2.72035157742771e-05, 'epoch': 4.42}
 18%|█▊        | 14444/78504 [8:47:05<41:10:24,  2.31s/it] 18%|█▊        | 14445/78504 [8:47:07<39:23:39,  2.21s/it]                                                          {'loss': 0.1077, 'grad_norm': 0.4821767807006836, 'learning_rate': 2.720309116385716e-05, 'epoch': 4.42}
 18%|█▊        | 14445/78504 [8:47:07<39:23:39,  2.21s/it] 18%|█▊        | 14446/78504 [8:47:09<37:49:27,  2.13s/it]                                                          {'loss': 0.0807, 'grad_norm': 0.4669110178947449, 'learning_rate': 2.720266655343722e-05, 'epoch': 4.42}
 18%|█▊        | 14446/78504 [8:47:09<37:49:27,  2.13s/it] 18%|█▊        | 14447/78504 [8:47:10<36:28:41,  2.05s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.8638492226600647, 'learning_rate': 2.720224194301728e-05, 'epoch': 4.42}
 18%|█▊        | 14447/78504 [8:47:10<36:28:41,  2.05s/it] 18%|█▊        | 14448/78504 [8:47:12<35:22:08,  1.99s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.5377247333526611, 'learning_rate': 2.720181733259734e-05, 'epoch': 4.42}
 18%|█▊        | 14448/78504 [8:47:12<35:22:08,  1.99s/it] 18%|█▊        | 14449/78504 [8:47:14<33:57:29,  1.91s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.5027090907096863, 'learning_rate': 2.7201392722177402e-05, 'epoch': 4.42}
 18%|█▊        | 14449/78504 [8:47:14<33:57:29,  1.91s/it] 18%|█▊        | 14450/78504 [8:47:16<32:36:47,  1.83s/it]                                                          {'loss': 0.139, 'grad_norm': 0.5024706721305847, 'learning_rate': 2.720096811175746e-05, 'epoch': 4.42}
 18%|█▊        | 14450/78504 [8:47:16<32:36:47,  1.83s/it] 18%|█▊        | 14451/78504 [8:47:17<30:55:39,  1.74s/it]                                                          {'loss': 0.1411, 'grad_norm': 0.9865642189979553, 'learning_rate': 2.7200543501337523e-05, 'epoch': 4.42}
 18%|█▊        | 14451/78504 [8:47:17<30:55:39,  1.74s/it] 18%|█▊        | 14452/78504 [8:47:19<29:18:34,  1.65s/it]                                                          {'loss': 0.122, 'grad_norm': 0.47437921166419983, 'learning_rate': 2.7200118890917582e-05, 'epoch': 4.42}
 18%|█▊        | 14452/78504 [8:47:19<29:18:34,  1.65s/it] 18%|█▊        | 14453/78504 [8:47:20<28:02:09,  1.58s/it]                                                          {'loss': 0.1583, 'grad_norm': 3.9902634620666504, 'learning_rate': 2.7199694280497644e-05, 'epoch': 4.42}
 18%|█▊        | 14453/78504 [8:47:20<28:02:09,  1.58s/it] 18%|█▊        | 14454/78504 [8:47:21<26:10:32,  1.47s/it]                                                          {'loss': 0.2127, 'grad_norm': 0.8493024706840515, 'learning_rate': 2.7199269670077706e-05, 'epoch': 4.42}
 18%|█▊        | 14454/78504 [8:47:21<26:10:32,  1.47s/it] 18%|█▊        | 14455/78504 [8:47:22<24:22:58,  1.37s/it]                                                          {'loss': 0.162, 'grad_norm': 0.8781498074531555, 'learning_rate': 2.7198845059657765e-05, 'epoch': 4.42}
 18%|█▊        | 14455/78504 [8:47:22<24:22:58,  1.37s/it] 18%|█▊        | 14456/78504 [8:47:23<22:53:35,  1.29s/it]                                                          {'loss': 0.1962, 'grad_norm': 0.8596749901771545, 'learning_rate': 2.7198420449237827e-05, 'epoch': 4.42}
 18%|█▊        | 14456/78504 [8:47:23<22:53:35,  1.29s/it] 18%|█▊        | 14457/78504 [8:47:24<21:17:02,  1.20s/it]                                                          {'loss': 0.1819, 'grad_norm': 0.8181713819503784, 'learning_rate': 2.7197995838817886e-05, 'epoch': 4.42}
 18%|█▊        | 14457/78504 [8:47:24<21:17:02,  1.20s/it] 18%|█▊        | 14458/78504 [8:47:25<19:55:28,  1.12s/it]                                                          {'loss': 0.1783, 'grad_norm': 0.9634520411491394, 'learning_rate': 2.7197571228397948e-05, 'epoch': 4.42}
 18%|█▊        | 14458/78504 [8:47:25<19:55:28,  1.12s/it] 18%|█▊        | 14459/78504 [8:47:26<18:08:29,  1.02s/it]                                                          {'loss': 0.2648, 'grad_norm': 1.1027075052261353, 'learning_rate': 2.7197146617978006e-05, 'epoch': 4.42}
 18%|█▊        | 14459/78504 [8:47:26<18:08:29,  1.02s/it] 18%|█▊        | 14460/78504 [8:47:35<57:38:19,  3.24s/it]                                                          {'loss': 0.1173, 'grad_norm': 0.34837740659713745, 'learning_rate': 2.719672200755807e-05, 'epoch': 4.42}
 18%|█▊        | 14460/78504 [8:47:35<57:38:19,  3.24s/it] 18%|█▊        | 14461/78504 [8:47:38<56:57:09,  3.20s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.21744465827941895, 'learning_rate': 2.7196297397138127e-05, 'epoch': 4.42}
 18%|█▊        | 14461/78504 [8:47:38<56:57:09,  3.20s/it] 18%|█▊        | 14462/78504 [8:47:41<55:46:25,  3.14s/it]                                                          {'loss': 0.0817, 'grad_norm': 0.30970263481140137, 'learning_rate': 2.719587278671819e-05, 'epoch': 4.42}
 18%|█▊        | 14462/78504 [8:47:41<55:46:25,  3.14s/it] 18%|█▊        | 14463/78504 [8:47:43<52:49:35,  2.97s/it]                                                          {'loss': 0.0555, 'grad_norm': 0.2430933266878128, 'learning_rate': 2.7195448176298248e-05, 'epoch': 4.42}
 18%|█▊        | 14463/78504 [8:47:43<52:49:35,  2.97s/it] 18%|█▊        | 14464/78504 [8:47:46<49:33:42,  2.79s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.21608836948871613, 'learning_rate': 2.719502356587831e-05, 'epoch': 4.42}
 18%|█▊        | 14464/78504 [8:47:46<49:33:42,  2.79s/it] 18%|█▊        | 14465/78504 [8:47:48<47:14:13,  2.66s/it]                                                          {'loss': 0.0706, 'grad_norm': 0.25816917419433594, 'learning_rate': 2.719459895545837e-05, 'epoch': 4.42}
 18%|█▊        | 14465/78504 [8:47:48<47:14:13,  2.66s/it] 18%|█▊        | 14466/78504 [8:47:50<45:28:06,  2.56s/it]                                                          {'loss': 0.0442, 'grad_norm': 0.1650068312883377, 'learning_rate': 2.719417434503843e-05, 'epoch': 4.42}
 18%|█▊        | 14466/78504 [8:47:50<45:28:06,  2.56s/it] 18%|█▊        | 14467/78504 [8:47:52<42:55:22,  2.41s/it]                                                          {'loss': 0.0458, 'grad_norm': 0.1985924392938614, 'learning_rate': 2.719374973461849e-05, 'epoch': 4.42}
 18%|█▊        | 14467/78504 [8:47:52<42:55:22,  2.41s/it] 18%|█▊        | 14468/78504 [8:47:54<40:51:44,  2.30s/it]                                                          {'loss': 0.0878, 'grad_norm': 1.0052459239959717, 'learning_rate': 2.7193325124198548e-05, 'epoch': 4.42}
 18%|█▊        | 14468/78504 [8:47:54<40:51:44,  2.30s/it] 18%|█▊        | 14469/78504 [8:47:57<39:59:31,  2.25s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.3143148720264435, 'learning_rate': 2.719290051377861e-05, 'epoch': 4.42}
 18%|█▊        | 14469/78504 [8:47:57<39:59:31,  2.25s/it] 18%|█▊        | 14470/78504 [8:47:59<38:35:54,  2.17s/it]                                                          {'loss': 0.0584, 'grad_norm': 0.46869075298309326, 'learning_rate': 2.719247590335867e-05, 'epoch': 4.42}
 18%|█▊        | 14470/78504 [8:47:59<38:35:54,  2.17s/it] 18%|█▊        | 14471/78504 [8:48:01<37:37:37,  2.12s/it]                                                          {'loss': 0.0917, 'grad_norm': 0.41491958498954773, 'learning_rate': 2.719205129293873e-05, 'epoch': 4.42}
 18%|█▊        | 14471/78504 [8:48:01<37:37:37,  2.12s/it] 18%|█▊        | 14472/78504 [8:48:02<36:16:36,  2.04s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.6012251377105713, 'learning_rate': 2.719162668251879e-05, 'epoch': 4.42}
 18%|█▊        | 14472/78504 [8:48:02<36:16:36,  2.04s/it] 18%|█▊        | 14473/78504 [8:48:04<35:10:47,  1.98s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.5651818513870239, 'learning_rate': 2.7191202072098852e-05, 'epoch': 4.42}
 18%|█▊        | 14473/78504 [8:48:04<35:10:47,  1.98s/it] 18%|█▊        | 14474/78504 [8:48:06<34:06:09,  1.92s/it]                                                          {'loss': 0.1234, 'grad_norm': 0.5108380913734436, 'learning_rate': 2.719077746167891e-05, 'epoch': 4.42}
 18%|█▊        | 14474/78504 [8:48:06<34:06:09,  1.92s/it] 18%|█▊        | 14475/78504 [8:48:08<32:37:42,  1.83s/it]                                                          {'loss': 0.1478, 'grad_norm': 0.6670518517494202, 'learning_rate': 2.7190352851258973e-05, 'epoch': 4.43}
 18%|█▊        | 14475/78504 [8:48:08<32:37:42,  1.83s/it] 18%|█▊        | 14476/78504 [8:48:09<30:56:27,  1.74s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.5771527290344238, 'learning_rate': 2.718992824083903e-05, 'epoch': 4.43}
 18%|█▊        | 14476/78504 [8:48:09<30:56:27,  1.74s/it] 18%|█▊        | 14477/78504 [8:48:11<29:31:41,  1.66s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.845485270023346, 'learning_rate': 2.7189503630419093e-05, 'epoch': 4.43}
 18%|█▊        | 14477/78504 [8:48:11<29:31:41,  1.66s/it] 18%|█▊        | 14478/78504 [8:48:12<28:12:45,  1.59s/it]                                                          {'loss': 0.1828, 'grad_norm': 1.4712663888931274, 'learning_rate': 2.7189079019999152e-05, 'epoch': 4.43}
 18%|█▊        | 14478/78504 [8:48:12<28:12:45,  1.59s/it] 18%|█▊        | 14479/78504 [8:48:13<26:35:30,  1.50s/it]                                                          {'loss': 0.203, 'grad_norm': 2.094494581222534, 'learning_rate': 2.7188654409579214e-05, 'epoch': 4.43}
 18%|█▊        | 14479/78504 [8:48:13<26:35:30,  1.50s/it] 18%|█▊        | 14480/78504 [8:48:14<24:42:20,  1.39s/it]                                                          {'loss': 0.2032, 'grad_norm': 0.6756488084793091, 'learning_rate': 2.7188229799159273e-05, 'epoch': 4.43}
 18%|█▊        | 14480/78504 [8:48:14<24:42:20,  1.39s/it] 18%|█▊        | 14481/78504 [8:48:16<23:06:54,  1.30s/it]                                                          {'loss': 0.19, 'grad_norm': 0.7764524817466736, 'learning_rate': 2.718780518873933e-05, 'epoch': 4.43}
 18%|█▊        | 14481/78504 [8:48:16<23:06:54,  1.30s/it] 18%|█▊        | 14482/78504 [8:48:17<21:27:54,  1.21s/it]                                                          {'loss': 0.211, 'grad_norm': 0.8307797908782959, 'learning_rate': 2.7187380578319394e-05, 'epoch': 4.43}
 18%|█▊        | 14482/78504 [8:48:17<21:27:54,  1.21s/it] 18%|█▊        | 14483/78504 [8:48:17<20:00:17,  1.12s/it]                                                          {'loss': 0.1669, 'grad_norm': 2.0276448726654053, 'learning_rate': 2.7186955967899452e-05, 'epoch': 4.43}
 18%|█▊        | 14483/78504 [8:48:18<20:00:17,  1.12s/it] 18%|█▊        | 14484/78504 [8:48:18<18:08:57,  1.02s/it]                                                          {'loss': 0.2406, 'grad_norm': 0.8568150401115417, 'learning_rate': 2.7186531357479514e-05, 'epoch': 4.43}
 18%|█▊        | 14484/78504 [8:48:18<18:08:57,  1.02s/it] 18%|█▊        | 14485/78504 [8:48:28<62:53:40,  3.54s/it]                                                          {'loss': 0.1369, 'grad_norm': 0.3828549385070801, 'learning_rate': 2.7186106747059573e-05, 'epoch': 4.43}
 18%|█▊        | 14485/78504 [8:48:28<62:53:40,  3.54s/it] 18%|█▊        | 14486/78504 [8:48:31<61:22:22,  3.45s/it]                                                          {'loss': 0.076, 'grad_norm': 1.3293501138687134, 'learning_rate': 2.7185682136639635e-05, 'epoch': 4.43}
 18%|█▊        | 14486/78504 [8:48:31<61:22:22,  3.45s/it] 18%|█▊        | 14487/78504 [8:48:34<58:51:15,  3.31s/it]                                                          {'loss': 0.0875, 'grad_norm': 0.39316466450691223, 'learning_rate': 2.7185257526219694e-05, 'epoch': 4.43}
 18%|█▊        | 14487/78504 [8:48:34<58:51:15,  3.31s/it] 18%|█▊        | 14488/78504 [8:48:37<55:05:57,  3.10s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.2121610790491104, 'learning_rate': 2.7184832915799756e-05, 'epoch': 4.43}
 18%|█▊        | 14488/78504 [8:48:37<55:05:57,  3.10s/it] 18%|█▊        | 14489/78504 [8:48:39<51:09:15,  2.88s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.2553686201572418, 'learning_rate': 2.7184408305379815e-05, 'epoch': 4.43}
 18%|█▊        | 14489/78504 [8:48:39<51:09:15,  2.88s/it] 18%|█▊        | 14490/78504 [8:48:41<47:50:14,  2.69s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.3056836724281311, 'learning_rate': 2.7183983694959877e-05, 'epoch': 4.43}
 18%|█▊        | 14490/78504 [8:48:41<47:50:14,  2.69s/it] 18%|█▊        | 14491/78504 [8:48:43<45:52:34,  2.58s/it]                                                          {'loss': 0.0424, 'grad_norm': 0.6520987749099731, 'learning_rate': 2.7183559084539936e-05, 'epoch': 4.43}
 18%|█▊        | 14491/78504 [8:48:43<45:52:34,  2.58s/it] 18%|█▊        | 14492/78504 [8:48:46<43:15:14,  2.43s/it]                                                          {'loss': 0.0535, 'grad_norm': 0.3343188762664795, 'learning_rate': 2.7183134474119998e-05, 'epoch': 4.43}
 18%|█▊        | 14492/78504 [8:48:46<43:15:14,  2.43s/it] 18%|█▊        | 14493/78504 [8:48:48<41:02:02,  2.31s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.22639048099517822, 'learning_rate': 2.7182709863700056e-05, 'epoch': 4.43}
 18%|█▊        | 14493/78504 [8:48:48<41:02:02,  2.31s/it] 18%|█▊        | 14494/78504 [8:48:50<40:06:31,  2.26s/it]                                                          {'loss': 0.0556, 'grad_norm': 0.3100228011608124, 'learning_rate': 2.7182285253280115e-05, 'epoch': 4.43}
 18%|█▊        | 14494/78504 [8:48:50<40:06:31,  2.26s/it] 18%|█▊        | 14495/78504 [8:48:52<38:51:27,  2.19s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.6832736730575562, 'learning_rate': 2.7181860642860177e-05, 'epoch': 4.43}
 18%|█▊        | 14495/78504 [8:48:52<38:51:27,  2.19s/it] 18%|█▊        | 14496/78504 [8:48:54<37:44:24,  2.12s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.5886963605880737, 'learning_rate': 2.7181436032440236e-05, 'epoch': 4.43}
 18%|█▊        | 14496/78504 [8:48:54<37:44:24,  2.12s/it] 18%|█▊        | 14497/78504 [8:48:56<36:40:58,  2.06s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.41123658418655396, 'learning_rate': 2.7181011422020298e-05, 'epoch': 4.43}
 18%|█▊        | 14497/78504 [8:48:56<36:40:58,  2.06s/it] 18%|█▊        | 14498/78504 [8:48:57<35:36:00,  2.00s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.478213906288147, 'learning_rate': 2.7180586811600357e-05, 'epoch': 4.43}
 18%|█▊        | 14498/78504 [8:48:57<35:36:00,  2.00s/it] 18%|█▊        | 14499/78504 [8:48:59<34:18:07,  1.93s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.28009626269340515, 'learning_rate': 2.718016220118042e-05, 'epoch': 4.43}
 18%|█▊        | 14499/78504 [8:48:59<34:18:07,  1.93s/it] 18%|█▊        | 14500/78504 [8:49:01<32:51:02,  1.85s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.5742916464805603, 'learning_rate': 2.7179737590760477e-05, 'epoch': 4.43}
 18%|█▊        | 14500/78504 [8:49:01<32:51:02,  1.85s/it] 18%|█▊        | 14501/78504 [8:49:02<31:14:21,  1.76s/it]                                                          {'loss': 0.1674, 'grad_norm': 0.6948607563972473, 'learning_rate': 2.717931298034054e-05, 'epoch': 4.43}
 18%|█▊        | 14501/78504 [8:49:02<31:14:21,  1.76s/it] 18%|█▊        | 14502/78504 [8:49:04<29:54:08,  1.68s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.4177840054035187, 'learning_rate': 2.7178888369920598e-05, 'epoch': 4.43}
 18%|█▊        | 14502/78504 [8:49:04<29:54:08,  1.68s/it] 18%|█▊        | 14503/78504 [8:49:05<28:20:45,  1.59s/it]                                                          {'loss': 0.1636, 'grad_norm': 4.1104207038879395, 'learning_rate': 2.717846375950066e-05, 'epoch': 4.43}
 18%|█▊        | 14503/78504 [8:49:05<28:20:45,  1.59s/it] 18%|█▊        | 14504/78504 [8:49:07<26:42:11,  1.50s/it]                                                          {'loss': 0.1905, 'grad_norm': 0.6636064648628235, 'learning_rate': 2.717803914908072e-05, 'epoch': 4.43}
 18%|█▊        | 14504/78504 [8:49:07<26:42:11,  1.50s/it] 18%|█▊        | 14505/78504 [8:49:08<24:50:56,  1.40s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.9027283787727356, 'learning_rate': 2.717761453866078e-05, 'epoch': 4.43}
 18%|█▊        | 14505/78504 [8:49:08<24:50:56,  1.40s/it] 18%|█▊        | 14506/78504 [8:49:09<23:15:17,  1.31s/it]                                                          {'loss': 0.1915, 'grad_norm': 0.5822070837020874, 'learning_rate': 2.717718992824084e-05, 'epoch': 4.43}
 18%|█▊        | 14506/78504 [8:49:09<23:15:17,  1.31s/it] 18%|█▊        | 14507/78504 [8:49:10<21:34:38,  1.21s/it]                                                          {'loss': 0.2246, 'grad_norm': 1.2817941904067993, 'learning_rate': 2.71767653178209e-05, 'epoch': 4.44}
 18%|█▊        | 14507/78504 [8:49:10<21:34:38,  1.21s/it] 18%|█▊        | 14508/78504 [8:49:11<20:06:17,  1.13s/it]                                                          {'loss': 0.2069, 'grad_norm': 1.6138834953308105, 'learning_rate': 2.717634070740096e-05, 'epoch': 4.44}
 18%|█▊        | 14508/78504 [8:49:11<20:06:17,  1.13s/it] 18%|█▊        | 14509/78504 [8:49:12<18:13:48,  1.03s/it]                                                          {'loss': 0.2096, 'grad_norm': 2.0528242588043213, 'learning_rate': 2.717591609698102e-05, 'epoch': 4.44}
 18%|█▊        | 14509/78504 [8:49:12<18:13:48,  1.03s/it] 18%|█▊        | 14510/78504 [8:49:20<57:07:56,  3.21s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.32442811131477356, 'learning_rate': 2.717549148656108e-05, 'epoch': 4.44}
 18%|█▊        | 14510/78504 [8:49:20<57:07:56,  3.21s/it] 18%|█▊        | 14511/78504 [8:49:23<57:33:44,  3.24s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.33326295018196106, 'learning_rate': 2.717506687614114e-05, 'epoch': 4.44}
 18%|█▊        | 14511/78504 [8:49:23<57:33:44,  3.24s/it] 18%|█▊        | 14512/78504 [8:49:26<55:50:37,  3.14s/it]                                                          {'loss': 0.0969, 'grad_norm': 0.23748835921287537, 'learning_rate': 2.7174642265721202e-05, 'epoch': 4.44}
 18%|█▊        | 14512/78504 [8:49:26<55:50:37,  3.14s/it] 18%|█▊        | 14513/78504 [8:49:29<52:49:41,  2.97s/it]                                                          {'loss': 0.0514, 'grad_norm': 0.2153518944978714, 'learning_rate': 2.717421765530126e-05, 'epoch': 4.44}
 18%|█▊        | 14513/78504 [8:49:29<52:49:41,  2.97s/it] 18%|█▊        | 14514/78504 [8:49:31<50:08:06,  2.82s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.28278517723083496, 'learning_rate': 2.7173793044881323e-05, 'epoch': 4.44}
 18%|█▊        | 14514/78504 [8:49:31<50:08:06,  2.82s/it] 18%|█▊        | 14515/78504 [8:49:34<48:01:50,  2.70s/it]                                                          {'loss': 0.0711, 'grad_norm': 0.23319923877716064, 'learning_rate': 2.717336843446138e-05, 'epoch': 4.44}
 18%|█▊        | 14515/78504 [8:49:34<48:01:50,  2.70s/it] 18%|█▊        | 14516/78504 [8:49:36<45:57:25,  2.59s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.24093782901763916, 'learning_rate': 2.7172943824041444e-05, 'epoch': 4.44}
 18%|█▊        | 14516/78504 [8:49:36<45:57:25,  2.59s/it] 18%|█▊        | 14517/78504 [8:49:38<44:28:24,  2.50s/it]                                                          {'loss': 0.0793, 'grad_norm': 0.3606530427932739, 'learning_rate': 2.7172519213621502e-05, 'epoch': 4.44}
 18%|█▊        | 14517/78504 [8:49:38<44:28:24,  2.50s/it] 18%|█▊        | 14518/78504 [8:49:40<42:51:16,  2.41s/it]                                                          {'loss': 0.0894, 'grad_norm': 1.554999589920044, 'learning_rate': 2.7172094603201564e-05, 'epoch': 4.44}
 18%|█▊        | 14518/78504 [8:49:40<42:51:16,  2.41s/it] 18%|█▊        | 14519/78504 [8:49:43<41:30:42,  2.34s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.3363978862762451, 'learning_rate': 2.7171669992781623e-05, 'epoch': 4.44}
 18%|█▊        | 14519/78504 [8:49:43<41:30:42,  2.34s/it] 18%|█▊        | 14520/78504 [8:49:44<39:02:50,  2.20s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.45908352732658386, 'learning_rate': 2.7171245382361682e-05, 'epoch': 4.44}
 18%|█▊        | 14520/78504 [8:49:44<39:02:50,  2.20s/it] 18%|█▊        | 14521/78504 [8:49:46<37:52:21,  2.13s/it]                                                          {'loss': 0.0781, 'grad_norm': 0.38531097769737244, 'learning_rate': 2.7170820771941744e-05, 'epoch': 4.44}
 18%|█▊        | 14521/78504 [8:49:46<37:52:21,  2.13s/it] 18%|█▊        | 14522/78504 [8:49:48<36:34:03,  2.06s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.4421522617340088, 'learning_rate': 2.7170396161521803e-05, 'epoch': 4.44}
 18%|█▊        | 14522/78504 [8:49:48<36:34:03,  2.06s/it] 18%|█▊        | 14523/78504 [8:49:50<35:33:02,  2.00s/it]                                                          {'loss': 0.1209, 'grad_norm': 0.67113196849823, 'learning_rate': 2.7169971551101865e-05, 'epoch': 4.44}
 18%|█▊        | 14523/78504 [8:49:50<35:33:02,  2.00s/it] 19%|█▊        | 14524/78504 [8:49:52<34:06:29,  1.92s/it]                                                          {'loss': 0.1116, 'grad_norm': 0.48752743005752563, 'learning_rate': 2.7169546940681923e-05, 'epoch': 4.44}
 19%|█▊        | 14524/78504 [8:49:52<34:06:29,  1.92s/it] 19%|█▊        | 14525/78504 [8:49:54<32:36:14,  1.83s/it]                                                          {'loss': 0.1473, 'grad_norm': 0.575541615486145, 'learning_rate': 2.7169122330261986e-05, 'epoch': 4.44}
 19%|█▊        | 14525/78504 [8:49:54<32:36:14,  1.83s/it] 19%|█▊        | 14526/78504 [8:49:55<31:04:05,  1.75s/it]                                                          {'loss': 0.1166, 'grad_norm': 0.4590758681297302, 'learning_rate': 2.7168697719842044e-05, 'epoch': 4.44}
 19%|█▊        | 14526/78504 [8:49:55<31:04:05,  1.75s/it] 19%|█▊        | 14527/78504 [8:49:57<29:35:05,  1.66s/it]                                                          {'loss': 0.1612, 'grad_norm': 1.0132930278778076, 'learning_rate': 2.7168273109422106e-05, 'epoch': 4.44}
 19%|█▊        | 14527/78504 [8:49:57<29:35:05,  1.66s/it] 19%|█▊        | 14528/78504 [8:49:58<28:09:55,  1.58s/it]                                                          {'loss': 0.1703, 'grad_norm': 0.6839370727539062, 'learning_rate': 2.7167848499002165e-05, 'epoch': 4.44}
 19%|█▊        | 14528/78504 [8:49:58<28:09:55,  1.58s/it] 19%|█▊        | 14529/78504 [8:49:59<26:33:02,  1.49s/it]                                                          {'loss': 0.2153, 'grad_norm': 0.685167670249939, 'learning_rate': 2.7167423888582227e-05, 'epoch': 4.44}
 19%|█▊        | 14529/78504 [8:49:59<26:33:02,  1.49s/it] 19%|█▊        | 14530/78504 [8:50:00<24:44:13,  1.39s/it]                                                          {'loss': 0.1615, 'grad_norm': 0.8313899636268616, 'learning_rate': 2.7166999278162286e-05, 'epoch': 4.44}
 19%|█▊        | 14530/78504 [8:50:00<24:44:13,  1.39s/it] 19%|█▊        | 14531/78504 [8:50:01<23:07:27,  1.30s/it]                                                          {'loss': 0.1563, 'grad_norm': 0.7201988101005554, 'learning_rate': 2.7166574667742345e-05, 'epoch': 4.44}
 19%|█▊        | 14531/78504 [8:50:01<23:07:27,  1.30s/it] 19%|█▊        | 14532/78504 [8:50:02<21:29:24,  1.21s/it]                                                          {'loss': 0.1873, 'grad_norm': 0.7806335687637329, 'learning_rate': 2.7166150057322407e-05, 'epoch': 4.44}
 19%|█▊        | 14532/78504 [8:50:02<21:29:24,  1.21s/it] 19%|█▊        | 14533/78504 [8:50:03<20:00:10,  1.13s/it]                                                          {'loss': 0.1869, 'grad_norm': 1.3637127876281738, 'learning_rate': 2.7165725446902465e-05, 'epoch': 4.44}
 19%|█▊        | 14533/78504 [8:50:03<20:00:10,  1.13s/it] 19%|█▊        | 14534/78504 [8:50:04<18:08:53,  1.02s/it]                                                          {'loss': 0.2519, 'grad_norm': 1.9744242429733276, 'learning_rate': 2.7165300836482527e-05, 'epoch': 4.44}
 19%|█▊        | 14534/78504 [8:50:04<18:08:53,  1.02s/it] 19%|█▊        | 14535/78504 [8:50:14<66:09:36,  3.72s/it]                                                          {'loss': 0.1593, 'grad_norm': 0.3875206708908081, 'learning_rate': 2.7164876226062586e-05, 'epoch': 4.44}
 19%|█▊        | 14535/78504 [8:50:14<66:09:36,  3.72s/it] 19%|█▊        | 14536/78504 [8:50:17<62:41:37,  3.53s/it]                                                          {'loss': 0.0771, 'grad_norm': 0.5389423966407776, 'learning_rate': 2.7164451615642648e-05, 'epoch': 4.44}
 19%|█▊        | 14536/78504 [8:50:17<62:41:37,  3.53s/it] 19%|█▊        | 14537/78504 [8:50:20<57:34:51,  3.24s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.40691739320755005, 'learning_rate': 2.7164027005222707e-05, 'epoch': 4.44}
 19%|█▊        | 14537/78504 [8:50:20<57:34:51,  3.24s/it] 19%|█▊        | 14538/78504 [8:50:22<54:13:14,  3.05s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.48493310809135437, 'learning_rate': 2.716360239480277e-05, 'epoch': 4.44}
 19%|█▊        | 14538/78504 [8:50:22<54:13:14,  3.05s/it] 19%|█▊        | 14539/78504 [8:50:25<51:06:33,  2.88s/it]                                                          {'loss': 0.0515, 'grad_norm': 0.9798800945281982, 'learning_rate': 2.7163177784382828e-05, 'epoch': 4.44}
 19%|█▊        | 14539/78504 [8:50:25<51:06:33,  2.88s/it] 19%|█▊        | 14540/78504 [8:50:27<48:44:31,  2.74s/it]                                                          {'loss': 0.0423, 'grad_norm': 0.166558176279068, 'learning_rate': 2.716275317396289e-05, 'epoch': 4.45}
 19%|█▊        | 14540/78504 [8:50:27<48:44:31,  2.74s/it] 19%|█▊        | 14541/78504 [8:50:30<46:27:54,  2.62s/it]                                                          {'loss': 0.0558, 'grad_norm': 0.2790682315826416, 'learning_rate': 2.716232856354295e-05, 'epoch': 4.45}
 19%|█▊        | 14541/78504 [8:50:30<46:27:54,  2.62s/it] 19%|█▊        | 14542/78504 [8:50:32<44:47:35,  2.52s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.28538811206817627, 'learning_rate': 2.716190395312301e-05, 'epoch': 4.45}
 19%|█▊        | 14542/78504 [8:50:32<44:47:35,  2.52s/it] 19%|█▊        | 14543/78504 [8:50:34<42:58:51,  2.42s/it]                                                          {'loss': 0.0479, 'grad_norm': 0.2762254476547241, 'learning_rate': 2.716147934270307e-05, 'epoch': 4.45}
 19%|█▊        | 14543/78504 [8:50:34<42:58:51,  2.42s/it] 19%|█▊        | 14544/78504 [8:50:36<41:37:45,  2.34s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.4479845464229584, 'learning_rate': 2.7161054732283128e-05, 'epoch': 4.45}
 19%|█▊        | 14544/78504 [8:50:36<41:37:45,  2.34s/it] 19%|█▊        | 14545/78504 [8:50:38<39:00:20,  2.20s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.3160566985607147, 'learning_rate': 2.716063012186319e-05, 'epoch': 4.45}
 19%|█▊        | 14545/78504 [8:50:38<39:00:20,  2.20s/it] 19%|█▊        | 14546/78504 [8:50:40<37:53:42,  2.13s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.6429881453514099, 'learning_rate': 2.716020551144325e-05, 'epoch': 4.45}
 19%|█▊        | 14546/78504 [8:50:40<37:53:42,  2.13s/it] 19%|█▊        | 14547/78504 [8:50:42<36:47:35,  2.07s/it]                                                          {'loss': 0.1139, 'grad_norm': 0.6039536595344543, 'learning_rate': 2.715978090102331e-05, 'epoch': 4.45}
 19%|█▊        | 14547/78504 [8:50:42<36:47:35,  2.07s/it] 19%|█▊        | 14548/78504 [8:50:44<35:49:29,  2.02s/it]                                                          {'loss': 0.0942, 'grad_norm': 0.43419915437698364, 'learning_rate': 2.715935629060337e-05, 'epoch': 4.45}
 19%|█▊        | 14548/78504 [8:50:44<35:49:29,  2.02s/it] 19%|█▊        | 14549/78504 [8:50:46<34:30:38,  1.94s/it]                                                          {'loss': 0.115, 'grad_norm': 0.5530080795288086, 'learning_rate': 2.715893168018343e-05, 'epoch': 4.45}
 19%|█▊        | 14549/78504 [8:50:46<34:30:38,  1.94s/it] 19%|█▊        | 14550/78504 [8:50:47<32:35:24,  1.83s/it]                                                          {'loss': 0.1369, 'grad_norm': 0.5810584425926208, 'learning_rate': 2.715850706976349e-05, 'epoch': 4.45}
 19%|█▊        | 14550/78504 [8:50:47<32:35:24,  1.83s/it] 19%|█▊        | 14551/78504 [8:50:49<30:59:39,  1.74s/it]                                                          {'loss': 0.1645, 'grad_norm': 1.4688329696655273, 'learning_rate': 2.7158082459343552e-05, 'epoch': 4.45}
 19%|█▊        | 14551/78504 [8:50:49<30:59:39,  1.74s/it] 19%|█▊        | 14552/78504 [8:50:50<29:42:53,  1.67s/it]                                                          {'loss': 0.1445, 'grad_norm': 0.5219430327415466, 'learning_rate': 2.715765784892361e-05, 'epoch': 4.45}
 19%|█▊        | 14552/78504 [8:50:50<29:42:53,  1.67s/it] 19%|█▊        | 14553/78504 [8:50:52<28:15:33,  1.59s/it]                                                          {'loss': 0.1885, 'grad_norm': 0.6024319529533386, 'learning_rate': 2.7157233238503673e-05, 'epoch': 4.45}
 19%|█▊        | 14553/78504 [8:50:52<28:15:33,  1.59s/it] 19%|█▊        | 14554/78504 [8:50:53<26:37:57,  1.50s/it]                                                          {'loss': 0.1875, 'grad_norm': 3.57478404045105, 'learning_rate': 2.7156808628083732e-05, 'epoch': 4.45}
 19%|█▊        | 14554/78504 [8:50:53<26:37:57,  1.50s/it] 19%|█▊        | 14555/78504 [8:50:54<24:45:32,  1.39s/it]                                                          {'loss': 0.1861, 'grad_norm': 3.3994922637939453, 'learning_rate': 2.7156384017663794e-05, 'epoch': 4.45}
 19%|█▊        | 14555/78504 [8:50:54<24:45:32,  1.39s/it] 19%|█▊        | 14556/78504 [8:50:55<23:08:43,  1.30s/it]                                                          {'loss': 0.1953, 'grad_norm': 1.0106528997421265, 'learning_rate': 2.7155959407243856e-05, 'epoch': 4.45}
 19%|█▊        | 14556/78504 [8:50:55<23:08:43,  1.30s/it] 19%|█▊        | 14557/78504 [8:50:56<21:47:27,  1.23s/it]                                                          {'loss': 0.1949, 'grad_norm': 0.8375324010848999, 'learning_rate': 2.7155534796823915e-05, 'epoch': 4.45}
 19%|█▊        | 14557/78504 [8:50:56<21:47:27,  1.23s/it] 19%|█▊        | 14558/78504 [8:50:57<20:12:49,  1.14s/it]                                                          {'loss': 0.1714, 'grad_norm': 1.56394624710083, 'learning_rate': 2.7155110186403977e-05, 'epoch': 4.45}
 19%|█▊        | 14558/78504 [8:50:57<20:12:49,  1.14s/it] 19%|█▊        | 14559/78504 [8:50:58<18:20:25,  1.03s/it]                                                          {'loss': 0.2144, 'grad_norm': 1.6562318801879883, 'learning_rate': 2.7154685575984036e-05, 'epoch': 4.45}
 19%|█▊        | 14559/78504 [8:50:58<18:20:25,  1.03s/it] 19%|█▊        | 14560/78504 [8:51:07<59:22:43,  3.34s/it]                                                          {'loss': 0.1179, 'grad_norm': 0.3570365905761719, 'learning_rate': 2.7154260965564098e-05, 'epoch': 4.45}
 19%|█▊        | 14560/78504 [8:51:07<59:22:43,  3.34s/it] 19%|█▊        | 14561/78504 [8:51:10<57:56:57,  3.26s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.324855238199234, 'learning_rate': 2.7153836355144156e-05, 'epoch': 4.45}
 19%|█▊        | 14561/78504 [8:51:10<57:56:57,  3.26s/it] 19%|█▊        | 14562/78504 [8:51:13<56:25:33,  3.18s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.20178170502185822, 'learning_rate': 2.715341174472422e-05, 'epoch': 4.45}
 19%|█▊        | 14562/78504 [8:51:13<56:25:33,  3.18s/it] 19%|█▊        | 14563/78504 [8:51:15<53:17:01,  3.00s/it]                                                          {'loss': 0.0669, 'grad_norm': 0.4093068540096283, 'learning_rate': 2.7152987134304277e-05, 'epoch': 4.45}
 19%|█▊        | 14563/78504 [8:51:15<53:17:01,  3.00s/it] 19%|█▊        | 14564/78504 [8:51:18<50:33:40,  2.85s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.21677224338054657, 'learning_rate': 2.715256252388434e-05, 'epoch': 4.45}
 19%|█▊        | 14564/78504 [8:51:18<50:33:40,  2.85s/it] 19%|█▊        | 14565/78504 [8:51:20<47:06:06,  2.65s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.41955286264419556, 'learning_rate': 2.7152137913464398e-05, 'epoch': 4.45}
 19%|█▊        | 14565/78504 [8:51:20<47:06:06,  2.65s/it] 19%|█▊        | 14566/78504 [8:51:22<45:20:26,  2.55s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.24472182989120483, 'learning_rate': 2.715171330304446e-05, 'epoch': 4.45}
 19%|█▊        | 14566/78504 [8:51:22<45:20:26,  2.55s/it] 19%|█▊        | 14567/78504 [8:51:25<42:52:48,  2.41s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.2900508940219879, 'learning_rate': 2.715128869262452e-05, 'epoch': 4.45}
 19%|█▊        | 14567/78504 [8:51:25<42:52:48,  2.41s/it] 19%|█▊        | 14568/78504 [8:51:27<40:48:48,  2.30s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.2906894087791443, 'learning_rate': 2.715086408220458e-05, 'epoch': 4.45}
 19%|█▊        | 14568/78504 [8:51:27<40:48:48,  2.30s/it] 19%|█▊        | 14569/78504 [8:51:29<39:57:12,  2.25s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.6541433334350586, 'learning_rate': 2.715043947178464e-05, 'epoch': 4.45}
 19%|█▊        | 14569/78504 [8:51:29<39:57:12,  2.25s/it] 19%|█▊        | 14570/78504 [8:51:31<38:44:53,  2.18s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.3380293846130371, 'learning_rate': 2.7150014861364698e-05, 'epoch': 4.45}
 19%|█▊        | 14570/78504 [8:51:31<38:44:53,  2.18s/it] 19%|█▊        | 14571/78504 [8:51:33<37:39:11,  2.12s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.2808278799057007, 'learning_rate': 2.714959025094476e-05, 'epoch': 4.45}
 19%|█▊        | 14571/78504 [8:51:33<37:39:11,  2.12s/it] 19%|█▊        | 14572/78504 [8:51:35<36:17:06,  2.04s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.7964391708374023, 'learning_rate': 2.714916564052482e-05, 'epoch': 4.45}
 19%|█▊        | 14572/78504 [8:51:35<36:17:06,  2.04s/it] 19%|█▊        | 14573/78504 [8:51:36<35:11:18,  1.98s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.5377917885780334, 'learning_rate': 2.714874103010488e-05, 'epoch': 4.46}
 19%|█▊        | 14573/78504 [8:51:36<35:11:18,  1.98s/it] 19%|█▊        | 14574/78504 [8:51:38<34:02:30,  1.92s/it]                                                          {'loss': 0.1306, 'grad_norm': 1.1152527332305908, 'learning_rate': 2.714831641968494e-05, 'epoch': 4.46}
 19%|█▊        | 14574/78504 [8:51:38<34:02:30,  1.92s/it] 19%|█▊        | 14575/78504 [8:51:40<32:16:21,  1.82s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.7706248164176941, 'learning_rate': 2.7147891809265002e-05, 'epoch': 4.46}
 19%|█▊        | 14575/78504 [8:51:40<32:16:21,  1.82s/it] 19%|█▊        | 14576/78504 [8:51:41<30:48:36,  1.74s/it]                                                          {'loss': 0.1802, 'grad_norm': 0.5587882399559021, 'learning_rate': 2.714746719884506e-05, 'epoch': 4.46}
 19%|█▊        | 14576/78504 [8:51:41<30:48:36,  1.74s/it] 19%|█▊        | 14577/78504 [8:51:43<29:23:19,  1.66s/it]                                                          {'loss': 0.1708, 'grad_norm': 0.7314732074737549, 'learning_rate': 2.7147042588425123e-05, 'epoch': 4.46}
 19%|█▊        | 14577/78504 [8:51:43<29:23:19,  1.66s/it] 19%|█▊        | 14578/78504 [8:51:44<28:05:18,  1.58s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.6374103426933289, 'learning_rate': 2.714661797800518e-05, 'epoch': 4.46}
 19%|█▊        | 14578/78504 [8:51:44<28:05:18,  1.58s/it] 19%|█▊        | 14579/78504 [8:51:45<26:32:50,  1.50s/it]                                                          {'loss': 0.1736, 'grad_norm': 1.7685569524765015, 'learning_rate': 2.7146193367585243e-05, 'epoch': 4.46}
 19%|█▊        | 14579/78504 [8:51:45<26:32:50,  1.50s/it] 19%|█▊        | 14580/78504 [8:51:47<24:42:21,  1.39s/it]                                                          {'loss': 0.1731, 'grad_norm': 1.07774019241333, 'learning_rate': 2.7145768757165302e-05, 'epoch': 4.46}
 19%|█▊        | 14580/78504 [8:51:47<24:42:21,  1.39s/it] 19%|█▊        | 14581/78504 [8:51:48<23:10:21,  1.31s/it]                                                          {'loss': 0.1791, 'grad_norm': 0.8443768620491028, 'learning_rate': 2.7145344146745364e-05, 'epoch': 4.46}
 19%|█▊        | 14581/78504 [8:51:48<23:10:21,  1.31s/it] 19%|█▊        | 14582/78504 [8:51:49<21:46:54,  1.23s/it]                                                          {'loss': 0.1817, 'grad_norm': 1.3887746334075928, 'learning_rate': 2.7144919536325423e-05, 'epoch': 4.46}
 19%|█▊        | 14582/78504 [8:51:49<21:46:54,  1.23s/it] 19%|█▊        | 14583/78504 [8:51:50<20:10:27,  1.14s/it]                                                          {'loss': 0.1749, 'grad_norm': 0.9004783034324646, 'learning_rate': 2.714449492590548e-05, 'epoch': 4.46}
 19%|█▊        | 14583/78504 [8:51:50<20:10:27,  1.14s/it] 19%|█▊        | 14584/78504 [8:51:50<18:16:52,  1.03s/it]                                                          {'loss': 0.2415, 'grad_norm': 1.5196189880371094, 'learning_rate': 2.7144070315485544e-05, 'epoch': 4.46}
 19%|█▊        | 14584/78504 [8:51:50<18:16:52,  1.03s/it] 19%|█▊        | 14585/78504 [8:52:00<61:00:51,  3.44s/it]                                                          {'loss': 0.1357, 'grad_norm': 1.2667794227600098, 'learning_rate': 2.7143645705065602e-05, 'epoch': 4.46}
 19%|█▊        | 14585/78504 [8:52:00<61:00:51,  3.44s/it] 19%|█▊        | 14586/78504 [8:52:03<61:24:53,  3.46s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.5894879698753357, 'learning_rate': 2.7143221094645664e-05, 'epoch': 4.46}
 19%|█▊        | 14586/78504 [8:52:03<61:24:53,  3.46s/it] 19%|█▊        | 14587/78504 [8:52:06<59:00:18,  3.32s/it]                                                          {'loss': 0.0722, 'grad_norm': 1.2526775598526, 'learning_rate': 2.7142796484225723e-05, 'epoch': 4.46}
 19%|█▊        | 14587/78504 [8:52:06<59:00:18,  3.32s/it] 19%|█▊        | 14588/78504 [8:52:09<55:14:37,  3.11s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.17965327203273773, 'learning_rate': 2.7142371873805785e-05, 'epoch': 4.46}
 19%|█▊        | 14588/78504 [8:52:09<55:14:37,  3.11s/it] 19%|█▊        | 14589/78504 [8:52:11<51:48:21,  2.92s/it]                                                          {'loss': 0.0577, 'grad_norm': 0.38206571340560913, 'learning_rate': 2.7141947263385844e-05, 'epoch': 4.46}
 19%|█▊        | 14589/78504 [8:52:11<51:48:21,  2.92s/it] 19%|█▊        | 14590/78504 [8:52:13<48:21:43,  2.72s/it]                                                          {'loss': 0.0406, 'grad_norm': 0.19419115781784058, 'learning_rate': 2.7141522652965906e-05, 'epoch': 4.46}
 19%|█▊        | 14590/78504 [8:52:13<48:21:43,  2.72s/it] 19%|█▊        | 14591/78504 [8:52:16<46:10:16,  2.60s/it]                                                          {'loss': 0.0365, 'grad_norm': 0.27740243077278137, 'learning_rate': 2.7141098042545965e-05, 'epoch': 4.46}
 19%|█▊        | 14591/78504 [8:52:16<46:10:16,  2.60s/it] 19%|█▊        | 14592/78504 [8:52:18<44:35:05,  2.51s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.38763293623924255, 'learning_rate': 2.7140673432126027e-05, 'epoch': 4.46}
 19%|█▊        | 14592/78504 [8:52:18<44:35:05,  2.51s/it] 19%|█▊        | 14593/78504 [8:52:20<42:53:42,  2.42s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.26536694169044495, 'learning_rate': 2.7140248821706086e-05, 'epoch': 4.46}
 19%|█▊        | 14593/78504 [8:52:20<42:53:42,  2.42s/it] 19%|█▊        | 14594/78504 [8:52:22<41:31:53,  2.34s/it]                                                          {'loss': 0.043, 'grad_norm': 0.29181358218193054, 'learning_rate': 2.7139824211286148e-05, 'epoch': 4.46}
 19%|█▊        | 14594/78504 [8:52:22<41:31:53,  2.34s/it] 19%|█▊        | 14595/78504 [8:52:24<38:57:41,  2.19s/it]                                                          {'loss': 0.1131, 'grad_norm': 0.8534982204437256, 'learning_rate': 2.7139399600866206e-05, 'epoch': 4.46}
 19%|█▊        | 14595/78504 [8:52:24<38:57:41,  2.19s/it] 19%|█▊        | 14596/78504 [8:52:26<37:50:31,  2.13s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.4536721408367157, 'learning_rate': 2.7138974990446265e-05, 'epoch': 4.46}
 19%|█▊        | 14596/78504 [8:52:26<37:50:31,  2.13s/it] 19%|█▊        | 14597/78504 [8:52:28<36:31:34,  2.06s/it]                                                          {'loss': 0.0853, 'grad_norm': 0.8021422028541565, 'learning_rate': 2.7138550380026327e-05, 'epoch': 4.46}
 19%|█▊        | 14597/78504 [8:52:28<36:31:34,  2.06s/it] 19%|█▊        | 14598/78504 [8:52:30<35:29:26,  2.00s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.37400203943252563, 'learning_rate': 2.7138125769606386e-05, 'epoch': 4.46}
 19%|█▊        | 14598/78504 [8:52:30<35:29:26,  2.00s/it] 19%|█▊        | 14599/78504 [8:52:32<34:04:18,  1.92s/it]                                                          {'loss': 0.133, 'grad_norm': 0.5264663696289062, 'learning_rate': 2.7137701159186448e-05, 'epoch': 4.46}
 19%|█▊        | 14599/78504 [8:52:32<34:04:18,  1.92s/it] 19%|█▊        | 14600/78504 [8:52:33<32:34:05,  1.83s/it]                                                          {'loss': 0.1437, 'grad_norm': 1.3493903875350952, 'learning_rate': 2.7137276548766507e-05, 'epoch': 4.46}
 19%|█▊        | 14600/78504 [8:52:33<32:34:05,  1.83s/it] 19%|█▊        | 14601/78504 [8:52:35<30:54:34,  1.74s/it]                                                          {'loss': 0.1485, 'grad_norm': 1.5559134483337402, 'learning_rate': 2.713685193834657e-05, 'epoch': 4.46}
 19%|█▊        | 14601/78504 [8:52:35<30:54:34,  1.74s/it] 19%|█▊        | 14602/78504 [8:52:36<29:14:29,  1.65s/it]                                                          {'loss': 0.1537, 'grad_norm': 1.2769638299942017, 'learning_rate': 2.7136427327926627e-05, 'epoch': 4.46}
 19%|█▊        | 14602/78504 [8:52:36<29:14:29,  1.65s/it] 19%|█▊        | 14603/78504 [8:52:38<27:58:08,  1.58s/it]                                                          {'loss': 0.1415, 'grad_norm': 1.1096384525299072, 'learning_rate': 2.713600271750669e-05, 'epoch': 4.46}
 19%|█▊        | 14603/78504 [8:52:38<27:58:08,  1.58s/it] 19%|█▊        | 14604/78504 [8:52:39<26:01:22,  1.47s/it]                                                          {'loss': 0.1685, 'grad_norm': 1.0325286388397217, 'learning_rate': 2.7135578107086748e-05, 'epoch': 4.46}
 19%|█▊        | 14604/78504 [8:52:39<26:01:22,  1.47s/it] 19%|█▊        | 14605/78504 [8:52:40<24:14:50,  1.37s/it]                                                          {'loss': 0.1729, 'grad_norm': 1.0272083282470703, 'learning_rate': 2.713515349666681e-05, 'epoch': 4.46}
 19%|█▊        | 14605/78504 [8:52:40<24:14:50,  1.37s/it] 19%|█▊        | 14606/78504 [8:52:41<22:47:01,  1.28s/it]                                                          {'loss': 0.1885, 'grad_norm': 2.1394472122192383, 'learning_rate': 2.713472888624687e-05, 'epoch': 4.47}
 19%|█▊        | 14606/78504 [8:52:41<22:47:01,  1.28s/it] 19%|█▊        | 14607/78504 [8:52:42<21:13:09,  1.20s/it]                                                          {'loss': 0.214, 'grad_norm': 1.3892558813095093, 'learning_rate': 2.713430427582693e-05, 'epoch': 4.47}
 19%|█▊        | 14607/78504 [8:52:42<21:13:09,  1.20s/it] 19%|█▊        | 14608/78504 [8:52:43<19:48:02,  1.12s/it]                                                          {'loss': 0.2251, 'grad_norm': 0.9586330056190491, 'learning_rate': 2.713387966540699e-05, 'epoch': 4.47}
 19%|█▊        | 14608/78504 [8:52:43<19:48:02,  1.12s/it] 19%|█▊        | 14609/78504 [8:52:44<18:00:00,  1.01s/it]                                                          {'loss': 0.2805, 'grad_norm': 2.983154773712158, 'learning_rate': 2.713345505498705e-05, 'epoch': 4.47}
 19%|█▊        | 14609/78504 [8:52:44<18:00:00,  1.01s/it] 19%|█▊        | 14610/78504 [8:52:52<53:48:57,  3.03s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.4760669767856598, 'learning_rate': 2.713303044456711e-05, 'epoch': 4.47}
 19%|█▊        | 14610/78504 [8:52:52<53:48:57,  3.03s/it] 19%|█▊        | 14611/78504 [8:52:55<54:22:10,  3.06s/it]                                                          {'loss': 0.0864, 'grad_norm': 0.432526171207428, 'learning_rate': 2.713260583414717e-05, 'epoch': 4.47}
 19%|█▊        | 14611/78504 [8:52:55<54:22:10,  3.06s/it] 19%|█▊        | 14612/78504 [8:52:57<51:45:11,  2.92s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.23594166338443756, 'learning_rate': 2.713218122372723e-05, 'epoch': 4.47}
 19%|█▊        | 14612/78504 [8:52:57<51:45:11,  2.92s/it] 19%|█▊        | 14613/78504 [8:53:00<50:08:41,  2.83s/it]                                                          {'loss': 0.0895, 'grad_norm': 0.35211896896362305, 'learning_rate': 2.713175661330729e-05, 'epoch': 4.47}
 19%|█▊        | 14613/78504 [8:53:00<50:08:41,  2.83s/it] 19%|█▊        | 14614/78504 [8:53:02<48:13:50,  2.72s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.3382732570171356, 'learning_rate': 2.7131332002887352e-05, 'epoch': 4.47}
 19%|█▊        | 14614/78504 [8:53:02<48:13:50,  2.72s/it] 19%|█▊        | 14615/78504 [8:53:05<45:48:17,  2.58s/it]                                                          {'loss': 0.0482, 'grad_norm': 0.2115425318479538, 'learning_rate': 2.713090739246741e-05, 'epoch': 4.47}
 19%|█▊        | 14615/78504 [8:53:05<45:48:17,  2.58s/it] 19%|█▊        | 14616/78504 [8:53:07<44:21:54,  2.50s/it]                                                          {'loss': 0.1013, 'grad_norm': 1.2285183668136597, 'learning_rate': 2.7130482782047473e-05, 'epoch': 4.47}
 19%|█▊        | 14616/78504 [8:53:07<44:21:54,  2.50s/it] 19%|█▊        | 14617/78504 [8:53:09<42:11:06,  2.38s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.582547664642334, 'learning_rate': 2.713005817162753e-05, 'epoch': 4.47}
 19%|█▊        | 14617/78504 [8:53:09<42:11:06,  2.38s/it] 19%|█▊        | 14618/78504 [8:53:11<41:08:16,  2.32s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.6298527121543884, 'learning_rate': 2.7129633561207594e-05, 'epoch': 4.47}
 19%|█▊        | 14618/78504 [8:53:11<41:08:16,  2.32s/it] 19%|█▊        | 14619/78504 [8:53:13<40:18:22,  2.27s/it]                                                          {'loss': 0.0682, 'grad_norm': 1.1538721323013306, 'learning_rate': 2.7129208950787652e-05, 'epoch': 4.47}
 19%|█▊        | 14619/78504 [8:53:13<40:18:22,  2.27s/it] 19%|█▊        | 14620/78504 [8:53:15<38:07:37,  2.15s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.3133822977542877, 'learning_rate': 2.7128784340367715e-05, 'epoch': 4.47}
 19%|█▊        | 14620/78504 [8:53:15<38:07:37,  2.15s/it] 19%|█▊        | 14621/78504 [8:53:17<37:13:37,  2.10s/it]                                                          {'loss': 0.0881, 'grad_norm': 2.354862689971924, 'learning_rate': 2.7128359729947773e-05, 'epoch': 4.47}
 19%|█▊        | 14621/78504 [8:53:17<37:13:37,  2.10s/it] 19%|█▊        | 14622/78504 [8:53:19<36:16:42,  2.04s/it]                                                          {'loss': 0.085, 'grad_norm': 0.3252435326576233, 'learning_rate': 2.7127935119527832e-05, 'epoch': 4.47}
 19%|█▊        | 14622/78504 [8:53:19<36:16:42,  2.04s/it] 19%|█▊        | 14623/78504 [8:53:21<35:19:22,  1.99s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.40219900012016296, 'learning_rate': 2.7127510509107894e-05, 'epoch': 4.47}
 19%|█▊        | 14623/78504 [8:53:21<35:19:22,  1.99s/it] 19%|█▊        | 14624/78504 [8:53:23<33:52:01,  1.91s/it]                                                          {'loss': 0.1119, 'grad_norm': 0.8030990362167358, 'learning_rate': 2.7127085898687953e-05, 'epoch': 4.47}
 19%|█▊        | 14624/78504 [8:53:23<33:52:01,  1.91s/it] 19%|█▊        | 14625/78504 [8:53:24<32:27:05,  1.83s/it]                                                          {'loss': 0.1273, 'grad_norm': 0.38726451992988586, 'learning_rate': 2.7126661288268015e-05, 'epoch': 4.47}
 19%|█▊        | 14625/78504 [8:53:24<32:27:05,  1.83s/it] 19%|█▊        | 14626/78504 [8:53:26<30:48:41,  1.74s/it]                                                          {'loss': 0.1462, 'grad_norm': 0.7036991715431213, 'learning_rate': 2.7126236677848073e-05, 'epoch': 4.47}
 19%|█▊        | 14626/78504 [8:53:26<30:48:41,  1.74s/it] 19%|█▊        | 14627/78504 [8:53:27<29:09:18,  1.64s/it]                                                          {'loss': 0.1783, 'grad_norm': 3.54960036277771, 'learning_rate': 2.7125812067428136e-05, 'epoch': 4.47}
 19%|█▊        | 14627/78504 [8:53:27<29:09:18,  1.64s/it] 19%|█▊        | 14628/78504 [8:53:29<27:54:15,  1.57s/it]                                                          {'loss': 0.1805, 'grad_norm': 0.732994794845581, 'learning_rate': 2.7125387457008194e-05, 'epoch': 4.47}
 19%|█▊        | 14628/78504 [8:53:29<27:54:15,  1.57s/it] 19%|█▊        | 14629/78504 [8:53:30<26:03:44,  1.47s/it]                                                          {'loss': 0.1635, 'grad_norm': 0.9843920469284058, 'learning_rate': 2.7124962846588256e-05, 'epoch': 4.47}
 19%|█▊        | 14629/78504 [8:53:30<26:03:44,  1.47s/it] 19%|█▊        | 14630/78504 [8:53:31<24:19:59,  1.37s/it]                                                          {'loss': 0.1619, 'grad_norm': 0.7376084923744202, 'learning_rate': 2.7124538236168315e-05, 'epoch': 4.47}
 19%|█▊        | 14630/78504 [8:53:31<24:19:59,  1.37s/it] 19%|█▊        | 14631/78504 [8:53:32<22:53:58,  1.29s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.5584295988082886, 'learning_rate': 2.7124113625748377e-05, 'epoch': 4.47}
 19%|█▊        | 14631/78504 [8:53:32<22:53:58,  1.29s/it] 19%|█▊        | 14632/78504 [8:53:33<21:20:18,  1.20s/it]                                                          {'loss': 0.193, 'grad_norm': 0.945618748664856, 'learning_rate': 2.7123689015328436e-05, 'epoch': 4.47}
 19%|█▊        | 14632/78504 [8:53:33<21:20:18,  1.20s/it] 19%|█▊        | 14633/78504 [8:53:34<19:52:01,  1.12s/it]                                                          {'loss': 0.2052, 'grad_norm': 2.0925111770629883, 'learning_rate': 2.7123264404908498e-05, 'epoch': 4.47}
 19%|█▊        | 14633/78504 [8:53:34<19:52:01,  1.12s/it] 19%|█▊        | 14634/78504 [8:53:35<17:55:45,  1.01s/it]                                                          {'loss': 0.2288, 'grad_norm': 4.201822757720947, 'learning_rate': 2.7122839794488557e-05, 'epoch': 4.47}
 19%|█▊        | 14634/78504 [8:53:35<17:55:45,  1.01s/it] 19%|█▊        | 14635/78504 [8:53:44<61:52:26,  3.49s/it]                                                          {'loss': 0.1613, 'grad_norm': 0.4587872326374054, 'learning_rate': 2.7122415184068615e-05, 'epoch': 4.47}
 19%|█▊        | 14635/78504 [8:53:44<61:52:26,  3.49s/it] 19%|█▊        | 14636/78504 [8:53:47<58:44:37,  3.31s/it]                                                          {'loss': 0.0885, 'grad_norm': 0.3018239438533783, 'learning_rate': 2.7121990573648677e-05, 'epoch': 4.47}
 19%|█▊        | 14636/78504 [8:53:47<58:44:37,  3.31s/it] 19%|█▊        | 14637/78504 [8:53:50<57:07:50,  3.22s/it]                                                          {'loss': 0.0439, 'grad_norm': 0.2557578682899475, 'learning_rate': 2.7121565963228736e-05, 'epoch': 4.47}
 19%|█▊        | 14637/78504 [8:53:50<57:07:50,  3.22s/it] 19%|█▊        | 14638/78504 [8:53:53<53:54:25,  3.04s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.2682934105396271, 'learning_rate': 2.7121141352808798e-05, 'epoch': 4.48}
 19%|█▊        | 14638/78504 [8:53:53<53:54:25,  3.04s/it] 19%|█▊        | 14639/78504 [8:53:55<50:52:54,  2.87s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.3103990852832794, 'learning_rate': 2.7120716742388857e-05, 'epoch': 4.48}
 19%|█▊        | 14639/78504 [8:53:55<50:52:54,  2.87s/it] 19%|█▊        | 14640/78504 [8:53:57<47:39:43,  2.69s/it]                                                          {'loss': 0.0427, 'grad_norm': 0.39876842498779297, 'learning_rate': 2.712029213196892e-05, 'epoch': 4.48}
 19%|█▊        | 14640/78504 [8:53:57<47:39:43,  2.69s/it] 19%|█▊        | 14641/78504 [8:54:00<45:40:25,  2.57s/it]                                                          {'loss': 0.0419, 'grad_norm': 0.32197389006614685, 'learning_rate': 2.7119867521548978e-05, 'epoch': 4.48}
 19%|█▊        | 14641/78504 [8:54:00<45:40:25,  2.57s/it] 19%|█▊        | 14642/78504 [8:54:02<43:58:32,  2.48s/it]                                                          {'loss': 0.0964, 'grad_norm': 0.3960363566875458, 'learning_rate': 2.711944291112904e-05, 'epoch': 4.48}
 19%|█▊        | 14642/78504 [8:54:02<43:58:32,  2.48s/it] 19%|█▊        | 14643/78504 [8:54:04<42:25:51,  2.39s/it]                                                          {'loss': 0.0444, 'grad_norm': 0.6471211910247803, 'learning_rate': 2.71190183007091e-05, 'epoch': 4.48}
 19%|█▊        | 14643/78504 [8:54:04<42:25:51,  2.39s/it] 19%|█▊        | 14644/78504 [8:54:06<41:05:43,  2.32s/it]                                                          {'loss': 0.039, 'grad_norm': 0.17382307350635529, 'learning_rate': 2.711859369028916e-05, 'epoch': 4.48}
 19%|█▊        | 14644/78504 [8:54:06<41:05:43,  2.32s/it] 19%|█▊        | 14645/78504 [8:54:08<38:38:24,  2.18s/it]                                                          {'loss': 0.1122, 'grad_norm': 1.0236260890960693, 'learning_rate': 2.711816907986922e-05, 'epoch': 4.48}
 19%|█▊        | 14645/78504 [8:54:08<38:38:24,  2.18s/it] 19%|█▊        | 14646/78504 [8:54:10<37:37:31,  2.12s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.8119114637374878, 'learning_rate': 2.7117744469449278e-05, 'epoch': 4.48}
 19%|█▊        | 14646/78504 [8:54:10<37:37:31,  2.12s/it] 19%|█▊        | 14647/78504 [8:54:12<36:21:53,  2.05s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.3618432879447937, 'learning_rate': 2.711731985902934e-05, 'epoch': 4.48}
 19%|█▊        | 14647/78504 [8:54:12<36:21:53,  2.05s/it] 19%|█▊        | 14648/78504 [8:54:14<35:22:47,  1.99s/it]                                                          {'loss': 0.1587, 'grad_norm': 2.16438627243042, 'learning_rate': 2.71168952486094e-05, 'epoch': 4.48}
 19%|█▊        | 14648/78504 [8:54:14<35:22:47,  1.99s/it] 19%|█▊        | 14649/78504 [8:54:16<34:10:48,  1.93s/it]                                                          {'loss': 0.1581, 'grad_norm': 0.45639991760253906, 'learning_rate': 2.711647063818946e-05, 'epoch': 4.48}
 19%|█▊        | 14649/78504 [8:54:16<34:10:48,  1.93s/it] 19%|█▊        | 14650/78504 [8:54:17<32:19:09,  1.82s/it]                                                          {'loss': 0.1318, 'grad_norm': 0.5467153191566467, 'learning_rate': 2.711604602776952e-05, 'epoch': 4.48}
 19%|█▊        | 14650/78504 [8:54:17<32:19:09,  1.82s/it] 19%|█▊        | 14651/78504 [8:54:19<30:47:22,  1.74s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.5044739842414856, 'learning_rate': 2.711562141734958e-05, 'epoch': 4.48}
 19%|█▊        | 14651/78504 [8:54:19<30:47:22,  1.74s/it] 19%|█▊        | 14652/78504 [8:54:20<29:37:49,  1.67s/it]                                                          {'loss': 0.1621, 'grad_norm': 0.9199202060699463, 'learning_rate': 2.711519680692964e-05, 'epoch': 4.48}
 19%|█▊        | 14652/78504 [8:54:20<29:37:49,  1.67s/it] 19%|█▊        | 14653/78504 [8:54:22<28:09:55,  1.59s/it]                                                          {'loss': 0.1827, 'grad_norm': 1.0798022747039795, 'learning_rate': 2.7114772196509702e-05, 'epoch': 4.48}
 19%|█▊        | 14653/78504 [8:54:22<28:09:55,  1.59s/it] 19%|█▊        | 14654/78504 [8:54:23<26:33:02,  1.50s/it]                                                          {'loss': 0.1629, 'grad_norm': 1.1513031721115112, 'learning_rate': 2.711434758608976e-05, 'epoch': 4.48}
 19%|█▊        | 14654/78504 [8:54:23<26:33:02,  1.50s/it] 19%|█▊        | 14655/78504 [8:54:24<24:40:30,  1.39s/it]                                                          {'loss': 0.1792, 'grad_norm': 0.7053007483482361, 'learning_rate': 2.7113922975669823e-05, 'epoch': 4.48}
 19%|█▊        | 14655/78504 [8:54:24<24:40:30,  1.39s/it] 19%|█▊        | 14656/78504 [8:54:25<23:09:08,  1.31s/it]                                                          {'loss': 0.1633, 'grad_norm': 0.7904508709907532, 'learning_rate': 2.7113498365249882e-05, 'epoch': 4.48}
 19%|█▊        | 14656/78504 [8:54:25<23:09:08,  1.31s/it] 19%|█▊        | 14657/78504 [8:54:26<21:30:47,  1.21s/it]                                                          {'loss': 0.192, 'grad_norm': 0.992485523223877, 'learning_rate': 2.7113073754829944e-05, 'epoch': 4.48}
 19%|█▊        | 14657/78504 [8:54:26<21:30:47,  1.21s/it] 19%|█▊        | 14658/78504 [8:54:27<19:59:24,  1.13s/it]                                                          {'loss': 0.2166, 'grad_norm': 2.2368431091308594, 'learning_rate': 2.7112649144410006e-05, 'epoch': 4.48}
 19%|█▊        | 14658/78504 [8:54:27<19:59:24,  1.13s/it] 19%|█▊        | 14659/78504 [8:54:28<18:09:49,  1.02s/it]                                                          {'loss': 0.2089, 'grad_norm': 1.5853204727172852, 'learning_rate': 2.7112224533990065e-05, 'epoch': 4.48}
 19%|█▊        | 14659/78504 [8:54:28<18:09:49,  1.02s/it] 19%|█▊        | 14660/78504 [8:54:38<64:25:03,  3.63s/it]                                                          {'loss': 0.1465, 'grad_norm': 0.37052732706069946, 'learning_rate': 2.7111799923570127e-05, 'epoch': 4.48}
 19%|█▊        | 14660/78504 [8:54:38<64:25:03,  3.63s/it] 19%|█▊        | 14661/78504 [8:54:41<62:38:23,  3.53s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.532674252986908, 'learning_rate': 2.7111375313150186e-05, 'epoch': 4.48}
 19%|█▊        | 14661/78504 [8:54:41<62:38:23,  3.53s/it] 19%|█▊        | 14662/78504 [8:54:44<59:42:18,  3.37s/it]                                                          {'loss': 0.0678, 'grad_norm': 0.4104871451854706, 'learning_rate': 2.7110950702730248e-05, 'epoch': 4.48}
 19%|█▊        | 14662/78504 [8:54:44<59:42:18,  3.37s/it] 19%|█▊        | 14663/78504 [8:54:46<55:41:22,  3.14s/it]                                                          {'loss': 0.0847, 'grad_norm': 0.26746463775634766, 'learning_rate': 2.7110526092310306e-05, 'epoch': 4.48}
 19%|█▊        | 14663/78504 [8:54:47<55:41:22,  3.14s/it] 19%|█▊        | 14664/78504 [8:54:49<52:07:39,  2.94s/it]                                                          {'loss': 0.0894, 'grad_norm': 0.3744140565395355, 'learning_rate': 2.711010148189037e-05, 'epoch': 4.48}
 19%|█▊        | 14664/78504 [8:54:49<52:07:39,  2.94s/it] 19%|█▊        | 14665/78504 [8:54:51<48:31:01,  2.74s/it]                                                          {'loss': 0.0449, 'grad_norm': 0.2668428421020508, 'learning_rate': 2.7109676871470427e-05, 'epoch': 4.48}
 19%|█▊        | 14665/78504 [8:54:51<48:31:01,  2.74s/it] 19%|█▊        | 14666/78504 [8:54:54<46:18:31,  2.61s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.46617385745048523, 'learning_rate': 2.710925226105049e-05, 'epoch': 4.48}
 19%|█▊        | 14666/78504 [8:54:54<46:18:31,  2.61s/it] 19%|█▊        | 14667/78504 [8:54:56<43:38:46,  2.46s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.32966530323028564, 'learning_rate': 2.7108827650630548e-05, 'epoch': 4.48}
 19%|█▊        | 14667/78504 [8:54:56<43:38:46,  2.46s/it] 19%|█▊        | 14668/78504 [8:54:58<42:10:22,  2.38s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.29605984687805176, 'learning_rate': 2.710840304021061e-05, 'epoch': 4.48}
 19%|█▊        | 14668/78504 [8:54:58<42:10:22,  2.38s/it] 19%|█▊        | 14669/78504 [8:55:00<40:55:33,  2.31s/it]                                                          {'loss': 0.061, 'grad_norm': 0.49442756175994873, 'learning_rate': 2.710797842979067e-05, 'epoch': 4.48}
 19%|█▊        | 14669/78504 [8:55:00<40:55:33,  2.31s/it] 19%|█▊        | 14670/78504 [8:55:02<39:22:42,  2.22s/it]                                                          {'loss': 0.0846, 'grad_norm': 0.3792601525783539, 'learning_rate': 2.710755381937073e-05, 'epoch': 4.48}
 19%|█▊        | 14670/78504 [8:55:02<39:22:42,  2.22s/it] 19%|█▊        | 14671/78504 [8:55:04<38:05:32,  2.15s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.29025277495384216, 'learning_rate': 2.710712920895079e-05, 'epoch': 4.49}
 19%|█▊        | 14671/78504 [8:55:04<38:05:32,  2.15s/it] 19%|█▊        | 14672/78504 [8:55:06<36:34:29,  2.06s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.4439960718154907, 'learning_rate': 2.7106704598530848e-05, 'epoch': 4.49}
 19%|█▊        | 14672/78504 [8:55:06<36:34:29,  2.06s/it] 19%|█▊        | 14673/78504 [8:55:08<35:21:29,  1.99s/it]                                                          {'loss': 0.1281, 'grad_norm': 0.6261323094367981, 'learning_rate': 2.710627998811091e-05, 'epoch': 4.49}
 19%|█▊        | 14673/78504 [8:55:08<35:21:29,  1.99s/it] 19%|█▊        | 14674/78504 [8:55:09<34:12:40,  1.93s/it]                                                          {'loss': 0.1104, 'grad_norm': 0.8312703371047974, 'learning_rate': 2.710585537769097e-05, 'epoch': 4.49}
 19%|█▊        | 14674/78504 [8:55:09<34:12:40,  1.93s/it] 19%|█▊        | 14675/78504 [8:55:11<32:42:30,  1.84s/it]                                                          {'loss': 0.128, 'grad_norm': 0.6052479147911072, 'learning_rate': 2.710543076727103e-05, 'epoch': 4.49}
 19%|█▊        | 14675/78504 [8:55:11<32:42:30,  1.84s/it] 19%|█▊        | 14676/78504 [8:55:13<31:03:39,  1.75s/it]                                                          {'loss': 0.1741, 'grad_norm': 1.078845739364624, 'learning_rate': 2.710500615685109e-05, 'epoch': 4.49}
 19%|█▊        | 14676/78504 [8:55:13<31:03:39,  1.75s/it] 19%|█▊        | 14677/78504 [8:55:14<29:32:54,  1.67s/it]                                                          {'loss': 0.1862, 'grad_norm': 1.0710182189941406, 'learning_rate': 2.7104581546431152e-05, 'epoch': 4.49}
 19%|█▊        | 14677/78504 [8:55:14<29:32:54,  1.67s/it] 19%|█▊        | 14678/78504 [8:55:16<28:11:01,  1.59s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.6280719637870789, 'learning_rate': 2.710415693601121e-05, 'epoch': 4.49}
 19%|█▊        | 14678/78504 [8:55:16<28:11:01,  1.59s/it] 19%|█▊        | 14679/78504 [8:55:17<26:33:03,  1.50s/it]                                                          {'loss': 0.1733, 'grad_norm': 1.1692910194396973, 'learning_rate': 2.7103732325591273e-05, 'epoch': 4.49}
 19%|█▊        | 14679/78504 [8:55:17<26:33:03,  1.50s/it] 19%|█▊        | 14680/78504 [8:55:18<24:43:48,  1.39s/it]                                                          {'loss': 0.1839, 'grad_norm': 1.2505896091461182, 'learning_rate': 2.710330771517133e-05, 'epoch': 4.49}
 19%|█▊        | 14680/78504 [8:55:18<24:43:48,  1.39s/it] 19%|█▊        | 14681/78504 [8:55:19<23:07:11,  1.30s/it]                                                          {'loss': 0.1987, 'grad_norm': 2.500971555709839, 'learning_rate': 2.7102883104751393e-05, 'epoch': 4.49}
 19%|█▊        | 14681/78504 [8:55:19<23:07:11,  1.30s/it] 19%|█▊        | 14682/78504 [8:55:20<21:31:01,  1.21s/it]                                                          {'loss': 0.1687, 'grad_norm': 2.7866642475128174, 'learning_rate': 2.7102458494331452e-05, 'epoch': 4.49}
 19%|█▊        | 14682/78504 [8:55:20<21:31:01,  1.21s/it] 19%|█▊        | 14683/78504 [8:55:21<20:04:58,  1.13s/it]                                                          {'loss': 0.1928, 'grad_norm': 1.8618919849395752, 'learning_rate': 2.7102033883911514e-05, 'epoch': 4.49}
 19%|█▊        | 14683/78504 [8:55:21<20:04:58,  1.13s/it] 19%|█▊        | 14684/78504 [8:55:22<18:15:41,  1.03s/it]                                                          {'loss': 0.2478, 'grad_norm': 1.9939110279083252, 'learning_rate': 2.7101609273491573e-05, 'epoch': 4.49}
 19%|█▊        | 14684/78504 [8:55:22<18:15:41,  1.03s/it] 19%|█▊        | 14685/78504 [8:55:30<56:02:03,  3.16s/it]                                                          {'loss': 0.1896, 'grad_norm': 0.6005783677101135, 'learning_rate': 2.710118466307163e-05, 'epoch': 4.49}
 19%|█▊        | 14685/78504 [8:55:30<56:02:03,  3.16s/it] 19%|█▊        | 14686/78504 [8:55:33<55:28:57,  3.13s/it]                                                          {'loss': 0.0933, 'grad_norm': 1.2610020637512207, 'learning_rate': 2.7100760052651694e-05, 'epoch': 4.49}
 19%|█▊        | 14686/78504 [8:55:33<55:28:57,  3.13s/it] 19%|█▊        | 14687/78504 [8:55:36<54:40:31,  3.08s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.4526810646057129, 'learning_rate': 2.7100335442231752e-05, 'epoch': 4.49}
 19%|█▊        | 14687/78504 [8:55:36<54:40:31,  3.08s/it] 19%|█▊        | 14688/78504 [8:55:39<52:12:56,  2.95s/it]                                                          {'loss': 0.0615, 'grad_norm': 0.3923143744468689, 'learning_rate': 2.7099910831811815e-05, 'epoch': 4.49}
 19%|█▊        | 14688/78504 [8:55:39<52:12:56,  2.95s/it] 19%|█▊        | 14689/78504 [8:55:41<49:41:13,  2.80s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.18970432877540588, 'learning_rate': 2.7099486221391873e-05, 'epoch': 4.49}
 19%|█▊        | 14689/78504 [8:55:41<49:41:13,  2.80s/it] 19%|█▊        | 14690/78504 [8:55:43<47:43:11,  2.69s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.3835609257221222, 'learning_rate': 2.7099061610971935e-05, 'epoch': 4.49}
 19%|█▊        | 14690/78504 [8:55:43<47:43:11,  2.69s/it] 19%|█▊        | 14691/78504 [8:55:46<45:42:45,  2.58s/it]                                                          {'loss': 0.0473, 'grad_norm': 0.2205372005701065, 'learning_rate': 2.7098637000551994e-05, 'epoch': 4.49}
 19%|█▊        | 14691/78504 [8:55:46<45:42:45,  2.58s/it] 19%|█▊        | 14692/78504 [8:55:48<44:15:27,  2.50s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.48273009061813354, 'learning_rate': 2.7098212390132056e-05, 'epoch': 4.49}
 19%|█▊        | 14692/78504 [8:55:48<44:15:27,  2.50s/it] 19%|█▊        | 14693/78504 [8:55:50<42:38:36,  2.41s/it]                                                          {'loss': 0.059, 'grad_norm': 0.46579504013061523, 'learning_rate': 2.7097787779712115e-05, 'epoch': 4.49}
 19%|█▊        | 14693/78504 [8:55:50<42:38:36,  2.41s/it] 19%|█▊        | 14694/78504 [8:55:52<41:20:50,  2.33s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.5092663764953613, 'learning_rate': 2.7097363169292177e-05, 'epoch': 4.49}
 19%|█▊        | 14694/78504 [8:55:52<41:20:50,  2.33s/it] 19%|█▊        | 14695/78504 [8:55:54<38:49:53,  2.19s/it]                                                          {'loss': 0.107, 'grad_norm': 0.38288551568984985, 'learning_rate': 2.7096938558872236e-05, 'epoch': 4.49}
 19%|█▊        | 14695/78504 [8:55:54<38:49:53,  2.19s/it] 19%|█▊        | 14696/78504 [8:55:56<37:44:01,  2.13s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.2884606122970581, 'learning_rate': 2.7096513948452298e-05, 'epoch': 4.49}
 19%|█▊        | 14696/78504 [8:55:56<37:44:01,  2.13s/it] 19%|█▊        | 14697/78504 [8:55:58<36:39:27,  2.07s/it]                                                          {'loss': 0.094, 'grad_norm': 0.28578463196754456, 'learning_rate': 2.7096089338032356e-05, 'epoch': 4.49}
 19%|█▊        | 14697/78504 [8:55:58<36:39:27,  2.07s/it] 19%|█▊        | 14698/78504 [8:56:00<35:35:19,  2.01s/it]                                                          {'loss': 0.1092, 'grad_norm': 1.162040114402771, 'learning_rate': 2.7095664727612415e-05, 'epoch': 4.49}
 19%|█▊        | 14698/78504 [8:56:00<35:35:19,  2.01s/it] 19%|█▊        | 14699/78504 [8:56:02<34:15:10,  1.93s/it]                                                          {'loss': 0.1158, 'grad_norm': 7.481799125671387, 'learning_rate': 2.7095240117192477e-05, 'epoch': 4.49}
 19%|█▊        | 14699/78504 [8:56:02<34:15:10,  1.93s/it] 19%|█▊        | 14700/78504 [8:56:03<32:44:22,  1.85s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.6691536903381348, 'learning_rate': 2.7094815506772536e-05, 'epoch': 4.49}
 19%|█▊        | 14700/78504 [8:56:04<32:44:22,  1.85s/it] 19%|█▊        | 14701/78504 [8:56:05<31:08:49,  1.76s/it]                                                          {'loss': 0.1737, 'grad_norm': 1.436592936515808, 'learning_rate': 2.7094390896352598e-05, 'epoch': 4.49}
 19%|█▊        | 14701/78504 [8:56:05<31:08:49,  1.76s/it] 19%|█▊        | 14702/78504 [8:56:07<29:35:57,  1.67s/it]                                                          {'loss': 0.1507, 'grad_norm': 0.8436417579650879, 'learning_rate': 2.7093966285932657e-05, 'epoch': 4.49}
 19%|█▊        | 14702/78504 [8:56:07<29:35:57,  1.67s/it] 19%|█▊        | 14703/78504 [8:56:08<28:13:37,  1.59s/it]                                                          {'loss': 0.1768, 'grad_norm': 0.684350311756134, 'learning_rate': 2.709354167551272e-05, 'epoch': 4.49}
 19%|█▊        | 14703/78504 [8:56:08<28:13:37,  1.59s/it] 19%|█▊        | 14704/78504 [8:56:09<26:35:22,  1.50s/it]                                                          {'loss': 0.1694, 'grad_norm': 0.6975675225257874, 'learning_rate': 2.7093117065092777e-05, 'epoch': 4.5}
 19%|█▊        | 14704/78504 [8:56:09<26:35:22,  1.50s/it] 19%|█▊        | 14705/78504 [8:56:10<24:40:48,  1.39s/it]                                                          {'loss': 0.2038, 'grad_norm': 1.6493197679519653, 'learning_rate': 2.709269245467284e-05, 'epoch': 4.5}
 19%|█▊        | 14705/78504 [8:56:10<24:40:48,  1.39s/it] 19%|█▊        | 14706/78504 [8:56:11<23:08:19,  1.31s/it]                                                          {'loss': 0.1725, 'grad_norm': 0.5836867690086365, 'learning_rate': 2.7092267844252898e-05, 'epoch': 4.5}
 19%|█▊        | 14706/78504 [8:56:11<23:08:19,  1.31s/it] 19%|█▊        | 14707/78504 [8:56:12<21:26:40,  1.21s/it]                                                          {'loss': 0.1845, 'grad_norm': 1.0197755098342896, 'learning_rate': 2.709184323383296e-05, 'epoch': 4.5}
 19%|█▊        | 14707/78504 [8:56:12<21:26:40,  1.21s/it] 19%|█▊        | 14708/78504 [8:56:13<19:56:24,  1.13s/it]                                                          {'loss': 0.203, 'grad_norm': 1.1208999156951904, 'learning_rate': 2.709141862341302e-05, 'epoch': 4.5}
 19%|█▊        | 14708/78504 [8:56:13<19:56:24,  1.13s/it] 19%|█▊        | 14709/78504 [8:56:14<18:05:05,  1.02s/it]                                                          {'loss': 0.189, 'grad_norm': 1.0751042366027832, 'learning_rate': 2.709099401299308e-05, 'epoch': 4.5}
 19%|█▊        | 14709/78504 [8:56:14<18:05:05,  1.02s/it] 19%|█▊        | 14710/78504 [8:56:22<52:18:05,  2.95s/it]                                                          {'loss': 0.1295, 'grad_norm': 0.5890744924545288, 'learning_rate': 2.709056940257314e-05, 'epoch': 4.5}
 19%|█▊        | 14710/78504 [8:56:22<52:18:05,  2.95s/it] 19%|█▊        | 14711/78504 [8:56:25<53:14:40,  3.00s/it]                                                          {'loss': 0.0844, 'grad_norm': 0.6536648273468018, 'learning_rate': 2.70901447921532e-05, 'epoch': 4.5}
 19%|█▊        | 14711/78504 [8:56:25<53:14:40,  3.00s/it] 19%|█▊        | 14712/78504 [8:56:27<50:56:41,  2.87s/it]                                                          {'loss': 0.0701, 'grad_norm': 0.4078136682510376, 'learning_rate': 2.708972018173326e-05, 'epoch': 4.5}
 19%|█▊        | 14712/78504 [8:56:27<50:56:41,  2.87s/it] 19%|█▊        | 14713/78504 [8:56:30<49:26:07,  2.79s/it]                                                          {'loss': 0.075, 'grad_norm': 0.3349440395832062, 'learning_rate': 2.708929557131332e-05, 'epoch': 4.5}
 19%|█▊        | 14713/78504 [8:56:30<49:26:07,  2.79s/it] 19%|█▊        | 14714/78504 [8:56:32<47:07:48,  2.66s/it]                                                          {'loss': 0.0524, 'grad_norm': 0.25032681226730347, 'learning_rate': 2.708887096089338e-05, 'epoch': 4.5}
 19%|█▊        | 14714/78504 [8:56:32<47:07:48,  2.66s/it] 19%|█▊        | 14715/78504 [8:56:35<45:01:49,  2.54s/it]                                                          {'loss': 0.0592, 'grad_norm': 0.2766275405883789, 'learning_rate': 2.708844635047344e-05, 'epoch': 4.5}
 19%|█▊        | 14715/78504 [8:56:35<45:01:49,  2.54s/it] 19%|█▊        | 14716/78504 [8:56:37<43:53:20,  2.48s/it]                                                          {'loss': 0.0411, 'grad_norm': 0.2494514286518097, 'learning_rate': 2.7088021740053502e-05, 'epoch': 4.5}
 19%|█▊        | 14716/78504 [8:56:37<43:53:20,  2.48s/it] 19%|█▊        | 14717/78504 [8:56:39<41:50:16,  2.36s/it]                                                          {'loss': 0.0437, 'grad_norm': 0.3997732102870941, 'learning_rate': 2.708759712963356e-05, 'epoch': 4.5}
 19%|█▊        | 14717/78504 [8:56:39<41:50:16,  2.36s/it] 19%|█▊        | 14718/78504 [8:56:41<40:05:23,  2.26s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.473504900932312, 'learning_rate': 2.7087172519213623e-05, 'epoch': 4.5}
 19%|█▊        | 14718/78504 [8:56:41<40:05:23,  2.26s/it] 19%|█▊        | 14719/78504 [8:56:43<39:27:56,  2.23s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.9715701341629028, 'learning_rate': 2.708674790879368e-05, 'epoch': 4.5}
 19%|█▊        | 14719/78504 [8:56:43<39:27:56,  2.23s/it] 19%|█▉        | 14720/78504 [8:56:45<37:30:56,  2.12s/it]                                                          {'loss': 0.1064, 'grad_norm': 2.9738004207611084, 'learning_rate': 2.7086323298373744e-05, 'epoch': 4.5}
 19%|█▉        | 14720/78504 [8:56:45<37:30:56,  2.12s/it] 19%|█▉        | 14721/78504 [8:56:47<36:47:43,  2.08s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.36440402269363403, 'learning_rate': 2.7085898687953802e-05, 'epoch': 4.5}
 19%|█▉        | 14721/78504 [8:56:47<36:47:43,  2.08s/it] 19%|█▉        | 14722/78504 [8:56:49<36:00:22,  2.03s/it]                                                          {'loss': 0.1069, 'grad_norm': 0.3338824510574341, 'learning_rate': 2.7085474077533865e-05, 'epoch': 4.5}
 19%|█▉        | 14722/78504 [8:56:49<36:00:22,  2.03s/it] 19%|█▉        | 14723/78504 [8:56:51<35:08:15,  1.98s/it]                                                          {'loss': 0.0924, 'grad_norm': 0.5944037437438965, 'learning_rate': 2.7085049467113923e-05, 'epoch': 4.5}
 19%|█▉        | 14723/78504 [8:56:51<35:08:15,  1.98s/it] 19%|█▉        | 14724/78504 [8:56:53<33:58:20,  1.92s/it]                                                          {'loss': 0.1082, 'grad_norm': 0.9349799752235413, 'learning_rate': 2.7084624856693982e-05, 'epoch': 4.5}
 19%|█▉        | 14724/78504 [8:56:53<33:58:20,  1.92s/it] 19%|█▉        | 14725/78504 [8:56:54<32:10:51,  1.82s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.5763305425643921, 'learning_rate': 2.7084200246274044e-05, 'epoch': 4.5}
 19%|█▉        | 14725/78504 [8:56:54<32:10:51,  1.82s/it] 19%|█▉        | 14726/78504 [8:56:56<30:44:48,  1.74s/it]                                                          {'loss': 0.1594, 'grad_norm': 0.918502926826477, 'learning_rate': 2.7083775635854103e-05, 'epoch': 4.5}
 19%|█▉        | 14726/78504 [8:56:56<30:44:48,  1.74s/it] 19%|█▉        | 14727/78504 [8:56:57<29:20:33,  1.66s/it]                                                          {'loss': 0.1947, 'grad_norm': 1.1917542219161987, 'learning_rate': 2.7083351025434165e-05, 'epoch': 4.5}
 19%|█▉        | 14727/78504 [8:56:57<29:20:33,  1.66s/it] 19%|█▉        | 14728/78504 [8:56:59<27:56:09,  1.58s/it]                                                          {'loss': 0.1922, 'grad_norm': 0.8161969780921936, 'learning_rate': 2.7082926415014224e-05, 'epoch': 4.5}
 19%|█▉        | 14728/78504 [8:56:59<27:56:09,  1.58s/it] 19%|█▉        | 14729/78504 [8:57:00<26:24:31,  1.49s/it]                                                          {'loss': 0.23, 'grad_norm': 0.8762136101722717, 'learning_rate': 2.7082501804594286e-05, 'epoch': 4.5}
 19%|█▉        | 14729/78504 [8:57:00<26:24:31,  1.49s/it] 19%|█▉        | 14730/78504 [8:57:01<24:36:50,  1.39s/it]                                                          {'loss': 0.1618, 'grad_norm': 2.169820547103882, 'learning_rate': 2.7082077194174344e-05, 'epoch': 4.5}
 19%|█▉        | 14730/78504 [8:57:01<24:36:50,  1.39s/it] 19%|█▉        | 14731/78504 [8:57:02<23:01:19,  1.30s/it]                                                          {'loss': 0.2086, 'grad_norm': 0.7765315175056458, 'learning_rate': 2.7081652583754406e-05, 'epoch': 4.5}
 19%|█▉        | 14731/78504 [8:57:02<23:01:19,  1.30s/it] 19%|█▉        | 14732/78504 [8:57:03<21:38:50,  1.22s/it]                                                          {'loss': 0.1899, 'grad_norm': 1.5260450839996338, 'learning_rate': 2.7081227973334465e-05, 'epoch': 4.5}
 19%|█▉        | 14732/78504 [8:57:03<21:38:50,  1.22s/it] 19%|█▉        | 14733/78504 [8:57:04<20:04:51,  1.13s/it]                                                          {'loss': 0.2158, 'grad_norm': 1.3156319856643677, 'learning_rate': 2.7080803362914527e-05, 'epoch': 4.5}
 19%|█▉        | 14733/78504 [8:57:04<20:04:51,  1.13s/it] 19%|█▉        | 14734/78504 [8:57:05<18:22:25,  1.04s/it]                                                          {'loss': 0.2271, 'grad_norm': 1.8828531503677368, 'learning_rate': 2.7080378752494586e-05, 'epoch': 4.5}
 19%|█▉        | 14734/78504 [8:57:05<18:22:25,  1.04s/it] 19%|█▉        | 14735/78504 [8:57:12<51:42:01,  2.92s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.4742388129234314, 'learning_rate': 2.7079954142074648e-05, 'epoch': 4.5}
 19%|█▉        | 14735/78504 [8:57:12<51:42:01,  2.92s/it] 19%|█▉        | 14736/78504 [8:57:15<51:38:13,  2.92s/it]                                                          {'loss': 0.0712, 'grad_norm': 0.33463945984840393, 'learning_rate': 2.7079529531654707e-05, 'epoch': 4.51}
 19%|█▉        | 14736/78504 [8:57:15<51:38:13,  2.92s/it] 19%|█▉        | 14737/78504 [8:57:18<49:47:30,  2.81s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.3448033630847931, 'learning_rate': 2.7079104921234765e-05, 'epoch': 4.51}
 19%|█▉        | 14737/78504 [8:57:18<49:47:30,  2.81s/it] 19%|█▉        | 14738/78504 [8:57:20<48:45:02,  2.75s/it]                                                          {'loss': 0.064, 'grad_norm': 0.35684654116630554, 'learning_rate': 2.7078680310814827e-05, 'epoch': 4.51}
 19%|█▉        | 14738/78504 [8:57:20<48:45:02,  2.75s/it] 19%|█▉        | 14739/78504 [8:57:23<47:14:57,  2.67s/it]                                                          {'loss': 0.0602, 'grad_norm': 0.2351716309785843, 'learning_rate': 2.7078255700394886e-05, 'epoch': 4.51}
 19%|█▉        | 14739/78504 [8:57:23<47:14:57,  2.67s/it] 19%|█▉        | 14740/78504 [8:57:25<45:05:40,  2.55s/it]                                                          {'loss': 0.0456, 'grad_norm': 0.219261035323143, 'learning_rate': 2.7077831089974948e-05, 'epoch': 4.51}
 19%|█▉        | 14740/78504 [8:57:25<45:05:40,  2.55s/it] 19%|█▉        | 14741/78504 [8:57:27<43:53:05,  2.48s/it]                                                          {'loss': 0.0868, 'grad_norm': 3.1828866004943848, 'learning_rate': 2.7077406479555007e-05, 'epoch': 4.51}
 19%|█▉        | 14741/78504 [8:57:27<43:53:05,  2.48s/it] 19%|█▉        | 14742/78504 [8:57:29<41:49:22,  2.36s/it]                                                          {'loss': 0.0592, 'grad_norm': 0.28527623414993286, 'learning_rate': 2.707698186913507e-05, 'epoch': 4.51}
 19%|█▉        | 14742/78504 [8:57:29<41:49:22,  2.36s/it] 19%|█▉        | 14743/78504 [8:57:32<40:50:28,  2.31s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.2965519428253174, 'learning_rate': 2.7076557258715128e-05, 'epoch': 4.51}
 19%|█▉        | 14743/78504 [8:57:32<40:50:28,  2.31s/it] 19%|█▉        | 14744/78504 [8:57:34<39:59:15,  2.26s/it]                                                          {'loss': 0.0704, 'grad_norm': 0.3076885938644409, 'learning_rate': 2.707613264829519e-05, 'epoch': 4.51}
 19%|█▉        | 14744/78504 [8:57:34<39:59:15,  2.26s/it] 19%|█▉        | 14745/78504 [8:57:36<38:45:24,  2.19s/it]                                                          {'loss': 0.1254, 'grad_norm': 0.5311720371246338, 'learning_rate': 2.707570803787525e-05, 'epoch': 4.51}
 19%|█▉        | 14745/78504 [8:57:36<38:45:24,  2.19s/it] 19%|█▉        | 14746/78504 [8:57:38<37:38:14,  2.13s/it]                                                          {'loss': 0.1038, 'grad_norm': 1.5945791006088257, 'learning_rate': 2.707528342745531e-05, 'epoch': 4.51}
 19%|█▉        | 14746/78504 [8:57:38<37:38:14,  2.13s/it] 19%|█▉        | 14747/78504 [8:57:40<36:21:49,  2.05s/it]                                                          {'loss': 0.1064, 'grad_norm': 0.35260578989982605, 'learning_rate': 2.707485881703537e-05, 'epoch': 4.51}
 19%|█▉        | 14747/78504 [8:57:40<36:21:49,  2.05s/it] 19%|█▉        | 14748/78504 [8:57:41<35:30:19,  2.00s/it]                                                          {'loss': 0.0951, 'grad_norm': 0.6601476669311523, 'learning_rate': 2.707443420661543e-05, 'epoch': 4.51}
 19%|█▉        | 14748/78504 [8:57:41<35:30:19,  2.00s/it] 19%|█▉        | 14749/78504 [8:57:43<34:13:49,  1.93s/it]                                                          {'loss': 0.1735, 'grad_norm': 1.1886520385742188, 'learning_rate': 2.707400959619549e-05, 'epoch': 4.51}
 19%|█▉        | 14749/78504 [8:57:43<34:13:49,  1.93s/it] 19%|█▉        | 14750/78504 [8:57:45<32:21:47,  1.83s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.5027493834495544, 'learning_rate': 2.707358498577555e-05, 'epoch': 4.51}
 19%|█▉        | 14750/78504 [8:57:45<32:21:47,  1.83s/it] 19%|█▉        | 14751/78504 [8:57:46<30:50:33,  1.74s/it]                                                          {'loss': 0.1623, 'grad_norm': 1.3971549272537231, 'learning_rate': 2.707316037535561e-05, 'epoch': 4.51}
 19%|█▉        | 14751/78504 [8:57:46<30:50:33,  1.74s/it] 19%|█▉        | 14752/78504 [8:57:48<29:21:37,  1.66s/it]                                                          {'loss': 0.1671, 'grad_norm': 1.67288076877594, 'learning_rate': 2.707273576493567e-05, 'epoch': 4.51}
 19%|█▉        | 14752/78504 [8:57:48<29:21:37,  1.66s/it] 19%|█▉        | 14753/78504 [8:57:49<28:01:49,  1.58s/it]                                                          {'loss': 0.1761, 'grad_norm': 1.9229497909545898, 'learning_rate': 2.707231115451573e-05, 'epoch': 4.51}
 19%|█▉        | 14753/78504 [8:57:49<28:01:49,  1.58s/it] 19%|█▉        | 14754/78504 [8:57:51<26:25:56,  1.49s/it]                                                          {'loss': 0.152, 'grad_norm': 0.835918128490448, 'learning_rate': 2.707188654409579e-05, 'epoch': 4.51}
 19%|█▉        | 14754/78504 [8:57:51<26:25:56,  1.49s/it] 19%|█▉        | 14755/78504 [8:57:52<24:35:45,  1.39s/it]                                                          {'loss': 0.1886, 'grad_norm': 0.6021867990493774, 'learning_rate': 2.7071461933675852e-05, 'epoch': 4.51}
 19%|█▉        | 14755/78504 [8:57:52<24:35:45,  1.39s/it] 19%|█▉        | 14756/78504 [8:57:53<22:58:55,  1.30s/it]                                                          {'loss': 0.1907, 'grad_norm': 1.0740183591842651, 'learning_rate': 2.707103732325591e-05, 'epoch': 4.51}
 19%|█▉        | 14756/78504 [8:57:53<22:58:55,  1.30s/it] 19%|█▉        | 14757/78504 [8:57:54<21:38:35,  1.22s/it]                                                          {'loss': 0.2025, 'grad_norm': 0.9533546566963196, 'learning_rate': 2.7070612712835973e-05, 'epoch': 4.51}
 19%|█▉        | 14757/78504 [8:57:54<21:38:35,  1.22s/it] 19%|█▉        | 14758/78504 [8:57:55<20:07:04,  1.14s/it]                                                          {'loss': 0.2126, 'grad_norm': 3.2363052368164062, 'learning_rate': 2.7070188102416032e-05, 'epoch': 4.51}
 19%|█▉        | 14758/78504 [8:57:55<20:07:04,  1.14s/it] 19%|█▉        | 14759/78504 [8:57:56<18:20:55,  1.04s/it]                                                          {'loss': 0.2038, 'grad_norm': 1.6013679504394531, 'learning_rate': 2.7069763491996094e-05, 'epoch': 4.51}
 19%|█▉        | 14759/78504 [8:57:56<18:20:55,  1.04s/it] 19%|█▉        | 14760/78504 [8:58:04<55:29:04,  3.13s/it]                                                          {'loss': 0.1538, 'grad_norm': 0.3161483108997345, 'learning_rate': 2.7069338881576156e-05, 'epoch': 4.51}
 19%|█▉        | 14760/78504 [8:58:04<55:29:04,  3.13s/it] 19%|█▉        | 14761/78504 [8:58:07<56:22:31,  3.18s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.26916173100471497, 'learning_rate': 2.7068914271156215e-05, 'epoch': 4.51}
 19%|█▉        | 14761/78504 [8:58:07<56:22:31,  3.18s/it] 19%|█▉        | 14762/78504 [8:58:10<55:26:25,  3.13s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.26968786120414734, 'learning_rate': 2.7068489660736277e-05, 'epoch': 4.51}
 19%|█▉        | 14762/78504 [8:58:10<55:26:25,  3.13s/it] 19%|█▉        | 14763/78504 [8:58:12<52:34:40,  2.97s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.22486186027526855, 'learning_rate': 2.7068065050316336e-05, 'epoch': 4.51}
 19%|█▉        | 14763/78504 [8:58:12<52:34:40,  2.97s/it] 19%|█▉        | 14764/78504 [8:58:15<49:17:46,  2.78s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.6188250780105591, 'learning_rate': 2.7067640439896398e-05, 'epoch': 4.51}
 19%|█▉        | 14764/78504 [8:58:15<49:17:46,  2.78s/it] 19%|█▉        | 14765/78504 [8:58:17<46:31:08,  2.63s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.2628366947174072, 'learning_rate': 2.7067215829476456e-05, 'epoch': 4.51}
 19%|█▉        | 14765/78504 [8:58:17<46:31:08,  2.63s/it] 19%|█▉        | 14766/78504 [8:58:19<44:50:09,  2.53s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.20291449129581451, 'learning_rate': 2.706679121905652e-05, 'epoch': 4.51}
 19%|█▉        | 14766/78504 [8:58:19<44:50:09,  2.53s/it] 19%|█▉        | 14767/78504 [8:58:21<42:36:44,  2.41s/it]                                                          {'loss': 0.0564, 'grad_norm': 0.33971109986305237, 'learning_rate': 2.7066366608636577e-05, 'epoch': 4.51}
 19%|█▉        | 14767/78504 [8:58:22<42:36:44,  2.41s/it] 19%|█▉        | 14768/78504 [8:58:24<41:24:36,  2.34s/it]                                                          {'loss': 0.0769, 'grad_norm': 0.5866163372993469, 'learning_rate': 2.706594199821664e-05, 'epoch': 4.51}
 19%|█▉        | 14768/78504 [8:58:24<41:24:36,  2.34s/it] 19%|█▉        | 14769/78504 [8:58:26<40:21:33,  2.28s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.39589381217956543, 'learning_rate': 2.7065517387796698e-05, 'epoch': 4.52}
 19%|█▉        | 14769/78504 [8:58:26<40:21:33,  2.28s/it] 19%|█▉        | 14770/78504 [8:58:28<38:06:51,  2.15s/it]                                                          {'loss': 0.1217, 'grad_norm': 0.3922659158706665, 'learning_rate': 2.706509277737676e-05, 'epoch': 4.52}
 19%|█▉        | 14770/78504 [8:58:28<38:06:51,  2.15s/it] 19%|█▉        | 14771/78504 [8:58:30<37:12:13,  2.10s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.33495935797691345, 'learning_rate': 2.706466816695682e-05, 'epoch': 4.52}
 19%|█▉        | 14771/78504 [8:58:30<37:12:13,  2.10s/it] 19%|█▉        | 14772/78504 [8:58:32<35:56:39,  2.03s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.27315598726272583, 'learning_rate': 2.706424355653688e-05, 'epoch': 4.52}
 19%|█▉        | 14772/78504 [8:58:32<35:56:39,  2.03s/it] 19%|█▉        | 14773/78504 [8:58:33<34:55:11,  1.97s/it]                                                          {'loss': 0.1206, 'grad_norm': 1.4362210035324097, 'learning_rate': 2.706381894611694e-05, 'epoch': 4.52}
 19%|█▉        | 14773/78504 [8:58:33<34:55:11,  1.97s/it] 19%|█▉        | 14774/78504 [8:58:35<33:36:24,  1.90s/it]                                                          {'loss': 0.109, 'grad_norm': 0.4380008280277252, 'learning_rate': 2.7063394335696998e-05, 'epoch': 4.52}
 19%|█▉        | 14774/78504 [8:58:35<33:36:24,  1.90s/it] 19%|█▉        | 14775/78504 [8:58:37<32:12:39,  1.82s/it]                                                          {'loss': 0.1463, 'grad_norm': 1.35433828830719, 'learning_rate': 2.706296972527706e-05, 'epoch': 4.52}
 19%|█▉        | 14775/78504 [8:58:37<32:12:39,  1.82s/it] 19%|█▉        | 14776/78504 [8:58:38<30:44:04,  1.74s/it]                                                          {'loss': 0.1828, 'grad_norm': 0.5674862265586853, 'learning_rate': 2.706254511485712e-05, 'epoch': 4.52}
 19%|█▉        | 14776/78504 [8:58:38<30:44:04,  1.74s/it] 19%|█▉        | 14777/78504 [8:58:40<29:07:26,  1.65s/it]                                                          {'loss': 0.1679, 'grad_norm': 1.3458890914916992, 'learning_rate': 2.706212050443718e-05, 'epoch': 4.52}
 19%|█▉        | 14777/78504 [8:58:40<29:07:26,  1.65s/it] 19%|█▉        | 14778/78504 [8:58:41<27:53:52,  1.58s/it]                                                          {'loss': 0.1634, 'grad_norm': 1.1777271032333374, 'learning_rate': 2.706169589401724e-05, 'epoch': 4.52}
 19%|█▉        | 14778/78504 [8:58:41<27:53:52,  1.58s/it] 19%|█▉        | 14779/78504 [8:58:42<25:57:57,  1.47s/it]                                                          {'loss': 0.1736, 'grad_norm': 6.521132946014404, 'learning_rate': 2.7061271283597302e-05, 'epoch': 4.52}
 19%|█▉        | 14779/78504 [8:58:42<25:57:57,  1.47s/it] 19%|█▉        | 14780/78504 [8:58:43<24:09:51,  1.37s/it]                                                          {'loss': 0.1722, 'grad_norm': 1.4661821126937866, 'learning_rate': 2.706084667317736e-05, 'epoch': 4.52}
 19%|█▉        | 14780/78504 [8:58:43<24:09:51,  1.37s/it] 19%|█▉        | 14781/78504 [8:58:45<22:43:22,  1.28s/it]                                                          {'loss': 0.2016, 'grad_norm': 0.883078396320343, 'learning_rate': 2.7060422062757423e-05, 'epoch': 4.52}
 19%|█▉        | 14781/78504 [8:58:45<22:43:22,  1.28s/it] 19%|█▉        | 14782/78504 [8:58:46<21:09:32,  1.20s/it]                                                          {'loss': 0.1762, 'grad_norm': 0.8692835569381714, 'learning_rate': 2.705999745233748e-05, 'epoch': 4.52}
 19%|█▉        | 14782/78504 [8:58:46<21:09:32,  1.20s/it] 19%|█▉        | 14783/78504 [8:58:46<19:50:00,  1.12s/it]                                                          {'loss': 0.2196, 'grad_norm': 3.8810338973999023, 'learning_rate': 2.7059572841917543e-05, 'epoch': 4.52}
 19%|█▉        | 14783/78504 [8:58:46<19:50:00,  1.12s/it] 19%|█▉        | 14784/78504 [8:58:47<18:01:10,  1.02s/it]                                                          {'loss': 0.2436, 'grad_norm': 1.8193141222000122, 'learning_rate': 2.7059148231497602e-05, 'epoch': 4.52}
 19%|█▉        | 14784/78504 [8:58:47<18:01:10,  1.02s/it] 19%|█▉        | 14785/78504 [8:58:56<59:49:18,  3.38s/it]                                                          {'loss': 0.1647, 'grad_norm': 0.39066120982170105, 'learning_rate': 2.7058723621077664e-05, 'epoch': 4.52}
 19%|█▉        | 14785/78504 [8:58:56<59:49:18,  3.38s/it] 19%|█▉        | 14786/78504 [8:58:59<58:25:37,  3.30s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.2882489264011383, 'learning_rate': 2.7058299010657723e-05, 'epoch': 4.52}
 19%|█▉        | 14786/78504 [8:58:59<58:25:37,  3.30s/it] 19%|█▉        | 14787/78504 [8:59:02<56:46:19,  3.21s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.1971578299999237, 'learning_rate': 2.705787440023778e-05, 'epoch': 4.52}
 19%|█▉        | 14787/78504 [8:59:02<56:46:19,  3.21s/it] 19%|█▉        | 14788/78504 [8:59:05<53:28:54,  3.02s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.22073523700237274, 'learning_rate': 2.7057449789817844e-05, 'epoch': 4.52}
 19%|█▉        | 14788/78504 [8:59:05<53:28:54,  3.02s/it] 19%|█▉        | 14789/78504 [8:59:07<50:40:26,  2.86s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.22122080624103546, 'learning_rate': 2.7057025179397902e-05, 'epoch': 4.52}
 19%|█▉        | 14789/78504 [8:59:07<50:40:26,  2.86s/it] 19%|█▉        | 14790/78504 [8:59:10<47:58:27,  2.71s/it]                                                          {'loss': 0.0799, 'grad_norm': 0.49878954887390137, 'learning_rate': 2.7056600568977965e-05, 'epoch': 4.52}
 19%|█▉        | 14790/78504 [8:59:10<47:58:27,  2.71s/it] 19%|█▉        | 14791/78504 [8:59:12<45:57:20,  2.60s/it]                                                          {'loss': 0.0516, 'grad_norm': 0.2743287980556488, 'learning_rate': 2.7056175958558023e-05, 'epoch': 4.52}
 19%|█▉        | 14791/78504 [8:59:12<45:57:20,  2.60s/it] 19%|█▉        | 14792/78504 [8:59:14<43:15:52,  2.44s/it]                                                          {'loss': 0.065, 'grad_norm': 0.9782485365867615, 'learning_rate': 2.7055751348138085e-05, 'epoch': 4.52}
 19%|█▉        | 14792/78504 [8:59:14<43:15:52,  2.44s/it] 19%|█▉        | 14793/78504 [8:59:16<41:55:08,  2.37s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.4328322112560272, 'learning_rate': 2.7055326737718144e-05, 'epoch': 4.52}
 19%|█▉        | 14793/78504 [8:59:16<41:55:08,  2.37s/it] 19%|█▉        | 14794/78504 [8:59:18<40:41:43,  2.30s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.22307279706001282, 'learning_rate': 2.7054902127298206e-05, 'epoch': 4.52}
 19%|█▉        | 14794/78504 [8:59:18<40:41:43,  2.30s/it] 19%|█▉        | 14795/78504 [8:59:20<39:06:19,  2.21s/it]                                                          {'loss': 0.0915, 'grad_norm': 0.6302967071533203, 'learning_rate': 2.7054477516878265e-05, 'epoch': 4.52}
 19%|█▉        | 14795/78504 [8:59:20<39:06:19,  2.21s/it] 19%|█▉        | 14796/78504 [8:59:22<37:53:15,  2.14s/it]                                                          {'loss': 0.1008, 'grad_norm': 0.3268224895000458, 'learning_rate': 2.7054052906458327e-05, 'epoch': 4.52}
 19%|█▉        | 14796/78504 [8:59:22<37:53:15,  2.14s/it] 19%|█▉        | 14797/78504 [8:59:24<36:24:52,  2.06s/it]                                                          {'loss': 0.0906, 'grad_norm': 0.6864125728607178, 'learning_rate': 2.7053628296038386e-05, 'epoch': 4.52}
 19%|█▉        | 14797/78504 [8:59:24<36:24:52,  2.06s/it] 19%|█▉        | 14798/78504 [8:59:26<35:12:45,  1.99s/it]                                                          {'loss': 0.1306, 'grad_norm': 0.5060561895370483, 'learning_rate': 2.7053203685618448e-05, 'epoch': 4.52}
 19%|█▉        | 14798/78504 [8:59:26<35:12:45,  1.99s/it] 19%|█▉        | 14799/78504 [8:59:28<34:01:01,  1.92s/it]                                                          {'loss': 0.1218, 'grad_norm': 0.6881362199783325, 'learning_rate': 2.7052779075198506e-05, 'epoch': 4.52}
 19%|█▉        | 14799/78504 [8:59:28<34:01:01,  1.92s/it] 19%|█▉        | 14800/78504 [8:59:30<32:30:28,  1.84s/it]                                                          {'loss': 0.1748, 'grad_norm': 0.5049127340316772, 'learning_rate': 2.7052354464778565e-05, 'epoch': 4.52}
 19%|█▉        | 14800/78504 [8:59:30<32:30:28,  1.84s/it] 19%|█▉        | 14801/78504 [8:59:31<30:48:50,  1.74s/it]                                                          {'loss': 0.1568, 'grad_norm': 0.6985663175582886, 'learning_rate': 2.7051929854358627e-05, 'epoch': 4.52}
 19%|█▉        | 14801/78504 [8:59:31<30:48:50,  1.74s/it] 19%|█▉        | 14802/78504 [8:59:32<29:10:38,  1.65s/it]                                                          {'loss': 0.1607, 'grad_norm': 0.8005124926567078, 'learning_rate': 2.7051505243938686e-05, 'epoch': 4.53}
 19%|█▉        | 14802/78504 [8:59:32<29:10:38,  1.65s/it] 19%|█▉        | 14803/78504 [8:59:34<27:56:12,  1.58s/it]                                                          {'loss': 0.1847, 'grad_norm': 0.6921008229255676, 'learning_rate': 2.7051080633518748e-05, 'epoch': 4.53}
 19%|█▉        | 14803/78504 [8:59:34<27:56:12,  1.58s/it] 19%|█▉        | 14804/78504 [8:59:35<26:25:09,  1.49s/it]                                                          {'loss': 0.2029, 'grad_norm': 1.8891507387161255, 'learning_rate': 2.7050656023098807e-05, 'epoch': 4.53}
 19%|█▉        | 14804/78504 [8:59:35<26:25:09,  1.49s/it] 19%|█▉        | 14805/78504 [8:59:36<24:35:25,  1.39s/it]                                                          {'loss': 0.2008, 'grad_norm': 0.6989970207214355, 'learning_rate': 2.705023141267887e-05, 'epoch': 4.53}
 19%|█▉        | 14805/78504 [8:59:36<24:35:25,  1.39s/it] 19%|█▉        | 14806/78504 [8:59:37<22:59:51,  1.30s/it]                                                          {'loss': 0.1784, 'grad_norm': 1.0183818340301514, 'learning_rate': 2.7049806802258927e-05, 'epoch': 4.53}
 19%|█▉        | 14806/78504 [8:59:37<22:59:51,  1.30s/it] 19%|█▉        | 14807/78504 [8:59:38<21:40:42,  1.23s/it]                                                          {'loss': 0.1979, 'grad_norm': 1.0845355987548828, 'learning_rate': 2.704938219183899e-05, 'epoch': 4.53}
 19%|█▉        | 14807/78504 [8:59:38<21:40:42,  1.23s/it] 19%|█▉        | 14808/78504 [8:59:39<20:07:14,  1.14s/it]                                                          {'loss': 0.2297, 'grad_norm': 1.1368950605392456, 'learning_rate': 2.7048957581419048e-05, 'epoch': 4.53}
 19%|█▉        | 14808/78504 [8:59:39<20:07:14,  1.14s/it] 19%|█▉        | 14809/78504 [8:59:40<18:20:11,  1.04s/it]                                                          {'loss': 0.2534, 'grad_norm': 1.7636812925338745, 'learning_rate': 2.704853297099911e-05, 'epoch': 4.53}
 19%|█▉        | 14809/78504 [8:59:40<18:20:11,  1.04s/it] 19%|█▉        | 14810/78504 [8:59:50<64:42:16,  3.66s/it]                                                          {'loss': 0.1387, 'grad_norm': 0.7931777834892273, 'learning_rate': 2.704810836057917e-05, 'epoch': 4.53}
 19%|█▉        | 14810/78504 [8:59:50<64:42:16,  3.66s/it] 19%|█▉        | 14811/78504 [8:59:53<61:44:31,  3.49s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.26984405517578125, 'learning_rate': 2.704768375015923e-05, 'epoch': 4.53}
 19%|█▉        | 14811/78504 [8:59:53<61:44:31,  3.49s/it] 19%|█▉        | 14812/78504 [8:59:56<58:41:55,  3.32s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.18215540051460266, 'learning_rate': 2.704725913973929e-05, 'epoch': 4.53}
 19%|█▉        | 14812/78504 [8:59:56<58:41:55,  3.32s/it] 19%|█▉        | 14813/78504 [8:59:59<54:44:46,  3.09s/it]                                                          {'loss': 0.0571, 'grad_norm': 1.4925904273986816, 'learning_rate': 2.704683452931935e-05, 'epoch': 4.53}
 19%|█▉        | 14813/78504 [8:59:59<54:44:46,  3.09s/it] 19%|█▉        | 14814/78504 [9:00:01<51:26:34,  2.91s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.2931714653968811, 'learning_rate': 2.704640991889941e-05, 'epoch': 4.53}
 19%|█▉        | 14814/78504 [9:00:01<51:26:34,  2.91s/it] 19%|█▉        | 14815/78504 [9:00:03<48:03:05,  2.72s/it]                                                          {'loss': 0.0415, 'grad_norm': 0.315741628408432, 'learning_rate': 2.704598530847947e-05, 'epoch': 4.53}
 19%|█▉        | 14815/78504 [9:00:03<48:03:05,  2.72s/it] 19%|█▉        | 14816/78504 [9:00:06<45:53:24,  2.59s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.5511412620544434, 'learning_rate': 2.704556069805953e-05, 'epoch': 4.53}
 19%|█▉        | 14816/78504 [9:00:06<45:53:24,  2.59s/it] 19%|█▉        | 14817/78504 [9:00:08<43:21:09,  2.45s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.31155145168304443, 'learning_rate': 2.704513608763959e-05, 'epoch': 4.53}
 19%|█▉        | 14817/78504 [9:00:08<43:21:09,  2.45s/it] 19%|█▉        | 14818/78504 [9:00:10<41:55:39,  2.37s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.47198551893234253, 'learning_rate': 2.7044711477219652e-05, 'epoch': 4.53}
 19%|█▉        | 14818/78504 [9:00:10<41:55:39,  2.37s/it] 19%|█▉        | 14819/78504 [9:00:12<40:43:06,  2.30s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.32094088196754456, 'learning_rate': 2.704428686679971e-05, 'epoch': 4.53}
 19%|█▉        | 14819/78504 [9:00:12<40:43:06,  2.30s/it] 19%|█▉        | 14820/78504 [9:00:14<39:16:01,  2.22s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.2514004111289978, 'learning_rate': 2.7043862256379773e-05, 'epoch': 4.53}
 19%|█▉        | 14820/78504 [9:00:14<39:16:01,  2.22s/it] 19%|█▉        | 14821/78504 [9:00:16<37:58:54,  2.15s/it]                                                          {'loss': 0.0448, 'grad_norm': 0.3013887107372284, 'learning_rate': 2.704343764595983e-05, 'epoch': 4.53}
 19%|█▉        | 14821/78504 [9:00:16<37:58:54,  2.15s/it] 19%|█▉        | 14822/78504 [9:00:18<36:33:57,  2.07s/it]                                                          {'loss': 0.0918, 'grad_norm': 0.6414461135864258, 'learning_rate': 2.7043013035539894e-05, 'epoch': 4.53}
 19%|█▉        | 14822/78504 [9:00:18<36:33:57,  2.07s/it] 19%|█▉        | 14823/78504 [9:00:20<35:32:57,  2.01s/it]                                                          {'loss': 0.1316, 'grad_norm': 0.9852994084358215, 'learning_rate': 2.7042588425119952e-05, 'epoch': 4.53}
 19%|█▉        | 14823/78504 [9:00:20<35:32:57,  2.01s/it] 19%|█▉        | 14824/78504 [9:00:22<34:02:10,  1.92s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.5713377594947815, 'learning_rate': 2.7042163814700015e-05, 'epoch': 4.53}
 19%|█▉        | 14824/78504 [9:00:22<34:02:10,  1.92s/it] 19%|█▉        | 14825/78504 [9:00:23<32:34:01,  1.84s/it]                                                          {'loss': 0.1503, 'grad_norm': 0.3797421157360077, 'learning_rate': 2.7041739204280073e-05, 'epoch': 4.53}
 19%|█▉        | 14825/78504 [9:00:23<32:34:01,  1.84s/it] 19%|█▉        | 14826/78504 [9:00:25<30:59:22,  1.75s/it]                                                          {'loss': 0.1339, 'grad_norm': 0.6027655601501465, 'learning_rate': 2.7041314593860132e-05, 'epoch': 4.53}
 19%|█▉        | 14826/78504 [9:00:25<30:59:22,  1.75s/it] 19%|█▉        | 14827/78504 [9:00:26<29:15:05,  1.65s/it]                                                          {'loss': 0.187, 'grad_norm': 0.6524612307548523, 'learning_rate': 2.7040889983440194e-05, 'epoch': 4.53}
 19%|█▉        | 14827/78504 [9:00:26<29:15:05,  1.65s/it] 19%|█▉        | 14828/78504 [9:00:28<27:57:12,  1.58s/it]                                                          {'loss': 0.1618, 'grad_norm': 0.7371341586112976, 'learning_rate': 2.7040465373020253e-05, 'epoch': 4.53}
 19%|█▉        | 14828/78504 [9:00:28<27:57:12,  1.58s/it] 19%|█▉        | 14829/78504 [9:00:29<26:03:57,  1.47s/it]                                                          {'loss': 0.1758, 'grad_norm': 0.9278116226196289, 'learning_rate': 2.7040040762600315e-05, 'epoch': 4.53}
 19%|█▉        | 14829/78504 [9:00:29<26:03:57,  1.47s/it] 19%|█▉        | 14830/78504 [9:00:30<24:22:23,  1.38s/it]                                                          {'loss': 0.2073, 'grad_norm': 0.5187748670578003, 'learning_rate': 2.7039616152180374e-05, 'epoch': 4.53}
 19%|█▉        | 14830/78504 [9:00:30<24:22:23,  1.38s/it] 19%|█▉        | 14831/78504 [9:00:31<22:53:27,  1.29s/it]                                                          {'loss': 0.2052, 'grad_norm': 1.463538408279419, 'learning_rate': 2.7039191541760436e-05, 'epoch': 4.53}
 19%|█▉        | 14831/78504 [9:00:31<22:53:27,  1.29s/it] 19%|█▉        | 14832/78504 [9:00:32<21:16:59,  1.20s/it]                                                          {'loss': 0.2131, 'grad_norm': 0.9562026858329773, 'learning_rate': 2.7038766931340494e-05, 'epoch': 4.53}
 19%|█▉        | 14832/78504 [9:00:32<21:16:59,  1.20s/it] 19%|█▉        | 14833/78504 [9:00:33<19:46:16,  1.12s/it]                                                          {'loss': 0.1654, 'grad_norm': 1.1933927536010742, 'learning_rate': 2.7038342320920556e-05, 'epoch': 4.53}
 19%|█▉        | 14833/78504 [9:00:33<19:46:16,  1.12s/it] 19%|█▉        | 14834/78504 [9:00:34<17:52:05,  1.01s/it]                                                          {'loss': 0.2772, 'grad_norm': 1.7027921676635742, 'learning_rate': 2.7037917710500615e-05, 'epoch': 4.54}
 19%|█▉        | 14834/78504 [9:00:34<17:52:05,  1.01s/it] 19%|█▉        | 14835/78504 [9:00:42<56:41:00,  3.21s/it]                                                          {'loss': 0.1493, 'grad_norm': 0.4133804738521576, 'learning_rate': 2.7037493100080677e-05, 'epoch': 4.54}
 19%|█▉        | 14835/78504 [9:00:42<56:41:00,  3.21s/it] 19%|█▉        | 14836/78504 [9:00:45<56:12:52,  3.18s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.2961902916431427, 'learning_rate': 2.7037068489660736e-05, 'epoch': 4.54}
 19%|█▉        | 14836/78504 [9:00:45<56:12:52,  3.18s/it] 19%|█▉        | 14837/78504 [9:00:48<53:00:43,  3.00s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.5693686008453369, 'learning_rate': 2.7036643879240798e-05, 'epoch': 4.54}
 19%|█▉        | 14837/78504 [9:00:48<53:00:43,  3.00s/it] 19%|█▉        | 14838/78504 [9:00:50<50:57:36,  2.88s/it]                                                          {'loss': 0.0553, 'grad_norm': 0.20612819492816925, 'learning_rate': 2.7036219268820857e-05, 'epoch': 4.54}
 19%|█▉        | 14838/78504 [9:00:50<50:57:36,  2.88s/it] 19%|█▉        | 14839/78504 [9:00:53<48:45:22,  2.76s/it]                                                          {'loss': 0.0506, 'grad_norm': 0.33406367897987366, 'learning_rate': 2.7035794658400915e-05, 'epoch': 4.54}
 19%|█▉        | 14839/78504 [9:00:53<48:45:22,  2.76s/it] 19%|█▉        | 14840/78504 [9:00:55<46:08:03,  2.61s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.4911133050918579, 'learning_rate': 2.7035370047980977e-05, 'epoch': 4.54}
 19%|█▉        | 14840/78504 [9:00:55<46:08:03,  2.61s/it] 19%|█▉        | 14841/78504 [9:00:57<44:36:46,  2.52s/it]                                                          {'loss': 0.0612, 'grad_norm': 0.6341552138328552, 'learning_rate': 2.7034945437561036e-05, 'epoch': 4.54}
 19%|█▉        | 14841/78504 [9:00:57<44:36:46,  2.52s/it] 19%|█▉        | 14842/78504 [9:00:59<42:18:08,  2.39s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.6239396929740906, 'learning_rate': 2.7034520827141098e-05, 'epoch': 4.54}
 19%|█▉        | 14842/78504 [9:00:59<42:18:08,  2.39s/it] 19%|█▉        | 14843/78504 [9:01:02<41:11:24,  2.33s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.21840937435626984, 'learning_rate': 2.7034096216721157e-05, 'epoch': 4.54}
 19%|█▉        | 14843/78504 [9:01:02<41:11:24,  2.33s/it] 19%|█▉        | 14844/78504 [9:01:04<40:13:03,  2.27s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.31200864911079407, 'learning_rate': 2.703367160630122e-05, 'epoch': 4.54}
 19%|█▉        | 14844/78504 [9:01:04<40:13:03,  2.27s/it] 19%|█▉        | 14845/78504 [9:01:06<38:52:57,  2.20s/it]                                                          {'loss': 0.1237, 'grad_norm': 0.5030868649482727, 'learning_rate': 2.7033246995881278e-05, 'epoch': 4.54}
 19%|█▉        | 14845/78504 [9:01:06<38:52:57,  2.20s/it] 19%|█▉        | 14846/78504 [9:01:08<37:43:31,  2.13s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.3357924520969391, 'learning_rate': 2.703282238546134e-05, 'epoch': 4.54}
 19%|█▉        | 14846/78504 [9:01:08<37:43:31,  2.13s/it] 19%|█▉        | 14847/78504 [9:01:10<36:17:32,  2.05s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.4850807189941406, 'learning_rate': 2.70323977750414e-05, 'epoch': 4.54}
 19%|█▉        | 14847/78504 [9:01:10<36:17:32,  2.05s/it] 19%|█▉        | 14848/78504 [9:01:12<35:18:16,  2.00s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.9268652200698853, 'learning_rate': 2.703197316462146e-05, 'epoch': 4.54}
 19%|█▉        | 14848/78504 [9:01:12<35:18:16,  2.00s/it] 19%|█▉        | 14849/78504 [9:01:13<33:52:09,  1.92s/it]                                                          {'loss': 0.1165, 'grad_norm': 0.522497296333313, 'learning_rate': 2.703154855420152e-05, 'epoch': 4.54}
 19%|█▉        | 14849/78504 [9:01:13<33:52:09,  1.92s/it] 19%|█▉        | 14850/78504 [9:01:15<32:28:14,  1.84s/it]                                                          {'loss': 0.1256, 'grad_norm': 0.6166905164718628, 'learning_rate': 2.703112394378158e-05, 'epoch': 4.54}
 19%|█▉        | 14850/78504 [9:01:15<32:28:14,  1.84s/it] 19%|█▉        | 14851/78504 [9:01:16<30:51:51,  1.75s/it]                                                          {'loss': 0.1547, 'grad_norm': 0.48097914457321167, 'learning_rate': 2.703069933336164e-05, 'epoch': 4.54}
 19%|█▉        | 14851/78504 [9:01:16<30:51:51,  1.75s/it] 19%|█▉        | 14852/78504 [9:01:18<29:11:16,  1.65s/it]                                                          {'loss': 0.1453, 'grad_norm': 1.7278571128845215, 'learning_rate': 2.70302747229417e-05, 'epoch': 4.54}
 19%|█▉        | 14852/78504 [9:01:18<29:11:16,  1.65s/it] 19%|█▉        | 14853/78504 [9:01:19<27:55:26,  1.58s/it]                                                          {'loss': 0.1538, 'grad_norm': 0.4890095591545105, 'learning_rate': 2.702985011252176e-05, 'epoch': 4.54}
 19%|█▉        | 14853/78504 [9:01:19<27:55:26,  1.58s/it] 19%|█▉        | 14854/78504 [9:01:21<26:22:06,  1.49s/it]                                                          {'loss': 0.1852, 'grad_norm': 0.6399084329605103, 'learning_rate': 2.702942550210182e-05, 'epoch': 4.54}
 19%|█▉        | 14854/78504 [9:01:21<26:22:06,  1.49s/it] 19%|█▉        | 14855/78504 [9:01:22<24:30:43,  1.39s/it]                                                          {'loss': 0.2181, 'grad_norm': 1.4783660173416138, 'learning_rate': 2.7029000891681882e-05, 'epoch': 4.54}
 19%|█▉        | 14855/78504 [9:01:22<24:30:43,  1.39s/it] 19%|█▉        | 14856/78504 [9:01:23<22:57:03,  1.30s/it]                                                          {'loss': 0.2099, 'grad_norm': 0.9138280749320984, 'learning_rate': 2.702857628126194e-05, 'epoch': 4.54}
 19%|█▉        | 14856/78504 [9:01:23<22:57:03,  1.30s/it] 19%|█▉        | 14857/78504 [9:01:24<21:19:10,  1.21s/it]                                                          {'loss': 0.1746, 'grad_norm': 0.9538041949272156, 'learning_rate': 2.7028151670842002e-05, 'epoch': 4.54}
 19%|█▉        | 14857/78504 [9:01:24<21:19:10,  1.21s/it] 19%|█▉        | 14858/78504 [9:01:25<19:54:56,  1.13s/it]                                                          {'loss': 0.1922, 'grad_norm': 1.2266292572021484, 'learning_rate': 2.702772706042206e-05, 'epoch': 4.54}
 19%|█▉        | 14858/78504 [9:01:25<19:54:56,  1.13s/it] 19%|█▉        | 14859/78504 [9:01:25<17:54:52,  1.01s/it]                                                          {'loss': 0.2388, 'grad_norm': 1.1527867317199707, 'learning_rate': 2.7027302450002123e-05, 'epoch': 4.54}
 19%|█▉        | 14859/78504 [9:01:26<17:54:52,  1.01s/it] 19%|█▉        | 14860/78504 [9:01:34<58:16:32,  3.30s/it]                                                          {'loss': 0.1532, 'grad_norm': 0.5505346059799194, 'learning_rate': 2.7026877839582182e-05, 'epoch': 4.54}
 19%|█▉        | 14860/78504 [9:01:34<58:16:32,  3.30s/it] 19%|█▉        | 14861/78504 [9:01:37<57:13:33,  3.24s/it]                                                          {'loss': 0.075, 'grad_norm': 0.3910045623779297, 'learning_rate': 2.7026453229162244e-05, 'epoch': 4.54}
 19%|█▉        | 14861/78504 [9:01:37<57:13:33,  3.24s/it] 19%|█▉        | 14862/78504 [9:01:40<55:32:30,  3.14s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.314776748418808, 'learning_rate': 2.7026028618742306e-05, 'epoch': 4.54}
 19%|█▉        | 14862/78504 [9:01:40<55:32:30,  3.14s/it] 19%|█▉        | 14863/78504 [9:01:43<52:07:47,  2.95s/it]                                                          {'loss': 0.0667, 'grad_norm': 0.3686797618865967, 'learning_rate': 2.7025604008322368e-05, 'epoch': 4.54}
 19%|█▉        | 14863/78504 [9:01:43<52:07:47,  2.95s/it] 19%|█▉        | 14864/78504 [9:01:45<49:33:33,  2.80s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.2034263163805008, 'learning_rate': 2.7025179397902427e-05, 'epoch': 4.54}
 19%|█▉        | 14864/78504 [9:01:45<49:33:33,  2.80s/it] 19%|█▉        | 14865/78504 [9:01:47<46:43:24,  2.64s/it]                                                          {'loss': 0.0652, 'grad_norm': 0.18224723637104034, 'learning_rate': 2.7024754787482486e-05, 'epoch': 4.54}
 19%|█▉        | 14865/78504 [9:01:47<46:43:24,  2.64s/it] 19%|█▉        | 14866/78504 [9:01:50<44:57:53,  2.54s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.5696367621421814, 'learning_rate': 2.7024330177062548e-05, 'epoch': 4.54}
 19%|█▉        | 14866/78504 [9:01:50<44:57:53,  2.54s/it] 19%|█▉        | 14867/78504 [9:01:52<42:33:52,  2.41s/it]                                                          {'loss': 0.0697, 'grad_norm': 0.5601726174354553, 'learning_rate': 2.7023905566642606e-05, 'epoch': 4.55}
 19%|█▉        | 14867/78504 [9:01:52<42:33:52,  2.41s/it] 19%|█▉        | 14868/78504 [9:01:54<40:35:02,  2.30s/it]                                                          {'loss': 0.0818, 'grad_norm': 0.4659078121185303, 'learning_rate': 2.702348095622267e-05, 'epoch': 4.55}
 19%|█▉        | 14868/78504 [9:01:54<40:35:02,  2.30s/it] 19%|█▉        | 14869/78504 [9:01:56<39:42:34,  2.25s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.3706096410751343, 'learning_rate': 2.7023056345802727e-05, 'epoch': 4.55}
 19%|█▉        | 14869/78504 [9:01:56<39:42:34,  2.25s/it] 19%|█▉        | 14870/78504 [9:01:58<38:24:29,  2.17s/it]                                                          {'loss': 0.0874, 'grad_norm': 0.2835104763507843, 'learning_rate': 2.702263173538279e-05, 'epoch': 4.55}
 19%|█▉        | 14870/78504 [9:01:58<38:24:29,  2.17s/it] 19%|█▉        | 14871/78504 [9:02:00<37:06:53,  2.10s/it]                                                          {'loss': 0.092, 'grad_norm': 0.5863632559776306, 'learning_rate': 2.7022207124962848e-05, 'epoch': 4.55}
 19%|█▉        | 14871/78504 [9:02:00<37:06:53,  2.10s/it] 19%|█▉        | 14872/78504 [9:02:02<35:53:23,  2.03s/it]                                                          {'loss': 0.0964, 'grad_norm': 1.002048373222351, 'learning_rate': 2.702178251454291e-05, 'epoch': 4.55}
 19%|█▉        | 14872/78504 [9:02:02<35:53:23,  2.03s/it] 19%|█▉        | 14873/78504 [9:02:04<34:51:53,  1.97s/it]                                                          {'loss': 0.1245, 'grad_norm': 0.598137378692627, 'learning_rate': 2.702135790412297e-05, 'epoch': 4.55}
 19%|█▉        | 14873/78504 [9:02:04<34:51:53,  1.97s/it] 19%|█▉        | 14874/78504 [9:02:05<33:35:44,  1.90s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.41773661971092224, 'learning_rate': 2.702093329370303e-05, 'epoch': 4.55}
 19%|█▉        | 14874/78504 [9:02:05<33:35:44,  1.90s/it] 19%|█▉        | 14875/78504 [9:02:07<32:13:31,  1.82s/it]                                                          {'loss': 0.1226, 'grad_norm': 1.2518714666366577, 'learning_rate': 2.702050868328309e-05, 'epoch': 4.55}
 19%|█▉        | 14875/78504 [9:02:07<32:13:31,  1.82s/it] 19%|█▉        | 14876/78504 [9:02:08<30:37:04,  1.73s/it]                                                          {'loss': 0.1664, 'grad_norm': 0.5120351314544678, 'learning_rate': 2.702008407286315e-05, 'epoch': 4.55}
 19%|█▉        | 14876/78504 [9:02:08<30:37:04,  1.73s/it] 19%|█▉        | 14877/78504 [9:02:10<29:00:33,  1.64s/it]                                                          {'loss': 0.1688, 'grad_norm': 0.5585694909095764, 'learning_rate': 2.701965946244321e-05, 'epoch': 4.55}
 19%|█▉        | 14877/78504 [9:02:10<29:00:33,  1.64s/it] 19%|█▉        | 14878/78504 [9:02:11<27:46:00,  1.57s/it]                                                          {'loss': 0.1772, 'grad_norm': 0.9118504524230957, 'learning_rate': 2.701923485202327e-05, 'epoch': 4.55}
 19%|█▉        | 14878/78504 [9:02:11<27:46:00,  1.57s/it] 19%|█▉        | 14879/78504 [9:02:13<26:13:33,  1.48s/it]                                                          {'loss': 0.2184, 'grad_norm': 1.1457693576812744, 'learning_rate': 2.701881024160333e-05, 'epoch': 4.55}
 19%|█▉        | 14879/78504 [9:02:13<26:13:33,  1.48s/it] 19%|█▉        | 14880/78504 [9:02:14<24:21:37,  1.38s/it]                                                          {'loss': 0.1931, 'grad_norm': 1.2347692251205444, 'learning_rate': 2.701838563118339e-05, 'epoch': 4.55}
 19%|█▉        | 14880/78504 [9:02:14<24:21:37,  1.38s/it] 19%|█▉        | 14881/78504 [9:02:15<22:53:25,  1.30s/it]                                                          {'loss': 0.1997, 'grad_norm': 1.580915927886963, 'learning_rate': 2.7017961020763452e-05, 'epoch': 4.55}
 19%|█▉        | 14881/78504 [9:02:15<22:53:25,  1.30s/it] 19%|█▉        | 14882/78504 [9:02:16<21:18:38,  1.21s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.5547152757644653, 'learning_rate': 2.701753641034351e-05, 'epoch': 4.55}
 19%|█▉        | 14882/78504 [9:02:16<21:18:38,  1.21s/it] 19%|█▉        | 14883/78504 [9:02:17<19:51:45,  1.12s/it]                                                          {'loss': 0.1943, 'grad_norm': 1.2903021574020386, 'learning_rate': 2.7017111799923573e-05, 'epoch': 4.55}
 19%|█▉        | 14883/78504 [9:02:17<19:51:45,  1.12s/it] 19%|█▉        | 14884/78504 [9:02:18<18:01:16,  1.02s/it]                                                          {'loss': 0.2621, 'grad_norm': 3.3250350952148438, 'learning_rate': 2.701668718950363e-05, 'epoch': 4.55}
 19%|█▉        | 14884/78504 [9:02:18<18:01:16,  1.02s/it] 19%|█▉        | 14885/78504 [9:02:27<61:39:39,  3.49s/it]                                                          {'loss': 0.1105, 'grad_norm': 0.4999689757823944, 'learning_rate': 2.7016262579083694e-05, 'epoch': 4.55}
 19%|█▉        | 14885/78504 [9:02:27<61:39:39,  3.49s/it] 19%|█▉        | 14886/78504 [9:02:30<60:26:00,  3.42s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.3333258032798767, 'learning_rate': 2.7015837968663752e-05, 'epoch': 4.55}
 19%|█▉        | 14886/78504 [9:02:30<60:26:00,  3.42s/it] 19%|█▉        | 14887/78504 [9:02:33<58:15:41,  3.30s/it]                                                          {'loss': 0.1186, 'grad_norm': 0.5079188942909241, 'learning_rate': 2.7015413358243814e-05, 'epoch': 4.55}
 19%|█▉        | 14887/78504 [9:02:33<58:15:41,  3.30s/it] 19%|█▉        | 14888/78504 [9:02:36<54:37:29,  3.09s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.24999099969863892, 'learning_rate': 2.7014988747823873e-05, 'epoch': 4.55}
 19%|█▉        | 14888/78504 [9:02:36<54:37:29,  3.09s/it] 19%|█▉        | 14889/78504 [9:02:38<51:19:43,  2.90s/it]                                                          {'loss': 0.0554, 'grad_norm': 1.154921293258667, 'learning_rate': 2.7014564137403932e-05, 'epoch': 4.55}
 19%|█▉        | 14889/78504 [9:02:38<51:19:43,  2.90s/it] 19%|█▉        | 14890/78504 [9:02:40<47:53:46,  2.71s/it]                                                          {'loss': 0.0448, 'grad_norm': 0.6944872140884399, 'learning_rate': 2.7014139526983994e-05, 'epoch': 4.55}
 19%|█▉        | 14890/78504 [9:02:40<47:53:46,  2.71s/it] 19%|█▉        | 14891/78504 [9:02:43<45:48:51,  2.59s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.2704637944698334, 'learning_rate': 2.7013714916564052e-05, 'epoch': 4.55}
 19%|█▉        | 14891/78504 [9:02:43<45:48:51,  2.59s/it] 19%|█▉        | 14892/78504 [9:02:45<43:14:48,  2.45s/it]                                                          {'loss': 0.0852, 'grad_norm': 0.44853100180625916, 'learning_rate': 2.7013290306144115e-05, 'epoch': 4.55}
 19%|█▉        | 14892/78504 [9:02:45<43:14:48,  2.45s/it] 19%|█▉        | 14893/78504 [9:02:47<41:50:25,  2.37s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.34047186374664307, 'learning_rate': 2.7012865695724173e-05, 'epoch': 4.55}
 19%|█▉        | 14893/78504 [9:02:47<41:50:25,  2.37s/it] 19%|█▉        | 14894/78504 [9:02:49<40:45:40,  2.31s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.30823782086372375, 'learning_rate': 2.7012441085304235e-05, 'epoch': 4.55}
 19%|█▉        | 14894/78504 [9:02:49<40:45:40,  2.31s/it] 19%|█▉        | 14895/78504 [9:02:51<38:20:11,  2.17s/it]                                                          {'loss': 0.1039, 'grad_norm': 0.4286544919013977, 'learning_rate': 2.7012016474884294e-05, 'epoch': 4.55}
 19%|█▉        | 14895/78504 [9:02:51<38:20:11,  2.17s/it] 19%|█▉        | 14896/78504 [9:02:53<37:21:03,  2.11s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.5385163426399231, 'learning_rate': 2.7011591864464356e-05, 'epoch': 4.55}
 19%|█▉        | 14896/78504 [9:02:53<37:21:03,  2.11s/it] 19%|█▉        | 14897/78504 [9:02:55<36:20:04,  2.06s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.7024672627449036, 'learning_rate': 2.7011167254044415e-05, 'epoch': 4.55}
 19%|█▉        | 14897/78504 [9:02:55<36:20:04,  2.06s/it] 19%|█▉        | 14898/78504 [9:02:57<35:16:58,  2.00s/it]                                                          {'loss': 0.1154, 'grad_norm': 0.3335869014263153, 'learning_rate': 2.7010742643624477e-05, 'epoch': 4.55}
 19%|█▉        | 14898/78504 [9:02:57<35:16:58,  2.00s/it] 19%|█▉        | 14899/78504 [9:02:59<34:02:24,  1.93s/it]                                                          {'loss': 0.0911, 'grad_norm': 0.7063404321670532, 'learning_rate': 2.7010318033204536e-05, 'epoch': 4.55}
 19%|█▉        | 14899/78504 [9:02:59<34:02:24,  1.93s/it] 19%|█▉        | 14900/78504 [9:03:00<32:34:48,  1.84s/it]                                                          {'loss': 0.127, 'grad_norm': 0.32749080657958984, 'learning_rate': 2.7009893422784598e-05, 'epoch': 4.56}
 19%|█▉        | 14900/78504 [9:03:00<32:34:48,  1.84s/it] 19%|█▉        | 14901/78504 [9:03:02<30:56:17,  1.75s/it]                                                          {'loss': 0.1923, 'grad_norm': 0.8630606532096863, 'learning_rate': 2.7009468812364656e-05, 'epoch': 4.56}
 19%|█▉        | 14901/78504 [9:03:02<30:56:17,  1.75s/it] 19%|█▉        | 14902/78504 [9:03:03<29:24:12,  1.66s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.4955720901489258, 'learning_rate': 2.7009044201944715e-05, 'epoch': 4.56}
 19%|█▉        | 14902/78504 [9:03:03<29:24:12,  1.66s/it] 19%|█▉        | 14903/78504 [9:03:05<28:04:52,  1.59s/it]                                                          {'loss': 0.2111, 'grad_norm': 0.6138044595718384, 'learning_rate': 2.7008619591524777e-05, 'epoch': 4.56}
 19%|█▉        | 14903/78504 [9:03:05<28:04:52,  1.59s/it] 19%|█▉        | 14904/78504 [9:03:06<26:26:25,  1.50s/it]                                                          {'loss': 0.1741, 'grad_norm': 0.6516501307487488, 'learning_rate': 2.7008194981104836e-05, 'epoch': 4.56}
 19%|█▉        | 14904/78504 [9:03:06<26:26:25,  1.50s/it] 19%|█▉        | 14905/78504 [9:03:07<24:33:21,  1.39s/it]                                                          {'loss': 0.2289, 'grad_norm': 0.9500826001167297, 'learning_rate': 2.7007770370684898e-05, 'epoch': 4.56}
 19%|█▉        | 14905/78504 [9:03:07<24:33:21,  1.39s/it] 19%|█▉        | 14906/78504 [9:03:08<23:01:20,  1.30s/it]                                                          {'loss': 0.1931, 'grad_norm': 0.6472358107566833, 'learning_rate': 2.7007345760264957e-05, 'epoch': 4.56}
 19%|█▉        | 14906/78504 [9:03:08<23:01:20,  1.30s/it] 19%|█▉        | 14907/78504 [9:03:09<21:21:15,  1.21s/it]                                                          {'loss': 0.1822, 'grad_norm': 0.9247979521751404, 'learning_rate': 2.700692114984502e-05, 'epoch': 4.56}
 19%|█▉        | 14907/78504 [9:03:09<21:21:15,  1.21s/it] 19%|█▉        | 14908/78504 [9:03:10<19:57:00,  1.13s/it]                                                          {'loss': 0.18, 'grad_norm': 0.9206299185752869, 'learning_rate': 2.7006496539425078e-05, 'epoch': 4.56}
 19%|█▉        | 14908/78504 [9:03:10<19:57:00,  1.13s/it] 19%|█▉        | 14909/78504 [9:03:11<18:09:41,  1.03s/it]                                                          {'loss': 0.2321, 'grad_norm': 2.778468370437622, 'learning_rate': 2.700607192900514e-05, 'epoch': 4.56}
 19%|█▉        | 14909/78504 [9:03:11<18:09:41,  1.03s/it] 19%|█▉        | 14910/78504 [9:03:19<58:29:22,  3.31s/it]                                                          {'loss': 0.1582, 'grad_norm': 0.31127992272377014, 'learning_rate': 2.7005647318585198e-05, 'epoch': 4.56}
 19%|█▉        | 14910/78504 [9:03:19<58:29:22,  3.31s/it] 19%|█▉        | 14911/78504 [9:03:23<58:42:30,  3.32s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.2955670654773712, 'learning_rate': 2.700522270816526e-05, 'epoch': 4.56}
 19%|█▉        | 14911/78504 [9:03:23<58:42:30,  3.32s/it] 19%|█▉        | 14912/78504 [9:03:26<57:03:40,  3.23s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.3444644808769226, 'learning_rate': 2.700479809774532e-05, 'epoch': 4.56}
 19%|█▉        | 14912/78504 [9:03:26<57:03:40,  3.23s/it] 19%|█▉        | 14913/78504 [9:03:28<53:39:32,  3.04s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.1735016405582428, 'learning_rate': 2.700437348732538e-05, 'epoch': 4.56}
 19%|█▉        | 14913/78504 [9:03:28<53:39:32,  3.04s/it] 19%|█▉        | 14914/78504 [9:03:31<50:38:08,  2.87s/it]                                                          {'loss': 0.0473, 'grad_norm': 0.19415093958377838, 'learning_rate': 2.700394887690544e-05, 'epoch': 4.56}
 19%|█▉        | 14914/78504 [9:03:31<50:38:08,  2.87s/it] 19%|█▉        | 14915/78504 [9:03:33<48:19:03,  2.74s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.3808739483356476, 'learning_rate': 2.70035242664855e-05, 'epoch': 4.56}
 19%|█▉        | 14915/78504 [9:03:33<48:19:03,  2.74s/it] 19%|█▉        | 14916/78504 [9:03:36<46:05:47,  2.61s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.40080592036247253, 'learning_rate': 2.700309965606556e-05, 'epoch': 4.56}
 19%|█▉        | 14916/78504 [9:03:36<46:05:47,  2.61s/it] 19%|█▉        | 14917/78504 [9:03:38<43:21:52,  2.46s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.2668180763721466, 'learning_rate': 2.700267504564562e-05, 'epoch': 4.56}
 19%|█▉        | 14917/78504 [9:03:38<43:21:52,  2.46s/it] 19%|█▉        | 14918/78504 [9:03:40<41:55:03,  2.37s/it]                                                          {'loss': 0.0476, 'grad_norm': 0.5147748589515686, 'learning_rate': 2.700225043522568e-05, 'epoch': 4.56}
 19%|█▉        | 14918/78504 [9:03:40<41:55:03,  2.37s/it] 19%|█▉        | 14919/78504 [9:03:42<40:42:41,  2.30s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.2653060853481293, 'learning_rate': 2.700182582480574e-05, 'epoch': 4.56}
 19%|█▉        | 14919/78504 [9:03:42<40:42:41,  2.30s/it] 19%|█▉        | 14920/78504 [9:03:44<39:14:51,  2.22s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.39520612359046936, 'learning_rate': 2.7001401214385802e-05, 'epoch': 4.56}
 19%|█▉        | 14920/78504 [9:03:44<39:14:51,  2.22s/it] 19%|█▉        | 14921/78504 [9:03:46<37:56:55,  2.15s/it]                                                          {'loss': 0.0881, 'grad_norm': 1.7614059448242188, 'learning_rate': 2.700097660396586e-05, 'epoch': 4.56}
 19%|█▉        | 14921/78504 [9:03:46<37:56:55,  2.15s/it] 19%|█▉        | 14922/78504 [9:03:48<36:27:21,  2.06s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.2555614411830902, 'learning_rate': 2.7000551993545923e-05, 'epoch': 4.56}
 19%|█▉        | 14922/78504 [9:03:48<36:27:21,  2.06s/it] 19%|█▉        | 14923/78504 [9:03:50<35:26:09,  2.01s/it]                                                          {'loss': 0.1352, 'grad_norm': 0.5330464839935303, 'learning_rate': 2.7000127383125982e-05, 'epoch': 4.56}
 19%|█▉        | 14923/78504 [9:03:50<35:26:09,  2.01s/it] 19%|█▉        | 14924/78504 [9:03:52<33:55:59,  1.92s/it]                                                          {'loss': 0.1164, 'grad_norm': 0.5741540789604187, 'learning_rate': 2.6999702772706044e-05, 'epoch': 4.56}
 19%|█▉        | 14924/78504 [9:03:52<33:55:59,  1.92s/it] 19%|█▉        | 14925/78504 [9:03:53<32:28:35,  1.84s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.9640870690345764, 'learning_rate': 2.6999278162286103e-05, 'epoch': 4.56}
 19%|█▉        | 14925/78504 [9:03:53<32:28:35,  1.84s/it] 19%|█▉        | 14926/78504 [9:03:55<30:54:26,  1.75s/it]                                                          {'loss': 0.1592, 'grad_norm': 0.5625866651535034, 'learning_rate': 2.6998853551866165e-05, 'epoch': 4.56}
 19%|█▉        | 14926/78504 [9:03:55<30:54:26,  1.75s/it] 19%|█▉        | 14927/78504 [9:03:56<29:23:44,  1.66s/it]                                                          {'loss': 0.1756, 'grad_norm': 0.972978949546814, 'learning_rate': 2.6998428941446223e-05, 'epoch': 4.56}
 19%|█▉        | 14927/78504 [9:03:56<29:23:44,  1.66s/it] 19%|█▉        | 14928/78504 [9:03:58<28:04:24,  1.59s/it]                                                          {'loss': 0.1849, 'grad_norm': 0.9643951058387756, 'learning_rate': 2.6998004331026282e-05, 'epoch': 4.56}
 19%|█▉        | 14928/78504 [9:03:58<28:04:24,  1.59s/it] 19%|█▉        | 14929/78504 [9:03:59<26:30:03,  1.50s/it]                                                          {'loss': 0.1711, 'grad_norm': 0.6974555253982544, 'learning_rate': 2.6997579720606344e-05, 'epoch': 4.56}
 19%|█▉        | 14929/78504 [9:03:59<26:30:03,  1.50s/it] 19%|█▉        | 14930/78504 [9:04:00<24:36:37,  1.39s/it]                                                          {'loss': 0.1685, 'grad_norm': 1.5074429512023926, 'learning_rate': 2.6997155110186403e-05, 'epoch': 4.56}
 19%|█▉        | 14930/78504 [9:04:00<24:36:37,  1.39s/it] 19%|█▉        | 14931/78504 [9:04:01<23:01:34,  1.30s/it]                                                          {'loss': 0.1864, 'grad_norm': 1.2557170391082764, 'learning_rate': 2.6996730499766465e-05, 'epoch': 4.56}
 19%|█▉        | 14931/78504 [9:04:01<23:01:34,  1.30s/it] 19%|█▉        | 14932/78504 [9:04:02<21:39:45,  1.23s/it]                                                          {'loss': 0.1926, 'grad_norm': 1.0719654560089111, 'learning_rate': 2.6996305889346524e-05, 'epoch': 4.56}
 19%|█▉        | 14932/78504 [9:04:02<21:39:45,  1.23s/it] 19%|█▉        | 14933/78504 [9:04:03<20:03:20,  1.14s/it]                                                          {'loss': 0.2365, 'grad_norm': 1.0041496753692627, 'learning_rate': 2.6995881278926586e-05, 'epoch': 4.57}
 19%|█▉        | 14933/78504 [9:04:03<20:03:20,  1.14s/it] 19%|█▉        | 14934/78504 [9:04:04<18:12:32,  1.03s/it]                                                          {'loss': 0.2212, 'grad_norm': 1.2809662818908691, 'learning_rate': 2.6995456668506644e-05, 'epoch': 4.57}
 19%|█▉        | 14934/78504 [9:04:04<18:12:32,  1.03s/it] 19%|█▉        | 14935/78504 [9:04:13<60:46:24,  3.44s/it]                                                          {'loss': 0.1272, 'grad_norm': 0.6069086790084839, 'learning_rate': 2.6995032058086706e-05, 'epoch': 4.57}
 19%|█▉        | 14935/78504 [9:04:13<60:46:24,  3.44s/it] 19%|█▉        | 14936/78504 [9:04:16<59:07:30,  3.35s/it]                                                          {'loss': 0.0727, 'grad_norm': 0.2804504930973053, 'learning_rate': 2.6994607447666765e-05, 'epoch': 4.57}
 19%|█▉        | 14936/78504 [9:04:16<59:07:30,  3.35s/it] 19%|█▉        | 14937/78504 [9:04:19<57:22:15,  3.25s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.3524111211299896, 'learning_rate': 2.6994182837246827e-05, 'epoch': 4.57}
 19%|█▉        | 14937/78504 [9:04:19<57:22:15,  3.25s/it] 19%|█▉        | 14938/78504 [9:04:22<53:59:31,  3.06s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.32603222131729126, 'learning_rate': 2.6993758226826886e-05, 'epoch': 4.57}
 19%|█▉        | 14938/78504 [9:04:22<53:59:31,  3.06s/it] 19%|█▉        | 14939/78504 [9:04:24<50:16:23,  2.85s/it]                                                          {'loss': 0.0509, 'grad_norm': 0.2473733276128769, 'learning_rate': 2.6993333616406948e-05, 'epoch': 4.57}
 19%|█▉        | 14939/78504 [9:04:24<50:16:23,  2.85s/it] 19%|█▉        | 14940/78504 [9:04:26<47:09:28,  2.67s/it]                                                          {'loss': 0.0761, 'grad_norm': 0.30418989062309265, 'learning_rate': 2.6992909005987007e-05, 'epoch': 4.57}
 19%|█▉        | 14940/78504 [9:04:26<47:09:28,  2.67s/it] 19%|█▉        | 14941/78504 [9:04:29<45:17:52,  2.57s/it]                                                          {'loss': 0.0477, 'grad_norm': 0.35203853249549866, 'learning_rate': 2.6992484395567065e-05, 'epoch': 4.57}
 19%|█▉        | 14941/78504 [9:04:29<45:17:52,  2.57s/it] 19%|█▉        | 14942/78504 [9:04:31<42:46:25,  2.42s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.46780863404273987, 'learning_rate': 2.6992059785147128e-05, 'epoch': 4.57}
 19%|█▉        | 14942/78504 [9:04:31<42:46:25,  2.42s/it] 19%|█▉        | 14943/78504 [9:04:33<40:43:20,  2.31s/it]                                                          {'loss': 0.104, 'grad_norm': 0.42103323340415955, 'learning_rate': 2.6991635174727186e-05, 'epoch': 4.57}
 19%|█▉        | 14943/78504 [9:04:33<40:43:20,  2.31s/it] 19%|█▉        | 14944/78504 [9:04:35<39:47:45,  2.25s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.3064846694469452, 'learning_rate': 2.6991210564307248e-05, 'epoch': 4.57}
 19%|█▉        | 14944/78504 [9:04:35<39:47:45,  2.25s/it] 19%|█▉        | 14945/78504 [9:04:37<38:24:23,  2.18s/it]                                                          {'loss': 0.0928, 'grad_norm': 0.4001339077949524, 'learning_rate': 2.6990785953887307e-05, 'epoch': 4.57}
 19%|█▉        | 14945/78504 [9:04:37<38:24:23,  2.18s/it] 19%|█▉        | 14946/78504 [9:04:39<37:24:07,  2.12s/it]                                                          {'loss': 0.0866, 'grad_norm': 0.5763856768608093, 'learning_rate': 2.699036134346737e-05, 'epoch': 4.57}
 19%|█▉        | 14946/78504 [9:04:39<37:24:07,  2.12s/it] 19%|█▉        | 14947/78504 [9:04:41<36:02:30,  2.04s/it]                                                          {'loss': 0.0807, 'grad_norm': 0.35504984855651855, 'learning_rate': 2.6989936733047428e-05, 'epoch': 4.57}
 19%|█▉        | 14947/78504 [9:04:41<36:02:30,  2.04s/it] 19%|█▉        | 14948/78504 [9:04:43<35:10:10,  1.99s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.5493974685668945, 'learning_rate': 2.698951212262749e-05, 'epoch': 4.57}
 19%|█▉        | 14948/78504 [9:04:43<35:10:10,  1.99s/it] 19%|█▉        | 14949/78504 [9:04:44<33:58:42,  1.92s/it]                                                          {'loss': 0.12, 'grad_norm': 0.6327942609786987, 'learning_rate': 2.698908751220755e-05, 'epoch': 4.57}
 19%|█▉        | 14949/78504 [9:04:44<33:58:42,  1.92s/it] 19%|█▉        | 14950/78504 [9:04:46<32:31:58,  1.84s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.41471877694129944, 'learning_rate': 2.698866290178761e-05, 'epoch': 4.57}
 19%|█▉        | 14950/78504 [9:04:46<32:31:58,  1.84s/it] 19%|█▉        | 14951/78504 [9:04:48<30:55:59,  1.75s/it]                                                          {'loss': 0.1938, 'grad_norm': 1.077652096748352, 'learning_rate': 2.698823829136767e-05, 'epoch': 4.57}
 19%|█▉        | 14951/78504 [9:04:48<30:55:59,  1.75s/it] 19%|█▉        | 14952/78504 [9:04:49<29:25:36,  1.67s/it]                                                          {'loss': 0.1428, 'grad_norm': 0.4237973690032959, 'learning_rate': 2.698781368094773e-05, 'epoch': 4.57}
 19%|█▉        | 14952/78504 [9:04:49<29:25:36,  1.67s/it] 19%|█▉        | 14953/78504 [9:04:50<27:54:18,  1.58s/it]                                                          {'loss': 0.2036, 'grad_norm': 0.48982328176498413, 'learning_rate': 2.698738907052779e-05, 'epoch': 4.57}
 19%|█▉        | 14953/78504 [9:04:50<27:54:18,  1.58s/it] 19%|█▉        | 14954/78504 [9:04:52<26:17:41,  1.49s/it]                                                          {'loss': 0.1769, 'grad_norm': 2.5601966381073, 'learning_rate': 2.698696446010785e-05, 'epoch': 4.57}
 19%|█▉        | 14954/78504 [9:04:52<26:17:41,  1.49s/it] 19%|█▉        | 14955/78504 [9:04:53<24:46:02,  1.40s/it]                                                          {'loss': 0.1813, 'grad_norm': 0.831434965133667, 'learning_rate': 2.698653984968791e-05, 'epoch': 4.57}
 19%|█▉        | 14955/78504 [9:04:53<24:46:02,  1.40s/it] 19%|█▉        | 14956/78504 [9:04:54<23:07:43,  1.31s/it]                                                          {'loss': 0.1873, 'grad_norm': 1.0109599828720093, 'learning_rate': 2.698611523926797e-05, 'epoch': 4.57}
 19%|█▉        | 14956/78504 [9:04:54<23:07:43,  1.31s/it] 19%|█▉        | 14957/78504 [9:04:55<21:46:13,  1.23s/it]                                                          {'loss': 0.2264, 'grad_norm': 0.9640165567398071, 'learning_rate': 2.6985690628848032e-05, 'epoch': 4.57}
 19%|█▉        | 14957/78504 [9:04:55<21:46:13,  1.23s/it] 19%|█▉        | 14958/78504 [9:04:56<20:07:34,  1.14s/it]                                                          {'loss': 0.2108, 'grad_norm': 0.7435038685798645, 'learning_rate': 2.698526601842809e-05, 'epoch': 4.57}
 19%|█▉        | 14958/78504 [9:04:56<20:07:34,  1.14s/it] 19%|█▉        | 14959/78504 [9:04:57<18:12:52,  1.03s/it]                                                          {'loss': 0.2791, 'grad_norm': 2.236658811569214, 'learning_rate': 2.6984841408008153e-05, 'epoch': 4.57}
 19%|█▉        | 14959/78504 [9:04:57<18:12:52,  1.03s/it] 19%|█▉        | 14960/78504 [9:05:04<52:12:51,  2.96s/it]                                                          {'loss': 0.1284, 'grad_norm': 0.49283018708229065, 'learning_rate': 2.698441679758821e-05, 'epoch': 4.57}
 19%|█▉        | 14960/78504 [9:05:04<52:12:51,  2.96s/it] 19%|█▉        | 14961/78504 [9:05:07<53:10:11,  3.01s/it]                                                          {'loss': 0.0851, 'grad_norm': 0.20558547973632812, 'learning_rate': 2.6983992187168273e-05, 'epoch': 4.57}
 19%|█▉        | 14961/78504 [9:05:07<53:10:11,  3.01s/it] 19%|█▉        | 14962/78504 [9:05:10<52:44:10,  2.99s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.21827438473701477, 'learning_rate': 2.6983567576748332e-05, 'epoch': 4.57}
 19%|█▉        | 14962/78504 [9:05:10<52:44:10,  2.99s/it] 19%|█▉        | 14963/78504 [9:05:13<50:35:01,  2.87s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.2595449686050415, 'learning_rate': 2.6983142966328394e-05, 'epoch': 4.57}
 19%|█▉        | 14963/78504 [9:05:13<50:35:01,  2.87s/it] 19%|█▉        | 14964/78504 [9:05:15<48:30:11,  2.75s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.18963636457920074, 'learning_rate': 2.6982718355908453e-05, 'epoch': 4.57}
 19%|█▉        | 14964/78504 [9:05:15<48:30:11,  2.75s/it] 19%|█▉        | 14965/78504 [9:05:18<46:49:11,  2.65s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.3720925748348236, 'learning_rate': 2.6982293745488515e-05, 'epoch': 4.58}
 19%|█▉        | 14965/78504 [9:05:18<46:49:11,  2.65s/it] 19%|█▉        | 14966/78504 [9:05:20<45:01:14,  2.55s/it]                                                          {'loss': 0.0419, 'grad_norm': 0.7021269798278809, 'learning_rate': 2.6981869135068577e-05, 'epoch': 4.58}
 19%|█▉        | 14966/78504 [9:05:20<45:01:14,  2.55s/it] 19%|█▉        | 14967/78504 [9:05:22<43:45:37,  2.48s/it]                                                          {'loss': 0.079, 'grad_norm': 0.23062840104103088, 'learning_rate': 2.6981444524648636e-05, 'epoch': 4.58}
 19%|█▉        | 14967/78504 [9:05:22<43:45:37,  2.48s/it] 19%|█▉        | 14968/78504 [9:05:25<42:14:24,  2.39s/it]                                                          {'loss': 0.0619, 'grad_norm': 0.3909221589565277, 'learning_rate': 2.6981019914228698e-05, 'epoch': 4.58}
 19%|█▉        | 14968/78504 [9:05:25<42:14:24,  2.39s/it] 19%|█▉        | 14969/78504 [9:05:27<41:04:11,  2.33s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.35167932510375977, 'learning_rate': 2.6980595303808756e-05, 'epoch': 4.58}
 19%|█▉        | 14969/78504 [9:05:27<41:04:11,  2.33s/it] 19%|█▉        | 14970/78504 [9:05:29<38:34:16,  2.19s/it]                                                          {'loss': 0.093, 'grad_norm': 0.37443622946739197, 'learning_rate': 2.698017069338882e-05, 'epoch': 4.58}
 19%|█▉        | 14970/78504 [9:05:29<38:34:16,  2.19s/it] 19%|█▉        | 14971/78504 [9:05:31<37:29:45,  2.12s/it]                                                          {'loss': 0.092, 'grad_norm': 0.2960302233695984, 'learning_rate': 2.6979746082968877e-05, 'epoch': 4.58}
 19%|█▉        | 14971/78504 [9:05:31<37:29:45,  2.12s/it] 19%|█▉        | 14972/78504 [9:05:32<36:14:35,  2.05s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.2280861884355545, 'learning_rate': 2.697932147254894e-05, 'epoch': 4.58}
 19%|█▉        | 14972/78504 [9:05:33<36:14:35,  2.05s/it] 19%|█▉        | 14973/78504 [9:05:34<35:17:15,  2.00s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.45881927013397217, 'learning_rate': 2.6978896862128998e-05, 'epoch': 4.58}
 19%|█▉        | 14973/78504 [9:05:34<35:17:15,  2.00s/it] 19%|█▉        | 14974/78504 [9:05:36<34:00:23,  1.93s/it]                                                          {'loss': 0.1726, 'grad_norm': 0.8559582829475403, 'learning_rate': 2.697847225170906e-05, 'epoch': 4.58}
 19%|█▉        | 14974/78504 [9:05:36<34:00:23,  1.93s/it] 19%|█▉        | 14975/78504 [9:05:38<32:10:14,  1.82s/it]                                                          {'loss': 0.1345, 'grad_norm': 0.6454943418502808, 'learning_rate': 2.697804764128912e-05, 'epoch': 4.58}
 19%|█▉        | 14975/78504 [9:05:38<32:10:14,  1.82s/it] 19%|█▉        | 14976/78504 [9:05:39<30:41:32,  1.74s/it]                                                          {'loss': 0.1661, 'grad_norm': 0.40975528955459595, 'learning_rate': 2.697762303086918e-05, 'epoch': 4.58}
 19%|█▉        | 14976/78504 [9:05:39<30:41:32,  1.74s/it] 19%|█▉        | 14977/78504 [9:05:41<29:14:54,  1.66s/it]                                                          {'loss': 0.1721, 'grad_norm': 1.1681833267211914, 'learning_rate': 2.697719842044924e-05, 'epoch': 4.58}
 19%|█▉        | 14977/78504 [9:05:41<29:14:54,  1.66s/it] 19%|█▉        | 14978/78504 [9:05:42<27:46:12,  1.57s/it]                                                          {'loss': 0.18, 'grad_norm': 1.1271781921386719, 'learning_rate': 2.6976773810029302e-05, 'epoch': 4.58}
 19%|█▉        | 14978/78504 [9:05:42<27:46:12,  1.57s/it] 19%|█▉        | 14979/78504 [9:05:43<26:12:40,  1.49s/it]                                                          {'loss': 0.177, 'grad_norm': 0.9664425253868103, 'learning_rate': 2.697634919960936e-05, 'epoch': 4.58}
 19%|█▉        | 14979/78504 [9:05:43<26:12:40,  1.49s/it] 19%|█▉        | 14980/78504 [9:05:45<24:26:31,  1.39s/it]                                                          {'loss': 0.2033, 'grad_norm': 0.6236177086830139, 'learning_rate': 2.697592458918942e-05, 'epoch': 4.58}
 19%|█▉        | 14980/78504 [9:05:45<24:26:31,  1.39s/it] 19%|█▉        | 14981/78504 [9:05:46<22:50:23,  1.29s/it]                                                          {'loss': 0.1812, 'grad_norm': 1.2009315490722656, 'learning_rate': 2.697549997876948e-05, 'epoch': 4.58}
 19%|█▉        | 14981/78504 [9:05:46<22:50:23,  1.29s/it] 19%|█▉        | 14982/78504 [9:05:47<21:30:46,  1.22s/it]                                                          {'loss': 0.1974, 'grad_norm': 1.392148494720459, 'learning_rate': 2.697507536834954e-05, 'epoch': 4.58}
 19%|█▉        | 14982/78504 [9:05:47<21:30:46,  1.22s/it] 19%|█▉        | 14983/78504 [9:05:48<19:58:57,  1.13s/it]                                                          {'loss': 0.1906, 'grad_norm': 0.8505409955978394, 'learning_rate': 2.6974650757929602e-05, 'epoch': 4.58}
 19%|█▉        | 14983/78504 [9:05:48<19:58:57,  1.13s/it] 19%|█▉        | 14984/78504 [9:05:48<18:06:11,  1.03s/it]                                                          {'loss': 0.2498, 'grad_norm': 1.0854783058166504, 'learning_rate': 2.697422614750966e-05, 'epoch': 4.58}
 19%|█▉        | 14984/78504 [9:05:48<18:06:11,  1.03s/it] 19%|█▉        | 14985/78504 [9:05:57<59:35:08,  3.38s/it]                                                          {'loss': 0.136, 'grad_norm': 0.5763256549835205, 'learning_rate': 2.6973801537089723e-05, 'epoch': 4.58}
 19%|█▉        | 14985/78504 [9:05:57<59:35:08,  3.38s/it] 19%|█▉        | 14986/78504 [9:06:01<59:26:03,  3.37s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.2716992199420929, 'learning_rate': 2.697337692666978e-05, 'epoch': 4.58}
 19%|█▉        | 14986/78504 [9:06:01<59:26:03,  3.37s/it] 19%|█▉        | 14987/78504 [9:06:03<57:03:49,  3.23s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.30716681480407715, 'learning_rate': 2.6972952316249844e-05, 'epoch': 4.58}
 19%|█▉        | 14987/78504 [9:06:03<57:03:49,  3.23s/it] 19%|█▉        | 14988/78504 [9:06:06<53:36:25,  3.04s/it]                                                          {'loss': 0.065, 'grad_norm': 1.1491304636001587, 'learning_rate': 2.6972527705829902e-05, 'epoch': 4.58}
 19%|█▉        | 14988/78504 [9:06:06<53:36:25,  3.04s/it] 19%|█▉        | 14989/78504 [9:06:09<50:42:23,  2.87s/it]                                                          {'loss': 0.0628, 'grad_norm': 0.2500634789466858, 'learning_rate': 2.6972103095409964e-05, 'epoch': 4.58}
 19%|█▉        | 14989/78504 [9:06:09<50:42:23,  2.87s/it] 19%|█▉        | 14990/78504 [9:06:11<48:28:47,  2.75s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.639246940612793, 'learning_rate': 2.6971678484990023e-05, 'epoch': 4.58}
 19%|█▉        | 14990/78504 [9:06:11<48:28:47,  2.75s/it] 19%|█▉        | 14991/78504 [9:06:13<46:11:42,  2.62s/it]                                                          {'loss': 0.0911, 'grad_norm': 0.34211477637290955, 'learning_rate': 2.6971253874570085e-05, 'epoch': 4.58}
 19%|█▉        | 14991/78504 [9:06:13<46:11:42,  2.62s/it] 19%|█▉        | 14992/78504 [9:06:16<44:31:30,  2.52s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.868474006652832, 'learning_rate': 2.6970829264150144e-05, 'epoch': 4.58}
 19%|█▉        | 14992/78504 [9:06:16<44:31:30,  2.52s/it] 19%|█▉        | 14993/78504 [9:06:18<42:42:57,  2.42s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.23038412630558014, 'learning_rate': 2.6970404653730203e-05, 'epoch': 4.58}
 19%|█▉        | 14993/78504 [9:06:18<42:42:57,  2.42s/it] 19%|█▉        | 14994/78504 [9:06:20<41:19:50,  2.34s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.31389015913009644, 'learning_rate': 2.6969980043310265e-05, 'epoch': 4.58}
 19%|█▉        | 14994/78504 [9:06:20<41:19:50,  2.34s/it] 19%|█▉        | 14995/78504 [9:06:22<38:48:08,  2.20s/it]                                                          {'loss': 0.1133, 'grad_norm': 0.4099172055721283, 'learning_rate': 2.6969555432890323e-05, 'epoch': 4.58}
 19%|█▉        | 14995/78504 [9:06:22<38:48:08,  2.20s/it] 19%|█▉        | 14996/78504 [9:06:24<37:40:35,  2.14s/it]                                                          {'loss': 0.09, 'grad_norm': 0.34988707304000854, 'learning_rate': 2.6969130822470385e-05, 'epoch': 4.58}
 19%|█▉        | 14996/78504 [9:06:24<37:40:35,  2.14s/it] 19%|█▉        | 14997/78504 [9:06:26<36:30:13,  2.07s/it]                                                          {'loss': 0.1021, 'grad_norm': 0.3698484003543854, 'learning_rate': 2.6968706212050444e-05, 'epoch': 4.58}
 19%|█▉        | 14997/78504 [9:06:26<36:30:13,  2.07s/it] 19%|█▉        | 14998/78504 [9:06:28<35:24:43,  2.01s/it]                                                          {'loss': 0.1323, 'grad_norm': 0.4871501922607422, 'learning_rate': 2.6968281601630506e-05, 'epoch': 4.59}
 19%|█▉        | 14998/78504 [9:06:28<35:24:43,  2.01s/it] 19%|█▉        | 14999/78504 [9:06:29<34:06:56,  1.93s/it]                                                          {'loss': 0.1211, 'grad_norm': 0.8304914832115173, 'learning_rate': 2.6967856991210565e-05, 'epoch': 4.59}
 19%|█▉        | 14999/78504 [9:06:29<34:06:56,  1.93s/it] 19%|█▉        | 15000/78504 [9:06:31<32:35:46,  1.85s/it]                                                          {'loss': 0.1586, 'grad_norm': 0.3969796299934387, 'learning_rate': 2.6967432380790627e-05, 'epoch': 4.59}
 19%|█▉        | 15000/78504 [9:06:31<32:35:46,  1.85s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.89it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.70it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.82it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.11it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.54it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.58it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.82it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.18it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.41it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.58it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.28it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                          
                                               [A{'eval_loss': 0.240526020526886, 'eval_wer': 0.33351023714421385, 'eval_cer': 0.18941551285828068, 'eval_runtime': 19.1934, 'eval_samples_per_second': 236.435, 'eval_steps_per_second': 0.782, 'epoch': 4.59}
 19%|█▉        | 15000/78504 [9:07:36<32:35:46,  1.85s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-15000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-14000] due to args.save_total_limit
 19%|█▉        | 15001/78504 [9:07:52<451:09:27, 25.58s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.6260948181152344, 'learning_rate': 2.6967007770370686e-05, 'epoch': 4.59}
 19%|█▉        | 15001/78504 [9:07:52<451:09:27, 25.58s/it] 19%|█▉        | 15002/78504 [9:07:53<323:15:55, 18.33s/it]                                                           {'loss': 0.1742, 'grad_norm': 0.5781628489494324, 'learning_rate': 2.6966583159950748e-05, 'epoch': 4.59}
 19%|█▉        | 15002/78504 [9:07:53<323:15:55, 18.33s/it] 19%|█▉        | 15003/78504 [9:07:55<233:41:06, 13.25s/it]                                                           {'loss': 0.2109, 'grad_norm': 0.5682535171508789, 'learning_rate': 2.6966158549530806e-05, 'epoch': 4.59}
 19%|█▉        | 15003/78504 [9:07:55<233:41:06, 13.25s/it] 19%|█▉        | 15004/78504 [9:07:56<169:58:29,  9.64s/it]                                                           {'loss': 0.1972, 'grad_norm': 1.506842017173767, 'learning_rate': 2.6965733939110865e-05, 'epoch': 4.59}
 19%|█▉        | 15004/78504 [9:07:56<169:58:29,  9.64s/it] 19%|█▉        | 15005/78504 [9:07:57<125:02:35,  7.09s/it]                                                           {'loss': 0.1575, 'grad_norm': 1.0217894315719604, 'learning_rate': 2.6965309328690927e-05, 'epoch': 4.59}
 19%|█▉        | 15005/78504 [9:07:57<125:02:35,  7.09s/it] 19%|█▉        | 15006/78504 [9:07:58<93:17:19,  5.29s/it]                                                           {'loss': 0.2213, 'grad_norm': 4.185604095458984, 'learning_rate': 2.6964884718270986e-05, 'epoch': 4.59}
 19%|█▉        | 15006/78504 [9:07:58<93:17:19,  5.29s/it] 19%|█▉        | 15007/78504 [9:07:59<70:28:41,  4.00s/it]                                                          {'loss': 0.2096, 'grad_norm': 1.4952973127365112, 'learning_rate': 2.6964460107851048e-05, 'epoch': 4.59}
 19%|█▉        | 15007/78504 [9:07:59<70:28:41,  4.00s/it] 19%|█▉        | 15008/78504 [9:08:00<54:13:50,  3.07s/it]                                                          {'loss': 0.1957, 'grad_norm': 1.0874594449996948, 'learning_rate': 2.6964035497431107e-05, 'epoch': 4.59}
 19%|█▉        | 15008/78504 [9:08:00<54:13:50,  3.07s/it] 19%|█▉        | 15009/78504 [9:08:01<41:57:19,  2.38s/it]                                                          {'loss': 0.2458, 'grad_norm': 0.8711608648300171, 'learning_rate': 2.696361088701117e-05, 'epoch': 4.59}
 19%|█▉        | 15009/78504 [9:08:01<41:57:19,  2.38s/it] 19%|█▉        | 15010/78504 [9:08:09<71:14:13,  4.04s/it]                                                          {'loss': 0.1513, 'grad_norm': 0.25036147236824036, 'learning_rate': 2.6963186276591228e-05, 'epoch': 4.59}
 19%|█▉        | 15010/78504 [9:08:09<71:14:13,  4.04s/it] 19%|█▉        | 15011/78504 [9:08:12<66:24:34,  3.77s/it]                                                          {'loss': 0.1203, 'grad_norm': 0.29544931650161743, 'learning_rate': 2.696276166617129e-05, 'epoch': 4.59}
 19%|█▉        | 15011/78504 [9:08:12<66:24:34,  3.77s/it] 19%|█▉        | 15012/78504 [9:08:15<61:59:29,  3.51s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.4793064594268799, 'learning_rate': 2.696233705575135e-05, 'epoch': 4.59}
 19%|█▉        | 15012/78504 [9:08:15<61:59:29,  3.51s/it] 19%|█▉        | 15013/78504 [9:08:17<56:13:46,  3.19s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.20759721100330353, 'learning_rate': 2.696191244533141e-05, 'epoch': 4.59}
 19%|█▉        | 15013/78504 [9:08:17<56:13:46,  3.19s/it] 19%|█▉        | 15014/78504 [9:08:20<52:25:56,  2.97s/it]                                                          {'loss': 0.0554, 'grad_norm': 0.17350339889526367, 'learning_rate': 2.696148783491147e-05, 'epoch': 4.59}
 19%|█▉        | 15014/78504 [9:08:20<52:25:56,  2.97s/it] 19%|█▉        | 15015/78504 [9:08:22<49:31:12,  2.81s/it]                                                          {'loss': 0.0382, 'grad_norm': 0.38694337010383606, 'learning_rate': 2.696106322449153e-05, 'epoch': 4.59}
 19%|█▉        | 15015/78504 [9:08:22<49:31:12,  2.81s/it] 19%|█▉        | 15016/78504 [9:08:24<46:54:18,  2.66s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.2642088532447815, 'learning_rate': 2.696063861407159e-05, 'epoch': 4.59}
 19%|█▉        | 15016/78504 [9:08:24<46:54:18,  2.66s/it] 19%|█▉        | 15017/78504 [9:08:27<43:57:21,  2.49s/it]                                                          {'loss': 0.062, 'grad_norm': 0.32291319966316223, 'learning_rate': 2.696021400365165e-05, 'epoch': 4.59}
 19%|█▉        | 15017/78504 [9:08:27<43:57:21,  2.49s/it] 19%|█▉        | 15018/78504 [9:08:29<42:18:46,  2.40s/it]                                                          {'loss': 0.0685, 'grad_norm': 0.3639121651649475, 'learning_rate': 2.695978939323171e-05, 'epoch': 4.59}
 19%|█▉        | 15018/78504 [9:08:29<42:18:46,  2.40s/it] 19%|█▉        | 15019/78504 [9:08:31<41:03:51,  2.33s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.8569014072418213, 'learning_rate': 2.695936478281177e-05, 'epoch': 4.59}
 19%|█▉        | 15019/78504 [9:08:31<41:03:51,  2.33s/it] 19%|█▉        | 15020/78504 [9:08:33<38:30:38,  2.18s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.5733409523963928, 'learning_rate': 2.695894017239183e-05, 'epoch': 4.59}
 19%|█▉        | 15020/78504 [9:08:33<38:30:38,  2.18s/it] 19%|█▉        | 15021/78504 [9:08:35<37:26:56,  2.12s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.33063700795173645, 'learning_rate': 2.695851556197189e-05, 'epoch': 4.59}
 19%|█▉        | 15021/78504 [9:08:35<37:26:56,  2.12s/it] 19%|█▉        | 15022/78504 [9:08:37<36:21:07,  2.06s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.7219920754432678, 'learning_rate': 2.6958090951551952e-05, 'epoch': 4.59}
 19%|█▉        | 15022/78504 [9:08:37<36:21:07,  2.06s/it] 19%|█▉        | 15023/78504 [9:08:39<35:14:51,  2.00s/it]                                                          {'loss': 0.1249, 'grad_norm': 0.7562730312347412, 'learning_rate': 2.695766634113201e-05, 'epoch': 4.59}
 19%|█▉        | 15023/78504 [9:08:39<35:14:51,  2.00s/it] 19%|█▉        | 15024/78504 [9:08:40<34:01:31,  1.93s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.7267432808876038, 'learning_rate': 2.6957241730712073e-05, 'epoch': 4.59}
 19%|█▉        | 15024/78504 [9:08:40<34:01:31,  1.93s/it] 19%|█▉        | 15025/78504 [9:08:42<32:09:10,  1.82s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.9073829054832458, 'learning_rate': 2.6956817120292132e-05, 'epoch': 4.59}
 19%|█▉        | 15025/78504 [9:08:42<32:09:10,  1.82s/it] 19%|█▉        | 15026/78504 [9:08:43<30:35:34,  1.74s/it]                                                          {'loss': 0.1567, 'grad_norm': 1.612046718597412, 'learning_rate': 2.6956392509872194e-05, 'epoch': 4.59}
 19%|█▉        | 15026/78504 [9:08:43<30:35:34,  1.74s/it] 19%|█▉        | 15027/78504 [9:08:45<29:19:18,  1.66s/it]                                                          {'loss': 0.1685, 'grad_norm': 1.1423768997192383, 'learning_rate': 2.6955967899452253e-05, 'epoch': 4.59}
 19%|█▉        | 15027/78504 [9:08:45<29:19:18,  1.66s/it] 19%|█▉        | 15028/78504 [9:08:46<27:53:02,  1.58s/it]                                                          {'loss': 0.1546, 'grad_norm': 0.4015604555606842, 'learning_rate': 2.6955543289032315e-05, 'epoch': 4.59}
 19%|█▉        | 15028/78504 [9:08:46<27:53:02,  1.58s/it] 19%|█▉        | 15029/78504 [9:08:48<26:19:26,  1.49s/it]                                                          {'loss': 0.199, 'grad_norm': 0.8418240547180176, 'learning_rate': 2.6955118678612373e-05, 'epoch': 4.59}
 19%|█▉        | 15029/78504 [9:08:48<26:19:26,  1.49s/it] 19%|█▉        | 15030/78504 [9:08:49<24:29:08,  1.39s/it]                                                          {'loss': 0.2037, 'grad_norm': 0.7686911821365356, 'learning_rate': 2.6954694068192432e-05, 'epoch': 4.59}
 19%|█▉        | 15030/78504 [9:08:49<24:29:08,  1.39s/it] 19%|█▉        | 15031/78504 [9:08:50<22:54:05,  1.30s/it]                                                          {'loss': 0.2123, 'grad_norm': 0.7611731886863708, 'learning_rate': 2.6954269457772494e-05, 'epoch': 4.6}
 19%|█▉        | 15031/78504 [9:08:50<22:54:05,  1.30s/it] 19%|█▉        | 15032/78504 [9:08:51<21:15:05,  1.21s/it]                                                          {'loss': 0.1826, 'grad_norm': 0.9330403208732605, 'learning_rate': 2.6953844847352553e-05, 'epoch': 4.6}
 19%|█▉        | 15032/78504 [9:08:51<21:15:05,  1.21s/it] 19%|█▉        | 15033/78504 [9:08:52<19:48:34,  1.12s/it]                                                          {'loss': 0.2167, 'grad_norm': 0.6911360025405884, 'learning_rate': 2.6953420236932615e-05, 'epoch': 4.6}
 19%|█▉        | 15033/78504 [9:08:52<19:48:34,  1.12s/it] 19%|█▉        | 15034/78504 [9:08:52<18:05:26,  1.03s/it]                                                          {'loss': 0.2436, 'grad_norm': 1.378420352935791, 'learning_rate': 2.6952995626512674e-05, 'epoch': 4.6}
 19%|█▉        | 15034/78504 [9:08:53<18:05:26,  1.03s/it] 19%|█▉        | 15035/78504 [9:09:01<58:08:10,  3.30s/it]                                                          {'loss': 0.1335, 'grad_norm': 0.5242282748222351, 'learning_rate': 2.6952571016092736e-05, 'epoch': 4.6}
 19%|█▉        | 15035/78504 [9:09:01<58:08:10,  3.30s/it] 19%|█▉        | 15036/78504 [9:09:04<57:04:39,  3.24s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.3025785982608795, 'learning_rate': 2.6952146405672794e-05, 'epoch': 4.6}
 19%|█▉        | 15036/78504 [9:09:04<57:04:39,  3.24s/it] 19%|█▉        | 15037/78504 [9:09:07<55:24:06,  3.14s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.6385506391525269, 'learning_rate': 2.6951721795252856e-05, 'epoch': 4.6}
 19%|█▉        | 15037/78504 [9:09:07<55:24:06,  3.14s/it] 19%|█▉        | 15038/78504 [9:09:10<52:27:19,  2.98s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.2902139723300934, 'learning_rate': 2.6951297184832915e-05, 'epoch': 4.6}
 19%|█▉        | 15038/78504 [9:09:10<52:27:19,  2.98s/it] 19%|█▉        | 15039/78504 [9:09:12<49:53:45,  2.83s/it]                                                          {'loss': 0.0542, 'grad_norm': 0.17104268074035645, 'learning_rate': 2.6950872574412977e-05, 'epoch': 4.6}
 19%|█▉        | 15039/78504 [9:09:12<49:53:45,  2.83s/it] 19%|█▉        | 15040/78504 [9:09:15<47:46:07,  2.71s/it]                                                          {'loss': 0.0627, 'grad_norm': 0.43846625089645386, 'learning_rate': 2.6950447963993036e-05, 'epoch': 4.6}
 19%|█▉        | 15040/78504 [9:09:15<47:46:07,  2.71s/it] 19%|█▉        | 15041/78504 [9:09:17<45:41:43,  2.59s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.22803696990013123, 'learning_rate': 2.6950023353573098e-05, 'epoch': 4.6}
 19%|█▉        | 15041/78504 [9:09:17<45:41:43,  2.59s/it] 19%|█▉        | 15042/78504 [9:09:19<44:10:49,  2.51s/it]                                                          {'loss': 0.059, 'grad_norm': 0.5540205240249634, 'learning_rate': 2.6949598743153157e-05, 'epoch': 4.6}
 19%|█▉        | 15042/78504 [9:09:19<44:10:49,  2.51s/it] 19%|█▉        | 15043/78504 [9:09:21<42:28:57,  2.41s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.3119412064552307, 'learning_rate': 2.6949174132733215e-05, 'epoch': 4.6}
 19%|█▉        | 15043/78504 [9:09:21<42:28:57,  2.41s/it] 19%|█▉        | 15044/78504 [9:09:24<41:01:05,  2.33s/it]                                                          {'loss': 0.0576, 'grad_norm': 0.3839174807071686, 'learning_rate': 2.6948749522313278e-05, 'epoch': 4.6}
 19%|█▉        | 15044/78504 [9:09:24<41:01:05,  2.33s/it] 19%|█▉        | 15045/78504 [9:09:25<38:31:34,  2.19s/it]                                                          {'loss': 0.1116, 'grad_norm': 0.7480129599571228, 'learning_rate': 2.6948324911893336e-05, 'epoch': 4.6}
 19%|█▉        | 15045/78504 [9:09:25<38:31:34,  2.19s/it] 19%|█▉        | 15046/78504 [9:09:27<37:25:41,  2.12s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.43624863028526306, 'learning_rate': 2.69479003014734e-05, 'epoch': 4.6}
 19%|█▉        | 15046/78504 [9:09:27<37:25:41,  2.12s/it] 19%|█▉        | 15047/78504 [9:09:29<36:03:32,  2.05s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.33065417408943176, 'learning_rate': 2.6947475691053457e-05, 'epoch': 4.6}
 19%|█▉        | 15047/78504 [9:09:29<36:03:32,  2.05s/it] 19%|█▉        | 15048/78504 [9:09:31<35:06:29,  1.99s/it]                                                          {'loss': 0.1411, 'grad_norm': 0.5015982985496521, 'learning_rate': 2.694705108063352e-05, 'epoch': 4.6}
 19%|█▉        | 15048/78504 [9:09:31<35:06:29,  1.99s/it] 19%|█▉        | 15049/78504 [9:09:33<33:52:39,  1.92s/it]                                                          {'loss': 0.1112, 'grad_norm': 0.29242685437202454, 'learning_rate': 2.6946626470213578e-05, 'epoch': 4.6}
 19%|█▉        | 15049/78504 [9:09:33<33:52:39,  1.92s/it] 19%|█▉        | 15050/78504 [9:09:35<32:27:19,  1.84s/it]                                                          {'loss': 0.1361, 'grad_norm': 0.524789035320282, 'learning_rate': 2.694620185979364e-05, 'epoch': 4.6}
 19%|█▉        | 15050/78504 [9:09:35<32:27:19,  1.84s/it] 19%|█▉        | 15051/78504 [9:09:36<30:52:30,  1.75s/it]                                                          {'loss': 0.1347, 'grad_norm': 0.746990978717804, 'learning_rate': 2.69457772493737e-05, 'epoch': 4.6}
 19%|█▉        | 15051/78504 [9:09:36<30:52:30,  1.75s/it] 19%|█▉        | 15052/78504 [9:09:38<29:20:55,  1.67s/it]                                                          {'loss': 0.18, 'grad_norm': 0.3913774788379669, 'learning_rate': 2.694535263895376e-05, 'epoch': 4.6}
 19%|█▉        | 15052/78504 [9:09:38<29:20:55,  1.67s/it] 19%|█▉        | 15053/78504 [9:09:39<28:00:36,  1.59s/it]                                                          {'loss': 0.1999, 'grad_norm': 1.067986011505127, 'learning_rate': 2.694492802853382e-05, 'epoch': 4.6}
 19%|█▉        | 15053/78504 [9:09:39<28:00:36,  1.59s/it] 19%|█▉        | 15054/78504 [9:09:40<26:23:05,  1.50s/it]                                                          {'loss': 0.1694, 'grad_norm': 0.5268691182136536, 'learning_rate': 2.694450341811388e-05, 'epoch': 4.6}
 19%|█▉        | 15054/78504 [9:09:40<26:23:05,  1.50s/it] 19%|█▉        | 15055/78504 [9:09:41<24:35:13,  1.40s/it]                                                          {'loss': 0.141, 'grad_norm': 0.6951779723167419, 'learning_rate': 2.694407880769394e-05, 'epoch': 4.6}
 19%|█▉        | 15055/78504 [9:09:41<24:35:13,  1.40s/it] 19%|█▉        | 15056/78504 [9:09:42<22:59:25,  1.30s/it]                                                          {'loss': 0.2061, 'grad_norm': 1.2696363925933838, 'learning_rate': 2.6943654197274e-05, 'epoch': 4.6}
 19%|█▉        | 15056/78504 [9:09:43<22:59:25,  1.30s/it] 19%|█▉        | 15057/78504 [9:09:43<21:19:01,  1.21s/it]                                                          {'loss': 0.2158, 'grad_norm': 0.9224441647529602, 'learning_rate': 2.694322958685406e-05, 'epoch': 4.6}
 19%|█▉        | 15057/78504 [9:09:43<21:19:01,  1.21s/it] 19%|█▉        | 15058/78504 [9:09:44<19:48:38,  1.12s/it]                                                          {'loss': 0.2178, 'grad_norm': 0.7144806385040283, 'learning_rate': 2.694280497643412e-05, 'epoch': 4.6}
 19%|█▉        | 15058/78504 [9:09:44<19:48:38,  1.12s/it] 19%|█▉        | 15059/78504 [9:09:45<18:00:28,  1.02s/it]                                                          {'loss': 0.2686, 'grad_norm': 7.927372455596924, 'learning_rate': 2.6942380366014182e-05, 'epoch': 4.6}
 19%|█▉        | 15059/78504 [9:09:45<18:00:28,  1.02s/it] 19%|█▉        | 15060/78504 [9:09:54<57:00:09,  3.23s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.37572234869003296, 'learning_rate': 2.694195575559424e-05, 'epoch': 4.6}
 19%|█▉        | 15060/78504 [9:09:54<57:00:09,  3.23s/it] 19%|█▉        | 15061/78504 [9:09:57<56:22:21,  3.20s/it]                                                          {'loss': 0.1095, 'grad_norm': 0.32846951484680176, 'learning_rate': 2.6941531145174303e-05, 'epoch': 4.6}
 19%|█▉        | 15061/78504 [9:09:57<56:22:21,  3.20s/it] 19%|█▉        | 15062/78504 [9:10:00<55:13:43,  3.13s/it]                                                          {'loss': 0.088, 'grad_norm': 0.5028209686279297, 'learning_rate': 2.694110653475436e-05, 'epoch': 4.6}
 19%|█▉        | 15062/78504 [9:10:00<55:13:43,  3.13s/it] 19%|█▉        | 15063/78504 [9:10:02<52:20:24,  2.97s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.24946264922618866, 'learning_rate': 2.6940681924334423e-05, 'epoch': 4.61}
 19%|█▉        | 15063/78504 [9:10:02<52:20:24,  2.97s/it] 19%|█▉        | 15064/78504 [9:10:05<49:48:40,  2.83s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.3689137399196625, 'learning_rate': 2.6940257313914482e-05, 'epoch': 4.61}
 19%|█▉        | 15064/78504 [9:10:05<49:48:40,  2.83s/it] 19%|█▉        | 15065/78504 [9:10:07<47:17:34,  2.68s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.3194081485271454, 'learning_rate': 2.6939832703494544e-05, 'epoch': 4.61}
 19%|█▉        | 15065/78504 [9:10:07<47:17:34,  2.68s/it] 19%|█▉        | 15066/78504 [9:10:09<45:27:35,  2.58s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.26006263494491577, 'learning_rate': 2.6939408093074603e-05, 'epoch': 4.61}
 19%|█▉        | 15066/78504 [9:10:09<45:27:35,  2.58s/it] 19%|█▉        | 15067/78504 [9:10:12<42:49:34,  2.43s/it]                                                          {'loss': 0.0677, 'grad_norm': 0.4427160322666168, 'learning_rate': 2.6938983482654665e-05, 'epoch': 4.61}
 19%|█▉        | 15067/78504 [9:10:12<42:49:34,  2.43s/it] 19%|█▉        | 15068/78504 [9:10:14<40:43:18,  2.31s/it]                                                          {'loss': 0.091, 'grad_norm': 0.4724999666213989, 'learning_rate': 2.6938558872234727e-05, 'epoch': 4.61}
 19%|█▉        | 15068/78504 [9:10:14<40:43:18,  2.31s/it] 19%|█▉        | 15069/78504 [9:10:16<39:47:06,  2.26s/it]                                                          {'loss': 0.0605, 'grad_norm': 0.29389262199401855, 'learning_rate': 2.6938134261814786e-05, 'epoch': 4.61}
 19%|█▉        | 15069/78504 [9:10:16<39:47:06,  2.26s/it] 19%|█▉        | 15070/78504 [9:10:18<38:35:24,  2.19s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.2102939933538437, 'learning_rate': 2.6937709651394848e-05, 'epoch': 4.61}
 19%|█▉        | 15070/78504 [9:10:18<38:35:24,  2.19s/it] 19%|█▉        | 15071/78504 [9:10:20<37:26:55,  2.13s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.3449554145336151, 'learning_rate': 2.6937285040974906e-05, 'epoch': 4.61}
 19%|█▉        | 15071/78504 [9:10:20<37:26:55,  2.13s/it] 19%|█▉        | 15072/78504 [9:10:22<36:05:48,  2.05s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.4155147671699524, 'learning_rate': 2.693686043055497e-05, 'epoch': 4.61}
 19%|█▉        | 15072/78504 [9:10:22<36:05:48,  2.05s/it] 19%|█▉        | 15073/78504 [9:10:23<34:59:28,  1.99s/it]                                                          {'loss': 0.1477, 'grad_norm': 0.6399480700492859, 'learning_rate': 2.6936435820135027e-05, 'epoch': 4.61}
 19%|█▉        | 15073/78504 [9:10:23<34:59:28,  1.99s/it] 19%|█▉        | 15074/78504 [9:10:25<33:36:33,  1.91s/it]                                                          {'loss': 0.1329, 'grad_norm': 0.6013297438621521, 'learning_rate': 2.693601120971509e-05, 'epoch': 4.61}
 19%|█▉        | 15074/78504 [9:10:25<33:36:33,  1.91s/it] 19%|█▉        | 15075/78504 [9:10:27<32:15:18,  1.83s/it]                                                          {'loss': 0.1526, 'grad_norm': 1.1854428052902222, 'learning_rate': 2.6935586599295148e-05, 'epoch': 4.61}
 19%|█▉        | 15075/78504 [9:10:27<32:15:18,  1.83s/it] 19%|█▉        | 15076/78504 [9:10:28<30:34:48,  1.74s/it]                                                          {'loss': 0.1426, 'grad_norm': 0.4602837860584259, 'learning_rate': 2.693516198887521e-05, 'epoch': 4.61}
 19%|█▉        | 15076/78504 [9:10:28<30:34:48,  1.74s/it] 19%|█▉        | 15077/78504 [9:10:30<28:53:48,  1.64s/it]                                                          {'loss': 0.151, 'grad_norm': 0.41110891103744507, 'learning_rate': 2.693473737845527e-05, 'epoch': 4.61}
 19%|█▉        | 15077/78504 [9:10:30<28:53:48,  1.64s/it] 19%|█▉        | 15078/78504 [9:10:31<27:41:18,  1.57s/it]                                                          {'loss': 0.1821, 'grad_norm': 1.4958088397979736, 'learning_rate': 2.693431276803533e-05, 'epoch': 4.61}
 19%|█▉        | 15078/78504 [9:10:31<27:41:18,  1.57s/it] 19%|█▉        | 15079/78504 [9:10:32<25:48:19,  1.46s/it]                                                          {'loss': 0.1847, 'grad_norm': 0.5483261942863464, 'learning_rate': 2.693388815761539e-05, 'epoch': 4.61}
 19%|█▉        | 15079/78504 [9:10:32<25:48:19,  1.46s/it] 19%|█▉        | 15080/78504 [9:10:33<24:02:23,  1.36s/it]                                                          {'loss': 0.1558, 'grad_norm': 1.4252681732177734, 'learning_rate': 2.6933463547195452e-05, 'epoch': 4.61}
 19%|█▉        | 15080/78504 [9:10:33<24:02:23,  1.36s/it] 19%|█▉        | 15081/78504 [9:10:35<22:38:26,  1.29s/it]                                                          {'loss': 0.1914, 'grad_norm': 4.131947040557861, 'learning_rate': 2.693303893677551e-05, 'epoch': 4.61}
 19%|█▉        | 15081/78504 [9:10:35<22:38:26,  1.29s/it] 19%|█▉        | 15082/78504 [9:10:36<21:06:05,  1.20s/it]                                                          {'loss': 0.1989, 'grad_norm': 1.0741747617721558, 'learning_rate': 2.693261432635557e-05, 'epoch': 4.61}
 19%|█▉        | 15082/78504 [9:10:36<21:06:05,  1.20s/it] 19%|█▉        | 15083/78504 [9:10:37<19:43:33,  1.12s/it]                                                          {'loss': 0.1979, 'grad_norm': 1.1442248821258545, 'learning_rate': 2.693218971593563e-05, 'epoch': 4.61}
 19%|█▉        | 15083/78504 [9:10:37<19:43:33,  1.12s/it] 19%|█▉        | 15084/78504 [9:10:37<17:56:25,  1.02s/it]                                                          {'loss': 0.2114, 'grad_norm': 1.1109610795974731, 'learning_rate': 2.693176510551569e-05, 'epoch': 4.61}
 19%|█▉        | 15084/78504 [9:10:37<17:56:25,  1.02s/it] 19%|█▉        | 15085/78504 [9:10:46<56:35:15,  3.21s/it]                                                          {'loss': 0.1518, 'grad_norm': 0.2886922061443329, 'learning_rate': 2.6931340495095752e-05, 'epoch': 4.61}
 19%|█▉        | 15085/78504 [9:10:46<56:35:15,  3.21s/it] 19%|█▉        | 15086/78504 [9:10:49<56:10:06,  3.19s/it]                                                          {'loss': 0.0963, 'grad_norm': 0.36721014976501465, 'learning_rate': 2.693091588467581e-05, 'epoch': 4.61}
 19%|█▉        | 15086/78504 [9:10:49<56:10:06,  3.19s/it] 19%|█▉        | 15087/78504 [9:10:51<52:55:33,  3.00s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.16611425578594208, 'learning_rate': 2.6930491274255873e-05, 'epoch': 4.61}
 19%|█▉        | 15087/78504 [9:10:51<52:55:33,  3.00s/it] 19%|█▉        | 15088/78504 [9:10:54<50:50:05,  2.89s/it]                                                          {'loss': 0.059, 'grad_norm': 0.2219206988811493, 'learning_rate': 2.693006666383593e-05, 'epoch': 4.61}
 19%|█▉        | 15088/78504 [9:10:54<50:50:05,  2.89s/it] 19%|█▉        | 15089/78504 [9:10:56<48:36:38,  2.76s/it]                                                          {'loss': 0.0681, 'grad_norm': 0.7106373906135559, 'learning_rate': 2.6929642053415994e-05, 'epoch': 4.61}
 19%|█▉        | 15089/78504 [9:10:56<48:36:38,  2.76s/it] 19%|█▉        | 15090/78504 [9:10:59<46:58:46,  2.67s/it]                                                          {'loss': 0.039, 'grad_norm': 0.22425417602062225, 'learning_rate': 2.6929217442996052e-05, 'epoch': 4.61}
 19%|█▉        | 15090/78504 [9:10:59<46:58:46,  2.67s/it] 19%|█▉        | 15091/78504 [9:11:01<45:04:49,  2.56s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.2820930480957031, 'learning_rate': 2.6928792832576114e-05, 'epoch': 4.61}
 19%|█▉        | 15091/78504 [9:11:01<45:04:49,  2.56s/it] 19%|█▉        | 15092/78504 [9:11:03<42:45:29,  2.43s/it]                                                          {'loss': 0.0629, 'grad_norm': 0.23235447704792023, 'learning_rate': 2.6928368222156173e-05, 'epoch': 4.61}
 19%|█▉        | 15092/78504 [9:11:03<42:45:29,  2.43s/it] 19%|█▉        | 15093/78504 [9:11:05<41:24:59,  2.35s/it]                                                          {'loss': 0.0563, 'grad_norm': 0.244040846824646, 'learning_rate': 2.6927943611736235e-05, 'epoch': 4.61}
 19%|█▉        | 15093/78504 [9:11:05<41:24:59,  2.35s/it] 19%|█▉        | 15094/78504 [9:11:08<40:18:36,  2.29s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.5149393677711487, 'learning_rate': 2.6927519001316294e-05, 'epoch': 4.61}
 19%|█▉        | 15094/78504 [9:11:08<40:18:36,  2.29s/it] 19%|█▉        | 15095/78504 [9:11:10<38:57:41,  2.21s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.30953487753868103, 'learning_rate': 2.6927094390896353e-05, 'epoch': 4.61}
 19%|█▉        | 15095/78504 [9:11:10<38:57:41,  2.21s/it] 19%|█▉        | 15096/78504 [9:11:12<37:41:34,  2.14s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.36087051033973694, 'learning_rate': 2.6926669780476415e-05, 'epoch': 4.62}
 19%|█▉        | 15096/78504 [9:11:12<37:41:34,  2.14s/it] 19%|█▉        | 15097/78504 [9:11:14<36:31:59,  2.07s/it]                                                          {'loss': 0.0865, 'grad_norm': 0.6163648366928101, 'learning_rate': 2.6926245170056473e-05, 'epoch': 4.62}
 19%|█▉        | 15097/78504 [9:11:14<36:31:59,  2.07s/it] 19%|█▉        | 15098/78504 [9:11:15<35:31:11,  2.02s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.47493064403533936, 'learning_rate': 2.6925820559636535e-05, 'epoch': 4.62}
 19%|█▉        | 15098/78504 [9:11:15<35:31:11,  2.02s/it] 19%|█▉        | 15099/78504 [9:11:17<34:08:54,  1.94s/it]                                                          {'loss': 0.1385, 'grad_norm': 0.49550512433052063, 'learning_rate': 2.6925395949216594e-05, 'epoch': 4.62}
 19%|█▉        | 15099/78504 [9:11:17<34:08:54,  1.94s/it] 19%|█▉        | 15100/78504 [9:11:19<32:16:36,  1.83s/it]                                                          {'loss': 0.1291, 'grad_norm': 0.4924461245536804, 'learning_rate': 2.6924971338796656e-05, 'epoch': 4.62}
 19%|█▉        | 15100/78504 [9:11:19<32:16:36,  1.83s/it] 19%|█▉        | 15101/78504 [9:11:20<30:44:14,  1.75s/it]                                                          {'loss': 0.156, 'grad_norm': 0.774863600730896, 'learning_rate': 2.6924546728376715e-05, 'epoch': 4.62}
 19%|█▉        | 15101/78504 [9:11:20<30:44:14,  1.75s/it] 19%|█▉        | 15102/78504 [9:11:22<29:30:07,  1.68s/it]                                                          {'loss': 0.191, 'grad_norm': 1.686882734298706, 'learning_rate': 2.6924122117956777e-05, 'epoch': 4.62}
 19%|█▉        | 15102/78504 [9:11:22<29:30:07,  1.68s/it] 19%|█▉        | 15103/78504 [9:11:23<28:06:36,  1.60s/it]                                                          {'loss': 0.1947, 'grad_norm': 0.5715798735618591, 'learning_rate': 2.6923697507536836e-05, 'epoch': 4.62}
 19%|█▉        | 15103/78504 [9:11:23<28:06:36,  1.60s/it] 19%|█▉        | 15104/78504 [9:11:25<26:30:25,  1.51s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.5831999182701111, 'learning_rate': 2.6923272897116898e-05, 'epoch': 4.62}
 19%|█▉        | 15104/78504 [9:11:25<26:30:25,  1.51s/it] 19%|█▉        | 15105/78504 [9:11:26<24:55:45,  1.42s/it]                                                          {'loss': 0.1837, 'grad_norm': 0.6951306462287903, 'learning_rate': 2.6922848286696956e-05, 'epoch': 4.62}
 19%|█▉        | 15105/78504 [9:11:26<24:55:45,  1.42s/it] 19%|█▉        | 15106/78504 [9:11:27<23:12:39,  1.32s/it]                                                          {'loss': 0.2089, 'grad_norm': 0.6028845310211182, 'learning_rate': 2.692242367627702e-05, 'epoch': 4.62}
 19%|█▉        | 15106/78504 [9:11:27<23:12:39,  1.32s/it] 19%|█▉        | 15107/78504 [9:11:28<21:47:20,  1.24s/it]                                                          {'loss': 0.1621, 'grad_norm': 0.6380050778388977, 'learning_rate': 2.6921999065857077e-05, 'epoch': 4.62}
 19%|█▉        | 15107/78504 [9:11:28<21:47:20,  1.24s/it] 19%|█▉        | 15108/78504 [9:11:29<20:04:47,  1.14s/it]                                                          {'loss': 0.1954, 'grad_norm': 0.907759428024292, 'learning_rate': 2.6921574455437136e-05, 'epoch': 4.62}
 19%|█▉        | 15108/78504 [9:11:29<20:04:47,  1.14s/it] 19%|█▉        | 15109/78504 [9:11:30<18:23:13,  1.04s/it]                                                          {'loss': 0.2422, 'grad_norm': 0.9245545268058777, 'learning_rate': 2.6921149845017198e-05, 'epoch': 4.62}
 19%|█▉        | 15109/78504 [9:11:30<18:23:13,  1.04s/it] 19%|█▉        | 15110/78504 [9:11:39<61:32:35,  3.49s/it]                                                          {'loss': 0.1159, 'grad_norm': 0.3340117931365967, 'learning_rate': 2.6920725234597257e-05, 'epoch': 4.62}
 19%|█▉        | 15110/78504 [9:11:39<61:32:35,  3.49s/it] 19%|█▉        | 15111/78504 [9:11:42<59:13:05,  3.36s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.8031355142593384, 'learning_rate': 2.692030062417732e-05, 'epoch': 4.62}
 19%|█▉        | 15111/78504 [9:11:42<59:13:05,  3.36s/it] 19%|█▉        | 15112/78504 [9:11:45<55:47:12,  3.17s/it]                                                          {'loss': 0.0631, 'grad_norm': 0.21702249348163605, 'learning_rate': 2.6919876013757378e-05, 'epoch': 4.62}
 19%|█▉        | 15112/78504 [9:11:45<55:47:12,  3.17s/it] 19%|█▉        | 15113/78504 [9:11:47<52:52:17,  3.00s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.8551281690597534, 'learning_rate': 2.691945140333744e-05, 'epoch': 4.62}
 19%|█▉        | 15113/78504 [9:11:47<52:52:17,  3.00s/it] 19%|█▉        | 15114/78504 [9:11:50<49:29:57,  2.81s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.2745366394519806, 'learning_rate': 2.69190267929175e-05, 'epoch': 4.62}
 19%|█▉        | 15114/78504 [9:11:50<49:29:57,  2.81s/it] 19%|█▉        | 15115/78504 [9:11:52<46:36:24,  2.65s/it]                                                          {'loss': 0.0349, 'grad_norm': 0.432184100151062, 'learning_rate': 2.691860218249756e-05, 'epoch': 4.62}
 19%|█▉        | 15115/78504 [9:11:52<46:36:24,  2.65s/it] 19%|█▉        | 15116/78504 [9:11:54<44:51:42,  2.55s/it]                                                          {'loss': 0.0424, 'grad_norm': 0.14929233491420746, 'learning_rate': 2.691817757207762e-05, 'epoch': 4.62}
 19%|█▉        | 15116/78504 [9:11:54<44:51:42,  2.55s/it] 19%|█▉        | 15117/78504 [9:11:56<42:32:43,  2.42s/it]                                                          {'loss': 0.1142, 'grad_norm': 0.6965368986129761, 'learning_rate': 2.691775296165768e-05, 'epoch': 4.62}
 19%|█▉        | 15117/78504 [9:11:56<42:32:43,  2.42s/it] 19%|█▉        | 15118/78504 [9:11:58<41:18:37,  2.35s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.4559759497642517, 'learning_rate': 2.691732835123774e-05, 'epoch': 4.62}
 19%|█▉        | 15118/78504 [9:11:58<41:18:37,  2.35s/it] 19%|█▉        | 15119/78504 [9:12:01<40:21:18,  2.29s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.19531458616256714, 'learning_rate': 2.69169037408178e-05, 'epoch': 4.62}
 19%|█▉        | 15119/78504 [9:12:01<40:21:18,  2.29s/it] 19%|█▉        | 15120/78504 [9:12:02<38:01:43,  2.16s/it]                                                          {'loss': 0.1034, 'grad_norm': 0.3044597804546356, 'learning_rate': 2.691647913039786e-05, 'epoch': 4.62}
 19%|█▉        | 15120/78504 [9:12:02<38:01:43,  2.16s/it] 19%|█▉        | 15121/78504 [9:12:04<37:05:51,  2.11s/it]                                                          {'loss': 0.074, 'grad_norm': 0.43134868144989014, 'learning_rate': 2.691605451997792e-05, 'epoch': 4.62}
 19%|█▉        | 15121/78504 [9:12:04<37:05:51,  2.11s/it] 19%|█▉        | 15122/78504 [9:12:06<36:06:28,  2.05s/it]                                                          {'loss': 0.1002, 'grad_norm': 1.0026837587356567, 'learning_rate': 2.691562990955798e-05, 'epoch': 4.62}
 19%|█▉        | 15122/78504 [9:12:06<36:06:28,  2.05s/it] 19%|█▉        | 15123/78504 [9:12:08<35:07:00,  1.99s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.45424070954322815, 'learning_rate': 2.691520529913804e-05, 'epoch': 4.62}
 19%|█▉        | 15123/78504 [9:12:08<35:07:00,  1.99s/it] 19%|█▉        | 15124/78504 [9:12:10<33:54:32,  1.93s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.40658068656921387, 'learning_rate': 2.6914780688718102e-05, 'epoch': 4.62}
 19%|█▉        | 15124/78504 [9:12:10<33:54:32,  1.93s/it] 19%|█▉        | 15125/78504 [9:12:12<32:27:55,  1.84s/it]                                                          {'loss': 0.1425, 'grad_norm': 0.8966238498687744, 'learning_rate': 2.691435607829816e-05, 'epoch': 4.62}
 19%|█▉        | 15125/78504 [9:12:12<32:27:55,  1.84s/it] 19%|█▉        | 15126/78504 [9:12:13<30:49:17,  1.75s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.4539843201637268, 'learning_rate': 2.6913931467878223e-05, 'epoch': 4.62}
 19%|█▉        | 15126/78504 [9:12:13<30:49:17,  1.75s/it] 19%|█▉        | 15127/78504 [9:12:15<29:21:22,  1.67s/it]                                                          {'loss': 0.1714, 'grad_norm': 0.7656182050704956, 'learning_rate': 2.6913506857458282e-05, 'epoch': 4.62}
 19%|█▉        | 15127/78504 [9:12:15<29:21:22,  1.67s/it] 19%|█▉        | 15128/78504 [9:12:16<27:58:10,  1.59s/it]                                                          {'loss': 0.1852, 'grad_norm': 0.5403881072998047, 'learning_rate': 2.6913082247038344e-05, 'epoch': 4.62}
 19%|█▉        | 15128/78504 [9:12:16<27:58:10,  1.59s/it] 19%|█▉        | 15129/78504 [9:12:17<26:18:45,  1.49s/it]                                                          {'loss': 0.1965, 'grad_norm': 0.4342227876186371, 'learning_rate': 2.6912657636618403e-05, 'epoch': 4.63}
 19%|█▉        | 15129/78504 [9:12:17<26:18:45,  1.49s/it] 19%|█▉        | 15130/78504 [9:12:18<24:20:15,  1.38s/it]                                                          {'loss': 0.166, 'grad_norm': 1.9946343898773193, 'learning_rate': 2.6912233026198465e-05, 'epoch': 4.63}
 19%|█▉        | 15130/78504 [9:12:18<24:20:15,  1.38s/it] 19%|█▉        | 15131/78504 [9:12:20<22:51:37,  1.30s/it]                                                          {'loss': 0.1653, 'grad_norm': 0.7587636709213257, 'learning_rate': 2.6911808415778523e-05, 'epoch': 4.63}
 19%|█▉        | 15131/78504 [9:12:20<22:51:37,  1.30s/it] 19%|█▉        | 15132/78504 [9:12:21<21:14:25,  1.21s/it]                                                          {'loss': 0.2241, 'grad_norm': 0.8989913463592529, 'learning_rate': 2.6911383805358582e-05, 'epoch': 4.63}
 19%|█▉        | 15132/78504 [9:12:21<21:14:25,  1.21s/it] 19%|█▉        | 15133/78504 [9:12:21<19:51:41,  1.13s/it]                                                          {'loss': 0.1647, 'grad_norm': 0.6607565879821777, 'learning_rate': 2.6910959194938644e-05, 'epoch': 4.63}
 19%|█▉        | 15133/78504 [9:12:21<19:51:41,  1.13s/it] 19%|█▉        | 15134/78504 [9:12:22<18:00:37,  1.02s/it]                                                          {'loss': 0.2055, 'grad_norm': 0.9601176977157593, 'learning_rate': 2.6910534584518703e-05, 'epoch': 4.63}
 19%|█▉        | 15134/78504 [9:12:22<18:00:37,  1.02s/it] 19%|█▉        | 15135/78504 [9:12:32<62:43:29,  3.56s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.2652820944786072, 'learning_rate': 2.6910109974098765e-05, 'epoch': 4.63}
 19%|█▉        | 15135/78504 [9:12:32<62:43:29,  3.56s/it] 19%|█▉        | 15136/78504 [9:12:35<60:14:21,  3.42s/it]                                                          {'loss': 0.09, 'grad_norm': 0.23987774550914764, 'learning_rate': 2.6909685363678824e-05, 'epoch': 4.63}
 19%|█▉        | 15136/78504 [9:12:35<60:14:21,  3.42s/it] 19%|█▉        | 15137/78504 [9:12:38<57:35:39,  3.27s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.6705834865570068, 'learning_rate': 2.6909260753258886e-05, 'epoch': 4.63}
 19%|█▉        | 15137/78504 [9:12:38<57:35:39,  3.27s/it] 19%|█▉        | 15138/78504 [9:12:40<53:05:40,  3.02s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.7058405876159668, 'learning_rate': 2.6908836142838944e-05, 'epoch': 4.63}
 19%|█▉        | 15138/78504 [9:12:40<53:05:40,  3.02s/it] 19%|█▉        | 15139/78504 [9:12:43<50:14:21,  2.85s/it]                                                          {'loss': 0.047, 'grad_norm': 0.3737628757953644, 'learning_rate': 2.6908411532419007e-05, 'epoch': 4.63}
 19%|█▉        | 15139/78504 [9:12:43<50:14:21,  2.85s/it] 19%|█▉        | 15140/78504 [9:12:45<47:59:07,  2.73s/it]                                                          {'loss': 0.0401, 'grad_norm': 0.3702773153781891, 'learning_rate': 2.6907986921999065e-05, 'epoch': 4.63}
 19%|█▉        | 15140/78504 [9:12:45<47:59:07,  2.73s/it] 19%|█▉        | 15141/78504 [9:12:47<45:48:48,  2.60s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.3652614653110504, 'learning_rate': 2.6907562311579127e-05, 'epoch': 4.63}
 19%|█▉        | 15141/78504 [9:12:47<45:48:48,  2.60s/it] 19%|█▉        | 15142/78504 [9:12:50<44:15:24,  2.51s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.8258194327354431, 'learning_rate': 2.6907137701159186e-05, 'epoch': 4.63}
 19%|█▉        | 15142/78504 [9:12:50<44:15:24,  2.51s/it] 19%|█▉        | 15143/78504 [9:12:52<42:29:37,  2.41s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.37983807921409607, 'learning_rate': 2.6906713090739248e-05, 'epoch': 4.63}
 19%|█▉        | 15143/78504 [9:12:52<42:29:37,  2.41s/it] 19%|█▉        | 15144/78504 [9:12:54<41:03:50,  2.33s/it]                                                          {'loss': 0.0732, 'grad_norm': 0.334555447101593, 'learning_rate': 2.6906288480319307e-05, 'epoch': 4.63}
 19%|█▉        | 15144/78504 [9:12:54<41:03:50,  2.33s/it] 19%|█▉        | 15145/78504 [9:12:56<39:25:43,  2.24s/it]                                                          {'loss': 0.1079, 'grad_norm': 0.5230880379676819, 'learning_rate': 2.6905863869899365e-05, 'epoch': 4.63}
 19%|█▉        | 15145/78504 [9:12:56<39:25:43,  2.24s/it] 19%|█▉        | 15146/78504 [9:12:58<38:00:48,  2.16s/it]                                                          {'loss': 0.077, 'grad_norm': 0.8327156901359558, 'learning_rate': 2.6905439259479428e-05, 'epoch': 4.63}
 19%|█▉        | 15146/78504 [9:12:58<38:00:48,  2.16s/it] 19%|█▉        | 15147/78504 [9:13:00<36:44:38,  2.09s/it]                                                          {'loss': 0.0729, 'grad_norm': 0.42064911127090454, 'learning_rate': 2.6905014649059486e-05, 'epoch': 4.63}
 19%|█▉        | 15147/78504 [9:13:00<36:44:38,  2.09s/it] 19%|█▉        | 15148/78504 [9:13:02<35:33:01,  2.02s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.44110915064811707, 'learning_rate': 2.690459003863955e-05, 'epoch': 4.63}
 19%|█▉        | 15148/78504 [9:13:02<35:33:01,  2.02s/it] 19%|█▉        | 15149/78504 [9:13:04<34:10:49,  1.94s/it]                                                          {'loss': 0.1149, 'grad_norm': 0.7501769661903381, 'learning_rate': 2.6904165428219607e-05, 'epoch': 4.63}
 19%|█▉        | 15149/78504 [9:13:04<34:10:49,  1.94s/it] 19%|█▉        | 15150/78504 [9:13:05<32:39:29,  1.86s/it]                                                          {'loss': 0.1447, 'grad_norm': 0.49550706148147583, 'learning_rate': 2.690374081779967e-05, 'epoch': 4.63}
 19%|█▉        | 15150/78504 [9:13:05<32:39:29,  1.86s/it] 19%|█▉        | 15151/78504 [9:13:07<30:58:24,  1.76s/it]                                                          {'loss': 0.1401, 'grad_norm': 0.501969039440155, 'learning_rate': 2.6903316207379728e-05, 'epoch': 4.63}
 19%|█▉        | 15151/78504 [9:13:07<30:58:24,  1.76s/it] 19%|█▉        | 15152/78504 [9:13:08<29:23:13,  1.67s/it]                                                          {'loss': 0.1619, 'grad_norm': 0.5502749681472778, 'learning_rate': 2.690289159695979e-05, 'epoch': 4.63}
 19%|█▉        | 15152/78504 [9:13:08<29:23:13,  1.67s/it] 19%|█▉        | 15153/78504 [9:13:10<27:59:54,  1.59s/it]                                                          {'loss': 0.1636, 'grad_norm': 0.8900346755981445, 'learning_rate': 2.690246698653985e-05, 'epoch': 4.63}
 19%|█▉        | 15153/78504 [9:13:10<27:59:54,  1.59s/it] 19%|█▉        | 15154/78504 [9:13:11<26:21:11,  1.50s/it]                                                          {'loss': 0.1637, 'grad_norm': 0.5703431963920593, 'learning_rate': 2.690204237611991e-05, 'epoch': 4.63}
 19%|█▉        | 15154/78504 [9:13:11<26:21:11,  1.50s/it] 19%|█▉        | 15155/78504 [9:13:12<24:28:55,  1.39s/it]                                                          {'loss': 0.2086, 'grad_norm': 0.6254262328147888, 'learning_rate': 2.690161776569997e-05, 'epoch': 4.63}
 19%|█▉        | 15155/78504 [9:13:12<24:28:55,  1.39s/it] 19%|█▉        | 15156/78504 [9:13:13<22:55:45,  1.30s/it]                                                          {'loss': 0.1714, 'grad_norm': 0.7208427786827087, 'learning_rate': 2.690119315528003e-05, 'epoch': 4.63}
 19%|█▉        | 15156/78504 [9:13:13<22:55:45,  1.30s/it] 19%|█▉        | 15157/78504 [9:13:14<21:36:46,  1.23s/it]                                                          {'loss': 0.2045, 'grad_norm': 0.695073664188385, 'learning_rate': 2.690076854486009e-05, 'epoch': 4.63}
 19%|█▉        | 15157/78504 [9:13:14<21:36:46,  1.23s/it] 19%|█▉        | 15158/78504 [9:13:15<20:02:37,  1.14s/it]                                                          {'loss': 0.1954, 'grad_norm': 0.8404328227043152, 'learning_rate': 2.690034393444015e-05, 'epoch': 4.63}
 19%|█▉        | 15158/78504 [9:13:15<20:02:37,  1.14s/it] 19%|█▉        | 15159/78504 [9:13:16<18:07:48,  1.03s/it]                                                          {'loss': 0.2236, 'grad_norm': 1.0616143941879272, 'learning_rate': 2.689991932402021e-05, 'epoch': 4.63}
 19%|█▉        | 15159/78504 [9:13:16<18:07:48,  1.03s/it] 19%|█▉        | 15160/78504 [9:13:26<65:04:17,  3.70s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.36238035559654236, 'learning_rate': 2.689949471360027e-05, 'epoch': 4.63}
 19%|█▉        | 15160/78504 [9:13:26<65:04:17,  3.70s/it] 19%|█▉        | 15161/78504 [9:13:29<62:44:09,  3.57s/it]                                                          {'loss': 0.0791, 'grad_norm': 0.2720766067504883, 'learning_rate': 2.6899070103180332e-05, 'epoch': 4.63}
 19%|█▉        | 15161/78504 [9:13:29<62:44:09,  3.57s/it] 19%|█▉        | 15162/78504 [9:13:32<58:14:02,  3.31s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.3535056710243225, 'learning_rate': 2.689864549276039e-05, 'epoch': 4.64}
 19%|█▉        | 15162/78504 [9:13:32<58:14:02,  3.31s/it] 19%|█▉        | 15163/78504 [9:13:34<54:25:52,  3.09s/it]                                                          {'loss': 0.0417, 'grad_norm': 0.9645991921424866, 'learning_rate': 2.6898220882340453e-05, 'epoch': 4.64}
 19%|█▉        | 15163/78504 [9:13:34<54:25:52,  3.09s/it] 19%|█▉        | 15164/78504 [9:13:37<51:13:05,  2.91s/it]                                                          {'loss': 0.0405, 'grad_norm': 0.18052572011947632, 'learning_rate': 2.689779627192051e-05, 'epoch': 4.64}
 19%|█▉        | 15164/78504 [9:13:37<51:13:05,  2.91s/it] 19%|█▉        | 15165/78504 [9:13:39<47:23:35,  2.69s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.2536015808582306, 'learning_rate': 2.6897371661500573e-05, 'epoch': 4.64}
 19%|█▉        | 15165/78504 [9:13:39<47:23:35,  2.69s/it] 19%|█▉        | 15166/78504 [9:13:41<45:25:42,  2.58s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.36583447456359863, 'learning_rate': 2.6896947051080632e-05, 'epoch': 4.64}
 19%|█▉        | 15166/78504 [9:13:41<45:25:42,  2.58s/it] 19%|█▉        | 15167/78504 [9:13:44<43:43:11,  2.48s/it]                                                          {'loss': 0.056, 'grad_norm': 0.7943262457847595, 'learning_rate': 2.6896522440660694e-05, 'epoch': 4.64}
 19%|█▉        | 15167/78504 [9:13:44<43:43:11,  2.48s/it] 19%|█▉        | 15168/78504 [9:13:46<42:09:21,  2.40s/it]                                                          {'loss': 0.0786, 'grad_norm': 0.8921501040458679, 'learning_rate': 2.6896097830240753e-05, 'epoch': 4.64}
 19%|█▉        | 15168/78504 [9:13:46<42:09:21,  2.40s/it] 19%|█▉        | 15169/78504 [9:13:48<40:46:25,  2.32s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.31463542580604553, 'learning_rate': 2.6895673219820815e-05, 'epoch': 4.64}
 19%|█▉        | 15169/78504 [9:13:48<40:46:25,  2.32s/it] 19%|█▉        | 15170/78504 [9:13:50<39:13:31,  2.23s/it]                                                          {'loss': 0.0694, 'grad_norm': 0.31115880608558655, 'learning_rate': 2.6895248609400877e-05, 'epoch': 4.64}
 19%|█▉        | 15170/78504 [9:13:50<39:13:31,  2.23s/it] 19%|█▉        | 15171/78504 [9:13:52<37:51:27,  2.15s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.5317988991737366, 'learning_rate': 2.6894823998980936e-05, 'epoch': 4.64}
 19%|█▉        | 15171/78504 [9:13:52<37:51:27,  2.15s/it] 19%|█▉        | 15172/78504 [9:13:54<36:21:57,  2.07s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.3978286385536194, 'learning_rate': 2.6894399388560998e-05, 'epoch': 4.64}
 19%|█▉        | 15172/78504 [9:13:54<36:21:57,  2.07s/it] 19%|█▉        | 15173/78504 [9:13:56<34:28:33,  1.96s/it]                                                          {'loss': 0.1198, 'grad_norm': 0.3294518291950226, 'learning_rate': 2.6893974778141057e-05, 'epoch': 4.64}
 19%|█▉        | 15173/78504 [9:13:56<34:28:33,  1.96s/it] 19%|█▉        | 15174/78504 [9:13:57<32:51:57,  1.87s/it]                                                          {'loss': 0.1372, 'grad_norm': 0.4218984842300415, 'learning_rate': 2.689355016772112e-05, 'epoch': 4.64}
 19%|█▉        | 15174/78504 [9:13:57<32:51:57,  1.87s/it] 19%|█▉        | 15175/78504 [9:13:59<31:40:41,  1.80s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.3054928779602051, 'learning_rate': 2.6893125557301177e-05, 'epoch': 4.64}
 19%|█▉        | 15175/78504 [9:13:59<31:40:41,  1.80s/it] 19%|█▉        | 15176/78504 [9:14:00<30:12:40,  1.72s/it]                                                          {'loss': 0.122, 'grad_norm': 0.7906259298324585, 'learning_rate': 2.689270094688124e-05, 'epoch': 4.64}
 19%|█▉        | 15176/78504 [9:14:00<30:12:40,  1.72s/it] 19%|█▉        | 15177/78504 [9:14:02<28:56:22,  1.65s/it]                                                          {'loss': 0.18, 'grad_norm': 0.5020260214805603, 'learning_rate': 2.6892276336461298e-05, 'epoch': 4.64}
 19%|█▉        | 15177/78504 [9:14:02<28:56:22,  1.65s/it] 19%|█▉        | 15178/78504 [9:14:03<27:43:25,  1.58s/it]                                                          {'loss': 0.1789, 'grad_norm': 1.0161212682724, 'learning_rate': 2.689185172604136e-05, 'epoch': 4.64}
 19%|█▉        | 15178/78504 [9:14:03<27:43:25,  1.58s/it] 19%|█▉        | 15179/78504 [9:14:05<26:11:17,  1.49s/it]                                                          {'loss': 0.1771, 'grad_norm': 0.5647533535957336, 'learning_rate': 2.689142711562142e-05, 'epoch': 4.64}
 19%|█▉        | 15179/78504 [9:14:05<26:11:17,  1.49s/it] 19%|█▉        | 15180/78504 [9:14:06<24:23:13,  1.39s/it]                                                          {'loss': 0.188, 'grad_norm': 0.9244574904441833, 'learning_rate': 2.689100250520148e-05, 'epoch': 4.64}
 19%|█▉        | 15180/78504 [9:14:06<24:23:13,  1.39s/it] 19%|█▉        | 15181/78504 [9:14:07<22:51:57,  1.30s/it]                                                          {'loss': 0.191, 'grad_norm': 0.7397893667221069, 'learning_rate': 2.689057789478154e-05, 'epoch': 4.64}
 19%|█▉        | 15181/78504 [9:14:07<22:51:57,  1.30s/it] 19%|█▉        | 15182/78504 [9:14:08<21:12:19,  1.21s/it]                                                          {'loss': 0.1534, 'grad_norm': 0.775223970413208, 'learning_rate': 2.6890153284361602e-05, 'epoch': 4.64}
 19%|█▉        | 15182/78504 [9:14:08<21:12:19,  1.21s/it] 19%|█▉        | 15183/78504 [9:14:09<19:44:48,  1.12s/it]                                                          {'loss': 0.2314, 'grad_norm': 0.7356001734733582, 'learning_rate': 2.688972867394166e-05, 'epoch': 4.64}
 19%|█▉        | 15183/78504 [9:14:09<19:44:48,  1.12s/it] 19%|█▉        | 15184/78504 [9:14:09<17:57:30,  1.02s/it]                                                          {'loss': 0.2716, 'grad_norm': 1.47553551197052, 'learning_rate': 2.688930406352172e-05, 'epoch': 4.64}
 19%|█▉        | 15184/78504 [9:14:09<17:57:30,  1.02s/it] 19%|█▉        | 15185/78504 [9:14:19<60:45:01,  3.45s/it]                                                          {'loss': 0.1734, 'grad_norm': 0.5123687982559204, 'learning_rate': 2.688887945310178e-05, 'epoch': 4.64}
 19%|█▉        | 15185/78504 [9:14:19<60:45:01,  3.45s/it] 19%|█▉        | 15186/78504 [9:14:22<60:17:28,  3.43s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.2246991991996765, 'learning_rate': 2.688845484268184e-05, 'epoch': 4.64}
 19%|█▉        | 15186/78504 [9:14:22<60:17:28,  3.43s/it] 19%|█▉        | 15187/78504 [9:14:25<57:54:19,  3.29s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.40346959233283997, 'learning_rate': 2.6888030232261902e-05, 'epoch': 4.64}
 19%|█▉        | 15187/78504 [9:14:25<57:54:19,  3.29s/it] 19%|█▉        | 15188/78504 [9:14:28<54:12:10,  3.08s/it]                                                          {'loss': 0.0646, 'grad_norm': 0.21397967636585236, 'learning_rate': 2.688760562184196e-05, 'epoch': 4.64}
 19%|█▉        | 15188/78504 [9:14:28<54:12:10,  3.08s/it] 19%|█▉        | 15189/78504 [9:14:30<50:57:50,  2.90s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.2726128399372101, 'learning_rate': 2.6887181011422023e-05, 'epoch': 4.64}
 19%|█▉        | 15189/78504 [9:14:30<50:57:50,  2.90s/it] 19%|█▉        | 15190/78504 [9:14:32<47:37:04,  2.71s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.3098944127559662, 'learning_rate': 2.688675640100208e-05, 'epoch': 4.64}
 19%|█▉        | 15190/78504 [9:14:32<47:37:04,  2.71s/it] 19%|█▉        | 15191/78504 [9:14:35<45:32:21,  2.59s/it]                                                          {'loss': 0.0471, 'grad_norm': 0.661821722984314, 'learning_rate': 2.6886331790582144e-05, 'epoch': 4.64}
 19%|█▉        | 15191/78504 [9:14:35<45:32:21,  2.59s/it] 19%|█▉        | 15192/78504 [9:14:37<42:53:30,  2.44s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.29412132501602173, 'learning_rate': 2.6885907180162202e-05, 'epoch': 4.64}
 19%|█▉        | 15192/78504 [9:14:37<42:53:30,  2.44s/it] 19%|█▉        | 15193/78504 [9:14:39<40:45:08,  2.32s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.34156185388565063, 'learning_rate': 2.6885482569742264e-05, 'epoch': 4.64}
 19%|█▉        | 15193/78504 [9:14:39<40:45:08,  2.32s/it] 19%|█▉        | 15194/78504 [9:14:41<39:45:52,  2.26s/it]                                                          {'loss': 0.0734, 'grad_norm': 0.4843927323818207, 'learning_rate': 2.6885057959322323e-05, 'epoch': 4.65}
 19%|█▉        | 15194/78504 [9:14:41<39:45:52,  2.26s/it] 19%|█▉        | 15195/78504 [9:14:43<38:21:28,  2.18s/it]                                                          {'loss': 0.1072, 'grad_norm': 0.5436331629753113, 'learning_rate': 2.6884633348902385e-05, 'epoch': 4.65}
 19%|█▉        | 15195/78504 [9:14:43<38:21:28,  2.18s/it] 19%|█▉        | 15196/78504 [9:14:45<36:59:58,  2.10s/it]                                                          {'loss': 0.077, 'grad_norm': 0.24658960103988647, 'learning_rate': 2.6884208738482444e-05, 'epoch': 4.65}
 19%|█▉        | 15196/78504 [9:14:45<36:59:58,  2.10s/it] 19%|█▉        | 15197/78504 [9:14:47<35:45:49,  2.03s/it]                                                          {'loss': 0.0913, 'grad_norm': 0.4144369065761566, 'learning_rate': 2.6883784128062503e-05, 'epoch': 4.65}
 19%|█▉        | 15197/78504 [9:14:47<35:45:49,  2.03s/it] 19%|█▉        | 15198/78504 [9:14:48<34:08:29,  1.94s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.6634828448295593, 'learning_rate': 2.6883359517642565e-05, 'epoch': 4.65}
 19%|█▉        | 15198/78504 [9:14:48<34:08:29,  1.94s/it] 19%|█▉        | 15199/78504 [9:14:50<33:12:06,  1.89s/it]                                                          {'loss': 0.1645, 'grad_norm': 0.6143760085105896, 'learning_rate': 2.6882934907222623e-05, 'epoch': 4.65}
 19%|█▉        | 15199/78504 [9:14:50<33:12:06,  1.89s/it] 19%|█▉        | 15200/78504 [9:14:52<31:52:05,  1.81s/it]                                                          {'loss': 0.1725, 'grad_norm': 0.9502337574958801, 'learning_rate': 2.6882510296802685e-05, 'epoch': 4.65}
 19%|█▉        | 15200/78504 [9:14:52<31:52:05,  1.81s/it] 19%|█▉        | 15201/78504 [9:14:53<30:18:26,  1.72s/it]                                                          {'loss': 0.1545, 'grad_norm': 0.8705599904060364, 'learning_rate': 2.6882085686382744e-05, 'epoch': 4.65}
 19%|█▉        | 15201/78504 [9:14:53<30:18:26,  1.72s/it] 19%|█▉        | 15202/78504 [9:14:55<28:59:01,  1.65s/it]                                                          {'loss': 0.1716, 'grad_norm': 1.1893494129180908, 'learning_rate': 2.6881661075962806e-05, 'epoch': 4.65}
 19%|█▉        | 15202/78504 [9:14:55<28:59:01,  1.65s/it] 19%|█▉        | 15203/78504 [9:14:56<27:43:21,  1.58s/it]                                                          {'loss': 0.1555, 'grad_norm': 0.4830440580844879, 'learning_rate': 2.6881236465542865e-05, 'epoch': 4.65}
 19%|█▉        | 15203/78504 [9:14:56<27:43:21,  1.58s/it] 19%|█▉        | 15204/78504 [9:14:57<25:47:12,  1.47s/it]                                                          {'loss': 0.1987, 'grad_norm': 1.0627738237380981, 'learning_rate': 2.6880811855122927e-05, 'epoch': 4.65}
 19%|█▉        | 15204/78504 [9:14:57<25:47:12,  1.47s/it] 19%|█▉        | 15205/78504 [9:14:59<24:05:44,  1.37s/it]                                                          {'loss': 0.194, 'grad_norm': 1.1093292236328125, 'learning_rate': 2.6880387244702986e-05, 'epoch': 4.65}
 19%|█▉        | 15205/78504 [9:14:59<24:05:44,  1.37s/it] 19%|█▉        | 15206/78504 [9:15:00<22:40:14,  1.29s/it]                                                          {'loss': 0.2047, 'grad_norm': 0.83600914478302, 'learning_rate': 2.6879962634283048e-05, 'epoch': 4.65}
 19%|█▉        | 15206/78504 [9:15:00<22:40:14,  1.29s/it] 19%|█▉        | 15207/78504 [9:15:01<21:05:51,  1.20s/it]                                                          {'loss': 0.1987, 'grad_norm': 1.2058535814285278, 'learning_rate': 2.6879538023863107e-05, 'epoch': 4.65}
 19%|█▉        | 15207/78504 [9:15:01<21:05:51,  1.20s/it] 19%|█▉        | 15208/78504 [9:15:02<19:39:15,  1.12s/it]                                                          {'loss': 0.1735, 'grad_norm': 0.7006507515907288, 'learning_rate': 2.687911341344317e-05, 'epoch': 4.65}
 19%|█▉        | 15208/78504 [9:15:02<19:39:15,  1.12s/it] 19%|█▉        | 15209/78504 [9:15:02<17:50:35,  1.01s/it]                                                          {'loss': 0.2231, 'grad_norm': 1.2555279731750488, 'learning_rate': 2.6878688803023227e-05, 'epoch': 4.65}
 19%|█▉        | 15209/78504 [9:15:02<17:50:35,  1.01s/it] 19%|█▉        | 15210/78504 [9:15:10<55:24:47,  3.15s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.7170481085777283, 'learning_rate': 2.6878264192603286e-05, 'epoch': 4.65}
 19%|█▉        | 15210/78504 [9:15:10<55:24:47,  3.15s/it] 19%|█▉        | 15211/78504 [9:15:14<56:29:17,  3.21s/it]                                                          {'loss': 0.0976, 'grad_norm': 1.0965518951416016, 'learning_rate': 2.6877839582183348e-05, 'epoch': 4.65}
 19%|█▉        | 15211/78504 [9:15:14<56:29:17,  3.21s/it] 19%|█▉        | 15212/78504 [9:15:17<54:56:17,  3.12s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.3107706308364868, 'learning_rate': 2.6877414971763407e-05, 'epoch': 4.65}
 19%|█▉        | 15212/78504 [9:15:17<54:56:17,  3.12s/it] 19%|█▉        | 15213/78504 [9:15:19<52:02:58,  2.96s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.5631162524223328, 'learning_rate': 2.687699036134347e-05, 'epoch': 4.65}
 19%|█▉        | 15213/78504 [9:15:19<52:02:58,  2.96s/it] 19%|█▉        | 15214/78504 [9:15:22<49:34:45,  2.82s/it]                                                          {'loss': 0.0506, 'grad_norm': 0.3368028402328491, 'learning_rate': 2.6876565750923528e-05, 'epoch': 4.65}
 19%|█▉        | 15214/78504 [9:15:22<49:34:45,  2.82s/it] 19%|█▉        | 15215/78504 [9:15:24<47:37:17,  2.71s/it]                                                          {'loss': 0.0679, 'grad_norm': 0.3614712059497833, 'learning_rate': 2.687614114050359e-05, 'epoch': 4.65}
 19%|█▉        | 15215/78504 [9:15:24<47:37:17,  2.71s/it] 19%|█▉        | 15216/78504 [9:15:27<45:45:05,  2.60s/it]                                                          {'loss': 0.0584, 'grad_norm': 0.5514152646064758, 'learning_rate': 2.687571653008365e-05, 'epoch': 4.65}
 19%|█▉        | 15216/78504 [9:15:27<45:45:05,  2.60s/it] 19%|█▉        | 15217/78504 [9:15:29<44:09:46,  2.51s/it]                                                          {'loss': 0.0765, 'grad_norm': 0.6279008388519287, 'learning_rate': 2.687529191966371e-05, 'epoch': 4.65}
 19%|█▉        | 15217/78504 [9:15:29<44:09:46,  2.51s/it] 19%|█▉        | 15218/78504 [9:15:31<42:28:03,  2.42s/it]                                                          {'loss': 0.0748, 'grad_norm': 0.34611135721206665, 'learning_rate': 2.687486730924377e-05, 'epoch': 4.65}
 19%|█▉        | 15218/78504 [9:15:31<42:28:03,  2.42s/it] 19%|█▉        | 15219/78504 [9:15:33<41:09:34,  2.34s/it]                                                          {'loss': 0.0654, 'grad_norm': 0.5160683989524841, 'learning_rate': 2.687444269882383e-05, 'epoch': 4.65}
 19%|█▉        | 15219/78504 [9:15:33<41:09:34,  2.34s/it] 19%|█▉        | 15220/78504 [9:15:35<38:37:31,  2.20s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.4075981676578522, 'learning_rate': 2.687401808840389e-05, 'epoch': 4.65}
 19%|█▉        | 15220/78504 [9:15:35<38:37:31,  2.20s/it] 19%|█▉        | 15221/78504 [9:15:37<37:28:59,  2.13s/it]                                                          {'loss': 0.066, 'grad_norm': 0.34837695956230164, 'learning_rate': 2.6873593477983952e-05, 'epoch': 4.65}
 19%|█▉        | 15221/78504 [9:15:37<37:28:59,  2.13s/it] 19%|█▉        | 15222/78504 [9:15:39<36:24:40,  2.07s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.45649248361587524, 'learning_rate': 2.687316886756401e-05, 'epoch': 4.65}
 19%|█▉        | 15222/78504 [9:15:39<36:24:40,  2.07s/it] 19%|█▉        | 15223/78504 [9:15:41<35:18:17,  2.01s/it]                                                          {'loss': 0.1222, 'grad_norm': 0.843285322189331, 'learning_rate': 2.687274425714407e-05, 'epoch': 4.65}
 19%|█▉        | 15223/78504 [9:15:41<35:18:17,  2.01s/it] 19%|█▉        | 15224/78504 [9:15:43<34:00:28,  1.93s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.4295459985733032, 'learning_rate': 2.687231964672413e-05, 'epoch': 4.65}
 19%|█▉        | 15224/78504 [9:15:43<34:00:28,  1.93s/it] 19%|█▉        | 15225/78504 [9:15:44<32:28:40,  1.85s/it]                                                          {'loss': 0.1718, 'grad_norm': 1.2018663883209229, 'learning_rate': 2.687189503630419e-05, 'epoch': 4.65}
 19%|█▉        | 15225/78504 [9:15:44<32:28:40,  1.85s/it] 19%|█▉        | 15226/78504 [9:15:46<30:45:06,  1.75s/it]                                                          {'loss': 0.136, 'grad_norm': 0.6621891260147095, 'learning_rate': 2.6871470425884252e-05, 'epoch': 4.65}
 19%|█▉        | 15226/78504 [9:15:46<30:45:06,  1.75s/it] 19%|█▉        | 15227/78504 [9:15:47<29:14:48,  1.66s/it]                                                          {'loss': 0.1557, 'grad_norm': 1.70203697681427, 'learning_rate': 2.687104581546431e-05, 'epoch': 4.66}
 19%|█▉        | 15227/78504 [9:15:47<29:14:48,  1.66s/it] 19%|█▉        | 15228/78504 [9:15:49<27:56:59,  1.59s/it]                                                          {'loss': 0.1662, 'grad_norm': 0.6863077282905579, 'learning_rate': 2.6870621205044373e-05, 'epoch': 4.66}
 19%|█▉        | 15228/78504 [9:15:49<27:56:59,  1.59s/it] 19%|█▉        | 15229/78504 [9:15:50<26:21:44,  1.50s/it]                                                          {'loss': 0.2048, 'grad_norm': 1.2471818923950195, 'learning_rate': 2.6870196594624432e-05, 'epoch': 4.66}
 19%|█▉        | 15229/78504 [9:15:50<26:21:44,  1.50s/it] 19%|█▉        | 15230/78504 [9:15:51<24:30:36,  1.39s/it]                                                          {'loss': 0.1761, 'grad_norm': 0.8999255299568176, 'learning_rate': 2.6869771984204494e-05, 'epoch': 4.66}
 19%|█▉        | 15230/78504 [9:15:51<24:30:36,  1.39s/it] 19%|█▉        | 15231/78504 [9:15:52<22:58:53,  1.31s/it]                                                          {'loss': 0.1499, 'grad_norm': 1.106839656829834, 'learning_rate': 2.6869347373784553e-05, 'epoch': 4.66}
 19%|█▉        | 15231/78504 [9:15:52<22:58:53,  1.31s/it] 19%|█▉        | 15232/78504 [9:15:53<21:17:19,  1.21s/it]                                                          {'loss': 0.2189, 'grad_norm': 0.9184419512748718, 'learning_rate': 2.6868922763364615e-05, 'epoch': 4.66}
 19%|█▉        | 15232/78504 [9:15:53<21:17:19,  1.21s/it] 19%|█▉        | 15233/78504 [9:15:54<19:49:37,  1.13s/it]                                                          {'loss': 0.1845, 'grad_norm': 1.544843077659607, 'learning_rate': 2.6868498152944673e-05, 'epoch': 4.66}
 19%|█▉        | 15233/78504 [9:15:54<19:49:37,  1.13s/it] 19%|█▉        | 15234/78504 [9:15:55<17:58:58,  1.02s/it]                                                          {'loss': 0.2339, 'grad_norm': 2.688816785812378, 'learning_rate': 2.6868073542524732e-05, 'epoch': 4.66}
 19%|█▉        | 15234/78504 [9:15:55<17:58:58,  1.02s/it] 19%|█▉        | 15235/78504 [9:16:04<58:07:03,  3.31s/it]                                                          {'loss': 0.1654, 'grad_norm': 1.6780455112457275, 'learning_rate': 2.6867648932104794e-05, 'epoch': 4.66}
 19%|█▉        | 15235/78504 [9:16:04<58:07:03,  3.31s/it] 19%|█▉        | 15236/78504 [9:16:07<57:02:40,  3.25s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.26196378469467163, 'learning_rate': 2.6867224321684853e-05, 'epoch': 4.66}
 19%|█▉        | 15236/78504 [9:16:07<57:02:40,  3.25s/it] 19%|█▉        | 15237/78504 [9:16:10<55:27:31,  3.16s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.3065689206123352, 'learning_rate': 2.6866799711264915e-05, 'epoch': 4.66}
 19%|█▉        | 15237/78504 [9:16:10<55:27:31,  3.16s/it] 19%|█▉        | 15238/78504 [9:16:12<52:25:37,  2.98s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.19421719014644623, 'learning_rate': 2.6866375100844974e-05, 'epoch': 4.66}
 19%|█▉        | 15238/78504 [9:16:12<52:25:37,  2.98s/it] 19%|█▉        | 15239/78504 [9:16:15<49:49:14,  2.83s/it]                                                          {'loss': 0.0663, 'grad_norm': 0.46164360642433167, 'learning_rate': 2.6865950490425036e-05, 'epoch': 4.66}
 19%|█▉        | 15239/78504 [9:16:15<49:49:14,  2.83s/it] 19%|█▉        | 15240/78504 [9:16:17<47:39:38,  2.71s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.42243725061416626, 'learning_rate': 2.6865525880005094e-05, 'epoch': 4.66}
 19%|█▉        | 15240/78504 [9:16:17<47:39:38,  2.71s/it] 19%|█▉        | 15241/78504 [9:16:19<45:34:57,  2.59s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.26366862654685974, 'learning_rate': 2.6865101269585157e-05, 'epoch': 4.66}
 19%|█▉        | 15241/78504 [9:16:19<45:34:57,  2.59s/it] 19%|█▉        | 15242/78504 [9:16:22<43:01:33,  2.45s/it]                                                          {'loss': 0.0755, 'grad_norm': 1.1541013717651367, 'learning_rate': 2.6864676659165215e-05, 'epoch': 4.66}
 19%|█▉        | 15242/78504 [9:16:22<43:01:33,  2.45s/it] 19%|█▉        | 15243/78504 [9:16:24<41:38:39,  2.37s/it]                                                          {'loss': 0.08, 'grad_norm': 0.30905359983444214, 'learning_rate': 2.6864252048745277e-05, 'epoch': 4.66}
 19%|█▉        | 15243/78504 [9:16:24<41:38:39,  2.37s/it] 19%|█▉        | 15244/78504 [9:16:26<40:32:13,  2.31s/it]                                                          {'loss': 0.0408, 'grad_norm': 0.20018704235553741, 'learning_rate': 2.6863827438325336e-05, 'epoch': 4.66}
 19%|█▉        | 15244/78504 [9:16:26<40:32:13,  2.31s/it] 19%|█▉        | 15245/78504 [9:16:28<38:14:46,  2.18s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.7446248531341553, 'learning_rate': 2.6863402827905398e-05, 'epoch': 4.66}
 19%|█▉        | 15245/78504 [9:16:28<38:14:46,  2.18s/it] 19%|█▉        | 15246/78504 [9:16:30<37:14:50,  2.12s/it]                                                          {'loss': 0.1101, 'grad_norm': 1.2874201536178589, 'learning_rate': 2.6862978217485457e-05, 'epoch': 4.66}
 19%|█▉        | 15246/78504 [9:16:30<37:14:50,  2.12s/it] 19%|█▉        | 15247/78504 [9:16:32<36:10:40,  2.06s/it]                                                          {'loss': 0.1414, 'grad_norm': 1.163586974143982, 'learning_rate': 2.6862553607065516e-05, 'epoch': 4.66}
 19%|█▉        | 15247/78504 [9:16:32<36:10:40,  2.06s/it] 19%|█▉        | 15248/78504 [9:16:34<35:16:41,  2.01s/it]                                                          {'loss': 0.1096, 'grad_norm': 1.1391769647598267, 'learning_rate': 2.6862128996645578e-05, 'epoch': 4.66}
 19%|█▉        | 15248/78504 [9:16:34<35:16:41,  2.01s/it] 19%|█▉        | 15249/78504 [9:16:35<33:59:02,  1.93s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.7310516834259033, 'learning_rate': 2.6861704386225636e-05, 'epoch': 4.66}
 19%|█▉        | 15249/78504 [9:16:35<33:59:02,  1.93s/it] 19%|█▉        | 15250/78504 [9:16:37<32:24:28,  1.84s/it]                                                          {'loss': 0.1446, 'grad_norm': 0.6041595339775085, 'learning_rate': 2.68612797758057e-05, 'epoch': 4.66}
 19%|█▉        | 15250/78504 [9:16:37<32:24:28,  1.84s/it] 19%|█▉        | 15251/78504 [9:16:38<30:50:14,  1.76s/it]                                                          {'loss': 0.1721, 'grad_norm': 0.5414738059043884, 'learning_rate': 2.6860855165385757e-05, 'epoch': 4.66}
 19%|█▉        | 15251/78504 [9:16:39<30:50:14,  1.76s/it] 19%|█▉        | 15252/78504 [9:16:40<29:34:11,  1.68s/it]                                                          {'loss': 0.1662, 'grad_norm': 0.6315814852714539, 'learning_rate': 2.686043055496582e-05, 'epoch': 4.66}
 19%|█▉        | 15252/78504 [9:16:40<29:34:11,  1.68s/it] 19%|█▉        | 15253/78504 [9:16:41<28:03:30,  1.60s/it]                                                          {'loss': 0.1459, 'grad_norm': 1.2664172649383545, 'learning_rate': 2.6860005944545878e-05, 'epoch': 4.66}
 19%|█▉        | 15253/78504 [9:16:41<28:03:30,  1.60s/it] 19%|█▉        | 15254/78504 [9:16:43<26:21:45,  1.50s/it]                                                          {'loss': 0.2082, 'grad_norm': 0.8090726733207703, 'learning_rate': 2.685958133412594e-05, 'epoch': 4.66}
 19%|█▉        | 15254/78504 [9:16:43<26:21:45,  1.50s/it] 19%|█▉        | 15255/78504 [9:16:44<24:49:22,  1.41s/it]                                                          {'loss': 0.2062, 'grad_norm': 0.6546986103057861, 'learning_rate': 2.6859156723706e-05, 'epoch': 4.66}
 19%|█▉        | 15255/78504 [9:16:44<24:49:22,  1.41s/it] 19%|█▉        | 15256/78504 [9:16:45<23:04:35,  1.31s/it]                                                          {'loss': 0.1923, 'grad_norm': 0.7409433722496033, 'learning_rate': 2.685873211328606e-05, 'epoch': 4.66}
 19%|█▉        | 15256/78504 [9:16:45<23:04:35,  1.31s/it] 19%|█▉        | 15257/78504 [9:16:46<21:41:02,  1.23s/it]                                                          {'loss': 0.1756, 'grad_norm': 0.8616195917129517, 'learning_rate': 2.685830750286612e-05, 'epoch': 4.66}
 19%|█▉        | 15257/78504 [9:16:46<21:41:02,  1.23s/it] 19%|█▉        | 15258/78504 [9:16:47<20:09:07,  1.15s/it]                                                          {'loss': 0.2079, 'grad_norm': 1.5144380331039429, 'learning_rate': 2.685788289244618e-05, 'epoch': 4.66}
 19%|█▉        | 15258/78504 [9:16:47<20:09:07,  1.15s/it] 19%|█▉        | 15259/78504 [9:16:48<18:11:18,  1.04s/it]                                                          {'loss': 0.2176, 'grad_norm': 4.65247106552124, 'learning_rate': 2.685745828202624e-05, 'epoch': 4.66}
 19%|█▉        | 15259/78504 [9:16:48<18:11:18,  1.04s/it] 19%|█▉        | 15260/78504 [9:16:57<59:27:34,  3.38s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.37513479590415955, 'learning_rate': 2.68570336716063e-05, 'epoch': 4.67}
 19%|█▉        | 15260/78504 [9:16:57<59:27:34,  3.38s/it] 19%|█▉        | 15261/78504 [9:17:00<59:18:18,  3.38s/it]                                                          {'loss': 0.0801, 'grad_norm': 0.2784704267978668, 'learning_rate': 2.685660906118636e-05, 'epoch': 4.67}
 19%|█▉        | 15261/78504 [9:17:00<59:18:18,  3.38s/it] 19%|█▉        | 15262/78504 [9:17:03<56:53:56,  3.24s/it]                                                          {'loss': 0.0655, 'grad_norm': 1.253129005432129, 'learning_rate': 2.685618445076642e-05, 'epoch': 4.67}
 19%|█▉        | 15262/78504 [9:17:03<56:53:56,  3.24s/it] 19%|█▉        | 15263/78504 [9:17:05<53:24:30,  3.04s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.27287474274635315, 'learning_rate': 2.6855759840346482e-05, 'epoch': 4.67}
 19%|█▉        | 15263/78504 [9:17:05<53:24:30,  3.04s/it] 19%|█▉        | 15264/78504 [9:17:08<50:30:49,  2.88s/it]                                                          {'loss': 0.0475, 'grad_norm': 0.3435080349445343, 'learning_rate': 2.685533522992654e-05, 'epoch': 4.67}
 19%|█▉        | 15264/78504 [9:17:08<50:30:49,  2.88s/it] 19%|█▉        | 15265/78504 [9:17:10<48:14:52,  2.75s/it]                                                          {'loss': 0.054, 'grad_norm': 0.23666918277740479, 'learning_rate': 2.6854910619506603e-05, 'epoch': 4.67}
 19%|█▉        | 15265/78504 [9:17:10<48:14:52,  2.75s/it] 19%|█▉        | 15266/78504 [9:17:13<45:59:44,  2.62s/it]                                                          {'loss': 0.0947, 'grad_norm': 0.49712640047073364, 'learning_rate': 2.685448600908666e-05, 'epoch': 4.67}
 19%|█▉        | 15266/78504 [9:17:13<45:59:44,  2.62s/it] 19%|█▉        | 15267/78504 [9:17:15<43:18:16,  2.47s/it]                                                          {'loss': 0.066, 'grad_norm': 0.2990431785583496, 'learning_rate': 2.6854061398666723e-05, 'epoch': 4.67}
 19%|█▉        | 15267/78504 [9:17:15<43:18:16,  2.47s/it] 19%|█▉        | 15268/78504 [9:17:17<41:47:58,  2.38s/it]                                                          {'loss': 0.0802, 'grad_norm': 0.2399953156709671, 'learning_rate': 2.6853636788246782e-05, 'epoch': 4.67}
 19%|█▉        | 15268/78504 [9:17:17<41:47:58,  2.38s/it] 19%|█▉        | 15269/78504 [9:17:19<40:32:53,  2.31s/it]                                                          {'loss': 0.0569, 'grad_norm': 0.549022912979126, 'learning_rate': 2.6853212177826844e-05, 'epoch': 4.67}
 19%|█▉        | 15269/78504 [9:17:19<40:32:53,  2.31s/it] 19%|█▉        | 15270/78504 [9:17:21<38:08:05,  2.17s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.31125667691230774, 'learning_rate': 2.6852787567406903e-05, 'epoch': 4.67}
 19%|█▉        | 15270/78504 [9:17:21<38:08:05,  2.17s/it] 19%|█▉        | 15271/78504 [9:17:23<37:08:57,  2.11s/it]                                                          {'loss': 0.1038, 'grad_norm': 0.3690160810947418, 'learning_rate': 2.6852362956986965e-05, 'epoch': 4.67}
 19%|█▉        | 15271/78504 [9:17:23<37:08:57,  2.11s/it] 19%|█▉        | 15272/78504 [9:17:25<36:08:31,  2.06s/it]                                                          {'loss': 0.1094, 'grad_norm': 0.41195112466812134, 'learning_rate': 2.6851938346567027e-05, 'epoch': 4.67}
 19%|█▉        | 15272/78504 [9:17:25<36:08:31,  2.06s/it] 19%|█▉        | 15273/78504 [9:17:27<35:11:47,  2.00s/it]                                                          {'loss': 0.0983, 'grad_norm': 0.6160513162612915, 'learning_rate': 2.6851513736147086e-05, 'epoch': 4.67}
 19%|█▉        | 15273/78504 [9:17:27<35:11:47,  2.00s/it] 19%|█▉        | 15274/78504 [9:17:29<33:55:14,  1.93s/it]                                                          {'loss': 0.119, 'grad_norm': 0.32999229431152344, 'learning_rate': 2.6851089125727148e-05, 'epoch': 4.67}
 19%|█▉        | 15274/78504 [9:17:29<33:55:14,  1.93s/it] 19%|█▉        | 15275/78504 [9:17:30<32:05:34,  1.83s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.4671297073364258, 'learning_rate': 2.6850664515307207e-05, 'epoch': 4.67}
 19%|█▉        | 15275/78504 [9:17:30<32:05:34,  1.83s/it] 19%|█▉        | 15276/78504 [9:17:32<30:34:19,  1.74s/it]                                                          {'loss': 0.1622, 'grad_norm': 0.42172563076019287, 'learning_rate': 2.685023990488727e-05, 'epoch': 4.67}
 19%|█▉        | 15276/78504 [9:17:32<30:34:19,  1.74s/it] 19%|█▉        | 15277/78504 [9:17:33<29:21:09,  1.67s/it]                                                          {'loss': 0.153, 'grad_norm': 0.7595468163490295, 'learning_rate': 2.6849815294467327e-05, 'epoch': 4.67}
 19%|█▉        | 15277/78504 [9:17:33<29:21:09,  1.67s/it] 19%|█▉        | 15278/78504 [9:17:35<28:00:58,  1.60s/it]                                                          {'loss': 0.1841, 'grad_norm': 0.572964608669281, 'learning_rate': 2.684939068404739e-05, 'epoch': 4.67}
 19%|█▉        | 15278/78504 [9:17:35<28:00:58,  1.60s/it] 19%|█▉        | 15279/78504 [9:17:36<26:23:14,  1.50s/it]                                                          {'loss': 0.1791, 'grad_norm': 1.2081363201141357, 'learning_rate': 2.6848966073627448e-05, 'epoch': 4.67}
 19%|█▉        | 15279/78504 [9:17:36<26:23:14,  1.50s/it] 19%|█▉        | 15280/78504 [9:17:37<24:30:07,  1.40s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.5043083429336548, 'learning_rate': 2.684854146320751e-05, 'epoch': 4.67}
 19%|█▉        | 15280/78504 [9:17:37<24:30:07,  1.40s/it] 19%|█▉        | 15281/78504 [9:17:38<22:57:48,  1.31s/it]                                                          {'loss': 0.2139, 'grad_norm': 1.2053991556167603, 'learning_rate': 2.684811685278757e-05, 'epoch': 4.67}
 19%|█▉        | 15281/78504 [9:17:38<22:57:48,  1.31s/it] 19%|█▉        | 15282/78504 [9:17:39<21:18:58,  1.21s/it]                                                          {'loss': 0.1954, 'grad_norm': 1.2170993089675903, 'learning_rate': 2.684769224236763e-05, 'epoch': 4.67}
 19%|█▉        | 15282/78504 [9:17:39<21:18:58,  1.21s/it] 19%|█▉        | 15283/78504 [9:17:40<19:49:35,  1.13s/it]                                                          {'loss': 0.2367, 'grad_norm': 4.4421257972717285, 'learning_rate': 2.684726763194769e-05, 'epoch': 4.67}
 19%|█▉        | 15283/78504 [9:17:40<19:49:35,  1.13s/it] 19%|█▉        | 15284/78504 [9:17:41<17:59:54,  1.02s/it]                                                          {'loss': 0.233, 'grad_norm': 2.0551795959472656, 'learning_rate': 2.6846843021527752e-05, 'epoch': 4.67}
 19%|█▉        | 15284/78504 [9:17:41<17:59:54,  1.02s/it] 19%|█▉        | 15285/78504 [9:17:49<53:35:45,  3.05s/it]                                                          {'loss': 0.1375, 'grad_norm': 0.4052104651927948, 'learning_rate': 2.684641841110781e-05, 'epoch': 4.67}
 19%|█▉        | 15285/78504 [9:17:49<53:35:45,  3.05s/it] 19%|█▉        | 15286/78504 [9:17:52<54:03:30,  3.08s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.5589884519577026, 'learning_rate': 2.684599380068787e-05, 'epoch': 4.67}
 19%|█▉        | 15286/78504 [9:17:52<54:03:30,  3.08s/it] 19%|█▉        | 15287/78504 [9:17:54<51:23:13,  2.93s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.693835973739624, 'learning_rate': 2.684556919026793e-05, 'epoch': 4.67}
 19%|█▉        | 15287/78504 [9:17:54<51:23:13,  2.93s/it] 19%|█▉        | 15288/78504 [9:17:57<49:44:17,  2.83s/it]                                                          {'loss': 0.0633, 'grad_norm': 0.2044287919998169, 'learning_rate': 2.684514457984799e-05, 'epoch': 4.67}
 19%|█▉        | 15288/78504 [9:17:57<49:44:17,  2.83s/it] 19%|█▉        | 15289/78504 [9:17:59<47:48:55,  2.72s/it]                                                          {'loss': 0.0553, 'grad_norm': 0.2552923858165741, 'learning_rate': 2.6844719969428052e-05, 'epoch': 4.67}
 19%|█▉        | 15289/78504 [9:17:59<47:48:55,  2.72s/it] 19%|█▉        | 15290/78504 [9:18:02<45:25:18,  2.59s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.1554703265428543, 'learning_rate': 2.684429535900811e-05, 'epoch': 4.67}
 19%|█▉        | 15290/78504 [9:18:02<45:25:18,  2.59s/it] 19%|█▉        | 15291/78504 [9:18:04<43:59:10,  2.51s/it]                                                          {'loss': 0.0485, 'grad_norm': 0.21028399467468262, 'learning_rate': 2.6843870748588173e-05, 'epoch': 4.67}
 19%|█▉        | 15291/78504 [9:18:04<43:59:10,  2.51s/it] 19%|█▉        | 15292/78504 [9:18:06<41:55:24,  2.39s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.24622809886932373, 'learning_rate': 2.684344613816823e-05, 'epoch': 4.68}
 19%|█▉        | 15292/78504 [9:18:06<41:55:24,  2.39s/it] 19%|█▉        | 15293/78504 [9:18:08<40:51:26,  2.33s/it]                                                          {'loss': 0.0673, 'grad_norm': 1.4033833742141724, 'learning_rate': 2.6843021527748294e-05, 'epoch': 4.68}
 19%|█▉        | 15293/78504 [9:18:08<40:51:26,  2.33s/it] 19%|█▉        | 15294/78504 [9:18:10<39:59:36,  2.28s/it]                                                          {'loss': 0.066, 'grad_norm': 0.24114589393138885, 'learning_rate': 2.6842596917328352e-05, 'epoch': 4.68}
 19%|█▉        | 15294/78504 [9:18:10<39:59:36,  2.28s/it] 19%|█▉        | 15295/78504 [9:18:12<38:40:17,  2.20s/it]                                                          {'loss': 0.0857, 'grad_norm': 0.32737278938293457, 'learning_rate': 2.6842172306908414e-05, 'epoch': 4.68}
 19%|█▉        | 15295/78504 [9:18:12<38:40:17,  2.20s/it] 19%|█▉        | 15296/78504 [9:18:14<37:31:43,  2.14s/it]                                                          {'loss': 0.094, 'grad_norm': 1.0100278854370117, 'learning_rate': 2.6841747696488473e-05, 'epoch': 4.68}
 19%|█▉        | 15296/78504 [9:18:14<37:31:43,  2.14s/it] 19%|█▉        | 15297/78504 [9:18:16<36:12:06,  2.06s/it]                                                          {'loss': 0.1252, 'grad_norm': 0.446646511554718, 'learning_rate': 2.6841323086068535e-05, 'epoch': 4.68}
 19%|█▉        | 15297/78504 [9:18:16<36:12:06,  2.06s/it] 19%|█▉        | 15298/78504 [9:18:18<35:09:44,  2.00s/it]                                                          {'loss': 0.1268, 'grad_norm': 0.46299585700035095, 'learning_rate': 2.6840898475648594e-05, 'epoch': 4.68}
 19%|█▉        | 15298/78504 [9:18:18<35:09:44,  2.00s/it] 19%|█▉        | 15299/78504 [9:18:20<33:53:33,  1.93s/it]                                                          {'loss': 0.1134, 'grad_norm': 0.504539966583252, 'learning_rate': 2.6840473865228653e-05, 'epoch': 4.68}
 19%|█▉        | 15299/78504 [9:18:20<33:53:33,  1.93s/it] 19%|█▉        | 15300/78504 [9:18:22<32:25:04,  1.85s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.4523053467273712, 'learning_rate': 2.6840049254808715e-05, 'epoch': 4.68}
 19%|█▉        | 15300/78504 [9:18:22<32:25:04,  1.85s/it] 19%|█▉        | 15301/78504 [9:18:23<30:50:39,  1.76s/it]                                                          {'loss': 0.1661, 'grad_norm': 0.5754449367523193, 'learning_rate': 2.6839624644388773e-05, 'epoch': 4.68}
 19%|█▉        | 15301/78504 [9:18:23<30:50:39,  1.76s/it] 19%|█▉        | 15302/78504 [9:18:25<29:35:15,  1.69s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.43748170137405396, 'learning_rate': 2.6839200033968835e-05, 'epoch': 4.68}
 19%|█▉        | 15302/78504 [9:18:25<29:35:15,  1.69s/it] 19%|█▉        | 15303/78504 [9:18:26<28:10:16,  1.60s/it]                                                          {'loss': 0.1806, 'grad_norm': 1.4039044380187988, 'learning_rate': 2.6838775423548894e-05, 'epoch': 4.68}
 19%|█▉        | 15303/78504 [9:18:26<28:10:16,  1.60s/it] 19%|█▉        | 15304/78504 [9:18:27<26:28:10,  1.51s/it]                                                          {'loss': 0.1829, 'grad_norm': 0.586067259311676, 'learning_rate': 2.6838350813128956e-05, 'epoch': 4.68}
 19%|█▉        | 15304/78504 [9:18:27<26:28:10,  1.51s/it] 19%|█▉        | 15305/78504 [9:18:29<24:53:27,  1.42s/it]                                                          {'loss': 0.166, 'grad_norm': 3.4631545543670654, 'learning_rate': 2.6837926202709015e-05, 'epoch': 4.68}
 19%|█▉        | 15305/78504 [9:18:29<24:53:27,  1.42s/it] 19%|█▉        | 15306/78504 [9:18:30<23:09:15,  1.32s/it]                                                          {'loss': 0.1991, 'grad_norm': 1.282674789428711, 'learning_rate': 2.6837501592289077e-05, 'epoch': 4.68}
 19%|█▉        | 15306/78504 [9:18:30<23:09:15,  1.32s/it] 19%|█▉        | 15307/78504 [9:18:31<21:42:21,  1.24s/it]                                                          {'loss': 0.2244, 'grad_norm': 0.7190931439399719, 'learning_rate': 2.6837076981869136e-05, 'epoch': 4.68}
 19%|█▉        | 15307/78504 [9:18:31<21:42:21,  1.24s/it] 19%|█▉        | 15308/78504 [9:18:32<20:03:45,  1.14s/it]                                                          {'loss': 0.173, 'grad_norm': 0.6387807130813599, 'learning_rate': 2.6836652371449198e-05, 'epoch': 4.68}
 19%|█▉        | 15308/78504 [9:18:32<20:03:45,  1.14s/it] 20%|█▉        | 15309/78504 [9:18:32<17:59:56,  1.03s/it]                                                          {'loss': 0.2602, 'grad_norm': 1.8184605836868286, 'learning_rate': 2.6836227761029257e-05, 'epoch': 4.68}
 20%|█▉        | 15309/78504 [9:18:32<17:59:56,  1.03s/it] 20%|█▉        | 15310/78504 [9:18:41<60:23:35,  3.44s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.4351781904697418, 'learning_rate': 2.683580315060932e-05, 'epoch': 4.68}
 20%|█▉        | 15310/78504 [9:18:41<60:23:35,  3.44s/it] 20%|█▉        | 15311/78504 [9:18:45<59:56:44,  3.42s/it]                                                          {'loss': 0.065, 'grad_norm': 0.24008022248744965, 'learning_rate': 2.6835378540189377e-05, 'epoch': 4.68}
 20%|█▉        | 15311/78504 [9:18:45<59:56:44,  3.42s/it] 20%|█▉        | 15312/78504 [9:18:48<57:51:32,  3.30s/it]                                                          {'loss': 0.063, 'grad_norm': 0.19755956530570984, 'learning_rate': 2.6834953929769436e-05, 'epoch': 4.68}
 20%|█▉        | 15312/78504 [9:18:48<57:51:32,  3.30s/it] 20%|█▉        | 15313/78504 [9:18:50<53:13:24,  3.03s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.6949129700660706, 'learning_rate': 2.6834529319349498e-05, 'epoch': 4.68}
 20%|█▉        | 15313/78504 [9:18:50<53:13:24,  3.03s/it] 20%|█▉        | 15314/78504 [9:18:53<50:18:32,  2.87s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.27433809638023376, 'learning_rate': 2.6834104708929557e-05, 'epoch': 4.68}
 20%|█▉        | 15314/78504 [9:18:53<50:18:32,  2.87s/it] 20%|█▉        | 15315/78504 [9:18:55<47:09:14,  2.69s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.4499441981315613, 'learning_rate': 2.683368009850962e-05, 'epoch': 4.68}
 20%|█▉        | 15315/78504 [9:18:55<47:09:14,  2.69s/it] 20%|█▉        | 15316/78504 [9:18:57<45:12:42,  2.58s/it]                                                          {'loss': 0.048, 'grad_norm': 0.4316006600856781, 'learning_rate': 2.6833255488089678e-05, 'epoch': 4.68}
 20%|█▉        | 15316/78504 [9:18:57<45:12:42,  2.58s/it] 20%|█▉        | 15317/78504 [9:18:59<42:40:19,  2.43s/it]                                                          {'loss': 0.0441, 'grad_norm': 0.18989861011505127, 'learning_rate': 2.683283087766974e-05, 'epoch': 4.68}
 20%|█▉        | 15317/78504 [9:18:59<42:40:19,  2.43s/it] 20%|█▉        | 15318/78504 [9:19:02<41:23:21,  2.36s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.3578616976737976, 'learning_rate': 2.68324062672498e-05, 'epoch': 4.68}
 20%|█▉        | 15318/78504 [9:19:02<41:23:21,  2.36s/it] 20%|█▉        | 15319/78504 [9:19:04<40:15:12,  2.29s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.19206783175468445, 'learning_rate': 2.683198165682986e-05, 'epoch': 4.68}
 20%|█▉        | 15319/78504 [9:19:04<40:15:12,  2.29s/it] 20%|█▉        | 15320/78504 [9:19:06<38:47:47,  2.21s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.2714749872684479, 'learning_rate': 2.683155704640992e-05, 'epoch': 4.68}
 20%|█▉        | 15320/78504 [9:19:06<38:47:47,  2.21s/it] 20%|█▉        | 15321/78504 [9:19:08<37:35:31,  2.14s/it]                                                          {'loss': 0.079, 'grad_norm': 0.5455918908119202, 'learning_rate': 2.683113243598998e-05, 'epoch': 4.68}
 20%|█▉        | 15321/78504 [9:19:08<37:35:31,  2.14s/it] 20%|█▉        | 15322/78504 [9:19:10<36:10:43,  2.06s/it]                                                          {'loss': 0.1162, 'grad_norm': 0.5277292728424072, 'learning_rate': 2.683070782557004e-05, 'epoch': 4.68}
 20%|█▉        | 15322/78504 [9:19:10<36:10:43,  2.06s/it] 20%|█▉        | 15323/78504 [9:19:11<35:08:28,  2.00s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.36300474405288696, 'learning_rate': 2.6830283215150102e-05, 'epoch': 4.68}
 20%|█▉        | 15323/78504 [9:19:12<35:08:28,  2.00s/it] 20%|█▉        | 15324/78504 [9:19:13<33:17:59,  1.90s/it]                                                          {'loss': 0.1225, 'grad_norm': 0.8622922301292419, 'learning_rate': 2.682985860473016e-05, 'epoch': 4.68}
 20%|█▉        | 15324/78504 [9:19:13<33:17:59,  1.90s/it] 20%|█▉        | 15325/78504 [9:19:15<31:57:58,  1.82s/it]                                                          {'loss': 0.1307, 'grad_norm': 0.29505693912506104, 'learning_rate': 2.682943399431022e-05, 'epoch': 4.69}
 20%|█▉        | 15325/78504 [9:19:15<31:57:58,  1.82s/it] 20%|█▉        | 15326/78504 [9:19:16<30:20:29,  1.73s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.3669566512107849, 'learning_rate': 2.682900938389028e-05, 'epoch': 4.69}
 20%|█▉        | 15326/78504 [9:19:16<30:20:29,  1.73s/it] 20%|█▉        | 15327/78504 [9:19:18<28:58:03,  1.65s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.750697672367096, 'learning_rate': 2.682858477347034e-05, 'epoch': 4.69}
 20%|█▉        | 15327/78504 [9:19:18<28:58:03,  1.65s/it] 20%|█▉        | 15328/78504 [9:19:19<27:42:58,  1.58s/it]                                                          {'loss': 0.1638, 'grad_norm': 0.8791185617446899, 'learning_rate': 2.6828160163050402e-05, 'epoch': 4.69}
 20%|█▉        | 15328/78504 [9:19:19<27:42:58,  1.58s/it] 20%|█▉        | 15329/78504 [9:19:20<25:50:40,  1.47s/it]                                                          {'loss': 0.2182, 'grad_norm': 1.0825074911117554, 'learning_rate': 2.682773555263046e-05, 'epoch': 4.69}
 20%|█▉        | 15329/78504 [9:19:20<25:50:40,  1.47s/it] 20%|█▉        | 15330/78504 [9:19:22<24:06:23,  1.37s/it]                                                          {'loss': 0.2007, 'grad_norm': 0.9205499887466431, 'learning_rate': 2.6827310942210523e-05, 'epoch': 4.69}
 20%|█▉        | 15330/78504 [9:19:22<24:06:23,  1.37s/it] 20%|█▉        | 15331/78504 [9:19:23<22:38:29,  1.29s/it]                                                          {'loss': 0.225, 'grad_norm': 0.8986067175865173, 'learning_rate': 2.6826886331790582e-05, 'epoch': 4.69}
 20%|█▉        | 15331/78504 [9:19:23<22:38:29,  1.29s/it] 20%|█▉        | 15332/78504 [9:19:24<21:21:39,  1.22s/it]                                                          {'loss': 0.176, 'grad_norm': 1.7092711925506592, 'learning_rate': 2.6826461721370644e-05, 'epoch': 4.69}
 20%|█▉        | 15332/78504 [9:19:24<21:21:39,  1.22s/it] 20%|█▉        | 15333/78504 [9:19:25<19:50:42,  1.13s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.7372469902038574, 'learning_rate': 2.6826037110950703e-05, 'epoch': 4.69}
 20%|█▉        | 15333/78504 [9:19:25<19:50:42,  1.13s/it] 20%|█▉        | 15334/78504 [9:19:25<18:00:42,  1.03s/it]                                                          {'loss': 0.2533, 'grad_norm': 1.512389063835144, 'learning_rate': 2.6825612500530765e-05, 'epoch': 4.69}
 20%|█▉        | 15334/78504 [9:19:25<18:00:42,  1.03s/it] 20%|█▉        | 15335/78504 [9:19:35<64:53:42,  3.70s/it]                                                          {'loss': 0.1277, 'grad_norm': 0.36468306183815, 'learning_rate': 2.6825187890110823e-05, 'epoch': 4.69}
 20%|█▉        | 15335/78504 [9:19:35<64:53:42,  3.70s/it] 20%|█▉        | 15336/78504 [9:19:38<61:54:47,  3.53s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.41689255833625793, 'learning_rate': 2.6824763279690885e-05, 'epoch': 4.69}
 20%|█▉        | 15336/78504 [9:19:38<61:54:47,  3.53s/it] 20%|█▉        | 15337/78504 [9:19:41<57:59:26,  3.30s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.6217965483665466, 'learning_rate': 2.6824338669270944e-05, 'epoch': 4.69}
 20%|█▉        | 15337/78504 [9:19:41<57:59:26,  3.30s/it] 20%|█▉        | 15338/78504 [9:19:44<54:20:46,  3.10s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.3376365005970001, 'learning_rate': 2.6823914058851003e-05, 'epoch': 4.69}
 20%|█▉        | 15338/78504 [9:19:44<54:20:46,  3.10s/it] 20%|█▉        | 15339/78504 [9:19:46<51:07:28,  2.91s/it]                                                          {'loss': 0.0971, 'grad_norm': 0.31207549571990967, 'learning_rate': 2.6823489448431065e-05, 'epoch': 4.69}
 20%|█▉        | 15339/78504 [9:19:46<51:07:28,  2.91s/it] 20%|█▉        | 15340/78504 [9:19:49<48:34:30,  2.77s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.2932257652282715, 'learning_rate': 2.6823064838011124e-05, 'epoch': 4.69}
 20%|█▉        | 15340/78504 [9:19:49<48:34:30,  2.77s/it] 20%|█▉        | 15341/78504 [9:19:51<46:11:00,  2.63s/it]                                                          {'loss': 0.0666, 'grad_norm': 0.2606724500656128, 'learning_rate': 2.6822640227591186e-05, 'epoch': 4.69}
 20%|█▉        | 15341/78504 [9:19:51<46:11:00,  2.63s/it] 20%|█▉        | 15342/78504 [9:19:53<43:27:42,  2.48s/it]                                                          {'loss': 0.0789, 'grad_norm': 0.2213360071182251, 'learning_rate': 2.6822215617171244e-05, 'epoch': 4.69}
 20%|█▉        | 15342/78504 [9:19:53<43:27:42,  2.48s/it] 20%|█▉        | 15343/78504 [9:19:55<41:53:41,  2.39s/it]                                                          {'loss': 0.0695, 'grad_norm': 0.2538449764251709, 'learning_rate': 2.6821791006751307e-05, 'epoch': 4.69}
 20%|█▉        | 15343/78504 [9:19:55<41:53:41,  2.39s/it] 20%|█▉        | 15344/78504 [9:19:58<40:36:34,  2.31s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.46416765451431274, 'learning_rate': 2.6821366396331365e-05, 'epoch': 4.69}
 20%|█▉        | 15344/78504 [9:19:58<40:36:34,  2.31s/it] 20%|█▉        | 15345/78504 [9:20:00<39:05:33,  2.23s/it]                                                          {'loss': 0.073, 'grad_norm': 0.9298022985458374, 'learning_rate': 2.6820941785911427e-05, 'epoch': 4.69}
 20%|█▉        | 15345/78504 [9:20:00<39:05:33,  2.23s/it] 20%|█▉        | 15346/78504 [9:20:01<36:49:39,  2.10s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.27172115445137024, 'learning_rate': 2.6820517175491486e-05, 'epoch': 4.69}
 20%|█▉        | 15346/78504 [9:20:01<36:49:39,  2.10s/it] 20%|█▉        | 15347/78504 [9:20:03<35:36:26,  2.03s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.4552333950996399, 'learning_rate': 2.6820092565071548e-05, 'epoch': 4.69}
 20%|█▉        | 15347/78504 [9:20:03<35:36:26,  2.03s/it] 20%|█▉        | 15348/78504 [9:20:05<34:36:27,  1.97s/it]                                                          {'loss': 0.1053, 'grad_norm': 0.3680846095085144, 'learning_rate': 2.6819667954651607e-05, 'epoch': 4.69}
 20%|█▉        | 15348/78504 [9:20:05<34:36:27,  1.97s/it] 20%|█▉        | 15349/78504 [9:20:07<33:29:39,  1.91s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.43959516286849976, 'learning_rate': 2.6819243344231666e-05, 'epoch': 4.69}
 20%|█▉        | 15349/78504 [9:20:07<33:29:39,  1.91s/it] 20%|█▉        | 15350/78504 [9:20:08<32:07:52,  1.83s/it]                                                          {'loss': 0.1348, 'grad_norm': 0.4501431882381439, 'learning_rate': 2.6818818733811728e-05, 'epoch': 4.69}
 20%|█▉        | 15350/78504 [9:20:08<32:07:52,  1.83s/it] 20%|█▉        | 15351/78504 [9:20:10<30:37:42,  1.75s/it]                                                          {'loss': 0.121, 'grad_norm': 1.3817964792251587, 'learning_rate': 2.6818394123391786e-05, 'epoch': 4.69}
 20%|█▉        | 15351/78504 [9:20:10<30:37:42,  1.75s/it] 20%|█▉        | 15352/78504 [9:20:11<29:08:57,  1.66s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.422977477312088, 'learning_rate': 2.681796951297185e-05, 'epoch': 4.69}
 20%|█▉        | 15352/78504 [9:20:12<29:08:57,  1.66s/it] 20%|█▉        | 15353/78504 [9:20:13<27:50:36,  1.59s/it]                                                          {'loss': 0.2159, 'grad_norm': 0.5413080453872681, 'learning_rate': 2.6817544902551907e-05, 'epoch': 4.69}
 20%|█▉        | 15353/78504 [9:20:13<27:50:36,  1.59s/it] 20%|█▉        | 15354/78504 [9:20:14<26:18:00,  1.50s/it]                                                          {'loss': 0.1867, 'grad_norm': 1.152778148651123, 'learning_rate': 2.681712029213197e-05, 'epoch': 4.69}
 20%|█▉        | 15354/78504 [9:20:14<26:18:00,  1.50s/it] 20%|█▉        | 15355/78504 [9:20:15<24:28:09,  1.39s/it]                                                          {'loss': 0.1658, 'grad_norm': 0.671959400177002, 'learning_rate': 2.6816695681712028e-05, 'epoch': 4.69}
 20%|█▉        | 15355/78504 [9:20:15<24:28:09,  1.39s/it] 20%|█▉        | 15356/78504 [9:20:16<22:53:25,  1.30s/it]                                                          {'loss': 0.1563, 'grad_norm': 2.610276699066162, 'learning_rate': 2.681627107129209e-05, 'epoch': 4.69}
 20%|█▉        | 15356/78504 [9:20:16<22:53:25,  1.30s/it] 20%|█▉        | 15357/78504 [9:20:17<21:32:58,  1.23s/it]                                                          {'loss': 0.1517, 'grad_norm': 0.9528270363807678, 'learning_rate': 2.681584646087215e-05, 'epoch': 4.69}
 20%|█▉        | 15357/78504 [9:20:18<21:32:58,  1.23s/it] 20%|█▉        | 15358/78504 [9:20:18<19:57:19,  1.14s/it]                                                          {'loss': 0.2041, 'grad_norm': 0.7946162223815918, 'learning_rate': 2.681542185045221e-05, 'epoch': 4.7}
 20%|█▉        | 15358/78504 [9:20:18<19:57:19,  1.14s/it] 20%|█▉        | 15359/78504 [9:20:19<18:06:58,  1.03s/it]                                                          {'loss': 0.214, 'grad_norm': 1.4101364612579346, 'learning_rate': 2.681499724003227e-05, 'epoch': 4.7}
 20%|█▉        | 15359/78504 [9:20:19<18:06:58,  1.03s/it] 20%|█▉        | 15360/78504 [9:20:28<56:31:22,  3.22s/it]                                                          {'loss': 0.1609, 'grad_norm': 0.37842705845832825, 'learning_rate': 2.681457262961233e-05, 'epoch': 4.7}
 20%|█▉        | 15360/78504 [9:20:28<56:31:22,  3.22s/it] 20%|█▉        | 15361/78504 [9:20:31<55:57:44,  3.19s/it]                                                          {'loss': 0.0887, 'grad_norm': 0.3203057050704956, 'learning_rate': 2.681414801919239e-05, 'epoch': 4.7}
 20%|█▉        | 15361/78504 [9:20:31<55:57:44,  3.19s/it] 20%|█▉        | 15362/78504 [9:20:34<55:02:04,  3.14s/it]                                                          {'loss': 0.0903, 'grad_norm': 0.3610048294067383, 'learning_rate': 2.681372340877245e-05, 'epoch': 4.7}
 20%|█▉        | 15362/78504 [9:20:34<55:02:04,  3.14s/it] 20%|█▉        | 15363/78504 [9:20:36<52:17:25,  2.98s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.17888808250427246, 'learning_rate': 2.681329879835251e-05, 'epoch': 4.7}
 20%|█▉        | 15363/78504 [9:20:36<52:17:25,  2.98s/it] 20%|█▉        | 15364/78504 [9:20:39<49:35:00,  2.83s/it]                                                          {'loss': 0.0447, 'grad_norm': 0.36954331398010254, 'learning_rate': 2.681287418793257e-05, 'epoch': 4.7}
 20%|█▉        | 15364/78504 [9:20:39<49:35:00,  2.83s/it] 20%|█▉        | 15365/78504 [9:20:41<46:38:17,  2.66s/it]                                                          {'loss': 0.0353, 'grad_norm': 0.1940033882856369, 'learning_rate': 2.6812449577512632e-05, 'epoch': 4.7}
 20%|█▉        | 15365/78504 [9:20:41<46:38:17,  2.66s/it] 20%|█▉        | 15366/78504 [9:20:43<44:49:26,  2.56s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.1958923637866974, 'learning_rate': 2.681202496709269e-05, 'epoch': 4.7}
 20%|█▉        | 15366/78504 [9:20:43<44:49:26,  2.56s/it] 20%|█▉        | 15367/78504 [9:20:45<42:29:20,  2.42s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.6035119295120239, 'learning_rate': 2.6811600356672753e-05, 'epoch': 4.7}
 20%|█▉        | 15367/78504 [9:20:45<42:29:20,  2.42s/it] 20%|█▉        | 15368/78504 [9:20:48<41:14:22,  2.35s/it]                                                          {'loss': 0.0641, 'grad_norm': 0.43439266085624695, 'learning_rate': 2.681117574625281e-05, 'epoch': 4.7}
 20%|█▉        | 15368/78504 [9:20:48<41:14:22,  2.35s/it] 20%|█▉        | 15369/78504 [9:20:50<40:15:08,  2.30s/it]                                                          {'loss': 0.0967, 'grad_norm': 0.3765634000301361, 'learning_rate': 2.6810751135832873e-05, 'epoch': 4.7}
 20%|█▉        | 15369/78504 [9:20:50<40:15:08,  2.30s/it] 20%|█▉        | 15370/78504 [9:20:52<38:49:01,  2.21s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.28659576177597046, 'learning_rate': 2.6810326525412932e-05, 'epoch': 4.7}
 20%|█▉        | 15370/78504 [9:20:52<38:49:01,  2.21s/it] 20%|█▉        | 15371/78504 [9:20:54<37:37:02,  2.15s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.3753683269023895, 'learning_rate': 2.6809901914992994e-05, 'epoch': 4.7}
 20%|█▉        | 15371/78504 [9:20:54<37:37:02,  2.15s/it] 20%|█▉        | 15372/78504 [9:20:56<36:26:17,  2.08s/it]                                                          {'loss': 0.081, 'grad_norm': 2.839625358581543, 'learning_rate': 2.6809477304573053e-05, 'epoch': 4.7}
 20%|█▉        | 15372/78504 [9:20:56<36:26:17,  2.08s/it] 20%|█▉        | 15373/78504 [9:20:58<35:25:06,  2.02s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.32549476623535156, 'learning_rate': 2.6809052694153115e-05, 'epoch': 4.7}
 20%|█▉        | 15373/78504 [9:20:58<35:25:06,  2.02s/it] 20%|█▉        | 15374/78504 [9:20:59<34:02:25,  1.94s/it]                                                          {'loss': 0.1488, 'grad_norm': 0.6541196703910828, 'learning_rate': 2.6808628083733177e-05, 'epoch': 4.7}
 20%|█▉        | 15374/78504 [9:20:59<34:02:25,  1.94s/it] 20%|█▉        | 15375/78504 [9:21:01<32:30:16,  1.85s/it]                                                          {'loss': 0.1594, 'grad_norm': 0.6634578704833984, 'learning_rate': 2.6808203473313236e-05, 'epoch': 4.7}
 20%|█▉        | 15375/78504 [9:21:01<32:30:16,  1.85s/it] 20%|█▉        | 15376/78504 [9:21:03<30:50:47,  1.76s/it]                                                          {'loss': 0.135, 'grad_norm': 0.5468353033065796, 'learning_rate': 2.6807778862893298e-05, 'epoch': 4.7}
 20%|█▉        | 15376/78504 [9:21:03<30:50:47,  1.76s/it] 20%|█▉        | 15377/78504 [9:21:04<29:33:20,  1.69s/it]                                                          {'loss': 0.1472, 'grad_norm': 0.4541108310222626, 'learning_rate': 2.6807354252473357e-05, 'epoch': 4.7}
 20%|█▉        | 15377/78504 [9:21:04<29:33:20,  1.69s/it] 20%|█▉        | 15378/78504 [9:21:05<27:56:26,  1.59s/it]                                                          {'loss': 0.1396, 'grad_norm': 0.4606721103191376, 'learning_rate': 2.680692964205342e-05, 'epoch': 4.7}
 20%|█▉        | 15378/78504 [9:21:05<27:56:26,  1.59s/it] 20%|█▉        | 15379/78504 [9:21:07<26:17:37,  1.50s/it]                                                          {'loss': 0.1569, 'grad_norm': 1.0668458938598633, 'learning_rate': 2.6806505031633477e-05, 'epoch': 4.7}
 20%|█▉        | 15379/78504 [9:21:07<26:17:37,  1.50s/it] 20%|█▉        | 15380/78504 [9:21:08<24:19:02,  1.39s/it]                                                          {'loss': 0.1633, 'grad_norm': 0.619940459728241, 'learning_rate': 2.680608042121354e-05, 'epoch': 4.7}
 20%|█▉        | 15380/78504 [9:21:08<24:19:02,  1.39s/it] 20%|█▉        | 15381/78504 [9:21:09<22:48:34,  1.30s/it]                                                          {'loss': 0.1702, 'grad_norm': 1.0865042209625244, 'learning_rate': 2.6805655810793598e-05, 'epoch': 4.7}
 20%|█▉        | 15381/78504 [9:21:09<22:48:34,  1.30s/it] 20%|█▉        | 15382/78504 [9:21:10<21:30:47,  1.23s/it]                                                          {'loss': 0.2182, 'grad_norm': 0.9083575010299683, 'learning_rate': 2.680523120037366e-05, 'epoch': 4.7}
 20%|█▉        | 15382/78504 [9:21:10<21:30:47,  1.23s/it] 20%|█▉        | 15383/78504 [9:21:11<19:58:33,  1.14s/it]                                                          {'loss': 0.2118, 'grad_norm': 1.1988587379455566, 'learning_rate': 2.680480658995372e-05, 'epoch': 4.7}
 20%|█▉        | 15383/78504 [9:21:11<19:58:33,  1.14s/it] 20%|█▉        | 15384/78504 [9:21:12<18:03:36,  1.03s/it]                                                          {'loss': 0.2419, 'grad_norm': 1.034746527671814, 'learning_rate': 2.680438197953378e-05, 'epoch': 4.7}
 20%|█▉        | 15384/78504 [9:21:12<18:03:36,  1.03s/it] 20%|█▉        | 15385/78504 [9:21:21<63:13:59,  3.61s/it]                                                          {'loss': 0.1476, 'grad_norm': 0.2843377888202667, 'learning_rate': 2.680395736911384e-05, 'epoch': 4.7}
 20%|█▉        | 15385/78504 [9:21:21<63:13:59,  3.61s/it] 20%|█▉        | 15386/78504 [9:21:25<61:37:24,  3.51s/it]                                                          {'loss': 0.0891, 'grad_norm': 0.3467104732990265, 'learning_rate': 2.6803532758693902e-05, 'epoch': 4.7}
 20%|█▉        | 15386/78504 [9:21:25<61:37:24,  3.51s/it] 20%|█▉        | 15387/78504 [9:21:28<58:48:04,  3.35s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.22001604735851288, 'learning_rate': 2.680310814827396e-05, 'epoch': 4.7}
 20%|█▉        | 15387/78504 [9:21:28<58:48:04,  3.35s/it] 20%|█▉        | 15388/78504 [9:21:30<54:53:24,  3.13s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.2797246277332306, 'learning_rate': 2.680268353785402e-05, 'epoch': 4.7}
 20%|█▉        | 15388/78504 [9:21:30<54:53:24,  3.13s/it] 20%|█▉        | 15389/78504 [9:21:33<50:48:44,  2.90s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.15810856223106384, 'learning_rate': 2.680225892743408e-05, 'epoch': 4.7}
 20%|█▉        | 15389/78504 [9:21:33<50:48:44,  2.90s/it] 20%|█▉        | 15390/78504 [9:21:35<47:25:01,  2.70s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.298189640045166, 'learning_rate': 2.680183431701414e-05, 'epoch': 4.7}
 20%|█▉        | 15390/78504 [9:21:35<47:25:01,  2.70s/it] 20%|█▉        | 15391/78504 [9:21:37<45:27:45,  2.59s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.48106440901756287, 'learning_rate': 2.6801409706594202e-05, 'epoch': 4.71}
 20%|█▉        | 15391/78504 [9:21:37<45:27:45,  2.59s/it] 20%|█▉        | 15392/78504 [9:21:39<42:47:26,  2.44s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.1736774742603302, 'learning_rate': 2.680098509617426e-05, 'epoch': 4.71}
 20%|█▉        | 15392/78504 [9:21:39<42:47:26,  2.44s/it] 20%|█▉        | 15393/78504 [9:21:41<40:34:29,  2.31s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.2914932668209076, 'learning_rate': 2.6800560485754323e-05, 'epoch': 4.71}
 20%|█▉        | 15393/78504 [9:21:41<40:34:29,  2.31s/it] 20%|█▉        | 15394/78504 [9:21:43<39:37:34,  2.26s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.31785130500793457, 'learning_rate': 2.680013587533438e-05, 'epoch': 4.71}
 20%|█▉        | 15394/78504 [9:21:43<39:37:34,  2.26s/it] 20%|█▉        | 15395/78504 [9:21:45<38:12:35,  2.18s/it]                                                          {'loss': 0.0758, 'grad_norm': 0.28000208735466003, 'learning_rate': 2.6799711264914444e-05, 'epoch': 4.71}
 20%|█▉        | 15395/78504 [9:21:45<38:12:35,  2.18s/it] 20%|█▉        | 15396/78504 [9:21:47<36:12:53,  2.07s/it]                                                          {'loss': 0.0753, 'grad_norm': 1.1339943408966064, 'learning_rate': 2.6799286654494502e-05, 'epoch': 4.71}
 20%|█▉        | 15396/78504 [9:21:47<36:12:53,  2.07s/it] 20%|█▉        | 15397/78504 [9:21:49<35:09:04,  2.01s/it]                                                          {'loss': 0.0752, 'grad_norm': 0.2626739740371704, 'learning_rate': 2.6798862044074564e-05, 'epoch': 4.71}
 20%|█▉        | 15397/78504 [9:21:49<35:09:04,  2.01s/it] 20%|█▉        | 15398/78504 [9:21:51<34:16:51,  1.96s/it]                                                          {'loss': 0.1406, 'grad_norm': 0.5425975918769836, 'learning_rate': 2.6798437433654623e-05, 'epoch': 4.71}
 20%|█▉        | 15398/78504 [9:21:51<34:16:51,  1.96s/it] 20%|█▉        | 15399/78504 [9:21:53<33:05:08,  1.89s/it]                                                          {'loss': 0.1289, 'grad_norm': 0.5332227349281311, 'learning_rate': 2.6798012823234685e-05, 'epoch': 4.71}
 20%|█▉        | 15399/78504 [9:21:53<33:05:08,  1.89s/it] 20%|█▉        | 15400/78504 [9:21:54<31:48:57,  1.82s/it]                                                          {'loss': 0.1589, 'grad_norm': 0.8117501139640808, 'learning_rate': 2.6797588212814744e-05, 'epoch': 4.71}
 20%|█▉        | 15400/78504 [9:21:54<31:48:57,  1.82s/it] 20%|█▉        | 15401/78504 [9:21:56<30:21:01,  1.73s/it]                                                          {'loss': 0.1394, 'grad_norm': 0.6738077402114868, 'learning_rate': 2.6797163602394803e-05, 'epoch': 4.71}
 20%|█▉        | 15401/78504 [9:21:56<30:21:01,  1.73s/it] 20%|█▉        | 15402/78504 [9:21:57<28:56:45,  1.65s/it]                                                          {'loss': 0.1475, 'grad_norm': 1.5666565895080566, 'learning_rate': 2.6796738991974865e-05, 'epoch': 4.71}
 20%|█▉        | 15402/78504 [9:21:57<28:56:45,  1.65s/it] 20%|█▉        | 15403/78504 [9:21:59<27:38:26,  1.58s/it]                                                          {'loss': 0.1624, 'grad_norm': 0.6043332815170288, 'learning_rate': 2.6796314381554923e-05, 'epoch': 4.71}
 20%|█▉        | 15403/78504 [9:21:59<27:38:26,  1.58s/it] 20%|█▉        | 15404/78504 [9:22:00<26:06:15,  1.49s/it]                                                          {'loss': 0.1322, 'grad_norm': 1.3583390712738037, 'learning_rate': 2.6795889771134986e-05, 'epoch': 4.71}
 20%|█▉        | 15404/78504 [9:22:00<26:06:15,  1.49s/it] 20%|█▉        | 15405/78504 [9:22:01<24:18:54,  1.39s/it]                                                          {'loss': 0.1723, 'grad_norm': 0.6382148861885071, 'learning_rate': 2.6795465160715044e-05, 'epoch': 4.71}
 20%|█▉        | 15405/78504 [9:22:01<24:18:54,  1.39s/it] 20%|█▉        | 15406/78504 [9:22:02<22:49:00,  1.30s/it]                                                          {'loss': 0.1708, 'grad_norm': 0.7648168206214905, 'learning_rate': 2.6795040550295106e-05, 'epoch': 4.71}
 20%|█▉        | 15406/78504 [9:22:02<22:49:00,  1.30s/it] 20%|█▉        | 15407/78504 [9:22:03<21:10:13,  1.21s/it]                                                          {'loss': 0.1669, 'grad_norm': 1.538331389427185, 'learning_rate': 2.6794615939875165e-05, 'epoch': 4.71}
 20%|█▉        | 15407/78504 [9:22:03<21:10:13,  1.21s/it] 20%|█▉        | 15408/78504 [9:22:04<19:46:43,  1.13s/it]                                                          {'loss': 0.2103, 'grad_norm': 1.2944849729537964, 'learning_rate': 2.6794191329455227e-05, 'epoch': 4.71}
 20%|█▉        | 15408/78504 [9:22:04<19:46:43,  1.13s/it] 20%|█▉        | 15409/78504 [9:22:05<17:44:35,  1.01s/it]                                                          {'loss': 0.2491, 'grad_norm': 1.098026990890503, 'learning_rate': 2.6793766719035286e-05, 'epoch': 4.71}
 20%|█▉        | 15409/78504 [9:22:05<17:44:35,  1.01s/it] 20%|█▉        | 15410/78504 [9:22:15<66:25:15,  3.79s/it]                                                          {'loss': 0.1315, 'grad_norm': 0.5569389462471008, 'learning_rate': 2.6793342108615348e-05, 'epoch': 4.71}
 20%|█▉        | 15410/78504 [9:22:15<66:25:15,  3.79s/it] 20%|█▉        | 15411/78504 [9:22:18<62:50:40,  3.59s/it]                                                          {'loss': 0.0722, 'grad_norm': 0.4316944479942322, 'learning_rate': 2.6792917498195407e-05, 'epoch': 4.71}
 20%|█▉        | 15411/78504 [9:22:18<62:50:40,  3.59s/it] 20%|█▉        | 15412/78504 [9:22:21<59:40:48,  3.41s/it]                                                          {'loss': 0.1074, 'grad_norm': 0.507596492767334, 'learning_rate': 2.679249288777547e-05, 'epoch': 4.71}
 20%|█▉        | 15412/78504 [9:22:21<59:40:48,  3.41s/it] 20%|█▉        | 15413/78504 [9:22:24<55:21:50,  3.16s/it]                                                          {'loss': 0.0629, 'grad_norm': 0.1910618394613266, 'learning_rate': 2.6792068277355527e-05, 'epoch': 4.71}
 20%|█▉        | 15413/78504 [9:22:24<55:21:50,  3.16s/it] 20%|█▉        | 15414/78504 [9:22:26<51:09:16,  2.92s/it]                                                          {'loss': 0.0452, 'grad_norm': 0.15995095670223236, 'learning_rate': 2.6791643666935586e-05, 'epoch': 4.71}
 20%|█▉        | 15414/78504 [9:22:26<51:09:16,  2.92s/it] 20%|█▉        | 15415/78504 [9:22:29<48:10:34,  2.75s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.25042614340782166, 'learning_rate': 2.6791219056515648e-05, 'epoch': 4.71}
 20%|█▉        | 15415/78504 [9:22:29<48:10:34,  2.75s/it] 20%|█▉        | 15416/78504 [9:22:31<45:57:24,  2.62s/it]                                                          {'loss': 0.0462, 'grad_norm': 0.25537484884262085, 'learning_rate': 2.6790794446095707e-05, 'epoch': 4.71}
 20%|█▉        | 15416/78504 [9:22:31<45:57:24,  2.62s/it] 20%|█▉        | 15417/78504 [9:22:33<43:09:56,  2.46s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.44222912192344666, 'learning_rate': 2.679036983567577e-05, 'epoch': 4.71}
 20%|█▉        | 15417/78504 [9:22:33<43:09:56,  2.46s/it] 20%|█▉        | 15418/78504 [9:22:35<40:52:00,  2.33s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.28733983635902405, 'learning_rate': 2.6789945225255828e-05, 'epoch': 4.71}
 20%|█▉        | 15418/78504 [9:22:35<40:52:00,  2.33s/it] 20%|█▉        | 15419/78504 [9:22:37<39:50:19,  2.27s/it]                                                          {'loss': 0.083, 'grad_norm': 1.6393259763717651, 'learning_rate': 2.678952061483589e-05, 'epoch': 4.71}
 20%|█▉        | 15419/78504 [9:22:37<39:50:19,  2.27s/it] 20%|█▉        | 15420/78504 [9:22:39<38:33:30,  2.20s/it]                                                          {'loss': 0.0826, 'grad_norm': 0.42061322927474976, 'learning_rate': 2.678909600441595e-05, 'epoch': 4.71}
 20%|█▉        | 15420/78504 [9:22:39<38:33:30,  2.20s/it] 20%|█▉        | 15421/78504 [9:22:41<37:21:27,  2.13s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.44739097356796265, 'learning_rate': 2.678867139399601e-05, 'epoch': 4.71}
 20%|█▉        | 15421/78504 [9:22:41<37:21:27,  2.13s/it] 20%|█▉        | 15422/78504 [9:22:43<35:56:16,  2.05s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.4270138144493103, 'learning_rate': 2.678824678357607e-05, 'epoch': 4.71}
 20%|█▉        | 15422/78504 [9:22:43<35:56:16,  2.05s/it] 20%|█▉        | 15423/78504 [9:22:45<34:10:07,  1.95s/it]                                                          {'loss': 0.1171, 'grad_norm': 0.38622352480888367, 'learning_rate': 2.678782217315613e-05, 'epoch': 4.72}
 20%|█▉        | 15423/78504 [9:22:45<34:10:07,  1.95s/it] 20%|█▉        | 15424/78504 [9:22:46<32:55:18,  1.88s/it]                                                          {'loss': 0.1219, 'grad_norm': 0.6039283871650696, 'learning_rate': 2.678739756273619e-05, 'epoch': 4.72}
 20%|█▉        | 15424/78504 [9:22:46<32:55:18,  1.88s/it] 20%|█▉        | 15425/78504 [9:22:48<31:42:56,  1.81s/it]                                                          {'loss': 0.1291, 'grad_norm': 1.0906482934951782, 'learning_rate': 2.6786972952316252e-05, 'epoch': 4.72}
 20%|█▉        | 15425/78504 [9:22:48<31:42:56,  1.81s/it] 20%|█▉        | 15426/78504 [9:22:50<30:09:47,  1.72s/it]                                                          {'loss': 0.1549, 'grad_norm': 0.8775330781936646, 'learning_rate': 2.678654834189631e-05, 'epoch': 4.72}
 20%|█▉        | 15426/78504 [9:22:50<30:09:47,  1.72s/it] 20%|█▉        | 15427/78504 [9:22:51<28:49:48,  1.65s/it]                                                          {'loss': 0.1489, 'grad_norm': 0.5587326884269714, 'learning_rate': 2.678612373147637e-05, 'epoch': 4.72}
 20%|█▉        | 15427/78504 [9:22:51<28:49:48,  1.65s/it] 20%|█▉        | 15428/78504 [9:22:52<27:36:49,  1.58s/it]                                                          {'loss': 0.1558, 'grad_norm': 0.5096992254257202, 'learning_rate': 2.678569912105643e-05, 'epoch': 4.72}
 20%|█▉        | 15428/78504 [9:22:52<27:36:49,  1.58s/it] 20%|█▉        | 15429/78504 [9:22:54<26:03:53,  1.49s/it]                                                          {'loss': 0.2014, 'grad_norm': 1.0123767852783203, 'learning_rate': 2.678527451063649e-05, 'epoch': 4.72}
 20%|█▉        | 15429/78504 [9:22:54<26:03:53,  1.49s/it] 20%|█▉        | 15430/78504 [9:22:55<24:18:48,  1.39s/it]                                                          {'loss': 0.1596, 'grad_norm': 0.989216148853302, 'learning_rate': 2.6784849900216552e-05, 'epoch': 4.72}
 20%|█▉        | 15430/78504 [9:22:55<24:18:48,  1.39s/it] 20%|█▉        | 15431/78504 [9:22:56<22:45:46,  1.30s/it]                                                          {'loss': 0.2406, 'grad_norm': 1.4644906520843506, 'learning_rate': 2.678442528979661e-05, 'epoch': 4.72}
 20%|█▉        | 15431/78504 [9:22:56<22:45:46,  1.30s/it] 20%|█▉        | 15432/78504 [9:22:57<21:07:43,  1.21s/it]                                                          {'loss': 0.1588, 'grad_norm': 2.0006353855133057, 'learning_rate': 2.6784000679376673e-05, 'epoch': 4.72}
 20%|█▉        | 15432/78504 [9:22:57<21:07:43,  1.21s/it] 20%|█▉        | 15433/78504 [9:22:58<19:41:36,  1.12s/it]                                                          {'loss': 0.207, 'grad_norm': 0.9193089604377747, 'learning_rate': 2.6783576068956732e-05, 'epoch': 4.72}
 20%|█▉        | 15433/78504 [9:22:58<19:41:36,  1.12s/it] 20%|█▉        | 15434/78504 [9:22:59<17:52:36,  1.02s/it]                                                          {'loss': 0.2527, 'grad_norm': 1.4329336881637573, 'learning_rate': 2.6783151458536794e-05, 'epoch': 4.72}
 20%|█▉        | 15434/78504 [9:22:59<17:52:36,  1.02s/it] 20%|█▉        | 15435/78504 [9:23:07<53:53:46,  3.08s/it]                                                          {'loss': 0.1384, 'grad_norm': 0.5682390928268433, 'learning_rate': 2.6782726848116853e-05, 'epoch': 4.72}
 20%|█▉        | 15435/78504 [9:23:07<53:53:46,  3.08s/it] 20%|█▉        | 15436/78504 [9:23:10<54:50:36,  3.13s/it]                                                          {'loss': 0.075, 'grad_norm': 0.345245361328125, 'learning_rate': 2.6782302237696915e-05, 'epoch': 4.72}
 20%|█▉        | 15436/78504 [9:23:10<54:50:36,  3.13s/it] 20%|█▉        | 15437/78504 [9:23:13<54:13:53,  3.10s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.287173867225647, 'learning_rate': 2.6781877627276973e-05, 'epoch': 4.72}
 20%|█▉        | 15437/78504 [9:23:13<54:13:53,  3.10s/it] 20%|█▉        | 15438/78504 [9:23:15<51:42:28,  2.95s/it]                                                          {'loss': 0.0807, 'grad_norm': 2.1938114166259766, 'learning_rate': 2.6781453016857036e-05, 'epoch': 4.72}
 20%|█▉        | 15438/78504 [9:23:15<51:42:28,  2.95s/it] 20%|█▉        | 15439/78504 [9:23:18<49:14:55,  2.81s/it]                                                          {'loss': 0.0332, 'grad_norm': 0.11572805792093277, 'learning_rate': 2.6781028406437094e-05, 'epoch': 4.72}
 20%|█▉        | 15439/78504 [9:23:18<49:14:55,  2.81s/it] 20%|█▉        | 15440/78504 [9:23:20<47:14:57,  2.70s/it]                                                          {'loss': 0.0462, 'grad_norm': 0.17091436684131622, 'learning_rate': 2.6780603796017153e-05, 'epoch': 4.72}
 20%|█▉        | 15440/78504 [9:23:20<47:14:57,  2.70s/it] 20%|█▉        | 15441/78504 [9:23:23<45:17:13,  2.59s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.4457049071788788, 'learning_rate': 2.6780179185597215e-05, 'epoch': 4.72}
 20%|█▉        | 15441/78504 [9:23:23<45:17:13,  2.59s/it] 20%|█▉        | 15442/78504 [9:23:25<42:45:43,  2.44s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.3122018575668335, 'learning_rate': 2.6779754575177274e-05, 'epoch': 4.72}
 20%|█▉        | 15442/78504 [9:23:25<42:45:43,  2.44s/it] 20%|█▉        | 15443/78504 [9:23:27<41:23:51,  2.36s/it]                                                          {'loss': 0.0517, 'grad_norm': 0.18318095803260803, 'learning_rate': 2.6779329964757336e-05, 'epoch': 4.72}
 20%|█▉        | 15443/78504 [9:23:27<41:23:51,  2.36s/it] 20%|█▉        | 15444/78504 [9:23:29<40:21:20,  2.30s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.24040205776691437, 'learning_rate': 2.6778905354337395e-05, 'epoch': 4.72}
 20%|█▉        | 15444/78504 [9:23:29<40:21:20,  2.30s/it] 20%|█▉        | 15445/78504 [9:23:31<37:58:28,  2.17s/it]                                                          {'loss': 0.0899, 'grad_norm': 0.27532362937927246, 'learning_rate': 2.6778480743917457e-05, 'epoch': 4.72}
 20%|█▉        | 15445/78504 [9:23:31<37:58:28,  2.17s/it] 20%|█▉        | 15446/78504 [9:23:33<37:01:40,  2.11s/it]                                                          {'loss': 0.0694, 'grad_norm': 1.5184118747711182, 'learning_rate': 2.6778056133497515e-05, 'epoch': 4.72}
 20%|█▉        | 15446/78504 [9:23:33<37:01:40,  2.11s/it] 20%|█▉        | 15447/78504 [9:23:35<35:41:31,  2.04s/it]                                                          {'loss': 0.0988, 'grad_norm': 0.2607455849647522, 'learning_rate': 2.6777631523077577e-05, 'epoch': 4.72}
 20%|█▉        | 15447/78504 [9:23:35<35:41:31,  2.04s/it] 20%|█▉        | 15448/78504 [9:23:37<34:46:34,  1.99s/it]                                                          {'loss': 0.1001, 'grad_norm': 0.8992821574211121, 'learning_rate': 2.6777206912657636e-05, 'epoch': 4.72}
 20%|█▉        | 15448/78504 [9:23:37<34:46:34,  1.99s/it] 20%|█▉        | 15449/78504 [9:23:38<33:36:37,  1.92s/it]                                                          {'loss': 0.13, 'grad_norm': 0.6894249320030212, 'learning_rate': 2.6776782302237698e-05, 'epoch': 4.72}
 20%|█▉        | 15449/78504 [9:23:38<33:36:37,  1.92s/it] 20%|█▉        | 15450/78504 [9:23:40<32:11:32,  1.84s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.4117873013019562, 'learning_rate': 2.6776357691817757e-05, 'epoch': 4.72}
 20%|█▉        | 15450/78504 [9:23:40<32:11:32,  1.84s/it] 20%|█▉        | 15451/78504 [9:23:42<30:36:27,  1.75s/it]                                                          {'loss': 0.1612, 'grad_norm': 0.534745454788208, 'learning_rate': 2.677593308139782e-05, 'epoch': 4.72}
 20%|█▉        | 15451/78504 [9:23:42<30:36:27,  1.75s/it] 20%|█▉        | 15452/78504 [9:23:43<29:09:44,  1.67s/it]                                                          {'loss': 0.204, 'grad_norm': 0.656191349029541, 'learning_rate': 2.6775508470977878e-05, 'epoch': 4.72}
 20%|█▉        | 15452/78504 [9:23:43<29:09:44,  1.67s/it] 20%|█▉        | 15453/78504 [9:23:45<27:44:59,  1.58s/it]                                                          {'loss': 0.1445, 'grad_norm': 0.6205139756202698, 'learning_rate': 2.6775083860557936e-05, 'epoch': 4.72}
 20%|█▉        | 15453/78504 [9:23:45<27:44:59,  1.58s/it] 20%|█▉        | 15454/78504 [9:23:46<26:11:31,  1.50s/it]                                                          {'loss': 0.2001, 'grad_norm': 0.8376290798187256, 'learning_rate': 2.6774659250138e-05, 'epoch': 4.72}
 20%|█▉        | 15454/78504 [9:23:46<26:11:31,  1.50s/it] 20%|█▉        | 15455/78504 [9:23:47<24:55:02,  1.42s/it]                                                          {'loss': 0.1663, 'grad_norm': 0.9507554769515991, 'learning_rate': 2.6774234639718057e-05, 'epoch': 4.72}
 20%|█▉        | 15455/78504 [9:23:47<24:55:02,  1.42s/it] 20%|█▉        | 15456/78504 [9:23:48<23:09:22,  1.32s/it]                                                          {'loss': 0.1562, 'grad_norm': 1.0310710668563843, 'learning_rate': 2.677381002929812e-05, 'epoch': 4.73}
 20%|█▉        | 15456/78504 [9:23:48<23:09:22,  1.32s/it] 20%|█▉        | 15457/78504 [9:23:49<21:42:14,  1.24s/it]                                                          {'loss': 0.1691, 'grad_norm': 1.2029623985290527, 'learning_rate': 2.6773385418878178e-05, 'epoch': 4.73}
 20%|█▉        | 15457/78504 [9:23:49<21:42:14,  1.24s/it] 20%|█▉        | 15458/78504 [9:23:50<20:07:42,  1.15s/it]                                                          {'loss': 0.2172, 'grad_norm': 3.2564752101898193, 'learning_rate': 2.677296080845824e-05, 'epoch': 4.73}
 20%|█▉        | 15458/78504 [9:23:50<20:07:42,  1.15s/it] 20%|█▉        | 15459/78504 [9:23:51<18:15:25,  1.04s/it]                                                          {'loss': 0.2539, 'grad_norm': 1.4058338403701782, 'learning_rate': 2.67725361980383e-05, 'epoch': 4.73}
 20%|█▉        | 15459/78504 [9:23:51<18:15:25,  1.04s/it] 20%|█▉        | 15460/78504 [9:24:01<63:58:15,  3.65s/it]                                                          {'loss': 0.1132, 'grad_norm': 0.35954463481903076, 'learning_rate': 2.677211158761836e-05, 'epoch': 4.73}
 20%|█▉        | 15460/78504 [9:24:01<63:58:15,  3.65s/it] 20%|█▉        | 15461/78504 [9:24:04<61:13:23,  3.50s/it]                                                          {'loss': 0.0897, 'grad_norm': 0.3148441016674042, 'learning_rate': 2.677168697719842e-05, 'epoch': 4.73}
 20%|█▉        | 15461/78504 [9:24:04<61:13:23,  3.50s/it] 20%|█▉        | 15462/78504 [9:24:07<58:13:49,  3.33s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.22469745576381683, 'learning_rate': 2.677126236677848e-05, 'epoch': 4.73}
 20%|█▉        | 15462/78504 [9:24:07<58:13:49,  3.33s/it] 20%|█▉        | 15463/78504 [9:24:09<54:16:38,  3.10s/it]                                                          {'loss': 0.0661, 'grad_norm': 1.1033726930618286, 'learning_rate': 2.677083775635854e-05, 'epoch': 4.73}
 20%|█▉        | 15463/78504 [9:24:09<54:16:38,  3.10s/it] 20%|█▉        | 15464/78504 [9:24:12<50:59:37,  2.91s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.25563180446624756, 'learning_rate': 2.6770413145938602e-05, 'epoch': 4.73}
 20%|█▉        | 15464/78504 [9:24:12<50:59:37,  2.91s/it] 20%|█▉        | 15465/78504 [9:24:14<48:26:09,  2.77s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.5432220101356506, 'learning_rate': 2.676998853551866e-05, 'epoch': 4.73}
 20%|█▉        | 15465/78504 [9:24:14<48:26:09,  2.77s/it] 20%|█▉        | 15466/78504 [9:24:17<46:04:57,  2.63s/it]                                                          {'loss': 0.0396, 'grad_norm': 0.35140952467918396, 'learning_rate': 2.676956392509872e-05, 'epoch': 4.73}
 20%|█▉        | 15466/78504 [9:24:17<46:04:57,  2.63s/it] 20%|█▉        | 15467/78504 [9:24:19<44:21:51,  2.53s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.9196953773498535, 'learning_rate': 2.6769139314678782e-05, 'epoch': 4.73}
 20%|█▉        | 15467/78504 [9:24:19<44:21:51,  2.53s/it] 20%|█▉        | 15468/78504 [9:24:21<42:30:59,  2.43s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.6146523952484131, 'learning_rate': 2.676871470425884e-05, 'epoch': 4.73}
 20%|█▉        | 15468/78504 [9:24:21<42:30:59,  2.43s/it] 20%|█▉        | 15469/78504 [9:24:23<41:08:04,  2.35s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.1619008630514145, 'learning_rate': 2.6768290093838903e-05, 'epoch': 4.73}
 20%|█▉        | 15469/78504 [9:24:23<41:08:04,  2.35s/it] 20%|█▉        | 15470/78504 [9:24:25<39:24:37,  2.25s/it]                                                          {'loss': 0.1253, 'grad_norm': 0.3170586824417114, 'learning_rate': 2.676786548341896e-05, 'epoch': 4.73}
 20%|█▉        | 15470/78504 [9:24:25<39:24:37,  2.25s/it] 20%|█▉        | 15471/78504 [9:24:27<37:58:28,  2.17s/it]                                                          {'loss': 0.0688, 'grad_norm': 0.2742787301540375, 'learning_rate': 2.6767440872999023e-05, 'epoch': 4.73}
 20%|█▉        | 15471/78504 [9:24:27<37:58:28,  2.17s/it] 20%|█▉        | 15472/78504 [9:24:29<36:31:10,  2.09s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.5337661504745483, 'learning_rate': 2.6767016262579082e-05, 'epoch': 4.73}
 20%|█▉        | 15472/78504 [9:24:29<36:31:10,  2.09s/it] 20%|█▉        | 15473/78504 [9:24:31<35:09:49,  2.01s/it]                                                          {'loss': 0.1337, 'grad_norm': 0.40201741456985474, 'learning_rate': 2.6766591652159144e-05, 'epoch': 4.73}
 20%|█▉        | 15473/78504 [9:24:31<35:09:49,  2.01s/it] 20%|█▉        | 15474/78504 [9:24:33<33:41:00,  1.92s/it]                                                          {'loss': 0.1066, 'grad_norm': 0.30427277088165283, 'learning_rate': 2.6766167041739203e-05, 'epoch': 4.73}
 20%|█▉        | 15474/78504 [9:24:33<33:41:00,  1.92s/it] 20%|█▉        | 15475/78504 [9:24:34<32:12:03,  1.84s/it]                                                          {'loss': 0.1288, 'grad_norm': 0.5065839886665344, 'learning_rate': 2.6765742431319265e-05, 'epoch': 4.73}
 20%|█▉        | 15475/78504 [9:24:34<32:12:03,  1.84s/it] 20%|█▉        | 15476/78504 [9:24:36<30:30:04,  1.74s/it]                                                          {'loss': 0.2168, 'grad_norm': 0.4490653872489929, 'learning_rate': 2.6765317820899327e-05, 'epoch': 4.73}
 20%|█▉        | 15476/78504 [9:24:36<30:30:04,  1.74s/it] 20%|█▉        | 15477/78504 [9:24:37<29:03:45,  1.66s/it]                                                          {'loss': 0.1545, 'grad_norm': 1.2884559631347656, 'learning_rate': 2.6764893210479386e-05, 'epoch': 4.73}
 20%|█▉        | 15477/78504 [9:24:37<29:03:45,  1.66s/it] 20%|█▉        | 15478/78504 [9:24:39<27:48:23,  1.59s/it]                                                          {'loss': 0.1918, 'grad_norm': 0.6753866672515869, 'learning_rate': 2.6764468600059448e-05, 'epoch': 4.73}
 20%|█▉        | 15478/78504 [9:24:39<27:48:23,  1.59s/it] 20%|█▉        | 15479/78504 [9:24:40<26:12:38,  1.50s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.48207879066467285, 'learning_rate': 2.6764043989639507e-05, 'epoch': 4.73}
 20%|█▉        | 15479/78504 [9:24:40<26:12:38,  1.50s/it] 20%|█▉        | 15480/78504 [9:24:41<24:13:22,  1.38s/it]                                                          {'loss': 0.1786, 'grad_norm': 1.3730121850967407, 'learning_rate': 2.676361937921957e-05, 'epoch': 4.73}
 20%|█▉        | 15480/78504 [9:24:41<24:13:22,  1.38s/it] 20%|█▉        | 15481/78504 [9:24:42<22:45:14,  1.30s/it]                                                          {'loss': 0.1591, 'grad_norm': 1.461383581161499, 'learning_rate': 2.6763194768799627e-05, 'epoch': 4.73}
 20%|█▉        | 15481/78504 [9:24:42<22:45:14,  1.30s/it] 20%|█▉        | 15482/78504 [9:24:43<21:11:46,  1.21s/it]                                                          {'loss': 0.2012, 'grad_norm': 1.2919293642044067, 'learning_rate': 2.676277015837969e-05, 'epoch': 4.73}
 20%|█▉        | 15482/78504 [9:24:43<21:11:46,  1.21s/it] 20%|█▉        | 15483/78504 [9:24:44<19:40:47,  1.12s/it]                                                          {'loss': 0.1677, 'grad_norm': 0.932185173034668, 'learning_rate': 2.6762345547959748e-05, 'epoch': 4.73}
 20%|█▉        | 15483/78504 [9:24:44<19:40:47,  1.12s/it] 20%|█▉        | 15484/78504 [9:24:45<17:57:40,  1.03s/it]                                                          {'loss': 0.2763, 'grad_norm': 2.158461093902588, 'learning_rate': 2.676192093753981e-05, 'epoch': 4.73}
 20%|█▉        | 15484/78504 [9:24:45<17:57:40,  1.03s/it] 20%|█▉        | 15485/78504 [9:24:53<56:48:11,  3.24s/it]                                                          {'loss': 0.1509, 'grad_norm': 0.3461936116218567, 'learning_rate': 2.676149632711987e-05, 'epoch': 4.73}
 20%|█▉        | 15485/78504 [9:24:53<56:48:11,  3.24s/it] 20%|█▉        | 15486/78504 [9:24:56<56:03:54,  3.20s/it]                                                          {'loss': 0.1059, 'grad_norm': 0.2451624870300293, 'learning_rate': 2.676107171669993e-05, 'epoch': 4.73}
 20%|█▉        | 15486/78504 [9:24:56<56:03:54,  3.20s/it] 20%|█▉        | 15487/78504 [9:24:59<53:50:47,  3.08s/it]                                                          {'loss': 0.0652, 'grad_norm': 1.624423861503601, 'learning_rate': 2.676064710627999e-05, 'epoch': 4.73}
 20%|█▉        | 15487/78504 [9:24:59<53:50:47,  3.08s/it] 20%|█▉        | 15488/78504 [9:25:02<51:26:00,  2.94s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.2954976260662079, 'learning_rate': 2.6760222495860052e-05, 'epoch': 4.73}
 20%|█▉        | 15488/78504 [9:25:02<51:26:00,  2.94s/it] 20%|█▉        | 15489/78504 [9:25:04<48:58:15,  2.80s/it]                                                          {'loss': 0.0613, 'grad_norm': 0.20741838216781616, 'learning_rate': 2.675979788544011e-05, 'epoch': 4.74}
 20%|█▉        | 15489/78504 [9:25:04<48:58:15,  2.80s/it] 20%|█▉        | 15490/78504 [9:25:07<47:04:49,  2.69s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.4407372772693634, 'learning_rate': 2.675937327502017e-05, 'epoch': 4.74}
 20%|█▉        | 15490/78504 [9:25:07<47:04:49,  2.69s/it] 20%|█▉        | 15491/78504 [9:25:09<45:07:16,  2.58s/it]                                                          {'loss': 0.0482, 'grad_norm': 0.22910399734973907, 'learning_rate': 2.675894866460023e-05, 'epoch': 4.74}
 20%|█▉        | 15491/78504 [9:25:09<45:07:16,  2.58s/it] 20%|█▉        | 15492/78504 [9:25:11<42:34:55,  2.43s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.47492101788520813, 'learning_rate': 2.675852405418029e-05, 'epoch': 4.74}
 20%|█▉        | 15492/78504 [9:25:11<42:34:55,  2.43s/it] 20%|█▉        | 15493/78504 [9:25:13<40:27:07,  2.31s/it]                                                          {'loss': 0.1076, 'grad_norm': 0.3531329035758972, 'learning_rate': 2.6758099443760352e-05, 'epoch': 4.74}
 20%|█▉        | 15493/78504 [9:25:13<40:27:07,  2.31s/it] 20%|█▉        | 15494/78504 [9:25:15<39:31:54,  2.26s/it]                                                          {'loss': 0.0519, 'grad_norm': 0.6856342554092407, 'learning_rate': 2.675767483334041e-05, 'epoch': 4.74}
 20%|█▉        | 15494/78504 [9:25:15<39:31:54,  2.26s/it] 20%|█▉        | 15495/78504 [9:25:17<38:20:31,  2.19s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.7447728514671326, 'learning_rate': 2.6757250222920473e-05, 'epoch': 4.74}
 20%|█▉        | 15495/78504 [9:25:17<38:20:31,  2.19s/it] 20%|█▉        | 15496/78504 [9:25:19<36:18:05,  2.07s/it]                                                          {'loss': 0.0648, 'grad_norm': 0.4982115924358368, 'learning_rate': 2.675682561250053e-05, 'epoch': 4.74}
 20%|█▉        | 15496/78504 [9:25:19<36:18:05,  2.07s/it] 20%|█▉        | 15497/78504 [9:25:21<35:09:51,  2.01s/it]                                                          {'loss': 0.0997, 'grad_norm': 0.6089572310447693, 'learning_rate': 2.6756401002080594e-05, 'epoch': 4.74}
 20%|█▉        | 15497/78504 [9:25:21<35:09:51,  2.01s/it] 20%|█▉        | 15498/78504 [9:25:23<34:19:18,  1.96s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.5358493328094482, 'learning_rate': 2.6755976391660652e-05, 'epoch': 4.74}
 20%|█▉        | 15498/78504 [9:25:23<34:19:18,  1.96s/it] 20%|█▉        | 15499/78504 [9:25:25<33:19:55,  1.90s/it]                                                          {'loss': 0.1355, 'grad_norm': 0.48963049054145813, 'learning_rate': 2.6755551781240714e-05, 'epoch': 4.74}
 20%|█▉        | 15499/78504 [9:25:25<33:19:55,  1.90s/it] 20%|█▉        | 15500/78504 [9:25:26<31:56:44,  1.83s/it]                                                          {'loss': 0.1515, 'grad_norm': 0.6579869985580444, 'learning_rate': 2.6755127170820773e-05, 'epoch': 4.74}
 20%|█▉        | 15500/78504 [9:25:26<31:56:44,  1.83s/it] 20%|█▉        | 15501/78504 [9:25:28<30:25:22,  1.74s/it]                                                          {'loss': 0.2008, 'grad_norm': 0.5658666491508484, 'learning_rate': 2.6754702560400835e-05, 'epoch': 4.74}
 20%|█▉        | 15501/78504 [9:25:28<30:25:22,  1.74s/it] 20%|█▉        | 15502/78504 [9:25:29<29:01:46,  1.66s/it]                                                          {'loss': 0.1847, 'grad_norm': 0.558836817741394, 'learning_rate': 2.6754277949980894e-05, 'epoch': 4.74}
 20%|█▉        | 15502/78504 [9:25:29<29:01:46,  1.66s/it] 20%|█▉        | 15503/78504 [9:25:31<27:44:23,  1.59s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.3692103624343872, 'learning_rate': 2.6753853339560953e-05, 'epoch': 4.74}
 20%|█▉        | 15503/78504 [9:25:31<27:44:23,  1.59s/it] 20%|█▉        | 15504/78504 [9:25:32<26:09:10,  1.49s/it]                                                          {'loss': 0.179, 'grad_norm': 0.6196784973144531, 'learning_rate': 2.6753428729141015e-05, 'epoch': 4.74}
 20%|█▉        | 15504/78504 [9:25:32<26:09:10,  1.49s/it] 20%|█▉        | 15505/78504 [9:25:33<24:22:18,  1.39s/it]                                                          {'loss': 0.1832, 'grad_norm': 0.8737592697143555, 'learning_rate': 2.6753004118721073e-05, 'epoch': 4.74}
 20%|█▉        | 15505/78504 [9:25:33<24:22:18,  1.39s/it] 20%|█▉        | 15506/78504 [9:25:34<22:51:37,  1.31s/it]                                                          {'loss': 0.1807, 'grad_norm': 0.6430594325065613, 'learning_rate': 2.6752579508301136e-05, 'epoch': 4.74}
 20%|█▉        | 15506/78504 [9:25:34<22:51:37,  1.31s/it] 20%|█▉        | 15507/78504 [9:25:35<21:31:38,  1.23s/it]                                                          {'loss': 0.1868, 'grad_norm': 1.2821934223175049, 'learning_rate': 2.6752154897881194e-05, 'epoch': 4.74}
 20%|█▉        | 15507/78504 [9:25:35<21:31:38,  1.23s/it] 20%|█▉        | 15508/78504 [9:25:36<19:53:50,  1.14s/it]                                                          {'loss': 0.1911, 'grad_norm': 0.9619268774986267, 'learning_rate': 2.6751730287461256e-05, 'epoch': 4.74}
 20%|█▉        | 15508/78504 [9:25:36<19:53:50,  1.14s/it] 20%|█▉        | 15509/78504 [9:25:37<18:06:25,  1.03s/it]                                                          {'loss': 0.2541, 'grad_norm': 1.3166967630386353, 'learning_rate': 2.6751305677041315e-05, 'epoch': 4.74}
 20%|█▉        | 15509/78504 [9:25:37<18:06:25,  1.03s/it] 20%|█▉        | 15510/78504 [9:25:45<54:18:15,  3.10s/it]                                                          {'loss': 0.1274, 'grad_norm': 0.3904224634170532, 'learning_rate': 2.6750881066621377e-05, 'epoch': 4.74}
 20%|█▉        | 15510/78504 [9:25:45<54:18:15,  3.10s/it] 20%|█▉        | 15511/78504 [9:25:48<55:20:15,  3.16s/it]                                                          {'loss': 0.0676, 'grad_norm': 0.20141516625881195, 'learning_rate': 2.6750456456201436e-05, 'epoch': 4.74}
 20%|█▉        | 15511/78504 [9:25:48<55:20:15,  3.16s/it] 20%|█▉        | 15512/78504 [9:25:51<52:59:35,  3.03s/it]                                                          {'loss': 0.0406, 'grad_norm': 1.0985835790634155, 'learning_rate': 2.6750031845781498e-05, 'epoch': 4.74}
 20%|█▉        | 15512/78504 [9:25:51<52:59:35,  3.03s/it] 20%|█▉        | 15513/78504 [9:25:54<50:39:51,  2.90s/it]                                                          {'loss': 0.0364, 'grad_norm': 0.1772218644618988, 'learning_rate': 2.6749607235361557e-05, 'epoch': 4.74}
 20%|█▉        | 15513/78504 [9:25:54<50:39:51,  2.90s/it] 20%|█▉        | 15514/78504 [9:25:56<48:32:11,  2.77s/it]                                                          {'loss': 0.0551, 'grad_norm': 0.4501854181289673, 'learning_rate': 2.674918262494162e-05, 'epoch': 4.74}
 20%|█▉        | 15514/78504 [9:25:56<48:32:11,  2.77s/it] 20%|█▉        | 15515/78504 [9:25:58<46:20:46,  2.65s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.2976124584674835, 'learning_rate': 2.6748758014521677e-05, 'epoch': 4.74}
 20%|█▉        | 15515/78504 [9:25:58<46:20:46,  2.65s/it] 20%|█▉        | 15516/78504 [9:26:01<44:40:28,  2.55s/it]                                                          {'loss': 0.0581, 'grad_norm': 0.39957892894744873, 'learning_rate': 2.6748333404101736e-05, 'epoch': 4.74}
 20%|█▉        | 15516/78504 [9:26:01<44:40:28,  2.55s/it] 20%|█▉        | 15517/78504 [9:26:03<43:08:48,  2.47s/it]                                                          {'loss': 0.0661, 'grad_norm': 0.24489343166351318, 'learning_rate': 2.6747908793681798e-05, 'epoch': 4.74}
 20%|█▉        | 15517/78504 [9:26:03<43:08:48,  2.47s/it] 20%|█▉        | 15518/78504 [9:26:05<41:41:27,  2.38s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.26595693826675415, 'learning_rate': 2.6747484183261857e-05, 'epoch': 4.74}
 20%|█▉        | 15518/78504 [9:26:05<41:41:27,  2.38s/it] 20%|█▉        | 15519/78504 [9:26:07<40:24:12,  2.31s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.24549883604049683, 'learning_rate': 2.674705957284192e-05, 'epoch': 4.74}
 20%|█▉        | 15519/78504 [9:26:07<40:24:12,  2.31s/it] 20%|█▉        | 15520/78504 [9:26:09<38:41:49,  2.21s/it]                                                          {'loss': 0.1004, 'grad_norm': 0.4347473680973053, 'learning_rate': 2.6746634962421978e-05, 'epoch': 4.74}
 20%|█▉        | 15520/78504 [9:26:09<38:41:49,  2.21s/it] 20%|█▉        | 15521/78504 [9:26:11<37:10:23,  2.12s/it]                                                          {'loss': 0.1184, 'grad_norm': 0.3296695947647095, 'learning_rate': 2.674621035200204e-05, 'epoch': 4.75}
 20%|█▉        | 15521/78504 [9:26:11<37:10:23,  2.12s/it] 20%|█▉        | 15522/78504 [9:26:13<35:52:31,  2.05s/it]                                                          {'loss': 0.075, 'grad_norm': 0.26916539669036865, 'learning_rate': 2.67457857415821e-05, 'epoch': 4.75}
 20%|█▉        | 15522/78504 [9:26:13<35:52:31,  2.05s/it] 20%|█▉        | 15523/78504 [9:26:15<33:51:40,  1.94s/it]                                                          {'loss': 0.116, 'grad_norm': 0.36684224009513855, 'learning_rate': 2.674536113116216e-05, 'epoch': 4.75}
 20%|█▉        | 15523/78504 [9:26:15<33:51:40,  1.94s/it] 20%|█▉        | 15524/78504 [9:26:17<32:59:21,  1.89s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.5757076740264893, 'learning_rate': 2.674493652074222e-05, 'epoch': 4.75}
 20%|█▉        | 15524/78504 [9:26:17<32:59:21,  1.89s/it] 20%|█▉        | 15525/78504 [9:26:18<31:16:31,  1.79s/it]                                                          {'loss': 0.1172, 'grad_norm': 0.8671665787696838, 'learning_rate': 2.674451191032228e-05, 'epoch': 4.75}
 20%|█▉        | 15525/78504 [9:26:18<31:16:31,  1.79s/it] 20%|█▉        | 15526/78504 [9:26:20<29:51:32,  1.71s/it]                                                          {'loss': 0.1747, 'grad_norm': 0.6456646919250488, 'learning_rate': 2.674408729990234e-05, 'epoch': 4.75}
 20%|█▉        | 15526/78504 [9:26:20<29:51:32,  1.71s/it] 20%|█▉        | 15527/78504 [9:26:21<28:37:29,  1.64s/it]                                                          {'loss': 0.1441, 'grad_norm': 0.47880035638809204, 'learning_rate': 2.6743662689482402e-05, 'epoch': 4.75}
 20%|█▉        | 15527/78504 [9:26:21<28:37:29,  1.64s/it] 20%|█▉        | 15528/78504 [9:26:22<27:27:17,  1.57s/it]                                                          {'loss': 0.1844, 'grad_norm': 0.7509108185768127, 'learning_rate': 2.674323807906246e-05, 'epoch': 4.75}
 20%|█▉        | 15528/78504 [9:26:22<27:27:17,  1.57s/it] 20%|█▉        | 15529/78504 [9:26:24<25:37:01,  1.46s/it]                                                          {'loss': 0.161, 'grad_norm': 1.6328896284103394, 'learning_rate': 2.674281346864252e-05, 'epoch': 4.75}
 20%|█▉        | 15529/78504 [9:26:24<25:37:01,  1.46s/it] 20%|█▉        | 15530/78504 [9:26:25<23:53:46,  1.37s/it]                                                          {'loss': 0.1621, 'grad_norm': 1.1460351943969727, 'learning_rate': 2.674238885822258e-05, 'epoch': 4.75}
 20%|█▉        | 15530/78504 [9:26:25<23:53:46,  1.37s/it] 20%|█▉        | 15531/78504 [9:26:26<22:27:03,  1.28s/it]                                                          {'loss': 0.2171, 'grad_norm': 1.4284043312072754, 'learning_rate': 2.674196424780264e-05, 'epoch': 4.75}
 20%|█▉        | 15531/78504 [9:26:26<22:27:03,  1.28s/it] 20%|█▉        | 15532/78504 [9:26:27<20:54:21,  1.20s/it]                                                          {'loss': 0.1944, 'grad_norm': 0.9615164399147034, 'learning_rate': 2.6741539637382702e-05, 'epoch': 4.75}
 20%|█▉        | 15532/78504 [9:26:27<20:54:21,  1.20s/it] 20%|█▉        | 15533/78504 [9:26:28<19:31:36,  1.12s/it]                                                          {'loss': 0.2337, 'grad_norm': 0.9136574864387512, 'learning_rate': 2.674111502696276e-05, 'epoch': 4.75}
 20%|█▉        | 15533/78504 [9:26:28<19:31:36,  1.12s/it] 20%|█▉        | 15534/78504 [9:26:29<17:45:53,  1.02s/it]                                                          {'loss': 0.2814, 'grad_norm': 2.727055549621582, 'learning_rate': 2.6740690416542823e-05, 'epoch': 4.75}
 20%|█▉        | 15534/78504 [9:26:29<17:45:53,  1.02s/it] 20%|█▉        | 15535/78504 [9:26:39<65:29:29,  3.74s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.6243181228637695, 'learning_rate': 2.6740265806122882e-05, 'epoch': 4.75}
 20%|█▉        | 15535/78504 [9:26:39<65:29:29,  3.74s/it] 20%|█▉        | 15536/78504 [9:26:42<61:59:32,  3.54s/it]                                                          {'loss': 0.0763, 'grad_norm': 0.38999006152153015, 'learning_rate': 2.6739841195702944e-05, 'epoch': 4.75}
 20%|█▉        | 15536/78504 [9:26:42<61:59:32,  3.54s/it] 20%|█▉        | 15537/78504 [9:26:45<58:41:23,  3.36s/it]                                                          {'loss': 0.0867, 'grad_norm': 0.36471548676490784, 'learning_rate': 2.6739416585283003e-05, 'epoch': 4.75}
 20%|█▉        | 15537/78504 [9:26:45<58:41:23,  3.36s/it] 20%|█▉        | 15538/78504 [9:26:47<54:37:16,  3.12s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.21289163827896118, 'learning_rate': 2.6738991974863065e-05, 'epoch': 4.75}
 20%|█▉        | 15538/78504 [9:26:47<54:37:16,  3.12s/it] 20%|█▉        | 15539/78504 [9:26:50<51:17:28,  2.93s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.15584729611873627, 'learning_rate': 2.6738567364443123e-05, 'epoch': 4.75}
 20%|█▉        | 15539/78504 [9:26:50<51:17:28,  2.93s/it] 20%|█▉        | 15540/78504 [9:26:52<48:39:14,  2.78s/it]                                                          {'loss': 0.0543, 'grad_norm': 0.21512000262737274, 'learning_rate': 2.6738142754023186e-05, 'epoch': 4.75}
 20%|█▉        | 15540/78504 [9:26:52<48:39:14,  2.78s/it] 20%|█▉        | 15541/78504 [9:26:55<46:10:40,  2.64s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.7727904319763184, 'learning_rate': 2.6737718143603244e-05, 'epoch': 4.75}
 20%|█▉        | 15541/78504 [9:26:55<46:10:40,  2.64s/it] 20%|█▉        | 15542/78504 [9:26:57<43:24:30,  2.48s/it]                                                          {'loss': 0.087, 'grad_norm': 1.095444679260254, 'learning_rate': 2.6737293533183303e-05, 'epoch': 4.75}
 20%|█▉        | 15542/78504 [9:26:57<43:24:30,  2.48s/it] 20%|█▉        | 15543/78504 [9:26:59<41:48:08,  2.39s/it]                                                          {'loss': 0.0469, 'grad_norm': 0.15629497170448303, 'learning_rate': 2.6736868922763365e-05, 'epoch': 4.75}
 20%|█▉        | 15543/78504 [9:26:59<41:48:08,  2.39s/it] 20%|█▉        | 15544/78504 [9:27:01<40:36:20,  2.32s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.3776550889015198, 'learning_rate': 2.6736444312343424e-05, 'epoch': 4.75}
 20%|█▉        | 15544/78504 [9:27:01<40:36:20,  2.32s/it] 20%|█▉        | 15545/78504 [9:27:03<39:02:24,  2.23s/it]                                                          {'loss': 0.1129, 'grad_norm': 0.5671632885932922, 'learning_rate': 2.6736019701923486e-05, 'epoch': 4.75}
 20%|█▉        | 15545/78504 [9:27:03<39:02:24,  2.23s/it] 20%|█▉        | 15546/78504 [9:27:05<37:40:46,  2.15s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.19016113877296448, 'learning_rate': 2.6735595091503545e-05, 'epoch': 4.75}
 20%|█▉        | 15546/78504 [9:27:05<37:40:46,  2.15s/it] 20%|█▉        | 15547/78504 [9:27:07<36:09:40,  2.07s/it]                                                          {'loss': 0.0783, 'grad_norm': 1.0341042280197144, 'learning_rate': 2.6735170481083607e-05, 'epoch': 4.75}
 20%|█▉        | 15547/78504 [9:27:07<36:09:40,  2.07s/it] 20%|█▉        | 15548/78504 [9:27:09<35:06:47,  2.01s/it]                                                          {'loss': 0.1146, 'grad_norm': 0.43117955327033997, 'learning_rate': 2.6734745870663665e-05, 'epoch': 4.75}
 20%|█▉        | 15548/78504 [9:27:09<35:06:47,  2.01s/it] 20%|█▉        | 15549/78504 [9:27:10<33:35:28,  1.92s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.4532405734062195, 'learning_rate': 2.6734321260243727e-05, 'epoch': 4.75}
 20%|█▉        | 15549/78504 [9:27:10<33:35:28,  1.92s/it] 20%|█▉        | 15550/78504 [9:27:12<32:07:36,  1.84s/it]                                                          {'loss': 0.1128, 'grad_norm': 0.6279839277267456, 'learning_rate': 2.6733896649823786e-05, 'epoch': 4.75}
 20%|█▉        | 15550/78504 [9:27:12<32:07:36,  1.84s/it] 20%|█▉        | 15551/78504 [9:27:14<30:33:48,  1.75s/it]                                                          {'loss': 0.1362, 'grad_norm': 0.29787498712539673, 'learning_rate': 2.6733472039403848e-05, 'epoch': 4.75}
 20%|█▉        | 15551/78504 [9:27:14<30:33:48,  1.75s/it] 20%|█▉        | 15552/78504 [9:27:15<29:04:10,  1.66s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.5428005456924438, 'learning_rate': 2.6733047428983907e-05, 'epoch': 4.75}
 20%|█▉        | 15552/78504 [9:27:15<29:04:10,  1.66s/it] 20%|█▉        | 15553/78504 [9:27:16<27:34:20,  1.58s/it]                                                          {'loss': 0.195, 'grad_norm': 1.1838384866714478, 'learning_rate': 2.673262281856397e-05, 'epoch': 4.75}
 20%|█▉        | 15553/78504 [9:27:16<27:34:20,  1.58s/it] 20%|█▉        | 15554/78504 [9:27:18<26:02:53,  1.49s/it]                                                          {'loss': 0.1696, 'grad_norm': 0.5044512152671814, 'learning_rate': 2.6732198208144028e-05, 'epoch': 4.76}
 20%|█▉        | 15554/78504 [9:27:18<26:02:53,  1.49s/it] 20%|█▉        | 15555/78504 [9:27:19<24:15:24,  1.39s/it]                                                          {'loss': 0.1625, 'grad_norm': 0.5703250765800476, 'learning_rate': 2.6731773597724086e-05, 'epoch': 4.76}
 20%|█▉        | 15555/78504 [9:27:19<24:15:24,  1.39s/it] 20%|█▉        | 15556/78504 [9:27:20<22:43:09,  1.30s/it]                                                          {'loss': 0.2038, 'grad_norm': 1.1772677898406982, 'learning_rate': 2.673134898730415e-05, 'epoch': 4.76}
 20%|█▉        | 15556/78504 [9:27:20<22:43:09,  1.30s/it] 20%|█▉        | 15557/78504 [9:27:21<21:04:38,  1.21s/it]                                                          {'loss': 0.1859, 'grad_norm': 0.7101632952690125, 'learning_rate': 2.6730924376884207e-05, 'epoch': 4.76}
 20%|█▉        | 15557/78504 [9:27:21<21:04:38,  1.21s/it] 20%|█▉        | 15558/78504 [9:27:22<19:37:01,  1.12s/it]                                                          {'loss': 0.1961, 'grad_norm': 2.2967405319213867, 'learning_rate': 2.673049976646427e-05, 'epoch': 4.76}
 20%|█▉        | 15558/78504 [9:27:22<19:37:01,  1.12s/it] 20%|█▉        | 15559/78504 [9:27:23<18:01:27,  1.03s/it]                                                          {'loss': 0.2302, 'grad_norm': 0.9420740008354187, 'learning_rate': 2.6730075156044328e-05, 'epoch': 4.76}
 20%|█▉        | 15559/78504 [9:27:23<18:01:27,  1.03s/it] 20%|█▉        | 15560/78504 [9:27:31<55:49:24,  3.19s/it]                                                          {'loss': 0.1494, 'grad_norm': 0.37894871830940247, 'learning_rate': 2.672965054562439e-05, 'epoch': 4.76}
 20%|█▉        | 15560/78504 [9:27:31<55:49:24,  3.19s/it] 20%|█▉        | 15561/78504 [9:27:34<56:41:52,  3.24s/it]                                                          {'loss': 0.079, 'grad_norm': 0.2704842984676361, 'learning_rate': 2.672922593520445e-05, 'epoch': 4.76}
 20%|█▉        | 15561/78504 [9:27:34<56:41:52,  3.24s/it] 20%|█▉        | 15562/78504 [9:27:37<53:08:23,  3.04s/it]                                                          {'loss': 0.0724, 'grad_norm': 0.3644258677959442, 'learning_rate': 2.672880132478451e-05, 'epoch': 4.76}
 20%|█▉        | 15562/78504 [9:27:37<53:08:23,  3.04s/it] 20%|█▉        | 15563/78504 [9:27:39<50:53:53,  2.91s/it]                                                          {'loss': 0.0486, 'grad_norm': 0.17737939953804016, 'learning_rate': 2.672837671436457e-05, 'epoch': 4.76}
 20%|█▉        | 15563/78504 [9:27:40<50:53:53,  2.91s/it] 20%|█▉        | 15564/78504 [9:27:42<48:00:54,  2.75s/it]                                                          {'loss': 0.063, 'grad_norm': 0.297868549823761, 'learning_rate': 2.672795210394463e-05, 'epoch': 4.76}
 20%|█▉        | 15564/78504 [9:27:42<48:00:54,  2.75s/it] 20%|█▉        | 15565/78504 [9:27:44<45:26:15,  2.60s/it]                                                          {'loss': 0.0507, 'grad_norm': 0.3873581290245056, 'learning_rate': 2.672752749352469e-05, 'epoch': 4.76}
 20%|█▉        | 15565/78504 [9:27:44<45:26:15,  2.60s/it] 20%|█▉        | 15566/78504 [9:27:46<44:00:36,  2.52s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.27237963676452637, 'learning_rate': 2.6727102883104752e-05, 'epoch': 4.76}
 20%|█▉        | 15566/78504 [9:27:46<44:00:36,  2.52s/it] 20%|█▉        | 15567/78504 [9:27:49<41:45:34,  2.39s/it]                                                          {'loss': 0.0472, 'grad_norm': 0.26742658019065857, 'learning_rate': 2.672667827268481e-05, 'epoch': 4.76}
 20%|█▉        | 15567/78504 [9:27:49<41:45:34,  2.39s/it] 20%|█▉        | 15568/78504 [9:27:51<39:51:11,  2.28s/it]                                                          {'loss': 0.0847, 'grad_norm': 0.38208094239234924, 'learning_rate': 2.672625366226487e-05, 'epoch': 4.76}
 20%|█▉        | 15568/78504 [9:27:51<39:51:11,  2.28s/it] 20%|█▉        | 15569/78504 [9:27:53<39:05:55,  2.24s/it]                                                          {'loss': 0.0725, 'grad_norm': 0.7327196002006531, 'learning_rate': 2.6725829051844932e-05, 'epoch': 4.76}
 20%|█▉        | 15569/78504 [9:27:53<39:05:55,  2.24s/it] 20%|█▉        | 15570/78504 [9:27:55<37:48:50,  2.16s/it]                                                          {'loss': 0.0621, 'grad_norm': 0.9418108463287354, 'learning_rate': 2.672540444142499e-05, 'epoch': 4.76}
 20%|█▉        | 15570/78504 [9:27:55<37:48:50,  2.16s/it] 20%|█▉        | 15571/78504 [9:27:57<36:33:26,  2.09s/it]                                                          {'loss': 0.0816, 'grad_norm': 0.45676612854003906, 'learning_rate': 2.6724979831005053e-05, 'epoch': 4.76}
 20%|█▉        | 15571/78504 [9:27:57<36:33:26,  2.09s/it] 20%|█▉        | 15572/78504 [9:27:58<35:23:16,  2.02s/it]                                                          {'loss': 0.0878, 'grad_norm': 0.4362925589084625, 'learning_rate': 2.672455522058511e-05, 'epoch': 4.76}
 20%|█▉        | 15572/78504 [9:27:58<35:23:16,  2.02s/it] 20%|█▉        | 15573/78504 [9:28:00<33:43:29,  1.93s/it]                                                          {'loss': 0.1084, 'grad_norm': 0.6080014109611511, 'learning_rate': 2.6724130610165173e-05, 'epoch': 4.76}
 20%|█▉        | 15573/78504 [9:28:00<33:43:29,  1.93s/it] 20%|█▉        | 15574/78504 [9:28:02<32:53:24,  1.88s/it]                                                          {'loss': 0.1294, 'grad_norm': 0.7287077903747559, 'learning_rate': 2.6723705999745232e-05, 'epoch': 4.76}
 20%|█▉        | 15574/78504 [9:28:02<32:53:24,  1.88s/it] 20%|█▉        | 15575/78504 [9:28:04<31:38:08,  1.81s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.4062003195285797, 'learning_rate': 2.6723281389325294e-05, 'epoch': 4.76}
 20%|█▉        | 15575/78504 [9:28:04<31:38:08,  1.81s/it] 20%|█▉        | 15576/78504 [9:28:05<30:05:48,  1.72s/it]                                                          {'loss': 0.1714, 'grad_norm': 0.8360328078269958, 'learning_rate': 2.6722856778905353e-05, 'epoch': 4.76}
 20%|█▉        | 15576/78504 [9:28:05<30:05:48,  1.72s/it] 20%|█▉        | 15577/78504 [9:28:07<28:32:22,  1.63s/it]                                                          {'loss': 0.1912, 'grad_norm': 0.8267832398414612, 'learning_rate': 2.6722432168485415e-05, 'epoch': 4.76}
 20%|█▉        | 15577/78504 [9:28:07<28:32:22,  1.63s/it] 20%|█▉        | 15578/78504 [9:28:08<27:22:09,  1.57s/it]                                                          {'loss': 0.1839, 'grad_norm': 0.8864356279373169, 'learning_rate': 2.6722007558065477e-05, 'epoch': 4.76}
 20%|█▉        | 15578/78504 [9:28:08<27:22:09,  1.57s/it] 20%|█▉        | 15579/78504 [9:28:09<25:52:50,  1.48s/it]                                                          {'loss': 0.1597, 'grad_norm': 0.4981704652309418, 'learning_rate': 2.672158294764554e-05, 'epoch': 4.76}
 20%|█▉        | 15579/78504 [9:28:09<25:52:50,  1.48s/it] 20%|█▉        | 15580/78504 [9:28:10<24:06:33,  1.38s/it]                                                          {'loss': 0.2098, 'grad_norm': 0.9783864617347717, 'learning_rate': 2.6721158337225598e-05, 'epoch': 4.76}
 20%|█▉        | 15580/78504 [9:28:10<24:06:33,  1.38s/it] 20%|█▉        | 15581/78504 [9:28:11<22:36:25,  1.29s/it]                                                          {'loss': 0.2021, 'grad_norm': 4.111319541931152, 'learning_rate': 2.6720733726805657e-05, 'epoch': 4.76}
 20%|█▉        | 15581/78504 [9:28:11<22:36:25,  1.29s/it] 20%|█▉        | 15582/78504 [9:28:13<21:21:22,  1.22s/it]                                                          {'loss': 0.168, 'grad_norm': 1.2487386465072632, 'learning_rate': 2.672030911638572e-05, 'epoch': 4.76}
 20%|█▉        | 15582/78504 [9:28:13<21:21:22,  1.22s/it] 20%|█▉        | 15583/78504 [9:28:13<19:51:47,  1.14s/it]                                                          {'loss': 0.1795, 'grad_norm': 1.5650361776351929, 'learning_rate': 2.6719884505965777e-05, 'epoch': 4.76}
 20%|█▉        | 15583/78504 [9:28:13<19:51:47,  1.14s/it] 20%|█▉        | 15584/78504 [9:28:14<17:59:50,  1.03s/it]                                                          {'loss': 0.2614, 'grad_norm': 1.8927040100097656, 'learning_rate': 2.671945989554584e-05, 'epoch': 4.76}
 20%|█▉        | 15584/78504 [9:28:14<17:59:50,  1.03s/it] 20%|█▉        | 15585/78504 [9:28:22<50:57:20,  2.92s/it]                                                          {'loss': 0.1479, 'grad_norm': 0.33663904666900635, 'learning_rate': 2.6719035285125898e-05, 'epoch': 4.76}
 20%|█▉        | 15585/78504 [9:28:22<50:57:20,  2.92s/it] 20%|█▉        | 15586/78504 [9:28:25<52:58:52,  3.03s/it]                                                          {'loss': 0.0885, 'grad_norm': 1.1730259656906128, 'learning_rate': 2.671861067470596e-05, 'epoch': 4.76}
 20%|█▉        | 15586/78504 [9:28:25<52:58:52,  3.03s/it] 20%|█▉        | 15587/78504 [9:28:28<52:42:40,  3.02s/it]                                                          {'loss': 0.0834, 'grad_norm': 0.2831679880619049, 'learning_rate': 2.671818606428602e-05, 'epoch': 4.77}
 20%|█▉        | 15587/78504 [9:28:28<52:42:40,  3.02s/it] 20%|█▉        | 15588/78504 [9:28:30<50:37:47,  2.90s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.2535910904407501, 'learning_rate': 2.671776145386608e-05, 'epoch': 4.77}
 20%|█▉        | 15588/78504 [9:28:30<50:37:47,  2.90s/it] 20%|█▉        | 15589/78504 [9:28:33<48:21:33,  2.77s/it]                                                          {'loss': 0.0595, 'grad_norm': 0.2642778754234314, 'learning_rate': 2.671733684344614e-05, 'epoch': 4.77}
 20%|█▉        | 15589/78504 [9:28:33<48:21:33,  2.77s/it] 20%|█▉        | 15590/78504 [9:28:35<45:44:58,  2.62s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.2686872184276581, 'learning_rate': 2.6716912233026202e-05, 'epoch': 4.77}
 20%|█▉        | 15590/78504 [9:28:35<45:44:58,  2.62s/it] 20%|█▉        | 15591/78504 [9:28:37<44:08:23,  2.53s/it]                                                          {'loss': 0.0952, 'grad_norm': 1.3936817646026611, 'learning_rate': 2.671648762260626e-05, 'epoch': 4.77}
 20%|█▉        | 15591/78504 [9:28:38<44:08:23,  2.53s/it] 20%|█▉        | 15592/78504 [9:28:40<41:57:34,  2.40s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.2997973561286926, 'learning_rate': 2.671606301218632e-05, 'epoch': 4.77}
 20%|█▉        | 15592/78504 [9:28:40<41:57:34,  2.40s/it] 20%|█▉        | 15593/78504 [9:28:42<40:49:11,  2.34s/it]                                                          {'loss': 0.056, 'grad_norm': 0.3567797839641571, 'learning_rate': 2.671563840176638e-05, 'epoch': 4.77}
 20%|█▉        | 15593/78504 [9:28:42<40:49:11,  2.34s/it] 20%|█▉        | 15594/78504 [9:28:44<39:55:07,  2.28s/it]                                                          {'loss': 0.0814, 'grad_norm': 0.3195769190788269, 'learning_rate': 2.671521379134644e-05, 'epoch': 4.77}
 20%|█▉        | 15594/78504 [9:28:44<39:55:07,  2.28s/it] 20%|█▉        | 15595/78504 [9:28:46<38:35:51,  2.21s/it]                                                          {'loss': 0.0782, 'grad_norm': 0.3628385066986084, 'learning_rate': 2.6714789180926502e-05, 'epoch': 4.77}
 20%|█▉        | 15595/78504 [9:28:46<38:35:51,  2.21s/it] 20%|█▉        | 15596/78504 [9:28:48<37:22:42,  2.14s/it]                                                          {'loss': 0.1037, 'grad_norm': 1.8942173719406128, 'learning_rate': 2.671436457050656e-05, 'epoch': 4.77}
 20%|█▉        | 15596/78504 [9:28:48<37:22:42,  2.14s/it] 20%|█▉        | 15597/78504 [9:28:50<36:01:24,  2.06s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.6837552189826965, 'learning_rate': 2.6713939960086623e-05, 'epoch': 4.77}
 20%|█▉        | 15597/78504 [9:28:50<36:01:24,  2.06s/it] 20%|█▉        | 15598/78504 [9:28:52<35:02:33,  2.01s/it]                                                          {'loss': 0.1452, 'grad_norm': 0.8912591338157654, 'learning_rate': 2.671351534966668e-05, 'epoch': 4.77}
 20%|█▉        | 15598/78504 [9:28:52<35:02:33,  2.01s/it] 20%|█▉        | 15599/78504 [9:28:53<33:46:11,  1.93s/it]                                                          {'loss': 0.1196, 'grad_norm': 0.4051685333251953, 'learning_rate': 2.6713090739246744e-05, 'epoch': 4.77}
 20%|█▉        | 15599/78504 [9:28:53<33:46:11,  1.93s/it] 20%|█▉        | 15600/78504 [9:28:55<32:17:27,  1.85s/it]                                                          {'loss': 0.1539, 'grad_norm': 0.43861308693885803, 'learning_rate': 2.6712666128826802e-05, 'epoch': 4.77}
 20%|█▉        | 15600/78504 [9:28:55<32:17:27,  1.85s/it] 20%|█▉        | 15601/78504 [9:28:57<30:41:09,  1.76s/it]                                                          {'loss': 0.1539, 'grad_norm': 0.5856853127479553, 'learning_rate': 2.6712241518406865e-05, 'epoch': 4.77}
 20%|█▉        | 15601/78504 [9:28:57<30:41:09,  1.76s/it] 20%|█▉        | 15602/78504 [9:28:58<29:11:04,  1.67s/it]                                                          {'loss': 0.1465, 'grad_norm': 0.5344411134719849, 'learning_rate': 2.6711816907986923e-05, 'epoch': 4.77}
 20%|█▉        | 15602/78504 [9:28:58<29:11:04,  1.67s/it] 20%|█▉        | 15603/78504 [9:29:00<27:46:19,  1.59s/it]                                                          {'loss': 0.2094, 'grad_norm': 1.1220037937164307, 'learning_rate': 2.6711392297566985e-05, 'epoch': 4.77}
 20%|█▉        | 15603/78504 [9:29:00<27:46:19,  1.59s/it] 20%|█▉        | 15604/78504 [9:29:01<26:08:04,  1.50s/it]                                                          {'loss': 0.1608, 'grad_norm': 0.48453405499458313, 'learning_rate': 2.6710967687147044e-05, 'epoch': 4.77}
 20%|█▉        | 15604/78504 [9:29:01<26:08:04,  1.50s/it] 20%|█▉        | 15605/78504 [9:29:02<24:18:03,  1.39s/it]                                                          {'loss': 0.1951, 'grad_norm': 0.9990222454071045, 'learning_rate': 2.6710543076727103e-05, 'epoch': 4.77}
 20%|█▉        | 15605/78504 [9:29:02<24:18:03,  1.39s/it] 20%|█▉        | 15606/78504 [9:29:03<22:45:09,  1.30s/it]                                                          {'loss': 0.1426, 'grad_norm': 1.3574508428573608, 'learning_rate': 2.6710118466307165e-05, 'epoch': 4.77}
 20%|█▉        | 15606/78504 [9:29:03<22:45:09,  1.30s/it] 20%|█▉        | 15607/78504 [9:29:04<21:25:16,  1.23s/it]                                                          {'loss': 0.189, 'grad_norm': 0.7748913168907166, 'learning_rate': 2.6709693855887223e-05, 'epoch': 4.77}
 20%|█▉        | 15607/78504 [9:29:04<21:25:16,  1.23s/it] 20%|█▉        | 15608/78504 [9:29:05<19:52:57,  1.14s/it]                                                          {'loss': 0.1819, 'grad_norm': 0.9638360142707825, 'learning_rate': 2.6709269245467286e-05, 'epoch': 4.77}
 20%|█▉        | 15608/78504 [9:29:05<19:52:57,  1.14s/it] 20%|█▉        | 15609/78504 [9:29:06<18:00:22,  1.03s/it]                                                          {'loss': 0.268, 'grad_norm': 2.0785417556762695, 'learning_rate': 2.6708844635047344e-05, 'epoch': 4.77}
 20%|█▉        | 15609/78504 [9:29:06<18:00:22,  1.03s/it] 20%|█▉        | 15610/78504 [9:29:14<55:51:40,  3.20s/it]                                                          {'loss': 0.142, 'grad_norm': 0.33042609691619873, 'learning_rate': 2.6708420024627406e-05, 'epoch': 4.77}
 20%|█▉        | 15610/78504 [9:29:14<55:51:40,  3.20s/it] 20%|█▉        | 15611/78504 [9:29:17<55:33:14,  3.18s/it]                                                          {'loss': 0.091, 'grad_norm': 0.3634949028491974, 'learning_rate': 2.6707995414207465e-05, 'epoch': 4.77}
 20%|█▉        | 15611/78504 [9:29:17<55:33:14,  3.18s/it] 20%|█▉        | 15612/78504 [9:29:20<54:11:17,  3.10s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.25966474413871765, 'learning_rate': 2.6707570803787527e-05, 'epoch': 4.77}
 20%|█▉        | 15612/78504 [9:29:20<54:11:17,  3.10s/it] 20%|█▉        | 15613/78504 [9:29:23<51:25:15,  2.94s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.4378645718097687, 'learning_rate': 2.6707146193367586e-05, 'epoch': 4.77}
 20%|█▉        | 15613/78504 [9:29:23<51:25:15,  2.94s/it] 20%|█▉        | 15614/78504 [9:29:25<48:56:05,  2.80s/it]                                                          {'loss': 0.0476, 'grad_norm': 0.34623128175735474, 'learning_rate': 2.6706721582947648e-05, 'epoch': 4.77}
 20%|█▉        | 15614/78504 [9:29:25<48:56:05,  2.80s/it] 20%|█▉        | 15615/78504 [9:29:28<46:59:21,  2.69s/it]                                                          {'loss': 0.095, 'grad_norm': 0.3951106071472168, 'learning_rate': 2.6706296972527707e-05, 'epoch': 4.77}
 20%|█▉        | 15615/78504 [9:29:28<46:59:21,  2.69s/it] 20%|█▉        | 15616/78504 [9:29:30<45:01:42,  2.58s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.2664748430252075, 'learning_rate': 2.670587236210777e-05, 'epoch': 4.77}
 20%|█▉        | 15616/78504 [9:29:30<45:01:42,  2.58s/it] 20%|█▉        | 15617/78504 [9:29:32<42:35:49,  2.44s/it]                                                          {'loss': 0.1132, 'grad_norm': 1.5128334760665894, 'learning_rate': 2.6705447751687827e-05, 'epoch': 4.77}
 20%|█▉        | 15617/78504 [9:29:32<42:35:49,  2.44s/it] 20%|█▉        | 15618/78504 [9:29:34<41:14:15,  2.36s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.4229755699634552, 'learning_rate': 2.6705023141267886e-05, 'epoch': 4.77}
 20%|█▉        | 15618/78504 [9:29:34<41:14:15,  2.36s/it] 20%|█▉        | 15619/78504 [9:29:36<40:05:35,  2.30s/it]                                                          {'loss': 0.06, 'grad_norm': 3.255587339401245, 'learning_rate': 2.6704598530847948e-05, 'epoch': 4.77}
 20%|█▉        | 15619/78504 [9:29:36<40:05:35,  2.30s/it] 20%|█▉        | 15620/78504 [9:29:38<38:39:00,  2.21s/it]                                                          {'loss': 0.0544, 'grad_norm': 0.1927347034215927, 'learning_rate': 2.6704173920428007e-05, 'epoch': 4.78}
 20%|█▉        | 15620/78504 [9:29:38<38:39:00,  2.21s/it] 20%|█▉        | 15621/78504 [9:29:40<36:28:20,  2.09s/it]                                                          {'loss': 0.0882, 'grad_norm': 0.30803191661834717, 'learning_rate': 2.670374931000807e-05, 'epoch': 4.78}
 20%|█▉        | 15621/78504 [9:29:40<36:28:20,  2.09s/it] 20%|█▉        | 15622/78504 [9:29:42<35:20:06,  2.02s/it]                                                          {'loss': 0.0919, 'grad_norm': 0.8772420883178711, 'learning_rate': 2.6703324699588128e-05, 'epoch': 4.78}
 20%|█▉        | 15622/78504 [9:29:42<35:20:06,  2.02s/it] 20%|█▉        | 15623/78504 [9:29:44<34:21:04,  1.97s/it]                                                          {'loss': 0.1228, 'grad_norm': 0.9117602109909058, 'learning_rate': 2.670290008916819e-05, 'epoch': 4.78}
 20%|█▉        | 15623/78504 [9:29:44<34:21:04,  1.97s/it] 20%|█▉        | 15624/78504 [9:29:46<33:03:50,  1.89s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.4405968189239502, 'learning_rate': 2.670247547874825e-05, 'epoch': 4.78}
 20%|█▉        | 15624/78504 [9:29:46<33:03:50,  1.89s/it] 20%|█▉        | 15625/78504 [9:29:47<31:46:10,  1.82s/it]                                                          {'loss': 0.1439, 'grad_norm': 0.4758959412574768, 'learning_rate': 2.670205086832831e-05, 'epoch': 4.78}
 20%|█▉        | 15625/78504 [9:29:47<31:46:10,  1.82s/it] 20%|█▉        | 15626/78504 [9:29:49<30:13:51,  1.73s/it]                                                          {'loss': 0.1901, 'grad_norm': 0.7873270511627197, 'learning_rate': 2.670162625790837e-05, 'epoch': 4.78}
 20%|█▉        | 15626/78504 [9:29:49<30:13:51,  1.73s/it] 20%|█▉        | 15627/78504 [9:29:50<28:36:35,  1.64s/it]                                                          {'loss': 0.1404, 'grad_norm': 1.1970916986465454, 'learning_rate': 2.670120164748843e-05, 'epoch': 4.78}
 20%|█▉        | 15627/78504 [9:29:50<28:36:35,  1.64s/it] 20%|█▉        | 15628/78504 [9:29:52<27:25:36,  1.57s/it]                                                          {'loss': 0.1548, 'grad_norm': 0.8034089207649231, 'learning_rate': 2.670077703706849e-05, 'epoch': 4.78}
 20%|█▉        | 15628/78504 [9:29:52<27:25:36,  1.57s/it] 20%|█▉        | 15629/78504 [9:29:53<25:55:12,  1.48s/it]                                                          {'loss': 0.1697, 'grad_norm': 0.808716356754303, 'learning_rate': 2.6700352426648552e-05, 'epoch': 4.78}
 20%|█▉        | 15629/78504 [9:29:53<25:55:12,  1.48s/it] 20%|█▉        | 15630/78504 [9:29:54<24:10:42,  1.38s/it]                                                          {'loss': 0.1875, 'grad_norm': 0.7088771462440491, 'learning_rate': 2.669992781622861e-05, 'epoch': 4.78}
 20%|█▉        | 15630/78504 [9:29:54<24:10:42,  1.38s/it] 20%|█▉        | 15631/78504 [9:29:55<22:44:20,  1.30s/it]                                                          {'loss': 0.2082, 'grad_norm': 0.914836049079895, 'learning_rate': 2.669950320580867e-05, 'epoch': 4.78}
 20%|█▉        | 15631/78504 [9:29:55<22:44:20,  1.30s/it] 20%|█▉        | 15632/78504 [9:29:56<21:03:18,  1.21s/it]                                                          {'loss': 0.2202, 'grad_norm': 1.7761976718902588, 'learning_rate': 2.669907859538873e-05, 'epoch': 4.78}
 20%|█▉        | 15632/78504 [9:29:56<21:03:18,  1.21s/it] 20%|█▉        | 15633/78504 [9:29:57<19:37:01,  1.12s/it]                                                          {'loss': 0.1907, 'grad_norm': 0.7730107307434082, 'learning_rate': 2.669865398496879e-05, 'epoch': 4.78}
 20%|█▉        | 15633/78504 [9:29:57<19:37:01,  1.12s/it] 20%|█▉        | 15634/78504 [9:29:58<17:50:49,  1.02s/it]                                                          {'loss': 0.2879, 'grad_norm': 2.255401372909546, 'learning_rate': 2.6698229374548852e-05, 'epoch': 4.78}
 20%|█▉        | 15634/78504 [9:29:58<17:50:49,  1.02s/it] 20%|█▉        | 15635/78504 [9:30:05<50:49:20,  2.91s/it]                                                          {'loss': 0.1292, 'grad_norm': 0.9744365215301514, 'learning_rate': 2.669780476412891e-05, 'epoch': 4.78}
 20%|█▉        | 15635/78504 [9:30:05<50:49:20,  2.91s/it] 20%|█▉        | 15636/78504 [9:30:08<50:49:29,  2.91s/it]                                                          {'loss': 0.1088, 'grad_norm': 0.2563032805919647, 'learning_rate': 2.6697380153708973e-05, 'epoch': 4.78}
 20%|█▉        | 15636/78504 [9:30:08<50:49:29,  2.91s/it] 20%|█▉        | 15637/78504 [9:30:11<50:52:51,  2.91s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.24860912561416626, 'learning_rate': 2.6696955543289032e-05, 'epoch': 4.78}
 20%|█▉        | 15637/78504 [9:30:11<50:52:51,  2.91s/it] 20%|█▉        | 15638/78504 [9:30:13<48:18:18,  2.77s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.7129545211791992, 'learning_rate': 2.6696530932869094e-05, 'epoch': 4.78}
 20%|█▉        | 15638/78504 [9:30:13<48:18:18,  2.77s/it] 20%|█▉        | 15639/78504 [9:30:16<46:54:14,  2.69s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.27117493748664856, 'learning_rate': 2.6696106322449153e-05, 'epoch': 4.78}
 20%|█▉        | 15639/78504 [9:30:16<46:54:14,  2.69s/it] 20%|█▉        | 15640/78504 [9:30:18<45:32:51,  2.61s/it]                                                          {'loss': 0.0509, 'grad_norm': 0.5525006651878357, 'learning_rate': 2.6695681712029215e-05, 'epoch': 4.78}
 20%|█▉        | 15640/78504 [9:30:18<45:32:51,  2.61s/it] 20%|█▉        | 15641/78504 [9:30:21<44:01:12,  2.52s/it]                                                          {'loss': 0.065, 'grad_norm': 0.24007654190063477, 'learning_rate': 2.6695257101609273e-05, 'epoch': 4.78}
 20%|█▉        | 15641/78504 [9:30:21<44:01:12,  2.52s/it] 20%|█▉        | 15642/78504 [9:30:23<41:54:13,  2.40s/it]                                                          {'loss': 0.0785, 'grad_norm': 0.2752619981765747, 'learning_rate': 2.6694832491189336e-05, 'epoch': 4.78}
 20%|█▉        | 15642/78504 [9:30:23<41:54:13,  2.40s/it] 20%|█▉        | 15643/78504 [9:30:25<40:46:33,  2.34s/it]                                                          {'loss': 0.072, 'grad_norm': 0.7001988887786865, 'learning_rate': 2.6694407880769394e-05, 'epoch': 4.78}
 20%|█▉        | 15643/78504 [9:30:25<40:46:33,  2.34s/it] 20%|█▉        | 15644/78504 [9:30:27<39:47:04,  2.28s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.3578706979751587, 'learning_rate': 2.6693983270349453e-05, 'epoch': 4.78}
 20%|█▉        | 15644/78504 [9:30:27<39:47:04,  2.28s/it] 20%|█▉        | 15645/78504 [9:30:29<38:25:22,  2.20s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.40610039234161377, 'learning_rate': 2.6693558659929515e-05, 'epoch': 4.78}
 20%|█▉        | 15645/78504 [9:30:29<38:25:22,  2.20s/it] 20%|█▉        | 15646/78504 [9:30:31<37:16:42,  2.14s/it]                                                          {'loss': 0.0924, 'grad_norm': 1.173287034034729, 'learning_rate': 2.6693134049509574e-05, 'epoch': 4.78}
 20%|█▉        | 15646/78504 [9:30:31<37:16:42,  2.14s/it] 20%|█▉        | 15647/78504 [9:30:33<35:51:17,  2.05s/it]                                                          {'loss': 0.0992, 'grad_norm': 0.31334197521209717, 'learning_rate': 2.6692709439089636e-05, 'epoch': 4.78}
 20%|█▉        | 15647/78504 [9:30:33<35:51:17,  2.05s/it] 20%|█▉        | 15648/78504 [9:30:35<34:41:20,  1.99s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.396474152803421, 'learning_rate': 2.6692284828669695e-05, 'epoch': 4.78}
 20%|█▉        | 15648/78504 [9:30:35<34:41:20,  1.99s/it] 20%|█▉        | 15649/78504 [9:30:37<33:20:53,  1.91s/it]                                                          {'loss': 0.1096, 'grad_norm': 0.49313855171203613, 'learning_rate': 2.6691860218249757e-05, 'epoch': 4.78}
 20%|█▉        | 15649/78504 [9:30:37<33:20:53,  1.91s/it] 20%|█▉        | 15650/78504 [9:30:38<32:00:57,  1.83s/it]                                                          {'loss': 0.1431, 'grad_norm': 0.570652186870575, 'learning_rate': 2.6691435607829815e-05, 'epoch': 4.78}
 20%|█▉        | 15650/78504 [9:30:38<32:00:57,  1.83s/it] 20%|█▉        | 15651/78504 [9:30:40<30:27:44,  1.74s/it]                                                          {'loss': 0.1865, 'grad_norm': 0.6634118556976318, 'learning_rate': 2.6691010997409877e-05, 'epoch': 4.78}
 20%|█▉        | 15651/78504 [9:30:40<30:27:44,  1.74s/it] 20%|█▉        | 15652/78504 [9:30:41<29:00:55,  1.66s/it]                                                          {'loss': 0.207, 'grad_norm': 1.0125056505203247, 'learning_rate': 2.6690586386989936e-05, 'epoch': 4.79}
 20%|█▉        | 15652/78504 [9:30:41<29:00:55,  1.66s/it] 20%|█▉        | 15653/78504 [9:30:43<27:37:29,  1.58s/it]                                                          {'loss': 0.1432, 'grad_norm': 2.116285562515259, 'learning_rate': 2.6690161776569998e-05, 'epoch': 4.79}
 20%|█▉        | 15653/78504 [9:30:43<27:37:29,  1.58s/it] 20%|█▉        | 15654/78504 [9:30:44<26:04:49,  1.49s/it]                                                          {'loss': 0.1918, 'grad_norm': 0.6631580591201782, 'learning_rate': 2.6689737166150057e-05, 'epoch': 4.79}
 20%|█▉        | 15654/78504 [9:30:44<26:04:49,  1.49s/it] 20%|█▉        | 15655/78504 [9:30:45<24:14:48,  1.39s/it]                                                          {'loss': 0.1901, 'grad_norm': 0.657293438911438, 'learning_rate': 2.668931255573012e-05, 'epoch': 4.79}
 20%|█▉        | 15655/78504 [9:30:45<24:14:48,  1.39s/it] 20%|█▉        | 15656/78504 [9:30:46<23:34:21,  1.35s/it]                                                          {'loss': 0.1904, 'grad_norm': 1.3305116891860962, 'learning_rate': 2.6688887945310178e-05, 'epoch': 4.79}
 20%|█▉        | 15656/78504 [9:30:46<23:34:21,  1.35s/it] 20%|█▉        | 15657/78504 [9:30:47<22:00:24,  1.26s/it]                                                          {'loss': 0.1999, 'grad_norm': 0.807292640209198, 'learning_rate': 2.6688463334890236e-05, 'epoch': 4.79}
 20%|█▉        | 15657/78504 [9:30:47<22:00:24,  1.26s/it] 20%|█▉        | 15658/78504 [9:30:48<20:15:30,  1.16s/it]                                                          {'loss': 0.204, 'grad_norm': 1.637930989265442, 'learning_rate': 2.66880387244703e-05, 'epoch': 4.79}
 20%|█▉        | 15658/78504 [9:30:48<20:15:30,  1.16s/it] 20%|█▉        | 15659/78504 [9:30:49<18:26:00,  1.06s/it]                                                          {'loss': 0.2809, 'grad_norm': 2.344982624053955, 'learning_rate': 2.6687614114050357e-05, 'epoch': 4.79}
 20%|█▉        | 15659/78504 [9:30:49<18:26:00,  1.06s/it] 20%|█▉        | 15660/78504 [9:30:58<58:08:36,  3.33s/it]                                                          {'loss': 0.109, 'grad_norm': 0.6961372494697571, 'learning_rate': 2.668718950363042e-05, 'epoch': 4.79}
 20%|█▉        | 15660/78504 [9:30:58<58:08:36,  3.33s/it] 20%|█▉        | 15661/78504 [9:31:01<58:20:32,  3.34s/it]                                                          {'loss': 0.1048, 'grad_norm': 0.38653308153152466, 'learning_rate': 2.6686764893210478e-05, 'epoch': 4.79}
 20%|█▉        | 15661/78504 [9:31:01<58:20:32,  3.34s/it] 20%|█▉        | 15662/78504 [9:31:04<55:23:59,  3.17s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.2327260971069336, 'learning_rate': 2.668634028279054e-05, 'epoch': 4.79}
 20%|█▉        | 15662/78504 [9:31:04<55:23:59,  3.17s/it] 20%|█▉        | 15663/78504 [9:31:06<52:15:11,  2.99s/it]                                                          {'loss': 0.0673, 'grad_norm': 0.2015862911939621, 'learning_rate': 2.66859156723706e-05, 'epoch': 4.79}
 20%|█▉        | 15663/78504 [9:31:06<52:15:11,  2.99s/it] 20%|█▉        | 15664/78504 [9:31:09<49:31:59,  2.84s/it]                                                          {'loss': 0.0672, 'grad_norm': 0.36131036281585693, 'learning_rate': 2.668549106195066e-05, 'epoch': 4.79}
 20%|█▉        | 15664/78504 [9:31:09<49:31:59,  2.84s/it] 20%|█▉        | 15665/78504 [9:31:11<46:32:57,  2.67s/it]                                                          {'loss': 0.0378, 'grad_norm': 0.33856508135795593, 'learning_rate': 2.668506645153072e-05, 'epoch': 4.79}
 20%|█▉        | 15665/78504 [9:31:11<46:32:57,  2.67s/it] 20%|█▉        | 15666/78504 [9:31:13<44:41:20,  2.56s/it]                                                          {'loss': 0.1177, 'grad_norm': 0.30548039078712463, 'learning_rate': 2.668464184111078e-05, 'epoch': 4.79}
 20%|█▉        | 15666/78504 [9:31:14<44:41:20,  2.56s/it] 20%|█▉        | 15667/78504 [9:31:16<42:14:53,  2.42s/it]                                                          {'loss': 0.0479, 'grad_norm': 0.31199556589126587, 'learning_rate': 2.668421723069084e-05, 'epoch': 4.79}
 20%|█▉        | 15667/78504 [9:31:16<42:14:53,  2.42s/it] 20%|█▉        | 15668/78504 [9:31:18<41:01:04,  2.35s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.31618350744247437, 'learning_rate': 2.6683792620270902e-05, 'epoch': 4.79}
 20%|█▉        | 15668/78504 [9:31:18<41:01:04,  2.35s/it] 20%|█▉        | 15669/78504 [9:31:20<40:02:52,  2.29s/it]                                                          {'loss': 0.0976, 'grad_norm': 0.5224365592002869, 'learning_rate': 2.668336800985096e-05, 'epoch': 4.79}
 20%|█▉        | 15669/78504 [9:31:20<40:02:52,  2.29s/it] 20%|█▉        | 15670/78504 [9:31:22<38:40:32,  2.22s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.4872288107872009, 'learning_rate': 2.668294339943102e-05, 'epoch': 4.79}
 20%|█▉        | 15670/78504 [9:31:22<38:40:32,  2.22s/it] 20%|█▉        | 15671/78504 [9:31:24<37:24:43,  2.14s/it]                                                          {'loss': 0.0803, 'grad_norm': 0.400310218334198, 'learning_rate': 2.6682518789011082e-05, 'epoch': 4.79}
 20%|█▉        | 15671/78504 [9:31:24<37:24:43,  2.14s/it] 20%|█▉        | 15672/78504 [9:31:26<35:57:50,  2.06s/it]                                                          {'loss': 0.1155, 'grad_norm': 0.8948304057121277, 'learning_rate': 2.668209417859114e-05, 'epoch': 4.79}
 20%|█▉        | 15672/78504 [9:31:26<35:57:50,  2.06s/it] 20%|█▉        | 15673/78504 [9:31:28<34:49:35,  2.00s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.3543936610221863, 'learning_rate': 2.6681669568171203e-05, 'epoch': 4.79}
 20%|█▉        | 15673/78504 [9:31:28<34:49:35,  2.00s/it] 20%|█▉        | 15674/78504 [9:31:29<33:25:04,  1.91s/it]                                                          {'loss': 0.1359, 'grad_norm': 0.34561073780059814, 'learning_rate': 2.668124495775126e-05, 'epoch': 4.79}
 20%|█▉        | 15674/78504 [9:31:29<33:25:04,  1.91s/it] 20%|█▉        | 15675/78504 [9:31:31<31:59:34,  1.83s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.64077228307724, 'learning_rate': 2.6680820347331324e-05, 'epoch': 4.79}
 20%|█▉        | 15675/78504 [9:31:31<31:59:34,  1.83s/it] 20%|█▉        | 15676/78504 [9:31:33<30:21:16,  1.74s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.42780613899230957, 'learning_rate': 2.6680395736911382e-05, 'epoch': 4.79}
 20%|█▉        | 15676/78504 [9:31:33<30:21:16,  1.74s/it] 20%|█▉        | 15677/78504 [9:31:34<28:44:41,  1.65s/it]                                                          {'loss': 0.1523, 'grad_norm': 0.6903275847434998, 'learning_rate': 2.6679971126491444e-05, 'epoch': 4.79}
 20%|█▉        | 15677/78504 [9:31:34<28:44:41,  1.65s/it] 20%|█▉        | 15678/78504 [9:31:35<27:28:23,  1.57s/it]                                                          {'loss': 0.1732, 'grad_norm': 1.1424777507781982, 'learning_rate': 2.6679546516071503e-05, 'epoch': 4.79}
 20%|█▉        | 15678/78504 [9:31:35<27:28:23,  1.57s/it] 20%|█▉        | 15679/78504 [9:31:37<25:38:22,  1.47s/it]                                                          {'loss': 0.1645, 'grad_norm': 0.5057557225227356, 'learning_rate': 2.6679121905651565e-05, 'epoch': 4.79}
 20%|█▉        | 15679/78504 [9:31:37<25:38:22,  1.47s/it] 20%|█▉        | 15680/78504 [9:31:38<23:51:38,  1.37s/it]                                                          {'loss': 0.1757, 'grad_norm': 0.5947940945625305, 'learning_rate': 2.6678697295231627e-05, 'epoch': 4.79}
 20%|█▉        | 15680/78504 [9:31:38<23:51:38,  1.37s/it] 20%|█▉        | 15681/78504 [9:31:39<22:27:06,  1.29s/it]                                                          {'loss': 0.1602, 'grad_norm': 0.46336764097213745, 'learning_rate': 2.667827268481169e-05, 'epoch': 4.79}
 20%|█▉        | 15681/78504 [9:31:39<22:27:06,  1.29s/it] 20%|█▉        | 15682/78504 [9:31:40<20:54:04,  1.20s/it]                                                          {'loss': 0.2929, 'grad_norm': 1.8710860013961792, 'learning_rate': 2.6677848074391748e-05, 'epoch': 4.79}
 20%|█▉        | 15682/78504 [9:31:40<20:54:04,  1.20s/it] 20%|█▉        | 15683/78504 [9:31:41<19:28:02,  1.12s/it]                                                          {'loss': 0.21, 'grad_norm': 0.9564358592033386, 'learning_rate': 2.6677423463971807e-05, 'epoch': 4.79}
 20%|█▉        | 15683/78504 [9:31:41<19:28:02,  1.12s/it] 20%|█▉        | 15684/78504 [9:31:42<17:43:11,  1.02s/it]                                                          {'loss': 0.2569, 'grad_norm': 1.0703682899475098, 'learning_rate': 2.667699885355187e-05, 'epoch': 4.79}
 20%|█▉        | 15684/78504 [9:31:42<17:43:11,  1.02s/it] 20%|█▉        | 15685/78504 [9:31:51<62:15:45,  3.57s/it]                                                          {'loss': 0.1379, 'grad_norm': 0.529213011264801, 'learning_rate': 2.6676574243131927e-05, 'epoch': 4.8}
 20%|█▉        | 15685/78504 [9:31:51<62:15:45,  3.57s/it] 20%|█▉        | 15686/78504 [9:31:54<59:58:47,  3.44s/it]                                                          {'loss': 0.1035, 'grad_norm': 0.6338291168212891, 'learning_rate': 2.667614963271199e-05, 'epoch': 4.8}
 20%|█▉        | 15686/78504 [9:31:54<59:58:47,  3.44s/it] 20%|█▉        | 15687/78504 [9:31:57<57:34:45,  3.30s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.17024636268615723, 'learning_rate': 2.6675725022292048e-05, 'epoch': 4.8}
 20%|█▉        | 15687/78504 [9:31:57<57:34:45,  3.30s/it] 20%|█▉        | 15688/78504 [9:32:00<53:59:39,  3.09s/it]                                                          {'loss': 0.0526, 'grad_norm': 0.17667967081069946, 'learning_rate': 2.667530041187211e-05, 'epoch': 4.8}
 20%|█▉        | 15688/78504 [9:32:00<53:59:39,  3.09s/it] 20%|█▉        | 15689/78504 [9:32:02<50:41:09,  2.90s/it]                                                          {'loss': 0.0595, 'grad_norm': 0.5144132971763611, 'learning_rate': 2.667487580145217e-05, 'epoch': 4.8}
 20%|█▉        | 15689/78504 [9:32:02<50:41:09,  2.90s/it] 20%|█▉        | 15690/78504 [9:32:05<47:20:33,  2.71s/it]                                                          {'loss': 0.0488, 'grad_norm': 0.23151050508022308, 'learning_rate': 2.667445119103223e-05, 'epoch': 4.8}
 20%|█▉        | 15690/78504 [9:32:05<47:20:33,  2.71s/it] 20%|█▉        | 15691/78504 [9:32:07<45:16:55,  2.60s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.36293861269950867, 'learning_rate': 2.667402658061229e-05, 'epoch': 4.8}
 20%|█▉        | 15691/78504 [9:32:07<45:16:55,  2.60s/it] 20%|█▉        | 15692/78504 [9:32:09<42:37:40,  2.44s/it]                                                          {'loss': 0.0825, 'grad_norm': 0.4968498647212982, 'learning_rate': 2.6673601970192352e-05, 'epoch': 4.8}
 20%|█▉        | 15692/78504 [9:32:09<42:37:40,  2.44s/it] 20%|█▉        | 15693/78504 [9:32:11<41:15:59,  2.37s/it]                                                          {'loss': 0.0778, 'grad_norm': 0.277657151222229, 'learning_rate': 2.667317735977241e-05, 'epoch': 4.8}
 20%|█▉        | 15693/78504 [9:32:11<41:15:59,  2.37s/it] 20%|█▉        | 15694/78504 [9:32:13<40:12:09,  2.30s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.5195251703262329, 'learning_rate': 2.6672752749352473e-05, 'epoch': 4.8}
 20%|█▉        | 15694/78504 [9:32:13<40:12:09,  2.30s/it] 20%|█▉        | 15695/78504 [9:32:15<37:50:05,  2.17s/it]                                                          {'loss': 0.0828, 'grad_norm': 0.2520146667957306, 'learning_rate': 2.667232813893253e-05, 'epoch': 4.8}
 20%|█▉        | 15695/78504 [9:32:15<37:50:05,  2.17s/it] 20%|█▉        | 15696/78504 [9:32:17<36:52:45,  2.11s/it]                                                          {'loss': 0.063, 'grad_norm': 0.45456743240356445, 'learning_rate': 2.667190352851259e-05, 'epoch': 4.8}
 20%|█▉        | 15696/78504 [9:32:17<36:52:45,  2.11s/it] 20%|█▉        | 15697/78504 [9:32:19<35:40:29,  2.04s/it]                                                          {'loss': 0.1221, 'grad_norm': 0.33080974221229553, 'learning_rate': 2.6671478918092652e-05, 'epoch': 4.8}
 20%|█▉        | 15697/78504 [9:32:19<35:40:29,  2.04s/it] 20%|█▉        | 15698/78504 [9:32:21<34:47:17,  1.99s/it]                                                          {'loss': 0.1092, 'grad_norm': 0.27165597677230835, 'learning_rate': 2.667105430767271e-05, 'epoch': 4.8}
 20%|█▉        | 15698/78504 [9:32:21<34:47:17,  1.99s/it] 20%|█▉        | 15699/78504 [9:32:23<33:35:56,  1.93s/it]                                                          {'loss': 0.1087, 'grad_norm': 0.9649966359138489, 'learning_rate': 2.6670629697252773e-05, 'epoch': 4.8}
 20%|█▉        | 15699/78504 [9:32:23<33:35:56,  1.93s/it] 20%|█▉        | 15700/78504 [9:32:24<32:11:56,  1.85s/it]                                                          {'loss': 0.1345, 'grad_norm': 0.6683133840560913, 'learning_rate': 2.667020508683283e-05, 'epoch': 4.8}
 20%|█▉        | 15700/78504 [9:32:24<32:11:56,  1.85s/it] 20%|██        | 15701/78504 [9:32:26<30:36:32,  1.75s/it]                                                          {'loss': 0.1612, 'grad_norm': 0.7035684585571289, 'learning_rate': 2.6669780476412894e-05, 'epoch': 4.8}
 20%|██        | 15701/78504 [9:32:26<30:36:32,  1.75s/it] 20%|██        | 15702/78504 [9:32:27<29:05:50,  1.67s/it]                                                          {'loss': 0.1875, 'grad_norm': 0.7257013320922852, 'learning_rate': 2.6669355865992952e-05, 'epoch': 4.8}
 20%|██        | 15702/78504 [9:32:27<29:05:50,  1.67s/it] 20%|██        | 15703/78504 [9:32:29<27:37:48,  1.58s/it]                                                          {'loss': 0.1469, 'grad_norm': 0.5434814095497131, 'learning_rate': 2.6668931255573015e-05, 'epoch': 4.8}
 20%|██        | 15703/78504 [9:32:29<27:37:48,  1.58s/it] 20%|██        | 15704/78504 [9:32:30<26:02:49,  1.49s/it]                                                          {'loss': 0.1574, 'grad_norm': 0.6231019496917725, 'learning_rate': 2.6668506645153073e-05, 'epoch': 4.8}
 20%|██        | 15704/78504 [9:32:30<26:02:49,  1.49s/it] 20%|██        | 15705/78504 [9:32:31<24:14:13,  1.39s/it]                                                          {'loss': 0.209, 'grad_norm': 0.6849789023399353, 'learning_rate': 2.6668082034733135e-05, 'epoch': 4.8}
 20%|██        | 15705/78504 [9:32:31<24:14:13,  1.39s/it] 20%|██        | 15706/78504 [9:32:32<22:41:02,  1.30s/it]                                                          {'loss': 0.1946, 'grad_norm': 1.2462950944900513, 'learning_rate': 2.6667657424313194e-05, 'epoch': 4.8}
 20%|██        | 15706/78504 [9:32:32<22:41:02,  1.30s/it] 20%|██        | 15707/78504 [9:32:33<21:24:17,  1.23s/it]                                                          {'loss': 0.1689, 'grad_norm': 1.4298832416534424, 'learning_rate': 2.6667232813893253e-05, 'epoch': 4.8}
 20%|██        | 15707/78504 [9:32:33<21:24:17,  1.23s/it] 20%|██        | 15708/78504 [9:32:34<19:50:06,  1.14s/it]                                                          {'loss': 0.2294, 'grad_norm': 0.8686357140541077, 'learning_rate': 2.6666808203473315e-05, 'epoch': 4.8}
 20%|██        | 15708/78504 [9:32:34<19:50:06,  1.14s/it] 20%|██        | 15709/78504 [9:32:35<17:58:35,  1.03s/it]                                                          {'loss': 0.2673, 'grad_norm': 1.4436752796173096, 'learning_rate': 2.6666383593053374e-05, 'epoch': 4.8}
 20%|██        | 15709/78504 [9:32:35<17:58:35,  1.03s/it] 20%|██        | 15710/78504 [9:32:43<56:40:13,  3.25s/it]                                                          {'loss': 0.1319, 'grad_norm': 0.40931448340415955, 'learning_rate': 2.6665958982633436e-05, 'epoch': 4.8}
 20%|██        | 15710/78504 [9:32:43<56:40:13,  3.25s/it] 20%|██        | 15711/78504 [9:32:46<54:50:34,  3.14s/it]                                                          {'loss': 0.0877, 'grad_norm': 0.47706466913223267, 'learning_rate': 2.6665534372213494e-05, 'epoch': 4.8}
 20%|██        | 15711/78504 [9:32:46<54:50:34,  3.14s/it] 20%|██        | 15712/78504 [9:32:49<51:50:02,  2.97s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.5428346991539001, 'learning_rate': 2.6665109761793556e-05, 'epoch': 4.8}
 20%|██        | 15712/78504 [9:32:49<51:50:02,  2.97s/it] 20%|██        | 15713/78504 [9:32:51<49:57:04,  2.86s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.3708249032497406, 'learning_rate': 2.6664685151373615e-05, 'epoch': 4.8}
 20%|██        | 15713/78504 [9:32:51<49:57:04,  2.86s/it] 20%|██        | 15714/78504 [9:32:54<47:43:56,  2.74s/it]                                                          {'loss': 0.0446, 'grad_norm': 0.21375881135463715, 'learning_rate': 2.6664260540953677e-05, 'epoch': 4.8}
 20%|██        | 15714/78504 [9:32:54<47:43:56,  2.74s/it] 20%|██        | 15715/78504 [9:32:56<45:45:00,  2.62s/it]                                                          {'loss': 0.0707, 'grad_norm': 0.3092779517173767, 'learning_rate': 2.6663835930533736e-05, 'epoch': 4.8}
 20%|██        | 15715/78504 [9:32:56<45:45:00,  2.62s/it] 20%|██        | 15716/78504 [9:32:59<44:12:13,  2.53s/it]                                                          {'loss': 0.0583, 'grad_norm': 0.21842053532600403, 'learning_rate': 2.6663411320113798e-05, 'epoch': 4.8}
 20%|██        | 15716/78504 [9:32:59<44:12:13,  2.53s/it] 20%|██        | 15717/78504 [9:33:01<41:53:31,  2.40s/it]                                                          {'loss': 0.0579, 'grad_norm': 0.24462075531482697, 'learning_rate': 2.6662986709693857e-05, 'epoch': 4.8}
 20%|██        | 15717/78504 [9:33:01<41:53:31,  2.40s/it] 20%|██        | 15718/78504 [9:33:03<39:54:27,  2.29s/it]                                                          {'loss': 0.0711, 'grad_norm': 0.27174434065818787, 'learning_rate': 2.666256209927392e-05, 'epoch': 4.81}
 20%|██        | 15718/78504 [9:33:03<39:54:27,  2.29s/it] 20%|██        | 15719/78504 [9:33:05<39:06:06,  2.24s/it]                                                          {'loss': 0.07, 'grad_norm': 0.2850550413131714, 'learning_rate': 2.6662137488853977e-05, 'epoch': 4.81}
 20%|██        | 15719/78504 [9:33:05<39:06:06,  2.24s/it] 20%|██        | 15720/78504 [9:33:07<37:58:24,  2.18s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.28589001297950745, 'learning_rate': 2.6661712878434036e-05, 'epoch': 4.81}
 20%|██        | 15720/78504 [9:33:07<37:58:24,  2.18s/it] 20%|██        | 15721/78504 [9:33:09<36:53:29,  2.12s/it]                                                          {'loss': 0.0871, 'grad_norm': 0.25585728883743286, 'learning_rate': 2.6661288268014098e-05, 'epoch': 4.81}
 20%|██        | 15721/78504 [9:33:09<36:53:29,  2.12s/it] 20%|██        | 15722/78504 [9:33:11<35:36:06,  2.04s/it]                                                          {'loss': 0.0873, 'grad_norm': 0.6289474964141846, 'learning_rate': 2.6660863657594157e-05, 'epoch': 4.81}
 20%|██        | 15722/78504 [9:33:11<35:36:06,  2.04s/it] 20%|██        | 15723/78504 [9:33:13<34:43:10,  1.99s/it]                                                          {'loss': 0.1242, 'grad_norm': 0.3271428346633911, 'learning_rate': 2.666043904717422e-05, 'epoch': 4.81}
 20%|██        | 15723/78504 [9:33:13<34:43:10,  1.99s/it] 20%|██        | 15724/78504 [9:33:14<33:17:12,  1.91s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.5494830012321472, 'learning_rate': 2.6660014436754278e-05, 'epoch': 4.81}
 20%|██        | 15724/78504 [9:33:14<33:17:12,  1.91s/it] 20%|██        | 15725/78504 [9:33:16<31:56:13,  1.83s/it]                                                          {'loss': 0.1769, 'grad_norm': 0.491993248462677, 'learning_rate': 2.665958982633434e-05, 'epoch': 4.81}
 20%|██        | 15725/78504 [9:33:16<31:56:13,  1.83s/it] 20%|██        | 15726/78504 [9:33:17<30:25:20,  1.74s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.5476564764976501, 'learning_rate': 2.66591652159144e-05, 'epoch': 4.81}
 20%|██        | 15726/78504 [9:33:18<30:25:20,  1.74s/it] 20%|██        | 15727/78504 [9:33:19<28:45:33,  1.65s/it]                                                          {'loss': 0.1718, 'grad_norm': 0.7452865839004517, 'learning_rate': 2.665874060549446e-05, 'epoch': 4.81}
 20%|██        | 15727/78504 [9:33:19<28:45:33,  1.65s/it] 20%|██        | 15728/78504 [9:33:20<27:32:31,  1.58s/it]                                                          {'loss': 0.2256, 'grad_norm': 0.5329870581626892, 'learning_rate': 2.665831599507452e-05, 'epoch': 4.81}
 20%|██        | 15728/78504 [9:33:20<27:32:31,  1.58s/it] 20%|██        | 15729/78504 [9:33:22<25:59:06,  1.49s/it]                                                          {'loss': 0.1427, 'grad_norm': 0.4099826514720917, 'learning_rate': 2.665789138465458e-05, 'epoch': 4.81}
 20%|██        | 15729/78504 [9:33:22<25:59:06,  1.49s/it] 20%|██        | 15730/78504 [9:33:23<24:05:52,  1.38s/it]                                                          {'loss': 0.1666, 'grad_norm': 0.686372697353363, 'learning_rate': 2.665746677423464e-05, 'epoch': 4.81}
 20%|██        | 15730/78504 [9:33:23<24:05:52,  1.38s/it] 20%|██        | 15731/78504 [9:33:24<22:38:20,  1.30s/it]                                                          {'loss': 0.1569, 'grad_norm': 0.9409127235412598, 'learning_rate': 2.6657042163814702e-05, 'epoch': 4.81}
 20%|██        | 15731/78504 [9:33:24<22:38:20,  1.30s/it] 20%|██        | 15732/78504 [9:33:25<21:00:23,  1.20s/it]                                                          {'loss': 0.2321, 'grad_norm': 0.874701738357544, 'learning_rate': 2.665661755339476e-05, 'epoch': 4.81}
 20%|██        | 15732/78504 [9:33:25<21:00:23,  1.20s/it] 20%|██        | 15733/78504 [9:33:26<19:35:00,  1.12s/it]                                                          {'loss': 0.1991, 'grad_norm': 2.204712390899658, 'learning_rate': 2.665619294297482e-05, 'epoch': 4.81}
 20%|██        | 15733/78504 [9:33:26<19:35:00,  1.12s/it] 20%|██        | 15734/78504 [9:33:27<17:49:29,  1.02s/it]                                                          {'loss': 0.249, 'grad_norm': 5.6752824783325195, 'learning_rate': 2.665576833255488e-05, 'epoch': 4.81}
 20%|██        | 15734/78504 [9:33:27<17:49:29,  1.02s/it] 20%|██        | 15735/78504 [9:33:34<50:48:23,  2.91s/it]                                                          {'loss': 0.1501, 'grad_norm': 0.5237113833427429, 'learning_rate': 2.665534372213494e-05, 'epoch': 4.81}
 20%|██        | 15735/78504 [9:33:34<50:48:23,  2.91s/it] 20%|██        | 15736/78504 [9:33:37<51:45:41,  2.97s/it]                                                          {'loss': 0.0833, 'grad_norm': 0.2572159469127655, 'learning_rate': 2.6654919111715002e-05, 'epoch': 4.81}
 20%|██        | 15736/78504 [9:33:37<51:45:41,  2.97s/it] 20%|██        | 15737/78504 [9:33:40<49:41:31,  2.85s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.39703062176704407, 'learning_rate': 2.665449450129506e-05, 'epoch': 4.81}
 20%|██        | 15737/78504 [9:33:40<49:41:31,  2.85s/it] 20%|██        | 15738/78504 [9:33:42<48:26:10,  2.78s/it]                                                          {'loss': 0.0521, 'grad_norm': 0.18090301752090454, 'learning_rate': 2.6654069890875123e-05, 'epoch': 4.81}
 20%|██        | 15738/78504 [9:33:42<48:26:10,  2.78s/it] 20%|██        | 15739/78504 [9:33:45<46:54:18,  2.69s/it]                                                          {'loss': 0.048, 'grad_norm': 0.13991428911685944, 'learning_rate': 2.6653645280455182e-05, 'epoch': 4.81}
 20%|██        | 15739/78504 [9:33:45<46:54:18,  2.69s/it] 20%|██        | 15740/78504 [9:33:47<45:38:35,  2.62s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.17378424108028412, 'learning_rate': 2.6653220670035244e-05, 'epoch': 4.81}
 20%|██        | 15740/78504 [9:33:47<45:38:35,  2.62s/it] 20%|██        | 15741/78504 [9:33:49<44:02:24,  2.53s/it]                                                          {'loss': 0.0523, 'grad_norm': 0.2420710027217865, 'learning_rate': 2.6652796059615303e-05, 'epoch': 4.81}
 20%|██        | 15741/78504 [9:33:49<44:02:24,  2.53s/it] 20%|██        | 15742/78504 [9:33:52<41:53:54,  2.40s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.22850501537322998, 'learning_rate': 2.6652371449195365e-05, 'epoch': 4.81}
 20%|██        | 15742/78504 [9:33:52<41:53:54,  2.40s/it] 20%|██        | 15743/78504 [9:33:54<40:43:08,  2.34s/it]                                                          {'loss': 0.0889, 'grad_norm': 0.3278219699859619, 'learning_rate': 2.6651946838775424e-05, 'epoch': 4.81}
 20%|██        | 15743/78504 [9:33:54<40:43:08,  2.34s/it] 20%|██        | 15744/78504 [9:33:56<39:44:38,  2.28s/it]                                                          {'loss': 0.0653, 'grad_norm': 0.2799775004386902, 'learning_rate': 2.6651522228355486e-05, 'epoch': 4.81}
 20%|██        | 15744/78504 [9:33:56<39:44:38,  2.28s/it] 20%|██        | 15745/78504 [9:33:58<38:25:08,  2.20s/it]                                                          {'loss': 0.0935, 'grad_norm': 0.26626715064048767, 'learning_rate': 2.6651097617935544e-05, 'epoch': 4.81}
 20%|██        | 15745/78504 [9:33:58<38:25:08,  2.20s/it] 20%|██        | 15746/78504 [9:34:00<37:16:17,  2.14s/it]                                                          {'loss': 0.0723, 'grad_norm': 0.29610225558280945, 'learning_rate': 2.6650673007515603e-05, 'epoch': 4.81}
 20%|██        | 15746/78504 [9:34:00<37:16:17,  2.14s/it] 20%|██        | 15747/78504 [9:34:02<36:00:42,  2.07s/it]                                                          {'loss': 0.1015, 'grad_norm': 0.32684940099716187, 'learning_rate': 2.6650248397095665e-05, 'epoch': 4.81}
 20%|██        | 15747/78504 [9:34:02<36:00:42,  2.07s/it] 20%|██        | 15748/78504 [9:34:04<34:57:05,  2.00s/it]                                                          {'loss': 0.1145, 'grad_norm': 0.30269700288772583, 'learning_rate': 2.6649823786675724e-05, 'epoch': 4.81}
 20%|██        | 15748/78504 [9:34:04<34:57:05,  2.00s/it] 20%|██        | 15749/78504 [9:34:05<33:41:47,  1.93s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.2822059392929077, 'learning_rate': 2.6649399176255786e-05, 'epoch': 4.81}
 20%|██        | 15749/78504 [9:34:05<33:41:47,  1.93s/it] 20%|██        | 15750/78504 [9:34:07<32:16:02,  1.85s/it]                                                          {'loss': 0.1391, 'grad_norm': 0.5509469509124756, 'learning_rate': 2.6648974565835845e-05, 'epoch': 4.82}
 20%|██        | 15750/78504 [9:34:07<32:16:02,  1.85s/it] 20%|██        | 15751/78504 [9:34:09<30:39:13,  1.76s/it]                                                          {'loss': 0.1522, 'grad_norm': 2.772015333175659, 'learning_rate': 2.6648549955415907e-05, 'epoch': 4.82}
 20%|██        | 15751/78504 [9:34:09<30:39:13,  1.76s/it] 20%|██        | 15752/78504 [9:34:10<29:06:17,  1.67s/it]                                                          {'loss': 0.1509, 'grad_norm': 0.5280134677886963, 'learning_rate': 2.6648125344995965e-05, 'epoch': 4.82}
 20%|██        | 15752/78504 [9:34:10<29:06:17,  1.67s/it] 20%|██        | 15753/78504 [9:34:11<27:49:35,  1.60s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.5185939073562622, 'learning_rate': 2.6647700734576027e-05, 'epoch': 4.82}
 20%|██        | 15753/78504 [9:34:11<27:49:35,  1.60s/it] 20%|██        | 15754/78504 [9:34:13<26:12:23,  1.50s/it]                                                          {'loss': 0.1897, 'grad_norm': 0.48052778840065, 'learning_rate': 2.6647276124156086e-05, 'epoch': 4.82}
 20%|██        | 15754/78504 [9:34:13<26:12:23,  1.50s/it] 20%|██        | 15755/78504 [9:34:14<24:13:46,  1.39s/it]                                                          {'loss': 0.1521, 'grad_norm': 1.0945007801055908, 'learning_rate': 2.6646851513736148e-05, 'epoch': 4.82}
 20%|██        | 15755/78504 [9:34:14<24:13:46,  1.39s/it] 20%|██        | 15756/78504 [9:34:15<22:38:03,  1.30s/it]                                                          {'loss': 0.2171, 'grad_norm': 1.0221805572509766, 'learning_rate': 2.6646426903316207e-05, 'epoch': 4.82}
 20%|██        | 15756/78504 [9:34:15<22:38:03,  1.30s/it] 20%|██        | 15757/78504 [9:34:16<21:02:24,  1.21s/it]                                                          {'loss': 0.2123, 'grad_norm': 2.6333484649658203, 'learning_rate': 2.664600229289627e-05, 'epoch': 4.82}
 20%|██        | 15757/78504 [9:34:16<21:02:24,  1.21s/it] 20%|██        | 15758/78504 [9:34:17<19:34:31,  1.12s/it]                                                          {'loss': 0.1937, 'grad_norm': 1.0313090085983276, 'learning_rate': 2.6645577682476328e-05, 'epoch': 4.82}
 20%|██        | 15758/78504 [9:34:17<19:34:31,  1.12s/it] 20%|██        | 15759/78504 [9:34:18<17:47:31,  1.02s/it]                                                          {'loss': 0.2605, 'grad_norm': 1.2255678176879883, 'learning_rate': 2.6645153072056386e-05, 'epoch': 4.82}
 20%|██        | 15759/78504 [9:34:18<17:47:31,  1.02s/it] 20%|██        | 15760/78504 [9:34:27<59:47:21,  3.43s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.5466446280479431, 'learning_rate': 2.664472846163645e-05, 'epoch': 4.82}
 20%|██        | 15760/78504 [9:34:27<59:47:21,  3.43s/it] 20%|██        | 15761/78504 [9:34:30<58:13:47,  3.34s/it]                                                          {'loss': 0.0863, 'grad_norm': 0.19584687054157257, 'learning_rate': 2.6644303851216507e-05, 'epoch': 4.82}
 20%|██        | 15761/78504 [9:34:30<58:13:47,  3.34s/it] 20%|██        | 15762/78504 [9:34:33<56:32:28,  3.24s/it]                                                          {'loss': 0.0611, 'grad_norm': 0.24220392107963562, 'learning_rate': 2.664387924079657e-05, 'epoch': 4.82}
 20%|██        | 15762/78504 [9:34:33<56:32:28,  3.24s/it] 20%|██        | 15763/78504 [9:34:35<53:13:43,  3.05s/it]                                                          {'loss': 0.0731, 'grad_norm': 0.23055948317050934, 'learning_rate': 2.6643454630376628e-05, 'epoch': 4.82}
 20%|██        | 15763/78504 [9:34:36<53:13:43,  3.05s/it] 20%|██        | 15764/78504 [9:34:38<50:08:47,  2.88s/it]                                                          {'loss': 0.049, 'grad_norm': 0.17270275950431824, 'learning_rate': 2.664303001995669e-05, 'epoch': 4.82}
 20%|██        | 15764/78504 [9:34:38<50:08:47,  2.88s/it] 20%|██        | 15765/78504 [9:34:40<46:57:37,  2.69s/it]                                                          {'loss': 0.0639, 'grad_norm': 0.41637346148490906, 'learning_rate': 2.664260540953675e-05, 'epoch': 4.82}
 20%|██        | 15765/78504 [9:34:40<46:57:37,  2.69s/it] 20%|██        | 15766/78504 [9:34:43<44:57:11,  2.58s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.1561410129070282, 'learning_rate': 2.664218079911681e-05, 'epoch': 4.82}
 20%|██        | 15766/78504 [9:34:43<44:57:11,  2.58s/it] 20%|██        | 15767/78504 [9:34:45<42:24:49,  2.43s/it]                                                          {'loss': 0.0429, 'grad_norm': 0.18265902996063232, 'learning_rate': 2.664175618869687e-05, 'epoch': 4.82}
 20%|██        | 15767/78504 [9:34:45<42:24:49,  2.43s/it] 20%|██        | 15768/78504 [9:34:47<41:08:50,  2.36s/it]                                                          {'loss': 0.0658, 'grad_norm': 0.3275531828403473, 'learning_rate': 2.664133157827693e-05, 'epoch': 4.82}
 20%|██        | 15768/78504 [9:34:47<41:08:50,  2.36s/it] 20%|██        | 15769/78504 [9:34:49<39:59:09,  2.29s/it]                                                          {'loss': 0.0637, 'grad_norm': 0.27334657311439514, 'learning_rate': 2.664090696785699e-05, 'epoch': 4.82}
 20%|██        | 15769/78504 [9:34:49<39:59:09,  2.29s/it] 20%|██        | 15770/78504 [9:34:51<38:36:21,  2.22s/it]                                                          {'loss': 0.105, 'grad_norm': 0.40117427706718445, 'learning_rate': 2.6640482357437052e-05, 'epoch': 4.82}
 20%|██        | 15770/78504 [9:34:51<38:36:21,  2.22s/it] 20%|██        | 15771/78504 [9:34:53<37:20:14,  2.14s/it]                                                          {'loss': 0.0975, 'grad_norm': 0.2736455798149109, 'learning_rate': 2.664005774701711e-05, 'epoch': 4.82}
 20%|██        | 15771/78504 [9:34:53<37:20:14,  2.14s/it] 20%|██        | 15772/78504 [9:34:55<36:10:54,  2.08s/it]                                                          {'loss': 0.0938, 'grad_norm': 0.5808291435241699, 'learning_rate': 2.663963313659717e-05, 'epoch': 4.82}
 20%|██        | 15772/78504 [9:34:55<36:10:54,  2.08s/it] 20%|██        | 15773/78504 [9:34:57<35:11:03,  2.02s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.5836955904960632, 'learning_rate': 2.6639208526177232e-05, 'epoch': 4.82}
 20%|██        | 15773/78504 [9:34:57<35:11:03,  2.02s/it] 20%|██        | 15774/78504 [9:34:59<33:49:38,  1.94s/it]                                                          {'loss': 0.1685, 'grad_norm': 0.433731347322464, 'learning_rate': 2.663878391575729e-05, 'epoch': 4.82}
 20%|██        | 15774/78504 [9:34:59<33:49:38,  1.94s/it] 20%|██        | 15775/78504 [9:35:00<31:57:54,  1.83s/it]                                                          {'loss': 0.1187, 'grad_norm': 1.5629578828811646, 'learning_rate': 2.6638359305337353e-05, 'epoch': 4.82}
 20%|██        | 15775/78504 [9:35:00<31:57:54,  1.83s/it] 20%|██        | 15776/78504 [9:35:02<30:29:43,  1.75s/it]                                                          {'loss': 0.1461, 'grad_norm': 0.7119711637496948, 'learning_rate': 2.663793469491741e-05, 'epoch': 4.82}
 20%|██        | 15776/78504 [9:35:02<30:29:43,  1.75s/it] 20%|██        | 15777/78504 [9:35:03<29:15:50,  1.68s/it]                                                          {'loss': 0.1417, 'grad_norm': 0.5904694199562073, 'learning_rate': 2.6637510084497474e-05, 'epoch': 4.82}
 20%|██        | 15777/78504 [9:35:03<29:15:50,  1.68s/it] 20%|██        | 15778/78504 [9:35:05<27:51:23,  1.60s/it]                                                          {'loss': 0.1808, 'grad_norm': 1.0829190015792847, 'learning_rate': 2.6637085474077532e-05, 'epoch': 4.82}
 20%|██        | 15778/78504 [9:35:05<27:51:23,  1.60s/it] 20%|██        | 15779/78504 [9:35:06<26:17:17,  1.51s/it]                                                          {'loss': 0.181, 'grad_norm': 0.867216169834137, 'learning_rate': 2.6636660863657594e-05, 'epoch': 4.82}
 20%|██        | 15779/78504 [9:35:06<26:17:17,  1.51s/it] 20%|██        | 15780/78504 [9:35:07<24:25:35,  1.40s/it]                                                          {'loss': 0.2046, 'grad_norm': 1.9116909503936768, 'learning_rate': 2.6636236253237653e-05, 'epoch': 4.82}
 20%|██        | 15780/78504 [9:35:07<24:25:35,  1.40s/it] 20%|██        | 15781/78504 [9:35:08<22:47:10,  1.31s/it]                                                          {'loss': 0.1793, 'grad_norm': 0.7722105979919434, 'learning_rate': 2.6635811642817715e-05, 'epoch': 4.82}
 20%|██        | 15781/78504 [9:35:08<22:47:10,  1.31s/it] 20%|██        | 15782/78504 [9:35:09<21:24:54,  1.23s/it]                                                          {'loss': 0.1861, 'grad_norm': 1.5438627004623413, 'learning_rate': 2.6635387032397774e-05, 'epoch': 4.82}
 20%|██        | 15782/78504 [9:35:09<21:24:54,  1.23s/it] 20%|██        | 15783/78504 [9:35:10<19:47:14,  1.14s/it]                                                          {'loss': 0.2012, 'grad_norm': 0.9481801986694336, 'learning_rate': 2.6634962421977836e-05, 'epoch': 4.83}
 20%|██        | 15783/78504 [9:35:10<19:47:14,  1.14s/it] 20%|██        | 15784/78504 [9:35:11<18:04:26,  1.04s/it]                                                          {'loss': 0.2514, 'grad_norm': 2.7041356563568115, 'learning_rate': 2.6634537811557898e-05, 'epoch': 4.83}
 20%|██        | 15784/78504 [9:35:11<18:04:26,  1.04s/it] 20%|██        | 15785/78504 [9:35:19<55:11:12,  3.17s/it]                                                          {'loss': 0.1506, 'grad_norm': 0.29591163992881775, 'learning_rate': 2.6634113201137957e-05, 'epoch': 4.83}
 20%|██        | 15785/78504 [9:35:19<55:11:12,  3.17s/it] 20%|██        | 15786/78504 [9:35:22<56:12:22,  3.23s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.4726213216781616, 'learning_rate': 2.663368859071802e-05, 'epoch': 4.83}
 20%|██        | 15786/78504 [9:35:22<56:12:22,  3.23s/it] 20%|██        | 15787/78504 [9:35:25<54:36:37,  3.13s/it]                                                          {'loss': 0.0618, 'grad_norm': 0.204535573720932, 'learning_rate': 2.6633263980298077e-05, 'epoch': 4.83}
 20%|██        | 15787/78504 [9:35:25<54:36:37,  3.13s/it] 20%|██        | 15788/78504 [9:35:28<51:41:14,  2.97s/it]                                                          {'loss': 0.0813, 'grad_norm': 0.6023572683334351, 'learning_rate': 2.663283936987814e-05, 'epoch': 4.83}
 20%|██        | 15788/78504 [9:35:28<51:41:14,  2.97s/it] 20%|██        | 15789/78504 [9:35:30<49:11:01,  2.82s/it]                                                          {'loss': 0.0541, 'grad_norm': 0.3038691580295563, 'learning_rate': 2.6632414759458198e-05, 'epoch': 4.83}
 20%|██        | 15789/78504 [9:35:30<49:11:01,  2.82s/it] 20%|██        | 15790/78504 [9:35:33<47:06:35,  2.70s/it]                                                          {'loss': 0.064, 'grad_norm': 0.4809274971485138, 'learning_rate': 2.663199014903826e-05, 'epoch': 4.83}
 20%|██        | 15790/78504 [9:35:33<47:06:35,  2.70s/it] 20%|██        | 15791/78504 [9:35:35<45:04:12,  2.59s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.4091047942638397, 'learning_rate': 2.663156553861832e-05, 'epoch': 4.83}
 20%|██        | 15791/78504 [9:35:35<45:04:12,  2.59s/it] 20%|██        | 15792/78504 [9:35:37<42:32:46,  2.44s/it]                                                          {'loss': 0.0514, 'grad_norm': 0.2030009627342224, 'learning_rate': 2.663114092819838e-05, 'epoch': 4.83}
 20%|██        | 15792/78504 [9:35:37<42:32:46,  2.44s/it] 20%|██        | 15793/78504 [9:35:39<41:10:57,  2.36s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.28209567070007324, 'learning_rate': 2.663071631777844e-05, 'epoch': 4.83}
 20%|██        | 15793/78504 [9:35:39<41:10:57,  2.36s/it] 20%|██        | 15794/78504 [9:35:42<40:01:47,  2.30s/it]                                                          {'loss': 0.0575, 'grad_norm': 0.3193736672401428, 'learning_rate': 2.6630291707358502e-05, 'epoch': 4.83}
 20%|██        | 15794/78504 [9:35:42<40:01:47,  2.30s/it] 20%|██        | 15795/78504 [9:35:44<38:33:12,  2.21s/it]                                                          {'loss': 0.0746, 'grad_norm': 0.542600691318512, 'learning_rate': 2.662986709693856e-05, 'epoch': 4.83}
 20%|██        | 15795/78504 [9:35:44<38:33:12,  2.21s/it] 20%|██        | 15796/78504 [9:35:46<37:19:25,  2.14s/it]                                                          {'loss': 0.0774, 'grad_norm': 0.3376907706260681, 'learning_rate': 2.6629442486518623e-05, 'epoch': 4.83}
 20%|██        | 15796/78504 [9:35:46<37:19:25,  2.14s/it] 20%|██        | 15797/78504 [9:35:47<35:53:31,  2.06s/it]                                                          {'loss': 0.1195, 'grad_norm': 0.5592567324638367, 'learning_rate': 2.662901787609868e-05, 'epoch': 4.83}
 20%|██        | 15797/78504 [9:35:47<35:53:31,  2.06s/it] 20%|██        | 15798/78504 [9:35:49<34:06:03,  1.96s/it]                                                          {'loss': 0.1057, 'grad_norm': 0.565908670425415, 'learning_rate': 2.662859326567874e-05, 'epoch': 4.83}
 20%|██        | 15798/78504 [9:35:49<34:06:03,  1.96s/it] 20%|██        | 15799/78504 [9:35:51<33:06:49,  1.90s/it]                                                          {'loss': 0.1448, 'grad_norm': 0.7756862044334412, 'learning_rate': 2.6628168655258802e-05, 'epoch': 4.83}
 20%|██        | 15799/78504 [9:35:51<33:06:49,  1.90s/it] 20%|██        | 15800/78504 [9:35:53<31:42:46,  1.82s/it]                                                          {'loss': 0.1331, 'grad_norm': 0.4286160469055176, 'learning_rate': 2.662774404483886e-05, 'epoch': 4.83}
 20%|██        | 15800/78504 [9:35:53<31:42:46,  1.82s/it] 20%|██        | 15801/78504 [9:35:54<30:05:40,  1.73s/it]                                                          {'loss': 0.1456, 'grad_norm': 0.8199710845947266, 'learning_rate': 2.6627319434418923e-05, 'epoch': 4.83}
 20%|██        | 15801/78504 [9:35:54<30:05:40,  1.73s/it] 20%|██        | 15802/78504 [9:35:55<28:33:19,  1.64s/it]                                                          {'loss': 0.1374, 'grad_norm': 0.5051546096801758, 'learning_rate': 2.6626894823998982e-05, 'epoch': 4.83}
 20%|██        | 15802/78504 [9:35:56<28:33:19,  1.64s/it] 20%|██        | 15803/78504 [9:35:57<27:22:02,  1.57s/it]                                                          {'loss': 0.1449, 'grad_norm': 0.7567780017852783, 'learning_rate': 2.6626470213579044e-05, 'epoch': 4.83}
 20%|██        | 15803/78504 [9:35:57<27:22:02,  1.57s/it] 20%|██        | 15804/78504 [9:35:58<25:51:31,  1.48s/it]                                                          {'loss': 0.2169, 'grad_norm': 0.9036616086959839, 'learning_rate': 2.6626045603159102e-05, 'epoch': 4.83}
 20%|██        | 15804/78504 [9:35:58<25:51:31,  1.48s/it] 20%|██        | 15805/78504 [9:35:59<24:02:39,  1.38s/it]                                                          {'loss': 0.1771, 'grad_norm': 1.12540602684021, 'learning_rate': 2.6625620992739165e-05, 'epoch': 4.83}
 20%|██        | 15805/78504 [9:35:59<24:02:39,  1.38s/it] 20%|██        | 15806/78504 [9:36:00<22:35:03,  1.30s/it]                                                          {'loss': 0.1888, 'grad_norm': 1.753917932510376, 'learning_rate': 2.6625196382319223e-05, 'epoch': 4.83}
 20%|██        | 15806/78504 [9:36:00<22:35:03,  1.30s/it] 20%|██        | 15807/78504 [9:36:01<20:58:35,  1.20s/it]                                                          {'loss': 0.1653, 'grad_norm': 2.5195324420928955, 'learning_rate': 2.6624771771899285e-05, 'epoch': 4.83}
 20%|██        | 15807/78504 [9:36:01<20:58:35,  1.20s/it] 20%|██        | 15808/78504 [9:36:02<19:39:00,  1.13s/it]                                                          {'loss': 0.2228, 'grad_norm': 1.1539461612701416, 'learning_rate': 2.6624347161479344e-05, 'epoch': 4.83}
 20%|██        | 15808/78504 [9:36:02<19:39:00,  1.13s/it] 20%|██        | 15809/78504 [9:36:03<17:50:14,  1.02s/it]                                                          {'loss': 0.2299, 'grad_norm': 2.046140432357788, 'learning_rate': 2.6623922551059406e-05, 'epoch': 4.83}
 20%|██        | 15809/78504 [9:36:03<17:50:14,  1.02s/it] 20%|██        | 15810/78504 [9:36:11<53:06:29,  3.05s/it]                                                          {'loss': 0.1471, 'grad_norm': 0.3307948708534241, 'learning_rate': 2.6623497940639465e-05, 'epoch': 4.83}
 20%|██        | 15810/78504 [9:36:11<53:06:29,  3.05s/it] 20%|██        | 15811/78504 [9:36:14<53:34:20,  3.08s/it]                                                          {'loss': 0.0687, 'grad_norm': 0.1889675110578537, 'learning_rate': 2.6623073330219524e-05, 'epoch': 4.83}
 20%|██        | 15811/78504 [9:36:14<53:34:20,  3.08s/it] 20%|██        | 15812/78504 [9:36:17<53:05:03,  3.05s/it]                                                          {'loss': 0.0598, 'grad_norm': 0.23347435891628265, 'learning_rate': 2.6622648719799586e-05, 'epoch': 4.83}
 20%|██        | 15812/78504 [9:36:17<53:05:03,  3.05s/it] 20%|██        | 15813/78504 [9:36:20<50:48:07,  2.92s/it]                                                          {'loss': 0.0684, 'grad_norm': 0.2024346888065338, 'learning_rate': 2.6622224109379644e-05, 'epoch': 4.83}
 20%|██        | 15813/78504 [9:36:20<50:48:07,  2.92s/it] 20%|██        | 15814/78504 [9:36:22<48:26:05,  2.78s/it]                                                          {'loss': 0.05, 'grad_norm': 0.23489680886268616, 'learning_rate': 2.6621799498959706e-05, 'epoch': 4.83}
 20%|██        | 15814/78504 [9:36:22<48:26:05,  2.78s/it] 20%|██        | 15815/78504 [9:36:24<45:45:38,  2.63s/it]                                                          {'loss': 0.048, 'grad_norm': 0.24270108342170715, 'learning_rate': 2.6621374888539765e-05, 'epoch': 4.83}
 20%|██        | 15815/78504 [9:36:24<45:45:38,  2.63s/it] 20%|██        | 15816/78504 [9:36:27<44:07:04,  2.53s/it]                                                          {'loss': 0.0541, 'grad_norm': 0.22955083847045898, 'learning_rate': 2.6620950278119827e-05, 'epoch': 4.84}
 20%|██        | 15816/78504 [9:36:27<44:07:04,  2.53s/it] 20%|██        | 15817/78504 [9:36:29<41:54:28,  2.41s/it]                                                          {'loss': 0.0744, 'grad_norm': 0.3753277063369751, 'learning_rate': 2.6620525667699886e-05, 'epoch': 4.84}
 20%|██        | 15817/78504 [9:36:29<41:54:28,  2.41s/it] 20%|██        | 15818/78504 [9:36:31<40:44:20,  2.34s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.24463260173797607, 'learning_rate': 2.6620101057279948e-05, 'epoch': 4.84}
 20%|██        | 15818/78504 [9:36:31<40:44:20,  2.34s/it] 20%|██        | 15819/78504 [9:36:33<39:40:45,  2.28s/it]                                                          {'loss': 0.0737, 'grad_norm': 0.2125495821237564, 'learning_rate': 2.6619676446860007e-05, 'epoch': 4.84}
 20%|██        | 15819/78504 [9:36:33<39:40:45,  2.28s/it] 20%|██        | 15820/78504 [9:36:35<38:22:40,  2.20s/it]                                                          {'loss': 0.1297, 'grad_norm': 0.43351665139198303, 'learning_rate': 2.661925183644007e-05, 'epoch': 4.84}
 20%|██        | 15820/78504 [9:36:35<38:22:40,  2.20s/it] 20%|██        | 15821/78504 [9:36:37<37:09:58,  2.13s/it]                                                          {'loss': 0.1117, 'grad_norm': 1.634965181350708, 'learning_rate': 2.6618827226020127e-05, 'epoch': 4.84}
 20%|██        | 15821/78504 [9:36:37<37:09:58,  2.13s/it] 20%|██        | 15822/78504 [9:36:39<35:45:26,  2.05s/it]                                                          {'loss': 0.0901, 'grad_norm': 0.35520100593566895, 'learning_rate': 2.6618402615600186e-05, 'epoch': 4.84}
 20%|██        | 15822/78504 [9:36:39<35:45:26,  2.05s/it] 20%|██        | 15823/78504 [9:36:41<34:40:10,  1.99s/it]                                                          {'loss': 0.1385, 'grad_norm': 0.4502006769180298, 'learning_rate': 2.6617978005180248e-05, 'epoch': 4.84}
 20%|██        | 15823/78504 [9:36:41<34:40:10,  1.99s/it] 20%|██        | 15824/78504 [9:36:43<33:17:43,  1.91s/it]                                                          {'loss': 0.1274, 'grad_norm': 0.3962273895740509, 'learning_rate': 2.6617553394760307e-05, 'epoch': 4.84}
 20%|██        | 15824/78504 [9:36:43<33:17:43,  1.91s/it] 20%|██        | 15825/78504 [9:36:44<31:52:27,  1.83s/it]                                                          {'loss': 0.1645, 'grad_norm': 0.44470837712287903, 'learning_rate': 2.661712878434037e-05, 'epoch': 4.84}
 20%|██        | 15825/78504 [9:36:44<31:52:27,  1.83s/it] 20%|██        | 15826/78504 [9:36:46<30:23:11,  1.75s/it]                                                          {'loss': 0.1458, 'grad_norm': 0.9815933704376221, 'learning_rate': 2.6616704173920428e-05, 'epoch': 4.84}
 20%|██        | 15826/78504 [9:36:46<30:23:11,  1.75s/it] 20%|██        | 15827/78504 [9:36:47<28:56:59,  1.66s/it]                                                          {'loss': 0.1358, 'grad_norm': 0.4462904930114746, 'learning_rate': 2.661627956350049e-05, 'epoch': 4.84}
 20%|██        | 15827/78504 [9:36:47<28:56:59,  1.66s/it] 20%|██        | 15828/78504 [9:36:49<27:27:37,  1.58s/it]                                                          {'loss': 0.1566, 'grad_norm': 0.4917019009590149, 'learning_rate': 2.661585495308055e-05, 'epoch': 4.84}
 20%|██        | 15828/78504 [9:36:49<27:27:37,  1.58s/it] 20%|██        | 15829/78504 [9:36:50<25:53:24,  1.49s/it]                                                          {'loss': 0.1711, 'grad_norm': 0.55172199010849, 'learning_rate': 2.661543034266061e-05, 'epoch': 4.84}
 20%|██        | 15829/78504 [9:36:50<25:53:24,  1.49s/it] 20%|██        | 15830/78504 [9:36:51<24:12:44,  1.39s/it]                                                          {'loss': 0.1974, 'grad_norm': 1.1347404718399048, 'learning_rate': 2.661500573224067e-05, 'epoch': 4.84}
 20%|██        | 15830/78504 [9:36:51<24:12:44,  1.39s/it] 20%|██        | 15831/78504 [9:36:52<22:39:11,  1.30s/it]                                                          {'loss': 0.196, 'grad_norm': 0.958901584148407, 'learning_rate': 2.661458112182073e-05, 'epoch': 4.84}
 20%|██        | 15831/78504 [9:36:52<22:39:11,  1.30s/it] 20%|██        | 15832/78504 [9:36:53<21:22:33,  1.23s/it]                                                          {'loss': 0.1738, 'grad_norm': 1.623146653175354, 'learning_rate': 2.661415651140079e-05, 'epoch': 4.84}
 20%|██        | 15832/78504 [9:36:53<21:22:33,  1.23s/it] 20%|██        | 15833/78504 [9:36:54<19:50:53,  1.14s/it]                                                          {'loss': 0.1902, 'grad_norm': 4.829529285430908, 'learning_rate': 2.6613731900980852e-05, 'epoch': 4.84}
 20%|██        | 15833/78504 [9:36:54<19:50:53,  1.14s/it] 20%|██        | 15834/78504 [9:36:55<17:48:11,  1.02s/it]                                                          {'loss': 0.2204, 'grad_norm': 0.7619117498397827, 'learning_rate': 2.661330729056091e-05, 'epoch': 4.84}
 20%|██        | 15834/78504 [9:36:55<17:48:11,  1.02s/it] 20%|██        | 15835/78504 [9:37:01<46:40:51,  2.68s/it]                                                          {'loss': 0.1746, 'grad_norm': 0.5584035515785217, 'learning_rate': 2.661288268014097e-05, 'epoch': 4.84}
 20%|██        | 15835/78504 [9:37:01<46:40:51,  2.68s/it] 20%|██        | 15836/78504 [9:37:05<49:43:56,  2.86s/it]                                                          {'loss': 0.0916, 'grad_norm': 0.26595115661621094, 'learning_rate': 2.6612458069721032e-05, 'epoch': 4.84}
 20%|██        | 15836/78504 [9:37:05<49:43:56,  2.86s/it] 20%|██        | 15837/78504 [9:37:08<50:34:18,  2.91s/it]                                                          {'loss': 0.0953, 'grad_norm': 0.5035415887832642, 'learning_rate': 2.661203345930109e-05, 'epoch': 4.84}
 20%|██        | 15837/78504 [9:37:08<50:34:18,  2.91s/it] 20%|██        | 15838/78504 [9:37:10<49:03:40,  2.82s/it]                                                          {'loss': 0.0525, 'grad_norm': 0.2502012252807617, 'learning_rate': 2.6611608848881152e-05, 'epoch': 4.84}
 20%|██        | 15838/78504 [9:37:10<49:03:40,  2.82s/it] 20%|██        | 15839/78504 [9:37:13<47:13:56,  2.71s/it]                                                          {'loss': 0.0591, 'grad_norm': 0.16931454837322235, 'learning_rate': 2.661118423846121e-05, 'epoch': 4.84}
 20%|██        | 15839/78504 [9:37:13<47:13:56,  2.71s/it] 20%|██        | 15840/78504 [9:37:15<44:56:13,  2.58s/it]                                                          {'loss': 0.0859, 'grad_norm': 0.5793378949165344, 'learning_rate': 2.6610759628041273e-05, 'epoch': 4.84}
 20%|██        | 15840/78504 [9:37:15<44:56:13,  2.58s/it] 20%|██        | 15841/78504 [9:37:17<43:32:38,  2.50s/it]                                                          {'loss': 0.0596, 'grad_norm': 0.5243752598762512, 'learning_rate': 2.6610335017621332e-05, 'epoch': 4.84}
 20%|██        | 15841/78504 [9:37:17<43:32:38,  2.50s/it] 20%|██        | 15842/78504 [9:37:20<41:33:30,  2.39s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.21455161273479462, 'learning_rate': 2.6609910407201394e-05, 'epoch': 4.84}
 20%|██        | 15842/78504 [9:37:20<41:33:30,  2.39s/it] 20%|██        | 15843/78504 [9:37:22<40:29:25,  2.33s/it]                                                          {'loss': 0.0888, 'grad_norm': 0.4389013350009918, 'learning_rate': 2.6609485796781453e-05, 'epoch': 4.84}
 20%|██        | 15843/78504 [9:37:22<40:29:25,  2.33s/it] 20%|██        | 15844/78504 [9:37:24<39:40:51,  2.28s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.3322286307811737, 'learning_rate': 2.6609061186361515e-05, 'epoch': 4.84}
 20%|██        | 15844/78504 [9:37:24<39:40:51,  2.28s/it] 20%|██        | 15845/78504 [9:37:26<38:22:04,  2.20s/it]                                                          {'loss': 0.1233, 'grad_norm': 0.23339693248271942, 'learning_rate': 2.6608636575941574e-05, 'epoch': 4.84}
 20%|██        | 15845/78504 [9:37:26<38:22:04,  2.20s/it] 20%|██        | 15846/78504 [9:37:28<37:12:03,  2.14s/it]                                                          {'loss': 0.0896, 'grad_norm': 0.3977592885494232, 'learning_rate': 2.6608211965521636e-05, 'epoch': 4.84}
 20%|██        | 15846/78504 [9:37:28<37:12:03,  2.14s/it] 20%|██        | 15847/78504 [9:37:30<35:46:19,  2.06s/it]                                                          {'loss': 0.1012, 'grad_norm': 0.9959298372268677, 'learning_rate': 2.6607787355101694e-05, 'epoch': 4.84}
 20%|██        | 15847/78504 [9:37:30<35:46:19,  2.06s/it] 20%|██        | 15848/78504 [9:37:31<33:59:47,  1.95s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.6548387408256531, 'learning_rate': 2.6607362744681753e-05, 'epoch': 4.85}
 20%|██        | 15848/78504 [9:37:31<33:59:47,  1.95s/it] 20%|██        | 15849/78504 [9:37:33<32:58:36,  1.89s/it]                                                          {'loss': 0.1437, 'grad_norm': 2.4059996604919434, 'learning_rate': 2.6606938134261815e-05, 'epoch': 4.85}
 20%|██        | 15849/78504 [9:37:33<32:58:36,  1.89s/it] 20%|██        | 15850/78504 [9:37:35<31:38:43,  1.82s/it]                                                          {'loss': 0.1663, 'grad_norm': 0.6465174555778503, 'learning_rate': 2.6606513523841874e-05, 'epoch': 4.85}
 20%|██        | 15850/78504 [9:37:35<31:38:43,  1.82s/it] 20%|██        | 15851/78504 [9:37:36<30:04:03,  1.73s/it]                                                          {'loss': 0.1919, 'grad_norm': 0.4249199330806732, 'learning_rate': 2.6606088913421936e-05, 'epoch': 4.85}
 20%|██        | 15851/78504 [9:37:36<30:04:03,  1.73s/it] 20%|██        | 15852/78504 [9:37:38<28:29:40,  1.64s/it]                                                          {'loss': 0.1601, 'grad_norm': 3.1344316005706787, 'learning_rate': 2.6605664303001995e-05, 'epoch': 4.85}
 20%|██        | 15852/78504 [9:37:38<28:29:40,  1.64s/it] 20%|██        | 15853/78504 [9:37:39<27:18:11,  1.57s/it]                                                          {'loss': 0.1524, 'grad_norm': 0.8127695322036743, 'learning_rate': 2.6605239692582057e-05, 'epoch': 4.85}
 20%|██        | 15853/78504 [9:37:39<27:18:11,  1.57s/it] 20%|██        | 15854/78504 [9:37:40<25:30:46,  1.47s/it]                                                          {'loss': 0.1694, 'grad_norm': 0.5423147678375244, 'learning_rate': 2.6604815082162115e-05, 'epoch': 4.85}
 20%|██        | 15854/78504 [9:37:40<25:30:46,  1.47s/it] 20%|██        | 15855/78504 [9:37:42<23:51:03,  1.37s/it]                                                          {'loss': 0.1752, 'grad_norm': 0.6240178346633911, 'learning_rate': 2.6604390471742177e-05, 'epoch': 4.85}
 20%|██        | 15855/78504 [9:37:42<23:51:03,  1.37s/it] 20%|██        | 15856/78504 [9:37:43<22:27:29,  1.29s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.5441421866416931, 'learning_rate': 2.6603965861322236e-05, 'epoch': 4.85}
 20%|██        | 15856/78504 [9:37:43<22:27:29,  1.29s/it] 20%|██        | 15857/78504 [9:37:44<20:53:18,  1.20s/it]                                                          {'loss': 0.1842, 'grad_norm': 0.8501322865486145, 'learning_rate': 2.6603541250902298e-05, 'epoch': 4.85}
 20%|██        | 15857/78504 [9:37:44<20:53:18,  1.20s/it] 20%|██        | 15858/78504 [9:37:45<19:27:27,  1.12s/it]                                                          {'loss': 0.1999, 'grad_norm': 1.6940313577651978, 'learning_rate': 2.6603116640482357e-05, 'epoch': 4.85}
 20%|██        | 15858/78504 [9:37:45<19:27:27,  1.12s/it] 20%|██        | 15859/78504 [9:37:45<17:42:08,  1.02s/it]                                                          {'loss': 0.243, 'grad_norm': 1.437025547027588, 'learning_rate': 2.660269203006242e-05, 'epoch': 4.85}
 20%|██        | 15859/78504 [9:37:45<17:42:08,  1.02s/it] 20%|██        | 15860/78504 [9:37:54<58:36:42,  3.37s/it]                                                          {'loss': 0.1282, 'grad_norm': 0.3204152286052704, 'learning_rate': 2.6602267419642478e-05, 'epoch': 4.85}
 20%|██        | 15860/78504 [9:37:54<58:36:42,  3.37s/it] 20%|██        | 15861/78504 [9:37:58<58:32:23,  3.36s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.3235352635383606, 'learning_rate': 2.6601842809222536e-05, 'epoch': 4.85}
 20%|██        | 15861/78504 [9:37:58<58:32:23,  3.36s/it] 20%|██        | 15862/78504 [9:38:00<55:28:45,  3.19s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.19379356503486633, 'learning_rate': 2.66014181988026e-05, 'epoch': 4.85}
 20%|██        | 15862/78504 [9:38:00<55:28:45,  3.19s/it] 20%|██        | 15863/78504 [9:38:03<52:27:29,  3.01s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.6489826440811157, 'learning_rate': 2.6600993588382657e-05, 'epoch': 4.85}
 20%|██        | 15863/78504 [9:38:03<52:27:29,  3.01s/it] 20%|██        | 15864/78504 [9:38:05<49:35:30,  2.85s/it]                                                          {'loss': 0.0486, 'grad_norm': 0.18576966226100922, 'learning_rate': 2.660056897796272e-05, 'epoch': 4.85}
 20%|██        | 15864/78504 [9:38:05<49:35:30,  2.85s/it] 20%|██        | 15865/78504 [9:38:08<47:22:29,  2.72s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.32578256726264954, 'learning_rate': 2.6600144367542778e-05, 'epoch': 4.85}
 20%|██        | 15865/78504 [9:38:08<47:22:29,  2.72s/it] 20%|██        | 15866/78504 [9:38:10<45:16:01,  2.60s/it]                                                          {'loss': 0.0586, 'grad_norm': 0.25108247995376587, 'learning_rate': 2.659971975712284e-05, 'epoch': 4.85}
 20%|██        | 15866/78504 [9:38:10<45:16:01,  2.60s/it] 20%|██        | 15867/78504 [9:38:12<42:40:37,  2.45s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.27227839827537537, 'learning_rate': 2.65992951467029e-05, 'epoch': 4.85}
 20%|██        | 15867/78504 [9:38:12<42:40:37,  2.45s/it] 20%|██        | 15868/78504 [9:38:14<41:17:25,  2.37s/it]                                                          {'loss': 0.064, 'grad_norm': 0.3875209391117096, 'learning_rate': 2.659887053628296e-05, 'epoch': 4.85}
 20%|██        | 15868/78504 [9:38:15<41:17:25,  2.37s/it] 20%|██        | 15869/78504 [9:38:17<40:05:27,  2.30s/it]                                                          {'loss': 0.0845, 'grad_norm': 0.3232678472995758, 'learning_rate': 2.659844592586302e-05, 'epoch': 4.85}
 20%|██        | 15869/78504 [9:38:17<40:05:27,  2.30s/it] 20%|██        | 15870/78504 [9:38:19<38:38:13,  2.22s/it]                                                          {'loss': 0.07, 'grad_norm': 0.39022740721702576, 'learning_rate': 2.6598021315443082e-05, 'epoch': 4.85}
 20%|██        | 15870/78504 [9:38:19<38:38:13,  2.22s/it] 20%|██        | 15871/78504 [9:38:21<37:23:28,  2.15s/it]                                                          {'loss': 0.0691, 'grad_norm': 0.7930917739868164, 'learning_rate': 2.659759670502314e-05, 'epoch': 4.85}
 20%|██        | 15871/78504 [9:38:21<37:23:28,  2.15s/it] 20%|██        | 15872/78504 [9:38:22<35:54:00,  2.06s/it]                                                          {'loss': 0.0819, 'grad_norm': 0.5103524923324585, 'learning_rate': 2.6597172094603203e-05, 'epoch': 4.85}
 20%|██        | 15872/78504 [9:38:23<35:54:00,  2.06s/it] 20%|██        | 15873/78504 [9:38:24<34:43:53,  2.00s/it]                                                          {'loss': 0.1058, 'grad_norm': 0.37459972500801086, 'learning_rate': 2.659674748418326e-05, 'epoch': 4.85}
 20%|██        | 15873/78504 [9:38:24<34:43:53,  2.00s/it] 20%|██        | 15874/78504 [9:38:26<33:00:16,  1.90s/it]                                                          {'loss': 0.1071, 'grad_norm': 0.4057163596153259, 'learning_rate': 2.659632287376332e-05, 'epoch': 4.85}
 20%|██        | 15874/78504 [9:38:26<33:00:16,  1.90s/it] 20%|██        | 15875/78504 [9:38:28<31:39:10,  1.82s/it]                                                          {'loss': 0.1168, 'grad_norm': 0.36398231983184814, 'learning_rate': 2.6595898263343382e-05, 'epoch': 4.85}
 20%|██        | 15875/78504 [9:38:28<31:39:10,  1.82s/it] 20%|██        | 15876/78504 [9:38:29<30:09:59,  1.73s/it]                                                          {'loss': 0.1482, 'grad_norm': 0.581800639629364, 'learning_rate': 2.659547365292344e-05, 'epoch': 4.85}
 20%|██        | 15876/78504 [9:38:29<30:09:59,  1.73s/it] 20%|██        | 15877/78504 [9:38:31<28:48:42,  1.66s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.488392174243927, 'learning_rate': 2.6595049042503503e-05, 'epoch': 4.85}
 20%|██        | 15877/78504 [9:38:31<28:48:42,  1.66s/it] 20%|██        | 15878/78504 [9:38:32<27:30:09,  1.58s/it]                                                          {'loss': 0.1647, 'grad_norm': 1.228584885597229, 'learning_rate': 2.659462443208356e-05, 'epoch': 4.85}
 20%|██        | 15878/78504 [9:38:32<27:30:09,  1.58s/it] 20%|██        | 15879/78504 [9:38:33<26:00:54,  1.50s/it]                                                          {'loss': 0.1922, 'grad_norm': 1.143633246421814, 'learning_rate': 2.6594199821663624e-05, 'epoch': 4.85}
 20%|██        | 15879/78504 [9:38:33<26:00:54,  1.50s/it] 20%|██        | 15880/78504 [9:38:35<24:13:59,  1.39s/it]                                                          {'loss': 0.201, 'grad_norm': 1.1147656440734863, 'learning_rate': 2.6593775211243682e-05, 'epoch': 4.85}
 20%|██        | 15880/78504 [9:38:35<24:13:59,  1.39s/it] 20%|██        | 15881/78504 [9:38:36<22:44:36,  1.31s/it]                                                          {'loss': 0.2225, 'grad_norm': 0.9125921726226807, 'learning_rate': 2.6593350600823744e-05, 'epoch': 4.86}
 20%|██        | 15881/78504 [9:38:36<22:44:36,  1.31s/it] 20%|██        | 15882/78504 [9:38:37<21:24:46,  1.23s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.9918628334999084, 'learning_rate': 2.6592925990403803e-05, 'epoch': 4.86}
 20%|██        | 15882/78504 [9:38:37<21:24:46,  1.23s/it] 20%|██        | 15883/78504 [9:38:38<19:51:51,  1.14s/it]                                                          {'loss': 0.1818, 'grad_norm': 2.495972156524658, 'learning_rate': 2.6592501379983865e-05, 'epoch': 4.86}
 20%|██        | 15883/78504 [9:38:38<19:51:51,  1.14s/it] 20%|██        | 15884/78504 [9:38:38<17:58:07,  1.03s/it]                                                          {'loss': 0.2075, 'grad_norm': 2.0985138416290283, 'learning_rate': 2.6592076769563924e-05, 'epoch': 4.86}
 20%|██        | 15884/78504 [9:38:38<17:58:07,  1.03s/it] 20%|██        | 15885/78504 [9:38:46<51:51:22,  2.98s/it]                                                          {'loss': 0.1619, 'grad_norm': 0.279201865196228, 'learning_rate': 2.6591652159143986e-05, 'epoch': 4.86}
 20%|██        | 15885/78504 [9:38:46<51:51:22,  2.98s/it] 20%|██        | 15886/78504 [9:38:49<53:51:16,  3.10s/it]                                                          {'loss': 0.0843, 'grad_norm': 0.23677530884742737, 'learning_rate': 2.6591227548724048e-05, 'epoch': 4.86}
 20%|██        | 15886/78504 [9:38:49<53:51:16,  3.10s/it] 20%|██        | 15887/78504 [9:38:52<52:12:47,  3.00s/it]                                                          {'loss': 0.0772, 'grad_norm': 0.3359810411930084, 'learning_rate': 2.6590802938304107e-05, 'epoch': 4.86}
 20%|██        | 15887/78504 [9:38:52<52:12:47,  3.00s/it] 20%|██        | 15888/78504 [9:38:55<49:33:20,  2.85s/it]                                                          {'loss': 0.0463, 'grad_norm': 0.20665787160396576, 'learning_rate': 2.659037832788417e-05, 'epoch': 4.86}
 20%|██        | 15888/78504 [9:38:55<49:33:20,  2.85s/it] 20%|██        | 15889/78504 [9:38:57<47:40:32,  2.74s/it]                                                          {'loss': 0.0595, 'grad_norm': 0.3864682912826538, 'learning_rate': 2.6589953717464228e-05, 'epoch': 4.86}
 20%|██        | 15889/78504 [9:38:57<47:40:32,  2.74s/it] 20%|██        | 15890/78504 [9:38:59<46:10:45,  2.66s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.23731385171413422, 'learning_rate': 2.658952910704429e-05, 'epoch': 4.86}
 20%|██        | 15890/78504 [9:39:00<46:10:45,  2.66s/it] 20%|██        | 15891/78504 [9:39:02<44:23:37,  2.55s/it]                                                          {'loss': 0.0369, 'grad_norm': 0.21371111273765564, 'learning_rate': 2.6589104496624348e-05, 'epoch': 4.86}
 20%|██        | 15891/78504 [9:39:02<44:23:37,  2.55s/it] 20%|██        | 15892/78504 [9:39:04<42:09:51,  2.42s/it]                                                          {'loss': 0.082, 'grad_norm': 0.44977501034736633, 'learning_rate': 2.658867988620441e-05, 'epoch': 4.86}
 20%|██        | 15892/78504 [9:39:04<42:09:51,  2.42s/it] 20%|██        | 15893/78504 [9:39:06<40:54:27,  2.35s/it]                                                          {'loss': 0.0576, 'grad_norm': 0.7213362455368042, 'learning_rate': 2.658825527578447e-05, 'epoch': 4.86}
 20%|██        | 15893/78504 [9:39:06<40:54:27,  2.35s/it] 20%|██        | 15894/78504 [9:39:08<39:56:32,  2.30s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.24743175506591797, 'learning_rate': 2.658783066536453e-05, 'epoch': 4.86}
 20%|██        | 15894/78504 [9:39:08<39:56:32,  2.30s/it] 20%|██        | 15895/78504 [9:39:10<38:31:56,  2.22s/it]                                                          {'loss': 0.1042, 'grad_norm': 0.4178747832775116, 'learning_rate': 2.658740605494459e-05, 'epoch': 4.86}
 20%|██        | 15895/78504 [9:39:10<38:31:56,  2.22s/it] 20%|██        | 15896/78504 [9:39:12<37:17:27,  2.14s/it]                                                          {'loss': 0.0698, 'grad_norm': 0.5316694378852844, 'learning_rate': 2.6586981444524652e-05, 'epoch': 4.86}
 20%|██        | 15896/78504 [9:39:12<37:17:27,  2.14s/it] 20%|██        | 15897/78504 [9:39:14<35:55:43,  2.07s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.26702749729156494, 'learning_rate': 2.658655683410471e-05, 'epoch': 4.86}
 20%|██        | 15897/78504 [9:39:14<35:55:43,  2.07s/it] 20%|██        | 15898/78504 [9:39:16<34:44:08,  2.00s/it]                                                          {'loss': 0.1691, 'grad_norm': 1.1349657773971558, 'learning_rate': 2.6586132223684773e-05, 'epoch': 4.86}
 20%|██        | 15898/78504 [9:39:16<34:44:08,  2.00s/it] 20%|██        | 15899/78504 [9:39:18<33:28:41,  1.93s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.46722257137298584, 'learning_rate': 2.658570761326483e-05, 'epoch': 4.86}
 20%|██        | 15899/78504 [9:39:18<33:28:41,  1.93s/it] 20%|██        | 15900/78504 [9:39:19<32:03:57,  1.84s/it]                                                          {'loss': 0.1442, 'grad_norm': 0.3748873174190521, 'learning_rate': 2.658528300284489e-05, 'epoch': 4.86}
 20%|██        | 15900/78504 [9:39:19<32:03:57,  1.84s/it] 20%|██        | 15901/78504 [9:39:21<30:28:21,  1.75s/it]                                                          {'loss': 0.1824, 'grad_norm': 0.6062159538269043, 'learning_rate': 2.6584858392424952e-05, 'epoch': 4.86}
 20%|██        | 15901/78504 [9:39:21<30:28:21,  1.75s/it] 20%|██        | 15902/78504 [9:39:22<29:00:01,  1.67s/it]                                                          {'loss': 0.1457, 'grad_norm': 0.7128743529319763, 'learning_rate': 2.658443378200501e-05, 'epoch': 4.86}
 20%|██        | 15902/78504 [9:39:22<29:00:01,  1.67s/it] 20%|██        | 15903/78504 [9:39:24<27:31:02,  1.58s/it]                                                          {'loss': 0.169, 'grad_norm': 0.49684494733810425, 'learning_rate': 2.6584009171585073e-05, 'epoch': 4.86}
 20%|██        | 15903/78504 [9:39:24<27:31:02,  1.58s/it] 20%|██        | 15904/78504 [9:39:25<26:01:49,  1.50s/it]                                                          {'loss': 0.1638, 'grad_norm': 0.6522027254104614, 'learning_rate': 2.6583584561165132e-05, 'epoch': 4.86}
 20%|██        | 15904/78504 [9:39:25<26:01:49,  1.50s/it] 20%|██        | 15905/78504 [9:39:26<24:12:17,  1.39s/it]                                                          {'loss': 0.1613, 'grad_norm': 0.9215797781944275, 'learning_rate': 2.6583159950745194e-05, 'epoch': 4.86}
 20%|██        | 15905/78504 [9:39:26<24:12:17,  1.39s/it] 20%|██        | 15906/78504 [9:39:27<22:42:03,  1.31s/it]                                                          {'loss': 0.2236, 'grad_norm': 0.7951763868331909, 'learning_rate': 2.6582735340325253e-05, 'epoch': 4.86}
 20%|██        | 15906/78504 [9:39:27<22:42:03,  1.31s/it] 20%|██        | 15907/78504 [9:39:28<21:04:09,  1.21s/it]                                                          {'loss': 0.2183, 'grad_norm': 0.8084176182746887, 'learning_rate': 2.6582310729905315e-05, 'epoch': 4.86}
 20%|██        | 15907/78504 [9:39:28<21:04:09,  1.21s/it] 20%|██        | 15908/78504 [9:39:29<19:34:10,  1.13s/it]                                                          {'loss': 0.1569, 'grad_norm': 1.7800360918045044, 'learning_rate': 2.6581886119485373e-05, 'epoch': 4.86}
 20%|██        | 15908/78504 [9:39:29<19:34:10,  1.13s/it] 20%|██        | 15909/78504 [9:39:30<17:46:49,  1.02s/it]                                                          {'loss': 0.2207, 'grad_norm': 2.4765937328338623, 'learning_rate': 2.6581461509065435e-05, 'epoch': 4.86}
 20%|██        | 15909/78504 [9:39:30<17:46:49,  1.02s/it] 20%|██        | 15910/78504 [9:39:37<47:01:59,  2.71s/it]                                                          {'loss': 0.1661, 'grad_norm': 0.6977350115776062, 'learning_rate': 2.6581036898645494e-05, 'epoch': 4.86}
 20%|██        | 15910/78504 [9:39:37<47:01:59,  2.71s/it] 20%|██        | 15911/78504 [9:39:40<49:10:59,  2.83s/it]                                                          {'loss': 0.073, 'grad_norm': 0.19283360242843628, 'learning_rate': 2.6580612288225556e-05, 'epoch': 4.86}
 20%|██        | 15911/78504 [9:39:40<49:10:59,  2.83s/it] 20%|██        | 15912/78504 [9:39:43<50:11:09,  2.89s/it]                                                          {'loss': 0.0651, 'grad_norm': 0.2130376100540161, 'learning_rate': 2.6580187677805615e-05, 'epoch': 4.86}
 20%|██        | 15912/78504 [9:39:43<50:11:09,  2.89s/it] 20%|██        | 15913/78504 [9:39:45<48:36:41,  2.80s/it]                                                          {'loss': 0.0549, 'grad_norm': 0.2311042696237564, 'learning_rate': 2.6579763067385674e-05, 'epoch': 4.86}
 20%|██        | 15913/78504 [9:39:45<48:36:41,  2.80s/it] 20%|██        | 15914/78504 [9:39:48<47:00:16,  2.70s/it]                                                          {'loss': 0.0668, 'grad_norm': 0.24147599935531616, 'learning_rate': 2.6579338456965736e-05, 'epoch': 4.87}
 20%|██        | 15914/78504 [9:39:48<47:00:16,  2.70s/it] 20%|██        | 15915/78504 [9:39:50<44:41:41,  2.57s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.33184462785720825, 'learning_rate': 2.6578913846545794e-05, 'epoch': 4.87}
 20%|██        | 15915/78504 [9:39:50<44:41:41,  2.57s/it] 20%|██        | 15916/78504 [9:39:52<43:26:03,  2.50s/it]                                                          {'loss': 0.0467, 'grad_norm': 0.21544794738292694, 'learning_rate': 2.6578489236125856e-05, 'epoch': 4.87}
 20%|██        | 15916/78504 [9:39:53<43:26:03,  2.50s/it] 20%|██        | 15917/78504 [9:39:55<41:17:26,  2.38s/it]                                                          {'loss': 0.047, 'grad_norm': 0.2834005355834961, 'learning_rate': 2.6578064625705915e-05, 'epoch': 4.87}
 20%|██        | 15917/78504 [9:39:55<41:17:26,  2.38s/it] 20%|██        | 15918/78504 [9:39:57<40:16:09,  2.32s/it]                                                          {'loss': 0.0565, 'grad_norm': 0.23931053280830383, 'learning_rate': 2.6577640015285977e-05, 'epoch': 4.87}
 20%|██        | 15918/78504 [9:39:57<40:16:09,  2.32s/it] 20%|██        | 15919/78504 [9:39:59<39:23:33,  2.27s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.17997236549854279, 'learning_rate': 2.6577215404866036e-05, 'epoch': 4.87}
 20%|██        | 15919/78504 [9:39:59<39:23:33,  2.27s/it] 20%|██        | 15920/78504 [9:40:01<38:08:16,  2.19s/it]                                                          {'loss': 0.1081, 'grad_norm': 0.36292946338653564, 'learning_rate': 2.6576790794446098e-05, 'epoch': 4.87}
 20%|██        | 15920/78504 [9:40:01<38:08:16,  2.19s/it] 20%|██        | 15921/78504 [9:40:03<37:02:08,  2.13s/it]                                                          {'loss': 0.0782, 'grad_norm': 0.38767609000205994, 'learning_rate': 2.6576366184026157e-05, 'epoch': 4.87}
 20%|██        | 15921/78504 [9:40:03<37:02:08,  2.13s/it] 20%|██        | 15922/78504 [9:40:05<35:39:21,  2.05s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.3593500852584839, 'learning_rate': 2.657594157360622e-05, 'epoch': 4.87}
 20%|██        | 15922/78504 [9:40:05<35:39:21,  2.05s/it] 20%|██        | 15923/78504 [9:40:07<34:40:17,  1.99s/it]                                                          {'loss': 0.1606, 'grad_norm': 0.5006045699119568, 'learning_rate': 2.6575516963186278e-05, 'epoch': 4.87}
 20%|██        | 15923/78504 [9:40:07<34:40:17,  1.99s/it] 20%|██        | 15924/78504 [9:40:08<33:26:12,  1.92s/it]                                                          {'loss': 0.1169, 'grad_norm': 1.0938889980316162, 'learning_rate': 2.657509235276634e-05, 'epoch': 4.87}
 20%|██        | 15924/78504 [9:40:08<33:26:12,  1.92s/it] 20%|██        | 15925/78504 [9:40:10<32:01:14,  1.84s/it]                                                          {'loss': 0.1453, 'grad_norm': 0.6373082995414734, 'learning_rate': 2.6574667742346398e-05, 'epoch': 4.87}
 20%|██        | 15925/78504 [9:40:10<32:01:14,  1.84s/it] 20%|██        | 15926/78504 [9:40:12<30:19:29,  1.74s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.4715053141117096, 'learning_rate': 2.6574243131926457e-05, 'epoch': 4.87}
 20%|██        | 15926/78504 [9:40:12<30:19:29,  1.74s/it] 20%|██        | 15927/78504 [9:40:13<28:41:35,  1.65s/it]                                                          {'loss': 0.1738, 'grad_norm': 0.7867876291275024, 'learning_rate': 2.657381852150652e-05, 'epoch': 4.87}
 20%|██        | 15927/78504 [9:40:13<28:41:35,  1.65s/it] 20%|██        | 15928/78504 [9:40:14<27:34:04,  1.59s/it]                                                          {'loss': 0.1733, 'grad_norm': 1.0895073413848877, 'learning_rate': 2.6573393911086578e-05, 'epoch': 4.87}
 20%|██        | 15928/78504 [9:40:14<27:34:04,  1.59s/it] 20%|██        | 15929/78504 [9:40:16<26:00:43,  1.50s/it]                                                          {'loss': 0.173, 'grad_norm': 1.280938744544983, 'learning_rate': 2.657296930066664e-05, 'epoch': 4.87}
 20%|██        | 15929/78504 [9:40:16<26:00:43,  1.50s/it] 20%|██        | 15930/78504 [9:40:17<24:11:06,  1.39s/it]                                                          {'loss': 0.1941, 'grad_norm': 0.6439650058746338, 'learning_rate': 2.65725446902467e-05, 'epoch': 4.87}
 20%|██        | 15930/78504 [9:40:17<24:11:06,  1.39s/it] 20%|██        | 15931/78504 [9:40:18<22:37:12,  1.30s/it]                                                          {'loss': 0.1994, 'grad_norm': 0.5923189520835876, 'learning_rate': 2.657212007982676e-05, 'epoch': 4.87}
 20%|██        | 15931/78504 [9:40:18<22:37:12,  1.30s/it] 20%|██        | 15932/78504 [9:40:19<20:58:16,  1.21s/it]                                                          {'loss': 0.1977, 'grad_norm': 1.0379735231399536, 'learning_rate': 2.657169546940682e-05, 'epoch': 4.87}
 20%|██        | 15932/78504 [9:40:19<20:58:16,  1.21s/it] 20%|██        | 15933/78504 [9:40:20<19:34:27,  1.13s/it]                                                          {'loss': 0.1765, 'grad_norm': 0.7177295088768005, 'learning_rate': 2.657127085898688e-05, 'epoch': 4.87}
 20%|██        | 15933/78504 [9:40:20<19:34:27,  1.13s/it] 20%|██        | 15934/78504 [9:40:21<17:48:00,  1.02s/it]                                                          {'loss': 0.2761, 'grad_norm': 2.5255544185638428, 'learning_rate': 2.657084624856694e-05, 'epoch': 4.87}
 20%|██        | 15934/78504 [9:40:21<17:48:00,  1.02s/it] 20%|██        | 15935/78504 [9:40:31<67:15:46,  3.87s/it]                                                          {'loss': 0.132, 'grad_norm': 0.3669639229774475, 'learning_rate': 2.6570421638147002e-05, 'epoch': 4.87}
 20%|██        | 15935/78504 [9:40:31<67:15:46,  3.87s/it] 20%|██        | 15936/78504 [9:40:34<63:25:42,  3.65s/it]                                                          {'loss': 0.0982, 'grad_norm': 0.29439032077789307, 'learning_rate': 2.656999702772706e-05, 'epoch': 4.87}
 20%|██        | 15936/78504 [9:40:34<63:25:42,  3.65s/it] 20%|██        | 15937/78504 [9:40:37<57:47:50,  3.33s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.2885611951351166, 'learning_rate': 2.6569572417307123e-05, 'epoch': 4.87}
 20%|██        | 15937/78504 [9:40:37<57:47:50,  3.33s/it] 20%|██        | 15938/78504 [9:40:39<54:04:27,  3.11s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.38596290349960327, 'learning_rate': 2.6569147806887182e-05, 'epoch': 4.87}
 20%|██        | 15938/78504 [9:40:40<54:04:27,  3.11s/it] 20%|██        | 15939/78504 [9:40:42<50:43:10,  2.92s/it]                                                          {'loss': 0.0428, 'grad_norm': 0.19018425047397614, 'learning_rate': 2.656872319646724e-05, 'epoch': 4.87}
 20%|██        | 15939/78504 [9:40:42<50:43:10,  2.92s/it] 20%|██        | 15940/78504 [9:40:44<48:10:48,  2.77s/it]                                                          {'loss': 0.0427, 'grad_norm': 0.2627294063568115, 'learning_rate': 2.6568298586047303e-05, 'epoch': 4.87}
 20%|██        | 15940/78504 [9:40:44<48:10:48,  2.77s/it] 20%|██        | 15941/78504 [9:40:47<45:46:03,  2.63s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.19431759417057037, 'learning_rate': 2.656787397562736e-05, 'epoch': 4.87}
 20%|██        | 15941/78504 [9:40:47<45:46:03,  2.63s/it] 20%|██        | 15942/78504 [9:40:49<42:56:46,  2.47s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.3714583218097687, 'learning_rate': 2.6567449365207423e-05, 'epoch': 4.87}
 20%|██        | 15942/78504 [9:40:49<42:56:46,  2.47s/it] 20%|██        | 15943/78504 [9:40:51<41:26:55,  2.39s/it]                                                          {'loss': 0.0717, 'grad_norm': 0.3366328179836273, 'learning_rate': 2.6567024754787482e-05, 'epoch': 4.87}
 20%|██        | 15943/78504 [9:40:51<41:26:55,  2.39s/it] 20%|██        | 15944/78504 [9:40:53<40:10:23,  2.31s/it]                                                          {'loss': 0.0693, 'grad_norm': 0.36678048968315125, 'learning_rate': 2.6566600144367544e-05, 'epoch': 4.87}
 20%|██        | 15944/78504 [9:40:53<40:10:23,  2.31s/it] 20%|██        | 15945/78504 [9:40:55<38:40:32,  2.23s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.33923766016960144, 'learning_rate': 2.6566175533947603e-05, 'epoch': 4.87}
 20%|██        | 15945/78504 [9:40:55<38:40:32,  2.23s/it] 20%|██        | 15946/78504 [9:40:57<37:23:21,  2.15s/it]                                                          {'loss': 0.0811, 'grad_norm': 0.28224796056747437, 'learning_rate': 2.6565750923527665e-05, 'epoch': 4.87}
 20%|██        | 15946/78504 [9:40:57<37:23:21,  2.15s/it] 20%|██        | 15947/78504 [9:40:59<36:01:01,  2.07s/it]                                                          {'loss': 0.0921, 'grad_norm': 0.3905019760131836, 'learning_rate': 2.6565326313107724e-05, 'epoch': 4.88}
 20%|██        | 15947/78504 [9:40:59<36:01:01,  2.07s/it] 20%|██        | 15948/78504 [9:41:01<34:58:24,  2.01s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.5047869086265564, 'learning_rate': 2.6564901702687786e-05, 'epoch': 4.88}
 20%|██        | 15948/78504 [9:41:01<34:58:24,  2.01s/it] 20%|██        | 15949/78504 [9:41:03<33:39:44,  1.94s/it]                                                          {'loss': 0.1011, 'grad_norm': 0.3660680055618286, 'learning_rate': 2.6564477092267844e-05, 'epoch': 4.88}
 20%|██        | 15949/78504 [9:41:03<33:39:44,  1.94s/it] 20%|██        | 15950/78504 [9:41:04<32:11:43,  1.85s/it]                                                          {'loss': 0.1386, 'grad_norm': 0.8059324026107788, 'learning_rate': 2.6564052481847903e-05, 'epoch': 4.88}
 20%|██        | 15950/78504 [9:41:04<32:11:43,  1.85s/it] 20%|██        | 15951/78504 [9:41:06<30:33:10,  1.76s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.6230055689811707, 'learning_rate': 2.6563627871427965e-05, 'epoch': 4.88}
 20%|██        | 15951/78504 [9:41:06<30:33:10,  1.76s/it] 20%|██        | 15952/78504 [9:41:07<29:00:32,  1.67s/it]                                                          {'loss': 0.1654, 'grad_norm': 0.4991663098335266, 'learning_rate': 2.6563203261008024e-05, 'epoch': 4.88}
 20%|██        | 15952/78504 [9:41:07<29:00:32,  1.67s/it] 20%|██        | 15953/78504 [9:41:09<27:31:00,  1.58s/it]                                                          {'loss': 0.156, 'grad_norm': 0.3988023102283478, 'learning_rate': 2.6562778650588086e-05, 'epoch': 4.88}
 20%|██        | 15953/78504 [9:41:09<27:31:00,  1.58s/it] 20%|██        | 15954/78504 [9:41:10<25:56:30,  1.49s/it]                                                          {'loss': 0.1969, 'grad_norm': 0.9014497995376587, 'learning_rate': 2.6562354040168145e-05, 'epoch': 4.88}
 20%|██        | 15954/78504 [9:41:10<25:56:30,  1.49s/it] 20%|██        | 15955/78504 [9:41:11<24:11:17,  1.39s/it]                                                          {'loss': 0.1446, 'grad_norm': 0.7094293832778931, 'learning_rate': 2.6561929429748207e-05, 'epoch': 4.88}
 20%|██        | 15955/78504 [9:41:11<24:11:17,  1.39s/it] 20%|██        | 15956/78504 [9:41:12<22:41:08,  1.31s/it]                                                          {'loss': 0.1538, 'grad_norm': 0.6405656337738037, 'learning_rate': 2.6561504819328265e-05, 'epoch': 4.88}
 20%|██        | 15956/78504 [9:41:12<22:41:08,  1.31s/it] 20%|██        | 15957/78504 [9:41:13<21:02:48,  1.21s/it]                                                          {'loss': 0.2022, 'grad_norm': 1.5922199487686157, 'learning_rate': 2.6561080208908328e-05, 'epoch': 4.88}
 20%|██        | 15957/78504 [9:41:13<21:02:48,  1.21s/it] 20%|██        | 15958/78504 [9:41:14<19:35:09,  1.13s/it]                                                          {'loss': 0.1906, 'grad_norm': 1.903275728225708, 'learning_rate': 2.6560655598488386e-05, 'epoch': 4.88}
 20%|██        | 15958/78504 [9:41:14<19:35:09,  1.13s/it] 20%|██        | 15959/78504 [9:41:15<17:46:13,  1.02s/it]                                                          {'loss': 0.2222, 'grad_norm': 2.236989974975586, 'learning_rate': 2.656023098806845e-05, 'epoch': 4.88}
 20%|██        | 15959/78504 [9:41:15<17:46:13,  1.02s/it] 20%|██        | 15960/78504 [9:41:22<47:47:14,  2.75s/it]                                                          {'loss': 0.1357, 'grad_norm': 0.3971293568611145, 'learning_rate': 2.6559806377648507e-05, 'epoch': 4.88}
 20%|██        | 15960/78504 [9:41:22<47:47:14,  2.75s/it] 20%|██        | 15961/78504 [9:41:25<49:22:15,  2.84s/it]                                                          {'loss': 0.0622, 'grad_norm': 0.5977848768234253, 'learning_rate': 2.655938176722857e-05, 'epoch': 4.88}
 20%|██        | 15961/78504 [9:41:25<49:22:15,  2.84s/it] 20%|██        | 15962/78504 [9:41:27<47:57:38,  2.76s/it]                                                          {'loss': 0.0714, 'grad_norm': 0.4003983438014984, 'learning_rate': 2.6558957156808628e-05, 'epoch': 4.88}
 20%|██        | 15962/78504 [9:41:27<47:57:38,  2.76s/it] 20%|██        | 15963/78504 [9:41:30<47:11:05,  2.72s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.8494381308555603, 'learning_rate': 2.6558532546388687e-05, 'epoch': 4.88}
 20%|██        | 15963/78504 [9:41:30<47:11:05,  2.72s/it] 20%|██        | 15964/78504 [9:41:32<45:53:57,  2.64s/it]                                                          {'loss': 0.0499, 'grad_norm': 0.20500536262989044, 'learning_rate': 2.655810793596875e-05, 'epoch': 4.88}
 20%|██        | 15964/78504 [9:41:32<45:53:57,  2.64s/it] 20%|██        | 15965/78504 [9:41:35<44:54:47,  2.59s/it]                                                          {'loss': 0.061, 'grad_norm': 0.6279383897781372, 'learning_rate': 2.6557683325548807e-05, 'epoch': 4.88}
 20%|██        | 15965/78504 [9:41:35<44:54:47,  2.59s/it] 20%|██        | 15966/78504 [9:41:37<43:30:10,  2.50s/it]                                                          {'loss': 0.0448, 'grad_norm': 0.26431792974472046, 'learning_rate': 2.655725871512887e-05, 'epoch': 4.88}
 20%|██        | 15966/78504 [9:41:37<43:30:10,  2.50s/it] 20%|██        | 15967/78504 [9:41:39<42:28:40,  2.45s/it]                                                          {'loss': 0.0842, 'grad_norm': 0.25802937150001526, 'learning_rate': 2.6556834104708928e-05, 'epoch': 4.88}
 20%|██        | 15967/78504 [9:41:40<42:28:40,  2.45s/it] 20%|██        | 15968/78504 [9:41:42<41:06:51,  2.37s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.2347501516342163, 'learning_rate': 2.655640949428899e-05, 'epoch': 4.88}
 20%|██        | 15968/78504 [9:41:42<41:06:51,  2.37s/it] 20%|██        | 15969/78504 [9:41:44<40:05:06,  2.31s/it]                                                          {'loss': 0.0498, 'grad_norm': 0.20796233415603638, 'learning_rate': 2.655598488386905e-05, 'epoch': 4.88}
 20%|██        | 15969/78504 [9:41:44<40:05:06,  2.31s/it] 20%|██        | 15970/78504 [9:41:46<37:43:53,  2.17s/it]                                                          {'loss': 0.0886, 'grad_norm': 0.3157995641231537, 'learning_rate': 2.655556027344911e-05, 'epoch': 4.88}
 20%|██        | 15970/78504 [9:41:46<37:43:53,  2.17s/it] 20%|██        | 15971/78504 [9:41:48<36:44:49,  2.12s/it]                                                          {'loss': 0.0959, 'grad_norm': 0.2890511751174927, 'learning_rate': 2.655513566302917e-05, 'epoch': 4.88}
 20%|██        | 15971/78504 [9:41:48<36:44:49,  2.12s/it] 20%|██        | 15972/78504 [9:41:50<35:45:01,  2.06s/it]                                                          {'loss': 0.0966, 'grad_norm': 0.7896401286125183, 'learning_rate': 2.6554711052609232e-05, 'epoch': 4.88}
 20%|██        | 15972/78504 [9:41:50<35:45:01,  2.06s/it] 20%|██        | 15973/78504 [9:41:51<34:44:14,  2.00s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.41245314478874207, 'learning_rate': 2.655428644218929e-05, 'epoch': 4.88}
 20%|██        | 15973/78504 [9:41:51<34:44:14,  2.00s/it] 20%|██        | 15974/78504 [9:41:53<33:29:53,  1.93s/it]                                                          {'loss': 0.1086, 'grad_norm': 0.34747743606567383, 'learning_rate': 2.6553861831769353e-05, 'epoch': 4.88}
 20%|██        | 15974/78504 [9:41:53<33:29:53,  1.93s/it] 20%|██        | 15975/78504 [9:41:55<31:40:39,  1.82s/it]                                                          {'loss': 0.126, 'grad_norm': 0.5498822331428528, 'learning_rate': 2.655343722134941e-05, 'epoch': 4.88}
 20%|██        | 15975/78504 [9:41:55<31:40:39,  1.82s/it] 20%|██        | 15976/78504 [9:41:56<30:13:15,  1.74s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.7886852025985718, 'learning_rate': 2.655301261092947e-05, 'epoch': 4.88}
 20%|██        | 15976/78504 [9:41:56<30:13:15,  1.74s/it] 20%|██        | 15977/78504 [9:41:58<29:01:35,  1.67s/it]                                                          {'loss': 0.1444, 'grad_norm': 1.03469717502594, 'learning_rate': 2.6552588000509532e-05, 'epoch': 4.88}
 20%|██        | 15977/78504 [9:41:58<29:01:35,  1.67s/it] 20%|██        | 15978/78504 [9:41:59<27:35:28,  1.59s/it]                                                          {'loss': 0.1665, 'grad_norm': 0.5886448621749878, 'learning_rate': 2.655216339008959e-05, 'epoch': 4.88}
 20%|██        | 15978/78504 [9:41:59<27:35:28,  1.59s/it] 20%|██        | 15979/78504 [9:42:01<26:01:21,  1.50s/it]                                                          {'loss': 0.176, 'grad_norm': 0.7311325073242188, 'learning_rate': 2.6551738779669653e-05, 'epoch': 4.89}
 20%|██        | 15979/78504 [9:42:01<26:01:21,  1.50s/it] 20%|██        | 15980/78504 [9:42:02<24:13:44,  1.40s/it]                                                          {'loss': 0.1425, 'grad_norm': 1.2947033643722534, 'learning_rate': 2.655131416924971e-05, 'epoch': 4.89}
 20%|██        | 15980/78504 [9:42:02<24:13:44,  1.40s/it] 20%|██        | 15981/78504 [9:42:03<22:37:13,  1.30s/it]                                                          {'loss': 0.1889, 'grad_norm': 0.9980518817901611, 'learning_rate': 2.6550889558829774e-05, 'epoch': 4.89}
 20%|██        | 15981/78504 [9:42:03<22:37:13,  1.30s/it] 20%|██        | 15982/78504 [9:42:04<21:18:20,  1.23s/it]                                                          {'loss': 0.1842, 'grad_norm': 0.6144388318061829, 'learning_rate': 2.6550464948409832e-05, 'epoch': 4.89}
 20%|██        | 15982/78504 [9:42:04<21:18:20,  1.23s/it] 20%|██        | 15983/78504 [9:42:05<19:45:11,  1.14s/it]                                                          {'loss': 0.2041, 'grad_norm': 0.8020000457763672, 'learning_rate': 2.6550040337989894e-05, 'epoch': 4.89}
 20%|██        | 15983/78504 [9:42:05<19:45:11,  1.14s/it] 20%|██        | 15984/78504 [9:42:06<17:55:35,  1.03s/it]                                                          {'loss': 0.2553, 'grad_norm': 2.2071962356567383, 'learning_rate': 2.6549615727569953e-05, 'epoch': 4.89}
 20%|██        | 15984/78504 [9:42:06<17:55:35,  1.03s/it] 20%|██        | 15985/78504 [9:42:15<62:09:43,  3.58s/it]                                                          {'loss': 0.1314, 'grad_norm': 0.60760498046875, 'learning_rate': 2.6549191117150015e-05, 'epoch': 4.89}
 20%|██        | 15985/78504 [9:42:15<62:09:43,  3.58s/it] 20%|██        | 15986/78504 [9:42:18<60:57:32,  3.51s/it]                                                          {'loss': 0.0662, 'grad_norm': 0.21043743193149567, 'learning_rate': 2.6548766506730074e-05, 'epoch': 4.89}
 20%|██        | 15986/78504 [9:42:18<60:57:32,  3.51s/it] 20%|██        | 15987/78504 [9:42:21<58:21:42,  3.36s/it]                                                          {'loss': 0.1123, 'grad_norm': 0.35362640023231506, 'learning_rate': 2.6548341896310136e-05, 'epoch': 4.89}
 20%|██        | 15987/78504 [9:42:21<58:21:42,  3.36s/it] 20%|██        | 15988/78504 [9:42:24<53:01:47,  3.05s/it]                                                          {'loss': 0.0533, 'grad_norm': 0.28309738636016846, 'learning_rate': 2.6547917285890198e-05, 'epoch': 4.89}
 20%|██        | 15988/78504 [9:42:24<53:01:47,  3.05s/it] 20%|██        | 15989/78504 [9:42:26<49:23:22,  2.84s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.1543063223361969, 'learning_rate': 2.6547492675470257e-05, 'epoch': 4.89}
 20%|██        | 15989/78504 [9:42:26<49:23:22,  2.84s/it] 20%|██        | 15990/78504 [9:42:28<46:23:38,  2.67s/it]                                                          {'loss': 0.0567, 'grad_norm': 0.24633049964904785, 'learning_rate': 2.654706806505032e-05, 'epoch': 4.89}
 20%|██        | 15990/78504 [9:42:28<46:23:38,  2.67s/it] 20%|██        | 15991/78504 [9:42:31<44:34:24,  2.57s/it]                                                          {'loss': 0.0644, 'grad_norm': 0.6743683218955994, 'learning_rate': 2.6546643454630378e-05, 'epoch': 4.89}
 20%|██        | 15991/78504 [9:42:31<44:34:24,  2.57s/it] 20%|██        | 15992/78504 [9:42:33<42:07:25,  2.43s/it]                                                          {'loss': 0.054, 'grad_norm': 0.2825789749622345, 'learning_rate': 2.654621884421044e-05, 'epoch': 4.89}
 20%|██        | 15992/78504 [9:42:33<42:07:25,  2.43s/it] 20%|██        | 15993/78504 [9:42:35<40:51:37,  2.35s/it]                                                          {'loss': 0.0788, 'grad_norm': 0.263272762298584, 'learning_rate': 2.65457942337905e-05, 'epoch': 4.89}
 20%|██        | 15993/78504 [9:42:35<40:51:37,  2.35s/it] 20%|██        | 15994/78504 [9:42:37<39:46:49,  2.29s/it]                                                          {'loss': 0.0821, 'grad_norm': 1.3071494102478027, 'learning_rate': 2.654536962337056e-05, 'epoch': 4.89}
 20%|██        | 15994/78504 [9:42:37<39:46:49,  2.29s/it] 20%|██        | 15995/78504 [9:42:39<38:25:42,  2.21s/it]                                                          {'loss': 0.0795, 'grad_norm': 0.7215616703033447, 'learning_rate': 2.654494501295062e-05, 'epoch': 4.89}
 20%|██        | 15995/78504 [9:42:39<38:25:42,  2.21s/it] 20%|██        | 15996/78504 [9:42:41<36:15:20,  2.09s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.40893790125846863, 'learning_rate': 2.654452040253068e-05, 'epoch': 4.89}
 20%|██        | 15996/78504 [9:42:41<36:15:20,  2.09s/it] 20%|██        | 15997/78504 [9:42:43<35:02:33,  2.02s/it]                                                          {'loss': 0.1271, 'grad_norm': 0.30646660923957825, 'learning_rate': 2.654409579211074e-05, 'epoch': 4.89}
 20%|██        | 15997/78504 [9:42:43<35:02:33,  2.02s/it] 20%|██        | 15998/78504 [9:42:45<33:31:15,  1.93s/it]                                                          {'loss': 0.1183, 'grad_norm': 0.8708686828613281, 'learning_rate': 2.6543671181690802e-05, 'epoch': 4.89}
 20%|██        | 15998/78504 [9:42:45<33:31:15,  1.93s/it] 20%|██        | 15999/78504 [9:42:46<32:39:26,  1.88s/it]                                                          {'loss': 0.1158, 'grad_norm': 0.7050628066062927, 'learning_rate': 2.654324657127086e-05, 'epoch': 4.89}
 20%|██        | 15999/78504 [9:42:46<32:39:26,  1.88s/it] 20%|██        | 16000/78504 [9:42:48<31:23:57,  1.81s/it]                                                          {'loss': 0.1545, 'grad_norm': 0.4121387004852295, 'learning_rate': 2.6542821960850923e-05, 'epoch': 4.89}
 20%|██        | 16000/78504 [9:42:48<31:23:57,  1.81s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.60it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.74it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.77it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.82it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.13it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.58it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.49it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.74it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.10it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.44it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.27it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.20it/s][A                                                          
                                               [A{'eval_loss': 0.23109658062458038, 'eval_wer': 0.3306611547163487, 'eval_cer': 0.18924094137671435, 'eval_runtime': 18.9408, 'eval_samples_per_second': 239.589, 'eval_steps_per_second': 0.792, 'epoch': 4.89}
 20%|██        | 16000/78504 [9:43:52<31:23:57,  1.81s/it]
100%|██████████| 15/15 [00:11<00:00,  1.20it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-16000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-13000] due to args.save_total_limit
 20%|██        | 16001/78504 [9:44:08<438:24:48, 25.25s/it]                                                           {'loss': 0.1372, 'grad_norm': 1.119240164756775, 'learning_rate': 2.654239735043098e-05, 'epoch': 4.89}
 20%|██        | 16001/78504 [9:44:08<438:24:48, 25.25s/it] 20%|██        | 16002/78504 [9:44:09<314:28:18, 18.11s/it]                                                           {'loss': 0.1696, 'grad_norm': 1.4711869955062866, 'learning_rate': 2.654197274001104e-05, 'epoch': 4.89}
 20%|██        | 16002/78504 [9:44:09<314:28:18, 18.11s/it] 20%|██        | 16003/78504 [9:44:11<227:25:09, 13.10s/it]                                                           {'loss': 0.1383, 'grad_norm': 0.48931828141212463, 'learning_rate': 2.6541548129591102e-05, 'epoch': 4.89}
 20%|██        | 16003/78504 [9:44:11<227:25:09, 13.10s/it] 20%|██        | 16004/78504 [9:44:12<165:50:28,  9.55s/it]                                                           {'loss': 0.1686, 'grad_norm': 1.748809814453125, 'learning_rate': 2.654112351917116e-05, 'epoch': 4.89}
 20%|██        | 16004/78504 [9:44:12<165:50:28,  9.55s/it] 20%|██        | 16005/78504 [9:44:13<122:05:27,  7.03s/it]                                                           {'loss': 0.1954, 'grad_norm': 1.9891473054885864, 'learning_rate': 2.6540698908751223e-05, 'epoch': 4.89}
 20%|██        | 16005/78504 [9:44:13<122:05:27,  7.03s/it] 20%|██        | 16006/78504 [9:44:14<91:10:35,  5.25s/it]                                                           {'loss': 0.1656, 'grad_norm': 1.5399080514907837, 'learning_rate': 2.6540274298331282e-05, 'epoch': 4.89}
 20%|██        | 16006/78504 [9:44:14<91:10:35,  5.25s/it] 20%|██        | 16007/78504 [9:44:15<69:14:05,  3.99s/it]                                                          {'loss': 0.2038, 'grad_norm': 1.1881670951843262, 'learning_rate': 2.6539849687911344e-05, 'epoch': 4.89}
 20%|██        | 16007/78504 [9:44:15<69:14:05,  3.99s/it] 20%|██        | 16008/78504 [9:44:16<53:17:21,  3.07s/it]                                                          {'loss': 0.2165, 'grad_norm': 1.1668936014175415, 'learning_rate': 2.6539425077491403e-05, 'epoch': 4.89}
 20%|██        | 16008/78504 [9:44:16<53:17:21,  3.07s/it] 20%|██        | 16009/78504 [9:44:17<41:13:56,  2.38s/it]                                                          {'loss': 0.2182, 'grad_norm': 1.160502552986145, 'learning_rate': 2.6539000467071465e-05, 'epoch': 4.89}
 20%|██        | 16009/78504 [9:44:17<41:13:56,  2.38s/it] 20%|██        | 16010/78504 [9:44:27<79:35:33,  4.58s/it]                                                          {'loss': 0.1505, 'grad_norm': 0.5566250085830688, 'learning_rate': 2.6538575856651523e-05, 'epoch': 4.89}
 20%|██        | 16010/78504 [9:44:27<79:35:33,  4.58s/it] 20%|██        | 16011/78504 [9:44:30<72:02:07,  4.15s/it]                                                          {'loss': 0.0792, 'grad_norm': 0.4078027606010437, 'learning_rate': 2.6538151246231585e-05, 'epoch': 4.89}
 20%|██        | 16011/78504 [9:44:30<72:02:07,  4.15s/it] 20%|██        | 16012/78504 [9:44:33<65:40:59,  3.78s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.4372258484363556, 'learning_rate': 2.6537726635811644e-05, 'epoch': 4.9}
 20%|██        | 16012/78504 [9:44:33<65:40:59,  3.78s/it] 20%|██        | 16013/78504 [9:44:35<59:25:15,  3.42s/it]                                                          {'loss': 0.0572, 'grad_norm': 0.21844764053821564, 'learning_rate': 2.6537302025391706e-05, 'epoch': 4.9}
 20%|██        | 16013/78504 [9:44:35<59:25:15,  3.42s/it] 20%|██        | 16014/78504 [9:44:38<54:34:36,  3.14s/it]                                                          {'loss': 0.0534, 'grad_norm': 0.17754444479942322, 'learning_rate': 2.6536877414971765e-05, 'epoch': 4.9}
 20%|██        | 16014/78504 [9:44:38<54:34:36,  3.14s/it] 20%|██        | 16015/78504 [9:44:40<50:58:14,  2.94s/it]                                                          {'loss': 0.0599, 'grad_norm': 0.18550032377243042, 'learning_rate': 2.6536452804551824e-05, 'epoch': 4.9}
 20%|██        | 16015/78504 [9:44:40<50:58:14,  2.94s/it] 20%|██        | 16016/78504 [9:44:43<47:47:30,  2.75s/it]                                                          {'loss': 0.0762, 'grad_norm': 0.26180440187454224, 'learning_rate': 2.6536028194131886e-05, 'epoch': 4.9}
 20%|██        | 16016/78504 [9:44:43<47:47:30,  2.75s/it] 20%|██        | 16017/78504 [9:44:45<44:21:38,  2.56s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.32112932205200195, 'learning_rate': 2.6535603583711944e-05, 'epoch': 4.9}
 20%|██        | 16017/78504 [9:44:45<44:21:38,  2.56s/it] 20%|██        | 16018/78504 [9:44:47<41:39:51,  2.40s/it]                                                          {'loss': 0.0617, 'grad_norm': 0.37409600615501404, 'learning_rate': 2.6535178973292006e-05, 'epoch': 4.9}
 20%|██        | 16018/78504 [9:44:47<41:39:51,  2.40s/it] 20%|██        | 16019/78504 [9:44:49<40:16:14,  2.32s/it]                                                          {'loss': 0.064, 'grad_norm': 0.19478781521320343, 'learning_rate': 2.6534754362872065e-05, 'epoch': 4.9}
 20%|██        | 16019/78504 [9:44:49<40:16:14,  2.32s/it] 20%|██        | 16020/78504 [9:44:51<38:45:43,  2.23s/it]                                                          {'loss': 0.1093, 'grad_norm': 1.2265040874481201, 'learning_rate': 2.6534329752452127e-05, 'epoch': 4.9}
 20%|██        | 16020/78504 [9:44:51<38:45:43,  2.23s/it] 20%|██        | 16021/78504 [9:44:53<37:26:38,  2.16s/it]                                                          {'loss': 0.0809, 'grad_norm': 0.3794666826725006, 'learning_rate': 2.6533905142032186e-05, 'epoch': 4.9}
 20%|██        | 16021/78504 [9:44:53<37:26:38,  2.16s/it] 20%|██        | 16022/78504 [9:44:55<36:01:02,  2.08s/it]                                                          {'loss': 0.0895, 'grad_norm': 1.01667320728302, 'learning_rate': 2.6533480531612248e-05, 'epoch': 4.9}
 20%|██        | 16022/78504 [9:44:55<36:01:02,  2.08s/it] 20%|██        | 16023/78504 [9:44:57<34:57:24,  2.01s/it]                                                          {'loss': 0.124, 'grad_norm': 0.7847824692726135, 'learning_rate': 2.6533055921192307e-05, 'epoch': 4.9}
 20%|██        | 16023/78504 [9:44:57<34:57:24,  2.01s/it] 20%|██        | 16024/78504 [9:44:58<33:38:57,  1.94s/it]                                                          {'loss': 0.123, 'grad_norm': 0.3585977852344513, 'learning_rate': 2.653263131077237e-05, 'epoch': 4.9}
 20%|██        | 16024/78504 [9:44:59<33:38:57,  1.94s/it] 20%|██        | 16025/78504 [9:45:00<32:03:24,  1.85s/it]                                                          {'loss': 0.131, 'grad_norm': 0.9051998257637024, 'learning_rate': 2.6532206700352428e-05, 'epoch': 4.9}
 20%|██        | 16025/78504 [9:45:00<32:03:24,  1.85s/it] 20%|██        | 16026/78504 [9:45:02<30:30:43,  1.76s/it]                                                          {'loss': 0.1618, 'grad_norm': 1.0993696451187134, 'learning_rate': 2.653178208993249e-05, 'epoch': 4.9}
 20%|██        | 16026/78504 [9:45:02<30:30:43,  1.76s/it] 20%|██        | 16027/78504 [9:45:03<29:01:18,  1.67s/it]                                                          {'loss': 0.1508, 'grad_norm': 0.4076637923717499, 'learning_rate': 2.653135747951255e-05, 'epoch': 4.9}
 20%|██        | 16027/78504 [9:45:03<29:01:18,  1.67s/it] 20%|██        | 16028/78504 [9:45:05<27:37:25,  1.59s/it]                                                          {'loss': 0.1568, 'grad_norm': 0.6077864170074463, 'learning_rate': 2.6530932869092607e-05, 'epoch': 4.9}
 20%|██        | 16028/78504 [9:45:05<27:37:25,  1.59s/it] 20%|██        | 16029/78504 [9:45:06<25:41:41,  1.48s/it]                                                          {'loss': 0.1944, 'grad_norm': 0.7433117032051086, 'learning_rate': 2.653050825867267e-05, 'epoch': 4.9}
 20%|██        | 16029/78504 [9:45:06<25:41:41,  1.48s/it] 20%|██        | 16030/78504 [9:45:07<23:59:43,  1.38s/it]                                                          {'loss': 0.1747, 'grad_norm': 0.5806362628936768, 'learning_rate': 2.6530083648252728e-05, 'epoch': 4.9}
 20%|██        | 16030/78504 [9:45:07<23:59:43,  1.38s/it] 20%|██        | 16031/78504 [9:45:08<22:28:56,  1.30s/it]                                                          {'loss': 0.1933, 'grad_norm': 0.7732837796211243, 'learning_rate': 2.652965903783279e-05, 'epoch': 4.9}
 20%|██        | 16031/78504 [9:45:08<22:28:56,  1.30s/it] 20%|██        | 16032/78504 [9:45:09<21:10:35,  1.22s/it]                                                          {'loss': 0.1969, 'grad_norm': 0.7941733002662659, 'learning_rate': 2.652923442741285e-05, 'epoch': 4.9}
 20%|██        | 16032/78504 [9:45:09<21:10:35,  1.22s/it] 20%|██        | 16033/78504 [9:45:10<19:38:45,  1.13s/it]                                                          {'loss': 0.1975, 'grad_norm': 0.6914300918579102, 'learning_rate': 2.652880981699291e-05, 'epoch': 4.9}
 20%|██        | 16033/78504 [9:45:10<19:38:45,  1.13s/it] 20%|██        | 16034/78504 [9:45:11<17:48:59,  1.03s/it]                                                          {'loss': 0.2215, 'grad_norm': 1.3372652530670166, 'learning_rate': 2.652838520657297e-05, 'epoch': 4.9}
 20%|██        | 16034/78504 [9:45:11<17:48:59,  1.03s/it] 20%|██        | 16035/78504 [9:45:20<63:07:46,  3.64s/it]                                                          {'loss': 0.1424, 'grad_norm': 0.36221009492874146, 'learning_rate': 2.652796059615303e-05, 'epoch': 4.9}
 20%|██        | 16035/78504 [9:45:21<63:07:46,  3.64s/it] 20%|██        | 16036/78504 [9:45:24<61:39:59,  3.55s/it]                                                          {'loss': 0.0885, 'grad_norm': 0.3304927945137024, 'learning_rate': 2.652753598573309e-05, 'epoch': 4.9}
 20%|██        | 16036/78504 [9:45:24<61:39:59,  3.55s/it] 20%|██        | 16037/78504 [9:45:27<58:51:09,  3.39s/it]                                                          {'loss': 0.0806, 'grad_norm': 0.24286635220050812, 'learning_rate': 2.6527111375313152e-05, 'epoch': 4.9}
 20%|██        | 16037/78504 [9:45:27<58:51:09,  3.39s/it] 20%|██        | 16038/78504 [9:45:29<54:38:16,  3.15s/it]                                                          {'loss': 0.0561, 'grad_norm': 0.3232383728027344, 'learning_rate': 2.652668676489321e-05, 'epoch': 4.9}
 20%|██        | 16038/78504 [9:45:29<54:38:16,  3.15s/it] 20%|██        | 16039/78504 [9:45:32<51:04:25,  2.94s/it]                                                          {'loss': 0.0394, 'grad_norm': 0.40518003702163696, 'learning_rate': 2.6526262154473273e-05, 'epoch': 4.9}
 20%|██        | 16039/78504 [9:45:32<51:04:25,  2.94s/it] 20%|██        | 16040/78504 [9:45:34<47:31:45,  2.74s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.17011404037475586, 'learning_rate': 2.6525837544053332e-05, 'epoch': 4.9}
 20%|██        | 16040/78504 [9:45:34<47:31:45,  2.74s/it] 20%|██        | 16041/78504 [9:45:36<45:19:38,  2.61s/it]                                                          {'loss': 0.0751, 'grad_norm': 0.28210869431495667, 'learning_rate': 2.652541293363339e-05, 'epoch': 4.9}
 20%|██        | 16041/78504 [9:45:37<45:19:38,  2.61s/it] 20%|██        | 16042/78504 [9:45:39<42:45:08,  2.46s/it]                                                          {'loss': 0.0537, 'grad_norm': 0.17980434000492096, 'learning_rate': 2.6524988323213453e-05, 'epoch': 4.9}
 20%|██        | 16042/78504 [9:45:39<42:45:08,  2.46s/it] 20%|██        | 16043/78504 [9:45:41<41:17:21,  2.38s/it]                                                          {'loss': 0.0848, 'grad_norm': 0.3138673007488251, 'learning_rate': 2.652456371279351e-05, 'epoch': 4.9}
 20%|██        | 16043/78504 [9:45:41<41:17:21,  2.38s/it] 20%|██        | 16044/78504 [9:45:43<40:01:55,  2.31s/it]                                                          {'loss': 0.0862, 'grad_norm': 0.29795464873313904, 'learning_rate': 2.6524139102373573e-05, 'epoch': 4.9}
 20%|██        | 16044/78504 [9:45:43<40:01:55,  2.31s/it] 20%|██        | 16045/78504 [9:45:45<38:33:12,  2.22s/it]                                                          {'loss': 0.0869, 'grad_norm': 0.48201683163642883, 'learning_rate': 2.6523714491953632e-05, 'epoch': 4.91}
 20%|██        | 16045/78504 [9:45:45<38:33:12,  2.22s/it] 20%|██        | 16046/78504 [9:45:47<36:23:09,  2.10s/it]                                                          {'loss': 0.0968, 'grad_norm': 0.39987263083457947, 'learning_rate': 2.6523289881533694e-05, 'epoch': 4.91}
 20%|██        | 16046/78504 [9:45:47<36:23:09,  2.10s/it] 20%|██        | 16047/78504 [9:45:49<35:07:48,  2.02s/it]                                                          {'loss': 0.1017, 'grad_norm': 0.28045737743377686, 'learning_rate': 2.6522865271113753e-05, 'epoch': 4.91}
 20%|██        | 16047/78504 [9:45:49<35:07:48,  2.02s/it] 20%|██        | 16048/78504 [9:45:50<33:29:49,  1.93s/it]                                                          {'loss': 0.1006, 'grad_norm': 0.21248967945575714, 'learning_rate': 2.6522440660693815e-05, 'epoch': 4.91}
 20%|██        | 16048/78504 [9:45:50<33:29:49,  1.93s/it] 20%|██        | 16049/78504 [9:45:52<32:38:13,  1.88s/it]                                                          {'loss': 0.141, 'grad_norm': 0.6393201351165771, 'learning_rate': 2.6522016050273874e-05, 'epoch': 4.91}
 20%|██        | 16049/78504 [9:45:52<32:38:13,  1.88s/it] 20%|██        | 16050/78504 [9:45:54<31:22:22,  1.81s/it]                                                          {'loss': 0.1267, 'grad_norm': 0.8005924224853516, 'learning_rate': 2.6521591439853936e-05, 'epoch': 4.91}
 20%|██        | 16050/78504 [9:45:54<31:22:22,  1.81s/it] 20%|██        | 16051/78504 [9:45:55<29:52:58,  1.72s/it]                                                          {'loss': 0.1728, 'grad_norm': 0.8773077726364136, 'learning_rate': 2.6521166829433994e-05, 'epoch': 4.91}
 20%|██        | 16051/78504 [9:45:55<29:52:58,  1.72s/it] 20%|██        | 16052/78504 [9:45:57<28:17:56,  1.63s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.6285409331321716, 'learning_rate': 2.6520742219014056e-05, 'epoch': 4.91}
 20%|██        | 16052/78504 [9:45:57<28:17:56,  1.63s/it] 20%|██        | 16053/78504 [9:45:58<27:11:33,  1.57s/it]                                                          {'loss': 0.1707, 'grad_norm': 0.5856149196624756, 'learning_rate': 2.6520317608594115e-05, 'epoch': 4.91}
 20%|██        | 16053/78504 [9:45:58<27:11:33,  1.57s/it] 20%|██        | 16054/78504 [9:45:59<25:22:48,  1.46s/it]                                                          {'loss': 0.1773, 'grad_norm': 0.5249850153923035, 'learning_rate': 2.6519892998174174e-05, 'epoch': 4.91}
 20%|██        | 16054/78504 [9:45:59<25:22:48,  1.46s/it] 20%|██        | 16055/78504 [9:46:00<23:37:22,  1.36s/it]                                                          {'loss': 0.1867, 'grad_norm': 0.575958251953125, 'learning_rate': 2.6519468387754236e-05, 'epoch': 4.91}
 20%|██        | 16055/78504 [9:46:00<23:37:22,  1.36s/it] 20%|██        | 16056/78504 [9:46:02<22:13:30,  1.28s/it]                                                          {'loss': 0.1801, 'grad_norm': 0.5239731073379517, 'learning_rate': 2.6519043777334295e-05, 'epoch': 4.91}
 20%|██        | 16056/78504 [9:46:02<22:13:30,  1.28s/it] 20%|██        | 16057/78504 [9:46:03<20:42:24,  1.19s/it]                                                          {'loss': 0.1789, 'grad_norm': 0.6911988258361816, 'learning_rate': 2.6518619166914357e-05, 'epoch': 4.91}
 20%|██        | 16057/78504 [9:46:03<20:42:24,  1.19s/it] 20%|██        | 16058/78504 [9:46:03<19:21:45,  1.12s/it]                                                          {'loss': 0.1433, 'grad_norm': 3.1644673347473145, 'learning_rate': 2.6518194556494415e-05, 'epoch': 4.91}
 20%|██        | 16058/78504 [9:46:03<19:21:45,  1.12s/it] 20%|██        | 16059/78504 [9:46:04<17:29:51,  1.01s/it]                                                          {'loss': 0.2828, 'grad_norm': 1.4791492223739624, 'learning_rate': 2.6517769946074478e-05, 'epoch': 4.91}
 20%|██        | 16059/78504 [9:46:04<17:29:51,  1.01s/it] 20%|██        | 16060/78504 [9:46:12<53:30:48,  3.09s/it]                                                          {'loss': 0.1891, 'grad_norm': 0.6344278454780579, 'learning_rate': 2.6517345335654536e-05, 'epoch': 4.91}
 20%|██        | 16060/78504 [9:46:12<53:30:48,  3.09s/it] 20%|██        | 16061/78504 [9:46:15<53:41:55,  3.10s/it]                                                          {'loss': 0.0804, 'grad_norm': 0.33652743697166443, 'learning_rate': 2.65169207252346e-05, 'epoch': 4.91}
 20%|██        | 16061/78504 [9:46:15<53:41:55,  3.10s/it] 20%|██        | 16062/78504 [9:46:18<53:14:52,  3.07s/it]                                                          {'loss': 0.0821, 'grad_norm': 0.4961891770362854, 'learning_rate': 2.6516496114814657e-05, 'epoch': 4.91}
 20%|██        | 16062/78504 [9:46:18<53:14:52,  3.07s/it] 20%|██        | 16063/78504 [9:46:21<50:52:27,  2.93s/it]                                                          {'loss': 0.0539, 'grad_norm': 0.15934418141841888, 'learning_rate': 2.651607150439472e-05, 'epoch': 4.91}
 20%|██        | 16063/78504 [9:46:21<50:52:27,  2.93s/it] 20%|██        | 16064/78504 [9:46:23<48:25:17,  2.79s/it]                                                          {'loss': 0.0528, 'grad_norm': 0.38524749875068665, 'learning_rate': 2.6515646893974778e-05, 'epoch': 4.91}
 20%|██        | 16064/78504 [9:46:23<48:25:17,  2.79s/it] 20%|██        | 16065/78504 [9:46:26<45:42:52,  2.64s/it]                                                          {'loss': 0.0828, 'grad_norm': 1.1722164154052734, 'learning_rate': 2.6515222283554837e-05, 'epoch': 4.91}
 20%|██        | 16065/78504 [9:46:26<45:42:52,  2.64s/it] 20%|██        | 16066/78504 [9:46:28<44:05:37,  2.54s/it]                                                          {'loss': 0.0634, 'grad_norm': 0.17058725655078888, 'learning_rate': 2.65147976731349e-05, 'epoch': 4.91}
 20%|██        | 16066/78504 [9:46:28<44:05:37,  2.54s/it] 20%|██        | 16067/78504 [9:46:30<41:44:47,  2.41s/it]                                                          {'loss': 0.0573, 'grad_norm': 0.23723281919956207, 'learning_rate': 2.6514373062714957e-05, 'epoch': 4.91}
 20%|██        | 16067/78504 [9:46:30<41:44:47,  2.41s/it] 20%|██        | 16068/78504 [9:46:32<40:38:11,  2.34s/it]                                                          {'loss': 0.111, 'grad_norm': 0.37426167726516724, 'learning_rate': 2.651394845229502e-05, 'epoch': 4.91}
 20%|██        | 16068/78504 [9:46:32<40:38:11,  2.34s/it] 20%|██        | 16069/78504 [9:46:34<39:33:07,  2.28s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.8686860799789429, 'learning_rate': 2.6513523841875078e-05, 'epoch': 4.91}
 20%|██        | 16069/78504 [9:46:34<39:33:07,  2.28s/it] 20%|██        | 16070/78504 [9:46:36<38:10:09,  2.20s/it]                                                          {'loss': 0.0815, 'grad_norm': 0.47424593567848206, 'learning_rate': 2.651309923145514e-05, 'epoch': 4.91}
 20%|██        | 16070/78504 [9:46:36<38:10:09,  2.20s/it] 20%|██        | 16071/78504 [9:46:38<37:00:58,  2.13s/it]                                                          {'loss': 0.1008, 'grad_norm': 0.5699555277824402, 'learning_rate': 2.65126746210352e-05, 'epoch': 4.91}
 20%|██        | 16071/78504 [9:46:38<37:00:58,  2.13s/it] 20%|██        | 16072/78504 [9:46:40<35:38:31,  2.06s/it]                                                          {'loss': 0.1016, 'grad_norm': 1.0221952199935913, 'learning_rate': 2.651225001061526e-05, 'epoch': 4.91}
 20%|██        | 16072/78504 [9:46:40<35:38:31,  2.06s/it] 20%|██        | 16073/78504 [9:46:42<34:33:04,  1.99s/it]                                                          {'loss': 0.1682, 'grad_norm': 0.5204733610153198, 'learning_rate': 2.651182540019532e-05, 'epoch': 4.91}
 20%|██        | 16073/78504 [9:46:42<34:33:04,  1.99s/it] 20%|██        | 16074/78504 [9:46:44<32:49:03,  1.89s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.30191996693611145, 'learning_rate': 2.6511400789775382e-05, 'epoch': 4.91}
 20%|██        | 16074/78504 [9:46:44<32:49:03,  1.89s/it] 20%|██        | 16075/78504 [9:46:45<31:30:26,  1.82s/it]                                                          {'loss': 0.1344, 'grad_norm': 0.42567765712738037, 'learning_rate': 2.651097617935544e-05, 'epoch': 4.91}
 20%|██        | 16075/78504 [9:46:45<31:30:26,  1.82s/it] 20%|██        | 16076/78504 [9:46:47<29:57:23,  1.73s/it]                                                          {'loss': 0.1758, 'grad_norm': 1.2410801649093628, 'learning_rate': 2.6510551568935503e-05, 'epoch': 4.91}
 20%|██        | 16076/78504 [9:46:47<29:57:23,  1.73s/it] 20%|██        | 16077/78504 [9:46:48<28:25:55,  1.64s/it]                                                          {'loss': 0.1604, 'grad_norm': 0.543576717376709, 'learning_rate': 2.651012695851556e-05, 'epoch': 4.92}
 20%|██        | 16077/78504 [9:46:48<28:25:55,  1.64s/it] 20%|██        | 16078/78504 [9:46:50<27:14:33,  1.57s/it]                                                          {'loss': 0.2055, 'grad_norm': 2.1974666118621826, 'learning_rate': 2.650970234809562e-05, 'epoch': 4.92}
 20%|██        | 16078/78504 [9:46:50<27:14:33,  1.57s/it] 20%|██        | 16079/78504 [9:46:51<25:45:44,  1.49s/it]                                                          {'loss': 0.159, 'grad_norm': 0.47301000356674194, 'learning_rate': 2.6509277737675682e-05, 'epoch': 4.92}
 20%|██        | 16079/78504 [9:46:51<25:45:44,  1.49s/it] 20%|██        | 16080/78504 [9:46:52<24:01:39,  1.39s/it]                                                          {'loss': 0.1663, 'grad_norm': 0.6614408493041992, 'learning_rate': 2.650885312725574e-05, 'epoch': 4.92}
 20%|██        | 16080/78504 [9:46:52<24:01:39,  1.39s/it] 20%|██        | 16081/78504 [9:46:53<22:30:43,  1.30s/it]                                                          {'loss': 0.1764, 'grad_norm': 0.5320749878883362, 'learning_rate': 2.6508428516835803e-05, 'epoch': 4.92}
 20%|██        | 16081/78504 [9:46:53<22:30:43,  1.30s/it] 20%|██        | 16082/78504 [9:46:54<21:10:34,  1.22s/it]                                                          {'loss': 0.1736, 'grad_norm': 4.388126850128174, 'learning_rate': 2.650800390641586e-05, 'epoch': 4.92}
 20%|██        | 16082/78504 [9:46:54<21:10:34,  1.22s/it] 20%|██        | 16083/78504 [9:46:55<19:40:03,  1.13s/it]                                                          {'loss': 0.2014, 'grad_norm': 1.290460228919983, 'learning_rate': 2.6507579295995924e-05, 'epoch': 4.92}
 20%|██        | 16083/78504 [9:46:55<19:40:03,  1.13s/it] 20%|██        | 16084/78504 [9:46:56<17:49:07,  1.03s/it]                                                          {'loss': 0.1782, 'grad_norm': 1.0338093042373657, 'learning_rate': 2.6507154685575982e-05, 'epoch': 4.92}
 20%|██        | 16084/78504 [9:46:56<17:49:07,  1.03s/it] 20%|██        | 16085/78504 [9:47:04<53:47:43,  3.10s/it]                                                          {'loss': 0.1342, 'grad_norm': 0.4085944890975952, 'learning_rate': 2.6506730075156044e-05, 'epoch': 4.92}
 20%|██        | 16085/78504 [9:47:04<53:47:43,  3.10s/it] 20%|██        | 16086/78504 [9:47:07<52:46:18,  3.04s/it]                                                          {'loss': 0.0864, 'grad_norm': 0.3063693046569824, 'learning_rate': 2.6506305464736103e-05, 'epoch': 4.92}
 20%|██        | 16086/78504 [9:47:07<52:46:18,  3.04s/it] 20%|██        | 16087/78504 [9:47:10<52:07:56,  3.01s/it]                                                          {'loss': 0.0546, 'grad_norm': 0.27443715929985046, 'learning_rate': 2.6505880854316165e-05, 'epoch': 4.92}
 20%|██        | 16087/78504 [9:47:10<52:07:56,  3.01s/it] 20%|██        | 16088/78504 [9:47:12<49:04:16,  2.83s/it]                                                          {'loss': 0.0675, 'grad_norm': 0.2307957410812378, 'learning_rate': 2.6505456243896224e-05, 'epoch': 4.92}
 20%|██        | 16088/78504 [9:47:12<49:04:16,  2.83s/it] 20%|██        | 16089/78504 [9:47:15<47:12:32,  2.72s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.25626569986343384, 'learning_rate': 2.6505031633476286e-05, 'epoch': 4.92}
 20%|██        | 16089/78504 [9:47:15<47:12:32,  2.72s/it] 20%|██        | 16090/78504 [9:47:17<44:48:52,  2.58s/it]                                                          {'loss': 0.0428, 'grad_norm': 0.3822304606437683, 'learning_rate': 2.6504607023056348e-05, 'epoch': 4.92}
 20%|██        | 16090/78504 [9:47:17<44:48:52,  2.58s/it] 20%|██        | 16091/78504 [9:47:19<43:24:59,  2.50s/it]                                                          {'loss': 0.0525, 'grad_norm': 0.4988192021846771, 'learning_rate': 2.6504182412636407e-05, 'epoch': 4.92}
 20%|██        | 16091/78504 [9:47:19<43:24:59,  2.50s/it] 20%|██        | 16092/78504 [9:47:21<41:24:13,  2.39s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.4744739234447479, 'learning_rate': 2.650375780221647e-05, 'epoch': 4.92}
 20%|██        | 16092/78504 [9:47:21<41:24:13,  2.39s/it] 20%|██        | 16093/78504 [9:47:24<40:20:30,  2.33s/it]                                                          {'loss': 0.0702, 'grad_norm': 0.5877829194068909, 'learning_rate': 2.6503333191796528e-05, 'epoch': 4.92}
 20%|██        | 16093/78504 [9:47:24<40:20:30,  2.33s/it] 21%|██        | 16094/78504 [9:47:26<39:22:26,  2.27s/it]                                                          {'loss': 0.0559, 'grad_norm': 0.4482937157154083, 'learning_rate': 2.650290858137659e-05, 'epoch': 4.92}
 21%|██        | 16094/78504 [9:47:26<39:22:26,  2.27s/it] 21%|██        | 16095/78504 [9:47:28<37:13:40,  2.15s/it]                                                          {'loss': 0.1144, 'grad_norm': 0.5888118743896484, 'learning_rate': 2.650248397095665e-05, 'epoch': 4.92}
 21%|██        | 16095/78504 [9:47:28<37:13:40,  2.15s/it] 21%|██        | 16096/78504 [9:47:30<36:17:52,  2.09s/it]                                                          {'loss': 0.0759, 'grad_norm': 0.2752913236618042, 'learning_rate': 2.650205936053671e-05, 'epoch': 4.92}
 21%|██        | 16096/78504 [9:47:30<36:17:52,  2.09s/it] 21%|██        | 16097/78504 [9:47:31<35:05:14,  2.02s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.5999616980552673, 'learning_rate': 2.650163475011677e-05, 'epoch': 4.92}
 21%|██        | 16097/78504 [9:47:31<35:05:14,  2.02s/it] 21%|██        | 16098/78504 [9:47:33<34:18:07,  1.98s/it]                                                          {'loss': 0.1522, 'grad_norm': 2.693358898162842, 'learning_rate': 2.650121013969683e-05, 'epoch': 4.92}
 21%|██        | 16098/78504 [9:47:33<34:18:07,  1.98s/it] 21%|██        | 16099/78504 [9:47:35<33:09:47,  1.91s/it]                                                          {'loss': 0.1152, 'grad_norm': 0.42872217297554016, 'learning_rate': 2.650078552927689e-05, 'epoch': 4.92}
 21%|██        | 16099/78504 [9:47:35<33:09:47,  1.91s/it] 21%|██        | 16100/78504 [9:47:37<31:49:46,  1.84s/it]                                                          {'loss': 0.1373, 'grad_norm': 0.4370652139186859, 'learning_rate': 2.6500360918856952e-05, 'epoch': 4.92}
 21%|██        | 16100/78504 [9:47:37<31:49:46,  1.84s/it] 21%|██        | 16101/78504 [9:47:38<30:18:16,  1.75s/it]                                                          {'loss': 0.1239, 'grad_norm': 0.35769039392471313, 'learning_rate': 2.649993630843701e-05, 'epoch': 4.92}
 21%|██        | 16101/78504 [9:47:38<30:18:16,  1.75s/it] 21%|██        | 16102/78504 [9:47:40<28:50:42,  1.66s/it]                                                          {'loss': 0.1512, 'grad_norm': 0.8935092091560364, 'learning_rate': 2.6499511698017073e-05, 'epoch': 4.92}
 21%|██        | 16102/78504 [9:47:40<28:50:42,  1.66s/it] 21%|██        | 16103/78504 [9:47:41<27:27:05,  1.58s/it]                                                          {'loss': 0.1693, 'grad_norm': 0.9574534296989441, 'learning_rate': 2.649908708759713e-05, 'epoch': 4.92}
 21%|██        | 16103/78504 [9:47:41<27:27:05,  1.58s/it] 21%|██        | 16104/78504 [9:47:42<25:55:32,  1.50s/it]                                                          {'loss': 0.1658, 'grad_norm': 0.9061641693115234, 'learning_rate': 2.649866247717719e-05, 'epoch': 4.92}
 21%|██        | 16104/78504 [9:47:42<25:55:32,  1.50s/it] 21%|██        | 16105/78504 [9:47:44<24:26:20,  1.41s/it]                                                          {'loss': 0.1982, 'grad_norm': 1.1269967555999756, 'learning_rate': 2.6498237866757252e-05, 'epoch': 4.92}
 21%|██        | 16105/78504 [9:47:44<24:26:20,  1.41s/it] 21%|██        | 16106/78504 [9:47:45<22:43:37,  1.31s/it]                                                          {'loss': 0.1581, 'grad_norm': 1.0049570798873901, 'learning_rate': 2.649781325633731e-05, 'epoch': 4.92}
 21%|██        | 16106/78504 [9:47:45<22:43:37,  1.31s/it] 21%|██        | 16107/78504 [9:47:46<21:22:44,  1.23s/it]                                                          {'loss': 0.1894, 'grad_norm': 1.18439519405365, 'learning_rate': 2.6497388645917373e-05, 'epoch': 4.92}
 21%|██        | 16107/78504 [9:47:46<21:22:44,  1.23s/it] 21%|██        | 16108/78504 [9:47:47<19:50:14,  1.14s/it]                                                          {'loss': 0.175, 'grad_norm': 1.20333993434906, 'learning_rate': 2.6496964035497432e-05, 'epoch': 4.92}
 21%|██        | 16108/78504 [9:47:47<19:50:14,  1.14s/it] 21%|██        | 16109/78504 [9:47:47<17:58:18,  1.04s/it]                                                          {'loss': 0.2045, 'grad_norm': 0.9547755122184753, 'learning_rate': 2.6496539425077494e-05, 'epoch': 4.92}
 21%|██        | 16109/78504 [9:47:47<17:58:18,  1.04s/it] 21%|██        | 16110/78504 [9:47:54<47:51:57,  2.76s/it]                                                          {'loss': 0.169, 'grad_norm': 0.4532049000263214, 'learning_rate': 2.6496114814657553e-05, 'epoch': 4.93}
 21%|██        | 16110/78504 [9:47:54<47:51:57,  2.76s/it] 21%|██        | 16111/78504 [9:47:58<50:58:01,  2.94s/it]                                                          {'loss': 0.0868, 'grad_norm': 0.2280377298593521, 'learning_rate': 2.6495690204237615e-05, 'epoch': 4.93}
 21%|██        | 16111/78504 [9:47:58<50:58:01,  2.94s/it] 21%|██        | 16112/78504 [9:48:01<50:52:40,  2.94s/it]                                                          {'loss': 0.0635, 'grad_norm': 0.4232746958732605, 'learning_rate': 2.6495265593817673e-05, 'epoch': 4.93}
 21%|██        | 16112/78504 [9:48:01<50:52:40,  2.94s/it] 21%|██        | 16113/78504 [9:48:03<47:46:06,  2.76s/it]                                                          {'loss': 0.0738, 'grad_norm': 0.24428167939186096, 'learning_rate': 2.6494840983397735e-05, 'epoch': 4.93}
 21%|██        | 16113/78504 [9:48:03<47:46:06,  2.76s/it] 21%|██        | 16114/78504 [9:48:05<46:18:00,  2.67s/it]                                                          {'loss': 0.0642, 'grad_norm': 0.3160003125667572, 'learning_rate': 2.6494416372977794e-05, 'epoch': 4.93}
 21%|██        | 16114/78504 [9:48:05<46:18:00,  2.67s/it] 21%|██        | 16115/78504 [9:48:08<44:10:52,  2.55s/it]                                                          {'loss': 0.0461, 'grad_norm': 0.3349120616912842, 'learning_rate': 2.6493991762557856e-05, 'epoch': 4.93}
 21%|██        | 16115/78504 [9:48:08<44:10:52,  2.55s/it] 21%|██        | 16116/78504 [9:48:10<42:59:08,  2.48s/it]                                                          {'loss': 0.055, 'grad_norm': 0.34701502323150635, 'learning_rate': 2.6493567152137915e-05, 'epoch': 4.93}
 21%|██        | 16116/78504 [9:48:10<42:59:08,  2.48s/it] 21%|██        | 16117/78504 [9:48:12<40:56:59,  2.36s/it]                                                          {'loss': 0.0568, 'grad_norm': 0.30333542823791504, 'learning_rate': 2.6493142541717974e-05, 'epoch': 4.93}
 21%|██        | 16117/78504 [9:48:12<40:56:59,  2.36s/it] 21%|██        | 16118/78504 [9:48:14<39:11:47,  2.26s/it]                                                          {'loss': 0.0931, 'grad_norm': 0.3435628414154053, 'learning_rate': 2.6492717931298036e-05, 'epoch': 4.93}
 21%|██        | 16118/78504 [9:48:14<39:11:47,  2.26s/it] 21%|██        | 16119/78504 [9:48:16<38:32:55,  2.22s/it]                                                          {'loss': 0.0519, 'grad_norm': 0.2966861426830292, 'learning_rate': 2.6492293320878094e-05, 'epoch': 4.93}
 21%|██        | 16119/78504 [9:48:16<38:32:55,  2.22s/it] 21%|██        | 16120/78504 [9:48:18<37:29:14,  2.16s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.618125319480896, 'learning_rate': 2.6491868710458157e-05, 'epoch': 4.93}
 21%|██        | 16120/78504 [9:48:18<37:29:14,  2.16s/it] 21%|██        | 16121/78504 [9:48:20<35:37:48,  2.06s/it]                                                          {'loss': 0.0923, 'grad_norm': 0.8951911926269531, 'learning_rate': 2.6491444100038215e-05, 'epoch': 4.93}
 21%|██        | 16121/78504 [9:48:20<35:37:48,  2.06s/it] 21%|██        | 16122/78504 [9:48:22<34:38:26,  2.00s/it]                                                          {'loss': 0.0671, 'grad_norm': 0.7747204899787903, 'learning_rate': 2.6491019489618277e-05, 'epoch': 4.93}
 21%|██        | 16122/78504 [9:48:22<34:38:26,  2.00s/it] 21%|██        | 16123/78504 [9:48:24<33:45:39,  1.95s/it]                                                          {'loss': 0.1392, 'grad_norm': 0.6017471551895142, 'learning_rate': 2.6490594879198336e-05, 'epoch': 4.93}
 21%|██        | 16123/78504 [9:48:24<33:45:39,  1.95s/it] 21%|██        | 16124/78504 [9:48:25<32:36:04,  1.88s/it]                                                          {'loss': 0.1302, 'grad_norm': 0.5396701693534851, 'learning_rate': 2.6490170268778398e-05, 'epoch': 4.93}
 21%|██        | 16124/78504 [9:48:25<32:36:04,  1.88s/it] 21%|██        | 16125/78504 [9:48:27<31:23:27,  1.81s/it]                                                          {'loss': 0.1317, 'grad_norm': 0.6103761196136475, 'learning_rate': 2.6489745658358457e-05, 'epoch': 4.93}
 21%|██        | 16125/78504 [9:48:27<31:23:27,  1.81s/it] 21%|██        | 16126/78504 [9:48:29<29:57:30,  1.73s/it]                                                          {'loss': 0.1335, 'grad_norm': 1.0165095329284668, 'learning_rate': 2.648932104793852e-05, 'epoch': 4.93}
 21%|██        | 16126/78504 [9:48:29<29:57:30,  1.73s/it] 21%|██        | 16127/78504 [9:48:30<28:36:10,  1.65s/it]                                                          {'loss': 0.1538, 'grad_norm': 0.6253355741500854, 'learning_rate': 2.6488896437518578e-05, 'epoch': 4.93}
 21%|██        | 16127/78504 [9:48:30<28:36:10,  1.65s/it] 21%|██        | 16128/78504 [9:48:31<27:19:08,  1.58s/it]                                                          {'loss': 0.1662, 'grad_norm': 1.9943050146102905, 'learning_rate': 2.648847182709864e-05, 'epoch': 4.93}
 21%|██        | 16128/78504 [9:48:31<27:19:08,  1.58s/it] 21%|██        | 16129/78504 [9:48:33<25:48:01,  1.49s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.5925998091697693, 'learning_rate': 2.64880472166787e-05, 'epoch': 4.93}
 21%|██        | 16129/78504 [9:48:33<25:48:01,  1.49s/it] 21%|██        | 16130/78504 [9:48:34<24:02:52,  1.39s/it]                                                          {'loss': 0.1657, 'grad_norm': 0.6143059134483337, 'learning_rate': 2.6487622606258757e-05, 'epoch': 4.93}
 21%|██        | 16130/78504 [9:48:34<24:02:52,  1.39s/it] 21%|██        | 16131/78504 [9:48:35<22:29:03,  1.30s/it]                                                          {'loss': 0.1406, 'grad_norm': 0.7104598879814148, 'learning_rate': 2.648719799583882e-05, 'epoch': 4.93}
 21%|██        | 16131/78504 [9:48:35<22:29:03,  1.30s/it] 21%|██        | 16132/78504 [9:48:36<21:13:03,  1.22s/it]                                                          {'loss': 0.209, 'grad_norm': 0.8259052038192749, 'learning_rate': 2.6486773385418878e-05, 'epoch': 4.93}
 21%|██        | 16132/78504 [9:48:36<21:13:03,  1.22s/it] 21%|██        | 16133/78504 [9:48:37<19:45:14,  1.14s/it]                                                          {'loss': 0.1853, 'grad_norm': 1.7791532278060913, 'learning_rate': 2.648634877499894e-05, 'epoch': 4.93}
 21%|██        | 16133/78504 [9:48:37<19:45:14,  1.14s/it] 21%|██        | 16134/78504 [9:48:38<17:54:20,  1.03s/it]                                                          {'loss': 0.2431, 'grad_norm': 3.3699681758880615, 'learning_rate': 2.6485924164579e-05, 'epoch': 4.93}
 21%|██        | 16134/78504 [9:48:38<17:54:20,  1.03s/it] 21%|██        | 16135/78504 [9:48:48<65:56:41,  3.81s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.5384926795959473, 'learning_rate': 2.648549955415906e-05, 'epoch': 4.93}
 21%|██        | 16135/78504 [9:48:48<65:56:41,  3.81s/it] 21%|██        | 16136/78504 [9:48:51<63:37:52,  3.67s/it]                                                          {'loss': 0.0589, 'grad_norm': 0.3068762421607971, 'learning_rate': 2.648507494373912e-05, 'epoch': 4.93}
 21%|██        | 16136/78504 [9:48:51<63:37:52,  3.67s/it] 21%|██        | 16137/78504 [9:48:54<57:54:44,  3.34s/it]                                                          {'loss': 0.0767, 'grad_norm': 0.5451555848121643, 'learning_rate': 2.648465033331918e-05, 'epoch': 4.93}
 21%|██        | 16137/78504 [9:48:54<57:54:44,  3.34s/it] 21%|██        | 16138/78504 [9:48:57<54:07:43,  3.12s/it]                                                          {'loss': 0.0664, 'grad_norm': 0.36615949869155884, 'learning_rate': 2.648422572289924e-05, 'epoch': 4.93}
 21%|██        | 16138/78504 [9:48:57<54:07:43,  3.12s/it] 21%|██        | 16139/78504 [9:48:59<50:09:07,  2.90s/it]                                                          {'loss': 0.054, 'grad_norm': 0.291433721780777, 'learning_rate': 2.6483801112479302e-05, 'epoch': 4.93}
 21%|██        | 16139/78504 [9:48:59<50:09:07,  2.90s/it] 21%|██        | 16140/78504 [9:49:01<46:52:04,  2.71s/it]                                                          {'loss': 0.0492, 'grad_norm': 0.20853009819984436, 'learning_rate': 2.648337650205936e-05, 'epoch': 4.93}
 21%|██        | 16140/78504 [9:49:01<46:52:04,  2.71s/it] 21%|██        | 16141/78504 [9:49:04<44:50:43,  2.59s/it]                                                          {'loss': 0.0733, 'grad_norm': 0.23909419775009155, 'learning_rate': 2.6482951891639423e-05, 'epoch': 4.93}
 21%|██        | 16141/78504 [9:49:04<44:50:43,  2.59s/it] 21%|██        | 16142/78504 [9:49:06<42:16:46,  2.44s/it]                                                          {'loss': 0.055, 'grad_norm': 0.22978001832962036, 'learning_rate': 2.6482527281219482e-05, 'epoch': 4.93}
 21%|██        | 16142/78504 [9:49:06<42:16:46,  2.44s/it] 21%|██        | 16143/78504 [9:49:08<40:56:12,  2.36s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.1824663132429123, 'learning_rate': 2.648210267079954e-05, 'epoch': 4.94}
 21%|██        | 16143/78504 [9:49:08<40:56:12,  2.36s/it] 21%|██        | 16144/78504 [9:49:10<39:49:09,  2.30s/it]                                                          {'loss': 0.0535, 'grad_norm': 0.24066044390201569, 'learning_rate': 2.6481678060379603e-05, 'epoch': 4.94}
 21%|██        | 16144/78504 [9:49:10<39:49:09,  2.30s/it] 21%|██        | 16145/78504 [9:49:12<37:29:51,  2.16s/it]                                                          {'loss': 0.0926, 'grad_norm': 0.3642326295375824, 'learning_rate': 2.648125344995966e-05, 'epoch': 4.94}
 21%|██        | 16145/78504 [9:49:12<37:29:51,  2.16s/it] 21%|██        | 16146/78504 [9:49:14<36:34:41,  2.11s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.38487887382507324, 'learning_rate': 2.6480828839539723e-05, 'epoch': 4.94}
 21%|██        | 16146/78504 [9:49:14<36:34:41,  2.11s/it] 21%|██        | 16147/78504 [9:49:16<35:24:15,  2.04s/it]                                                          {'loss': 0.094, 'grad_norm': 0.6197339296340942, 'learning_rate': 2.6480404229119782e-05, 'epoch': 4.94}
 21%|██        | 16147/78504 [9:49:16<35:24:15,  2.04s/it] 21%|██        | 16148/78504 [9:49:18<34:30:34,  1.99s/it]                                                          {'loss': 0.1199, 'grad_norm': 0.8459832072257996, 'learning_rate': 2.6479979618699844e-05, 'epoch': 4.94}
 21%|██        | 16148/78504 [9:49:18<34:30:34,  1.99s/it] 21%|██        | 16149/78504 [9:49:19<33:19:50,  1.92s/it]                                                          {'loss': 0.1019, 'grad_norm': 0.6683096885681152, 'learning_rate': 2.6479555008279903e-05, 'epoch': 4.94}
 21%|██        | 16149/78504 [9:49:19<33:19:50,  1.92s/it] 21%|██        | 16150/78504 [9:49:21<31:33:32,  1.82s/it]                                                          {'loss': 0.1345, 'grad_norm': 0.7628757953643799, 'learning_rate': 2.6479130397859965e-05, 'epoch': 4.94}
 21%|██        | 16150/78504 [9:49:21<31:33:32,  1.82s/it] 21%|██        | 16151/78504 [9:49:22<30:06:45,  1.74s/it]                                                          {'loss': 0.1394, 'grad_norm': 1.280805230140686, 'learning_rate': 2.6478705787440024e-05, 'epoch': 4.94}
 21%|██        | 16151/78504 [9:49:22<30:06:45,  1.74s/it] 21%|██        | 16152/78504 [9:49:24<28:55:34,  1.67s/it]                                                          {'loss': 0.1682, 'grad_norm': 0.5588558316230774, 'learning_rate': 2.6478281177020086e-05, 'epoch': 4.94}
 21%|██        | 16152/78504 [9:49:24<28:55:34,  1.67s/it] 21%|██        | 16153/78504 [9:49:25<27:33:19,  1.59s/it]                                                          {'loss': 0.1671, 'grad_norm': 0.6438719034194946, 'learning_rate': 2.6477856566600144e-05, 'epoch': 4.94}
 21%|██        | 16153/78504 [9:49:25<27:33:19,  1.59s/it] 21%|██        | 16154/78504 [9:49:27<25:57:47,  1.50s/it]                                                          {'loss': 0.1547, 'grad_norm': 0.6705468893051147, 'learning_rate': 2.6477431956180207e-05, 'epoch': 4.94}
 21%|██        | 16154/78504 [9:49:27<25:57:47,  1.50s/it] 21%|██        | 16155/78504 [9:49:28<24:08:17,  1.39s/it]                                                          {'loss': 0.188, 'grad_norm': 0.6853405237197876, 'learning_rate': 2.6477007345760265e-05, 'epoch': 4.94}
 21%|██        | 16155/78504 [9:49:28<24:08:17,  1.39s/it] 21%|██        | 16156/78504 [9:49:29<22:34:23,  1.30s/it]                                                          {'loss': 0.1434, 'grad_norm': 1.2957031726837158, 'learning_rate': 2.6476582735340324e-05, 'epoch': 4.94}
 21%|██        | 16156/78504 [9:49:29<22:34:23,  1.30s/it] 21%|██        | 16157/78504 [9:49:30<20:56:56,  1.21s/it]                                                          {'loss': 0.1669, 'grad_norm': 0.7410624623298645, 'learning_rate': 2.6476158124920386e-05, 'epoch': 4.94}
 21%|██        | 16157/78504 [9:49:30<20:56:56,  1.21s/it] 21%|██        | 16158/78504 [9:49:31<19:35:39,  1.13s/it]                                                          {'loss': 0.2322, 'grad_norm': 2.236218214035034, 'learning_rate': 2.6475733514500445e-05, 'epoch': 4.94}
 21%|██        | 16158/78504 [9:49:31<19:35:39,  1.13s/it] 21%|██        | 16159/78504 [9:49:32<17:46:27,  1.03s/it]                                                          {'loss': 0.2342, 'grad_norm': 1.5604541301727295, 'learning_rate': 2.6475308904080507e-05, 'epoch': 4.94}
 21%|██        | 16159/78504 [9:49:32<17:46:27,  1.03s/it] 21%|██        | 16160/78504 [9:49:40<56:04:15,  3.24s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.5462390184402466, 'learning_rate': 2.6474884293660565e-05, 'epoch': 4.94}
 21%|██        | 16160/78504 [9:49:40<56:04:15,  3.24s/it] 21%|██        | 16161/78504 [9:49:43<56:24:52,  3.26s/it]                                                          {'loss': 0.0937, 'grad_norm': 0.8692618012428284, 'learning_rate': 2.6474459683240628e-05, 'epoch': 4.94}
 21%|██        | 16161/78504 [9:49:43<56:24:52,  3.26s/it] 21%|██        | 16162/78504 [9:49:46<54:58:20,  3.17s/it]                                                          {'loss': 0.0513, 'grad_norm': 0.2712526023387909, 'learning_rate': 2.6474035072820686e-05, 'epoch': 4.94}
 21%|██        | 16162/78504 [9:49:46<54:58:20,  3.17s/it] 21%|██        | 16163/78504 [9:49:49<52:02:53,  3.01s/it]                                                          {'loss': 0.0429, 'grad_norm': 0.13674603402614594, 'learning_rate': 2.647361046240075e-05, 'epoch': 4.94}
 21%|██        | 16163/78504 [9:49:49<52:02:53,  3.01s/it] 21%|██        | 16164/78504 [9:49:51<49:14:04,  2.84s/it]                                                          {'loss': 0.0603, 'grad_norm': 0.5190302133560181, 'learning_rate': 2.6473185851980807e-05, 'epoch': 4.94}
 21%|██        | 16164/78504 [9:49:51<49:14:04,  2.84s/it] 21%|██        | 16165/78504 [9:49:54<46:13:29,  2.67s/it]                                                          {'loss': 0.0547, 'grad_norm': 0.2478194385766983, 'learning_rate': 2.647276124156087e-05, 'epoch': 4.94}
 21%|██        | 16165/78504 [9:49:54<46:13:29,  2.67s/it] 21%|██        | 16166/78504 [9:49:56<44:27:38,  2.57s/it]                                                          {'loss': 0.0422, 'grad_norm': 0.2354096621274948, 'learning_rate': 2.6472336631140928e-05, 'epoch': 4.94}
 21%|██        | 16166/78504 [9:49:56<44:27:38,  2.57s/it] 21%|██        | 16167/78504 [9:49:58<41:59:30,  2.43s/it]                                                          {'loss': 0.0503, 'grad_norm': 0.26456043124198914, 'learning_rate': 2.647191202072099e-05, 'epoch': 4.94}
 21%|██        | 16167/78504 [9:49:58<41:59:30,  2.43s/it] 21%|██        | 16168/78504 [9:50:00<39:55:35,  2.31s/it]                                                          {'loss': 0.0881, 'grad_norm': 0.3050549328327179, 'learning_rate': 2.647148741030105e-05, 'epoch': 4.94}
 21%|██        | 16168/78504 [9:50:00<39:55:35,  2.31s/it] 21%|██        | 16169/78504 [9:50:02<39:02:38,  2.25s/it]                                                          {'loss': 0.0961, 'grad_norm': 0.355782687664032, 'learning_rate': 2.6471062799881107e-05, 'epoch': 4.94}
 21%|██        | 16169/78504 [9:50:02<39:02:38,  2.25s/it] 21%|██        | 16170/78504 [9:50:04<37:40:11,  2.18s/it]                                                          {'loss': 0.0597, 'grad_norm': 0.29249337315559387, 'learning_rate': 2.647063818946117e-05, 'epoch': 4.94}
 21%|██        | 16170/78504 [9:50:04<37:40:11,  2.18s/it] 21%|██        | 16171/78504 [9:50:06<35:45:15,  2.06s/it]                                                          {'loss': 0.1143, 'grad_norm': 0.5387439131736755, 'learning_rate': 2.6470213579041228e-05, 'epoch': 4.94}
 21%|██        | 16171/78504 [9:50:06<35:45:15,  2.06s/it] 21%|██        | 16172/78504 [9:50:08<34:41:05,  2.00s/it]                                                          {'loss': 0.0641, 'grad_norm': 0.8383841514587402, 'learning_rate': 2.646978896862129e-05, 'epoch': 4.94}
 21%|██        | 16172/78504 [9:50:08<34:41:05,  2.00s/it] 21%|██        | 16173/78504 [9:50:10<33:51:01,  1.96s/it]                                                          {'loss': 0.1181, 'grad_norm': 0.5547565221786499, 'learning_rate': 2.646936435820135e-05, 'epoch': 4.94}
 21%|██        | 16173/78504 [9:50:10<33:51:01,  1.96s/it] 21%|██        | 16174/78504 [9:50:11<32:41:15,  1.89s/it]                                                          {'loss': 0.1408, 'grad_norm': 0.4237385094165802, 'learning_rate': 2.646893974778141e-05, 'epoch': 4.94}
 21%|██        | 16174/78504 [9:50:11<32:41:15,  1.89s/it] 21%|██        | 16175/78504 [9:50:13<31:26:14,  1.82s/it]                                                          {'loss': 0.1255, 'grad_norm': 0.450828492641449, 'learning_rate': 2.646851513736147e-05, 'epoch': 4.94}
 21%|██        | 16175/78504 [9:50:13<31:26:14,  1.82s/it] 21%|██        | 16176/78504 [9:50:15<29:59:28,  1.73s/it]                                                          {'loss': 0.15, 'grad_norm': 0.9282153844833374, 'learning_rate': 2.6468090526941532e-05, 'epoch': 4.95}
 21%|██        | 16176/78504 [9:50:15<29:59:28,  1.73s/it] 21%|██        | 16177/78504 [9:50:16<28:40:23,  1.66s/it]                                                          {'loss': 0.1794, 'grad_norm': 0.6778057813644409, 'learning_rate': 2.646766591652159e-05, 'epoch': 4.95}
 21%|██        | 16177/78504 [9:50:16<28:40:23,  1.66s/it] 21%|██        | 16178/78504 [9:50:18<27:19:37,  1.58s/it]                                                          {'loss': 0.1588, 'grad_norm': 0.6619948744773865, 'learning_rate': 2.6467241306101653e-05, 'epoch': 4.95}
 21%|██        | 16178/78504 [9:50:18<27:19:37,  1.58s/it] 21%|██        | 16179/78504 [9:50:19<25:47:18,  1.49s/it]                                                          {'loss': 0.1617, 'grad_norm': 0.3997032344341278, 'learning_rate': 2.646681669568171e-05, 'epoch': 4.95}
 21%|██        | 16179/78504 [9:50:19<25:47:18,  1.49s/it] 21%|██        | 16180/78504 [9:50:20<24:01:41,  1.39s/it]                                                          {'loss': 0.1944, 'grad_norm': 0.8461418747901917, 'learning_rate': 2.646639208526177e-05, 'epoch': 4.95}
 21%|██        | 16180/78504 [9:50:20<24:01:41,  1.39s/it] 21%|██        | 16181/78504 [9:50:21<22:30:41,  1.30s/it]                                                          {'loss': 0.1647, 'grad_norm': 0.5402050018310547, 'learning_rate': 2.6465967474841832e-05, 'epoch': 4.95}
 21%|██        | 16181/78504 [9:50:21<22:30:41,  1.30s/it] 21%|██        | 16182/78504 [9:50:22<21:11:41,  1.22s/it]                                                          {'loss': 0.2017, 'grad_norm': 4.685575485229492, 'learning_rate': 2.646554286442189e-05, 'epoch': 4.95}
 21%|██        | 16182/78504 [9:50:22<21:11:41,  1.22s/it] 21%|██        | 16183/78504 [9:50:23<19:42:22,  1.14s/it]                                                          {'loss': 0.2181, 'grad_norm': 1.0009102821350098, 'learning_rate': 2.6465118254001953e-05, 'epoch': 4.95}
 21%|██        | 16183/78504 [9:50:23<19:42:22,  1.14s/it] 21%|██        | 16184/78504 [9:50:24<17:52:29,  1.03s/it]                                                          {'loss': 0.25, 'grad_norm': 3.5499463081359863, 'learning_rate': 2.646469364358201e-05, 'epoch': 4.95}
 21%|██        | 16184/78504 [9:50:24<17:52:29,  1.03s/it] 21%|██        | 16185/78504 [9:50:33<60:34:25,  3.50s/it]                                                          {'loss': 0.156, 'grad_norm': 0.555263876914978, 'learning_rate': 2.6464269033162074e-05, 'epoch': 4.95}
 21%|██        | 16185/78504 [9:50:33<60:34:25,  3.50s/it] 21%|██        | 16186/78504 [9:50:36<59:52:15,  3.46s/it]                                                          {'loss': 0.0764, 'grad_norm': 0.6567282676696777, 'learning_rate': 2.6463844422742132e-05, 'epoch': 4.95}
 21%|██        | 16186/78504 [9:50:36<59:52:15,  3.46s/it] 21%|██        | 16187/78504 [9:50:39<55:59:53,  3.23s/it]                                                          {'loss': 0.0981, 'grad_norm': 0.43958452343940735, 'learning_rate': 2.6463419812322194e-05, 'epoch': 4.95}
 21%|██        | 16187/78504 [9:50:39<55:59:53,  3.23s/it] 21%|██        | 16188/78504 [9:50:42<52:37:41,  3.04s/it]                                                          {'loss': 0.0696, 'grad_norm': 0.19926422834396362, 'learning_rate': 2.6462995201902253e-05, 'epoch': 4.95}
 21%|██        | 16188/78504 [9:50:42<52:37:41,  3.04s/it] 21%|██        | 16189/78504 [9:50:44<49:04:48,  2.84s/it]                                                          {'loss': 0.0797, 'grad_norm': 0.38151440024375916, 'learning_rate': 2.6462570591482315e-05, 'epoch': 4.95}
 21%|██        | 16189/78504 [9:50:44<49:04:48,  2.84s/it] 21%|██        | 16190/78504 [9:50:46<46:04:13,  2.66s/it]                                                          {'loss': 0.0689, 'grad_norm': 0.2506442368030548, 'learning_rate': 2.6462145981062374e-05, 'epoch': 4.95}
 21%|██        | 16190/78504 [9:50:46<46:04:13,  2.66s/it] 21%|██        | 16191/78504 [9:50:49<44:16:12,  2.56s/it]                                                          {'loss': 0.0363, 'grad_norm': 0.26800596714019775, 'learning_rate': 2.6461721370642436e-05, 'epoch': 4.95}
 21%|██        | 16191/78504 [9:50:49<44:16:12,  2.56s/it] 21%|██        | 16192/78504 [9:50:51<41:51:45,  2.42s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.28583404421806335, 'learning_rate': 2.6461296760222498e-05, 'epoch': 4.95}
 21%|██        | 16192/78504 [9:50:51<41:51:45,  2.42s/it] 21%|██        | 16193/78504 [9:50:53<40:36:31,  2.35s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.24741584062576294, 'learning_rate': 2.6460872149802557e-05, 'epoch': 4.95}
 21%|██        | 16193/78504 [9:50:53<40:36:31,  2.35s/it] 21%|██        | 16194/78504 [9:50:55<39:35:22,  2.29s/it]                                                          {'loss': 0.0497, 'grad_norm': 0.20727026462554932, 'learning_rate': 2.646044753938262e-05, 'epoch': 4.95}
 21%|██        | 16194/78504 [9:50:55<39:35:22,  2.29s/it] 21%|██        | 16195/78504 [9:50:57<38:13:39,  2.21s/it]                                                          {'loss': 0.1257, 'grad_norm': 0.7953619956970215, 'learning_rate': 2.6460022928962678e-05, 'epoch': 4.95}
 21%|██        | 16195/78504 [9:50:57<38:13:39,  2.21s/it] 21%|██        | 16196/78504 [9:50:59<37:02:14,  2.14s/it]                                                          {'loss': 0.0943, 'grad_norm': 0.6956741213798523, 'learning_rate': 2.645959831854274e-05, 'epoch': 4.95}
 21%|██        | 16196/78504 [9:50:59<37:02:14,  2.14s/it] 21%|██        | 16197/78504 [9:51:01<35:56:12,  2.08s/it]                                                          {'loss': 0.0742, 'grad_norm': 0.6693007349967957, 'learning_rate': 2.64591737081228e-05, 'epoch': 4.95}
 21%|██        | 16197/78504 [9:51:01<35:56:12,  2.08s/it] 21%|██        | 16198/78504 [9:51:03<34:52:15,  2.01s/it]                                                          {'loss': 0.1409, 'grad_norm': 0.5977396368980408, 'learning_rate': 2.645874909770286e-05, 'epoch': 4.95}
 21%|██        | 16198/78504 [9:51:03<34:52:15,  2.01s/it] 21%|██        | 16199/78504 [9:51:05<33:33:47,  1.94s/it]                                                          {'loss': 0.1028, 'grad_norm': 0.6485908031463623, 'learning_rate': 2.645832448728292e-05, 'epoch': 4.95}
 21%|██        | 16199/78504 [9:51:05<33:33:47,  1.94s/it] 21%|██        | 16200/78504 [9:51:06<31:44:14,  1.83s/it]                                                          {'loss': 0.1668, 'grad_norm': 0.6261325478553772, 'learning_rate': 2.645789987686298e-05, 'epoch': 4.95}
 21%|██        | 16200/78504 [9:51:06<31:44:14,  1.83s/it] 21%|██        | 16201/78504 [9:51:08<30:11:15,  1.74s/it]                                                          {'loss': 0.1246, 'grad_norm': 0.5063225626945496, 'learning_rate': 2.645747526644304e-05, 'epoch': 4.95}
 21%|██        | 16201/78504 [9:51:08<30:11:15,  1.74s/it] 21%|██        | 16202/78504 [9:51:09<28:58:12,  1.67s/it]                                                          {'loss': 0.1566, 'grad_norm': 1.3815869092941284, 'learning_rate': 2.6457050656023102e-05, 'epoch': 4.95}
 21%|██        | 16202/78504 [9:51:09<28:58:12,  1.67s/it] 21%|██        | 16203/78504 [9:51:11<27:33:59,  1.59s/it]                                                          {'loss': 0.1438, 'grad_norm': 0.6278057098388672, 'learning_rate': 2.645662604560316e-05, 'epoch': 4.95}
 21%|██        | 16203/78504 [9:51:11<27:33:59,  1.59s/it] 21%|██        | 16204/78504 [9:51:12<25:59:20,  1.50s/it]                                                          {'loss': 0.1896, 'grad_norm': 1.6880429983139038, 'learning_rate': 2.6456201435183223e-05, 'epoch': 4.95}
 21%|██        | 16204/78504 [9:51:12<25:59:20,  1.50s/it] 21%|██        | 16205/78504 [9:51:13<24:09:32,  1.40s/it]                                                          {'loss': 0.1953, 'grad_norm': 1.0147854089736938, 'learning_rate': 2.645577682476328e-05, 'epoch': 4.95}
 21%|██        | 16205/78504 [9:51:13<24:09:32,  1.40s/it] 21%|██        | 16206/78504 [9:51:14<22:33:12,  1.30s/it]                                                          {'loss': 0.177, 'grad_norm': 1.045670509338379, 'learning_rate': 2.645535221434334e-05, 'epoch': 4.95}
 21%|██        | 16206/78504 [9:51:14<22:33:12,  1.30s/it] 21%|██        | 16207/78504 [9:51:15<21:17:32,  1.23s/it]                                                          {'loss': 0.1801, 'grad_norm': 0.6756311655044556, 'learning_rate': 2.6454927603923402e-05, 'epoch': 4.95}
 21%|██        | 16207/78504 [9:51:15<21:17:32,  1.23s/it] 21%|██        | 16208/78504 [9:51:16<19:42:38,  1.14s/it]                                                          {'loss': 0.2029, 'grad_norm': 1.0499931573867798, 'learning_rate': 2.645450299350346e-05, 'epoch': 4.96}
 21%|██        | 16208/78504 [9:51:16<19:42:38,  1.14s/it] 21%|██        | 16209/78504 [9:51:17<17:52:23,  1.03s/it]                                                          {'loss': 0.2117, 'grad_norm': 1.1285697221755981, 'learning_rate': 2.6454078383083523e-05, 'epoch': 4.96}
 21%|██        | 16209/78504 [9:51:17<17:52:23,  1.03s/it] 21%|██        | 16210/78504 [9:51:24<46:54:31,  2.71s/it]                                                          {'loss': 0.1435, 'grad_norm': 0.934039831161499, 'learning_rate': 2.6453653772663582e-05, 'epoch': 4.96}
 21%|██        | 16210/78504 [9:51:24<46:54:31,  2.71s/it] 21%|██        | 16211/78504 [9:51:27<49:06:44,  2.84s/it]                                                          {'loss': 0.0824, 'grad_norm': 0.46611881256103516, 'learning_rate': 2.6453229162243644e-05, 'epoch': 4.96}
 21%|██        | 16211/78504 [9:51:27<49:06:44,  2.84s/it] 21%|██        | 16212/78504 [9:51:30<49:36:20,  2.87s/it]                                                          {'loss': 0.0632, 'grad_norm': 0.19744712114334106, 'learning_rate': 2.6452804551823703e-05, 'epoch': 4.96}
 21%|██        | 16212/78504 [9:51:30<49:36:20,  2.87s/it] 21%|██        | 16213/78504 [9:51:32<47:19:00,  2.73s/it]                                                          {'loss': 0.0955, 'grad_norm': 0.5067269206047058, 'learning_rate': 2.6452379941403765e-05, 'epoch': 4.96}
 21%|██        | 16213/78504 [9:51:32<47:19:00,  2.73s/it] 21%|██        | 16214/78504 [9:51:35<45:59:04,  2.66s/it]                                                          {'loss': 0.0538, 'grad_norm': 0.5780366659164429, 'learning_rate': 2.6451955330983823e-05, 'epoch': 4.96}
 21%|██        | 16214/78504 [9:51:35<45:59:04,  2.66s/it] 21%|██        | 16215/78504 [9:51:37<43:56:07,  2.54s/it]                                                          {'loss': 0.0392, 'grad_norm': 0.20543056726455688, 'learning_rate': 2.6451530720563885e-05, 'epoch': 4.96}
 21%|██        | 16215/78504 [9:51:37<43:56:07,  2.54s/it] 21%|██        | 16216/78504 [9:51:39<42:51:36,  2.48s/it]                                                          {'loss': 0.0489, 'grad_norm': 0.27941665053367615, 'learning_rate': 2.6451106110143944e-05, 'epoch': 4.96}
 21%|██        | 16216/78504 [9:51:39<42:51:36,  2.48s/it] 21%|██        | 16217/78504 [9:51:41<40:51:42,  2.36s/it]                                                          {'loss': 0.0625, 'grad_norm': 0.3026092052459717, 'learning_rate': 2.6450681499724006e-05, 'epoch': 4.96}
 21%|██        | 16217/78504 [9:51:41<40:51:42,  2.36s/it] 21%|██        | 16218/78504 [9:51:43<39:55:10,  2.31s/it]                                                          {'loss': 0.0783, 'grad_norm': 0.3497205376625061, 'learning_rate': 2.6450256889304065e-05, 'epoch': 4.96}
 21%|██        | 16218/78504 [9:51:43<39:55:10,  2.31s/it] 21%|██        | 16219/78504 [9:51:46<39:05:50,  2.26s/it]                                                          {'loss': 0.069, 'grad_norm': 0.3224717974662781, 'learning_rate': 2.6449832278884124e-05, 'epoch': 4.96}
 21%|██        | 16219/78504 [9:51:46<39:05:50,  2.26s/it] 21%|██        | 16220/78504 [9:51:48<37:53:14,  2.19s/it]                                                          {'loss': 0.092, 'grad_norm': 0.5241775512695312, 'learning_rate': 2.6449407668464186e-05, 'epoch': 4.96}
 21%|██        | 16220/78504 [9:51:48<37:53:14,  2.19s/it] 21%|██        | 16221/78504 [9:51:50<36:47:15,  2.13s/it]                                                          {'loss': 0.0715, 'grad_norm': 0.4540558457374573, 'learning_rate': 2.6448983058044244e-05, 'epoch': 4.96}
 21%|██        | 16221/78504 [9:51:50<36:47:15,  2.13s/it] 21%|██        | 16222/78504 [9:51:52<35:43:52,  2.07s/it]                                                          {'loss': 0.0908, 'grad_norm': 0.6412497758865356, 'learning_rate': 2.6448558447624307e-05, 'epoch': 4.96}
 21%|██        | 16222/78504 [9:51:52<35:43:52,  2.07s/it] 21%|██        | 16223/78504 [9:51:53<34:41:29,  2.01s/it]                                                          {'loss': 0.1204, 'grad_norm': 1.2702451944351196, 'learning_rate': 2.6448133837204365e-05, 'epoch': 4.96}
 21%|██        | 16223/78504 [9:51:53<34:41:29,  2.01s/it] 21%|██        | 16224/78504 [9:51:55<33:27:37,  1.93s/it]                                                          {'loss': 0.129, 'grad_norm': 1.3516309261322021, 'learning_rate': 2.6447709226784427e-05, 'epoch': 4.96}
 21%|██        | 16224/78504 [9:51:55<33:27:37,  1.93s/it] 21%|██        | 16225/78504 [9:51:57<31:59:29,  1.85s/it]                                                          {'loss': 0.1465, 'grad_norm': 1.1595357656478882, 'learning_rate': 2.6447284616364486e-05, 'epoch': 4.96}
 21%|██        | 16225/78504 [9:51:57<31:59:29,  1.85s/it] 21%|██        | 16226/78504 [9:51:58<30:22:07,  1.76s/it]                                                          {'loss': 0.1829, 'grad_norm': 0.9924737215042114, 'learning_rate': 2.6446860005944548e-05, 'epoch': 4.96}
 21%|██        | 16226/78504 [9:51:58<30:22:07,  1.76s/it] 21%|██        | 16227/78504 [9:52:00<28:53:13,  1.67s/it]                                                          {'loss': 0.1732, 'grad_norm': 0.9391486644744873, 'learning_rate': 2.6446435395524607e-05, 'epoch': 4.96}
 21%|██        | 16227/78504 [9:52:00<28:53:13,  1.67s/it] 21%|██        | 16228/78504 [9:52:01<27:22:08,  1.58s/it]                                                          {'loss': 0.158, 'grad_norm': 0.6501911282539368, 'learning_rate': 2.644601078510467e-05, 'epoch': 4.96}
 21%|██        | 16228/78504 [9:52:01<27:22:08,  1.58s/it] 21%|██        | 16229/78504 [9:52:02<25:50:03,  1.49s/it]                                                          {'loss': 0.1598, 'grad_norm': 0.8515514135360718, 'learning_rate': 2.6445586174684728e-05, 'epoch': 4.96}
 21%|██        | 16229/78504 [9:52:03<25:50:03,  1.49s/it] 21%|██        | 16230/78504 [9:52:04<24:02:26,  1.39s/it]                                                          {'loss': 0.1447, 'grad_norm': 1.6769587993621826, 'learning_rate': 2.644516156426479e-05, 'epoch': 4.96}
 21%|██        | 16230/78504 [9:52:04<24:02:26,  1.39s/it] 21%|██        | 16231/78504 [9:52:05<22:27:54,  1.30s/it]                                                          {'loss': 0.1539, 'grad_norm': 1.776716709136963, 'learning_rate': 2.644473695384485e-05, 'epoch': 4.96}
 21%|██        | 16231/78504 [9:52:05<22:27:54,  1.30s/it] 21%|██        | 16232/78504 [9:52:06<21:09:57,  1.22s/it]                                                          {'loss': 0.1692, 'grad_norm': 0.863213837146759, 'learning_rate': 2.6444312343424907e-05, 'epoch': 4.96}
 21%|██        | 16232/78504 [9:52:06<21:09:57,  1.22s/it] 21%|██        | 16233/78504 [9:52:07<19:40:38,  1.14s/it]                                                          {'loss': 0.1776, 'grad_norm': 0.8694145679473877, 'learning_rate': 2.644388773300497e-05, 'epoch': 4.96}
 21%|██        | 16233/78504 [9:52:07<19:40:38,  1.14s/it] 21%|██        | 16234/78504 [9:52:07<17:50:45,  1.03s/it]                                                          {'loss': 0.2194, 'grad_norm': 4.588730812072754, 'learning_rate': 2.6443463122585028e-05, 'epoch': 4.96}
 21%|██        | 16234/78504 [9:52:08<17:50:45,  1.03s/it] 21%|██        | 16235/78504 [9:52:17<61:17:16,  3.54s/it]                                                          {'loss': 0.1615, 'grad_norm': 0.5255776047706604, 'learning_rate': 2.644303851216509e-05, 'epoch': 4.96}
 21%|██        | 16235/78504 [9:52:17<61:17:16,  3.54s/it] 21%|██        | 16236/78504 [9:52:20<60:20:21,  3.49s/it]                                                          {'loss': 0.0777, 'grad_norm': 1.1640057563781738, 'learning_rate': 2.644261390174515e-05, 'epoch': 4.96}
 21%|██        | 16236/78504 [9:52:20<60:20:21,  3.49s/it] 21%|██        | 16237/78504 [9:52:23<55:32:27,  3.21s/it]                                                          {'loss': 0.0552, 'grad_norm': 0.19605523347854614, 'learning_rate': 2.644218929132521e-05, 'epoch': 4.96}
 21%|██        | 16237/78504 [9:52:23<55:32:27,  3.21s/it] 21%|██        | 16238/78504 [9:52:25<52:26:45,  3.03s/it]                                                          {'loss': 0.0706, 'grad_norm': 0.3822788894176483, 'learning_rate': 2.644176468090527e-05, 'epoch': 4.96}
 21%|██        | 16238/78504 [9:52:25<52:26:45,  3.03s/it] 21%|██        | 16239/78504 [9:52:28<49:38:11,  2.87s/it]                                                          {'loss': 0.0593, 'grad_norm': 0.3126916289329529, 'learning_rate': 2.644134007048533e-05, 'epoch': 4.96}
 21%|██        | 16239/78504 [9:52:28<49:38:11,  2.87s/it] 21%|██        | 16240/78504 [9:52:30<46:57:34,  2.72s/it]                                                          {'loss': 0.0692, 'grad_norm': 0.2752786874771118, 'learning_rate': 2.644091546006539e-05, 'epoch': 4.96}
 21%|██        | 16240/78504 [9:52:30<46:57:34,  2.72s/it] 21%|██        | 16241/78504 [9:52:33<44:57:10,  2.60s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.32149213552474976, 'learning_rate': 2.6440490849645452e-05, 'epoch': 4.97}
 21%|██        | 16241/78504 [9:52:33<44:57:10,  2.60s/it] 21%|██        | 16242/78504 [9:52:35<42:18:31,  2.45s/it]                                                          {'loss': 0.0512, 'grad_norm': 0.37535929679870605, 'learning_rate': 2.644006623922551e-05, 'epoch': 4.97}
 21%|██        | 16242/78504 [9:52:35<42:18:31,  2.45s/it] 21%|██        | 16243/78504 [9:52:37<40:55:38,  2.37s/it]                                                          {'loss': 0.0735, 'grad_norm': 0.2844174802303314, 'learning_rate': 2.6439641628805573e-05, 'epoch': 4.97}
 21%|██        | 16243/78504 [9:52:37<40:55:38,  2.37s/it] 21%|██        | 16244/78504 [9:52:39<39:48:12,  2.30s/it]                                                          {'loss': 0.062, 'grad_norm': 1.3420312404632568, 'learning_rate': 2.6439217018385632e-05, 'epoch': 4.97}
 21%|██        | 16244/78504 [9:52:39<39:48:12,  2.30s/it] 21%|██        | 16245/78504 [9:52:41<38:24:17,  2.22s/it]                                                          {'loss': 0.094, 'grad_norm': 1.0133360624313354, 'learning_rate': 2.643879240796569e-05, 'epoch': 4.97}
 21%|██        | 16245/78504 [9:52:41<38:24:17,  2.22s/it] 21%|██        | 16246/78504 [9:52:43<37:08:25,  2.15s/it]                                                          {'loss': 0.0856, 'grad_norm': 0.4830609858036041, 'learning_rate': 2.6438367797545753e-05, 'epoch': 4.97}
 21%|██        | 16246/78504 [9:52:43<37:08:25,  2.15s/it] 21%|██        | 16247/78504 [9:52:45<35:49:07,  2.07s/it]                                                          {'loss': 0.0791, 'grad_norm': 0.29936954379081726, 'learning_rate': 2.643794318712581e-05, 'epoch': 4.97}
 21%|██        | 16247/78504 [9:52:45<35:49:07,  2.07s/it] 21%|██        | 16248/78504 [9:52:47<34:44:00,  2.01s/it]                                                          {'loss': 0.1428, 'grad_norm': 0.551843523979187, 'learning_rate': 2.6437518576705873e-05, 'epoch': 4.97}
 21%|██        | 16248/78504 [9:52:47<34:44:00,  2.01s/it] 21%|██        | 16249/78504 [9:52:48<33:11:48,  1.92s/it]                                                          {'loss': 0.1398, 'grad_norm': 0.46459001302719116, 'learning_rate': 2.6437093966285932e-05, 'epoch': 4.97}
 21%|██        | 16249/78504 [9:52:49<33:11:48,  1.92s/it] 21%|██        | 16250/78504 [9:52:50<31:46:20,  1.84s/it]                                                          {'loss': 0.1266, 'grad_norm': 2.145453929901123, 'learning_rate': 2.6436669355865994e-05, 'epoch': 4.97}
 21%|██        | 16250/78504 [9:52:50<31:46:20,  1.84s/it] 21%|██        | 16251/78504 [9:52:52<30:09:07,  1.74s/it]                                                          {'loss': 0.1487, 'grad_norm': 0.3577316999435425, 'learning_rate': 2.6436244745446053e-05, 'epoch': 4.97}
 21%|██        | 16251/78504 [9:52:52<30:09:07,  1.74s/it] 21%|██        | 16252/78504 [9:52:53<28:30:56,  1.65s/it]                                                          {'loss': 0.1765, 'grad_norm': 0.7347962856292725, 'learning_rate': 2.6435820135026115e-05, 'epoch': 4.97}
 21%|██        | 16252/78504 [9:52:53<28:30:56,  1.65s/it] 21%|██        | 16253/78504 [9:52:55<27:17:37,  1.58s/it]                                                          {'loss': 0.1836, 'grad_norm': 0.7608230113983154, 'learning_rate': 2.6435395524606174e-05, 'epoch': 4.97}
 21%|██        | 16253/78504 [9:52:55<27:17:37,  1.58s/it] 21%|██        | 16254/78504 [9:52:56<25:28:00,  1.47s/it]                                                          {'loss': 0.1906, 'grad_norm': 1.2254383563995361, 'learning_rate': 2.6434970914186236e-05, 'epoch': 4.97}
 21%|██        | 16254/78504 [9:52:56<25:28:00,  1.47s/it] 21%|██        | 16255/78504 [9:52:57<23:43:18,  1.37s/it]                                                          {'loss': 0.229, 'grad_norm': 0.9722108244895935, 'learning_rate': 2.6434546303766294e-05, 'epoch': 4.97}
 21%|██        | 16255/78504 [9:52:57<23:43:18,  1.37s/it] 21%|██        | 16256/78504 [9:52:58<22:17:13,  1.29s/it]                                                          {'loss': 0.2169, 'grad_norm': 1.5004971027374268, 'learning_rate': 2.6434121693346357e-05, 'epoch': 4.97}
 21%|██        | 16256/78504 [9:52:58<22:17:13,  1.29s/it] 21%|██        | 16257/78504 [9:52:59<20:42:32,  1.20s/it]                                                          {'loss': 0.1918, 'grad_norm': 4.245785236358643, 'learning_rate': 2.6433697082926415e-05, 'epoch': 4.97}
 21%|██        | 16257/78504 [9:52:59<20:42:32,  1.20s/it] 21%|██        | 16258/78504 [9:53:00<19:20:43,  1.12s/it]                                                          {'loss': 0.2259, 'grad_norm': 1.1180176734924316, 'learning_rate': 2.6433272472506474e-05, 'epoch': 4.97}
 21%|██        | 16258/78504 [9:53:00<19:20:43,  1.12s/it] 21%|██        | 16259/78504 [9:53:01<17:35:39,  1.02s/it]                                                          {'loss': 0.2341, 'grad_norm': 3.008047342300415, 'learning_rate': 2.6432847862086536e-05, 'epoch': 4.97}
 21%|██        | 16259/78504 [9:53:01<17:35:39,  1.02s/it] 21%|██        | 16260/78504 [9:53:09<54:32:54,  3.15s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.42520081996917725, 'learning_rate': 2.6432423251666595e-05, 'epoch': 4.97}
 21%|██        | 16260/78504 [9:53:09<54:32:54,  3.15s/it] 21%|██        | 16261/78504 [9:53:12<54:07:22,  3.13s/it]                                                          {'loss': 0.0854, 'grad_norm': 0.29699474573135376, 'learning_rate': 2.6431998641246657e-05, 'epoch': 4.97}
 21%|██        | 16261/78504 [9:53:12<54:07:22,  3.13s/it] 21%|██        | 16262/78504 [9:53:14<51:11:10,  2.96s/it]                                                          {'loss': 0.0483, 'grad_norm': 0.5320903062820435, 'learning_rate': 2.6431574030826716e-05, 'epoch': 4.97}
 21%|██        | 16262/78504 [9:53:14<51:11:10,  2.96s/it] 21%|██        | 16263/78504 [9:53:17<48:21:15,  2.80s/it]                                                          {'loss': 0.0805, 'grad_norm': 0.18682923913002014, 'learning_rate': 2.6431149420406778e-05, 'epoch': 4.97}
 21%|██        | 16263/78504 [9:53:17<48:21:15,  2.80s/it] 21%|██        | 16264/78504 [9:53:19<46:40:49,  2.70s/it]                                                          {'loss': 0.0582, 'grad_norm': 0.6450976133346558, 'learning_rate': 2.6430724809986836e-05, 'epoch': 4.97}
 21%|██        | 16264/78504 [9:53:19<46:40:49,  2.70s/it] 21%|██        | 16265/78504 [9:53:22<45:14:31,  2.62s/it]                                                          {'loss': 0.0529, 'grad_norm': 0.299600213766098, 'learning_rate': 2.64303001995669e-05, 'epoch': 4.97}
 21%|██        | 16265/78504 [9:53:22<45:14:31,  2.62s/it] 21%|██        | 16266/78504 [9:53:24<43:53:19,  2.54s/it]                                                          {'loss': 0.058, 'grad_norm': 0.4454646110534668, 'learning_rate': 2.6429875589146957e-05, 'epoch': 4.97}
 21%|██        | 16266/78504 [9:53:24<43:53:19,  2.54s/it] 21%|██        | 16267/78504 [9:53:26<42:37:00,  2.47s/it]                                                          {'loss': 0.065, 'grad_norm': 0.7826207280158997, 'learning_rate': 2.642945097872702e-05, 'epoch': 4.97}
 21%|██        | 16267/78504 [9:53:26<42:37:00,  2.47s/it] 21%|██        | 16268/78504 [9:53:29<41:12:45,  2.38s/it]                                                          {'loss': 0.044, 'grad_norm': 0.44051361083984375, 'learning_rate': 2.6429026368307078e-05, 'epoch': 4.97}
 21%|██        | 16268/78504 [9:53:29<41:12:45,  2.38s/it] 21%|██        | 16269/78504 [9:53:31<40:02:51,  2.32s/it]                                                          {'loss': 0.0585, 'grad_norm': 0.49163734912872314, 'learning_rate': 2.642860175788714e-05, 'epoch': 4.97}
 21%|██        | 16269/78504 [9:53:31<40:02:51,  2.32s/it] 21%|██        | 16270/78504 [9:53:33<37:37:09,  2.18s/it]                                                          {'loss': 0.0861, 'grad_norm': 0.4259580969810486, 'learning_rate': 2.64281771474672e-05, 'epoch': 4.97}
 21%|██        | 16270/78504 [9:53:33<37:37:09,  2.18s/it] 21%|██        | 16271/78504 [9:53:35<36:36:50,  2.12s/it]                                                          {'loss': 0.0736, 'grad_norm': 0.2825963795185089, 'learning_rate': 2.6427752537047257e-05, 'epoch': 4.97}
 21%|██        | 16271/78504 [9:53:35<36:36:50,  2.12s/it] 21%|██        | 16272/78504 [9:53:37<35:32:44,  2.06s/it]                                                          {'loss': 0.0849, 'grad_norm': 0.36909857392311096, 'learning_rate': 2.642732792662732e-05, 'epoch': 4.97}
 21%|██        | 16272/78504 [9:53:37<35:32:44,  2.06s/it] 21%|██        | 16273/78504 [9:53:38<34:25:01,  1.99s/it]                                                          {'loss': 0.0912, 'grad_norm': 0.5704494118690491, 'learning_rate': 2.6426903316207378e-05, 'epoch': 4.97}
 21%|██        | 16273/78504 [9:53:38<34:25:01,  1.99s/it] 21%|██        | 16274/78504 [9:53:40<33:12:19,  1.92s/it]                                                          {'loss': 0.1207, 'grad_norm': 0.6329939365386963, 'learning_rate': 2.642647870578744e-05, 'epoch': 4.98}
 21%|██        | 16274/78504 [9:53:40<33:12:19,  1.92s/it] 21%|██        | 16275/78504 [9:53:42<31:23:10,  1.82s/it]                                                          {'loss': 0.1204, 'grad_norm': 0.3876838684082031, 'learning_rate': 2.64260540953675e-05, 'epoch': 4.98}
 21%|██        | 16275/78504 [9:53:42<31:23:10,  1.82s/it] 21%|██        | 16276/78504 [9:53:43<29:53:00,  1.73s/it]                                                          {'loss': 0.1613, 'grad_norm': 0.8251622319221497, 'learning_rate': 2.642562948494756e-05, 'epoch': 4.98}
 21%|██        | 16276/78504 [9:53:43<29:53:00,  1.73s/it] 21%|██        | 16277/78504 [9:53:45<28:43:23,  1.66s/it]                                                          {'loss': 0.1328, 'grad_norm': 0.4649137258529663, 'learning_rate': 2.642520487452762e-05, 'epoch': 4.98}
 21%|██        | 16277/78504 [9:53:45<28:43:23,  1.66s/it] 21%|██        | 16278/78504 [9:53:46<27:23:55,  1.59s/it]                                                          {'loss': 0.197, 'grad_norm': 0.8467286229133606, 'learning_rate': 2.6424780264107682e-05, 'epoch': 4.98}
 21%|██        | 16278/78504 [9:53:46<27:23:55,  1.59s/it] 21%|██        | 16279/78504 [9:53:47<25:47:37,  1.49s/it]                                                          {'loss': 0.1733, 'grad_norm': 1.4875431060791016, 'learning_rate': 2.642435565368774e-05, 'epoch': 4.98}
 21%|██        | 16279/78504 [9:53:47<25:47:37,  1.49s/it] 21%|██        | 16280/78504 [9:53:49<24:13:58,  1.40s/it]                                                          {'loss': 0.1636, 'grad_norm': 1.609748125076294, 'learning_rate': 2.6423931043267803e-05, 'epoch': 4.98}
 21%|██        | 16280/78504 [9:53:49<24:13:58,  1.40s/it] 21%|██        | 16281/78504 [9:53:50<22:32:11,  1.30s/it]                                                          {'loss': 0.1889, 'grad_norm': 1.1398124694824219, 'learning_rate': 2.642350643284786e-05, 'epoch': 4.98}
 21%|██        | 16281/78504 [9:53:50<22:32:11,  1.30s/it] 21%|██        | 16282/78504 [9:53:51<21:09:06,  1.22s/it]                                                          {'loss': 0.1809, 'grad_norm': 0.8253848552703857, 'learning_rate': 2.6423081822427923e-05, 'epoch': 4.98}
 21%|██        | 16282/78504 [9:53:51<21:09:06,  1.22s/it] 21%|██        | 16283/78504 [9:53:52<19:34:44,  1.13s/it]                                                          {'loss': 0.1832, 'grad_norm': 1.9678714275360107, 'learning_rate': 2.6422657212007982e-05, 'epoch': 4.98}
 21%|██        | 16283/78504 [9:53:52<19:34:44,  1.13s/it] 21%|██        | 16284/78504 [9:53:52<17:43:26,  1.03s/it]                                                          {'loss': 0.2859, 'grad_norm': 1.833385944366455, 'learning_rate': 2.642223260158804e-05, 'epoch': 4.98}
 21%|██        | 16284/78504 [9:53:52<17:43:26,  1.03s/it] 21%|██        | 16285/78504 [9:54:02<60:23:56,  3.49s/it]                                                          {'loss': 0.1555, 'grad_norm': 0.3439232409000397, 'learning_rate': 2.6421807991168103e-05, 'epoch': 4.98}
 21%|██        | 16285/78504 [9:54:02<60:23:56,  3.49s/it] 21%|██        | 16286/78504 [9:54:05<59:38:11,  3.45s/it]                                                          {'loss': 0.0994, 'grad_norm': 0.411931574344635, 'learning_rate': 2.642138338074816e-05, 'epoch': 4.98}
 21%|██        | 16286/78504 [9:54:05<59:38:11,  3.45s/it] 21%|██        | 16287/78504 [9:54:08<57:21:06,  3.32s/it]                                                          {'loss': 0.0649, 'grad_norm': 0.20540018379688263, 'learning_rate': 2.6420958770328224e-05, 'epoch': 4.98}
 21%|██        | 16287/78504 [9:54:08<57:21:06,  3.32s/it] 21%|██        | 16288/78504 [9:54:11<53:38:22,  3.10s/it]                                                          {'loss': 0.0521, 'grad_norm': 0.20930306613445282, 'learning_rate': 2.6420534159908282e-05, 'epoch': 4.98}
 21%|██        | 16288/78504 [9:54:11<53:38:22,  3.10s/it] 21%|██        | 16289/78504 [9:54:13<50:19:27,  2.91s/it]                                                          {'loss': 0.0609, 'grad_norm': 0.5270512104034424, 'learning_rate': 2.6420109549488344e-05, 'epoch': 4.98}
 21%|██        | 16289/78504 [9:54:13<50:19:27,  2.91s/it] 21%|██        | 16290/78504 [9:54:15<47:47:53,  2.77s/it]                                                          {'loss': 0.0445, 'grad_norm': 0.1929650604724884, 'learning_rate': 2.6419684939068403e-05, 'epoch': 4.98}
 21%|██        | 16290/78504 [9:54:16<47:47:53,  2.77s/it] 21%|██        | 16291/78504 [9:54:18<45:25:06,  2.63s/it]                                                          {'loss': 0.0457, 'grad_norm': 0.2580484449863434, 'learning_rate': 2.6419260328648465e-05, 'epoch': 4.98}
 21%|██        | 16291/78504 [9:54:18<45:25:06,  2.63s/it] 21%|██        | 16292/78504 [9:54:20<42:43:14,  2.47s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.29407572746276855, 'learning_rate': 2.6418835718228524e-05, 'epoch': 4.98}
 21%|██        | 16292/78504 [9:54:20<42:43:14,  2.47s/it] 21%|██        | 16293/78504 [9:54:22<40:23:00,  2.34s/it]                                                          {'loss': 0.0686, 'grad_norm': 0.7456240057945251, 'learning_rate': 2.6418411107808586e-05, 'epoch': 4.98}
 21%|██        | 16293/78504 [9:54:22<40:23:00,  2.34s/it] 21%|██        | 16294/78504 [9:54:24<39:19:55,  2.28s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.392733633518219, 'learning_rate': 2.6417986497388648e-05, 'epoch': 4.98}
 21%|██        | 16294/78504 [9:54:24<39:19:55,  2.28s/it] 21%|██        | 16295/78504 [9:54:26<37:49:47,  2.19s/it]                                                          {'loss': 0.0893, 'grad_norm': 0.8671808242797852, 'learning_rate': 2.6417561886968707e-05, 'epoch': 4.98}
 21%|██        | 16295/78504 [9:54:26<37:49:47,  2.19s/it] 21%|██        | 16296/78504 [9:54:28<35:47:13,  2.07s/it]                                                          {'loss': 0.068, 'grad_norm': 0.2525700628757477, 'learning_rate': 2.641713727654877e-05, 'epoch': 4.98}
 21%|██        | 16296/78504 [9:54:28<35:47:13,  2.07s/it] 21%|██        | 16297/78504 [9:54:30<34:42:34,  2.01s/it]                                                          {'loss': 0.0954, 'grad_norm': 0.35767409205436707, 'learning_rate': 2.6416712666128828e-05, 'epoch': 4.98}
 21%|██        | 16297/78504 [9:54:30<34:42:34,  2.01s/it] 21%|██        | 16298/78504 [9:54:32<33:51:24,  1.96s/it]                                                          {'loss': 0.1332, 'grad_norm': 0.7149615287780762, 'learning_rate': 2.641628805570889e-05, 'epoch': 4.98}
 21%|██        | 16298/78504 [9:54:32<33:51:24,  1.96s/it] 21%|██        | 16299/78504 [9:54:33<32:32:56,  1.88s/it]                                                          {'loss': 0.1157, 'grad_norm': 0.5591803193092346, 'learning_rate': 2.641586344528895e-05, 'epoch': 4.98}
 21%|██        | 16299/78504 [9:54:33<32:32:56,  1.88s/it] 21%|██        | 16300/78504 [9:54:35<31:14:45,  1.81s/it]                                                          {'loss': 0.1287, 'grad_norm': 3.316666841506958, 'learning_rate': 2.641543883486901e-05, 'epoch': 4.98}
 21%|██        | 16300/78504 [9:54:35<31:14:45,  1.81s/it] 21%|██        | 16301/78504 [9:54:36<29:49:20,  1.73s/it]                                                          {'loss': 0.1609, 'grad_norm': 0.9091182351112366, 'learning_rate': 2.641501422444907e-05, 'epoch': 4.98}
 21%|██        | 16301/78504 [9:54:36<29:49:20,  1.73s/it] 21%|██        | 16302/78504 [9:54:38<28:24:21,  1.64s/it]                                                          {'loss': 0.1838, 'grad_norm': 0.5489398837089539, 'learning_rate': 2.641458961402913e-05, 'epoch': 4.98}
 21%|██        | 16302/78504 [9:54:38<28:24:21,  1.64s/it] 21%|██        | 16303/78504 [9:54:39<27:05:15,  1.57s/it]                                                          {'loss': 0.1415, 'grad_norm': 0.7959627509117126, 'learning_rate': 2.641416500360919e-05, 'epoch': 4.98}
 21%|██        | 16303/78504 [9:54:39<27:05:15,  1.57s/it] 21%|██        | 16304/78504 [9:54:41<25:34:36,  1.48s/it]                                                          {'loss': 0.1626, 'grad_norm': 0.9976868629455566, 'learning_rate': 2.6413740393189252e-05, 'epoch': 4.98}
 21%|██        | 16304/78504 [9:54:41<25:34:36,  1.48s/it] 21%|██        | 16305/78504 [9:54:42<23:49:58,  1.38s/it]                                                          {'loss': 0.1976, 'grad_norm': 0.7502087950706482, 'learning_rate': 2.641331578276931e-05, 'epoch': 4.98}
 21%|██        | 16305/78504 [9:54:42<23:49:58,  1.38s/it] 21%|██        | 16306/78504 [9:54:43<22:15:02,  1.29s/it]                                                          {'loss': 0.2157, 'grad_norm': 3.9919450283050537, 'learning_rate': 2.6412891172349373e-05, 'epoch': 4.99}
 21%|██        | 16306/78504 [9:54:43<22:15:02,  1.29s/it] 21%|██        | 16307/78504 [9:54:44<20:55:31,  1.21s/it]                                                          {'loss': 0.163, 'grad_norm': 1.0622131824493408, 'learning_rate': 2.641246656192943e-05, 'epoch': 4.99}
 21%|██        | 16307/78504 [9:54:44<20:55:31,  1.21s/it] 21%|██        | 16308/78504 [9:54:45<19:23:02,  1.12s/it]                                                          {'loss': 0.1897, 'grad_norm': 2.502284049987793, 'learning_rate': 2.641204195150949e-05, 'epoch': 4.99}
 21%|██        | 16308/78504 [9:54:45<19:23:02,  1.12s/it] 21%|██        | 16309/78504 [9:54:45<17:39:40,  1.02s/it]                                                          {'loss': 0.2628, 'grad_norm': 2.4570224285125732, 'learning_rate': 2.6411617341089552e-05, 'epoch': 4.99}
 21%|██        | 16309/78504 [9:54:46<17:39:40,  1.02s/it] 21%|██        | 16310/78504 [9:54:56<67:16:02,  3.89s/it]                                                          {'loss': 0.1414, 'grad_norm': 0.8203973174095154, 'learning_rate': 2.641119273066961e-05, 'epoch': 4.99}
 21%|██        | 16310/78504 [9:54:56<67:16:02,  3.89s/it] 21%|██        | 16311/78504 [9:54:59<63:12:39,  3.66s/it]                                                          {'loss': 0.0824, 'grad_norm': 1.0239824056625366, 'learning_rate': 2.6410768120249673e-05, 'epoch': 4.99}
 21%|██        | 16311/78504 [9:54:59<63:12:39,  3.66s/it] 21%|██        | 16312/78504 [9:55:02<59:41:00,  3.45s/it]                                                          {'loss': 0.0739, 'grad_norm': 0.21523885428905487, 'learning_rate': 2.6410343509829732e-05, 'epoch': 4.99}
 21%|██        | 16312/78504 [9:55:02<59:41:00,  3.45s/it] 21%|██        | 16313/78504 [9:55:05<55:17:24,  3.20s/it]                                                          {'loss': 0.0474, 'grad_norm': 0.20692579448223114, 'learning_rate': 2.6409918899409794e-05, 'epoch': 4.99}
 21%|██        | 16313/78504 [9:55:05<55:17:24,  3.20s/it] 21%|██        | 16314/78504 [9:55:07<51:27:34,  2.98s/it]                                                          {'loss': 0.0604, 'grad_norm': 0.3089268207550049, 'learning_rate': 2.6409494288989853e-05, 'epoch': 4.99}
 21%|██        | 16314/78504 [9:55:07<51:27:34,  2.98s/it] 21%|██        | 16315/78504 [9:55:10<47:45:20,  2.76s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.41296055912971497, 'learning_rate': 2.6409069678569915e-05, 'epoch': 4.99}
 21%|██        | 16315/78504 [9:55:10<47:45:20,  2.76s/it] 21%|██        | 16316/78504 [9:55:12<45:23:11,  2.63s/it]                                                          {'loss': 0.0468, 'grad_norm': 0.1936233639717102, 'learning_rate': 2.6408645068149973e-05, 'epoch': 4.99}
 21%|██        | 16316/78504 [9:55:12<45:23:11,  2.63s/it] 21%|██        | 16317/78504 [9:55:14<43:43:05,  2.53s/it]                                                          {'loss': 0.0904, 'grad_norm': 0.4046232998371124, 'learning_rate': 2.6408220457730036e-05, 'epoch': 4.99}
 21%|██        | 16317/78504 [9:55:14<43:43:05,  2.53s/it] 21%|██        | 16318/78504 [9:55:16<41:55:36,  2.43s/it]                                                          {'loss': 0.0574, 'grad_norm': 0.40093469619750977, 'learning_rate': 2.6407795847310094e-05, 'epoch': 4.99}
 21%|██        | 16318/78504 [9:55:16<41:55:36,  2.43s/it] 21%|██        | 16319/78504 [9:55:18<40:34:01,  2.35s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.5713542103767395, 'learning_rate': 2.6407371236890156e-05, 'epoch': 4.99}
 21%|██        | 16319/78504 [9:55:18<40:34:01,  2.35s/it] 21%|██        | 16320/78504 [9:55:20<37:58:55,  2.20s/it]                                                          {'loss': 0.0734, 'grad_norm': 0.27804842591285706, 'learning_rate': 2.6406946626470215e-05, 'epoch': 4.99}
 21%|██        | 16320/78504 [9:55:20<37:58:55,  2.20s/it] 21%|██        | 16321/78504 [9:55:22<36:50:45,  2.13s/it]                                                          {'loss': 0.0837, 'grad_norm': 0.3515048921108246, 'learning_rate': 2.6406522016050274e-05, 'epoch': 4.99}
 21%|██        | 16321/78504 [9:55:22<36:50:45,  2.13s/it] 21%|██        | 16322/78504 [9:55:24<35:44:02,  2.07s/it]                                                          {'loss': 0.1266, 'grad_norm': 1.3136210441589355, 'learning_rate': 2.6406097405630336e-05, 'epoch': 4.99}
 21%|██        | 16322/78504 [9:55:24<35:44:02,  2.07s/it] 21%|██        | 16323/78504 [9:55:26<34:40:44,  2.01s/it]                                                          {'loss': 0.0902, 'grad_norm': 0.26073992252349854, 'learning_rate': 2.6405672795210394e-05, 'epoch': 4.99}
 21%|██        | 16323/78504 [9:55:26<34:40:44,  2.01s/it] 21%|██        | 16324/78504 [9:55:28<33:19:24,  1.93s/it]                                                          {'loss': 0.1341, 'grad_norm': 0.9181076288223267, 'learning_rate': 2.6405248184790457e-05, 'epoch': 4.99}
 21%|██        | 16324/78504 [9:55:28<33:19:24,  1.93s/it] 21%|██        | 16325/78504 [9:55:29<31:27:47,  1.82s/it]                                                          {'loss': 0.1608, 'grad_norm': 1.6166555881500244, 'learning_rate': 2.6404823574370515e-05, 'epoch': 4.99}
 21%|██        | 16325/78504 [9:55:29<31:27:47,  1.82s/it] 21%|██        | 16326/78504 [9:55:31<29:47:17,  1.72s/it]                                                          {'loss': 0.1549, 'grad_norm': 2.8133652210235596, 'learning_rate': 2.6404398963950577e-05, 'epoch': 4.99}
 21%|██        | 16326/78504 [9:55:31<29:47:17,  1.72s/it] 21%|██        | 16327/78504 [9:55:32<28:38:13,  1.66s/it]                                                          {'loss': 0.1243, 'grad_norm': 0.5451922416687012, 'learning_rate': 2.6403974353530636e-05, 'epoch': 4.99}
 21%|██        | 16327/78504 [9:55:32<28:38:13,  1.66s/it] 21%|██        | 16328/78504 [9:55:34<27:12:22,  1.58s/it]                                                          {'loss': 0.1407, 'grad_norm': 0.45319995284080505, 'learning_rate': 2.6403549743110698e-05, 'epoch': 4.99}
 21%|██        | 16328/78504 [9:55:34<27:12:22,  1.58s/it] 21%|██        | 16329/78504 [9:55:35<25:39:52,  1.49s/it]                                                          {'loss': 0.1652, 'grad_norm': 1.0955123901367188, 'learning_rate': 2.6403125132690757e-05, 'epoch': 4.99}
 21%|██        | 16329/78504 [9:55:35<25:39:52,  1.49s/it] 21%|██        | 16330/78504 [9:55:36<23:56:29,  1.39s/it]                                                          {'loss': 0.1963, 'grad_norm': 2.4507296085357666, 'learning_rate': 2.640270052227082e-05, 'epoch': 4.99}
 21%|██        | 16330/78504 [9:55:36<23:56:29,  1.39s/it] 21%|██        | 16331/78504 [9:55:37<22:18:14,  1.29s/it]                                                          {'loss': 0.166, 'grad_norm': 0.8484175801277161, 'learning_rate': 2.6402275911850878e-05, 'epoch': 4.99}
 21%|██        | 16331/78504 [9:55:37<22:18:14,  1.29s/it] 21%|██        | 16332/78504 [9:55:38<20:57:05,  1.21s/it]                                                          {'loss': 0.2014, 'grad_norm': 0.8937247395515442, 'learning_rate': 2.640185130143094e-05, 'epoch': 4.99}
 21%|██        | 16332/78504 [9:55:38<20:57:05,  1.21s/it] 21%|██        | 16333/78504 [9:55:39<19:22:58,  1.12s/it]                                                          {'loss': 0.2102, 'grad_norm': 10.322090148925781, 'learning_rate': 2.6401426691011e-05, 'epoch': 4.99}
 21%|██        | 16333/78504 [9:55:39<19:22:58,  1.12s/it] 21%|██        | 16334/78504 [9:55:40<17:41:50,  1.02s/it]                                                          {'loss': 0.2686, 'grad_norm': 1.345955491065979, 'learning_rate': 2.6401002080591057e-05, 'epoch': 4.99}
 21%|██        | 16334/78504 [9:55:40<17:41:50,  1.02s/it] 21%|██        | 16335/78504 [9:55:49<56:34:43,  3.28s/it]                                                          {'loss': 0.142, 'grad_norm': 0.591651201248169, 'learning_rate': 2.640057747017112e-05, 'epoch': 4.99}
 21%|██        | 16335/78504 [9:55:49<56:34:43,  3.28s/it] 21%|██        | 16336/78504 [9:55:52<56:22:49,  3.26s/it]                                                          {'loss': 0.0741, 'grad_norm': 0.48485633730888367, 'learning_rate': 2.6400152859751178e-05, 'epoch': 4.99}
 21%|██        | 16336/78504 [9:55:52<56:22:49,  3.26s/it] 21%|██        | 16337/78504 [9:55:55<54:36:06,  3.16s/it]                                                          {'loss': 0.0754, 'grad_norm': 0.2908630967140198, 'learning_rate': 2.639972824933124e-05, 'epoch': 4.99}
 21%|██        | 16337/78504 [9:55:55<54:36:06,  3.16s/it] 21%|██        | 16338/78504 [9:55:57<50:25:01,  2.92s/it]                                                          {'loss': 0.0624, 'grad_norm': 0.3867572247982025, 'learning_rate': 2.63993036389113e-05, 'epoch': 4.99}
 21%|██        | 16338/78504 [9:55:57<50:25:01,  2.92s/it] 21%|██        | 16339/78504 [9:56:00<47:57:24,  2.78s/it]                                                          {'loss': 0.0728, 'grad_norm': 0.18130439519882202, 'learning_rate': 2.639887902849136e-05, 'epoch': 5.0}
 21%|██        | 16339/78504 [9:56:00<47:57:24,  2.78s/it] 21%|██        | 16340/78504 [9:56:02<45:31:01,  2.64s/it]                                                          {'loss': 0.0659, 'grad_norm': 0.2162308543920517, 'learning_rate': 2.639845441807142e-05, 'epoch': 5.0}
 21%|██        | 16340/78504 [9:56:02<45:31:01,  2.64s/it] 21%|██        | 16341/78504 [9:56:04<42:42:53,  2.47s/it]                                                          {'loss': 0.0412, 'grad_norm': 0.217263862490654, 'learning_rate': 2.639802980765148e-05, 'epoch': 5.0}
 21%|██        | 16341/78504 [9:56:04<42:42:53,  2.47s/it] 21%|██        | 16342/78504 [9:56:06<41:03:00,  2.38s/it]                                                          {'loss': 0.0932, 'grad_norm': 0.23642511665821075, 'learning_rate': 2.639760519723154e-05, 'epoch': 5.0}
 21%|██        | 16342/78504 [9:56:06<41:03:00,  2.38s/it] 21%|██        | 16343/78504 [9:56:08<38:45:58,  2.25s/it]                                                          {'loss': 0.0747, 'grad_norm': 0.30101045966148376, 'learning_rate': 2.6397180586811602e-05, 'epoch': 5.0}
 21%|██        | 16343/78504 [9:56:08<38:45:58,  2.25s/it] 21%|██        | 16344/78504 [9:56:10<37:21:46,  2.16s/it]                                                          {'loss': 0.0784, 'grad_norm': 0.6027377843856812, 'learning_rate': 2.639675597639166e-05, 'epoch': 5.0}
 21%|██        | 16344/78504 [9:56:10<37:21:46,  2.16s/it] 21%|██        | 16345/78504 [9:56:12<35:45:01,  2.07s/it]                                                          {'loss': 0.1213, 'grad_norm': 0.39730706810951233, 'learning_rate': 2.6396331365971723e-05, 'epoch': 5.0}
 21%|██        | 16345/78504 [9:56:12<35:45:01,  2.07s/it] 21%|██        | 16346/78504 [9:56:14<33:48:54,  1.96s/it]                                                          {'loss': 0.0958, 'grad_norm': 0.3758262097835541, 'learning_rate': 2.6395906755551782e-05, 'epoch': 5.0}
 21%|██        | 16346/78504 [9:56:14<33:48:54,  1.96s/it] 21%|██        | 16347/78504 [9:56:15<32:45:34,  1.90s/it]                                                          {'loss': 0.1643, 'grad_norm': 0.5462109446525574, 'learning_rate': 2.639548214513184e-05, 'epoch': 5.0}
 21%|██        | 16347/78504 [9:56:15<32:45:34,  1.90s/it] 21%|██        | 16348/78504 [9:56:17<30:31:48,  1.77s/it]                                                          {'loss': 0.1522, 'grad_norm': 0.8620638847351074, 'learning_rate': 2.6395057534711903e-05, 'epoch': 5.0}
 21%|██        | 16348/78504 [9:56:17<30:31:48,  1.77s/it] 21%|██        | 16349/78504 [9:56:18<28:42:06,  1.66s/it]                                                          {'loss': 0.1941, 'grad_norm': 0.9141589403152466, 'learning_rate': 2.639463292429196e-05, 'epoch': 5.0}
 21%|██        | 16349/78504 [9:56:18<28:42:06,  1.66s/it] 21%|██        | 16350/78504 [9:56:20<27:20:53,  1.58s/it]                                                          {'loss': 0.17, 'grad_norm': 0.5894749760627747, 'learning_rate': 2.6394208313872023e-05, 'epoch': 5.0}
 21%|██        | 16350/78504 [9:56:20<27:20:53,  1.58s/it] 21%|██        | 16351/78504 [9:56:21<25:21:39,  1.47s/it]                                                          {'loss': 0.1786, 'grad_norm': 0.5764205455780029, 'learning_rate': 2.6393783703452082e-05, 'epoch': 5.0}
 21%|██        | 16351/78504 [9:56:21<25:21:39,  1.47s/it] 21%|██        | 16352/78504 [9:56:22<23:16:27,  1.35s/it]                                                          {'loss': 0.1734, 'grad_norm': 1.5803017616271973, 'learning_rate': 2.6393359093032144e-05, 'epoch': 5.0}
 21%|██        | 16352/78504 [9:56:22<23:16:27,  1.35s/it] 21%|██        | 16353/78504 [9:56:23<21:22:30,  1.24s/it]                                                          {'loss': 0.2131, 'grad_norm': 0.8548043966293335, 'learning_rate': 2.6392934482612203e-05, 'epoch': 5.0}
 21%|██        | 16353/78504 [9:56:23<21:22:30,  1.24s/it] 21%|██        | 16354/78504 [9:56:24<19:26:58,  1.13s/it]                                                          {'loss': 0.182, 'grad_norm': 1.074985146522522, 'learning_rate': 2.6392509872192265e-05, 'epoch': 5.0}
 21%|██        | 16354/78504 [9:56:24<19:26:58,  1.13s/it] 21%|██        | 16355/78504 [9:56:37<83:14:17,  4.82s/it]                                                          {'loss': 0.1781, 'grad_norm': 0.9442436099052429, 'learning_rate': 2.6392085261772324e-05, 'epoch': 5.0}
 21%|██        | 16355/78504 [9:56:37<83:14:17,  4.82s/it] 21%|██        | 16356/78504 [9:57:04<199:04:30, 11.53s/it]                                                           {'loss': 0.1438, 'grad_norm': 0.42482396960258484, 'learning_rate': 2.6391660651352386e-05, 'epoch': 5.0}
 21%|██        | 16356/78504 [9:57:04<199:04:30, 11.53s/it] 21%|██        | 16357/78504 [9:57:07<154:21:48,  8.94s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.24956119060516357, 'learning_rate': 2.6391236040932444e-05, 'epoch': 5.0}
 21%|██        | 16357/78504 [9:57:07<154:21:48,  8.94s/it] 21%|██        | 16358/78504 [9:57:10<123:11:44,  7.14s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.3592005670070648, 'learning_rate': 2.6390811430512507e-05, 'epoch': 5.0}
 21%|██        | 16358/78504 [9:57:10<123:11:44,  7.14s/it] 21%|██        | 16359/78504 [9:57:13<99:32:09,  5.77s/it]                                                           {'loss': 0.052, 'grad_norm': 0.16821086406707764, 'learning_rate': 2.6390386820092565e-05, 'epoch': 5.0}
 21%|██        | 16359/78504 [9:57:13<99:32:09,  5.77s/it] 21%|██        | 16360/78504 [9:57:15<82:34:12,  4.78s/it]                                                          {'loss': 0.0527, 'grad_norm': 0.6343734860420227, 'learning_rate': 2.6389962209672624e-05, 'epoch': 5.0}
 21%|██        | 16360/78504 [9:57:15<82:34:12,  4.78s/it] 21%|██        | 16361/78504 [9:57:18<70:28:50,  4.08s/it]                                                          {'loss': 0.0516, 'grad_norm': 0.26062875986099243, 'learning_rate': 2.6389537599252686e-05, 'epoch': 5.0}
 21%|██        | 16361/78504 [9:57:18<70:28:50,  4.08s/it] 21%|██        | 16362/78504 [9:57:20<61:32:04,  3.56s/it]                                                          {'loss': 0.0638, 'grad_norm': 0.4094092547893524, 'learning_rate': 2.6389112988832745e-05, 'epoch': 5.0}
 21%|██        | 16362/78504 [9:57:20<61:32:04,  3.56s/it] 21%|██        | 16363/78504 [9:57:22<54:59:43,  3.19s/it]                                                          {'loss': 0.077, 'grad_norm': 0.3926723599433899, 'learning_rate': 2.6388688378412807e-05, 'epoch': 5.0}
 21%|██        | 16363/78504 [9:57:22<54:59:43,  3.19s/it] 21%|██        | 16364/78504 [9:57:25<49:51:44,  2.89s/it]                                                          {'loss': 0.058, 'grad_norm': 0.21153947710990906, 'learning_rate': 2.6388263767992866e-05, 'epoch': 5.0}
 21%|██        | 16364/78504 [9:57:25<49:51:44,  2.89s/it] 21%|██        | 16365/78504 [9:57:27<46:00:38,  2.67s/it]                                                          {'loss': 0.063, 'grad_norm': 0.21605686843395233, 'learning_rate': 2.6387839157572928e-05, 'epoch': 5.0}
 21%|██        | 16365/78504 [9:57:27<46:00:38,  2.67s/it] 21%|██        | 16366/78504 [9:57:29<42:14:00,  2.45s/it]                                                          {'loss': 0.0647, 'grad_norm': 0.4699592590332031, 'learning_rate': 2.6387414547152986e-05, 'epoch': 5.0}
 21%|██        | 16366/78504 [9:57:29<42:14:00,  2.45s/it] 21%|██        | 16367/78504 [9:57:31<39:48:07,  2.31s/it]                                                          {'loss': 0.0949, 'grad_norm': 0.37986406683921814, 'learning_rate': 2.638698993673305e-05, 'epoch': 5.0}
 21%|██        | 16367/78504 [9:57:31<39:48:07,  2.31s/it] 21%|██        | 16368/78504 [9:57:32<37:47:31,  2.19s/it]                                                          {'loss': 0.0898, 'grad_norm': 0.3874395191669464, 'learning_rate': 2.6386565326313107e-05, 'epoch': 5.0}
 21%|██        | 16368/78504 [9:57:32<37:47:31,  2.19s/it] 21%|██        | 16369/78504 [9:57:34<36:05:33,  2.09s/it]                                                          {'loss': 0.1122, 'grad_norm': 0.9580787420272827, 'learning_rate': 2.638614071589317e-05, 'epoch': 5.0}
 21%|██        | 16369/78504 [9:57:34<36:05:33,  2.09s/it] 21%|██        | 16370/78504 [9:57:36<34:26:13,  2.00s/it]                                                          {'loss': 0.1061, 'grad_norm': 2.766045570373535, 'learning_rate': 2.6385716105473228e-05, 'epoch': 5.0}
 21%|██        | 16370/78504 [9:57:36<34:26:13,  2.00s/it] 21%|██        | 16371/78504 [9:57:38<32:20:07,  1.87s/it]                                                          {'loss': 0.105, 'grad_norm': 1.0749144554138184, 'learning_rate': 2.638529149505329e-05, 'epoch': 5.0}
 21%|██        | 16371/78504 [9:57:38<32:20:07,  1.87s/it] 21%|██        | 16372/78504 [9:57:39<31:11:55,  1.81s/it]                                                          {'loss': 0.1804, 'grad_norm': 1.3288666009902954, 'learning_rate': 2.638486688463335e-05, 'epoch': 5.01}
 21%|██        | 16372/78504 [9:57:39<31:11:55,  1.81s/it] 21%|██        | 16373/78504 [9:57:41<29:38:53,  1.72s/it]                                                          {'loss': 0.1484, 'grad_norm': 0.7543281316757202, 'learning_rate': 2.6384442274213407e-05, 'epoch': 5.01}
 21%|██        | 16373/78504 [9:57:41<29:38:53,  1.72s/it] 21%|██        | 16374/78504 [9:57:42<28:05:00,  1.63s/it]                                                          {'loss': 0.1519, 'grad_norm': 0.681703507900238, 'learning_rate': 2.638401766379347e-05, 'epoch': 5.01}
 21%|██        | 16374/78504 [9:57:42<28:05:00,  1.63s/it] 21%|██        | 16375/78504 [9:57:44<26:18:54,  1.52s/it]                                                          {'loss': 0.1781, 'grad_norm': 0.9294992685317993, 'learning_rate': 2.6383593053373528e-05, 'epoch': 5.01}
 21%|██        | 16375/78504 [9:57:44<26:18:54,  1.52s/it] 21%|██        | 16376/78504 [9:57:45<24:25:20,  1.42s/it]                                                          {'loss': 0.1619, 'grad_norm': 0.8403221964836121, 'learning_rate': 2.638316844295359e-05, 'epoch': 5.01}
 21%|██        | 16376/78504 [9:57:45<24:25:20,  1.42s/it] 21%|██        | 16377/78504 [9:57:46<22:45:19,  1.32s/it]                                                          {'loss': 0.1985, 'grad_norm': 1.628466010093689, 'learning_rate': 2.638274383253365e-05, 'epoch': 5.01}
 21%|██        | 16377/78504 [9:57:46<22:45:19,  1.32s/it] 21%|██        | 16378/78504 [9:57:47<21:22:25,  1.24s/it]                                                          {'loss': 0.2107, 'grad_norm': 2.1636393070220947, 'learning_rate': 2.638231922211371e-05, 'epoch': 5.01}
 21%|██        | 16378/78504 [9:57:47<21:22:25,  1.24s/it] 21%|██        | 16379/78504 [9:57:48<19:48:02,  1.15s/it]                                                          {'loss': 0.2128, 'grad_norm': 9.486687660217285, 'learning_rate': 2.638189461169377e-05, 'epoch': 5.01}
 21%|██        | 16379/78504 [9:57:48<19:48:02,  1.15s/it] 21%|██        | 16380/78504 [9:57:49<17:55:39,  1.04s/it]                                                          {'loss': 0.29, 'grad_norm': 3.6045351028442383, 'learning_rate': 2.6381470001273832e-05, 'epoch': 5.01}
 21%|██        | 16380/78504 [9:57:49<17:55:39,  1.04s/it] 21%|██        | 16381/78504 [9:57:57<55:41:14,  3.23s/it]                                                          {'loss': 0.1125, 'grad_norm': 0.5125231146812439, 'learning_rate': 2.638104539085389e-05, 'epoch': 5.01}
 21%|██        | 16381/78504 [9:57:57<55:41:14,  3.23s/it] 21%|██        | 16382/78504 [9:58:00<55:51:52,  3.24s/it]                                                          {'loss': 0.0709, 'grad_norm': 0.3328703045845032, 'learning_rate': 2.6380620780433953e-05, 'epoch': 5.01}
 21%|██        | 16382/78504 [9:58:00<55:51:52,  3.24s/it] 21%|██        | 16383/78504 [9:58:03<53:08:25,  3.08s/it]                                                          {'loss': 0.091, 'grad_norm': 0.27682390809059143, 'learning_rate': 2.638019617001401e-05, 'epoch': 5.01}
 21%|██        | 16383/78504 [9:58:03<53:08:25,  3.08s/it] 21%|██        | 16384/78504 [9:58:05<50:36:18,  2.93s/it]                                                          {'loss': 0.0616, 'grad_norm': 0.18005388975143433, 'learning_rate': 2.6379771559594073e-05, 'epoch': 5.01}
 21%|██        | 16384/78504 [9:58:06<50:36:18,  2.93s/it] 21%|██        | 16385/78504 [9:58:08<48:16:54,  2.80s/it]                                                          {'loss': 0.0544, 'grad_norm': 0.3831649124622345, 'learning_rate': 2.6379346949174132e-05, 'epoch': 5.01}
 21%|██        | 16385/78504 [9:58:08<48:16:54,  2.80s/it] 21%|██        | 16386/78504 [9:58:10<45:30:48,  2.64s/it]                                                          {'loss': 0.0643, 'grad_norm': 0.44338300824165344, 'learning_rate': 2.637892233875419e-05, 'epoch': 5.01}
 21%|██        | 16386/78504 [9:58:10<45:30:48,  2.64s/it] 21%|██        | 16387/78504 [9:58:13<43:51:32,  2.54s/it]                                                          {'loss': 0.057, 'grad_norm': 0.46192222833633423, 'learning_rate': 2.6378497728334253e-05, 'epoch': 5.01}
 21%|██        | 16387/78504 [9:58:13<43:51:32,  2.54s/it] 21%|██        | 16388/78504 [9:58:15<41:33:10,  2.41s/it]                                                          {'loss': 0.0413, 'grad_norm': 0.1747373342514038, 'learning_rate': 2.637807311791431e-05, 'epoch': 5.01}
 21%|██        | 16388/78504 [9:58:15<41:33:10,  2.41s/it] 21%|██        | 16389/78504 [9:58:17<39:38:30,  2.30s/it]                                                          {'loss': 0.0996, 'grad_norm': 0.39670756459236145, 'learning_rate': 2.6377648507494374e-05, 'epoch': 5.01}
 21%|██        | 16389/78504 [9:58:17<39:38:30,  2.30s/it] 21%|██        | 16390/78504 [9:58:19<38:47:04,  2.25s/it]                                                          {'loss': 0.0601, 'grad_norm': 0.6066391468048096, 'learning_rate': 2.6377223897074432e-05, 'epoch': 5.01}
 21%|██        | 16390/78504 [9:58:19<38:47:04,  2.25s/it] 21%|██        | 16391/78504 [9:58:21<37:38:32,  2.18s/it]                                                          {'loss': 0.09, 'grad_norm': 0.34010249376296997, 'learning_rate': 2.6376799286654495e-05, 'epoch': 5.01}
 21%|██        | 16391/78504 [9:58:21<37:38:32,  2.18s/it] 21%|██        | 16392/78504 [9:58:23<36:36:26,  2.12s/it]                                                          {'loss': 0.0831, 'grad_norm': 0.3338136374950409, 'learning_rate': 2.6376374676234553e-05, 'epoch': 5.01}
 21%|██        | 16392/78504 [9:58:23<36:36:26,  2.12s/it] 21%|██        | 16393/78504 [9:58:25<35:15:31,  2.04s/it]                                                          {'loss': 0.1032, 'grad_norm': 0.48321253061294556, 'learning_rate': 2.6375950065814615e-05, 'epoch': 5.01}
 21%|██        | 16393/78504 [9:58:25<35:15:31,  2.04s/it] 21%|██        | 16394/78504 [9:58:26<33:37:51,  1.95s/it]                                                          {'loss': 0.1049, 'grad_norm': 0.6926617622375488, 'learning_rate': 2.6375525455394674e-05, 'epoch': 5.01}
 21%|██        | 16394/78504 [9:58:26<33:37:51,  1.95s/it] 21%|██        | 16395/78504 [9:58:28<32:40:47,  1.89s/it]                                                          {'loss': 0.1151, 'grad_norm': 0.470794141292572, 'learning_rate': 2.6375100844974736e-05, 'epoch': 5.01}
 21%|██        | 16395/78504 [9:58:28<32:40:47,  1.89s/it] 21%|██        | 16396/78504 [9:58:30<31:21:02,  1.82s/it]                                                          {'loss': 0.1347, 'grad_norm': 1.6989997625350952, 'learning_rate': 2.6374676234554798e-05, 'epoch': 5.01}
 21%|██        | 16396/78504 [9:58:30<31:21:02,  1.82s/it] 21%|██        | 16397/78504 [9:58:31<29:51:34,  1.73s/it]                                                          {'loss': 0.1389, 'grad_norm': 0.45471885800361633, 'learning_rate': 2.637425162413486e-05, 'epoch': 5.01}
 21%|██        | 16397/78504 [9:58:31<29:51:34,  1.73s/it] 21%|██        | 16398/78504 [9:58:33<28:17:54,  1.64s/it]                                                          {'loss': 0.1661, 'grad_norm': 5.163754463195801, 'learning_rate': 2.637382701371492e-05, 'epoch': 5.01}
 21%|██        | 16398/78504 [9:58:33<28:17:54,  1.64s/it] 21%|██        | 16399/78504 [9:58:34<27:06:44,  1.57s/it]                                                          {'loss': 0.1363, 'grad_norm': 0.413546085357666, 'learning_rate': 2.6373402403294978e-05, 'epoch': 5.01}
 21%|██        | 16399/78504 [9:58:34<27:06:44,  1.57s/it] 21%|██        | 16400/78504 [9:58:35<25:16:40,  1.47s/it]                                                          {'loss': 0.1806, 'grad_norm': 1.2378861904144287, 'learning_rate': 2.637297779287504e-05, 'epoch': 5.01}
 21%|██        | 16400/78504 [9:58:35<25:16:40,  1.47s/it] 21%|██        | 16401/78504 [9:58:37<23:30:59,  1.36s/it]                                                          {'loss': 0.1767, 'grad_norm': 0.8649237751960754, 'learning_rate': 2.63725531824551e-05, 'epoch': 5.01}
 21%|██        | 16401/78504 [9:58:37<23:30:59,  1.36s/it] 21%|██        | 16402/78504 [9:58:38<22:07:22,  1.28s/it]                                                          {'loss': 0.1498, 'grad_norm': 0.569861650466919, 'learning_rate': 2.637212857203516e-05, 'epoch': 5.01}
 21%|██        | 16402/78504 [9:58:38<22:07:22,  1.28s/it] 21%|██        | 16403/78504 [9:58:39<20:58:16,  1.22s/it]                                                          {'loss': 0.1864, 'grad_norm': 1.0313724279403687, 'learning_rate': 2.637170396161522e-05, 'epoch': 5.01}
 21%|██        | 16403/78504 [9:58:39<20:58:16,  1.22s/it] 21%|██        | 16404/78504 [9:58:40<19:32:58,  1.13s/it]                                                          {'loss': 0.2091, 'grad_norm': 1.3856236934661865, 'learning_rate': 2.637127935119528e-05, 'epoch': 5.01}
 21%|██        | 16404/78504 [9:58:40<19:32:58,  1.13s/it] 21%|██        | 16405/78504 [9:58:40<17:41:54,  1.03s/it]                                                          {'loss': 0.2442, 'grad_norm': 2.8013575077056885, 'learning_rate': 2.637085474077534e-05, 'epoch': 5.02}
 21%|██        | 16405/78504 [9:58:40<17:41:54,  1.03s/it] 21%|██        | 16406/78504 [9:58:49<55:08:32,  3.20s/it]                                                          {'loss': 0.1567, 'grad_norm': 0.42359548807144165, 'learning_rate': 2.6370430130355402e-05, 'epoch': 5.02}
 21%|██        | 16406/78504 [9:58:49<55:08:32,  3.20s/it] 21%|██        | 16407/78504 [9:58:52<56:21:30,  3.27s/it]                                                          {'loss': 0.0914, 'grad_norm': 0.38081085681915283, 'learning_rate': 2.637000551993546e-05, 'epoch': 5.02}
 21%|██        | 16407/78504 [9:58:52<56:21:30,  3.27s/it] 21%|██        | 16408/78504 [9:58:55<54:34:57,  3.16s/it]                                                          {'loss': 0.0506, 'grad_norm': 0.15456263720989227, 'learning_rate': 2.6369580909515523e-05, 'epoch': 5.02}
 21%|██        | 16408/78504 [9:58:55<54:34:57,  3.16s/it] 21%|██        | 16409/78504 [9:58:58<51:32:17,  2.99s/it]                                                          {'loss': 0.052, 'grad_norm': 0.21941013634204865, 'learning_rate': 2.636915629909558e-05, 'epoch': 5.02}
 21%|██        | 16409/78504 [9:58:58<51:32:17,  2.99s/it] 21%|██        | 16410/78504 [9:59:00<48:53:53,  2.83s/it]                                                          {'loss': 0.0745, 'grad_norm': 0.2602652311325073, 'learning_rate': 2.636873168867564e-05, 'epoch': 5.02}
 21%|██        | 16410/78504 [9:59:00<48:53:53,  2.83s/it] 21%|██        | 16411/78504 [9:59:03<46:47:35,  2.71s/it]                                                          {'loss': 0.0794, 'grad_norm': 0.6747981309890747, 'learning_rate': 2.6368307078255702e-05, 'epoch': 5.02}
 21%|██        | 16411/78504 [9:59:03<46:47:35,  2.71s/it] 21%|██        | 16412/78504 [9:59:05<44:44:28,  2.59s/it]                                                          {'loss': 0.042, 'grad_norm': 0.5002877712249756, 'learning_rate': 2.636788246783576e-05, 'epoch': 5.02}
 21%|██        | 16412/78504 [9:59:05<44:44:28,  2.59s/it] 21%|██        | 16413/78504 [9:59:07<43:00:40,  2.49s/it]                                                          {'loss': 0.0587, 'grad_norm': 0.48290205001831055, 'learning_rate': 2.6367457857415823e-05, 'epoch': 5.02}
 21%|██        | 16413/78504 [9:59:07<43:00:40,  2.49s/it] 21%|██        | 16414/78504 [9:59:09<41:25:15,  2.40s/it]                                                          {'loss': 0.0532, 'grad_norm': 0.2638358771800995, 'learning_rate': 2.6367033246995882e-05, 'epoch': 5.02}
 21%|██        | 16414/78504 [9:59:09<41:25:15,  2.40s/it] 21%|██        | 16415/78504 [9:59:11<40:11:27,  2.33s/it]                                                          {'loss': 0.0757, 'grad_norm': 0.3338315784931183, 'learning_rate': 2.6366608636575944e-05, 'epoch': 5.02}
 21%|██        | 16415/78504 [9:59:11<40:11:27,  2.33s/it] 21%|██        | 16416/78504 [9:59:13<37:43:38,  2.19s/it]                                                          {'loss': 0.087, 'grad_norm': 0.3567098379135132, 'learning_rate': 2.6366184026156003e-05, 'epoch': 5.02}
 21%|██        | 16416/78504 [9:59:13<37:43:38,  2.19s/it] 21%|██        | 16417/78504 [9:59:15<36:40:21,  2.13s/it]                                                          {'loss': 0.0978, 'grad_norm': 0.7122564315795898, 'learning_rate': 2.6365759415736065e-05, 'epoch': 5.02}
 21%|██        | 16417/78504 [9:59:15<36:40:21,  2.13s/it] 21%|██        | 16418/78504 [9:59:17<35:20:00,  2.05s/it]                                                          {'loss': 0.0646, 'grad_norm': 0.5069395899772644, 'learning_rate': 2.6365334805316123e-05, 'epoch': 5.02}
 21%|██        | 16418/78504 [9:59:17<35:20:00,  2.05s/it] 21%|██        | 16419/78504 [9:59:19<34:23:57,  1.99s/it]                                                          {'loss': 0.1508, 'grad_norm': 1.05270516872406, 'learning_rate': 2.6364910194896186e-05, 'epoch': 5.02}
 21%|██        | 16419/78504 [9:59:19<34:23:57,  1.99s/it] 21%|██        | 16420/78504 [9:59:21<33:12:12,  1.93s/it]                                                          {'loss': 0.1278, 'grad_norm': 0.8133147358894348, 'learning_rate': 2.6364485584476244e-05, 'epoch': 5.02}
 21%|██        | 16420/78504 [9:59:21<33:12:12,  1.93s/it] 21%|██        | 16421/78504 [9:59:22<31:47:44,  1.84s/it]                                                          {'loss': 0.1061, 'grad_norm': 0.42177754640579224, 'learning_rate': 2.6364060974056306e-05, 'epoch': 5.02}
 21%|██        | 16421/78504 [9:59:22<31:47:44,  1.84s/it] 21%|██        | 16422/78504 [9:59:24<30:07:05,  1.75s/it]                                                          {'loss': 0.1244, 'grad_norm': 1.212404727935791, 'learning_rate': 2.6363636363636365e-05, 'epoch': 5.02}
 21%|██        | 16422/78504 [9:59:24<30:07:05,  1.75s/it] 21%|██        | 16423/78504 [9:59:25<28:26:33,  1.65s/it]                                                          {'loss': 0.1439, 'grad_norm': 0.5405663847923279, 'learning_rate': 2.6363211753216424e-05, 'epoch': 5.02}
 21%|██        | 16423/78504 [9:59:25<28:26:33,  1.65s/it] 21%|██        | 16424/78504 [9:59:27<27:12:03,  1.58s/it]                                                          {'loss': 0.1975, 'grad_norm': 0.6593935489654541, 'learning_rate': 2.6362787142796486e-05, 'epoch': 5.02}
 21%|██        | 16424/78504 [9:59:27<27:12:03,  1.58s/it] 21%|██        | 16425/78504 [9:59:28<25:22:04,  1.47s/it]                                                          {'loss': 0.1886, 'grad_norm': 0.9098764657974243, 'learning_rate': 2.6362362532376545e-05, 'epoch': 5.02}
 21%|██        | 16425/78504 [9:59:28<25:22:04,  1.47s/it] 21%|██        | 16426/78504 [9:59:29<23:43:51,  1.38s/it]                                                          {'loss': 0.1528, 'grad_norm': 0.8823050856590271, 'learning_rate': 2.6361937921956607e-05, 'epoch': 5.02}
 21%|██        | 16426/78504 [9:59:29<23:43:51,  1.38s/it] 21%|██        | 16427/78504 [9:59:30<22:21:32,  1.30s/it]                                                          {'loss': 0.1746, 'grad_norm': 0.6045442223548889, 'learning_rate': 2.6361513311536665e-05, 'epoch': 5.02}
 21%|██        | 16427/78504 [9:59:30<22:21:32,  1.30s/it] 21%|██        | 16428/78504 [9:59:31<20:48:55,  1.21s/it]                                                          {'loss': 0.2089, 'grad_norm': 1.0305438041687012, 'learning_rate': 2.6361088701116727e-05, 'epoch': 5.02}
 21%|██        | 16428/78504 [9:59:31<20:48:55,  1.21s/it] 21%|██        | 16429/78504 [9:59:32<19:22:43,  1.12s/it]                                                          {'loss': 0.2358, 'grad_norm': 1.243304967880249, 'learning_rate': 2.6360664090696786e-05, 'epoch': 5.02}
 21%|██        | 16429/78504 [9:59:32<19:22:43,  1.12s/it] 21%|██        | 16430/78504 [9:59:33<17:37:49,  1.02s/it]                                                          {'loss': 0.2472, 'grad_norm': 1.1350843906402588, 'learning_rate': 2.6360239480276848e-05, 'epoch': 5.02}
 21%|██        | 16430/78504 [9:59:33<17:37:49,  1.02s/it] 21%|██        | 16431/78504 [9:59:41<53:51:41,  3.12s/it]                                                          {'loss': 0.1368, 'grad_norm': 0.3201141059398651, 'learning_rate': 2.6359814869856907e-05, 'epoch': 5.02}
 21%|██        | 16431/78504 [9:59:41<53:51:41,  3.12s/it] 21%|██        | 16432/78504 [9:59:44<55:05:08,  3.19s/it]                                                          {'loss': 0.0957, 'grad_norm': 0.25508689880371094, 'learning_rate': 2.635939025943697e-05, 'epoch': 5.02}
 21%|██        | 16432/78504 [9:59:44<55:05:08,  3.19s/it] 21%|██        | 16433/78504 [9:59:47<54:07:22,  3.14s/it]                                                          {'loss': 0.0764, 'grad_norm': 0.45394209027290344, 'learning_rate': 2.6358965649017028e-05, 'epoch': 5.02}
 21%|██        | 16433/78504 [9:59:47<54:07:22,  3.14s/it] 21%|██        | 16434/78504 [9:59:50<51:25:55,  2.98s/it]                                                          {'loss': 0.0566, 'grad_norm': 0.3409861922264099, 'learning_rate': 2.635854103859709e-05, 'epoch': 5.02}
 21%|██        | 16434/78504 [9:59:50<51:25:55,  2.98s/it] 21%|██        | 16435/78504 [9:59:52<48:08:45,  2.79s/it]                                                          {'loss': 0.0645, 'grad_norm': 0.8333185315132141, 'learning_rate': 2.635811642817715e-05, 'epoch': 5.02}
 21%|██        | 16435/78504 [9:59:52<48:08:45,  2.79s/it] 21%|██        | 16436/78504 [9:59:55<45:23:47,  2.63s/it]                                                          {'loss': 0.0636, 'grad_norm': 0.5052927136421204, 'learning_rate': 2.6357691817757207e-05, 'epoch': 5.02}
 21%|██        | 16436/78504 [9:59:55<45:23:47,  2.63s/it] 21%|██        | 16437/78504 [9:59:57<43:47:07,  2.54s/it]                                                          {'loss': 0.0422, 'grad_norm': 0.19980919361114502, 'learning_rate': 2.635726720733727e-05, 'epoch': 5.03}
 21%|██        | 16437/78504 [9:59:57<43:47:07,  2.54s/it] 21%|██        | 16438/78504 [9:59:59<41:28:11,  2.41s/it]                                                          {'loss': 0.0663, 'grad_norm': 1.9356482028961182, 'learning_rate': 2.6356842596917328e-05, 'epoch': 5.03}
 21%|██        | 16438/78504 [9:59:59<41:28:11,  2.41s/it] 21%|██        | 16439/78504 [10:00:01<39:31:22,  2.29s/it]                                                           {'loss': 0.1207, 'grad_norm': 0.2559940814971924, 'learning_rate': 2.635641798649739e-05, 'epoch': 5.03}
 21%|██        | 16439/78504 [10:00:01<39:31:22,  2.29s/it] 21%|██        | 16440/78504 [10:00:03<38:41:34,  2.24s/it]                                                           {'loss': 0.0714, 'grad_norm': 0.3152120113372803, 'learning_rate': 2.635599337607745e-05, 'epoch': 5.03}
 21%|██        | 16440/78504 [10:00:03<38:41:34,  2.24s/it] 21%|██        | 16441/78504 [10:00:05<37:23:11,  2.17s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.29199615120887756, 'learning_rate': 2.635556876565751e-05, 'epoch': 5.03}
 21%|██        | 16441/78504 [10:00:05<37:23:11,  2.17s/it] 21%|██        | 16442/78504 [10:00:07<36:07:19,  2.10s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.40492990612983704, 'learning_rate': 2.635514415523757e-05, 'epoch': 5.03}
 21%|██        | 16442/78504 [10:00:07<36:07:19,  2.10s/it] 21%|██        | 16443/78504 [10:00:09<35:02:32,  2.03s/it]                                                           {'loss': 0.0696, 'grad_norm': 1.2099952697753906, 'learning_rate': 2.635471954481763e-05, 'epoch': 5.03}
 21%|██        | 16443/78504 [10:00:09<35:02:32,  2.03s/it] 21%|██        | 16444/78504 [10:00:11<33:11:56,  1.93s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.7454831600189209, 'learning_rate': 2.635429493439769e-05, 'epoch': 5.03}
 21%|██        | 16444/78504 [10:00:11<33:11:56,  1.93s/it] 21%|██        | 16445/78504 [10:00:12<32:24:25,  1.88s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.42999815940856934, 'learning_rate': 2.6353870323977752e-05, 'epoch': 5.03}
 21%|██        | 16445/78504 [10:00:12<32:24:25,  1.88s/it] 21%|██        | 16446/78504 [10:00:14<30:42:15,  1.78s/it]                                                           {'loss': 0.1272, 'grad_norm': 0.4738295078277588, 'learning_rate': 2.635344571355781e-05, 'epoch': 5.03}
 21%|██        | 16446/78504 [10:00:14<30:42:15,  1.78s/it] 21%|██        | 16447/78504 [10:00:16<29:22:22,  1.70s/it]                                                           {'loss': 0.1326, 'grad_norm': 0.44073686003685, 'learning_rate': 2.6353021103137873e-05, 'epoch': 5.03}
 21%|██        | 16447/78504 [10:00:16<29:22:22,  1.70s/it] 21%|██        | 16448/78504 [10:00:17<28:12:30,  1.64s/it]                                                           {'loss': 0.2273, 'grad_norm': 1.631782054901123, 'learning_rate': 2.6352596492717932e-05, 'epoch': 5.03}
 21%|██        | 16448/78504 [10:00:17<28:12:30,  1.64s/it] 21%|██        | 16449/78504 [10:00:18<27:04:28,  1.57s/it]                                                           {'loss': 0.1704, 'grad_norm': 1.068873405456543, 'learning_rate': 2.635217188229799e-05, 'epoch': 5.03}
 21%|██        | 16449/78504 [10:00:18<27:04:28,  1.57s/it] 21%|██        | 16450/78504 [10:00:20<25:16:15,  1.47s/it]                                                           {'loss': 0.1853, 'grad_norm': 0.7504650950431824, 'learning_rate': 2.6351747271878053e-05, 'epoch': 5.03}
 21%|██        | 16450/78504 [10:00:20<25:16:15,  1.47s/it] 21%|██        | 16451/78504 [10:00:21<23:33:04,  1.37s/it]                                                           {'loss': 0.1594, 'grad_norm': 1.8907215595245361, 'learning_rate': 2.635132266145811e-05, 'epoch': 5.03}
 21%|██        | 16451/78504 [10:00:21<23:33:04,  1.37s/it] 21%|██        | 16452/78504 [10:00:22<22:11:16,  1.29s/it]                                                           {'loss': 0.1931, 'grad_norm': 1.1632335186004639, 'learning_rate': 2.6350898051038173e-05, 'epoch': 5.03}
 21%|██        | 16452/78504 [10:00:22<22:11:16,  1.29s/it] 21%|██        | 16453/78504 [10:00:23<20:40:31,  1.20s/it]                                                           {'loss': 0.1944, 'grad_norm': 0.8527543544769287, 'learning_rate': 2.6350473440618232e-05, 'epoch': 5.03}
 21%|██        | 16453/78504 [10:00:23<20:40:31,  1.20s/it] 21%|██        | 16454/78504 [10:00:24<19:19:19,  1.12s/it]                                                           {'loss': 0.2188, 'grad_norm': 0.9776577949523926, 'learning_rate': 2.6350048830198294e-05, 'epoch': 5.03}
 21%|██        | 16454/78504 [10:00:24<19:19:19,  1.12s/it] 21%|██        | 16455/78504 [10:00:25<17:33:22,  1.02s/it]                                                           {'loss': 0.2111, 'grad_norm': 2.2156805992126465, 'learning_rate': 2.6349624219778353e-05, 'epoch': 5.03}
 21%|██        | 16455/78504 [10:00:25<17:33:22,  1.02s/it] 21%|██        | 16456/78504 [10:00:33<55:41:01,  3.23s/it]                                                           {'loss': 0.137, 'grad_norm': 0.2732706069946289, 'learning_rate': 2.6349199609358415e-05, 'epoch': 5.03}
 21%|██        | 16456/78504 [10:00:33<55:41:01,  3.23s/it] 21%|██        | 16457/78504 [10:00:36<56:22:33,  3.27s/it]                                                           {'loss': 0.0971, 'grad_norm': 0.2298620194196701, 'learning_rate': 2.6348774998938474e-05, 'epoch': 5.03}
 21%|██        | 16457/78504 [10:00:36<56:22:33,  3.27s/it] 21%|██        | 16458/78504 [10:00:39<54:34:10,  3.17s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.21198643743991852, 'learning_rate': 2.6348350388518536e-05, 'epoch': 5.03}
 21%|██        | 16458/78504 [10:00:39<54:34:10,  3.17s/it] 21%|██        | 16459/78504 [10:00:42<51:42:58,  3.00s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.29682883620262146, 'learning_rate': 2.6347925778098595e-05, 'epoch': 5.03}
 21%|██        | 16459/78504 [10:00:42<51:42:58,  3.00s/it] 21%|██        | 16460/78504 [10:00:44<48:58:25,  2.84s/it]                                                           {'loss': 0.0611, 'grad_norm': 0.21364730596542358, 'learning_rate': 2.6347501167678657e-05, 'epoch': 5.03}
 21%|██        | 16460/78504 [10:00:44<48:58:25,  2.84s/it] 21%|██        | 16461/78504 [10:00:47<46:50:24,  2.72s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.1879059225320816, 'learning_rate': 2.6347076557258715e-05, 'epoch': 5.03}
 21%|██        | 16461/78504 [10:00:47<46:50:24,  2.72s/it] 21%|██        | 16462/78504 [10:00:49<44:45:56,  2.60s/it]                                                           {'loss': 0.068, 'grad_norm': 0.4084801971912384, 'learning_rate': 2.6346651946838774e-05, 'epoch': 5.03}
 21%|██        | 16462/78504 [10:00:49<44:45:56,  2.60s/it] 21%|██        | 16463/78504 [10:00:51<43:16:43,  2.51s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.2681211829185486, 'learning_rate': 2.6346227336418836e-05, 'epoch': 5.03}
 21%|██        | 16463/78504 [10:00:51<43:16:43,  2.51s/it] 21%|██        | 16464/78504 [10:00:54<41:34:18,  2.41s/it]                                                           {'loss': 0.0832, 'grad_norm': 0.43063393235206604, 'learning_rate': 2.6345802725998895e-05, 'epoch': 5.03}
 21%|██        | 16464/78504 [10:00:54<41:34:18,  2.41s/it] 21%|██        | 16465/78504 [10:00:56<40:11:16,  2.33s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.28433653712272644, 'learning_rate': 2.6345378115578957e-05, 'epoch': 5.03}
 21%|██        | 16465/78504 [10:00:56<40:11:16,  2.33s/it] 21%|██        | 16466/78504 [10:00:58<38:37:58,  2.24s/it]                                                           {'loss': 0.1049, 'grad_norm': 0.3584614098072052, 'learning_rate': 2.6344953505159016e-05, 'epoch': 5.03}
 21%|██        | 16466/78504 [10:00:58<38:37:58,  2.24s/it] 21%|██        | 16467/78504 [10:01:00<37:13:47,  2.16s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.2802443206310272, 'learning_rate': 2.6344528894739078e-05, 'epoch': 5.03}
 21%|██        | 16467/78504 [10:01:00<37:13:47,  2.16s/it] 21%|██        | 16468/78504 [10:01:02<35:48:07,  2.08s/it]                                                           {'loss': 0.098, 'grad_norm': 0.38705506920814514, 'learning_rate': 2.6344104284319136e-05, 'epoch': 5.03}
 21%|██        | 16468/78504 [10:01:02<35:48:07,  2.08s/it] 21%|██        | 16469/78504 [10:01:03<34:41:53,  2.01s/it]                                                           {'loss': 0.1073, 'grad_norm': 0.3334243893623352, 'learning_rate': 2.63436796738992e-05, 'epoch': 5.03}
 21%|██        | 16469/78504 [10:01:03<34:41:53,  2.01s/it] 21%|██        | 16470/78504 [10:01:05<33:25:00,  1.94s/it]                                                           {'loss': 0.1163, 'grad_norm': 1.146982192993164, 'learning_rate': 2.6343255063479257e-05, 'epoch': 5.04}
 21%|██        | 16470/78504 [10:01:05<33:25:00,  1.94s/it] 21%|██        | 16471/78504 [10:01:07<32:11:02,  1.87s/it]                                                           {'loss': 0.188, 'grad_norm': 0.3531021475791931, 'learning_rate': 2.634283045305932e-05, 'epoch': 5.04}
 21%|██        | 16471/78504 [10:01:07<32:11:02,  1.87s/it] 21%|██        | 16472/78504 [10:01:08<30:28:48,  1.77s/it]                                                           {'loss': 0.1238, 'grad_norm': 1.008013367652893, 'learning_rate': 2.6342405842639378e-05, 'epoch': 5.04}
 21%|██        | 16472/78504 [10:01:08<30:28:48,  1.77s/it] 21%|██        | 16473/78504 [10:01:10<28:55:35,  1.68s/it]                                                           {'loss': 0.1564, 'grad_norm': 0.4491884112358093, 'learning_rate': 2.634198123221944e-05, 'epoch': 5.04}
 21%|██        | 16473/78504 [10:01:10<28:55:35,  1.68s/it] 21%|██        | 16474/78504 [10:01:11<27:35:48,  1.60s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.7455951571464539, 'learning_rate': 2.63415566217995e-05, 'epoch': 5.04}
 21%|██        | 16474/78504 [10:01:11<27:35:48,  1.60s/it] 21%|██        | 16475/78504 [10:01:13<25:54:45,  1.50s/it]                                                           {'loss': 0.1642, 'grad_norm': 0.8117737770080566, 'learning_rate': 2.6341132011379557e-05, 'epoch': 5.04}
 21%|██        | 16475/78504 [10:01:13<25:54:45,  1.50s/it] 21%|██        | 16476/78504 [10:01:14<24:05:36,  1.40s/it]                                                           {'loss': 0.2181, 'grad_norm': 1.2864360809326172, 'learning_rate': 2.634070740095962e-05, 'epoch': 5.04}
 21%|██        | 16476/78504 [10:01:14<24:05:36,  1.40s/it] 21%|██        | 16477/78504 [10:01:15<22:30:38,  1.31s/it]                                                           {'loss': 0.1781, 'grad_norm': 1.1385220289230347, 'learning_rate': 2.6340282790539678e-05, 'epoch': 5.04}
 21%|██        | 16477/78504 [10:01:15<22:30:38,  1.31s/it] 21%|██        | 16478/78504 [10:01:16<21:12:07,  1.23s/it]                                                           {'loss': 0.1795, 'grad_norm': 0.668286919593811, 'learning_rate': 2.633985818011974e-05, 'epoch': 5.04}
 21%|██        | 16478/78504 [10:01:16<21:12:07,  1.23s/it] 21%|██        | 16479/78504 [10:01:17<19:38:54,  1.14s/it]                                                           {'loss': 0.1893, 'grad_norm': 1.1969107389450073, 'learning_rate': 2.63394335696998e-05, 'epoch': 5.04}
 21%|██        | 16479/78504 [10:01:17<19:38:54,  1.14s/it] 21%|██        | 16480/78504 [10:01:18<17:47:10,  1.03s/it]                                                           {'loss': 0.237, 'grad_norm': 1.2723103761672974, 'learning_rate': 2.633900895927986e-05, 'epoch': 5.04}
 21%|██        | 16480/78504 [10:01:18<17:47:10,  1.03s/it] 21%|██        | 16481/78504 [10:01:27<60:17:05,  3.50s/it]                                                           {'loss': 0.1275, 'grad_norm': 0.43112409114837646, 'learning_rate': 2.633858434885992e-05, 'epoch': 5.04}
 21%|██        | 16481/78504 [10:01:27<60:17:05,  3.50s/it] 21%|██        | 16482/78504 [10:01:30<59:31:30,  3.46s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.572668731212616, 'learning_rate': 2.6338159738439982e-05, 'epoch': 5.04}
 21%|██        | 16482/78504 [10:01:30<59:31:30,  3.46s/it] 21%|██        | 16483/78504 [10:01:33<56:45:31,  3.29s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.18148022890090942, 'learning_rate': 2.633773512802004e-05, 'epoch': 5.04}
 21%|██        | 16483/78504 [10:01:33<56:45:31,  3.29s/it] 21%|██        | 16484/78504 [10:01:36<52:15:32,  3.03s/it]                                                           {'loss': 0.0724, 'grad_norm': 0.3536089062690735, 'learning_rate': 2.6337310517600103e-05, 'epoch': 5.04}
 21%|██        | 16484/78504 [10:01:36<52:15:32,  3.03s/it] 21%|██        | 16485/78504 [10:01:38<49:20:24,  2.86s/it]                                                           {'loss': 0.067, 'grad_norm': 0.7198283076286316, 'learning_rate': 2.633688590718016e-05, 'epoch': 5.04}
 21%|██        | 16485/78504 [10:01:38<49:20:24,  2.86s/it] 21%|██        | 16486/78504 [10:01:40<46:16:52,  2.69s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.548953115940094, 'learning_rate': 2.6336461296760223e-05, 'epoch': 5.04}
 21%|██        | 16486/78504 [10:01:40<46:16:52,  2.69s/it] 21%|██        | 16487/78504 [10:01:43<44:21:43,  2.58s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.31466764211654663, 'learning_rate': 2.6336036686340282e-05, 'epoch': 5.04}
 21%|██        | 16487/78504 [10:01:43<44:21:43,  2.58s/it] 21%|██        | 16488/78504 [10:01:45<41:57:39,  2.44s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.18291887640953064, 'learning_rate': 2.633561207592034e-05, 'epoch': 5.04}
 21%|██        | 16488/78504 [10:01:45<41:57:39,  2.44s/it] 21%|██        | 16489/78504 [10:01:47<40:40:29,  2.36s/it]                                                           {'loss': 0.072, 'grad_norm': 0.22092896699905396, 'learning_rate': 2.6335187465500403e-05, 'epoch': 5.04}
 21%|██        | 16489/78504 [10:01:47<40:40:29,  2.36s/it] 21%|██        | 16490/78504 [10:01:49<39:32:04,  2.30s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.22431516647338867, 'learning_rate': 2.633476285508046e-05, 'epoch': 5.04}
 21%|██        | 16490/78504 [10:01:49<39:32:04,  2.30s/it] 21%|██        | 16491/78504 [10:01:51<38:09:58,  2.22s/it]                                                           {'loss': 0.1119, 'grad_norm': 0.3201832175254822, 'learning_rate': 2.6334338244660524e-05, 'epoch': 5.04}
 21%|██        | 16491/78504 [10:01:51<38:09:58,  2.22s/it] 21%|██        | 16492/78504 [10:01:53<36:56:55,  2.14s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.2613682746887207, 'learning_rate': 2.6333913634240582e-05, 'epoch': 5.04}
 21%|██        | 16492/78504 [10:01:53<36:56:55,  2.14s/it] 21%|██        | 16493/78504 [10:01:55<35:36:09,  2.07s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.9195640087127686, 'learning_rate': 2.6333489023820645e-05, 'epoch': 5.04}
 21%|██        | 16493/78504 [10:01:55<35:36:09,  2.07s/it] 21%|██        | 16494/78504 [10:01:57<34:37:34,  2.01s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.9079650044441223, 'learning_rate': 2.6333064413400703e-05, 'epoch': 5.04}
 21%|██        | 16494/78504 [10:01:57<34:37:34,  2.01s/it] 21%|██        | 16495/78504 [10:01:59<33:22:22,  1.94s/it]                                                           {'loss': 0.1182, 'grad_norm': 0.38544243574142456, 'learning_rate': 2.6332639802980765e-05, 'epoch': 5.04}
 21%|██        | 16495/78504 [10:01:59<33:22:22,  1.94s/it] 21%|██        | 16496/78504 [10:02:00<31:29:15,  1.83s/it]                                                           {'loss': 0.1202, 'grad_norm': 0.5742585062980652, 'learning_rate': 2.6332215192560824e-05, 'epoch': 5.04}
 21%|██        | 16496/78504 [10:02:00<31:29:15,  1.83s/it] 21%|██        | 16497/78504 [10:02:02<30:04:01,  1.75s/it]                                                           {'loss': 0.1281, 'grad_norm': 0.6690835356712341, 'learning_rate': 2.6331790582140886e-05, 'epoch': 5.04}
 21%|██        | 16497/78504 [10:02:02<30:04:01,  1.75s/it] 21%|██        | 16498/78504 [10:02:03<28:48:27,  1.67s/it]                                                           {'loss': 0.1454, 'grad_norm': 1.6776182651519775, 'learning_rate': 2.6331365971720948e-05, 'epoch': 5.04}
 21%|██        | 16498/78504 [10:02:03<28:48:27,  1.67s/it] 21%|██        | 16499/78504 [10:02:05<27:19:19,  1.59s/it]                                                           {'loss': 0.1618, 'grad_norm': 0.4953669309616089, 'learning_rate': 2.633094136130101e-05, 'epoch': 5.04}
 21%|██        | 16499/78504 [10:02:05<27:19:19,  1.59s/it] 21%|██        | 16500/78504 [10:02:06<25:45:17,  1.50s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.5306150317192078, 'learning_rate': 2.633051675088107e-05, 'epoch': 5.04}
 21%|██        | 16500/78504 [10:02:06<25:45:17,  1.50s/it] 21%|██        | 16501/78504 [10:02:07<23:59:26,  1.39s/it]                                                           {'loss': 0.1455, 'grad_norm': 0.8569665551185608, 'learning_rate': 2.6330092140461128e-05, 'epoch': 5.04}
 21%|██        | 16501/78504 [10:02:07<23:59:26,  1.39s/it] 21%|██        | 16502/78504 [10:02:08<22:28:23,  1.30s/it]                                                           {'loss': 0.171, 'grad_norm': 0.6530666351318359, 'learning_rate': 2.632966753004119e-05, 'epoch': 5.04}
 21%|██        | 16502/78504 [10:02:08<22:28:23,  1.30s/it] 21%|██        | 16503/78504 [10:02:09<21:08:32,  1.23s/it]                                                           {'loss': 0.1721, 'grad_norm': 1.070251226425171, 'learning_rate': 2.632924291962125e-05, 'epoch': 5.05}
 21%|██        | 16503/78504 [10:02:09<21:08:32,  1.23s/it] 21%|██        | 16504/78504 [10:02:10<19:34:32,  1.14s/it]                                                           {'loss': 0.2044, 'grad_norm': 0.9160354137420654, 'learning_rate': 2.632881830920131e-05, 'epoch': 5.05}
 21%|██        | 16504/78504 [10:02:10<19:34:32,  1.14s/it] 21%|██        | 16505/78504 [10:02:11<17:45:16,  1.03s/it]                                                           {'loss': 0.1813, 'grad_norm': 0.7550650835037231, 'learning_rate': 2.632839369878137e-05, 'epoch': 5.05}
 21%|██        | 16505/78504 [10:02:11<17:45:16,  1.03s/it] 21%|██        | 16506/78504 [10:02:21<62:19:07,  3.62s/it]                                                           {'loss': 0.1662, 'grad_norm': 0.6906359195709229, 'learning_rate': 2.632796908836143e-05, 'epoch': 5.05}
 21%|██        | 16506/78504 [10:02:21<62:19:07,  3.62s/it] 21%|██        | 16507/78504 [10:02:24<60:57:13,  3.54s/it]                                                           {'loss': 0.066, 'grad_norm': 0.23376408219337463, 'learning_rate': 2.632754447794149e-05, 'epoch': 5.05}
 21%|██        | 16507/78504 [10:02:24<60:57:13,  3.54s/it] 21%|██        | 16508/78504 [10:02:27<55:54:13,  3.25s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.29271459579467773, 'learning_rate': 2.6327119867521552e-05, 'epoch': 5.05}
 21%|██        | 16508/78504 [10:02:27<55:54:13,  3.25s/it] 21%|██        | 16509/78504 [10:02:29<52:25:26,  3.04s/it]                                                           {'loss': 0.049, 'grad_norm': 0.2838662564754486, 'learning_rate': 2.632669525710161e-05, 'epoch': 5.05}
 21%|██        | 16509/78504 [10:02:29<52:25:26,  3.04s/it] 21%|██        | 16510/78504 [10:02:32<49:33:15,  2.88s/it]                                                           {'loss': 0.0403, 'grad_norm': 0.16510547697544098, 'learning_rate': 2.6326270646681673e-05, 'epoch': 5.05}
 21%|██        | 16510/78504 [10:02:32<49:33:15,  2.88s/it] 21%|██        | 16511/78504 [10:02:34<47:20:27,  2.75s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.18805237114429474, 'learning_rate': 2.632584603626173e-05, 'epoch': 5.05}
 21%|██        | 16511/78504 [10:02:34<47:20:27,  2.75s/it] 21%|██        | 16512/78504 [10:02:36<45:07:51,  2.62s/it]                                                           {'loss': 0.0791, 'grad_norm': 0.42142656445503235, 'learning_rate': 2.6325421425841794e-05, 'epoch': 5.05}
 21%|██        | 16512/78504 [10:02:36<45:07:51,  2.62s/it] 21%|██        | 16513/78504 [10:02:39<43:28:19,  2.52s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.38538819551467896, 'learning_rate': 2.6324996815421852e-05, 'epoch': 5.05}
 21%|██        | 16513/78504 [10:02:39<43:28:19,  2.52s/it] 21%|██        | 16514/78504 [10:02:41<41:01:20,  2.38s/it]                                                           {'loss': 0.086, 'grad_norm': 0.25570645928382874, 'learning_rate': 2.632457220500191e-05, 'epoch': 5.05}
 21%|██        | 16514/78504 [10:02:41<41:01:20,  2.38s/it] 21%|██        | 16515/78504 [10:02:43<39:50:23,  2.31s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.39775827527046204, 'learning_rate': 2.6324147594581973e-05, 'epoch': 5.05}
 21%|██        | 16515/78504 [10:02:43<39:50:23,  2.31s/it] 21%|██        | 16516/78504 [10:02:45<37:32:39,  2.18s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.20755720138549805, 'learning_rate': 2.6323722984162032e-05, 'epoch': 5.05}
 21%|██        | 16516/78504 [10:02:45<37:32:39,  2.18s/it] 21%|██        | 16517/78504 [10:02:47<36:36:52,  2.13s/it]                                                           {'loss': 0.0889, 'grad_norm': 0.33923399448394775, 'learning_rate': 2.6323298373742094e-05, 'epoch': 5.05}
 21%|██        | 16517/78504 [10:02:47<36:36:52,  2.13s/it] 21%|██        | 16518/78504 [10:02:49<35:32:06,  2.06s/it]                                                           {'loss': 0.1007, 'grad_norm': 0.34698203206062317, 'learning_rate': 2.6322873763322153e-05, 'epoch': 5.05}
 21%|██        | 16518/78504 [10:02:49<35:32:06,  2.06s/it] 21%|██        | 16519/78504 [10:02:51<34:38:35,  2.01s/it]                                                           {'loss': 0.0999, 'grad_norm': 0.329685240983963, 'learning_rate': 2.6322449152902215e-05, 'epoch': 5.05}
 21%|██        | 16519/78504 [10:02:51<34:38:35,  2.01s/it] 21%|██        | 16520/78504 [10:02:52<33:24:38,  1.94s/it]                                                           {'loss': 0.125, 'grad_norm': 0.6554479598999023, 'learning_rate': 2.6322024542482273e-05, 'epoch': 5.05}
 21%|██        | 16520/78504 [10:02:52<33:24:38,  1.94s/it] 21%|██        | 16521/78504 [10:02:54<31:31:03,  1.83s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.9967379570007324, 'learning_rate': 2.6321599932062336e-05, 'epoch': 5.05}
 21%|██        | 16521/78504 [10:02:54<31:31:03,  1.83s/it] 21%|██        | 16522/78504 [10:02:55<30:01:33,  1.74s/it]                                                           {'loss': 0.1978, 'grad_norm': 1.0538371801376343, 'learning_rate': 2.6321175321642394e-05, 'epoch': 5.05}
 21%|██        | 16522/78504 [10:02:55<30:01:33,  1.74s/it] 21%|██        | 16523/78504 [10:02:57<28:51:06,  1.68s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.6198041439056396, 'learning_rate': 2.6320750711222456e-05, 'epoch': 5.05}
 21%|██        | 16523/78504 [10:02:57<28:51:06,  1.68s/it] 21%|██        | 16524/78504 [10:02:58<27:21:03,  1.59s/it]                                                           {'loss': 0.1685, 'grad_norm': 0.5469854474067688, 'learning_rate': 2.6320326100802515e-05, 'epoch': 5.05}
 21%|██        | 16524/78504 [10:02:58<27:21:03,  1.59s/it] 21%|██        | 16525/78504 [10:03:00<25:44:25,  1.50s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.43536946177482605, 'learning_rate': 2.6319901490382577e-05, 'epoch': 5.05}
 21%|██        | 16525/78504 [10:03:00<25:44:25,  1.50s/it] 21%|██        | 16526/78504 [10:03:01<23:56:48,  1.39s/it]                                                           {'loss': 0.1893, 'grad_norm': 0.8657736778259277, 'learning_rate': 2.6319476879962636e-05, 'epoch': 5.05}
 21%|██        | 16526/78504 [10:03:01<23:56:48,  1.39s/it] 21%|██        | 16527/78504 [10:03:02<22:24:46,  1.30s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.8070408701896667, 'learning_rate': 2.6319052269542695e-05, 'epoch': 5.05}
 21%|██        | 16527/78504 [10:03:02<22:24:46,  1.30s/it] 21%|██        | 16528/78504 [10:03:03<21:07:25,  1.23s/it]                                                           {'loss': 0.1707, 'grad_norm': 0.595635712146759, 'learning_rate': 2.6318627659122757e-05, 'epoch': 5.05}
 21%|██        | 16528/78504 [10:03:03<21:07:25,  1.23s/it] 21%|██        | 16529/78504 [10:03:04<19:33:42,  1.14s/it]                                                           {'loss': 0.1928, 'grad_norm': 1.4899053573608398, 'learning_rate': 2.6318203048702815e-05, 'epoch': 5.05}
 21%|██        | 16529/78504 [10:03:04<19:33:42,  1.14s/it] 21%|██        | 16530/78504 [10:03:05<17:42:16,  1.03s/it]                                                           {'loss': 0.1921, 'grad_norm': 1.1263093948364258, 'learning_rate': 2.6317778438282877e-05, 'epoch': 5.05}
 21%|██        | 16530/78504 [10:03:05<17:42:16,  1.03s/it] 21%|██        | 16531/78504 [10:03:12<53:02:29,  3.08s/it]                                                           {'loss': 0.1381, 'grad_norm': 0.5245074033737183, 'learning_rate': 2.6317353827862936e-05, 'epoch': 5.05}
 21%|██        | 16531/78504 [10:03:12<53:02:29,  3.08s/it] 21%|██        | 16532/78504 [10:03:16<54:24:18,  3.16s/it]                                                           {'loss': 0.075, 'grad_norm': 0.45213401317596436, 'learning_rate': 2.6316929217442998e-05, 'epoch': 5.05}
 21%|██        | 16532/78504 [10:03:16<54:24:18,  3.16s/it] 21%|██        | 16533/78504 [10:03:19<53:37:55,  3.12s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.34262615442276, 'learning_rate': 2.6316504607023057e-05, 'epoch': 5.05}
 21%|██        | 16533/78504 [10:03:19<53:37:55,  3.12s/it] 21%|██        | 16534/78504 [10:03:21<51:01:33,  2.96s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.22703340649604797, 'learning_rate': 2.631607999660312e-05, 'epoch': 5.05}
 21%|██        | 16534/78504 [10:03:21<51:01:33,  2.96s/it] 21%|██        | 16535/78504 [10:03:24<47:53:45,  2.78s/it]                                                           {'loss': 0.0501, 'grad_norm': 0.16437283158302307, 'learning_rate': 2.6315655386183178e-05, 'epoch': 5.06}
 21%|██        | 16535/78504 [10:03:24<47:53:45,  2.78s/it] 21%|██        | 16536/78504 [10:03:26<45:41:48,  2.65s/it]                                                           {'loss': 0.0706, 'grad_norm': 0.2884165942668915, 'learning_rate': 2.631523077576324e-05, 'epoch': 5.06}
 21%|██        | 16536/78504 [10:03:26<45:41:48,  2.65s/it] 21%|██        | 16537/78504 [10:03:28<43:59:01,  2.56s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.34727299213409424, 'learning_rate': 2.63148061653433e-05, 'epoch': 5.06}
 21%|██        | 16537/78504 [10:03:28<43:59:01,  2.56s/it] 21%|██        | 16538/78504 [10:03:31<42:27:27,  2.47s/it]                                                           {'loss': 0.0723, 'grad_norm': 0.3823190927505493, 'learning_rate': 2.6314381554923357e-05, 'epoch': 5.06}
 21%|██        | 16538/78504 [10:03:31<42:27:27,  2.47s/it] 21%|██        | 16539/78504 [10:03:33<40:59:48,  2.38s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.2192797064781189, 'learning_rate': 2.631395694450342e-05, 'epoch': 5.06}
 21%|██        | 16539/78504 [10:03:33<40:59:48,  2.38s/it] 21%|██        | 16540/78504 [10:03:35<39:44:39,  2.31s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.6096482872962952, 'learning_rate': 2.6313532334083478e-05, 'epoch': 5.06}
 21%|██        | 16540/78504 [10:03:35<39:44:39,  2.31s/it] 21%|██        | 16541/78504 [10:03:37<38:06:23,  2.21s/it]                                                           {'loss': 0.107, 'grad_norm': 0.3101189434528351, 'learning_rate': 2.631310772366354e-05, 'epoch': 5.06}
 21%|██        | 16541/78504 [10:03:37<38:06:23,  2.21s/it] 21%|██        | 16542/78504 [10:03:39<36:35:39,  2.13s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.19444406032562256, 'learning_rate': 2.63126831132436e-05, 'epoch': 5.06}
 21%|██        | 16542/78504 [10:03:39<36:35:39,  2.13s/it] 21%|██        | 16543/78504 [10:03:41<35:17:17,  2.05s/it]                                                           {'loss': 0.1088, 'grad_norm': 0.6031914353370667, 'learning_rate': 2.631225850282366e-05, 'epoch': 5.06}
 21%|██        | 16543/78504 [10:03:41<35:17:17,  2.05s/it] 21%|██        | 16544/78504 [10:03:43<34:12:04,  1.99s/it]                                                           {'loss': 0.1502, 'grad_norm': 1.3045779466629028, 'learning_rate': 2.631183389240372e-05, 'epoch': 5.06}
 21%|██        | 16544/78504 [10:03:43<34:12:04,  1.99s/it] 21%|██        | 16545/78504 [10:03:44<32:51:20,  1.91s/it]                                                           {'loss': 0.1244, 'grad_norm': 0.2988913655281067, 'learning_rate': 2.631140928198378e-05, 'epoch': 5.06}
 21%|██        | 16545/78504 [10:03:44<32:51:20,  1.91s/it] 21%|██        | 16546/78504 [10:03:46<31:29:57,  1.83s/it]                                                           {'loss': 0.1645, 'grad_norm': 0.46721789240837097, 'learning_rate': 2.631098467156384e-05, 'epoch': 5.06}
 21%|██        | 16546/78504 [10:03:46<31:29:57,  1.83s/it] 21%|██        | 16547/78504 [10:03:48<29:53:37,  1.74s/it]                                                           {'loss': 0.1133, 'grad_norm': 0.3502979874610901, 'learning_rate': 2.6310560061143902e-05, 'epoch': 5.06}
 21%|██        | 16547/78504 [10:03:48<29:53:37,  1.74s/it] 21%|██        | 16548/78504 [10:03:49<28:29:37,  1.66s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.7475467324256897, 'learning_rate': 2.631013545072396e-05, 'epoch': 5.06}
 21%|██        | 16548/78504 [10:03:49<28:29:37,  1.66s/it] 21%|██        | 16549/78504 [10:03:50<27:17:12,  1.59s/it]                                                           {'loss': 0.1567, 'grad_norm': 0.6988968849182129, 'learning_rate': 2.6309710840304023e-05, 'epoch': 5.06}
 21%|██        | 16549/78504 [10:03:50<27:17:12,  1.59s/it] 21%|██        | 16550/78504 [10:03:52<25:44:15,  1.50s/it]                                                           {'loss': 0.2254, 'grad_norm': 0.7540093660354614, 'learning_rate': 2.6309286229884082e-05, 'epoch': 5.06}
 21%|██        | 16550/78504 [10:03:52<25:44:15,  1.50s/it] 21%|██        | 16551/78504 [10:03:53<23:57:42,  1.39s/it]                                                           {'loss': 0.2161, 'grad_norm': 0.8164035677909851, 'learning_rate': 2.630886161946414e-05, 'epoch': 5.06}
 21%|██        | 16551/78504 [10:03:53<23:57:42,  1.39s/it] 21%|██        | 16552/78504 [10:03:54<22:25:34,  1.30s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.7295927405357361, 'learning_rate': 2.6308437009044203e-05, 'epoch': 5.06}
 21%|██        | 16552/78504 [10:03:54<22:25:34,  1.30s/it] 21%|██        | 16553/78504 [10:03:55<20:49:18,  1.21s/it]                                                           {'loss': 0.18, 'grad_norm': 0.7783808708190918, 'learning_rate': 2.630801239862426e-05, 'epoch': 5.06}
 21%|██        | 16553/78504 [10:03:55<20:49:18,  1.21s/it] 21%|██        | 16554/78504 [10:03:56<19:24:13,  1.13s/it]                                                           {'loss': 0.1631, 'grad_norm': 0.6929106116294861, 'learning_rate': 2.6307587788204323e-05, 'epoch': 5.06}
 21%|██        | 16554/78504 [10:03:56<19:24:13,  1.13s/it] 21%|██        | 16555/78504 [10:03:57<17:37:06,  1.02s/it]                                                           {'loss': 0.2339, 'grad_norm': 4.541207313537598, 'learning_rate': 2.6307163177784382e-05, 'epoch': 5.06}
 21%|██        | 16555/78504 [10:03:57<17:37:06,  1.02s/it] 21%|██        | 16556/78504 [10:04:05<55:40:02,  3.24s/it]                                                           {'loss': 0.1399, 'grad_norm': 0.5112455487251282, 'learning_rate': 2.6306738567364444e-05, 'epoch': 5.06}
 21%|██        | 16556/78504 [10:04:05<55:40:02,  3.24s/it] 21%|██        | 16557/78504 [10:04:08<55:10:01,  3.21s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.2692943811416626, 'learning_rate': 2.6306313956944503e-05, 'epoch': 5.06}
 21%|██        | 16557/78504 [10:04:08<55:10:01,  3.21s/it] 21%|██        | 16558/78504 [10:04:11<53:41:50,  3.12s/it]                                                           {'loss': 0.0953, 'grad_norm': 1.1449533700942993, 'learning_rate': 2.6305889346524565e-05, 'epoch': 5.06}
 21%|██        | 16558/78504 [10:04:11<53:41:50,  3.12s/it] 21%|██        | 16559/78504 [10:04:14<50:53:47,  2.96s/it]                                                           {'loss': 0.0864, 'grad_norm': 0.44046521186828613, 'learning_rate': 2.6305464736104624e-05, 'epoch': 5.06}
 21%|██        | 16559/78504 [10:04:14<50:53:47,  2.96s/it] 21%|██        | 16560/78504 [10:04:16<48:29:23,  2.82s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.2712450921535492, 'learning_rate': 2.6305040125684686e-05, 'epoch': 5.06}
 21%|██        | 16560/78504 [10:04:16<48:29:23,  2.82s/it] 21%|██        | 16561/78504 [10:04:19<46:35:08,  2.71s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.2917913794517517, 'learning_rate': 2.6304615515264745e-05, 'epoch': 5.06}
 21%|██        | 16561/78504 [10:04:19<46:35:08,  2.71s/it] 21%|██        | 16562/78504 [10:04:21<44:35:54,  2.59s/it]                                                           {'loss': 0.083, 'grad_norm': 0.5418318510055542, 'learning_rate': 2.6304190904844807e-05, 'epoch': 5.06}
 21%|██        | 16562/78504 [10:04:21<44:35:54,  2.59s/it] 21%|██        | 16563/78504 [10:04:23<43:07:36,  2.51s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.6188943982124329, 'learning_rate': 2.6303766294424865e-05, 'epoch': 5.06}
 21%|██        | 16563/78504 [10:04:23<43:07:36,  2.51s/it] 21%|██        | 16564/78504 [10:04:26<41:32:47,  2.41s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.7415938377380371, 'learning_rate': 2.6303341684004924e-05, 'epoch': 5.06}
 21%|██        | 16564/78504 [10:04:26<41:32:47,  2.41s/it] 21%|██        | 16565/78504 [10:04:28<40:13:39,  2.34s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.23035357892513275, 'learning_rate': 2.6302917073584986e-05, 'epoch': 5.06}
 21%|██        | 16565/78504 [10:04:28<40:13:39,  2.34s/it] 21%|██        | 16566/78504 [10:04:30<37:50:52,  2.20s/it]                                                           {'loss': 0.0944, 'grad_norm': 0.3066081702709198, 'learning_rate': 2.6302492463165045e-05, 'epoch': 5.06}
 21%|██        | 16566/78504 [10:04:30<37:50:52,  2.20s/it] 21%|██        | 16567/78504 [10:04:32<36:43:41,  2.13s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.6577243804931641, 'learning_rate': 2.6302067852745107e-05, 'epoch': 5.06}
 21%|██        | 16567/78504 [10:04:32<36:43:41,  2.13s/it] 21%|██        | 16568/78504 [10:04:33<35:38:00,  2.07s/it]                                                           {'loss': 0.0965, 'grad_norm': 0.6377013921737671, 'learning_rate': 2.6301643242325166e-05, 'epoch': 5.07}
 21%|██        | 16568/78504 [10:04:33<35:38:00,  2.07s/it] 21%|██        | 16569/78504 [10:04:35<34:34:21,  2.01s/it]                                                           {'loss': 0.1043, 'grad_norm': 1.0677664279937744, 'learning_rate': 2.6301218631905228e-05, 'epoch': 5.07}
 21%|██        | 16569/78504 [10:04:35<34:34:21,  2.01s/it] 21%|██        | 16570/78504 [10:04:37<33:17:20,  1.93s/it]                                                           {'loss': 0.1017, 'grad_norm': 0.34531816840171814, 'learning_rate': 2.6300794021485286e-05, 'epoch': 5.07}
 21%|██        | 16570/78504 [10:04:37<33:17:20,  1.93s/it] 21%|██        | 16571/78504 [10:04:39<31:50:36,  1.85s/it]                                                           {'loss': 0.1325, 'grad_norm': 0.9647581577301025, 'learning_rate': 2.630036941106535e-05, 'epoch': 5.07}
 21%|██        | 16571/78504 [10:04:39<31:50:36,  1.85s/it] 21%|██        | 16572/78504 [10:04:40<30:16:31,  1.76s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.5898714661598206, 'learning_rate': 2.6299944800645407e-05, 'epoch': 5.07}
 21%|██        | 16572/78504 [10:04:40<30:16:31,  1.76s/it] 21%|██        | 16573/78504 [10:04:42<28:33:47,  1.66s/it]                                                           {'loss': 0.1915, 'grad_norm': 0.526202380657196, 'learning_rate': 2.629952019022547e-05, 'epoch': 5.07}
 21%|██        | 16573/78504 [10:04:42<28:33:47,  1.66s/it] 21%|██        | 16574/78504 [10:04:43<27:15:21,  1.58s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.7104379534721375, 'learning_rate': 2.6299095579805528e-05, 'epoch': 5.07}
 21%|██        | 16574/78504 [10:04:43<27:15:21,  1.58s/it] 21%|██        | 16575/78504 [10:04:44<25:21:29,  1.47s/it]                                                           {'loss': 0.1887, 'grad_norm': 0.6192407608032227, 'learning_rate': 2.629867096938559e-05, 'epoch': 5.07}
 21%|██        | 16575/78504 [10:04:44<25:21:29,  1.47s/it] 21%|██        | 16576/78504 [10:04:45<23:41:21,  1.38s/it]                                                           {'loss': 0.2046, 'grad_norm': 0.912322461605072, 'learning_rate': 2.629824635896565e-05, 'epoch': 5.07}
 21%|██        | 16576/78504 [10:04:46<23:41:21,  1.38s/it] 21%|██        | 16577/78504 [10:04:47<22:15:59,  1.29s/it]                                                           {'loss': 0.2065, 'grad_norm': 0.9253473281860352, 'learning_rate': 2.6297821748545707e-05, 'epoch': 5.07}
 21%|██        | 16577/78504 [10:04:47<22:15:59,  1.29s/it] 21%|██        | 16578/78504 [10:04:48<20:42:05,  1.20s/it]                                                           {'loss': 0.2175, 'grad_norm': 0.8166700601577759, 'learning_rate': 2.629739713812577e-05, 'epoch': 5.07}
 21%|██        | 16578/78504 [10:04:48<20:42:05,  1.20s/it] 21%|██        | 16579/78504 [10:04:48<19:16:11,  1.12s/it]                                                           {'loss': 0.1882, 'grad_norm': 0.9864962697029114, 'learning_rate': 2.6296972527705828e-05, 'epoch': 5.07}
 21%|██        | 16579/78504 [10:04:49<19:16:11,  1.12s/it] 21%|██        | 16580/78504 [10:04:49<17:29:59,  1.02s/it]                                                           {'loss': 0.2352, 'grad_norm': 0.9973411560058594, 'learning_rate': 2.629654791728589e-05, 'epoch': 5.07}
 21%|██        | 16580/78504 [10:04:49<17:29:59,  1.02s/it] 21%|██        | 16581/78504 [10:04:57<53:38:36,  3.12s/it]                                                           {'loss': 0.1217, 'grad_norm': 0.39580172300338745, 'learning_rate': 2.629612330686595e-05, 'epoch': 5.07}
 21%|██        | 16581/78504 [10:04:57<53:38:36,  3.12s/it] 21%|██        | 16582/78504 [10:05:00<53:25:01,  3.11s/it]                                                           {'loss': 0.076, 'grad_norm': 0.3488457500934601, 'learning_rate': 2.629569869644601e-05, 'epoch': 5.07}
 21%|██        | 16582/78504 [10:05:00<53:25:01,  3.11s/it] 21%|██        | 16583/78504 [10:05:03<51:44:08,  3.01s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.29747334122657776, 'learning_rate': 2.629527408602607e-05, 'epoch': 5.07}
 21%|██        | 16583/78504 [10:05:03<51:44:08,  3.01s/it] 21%|██        | 16584/78504 [10:05:06<49:28:44,  2.88s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.4225180745124817, 'learning_rate': 2.6294849475606132e-05, 'epoch': 5.07}
 21%|██        | 16584/78504 [10:05:06<49:28:44,  2.88s/it] 21%|██        | 16585/78504 [10:05:08<47:29:12,  2.76s/it]                                                           {'loss': 0.057, 'grad_norm': 0.19557969272136688, 'learning_rate': 2.629442486518619e-05, 'epoch': 5.07}
 21%|██        | 16585/78504 [10:05:08<47:29:12,  2.76s/it] 21%|██        | 16586/78504 [10:05:11<45:52:46,  2.67s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.1987408548593521, 'learning_rate': 2.6294000254766253e-05, 'epoch': 5.07}
 21%|██        | 16586/78504 [10:05:11<45:52:46,  2.67s/it] 21%|██        | 16587/78504 [10:05:13<44:02:19,  2.56s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.26820895075798035, 'learning_rate': 2.629357564434631e-05, 'epoch': 5.07}
 21%|██        | 16587/78504 [10:05:13<44:02:19,  2.56s/it] 21%|██        | 16588/78504 [10:05:15<42:46:58,  2.49s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.3135540187358856, 'learning_rate': 2.6293151033926373e-05, 'epoch': 5.07}
 21%|██        | 16588/78504 [10:05:15<42:46:58,  2.49s/it] 21%|██        | 16589/78504 [10:05:17<40:21:55,  2.35s/it]                                                           {'loss': 0.0937, 'grad_norm': 0.2638728618621826, 'learning_rate': 2.6292726423506432e-05, 'epoch': 5.07}
 21%|██        | 16589/78504 [10:05:17<40:21:55,  2.35s/it] 21%|██        | 16590/78504 [10:05:19<39:18:52,  2.29s/it]                                                           {'loss': 0.0799, 'grad_norm': 0.21826043725013733, 'learning_rate': 2.629230181308649e-05, 'epoch': 5.07}
 21%|██        | 16590/78504 [10:05:19<39:18:52,  2.29s/it] 21%|██        | 16591/78504 [10:05:21<38:00:14,  2.21s/it]                                                           {'loss': 0.1151, 'grad_norm': 0.45335233211517334, 'learning_rate': 2.6291877202666553e-05, 'epoch': 5.07}
 21%|██        | 16591/78504 [10:05:22<38:00:14,  2.21s/it] 21%|██        | 16592/78504 [10:05:23<36:47:36,  2.14s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.3917050361633301, 'learning_rate': 2.629145259224661e-05, 'epoch': 5.07}
 21%|██        | 16592/78504 [10:05:23<36:47:36,  2.14s/it] 21%|██        | 16593/78504 [10:05:25<35:22:43,  2.06s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.30893126130104065, 'learning_rate': 2.6291027981826674e-05, 'epoch': 5.07}
 21%|██        | 16593/78504 [10:05:25<35:22:43,  2.06s/it] 21%|██        | 16594/78504 [10:05:27<34:26:49,  2.00s/it]                                                           {'loss': 0.1023, 'grad_norm': 0.8600320219993591, 'learning_rate': 2.6290603371406732e-05, 'epoch': 5.07}
 21%|██        | 16594/78504 [10:05:27<34:26:49,  2.00s/it] 21%|██        | 16595/78504 [10:05:29<32:40:32,  1.90s/it]                                                           {'loss': 0.1125, 'grad_norm': 0.5759314894676208, 'learning_rate': 2.6290178760986795e-05, 'epoch': 5.07}
 21%|██        | 16595/78504 [10:05:29<32:40:32,  1.90s/it] 21%|██        | 16596/78504 [10:05:30<31:18:39,  1.82s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.3828466236591339, 'learning_rate': 2.6289754150566853e-05, 'epoch': 5.07}
 21%|██        | 16596/78504 [10:05:31<31:18:39,  1.82s/it] 21%|██        | 16597/78504 [10:05:32<29:47:46,  1.73s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.6759547591209412, 'learning_rate': 2.6289329540146915e-05, 'epoch': 5.07}
 21%|██        | 16597/78504 [10:05:32<29:47:46,  1.73s/it] 21%|██        | 16598/78504 [10:05:33<28:25:00,  1.65s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.9448093771934509, 'learning_rate': 2.6288904929726974e-05, 'epoch': 5.07}
 21%|██        | 16598/78504 [10:05:34<28:25:00,  1.65s/it] 21%|██        | 16599/78504 [10:05:35<27:14:01,  1.58s/it]                                                           {'loss': 0.1823, 'grad_norm': 0.6342674493789673, 'learning_rate': 2.6288480319307036e-05, 'epoch': 5.07}
 21%|██        | 16599/78504 [10:05:35<27:14:01,  1.58s/it] 21%|██        | 16600/78504 [10:05:36<25:42:26,  1.50s/it]                                                           {'loss': 0.1785, 'grad_norm': 3.867136240005493, 'learning_rate': 2.6288055708887095e-05, 'epoch': 5.07}
 21%|██        | 16600/78504 [10:05:36<25:42:26,  1.50s/it] 21%|██        | 16601/78504 [10:05:37<23:57:49,  1.39s/it]                                                           {'loss': 0.1618, 'grad_norm': 1.1060224771499634, 'learning_rate': 2.628763109846716e-05, 'epoch': 5.08}
 21%|██        | 16601/78504 [10:05:37<23:57:49,  1.39s/it] 21%|██        | 16602/78504 [10:05:38<22:25:25,  1.30s/it]                                                           {'loss': 0.1725, 'grad_norm': 3.198253870010376, 'learning_rate': 2.628720648804722e-05, 'epoch': 5.08}
 21%|██        | 16602/78504 [10:05:38<22:25:25,  1.30s/it] 21%|██        | 16603/78504 [10:05:40<21:08:04,  1.23s/it]                                                           {'loss': 0.1737, 'grad_norm': 1.2477232217788696, 'learning_rate': 2.6286781877627278e-05, 'epoch': 5.08}
 21%|██        | 16603/78504 [10:05:40<21:08:04,  1.23s/it] 21%|██        | 16604/78504 [10:05:40<19:36:21,  1.14s/it]                                                           {'loss': 0.1913, 'grad_norm': 1.4768940210342407, 'learning_rate': 2.628635726720734e-05, 'epoch': 5.08}
 21%|██        | 16604/78504 [10:05:40<19:36:21,  1.14s/it] 21%|██        | 16605/78504 [10:05:41<17:53:13,  1.04s/it]                                                           {'loss': 0.2707, 'grad_norm': 1.2948343753814697, 'learning_rate': 2.62859326567874e-05, 'epoch': 5.08}
 21%|██        | 16605/78504 [10:05:41<17:53:13,  1.04s/it] 21%|██        | 16606/78504 [10:05:49<53:26:13,  3.11s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.4650837481021881, 'learning_rate': 2.628550804636746e-05, 'epoch': 5.08}
 21%|██        | 16606/78504 [10:05:49<53:26:13,  3.11s/it] 21%|██        | 16607/78504 [10:05:53<54:51:42,  3.19s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.1872880607843399, 'learning_rate': 2.628508343594752e-05, 'epoch': 5.08}
 21%|██        | 16607/78504 [10:05:53<54:51:42,  3.19s/it] 21%|██        | 16608/78504 [10:05:56<53:57:35,  3.14s/it]                                                           {'loss': 0.091, 'grad_norm': 0.30382487177848816, 'learning_rate': 2.628465882552758e-05, 'epoch': 5.08}
 21%|██        | 16608/78504 [10:05:56<53:57:35,  3.14s/it] 21%|██        | 16609/78504 [10:05:58<51:14:44,  2.98s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.34416458010673523, 'learning_rate': 2.628423421510764e-05, 'epoch': 5.08}
 21%|██        | 16609/78504 [10:05:58<51:14:44,  2.98s/it] 21%|██        | 16610/78504 [10:06:01<48:35:18,  2.83s/it]                                                           {'loss': 0.0455, 'grad_norm': 0.22626031935214996, 'learning_rate': 2.6283809604687702e-05, 'epoch': 5.08}
 21%|██        | 16610/78504 [10:06:01<48:35:18,  2.83s/it] 21%|██        | 16611/78504 [10:06:03<46:31:42,  2.71s/it]                                                           {'loss': 0.0543, 'grad_norm': 0.4742296636104584, 'learning_rate': 2.628338499426776e-05, 'epoch': 5.08}
 21%|██        | 16611/78504 [10:06:03<46:31:42,  2.71s/it] 21%|██        | 16612/78504 [10:06:05<44:29:20,  2.59s/it]                                                           {'loss': 0.0441, 'grad_norm': 0.392506867647171, 'learning_rate': 2.6282960383847823e-05, 'epoch': 5.08}
 21%|██        | 16612/78504 [10:06:05<44:29:20,  2.59s/it] 21%|██        | 16613/78504 [10:06:08<42:01:50,  2.44s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.4063917100429535, 'learning_rate': 2.628253577342788e-05, 'epoch': 5.08}
 21%|██        | 16613/78504 [10:06:08<42:01:50,  2.44s/it] 21%|██        | 16614/78504 [10:06:10<40:40:38,  2.37s/it]                                                           {'loss': 0.0572, 'grad_norm': 0.3948891758918762, 'learning_rate': 2.6282111163007944e-05, 'epoch': 5.08}
 21%|██        | 16614/78504 [10:06:10<40:40:38,  2.37s/it] 21%|██        | 16615/78504 [10:06:12<39:36:53,  2.30s/it]                                                           {'loss': 0.0863, 'grad_norm': 0.4633733630180359, 'learning_rate': 2.6281686552588002e-05, 'epoch': 5.08}
 21%|██        | 16615/78504 [10:06:12<39:36:53,  2.30s/it] 21%|██        | 16616/78504 [10:06:14<37:24:29,  2.18s/it]                                                           {'loss': 0.0806, 'grad_norm': 0.3342185616493225, 'learning_rate': 2.628126194216806e-05, 'epoch': 5.08}
 21%|██        | 16616/78504 [10:06:14<37:24:29,  2.18s/it] 21%|██        | 16617/78504 [10:06:16<36:25:42,  2.12s/it]                                                           {'loss': 0.0706, 'grad_norm': 0.3482495844364166, 'learning_rate': 2.6280837331748123e-05, 'epoch': 5.08}
 21%|██        | 16617/78504 [10:06:16<36:25:42,  2.12s/it] 21%|██        | 16618/78504 [10:06:18<35:23:21,  2.06s/it]                                                           {'loss': 0.132, 'grad_norm': 0.6425572037696838, 'learning_rate': 2.6280412721328182e-05, 'epoch': 5.08}
 21%|██        | 16618/78504 [10:06:18<35:23:21,  2.06s/it] 21%|██        | 16619/78504 [10:06:19<34:25:34,  2.00s/it]                                                           {'loss': 0.127, 'grad_norm': 0.3007427752017975, 'learning_rate': 2.6279988110908244e-05, 'epoch': 5.08}
 21%|██        | 16619/78504 [10:06:20<34:25:34,  2.00s/it] 21%|██        | 16620/78504 [10:06:21<33:11:09,  1.93s/it]                                                           {'loss': 0.124, 'grad_norm': 0.7881385684013367, 'learning_rate': 2.6279563500488303e-05, 'epoch': 5.08}
 21%|██        | 16620/78504 [10:06:21<33:11:09,  1.93s/it] 21%|██        | 16621/78504 [10:06:23<31:21:27,  1.82s/it]                                                           {'loss': 0.1429, 'grad_norm': 0.6950275897979736, 'learning_rate': 2.6279138890068365e-05, 'epoch': 5.08}
 21%|██        | 16621/78504 [10:06:23<31:21:27,  1.82s/it] 21%|██        | 16622/78504 [10:06:24<29:55:21,  1.74s/it]                                                           {'loss': 0.1516, 'grad_norm': 1.6144269704818726, 'learning_rate': 2.6278714279648424e-05, 'epoch': 5.08}
 21%|██        | 16622/78504 [10:06:24<29:55:21,  1.74s/it] 21%|██        | 16623/78504 [10:06:26<28:31:04,  1.66s/it]                                                           {'loss': 0.1455, 'grad_norm': 0.8543024063110352, 'learning_rate': 2.6278289669228486e-05, 'epoch': 5.08}
 21%|██        | 16623/78504 [10:06:26<28:31:04,  1.66s/it] 21%|██        | 16624/78504 [10:06:27<27:17:18,  1.59s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.7125809788703918, 'learning_rate': 2.6277865058808544e-05, 'epoch': 5.08}
 21%|██        | 16624/78504 [10:06:27<27:17:18,  1.59s/it] 21%|██        | 16625/78504 [10:06:29<25:43:18,  1.50s/it]                                                           {'loss': 0.2029, 'grad_norm': 0.6730098128318787, 'learning_rate': 2.6277440448388606e-05, 'epoch': 5.08}
 21%|██        | 16625/78504 [10:06:29<25:43:18,  1.50s/it] 21%|██        | 16626/78504 [10:06:30<23:57:45,  1.39s/it]                                                           {'loss': 0.155, 'grad_norm': 1.6300499439239502, 'learning_rate': 2.6277015837968665e-05, 'epoch': 5.08}
 21%|██        | 16626/78504 [10:06:30<23:57:45,  1.39s/it] 21%|██        | 16627/78504 [10:06:31<22:22:39,  1.30s/it]                                                           {'loss': 0.164, 'grad_norm': 0.8103767037391663, 'learning_rate': 2.6276591227548727e-05, 'epoch': 5.08}
 21%|██        | 16627/78504 [10:06:31<22:22:39,  1.30s/it] 21%|██        | 16628/78504 [10:06:32<21:05:46,  1.23s/it]                                                           {'loss': 0.1628, 'grad_norm': 1.690933346748352, 'learning_rate': 2.6276166617128786e-05, 'epoch': 5.08}
 21%|██        | 16628/78504 [10:06:32<21:05:46,  1.23s/it] 21%|██        | 16629/78504 [10:06:33<19:33:34,  1.14s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.7641493678092957, 'learning_rate': 2.6275742006708845e-05, 'epoch': 5.08}
 21%|██        | 16629/78504 [10:06:33<19:33:34,  1.14s/it] 21%|██        | 16630/78504 [10:06:34<17:42:15,  1.03s/it]                                                           {'loss': 0.2414, 'grad_norm': 1.9727596044540405, 'learning_rate': 2.6275317396288907e-05, 'epoch': 5.08}
 21%|██        | 16630/78504 [10:06:34<17:42:15,  1.03s/it] 21%|██        | 16631/78504 [10:06:41<52:31:34,  3.06s/it]                                                           {'loss': 0.1258, 'grad_norm': 1.7875568866729736, 'learning_rate': 2.6274892785868965e-05, 'epoch': 5.08}
 21%|██        | 16631/78504 [10:06:41<52:31:34,  3.06s/it] 21%|██        | 16632/78504 [10:06:44<52:51:57,  3.08s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.32835662364959717, 'learning_rate': 2.6274468175449027e-05, 'epoch': 5.08}
 21%|██        | 16632/78504 [10:06:44<52:51:57,  3.08s/it] 21%|██        | 16633/78504 [10:06:47<52:23:05,  3.05s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.23378118872642517, 'learning_rate': 2.6274043565029086e-05, 'epoch': 5.08}
 21%|██        | 16633/78504 [10:06:47<52:23:05,  3.05s/it] 21%|██        | 16634/78504 [10:06:50<50:08:13,  2.92s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.4946035146713257, 'learning_rate': 2.6273618954609148e-05, 'epoch': 5.09}
 21%|██        | 16634/78504 [10:06:50<50:08:13,  2.92s/it] 21%|██        | 16635/78504 [10:06:53<47:48:48,  2.78s/it]                                                           {'loss': 0.0568, 'grad_norm': 0.293958842754364, 'learning_rate': 2.6273194344189207e-05, 'epoch': 5.09}
 21%|██        | 16635/78504 [10:06:53<47:48:48,  2.78s/it] 21%|██        | 16636/78504 [10:06:55<45:10:00,  2.63s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.6958744525909424, 'learning_rate': 2.627276973376927e-05, 'epoch': 5.09}
 21%|██        | 16636/78504 [10:06:55<45:10:00,  2.63s/it] 21%|██        | 16637/78504 [10:06:57<43:32:21,  2.53s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.20352430641651154, 'learning_rate': 2.6272345123349328e-05, 'epoch': 5.09}
 21%|██        | 16637/78504 [10:06:57<43:32:21,  2.53s/it] 21%|██        | 16638/78504 [10:06:59<41:21:36,  2.41s/it]                                                           {'loss': 0.0757, 'grad_norm': 0.3462166488170624, 'learning_rate': 2.627192051292939e-05, 'epoch': 5.09}
 21%|██        | 16638/78504 [10:06:59<41:21:36,  2.41s/it] 21%|██        | 16639/78504 [10:07:01<40:12:12,  2.34s/it]                                                           {'loss': 0.099, 'grad_norm': 0.25846749544143677, 'learning_rate': 2.627149590250945e-05, 'epoch': 5.09}
 21%|██        | 16639/78504 [10:07:01<40:12:12,  2.34s/it] 21%|██        | 16640/78504 [10:07:04<39:11:19,  2.28s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.3270409405231476, 'learning_rate': 2.627107129208951e-05, 'epoch': 5.09}
 21%|██        | 16640/78504 [10:07:04<39:11:19,  2.28s/it] 21%|██        | 16641/78504 [10:07:06<37:52:24,  2.20s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.8551512956619263, 'learning_rate': 2.627064668166957e-05, 'epoch': 5.09}
 21%|██        | 16641/78504 [10:07:06<37:52:24,  2.20s/it] 21%|██        | 16642/78504 [10:07:08<36:40:58,  2.13s/it]                                                           {'loss': 0.0869, 'grad_norm': 0.4880159795284271, 'learning_rate': 2.6270222071249628e-05, 'epoch': 5.09}
 21%|██        | 16642/78504 [10:07:08<36:40:58,  2.13s/it] 21%|██        | 16643/78504 [10:07:09<35:16:56,  2.05s/it]                                                           {'loss': 0.069, 'grad_norm': 0.18756075203418732, 'learning_rate': 2.626979746082969e-05, 'epoch': 5.09}
 21%|██        | 16643/78504 [10:07:09<35:16:56,  2.05s/it] 21%|██        | 16644/78504 [10:07:11<34:11:40,  1.99s/it]                                                           {'loss': 0.136, 'grad_norm': 1.1068153381347656, 'learning_rate': 2.626937285040975e-05, 'epoch': 5.09}
 21%|██        | 16644/78504 [10:07:11<34:11:40,  1.99s/it] 21%|██        | 16645/78504 [10:07:13<32:48:21,  1.91s/it]                                                           {'loss': 0.1058, 'grad_norm': 1.3732315301895142, 'learning_rate': 2.626894823998981e-05, 'epoch': 5.09}
 21%|██        | 16645/78504 [10:07:13<32:48:21,  1.91s/it] 21%|██        | 16646/78504 [10:07:15<31:28:34,  1.83s/it]                                                           {'loss': 0.1429, 'grad_norm': 0.5059722065925598, 'learning_rate': 2.626852362956987e-05, 'epoch': 5.09}
 21%|██        | 16646/78504 [10:07:15<31:28:34,  1.83s/it] 21%|██        | 16647/78504 [10:07:16<29:57:43,  1.74s/it]                                                           {'loss': 0.1156, 'grad_norm': 0.30328190326690674, 'learning_rate': 2.626809901914993e-05, 'epoch': 5.09}
 21%|██        | 16647/78504 [10:07:16<29:57:43,  1.74s/it] 21%|██        | 16648/78504 [10:07:18<28:36:22,  1.66s/it]                                                           {'loss': 0.1451, 'grad_norm': 0.6071717739105225, 'learning_rate': 2.626767440872999e-05, 'epoch': 5.09}
 21%|██        | 16648/78504 [10:07:18<28:36:22,  1.66s/it] 21%|██        | 16649/78504 [10:07:19<27:09:26,  1.58s/it]                                                           {'loss': 0.184, 'grad_norm': 1.082592248916626, 'learning_rate': 2.6267249798310052e-05, 'epoch': 5.09}
 21%|██        | 16649/78504 [10:07:19<27:09:26,  1.58s/it] 21%|██        | 16650/78504 [10:07:20<25:39:20,  1.49s/it]                                                           {'loss': 0.2025, 'grad_norm': 1.2796571254730225, 'learning_rate': 2.626682518789011e-05, 'epoch': 5.09}
 21%|██        | 16650/78504 [10:07:20<25:39:20,  1.49s/it] 21%|██        | 16651/78504 [10:07:21<23:52:55,  1.39s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.9296587705612183, 'learning_rate': 2.6266400577470173e-05, 'epoch': 5.09}
 21%|██        | 16651/78504 [10:07:21<23:52:55,  1.39s/it] 21%|██        | 16652/78504 [10:07:23<22:22:10,  1.30s/it]                                                           {'loss': 0.1988, 'grad_norm': 0.7453572154045105, 'learning_rate': 2.6265975967050232e-05, 'epoch': 5.09}
 21%|██        | 16652/78504 [10:07:23<22:22:10,  1.30s/it] 21%|██        | 16653/78504 [10:07:24<21:01:07,  1.22s/it]                                                           {'loss': 0.162, 'grad_norm': 0.753042459487915, 'learning_rate': 2.626555135663029e-05, 'epoch': 5.09}
 21%|██        | 16653/78504 [10:07:24<21:01:07,  1.22s/it] 21%|██        | 16654/78504 [10:07:25<19:30:34,  1.14s/it]                                                           {'loss': 0.1936, 'grad_norm': 1.3600707054138184, 'learning_rate': 2.6265126746210353e-05, 'epoch': 5.09}
 21%|██        | 16654/78504 [10:07:25<19:30:34,  1.14s/it] 21%|██        | 16655/78504 [10:07:25<17:43:56,  1.03s/it]                                                           {'loss': 0.2241, 'grad_norm': 3.6489007472991943, 'learning_rate': 2.626470213579041e-05, 'epoch': 5.09}
 21%|██        | 16655/78504 [10:07:25<17:43:56,  1.03s/it] 21%|██        | 16656/78504 [10:07:34<59:38:04,  3.47s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.5172454714775085, 'learning_rate': 2.6264277525370474e-05, 'epoch': 5.09}
 21%|██        | 16656/78504 [10:07:35<59:38:04,  3.47s/it] 21%|██        | 16657/78504 [10:07:38<57:41:35,  3.36s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.3295772075653076, 'learning_rate': 2.6263852914950532e-05, 'epoch': 5.09}
 21%|██        | 16657/78504 [10:07:38<57:41:35,  3.36s/it] 21%|██        | 16658/78504 [10:07:40<55:25:54,  3.23s/it]                                                           {'loss': 0.0847, 'grad_norm': 0.4434257447719574, 'learning_rate': 2.6263428304530594e-05, 'epoch': 5.09}
 21%|██        | 16658/78504 [10:07:41<55:25:54,  3.23s/it] 21%|██        | 16659/78504 [10:07:43<52:05:31,  3.03s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.2237773835659027, 'learning_rate': 2.6263003694110653e-05, 'epoch': 5.09}
 21%|██        | 16659/78504 [10:07:43<52:05:31,  3.03s/it] 21%|██        | 16660/78504 [10:07:46<49:11:12,  2.86s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.7067477703094482, 'learning_rate': 2.6262579083690715e-05, 'epoch': 5.09}
 21%|██        | 16660/78504 [10:07:46<49:11:12,  2.86s/it] 21%|██        | 16661/78504 [10:07:48<46:05:53,  2.68s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.19831284880638123, 'learning_rate': 2.6262154473270774e-05, 'epoch': 5.09}
 21%|██        | 16661/78504 [10:07:48<46:05:53,  2.68s/it] 21%|██        | 16662/78504 [10:07:50<44:12:40,  2.57s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.26069536805152893, 'learning_rate': 2.6261729862850836e-05, 'epoch': 5.09}
 21%|██        | 16662/78504 [10:07:50<44:12:40,  2.57s/it] 21%|██        | 16663/78504 [10:07:52<41:47:56,  2.43s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.6455317735671997, 'learning_rate': 2.6261305252430895e-05, 'epoch': 5.09}
 21%|██        | 16663/78504 [10:07:52<41:47:56,  2.43s/it] 21%|██        | 16664/78504 [10:07:54<40:30:55,  2.36s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.4894525408744812, 'learning_rate': 2.6260880642010957e-05, 'epoch': 5.09}
 21%|██        | 16664/78504 [10:07:54<40:30:55,  2.36s/it] 21%|██        | 16665/78504 [10:07:57<39:29:28,  2.30s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.31482699513435364, 'learning_rate': 2.6260456031591015e-05, 'epoch': 5.09}
 21%|██        | 16665/78504 [10:07:57<39:29:28,  2.30s/it] 21%|██        | 16666/78504 [10:07:58<37:11:34,  2.17s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.9334471225738525, 'learning_rate': 2.6260031421171074e-05, 'epoch': 5.1}
 21%|██        | 16666/78504 [10:07:58<37:11:34,  2.17s/it] 21%|██        | 16667/78504 [10:08:00<36:15:00,  2.11s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.7040863037109375, 'learning_rate': 2.6259606810751136e-05, 'epoch': 5.1}
 21%|██        | 16667/78504 [10:08:00<36:15:00,  2.11s/it] 21%|██        | 16668/78504 [10:08:02<35:15:03,  2.05s/it]                                                           {'loss': 0.0899, 'grad_norm': 0.4580550491809845, 'learning_rate': 2.6259182200331195e-05, 'epoch': 5.1}
 21%|██        | 16668/78504 [10:08:02<35:15:03,  2.05s/it] 21%|██        | 16669/78504 [10:08:04<34:17:05,  2.00s/it]                                                           {'loss': 0.0973, 'grad_norm': 0.5854487419128418, 'learning_rate': 2.6258757589911257e-05, 'epoch': 5.1}
 21%|██        | 16669/78504 [10:08:04<34:17:05,  2.00s/it] 21%|██        | 16670/78504 [10:08:06<33:05:03,  1.93s/it]                                                           {'loss': 0.1317, 'grad_norm': 0.6483193039894104, 'learning_rate': 2.6258332979491316e-05, 'epoch': 5.1}
 21%|██        | 16670/78504 [10:08:06<33:05:03,  1.93s/it] 21%|██        | 16671/78504 [10:08:08<31:39:05,  1.84s/it]                                                           {'loss': 0.1437, 'grad_norm': 0.5061913728713989, 'learning_rate': 2.6257908369071378e-05, 'epoch': 5.1}
 21%|██        | 16671/78504 [10:08:08<31:39:05,  1.84s/it] 21%|██        | 16672/78504 [10:08:09<30:07:07,  1.75s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.6436333656311035, 'learning_rate': 2.6257483758651436e-05, 'epoch': 5.1}
 21%|██        | 16672/78504 [10:08:09<30:07:07,  1.75s/it] 21%|██        | 16673/78504 [10:08:11<28:41:26,  1.67s/it]                                                           {'loss': 0.1586, 'grad_norm': 0.4885595142841339, 'learning_rate': 2.62570591482315e-05, 'epoch': 5.1}
 21%|██        | 16673/78504 [10:08:11<28:41:26,  1.67s/it] 21%|██        | 16674/78504 [10:08:12<27:14:04,  1.59s/it]                                                           {'loss': 0.1825, 'grad_norm': 1.295068621635437, 'learning_rate': 2.6256634537811557e-05, 'epoch': 5.1}
 21%|██        | 16674/78504 [10:08:12<27:14:04,  1.59s/it] 21%|██        | 16675/78504 [10:08:13<25:38:10,  1.49s/it]                                                           {'loss': 0.215, 'grad_norm': 2.693099021911621, 'learning_rate': 2.625620992739162e-05, 'epoch': 5.1}
 21%|██        | 16675/78504 [10:08:13<25:38:10,  1.49s/it] 21%|██        | 16676/78504 [10:08:14<23:56:01,  1.39s/it]                                                           {'loss': 0.1642, 'grad_norm': 3.0279603004455566, 'learning_rate': 2.6255785316971678e-05, 'epoch': 5.1}
 21%|██        | 16676/78504 [10:08:14<23:56:01,  1.39s/it] 21%|██        | 16677/78504 [10:08:16<22:23:46,  1.30s/it]                                                           {'loss': 0.1865, 'grad_norm': 3.3980295658111572, 'learning_rate': 2.625536070655174e-05, 'epoch': 5.1}
 21%|██        | 16677/78504 [10:08:16<22:23:46,  1.30s/it] 21%|██        | 16678/78504 [10:08:17<21:09:19,  1.23s/it]                                                           {'loss': 0.162, 'grad_norm': 2.182666301727295, 'learning_rate': 2.62549360961318e-05, 'epoch': 5.1}
 21%|██        | 16678/78504 [10:08:17<21:09:19,  1.23s/it] 21%|██        | 16679/78504 [10:08:18<19:38:04,  1.14s/it]                                                           {'loss': 0.179, 'grad_norm': 2.1183526515960693, 'learning_rate': 2.6254511485711857e-05, 'epoch': 5.1}
 21%|██        | 16679/78504 [10:08:18<19:38:04,  1.14s/it] 21%|██        | 16680/78504 [10:08:18<17:46:36,  1.04s/it]                                                           {'loss': 0.2927, 'grad_norm': 1.617173433303833, 'learning_rate': 2.625408687529192e-05, 'epoch': 5.1}
 21%|██        | 16680/78504 [10:08:18<17:46:36,  1.04s/it] 21%|██        | 16681/78504 [10:08:27<56:57:02,  3.32s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.4415738880634308, 'learning_rate': 2.6253662264871978e-05, 'epoch': 5.1}
 21%|██        | 16681/78504 [10:08:27<56:57:02,  3.32s/it] 21%|██        | 16682/78504 [10:08:30<54:50:03,  3.19s/it]                                                           {'loss': 0.1086, 'grad_norm': 0.32738709449768066, 'learning_rate': 2.625323765445204e-05, 'epoch': 5.1}
 21%|██        | 16682/78504 [10:08:30<54:50:03,  3.19s/it] 21%|██▏       | 16683/78504 [10:08:33<52:44:49,  3.07s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.21777160465717316, 'learning_rate': 2.62528130440321e-05, 'epoch': 5.1}
 21%|██▏       | 16683/78504 [10:08:33<52:44:49,  3.07s/it] 21%|██▏       | 16684/78504 [10:08:35<49:23:26,  2.88s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.30111634731292725, 'learning_rate': 2.625238843361216e-05, 'epoch': 5.1}
 21%|██▏       | 16684/78504 [10:08:35<49:23:26,  2.88s/it] 21%|██▏       | 16685/78504 [10:08:38<47:19:47,  2.76s/it]                                                           {'loss': 0.0741, 'grad_norm': 0.8372818231582642, 'learning_rate': 2.625196382319222e-05, 'epoch': 5.1}
 21%|██▏       | 16685/78504 [10:08:38<47:19:47,  2.76s/it] 21%|██▏       | 16686/78504 [10:08:40<44:48:27,  2.61s/it]                                                           {'loss': 0.046, 'grad_norm': 0.20191729068756104, 'learning_rate': 2.6251539212772282e-05, 'epoch': 5.1}
 21%|██▏       | 16686/78504 [10:08:40<44:48:27,  2.61s/it] 21%|██▏       | 16687/78504 [10:08:42<43:17:55,  2.52s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.7989339828491211, 'learning_rate': 2.625111460235234e-05, 'epoch': 5.1}
 21%|██▏       | 16687/78504 [10:08:42<43:17:55,  2.52s/it] 21%|██▏       | 16688/78504 [10:08:44<41:12:39,  2.40s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.3893676698207855, 'learning_rate': 2.6250689991932403e-05, 'epoch': 5.1}
 21%|██▏       | 16688/78504 [10:08:44<41:12:39,  2.40s/it] 21%|██▏       | 16689/78504 [10:08:46<40:05:03,  2.33s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.4809211790561676, 'learning_rate': 2.625026538151246e-05, 'epoch': 5.1}
 21%|██▏       | 16689/78504 [10:08:46<40:05:03,  2.33s/it] 21%|██▏       | 16690/78504 [10:08:49<39:15:12,  2.29s/it]                                                           {'loss': 0.0742, 'grad_norm': 0.5480928421020508, 'learning_rate': 2.6249840771092524e-05, 'epoch': 5.1}
 21%|██▏       | 16690/78504 [10:08:49<39:15:12,  2.29s/it] 21%|██▏       | 16691/78504 [10:08:50<37:07:42,  2.16s/it]                                                           {'loss': 0.0753, 'grad_norm': 0.3305383026599884, 'learning_rate': 2.6249416160672582e-05, 'epoch': 5.1}
 21%|██▏       | 16691/78504 [10:08:51<37:07:42,  2.16s/it] 21%|██▏       | 16692/78504 [10:08:52<36:12:00,  2.11s/it]                                                           {'loss': 0.0924, 'grad_norm': 0.8236255645751953, 'learning_rate': 2.624899155025264e-05, 'epoch': 5.1}
 21%|██▏       | 16692/78504 [10:08:52<36:12:00,  2.11s/it] 21%|██▏       | 16693/78504 [10:08:54<35:16:52,  2.05s/it]                                                           {'loss': 0.1026, 'grad_norm': 0.3849577307701111, 'learning_rate': 2.6248566939832703e-05, 'epoch': 5.1}
 21%|██▏       | 16693/78504 [10:08:54<35:16:52,  2.05s/it] 21%|██▏       | 16694/78504 [10:08:56<34:24:43,  2.00s/it]                                                           {'loss': 0.0847, 'grad_norm': 0.7770772576332092, 'learning_rate': 2.6248142329412762e-05, 'epoch': 5.1}
 21%|██▏       | 16694/78504 [10:08:56<34:24:43,  2.00s/it] 21%|██▏       | 16695/78504 [10:08:58<33:10:57,  1.93s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.5513730645179749, 'learning_rate': 2.6247717718992824e-05, 'epoch': 5.1}
 21%|██▏       | 16695/78504 [10:08:58<33:10:57,  1.93s/it] 21%|██▏       | 16696/78504 [10:09:00<31:23:15,  1.83s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.6081442832946777, 'learning_rate': 2.6247293108572883e-05, 'epoch': 5.1}
 21%|██▏       | 16696/78504 [10:09:00<31:23:15,  1.83s/it] 21%|██▏       | 16697/78504 [10:09:01<29:57:12,  1.74s/it]                                                           {'loss': 0.155, 'grad_norm': 1.2986211776733398, 'learning_rate': 2.6246868498152945e-05, 'epoch': 5.1}
 21%|██▏       | 16697/78504 [10:09:01<29:57:12,  1.74s/it] 21%|██▏       | 16698/78504 [10:09:03<28:45:22,  1.67s/it]                                                           {'loss': 0.1159, 'grad_norm': 0.652581512928009, 'learning_rate': 2.6246443887733003e-05, 'epoch': 5.1}
 21%|██▏       | 16698/78504 [10:09:03<28:45:22,  1.67s/it] 21%|██▏       | 16699/78504 [10:09:04<27:25:17,  1.60s/it]                                                           {'loss': 0.1588, 'grad_norm': 0.9870818853378296, 'learning_rate': 2.6246019277313065e-05, 'epoch': 5.11}
 21%|██▏       | 16699/78504 [10:09:04<27:25:17,  1.60s/it] 21%|██▏       | 16700/78504 [10:09:05<25:51:39,  1.51s/it]                                                           {'loss': 0.2031, 'grad_norm': 0.7319527864456177, 'learning_rate': 2.6245594666893124e-05, 'epoch': 5.11}
 21%|██▏       | 16700/78504 [10:09:05<25:51:39,  1.51s/it] 21%|██▏       | 16701/78504 [10:09:07<24:23:46,  1.42s/it]                                                           {'loss': 0.1628, 'grad_norm': 0.8973028063774109, 'learning_rate': 2.6245170056473186e-05, 'epoch': 5.11}
 21%|██▏       | 16701/78504 [10:09:07<24:23:46,  1.42s/it] 21%|██▏       | 16702/78504 [10:09:08<22:41:59,  1.32s/it]                                                           {'loss': 0.2017, 'grad_norm': 1.0799553394317627, 'learning_rate': 2.6244745446053245e-05, 'epoch': 5.11}
 21%|██▏       | 16702/78504 [10:09:08<22:41:59,  1.32s/it] 21%|██▏       | 16703/78504 [10:09:09<21:18:21,  1.24s/it]                                                           {'loss': 0.1925, 'grad_norm': 2.079648017883301, 'learning_rate': 2.6244320835633307e-05, 'epoch': 5.11}
 21%|██▏       | 16703/78504 [10:09:09<21:18:21,  1.24s/it] 21%|██▏       | 16704/78504 [10:09:10<19:44:23,  1.15s/it]                                                           {'loss': 0.1783, 'grad_norm': 0.7949920892715454, 'learning_rate': 2.624389622521337e-05, 'epoch': 5.11}
 21%|██▏       | 16704/78504 [10:09:10<19:44:23,  1.15s/it] 21%|██▏       | 16705/78504 [10:09:11<18:00:23,  1.05s/it]                                                           {'loss': 0.2284, 'grad_norm': 1.9063783884048462, 'learning_rate': 2.6243471614793428e-05, 'epoch': 5.11}
 21%|██▏       | 16705/78504 [10:09:11<18:00:23,  1.05s/it] 21%|██▏       | 16706/78504 [10:09:21<66:42:15,  3.89s/it]                                                           {'loss': 0.1326, 'grad_norm': 0.33947423100471497, 'learning_rate': 2.624304700437349e-05, 'epoch': 5.11}
 21%|██▏       | 16706/78504 [10:09:21<66:42:15,  3.89s/it] 21%|██▏       | 16707/78504 [10:09:24<63:58:22,  3.73s/it]                                                           {'loss': 0.097, 'grad_norm': 0.3529576361179352, 'learning_rate': 2.624262239395355e-05, 'epoch': 5.11}
 21%|██▏       | 16707/78504 [10:09:24<63:58:22,  3.73s/it] 21%|██▏       | 16708/78504 [10:09:27<57:59:35,  3.38s/it]                                                           {'loss': 0.075, 'grad_norm': 0.22005821764469147, 'learning_rate': 2.624219778353361e-05, 'epoch': 5.11}
 21%|██▏       | 16708/78504 [10:09:27<57:59:35,  3.38s/it] 21%|██▏       | 16709/78504 [10:09:30<53:50:25,  3.14s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.4871126413345337, 'learning_rate': 2.624177317311367e-05, 'epoch': 5.11}
 21%|██▏       | 16709/78504 [10:09:30<53:50:25,  3.14s/it] 21%|██▏       | 16710/78504 [10:09:32<50:24:03,  2.94s/it]                                                           {'loss': 0.0465, 'grad_norm': 0.1821487843990326, 'learning_rate': 2.624134856269373e-05, 'epoch': 5.11}
 21%|██▏       | 16710/78504 [10:09:32<50:24:03,  2.94s/it] 21%|██▏       | 16711/78504 [10:09:34<47:48:01,  2.78s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.4399604797363281, 'learning_rate': 2.624092395227379e-05, 'epoch': 5.11}
 21%|██▏       | 16711/78504 [10:09:34<47:48:01,  2.78s/it] 21%|██▏       | 16712/78504 [10:09:37<45:21:26,  2.64s/it]                                                           {'loss': 0.0773, 'grad_norm': 0.35768210887908936, 'learning_rate': 2.6240499341853852e-05, 'epoch': 5.11}
 21%|██▏       | 16712/78504 [10:09:37<45:21:26,  2.64s/it] 21%|██▏       | 16713/78504 [10:09:39<42:32:58,  2.48s/it]                                                           {'loss': 0.042, 'grad_norm': 0.47841939330101013, 'learning_rate': 2.624007473143391e-05, 'epoch': 5.11}
 21%|██▏       | 16713/78504 [10:09:39<42:32:58,  2.48s/it] 21%|██▏       | 16714/78504 [10:09:41<40:15:04,  2.35s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.4686196446418762, 'learning_rate': 2.6239650121013973e-05, 'epoch': 5.11}
 21%|██▏       | 16714/78504 [10:09:41<40:15:04,  2.35s/it] 21%|██▏       | 16715/78504 [10:09:43<39:10:42,  2.28s/it]                                                           {'loss': 0.065, 'grad_norm': 0.2282872349023819, 'learning_rate': 2.623922551059403e-05, 'epoch': 5.11}
 21%|██▏       | 16715/78504 [10:09:43<39:10:42,  2.28s/it] 21%|██▏       | 16716/78504 [10:09:45<37:39:16,  2.19s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.6683689951896667, 'learning_rate': 2.6238800900174094e-05, 'epoch': 5.11}
 21%|██▏       | 16716/78504 [10:09:45<37:39:16,  2.19s/it] 21%|██▏       | 16717/78504 [10:09:47<35:35:59,  2.07s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.346249520778656, 'learning_rate': 2.6238376289754152e-05, 'epoch': 5.11}
 21%|██▏       | 16717/78504 [10:09:47<35:35:59,  2.07s/it] 21%|██▏       | 16718/78504 [10:09:49<34:29:48,  2.01s/it]                                                           {'loss': 0.1038, 'grad_norm': 0.3119552731513977, 'learning_rate': 2.623795167933421e-05, 'epoch': 5.11}
 21%|██▏       | 16718/78504 [10:09:49<34:29:48,  2.01s/it] 21%|██▏       | 16719/78504 [10:09:50<33:37:05,  1.96s/it]                                                           {'loss': 0.116, 'grad_norm': 0.5282664895057678, 'learning_rate': 2.6237527068914273e-05, 'epoch': 5.11}
 21%|██▏       | 16719/78504 [10:09:51<33:37:05,  1.96s/it] 21%|██▏       | 16720/78504 [10:09:52<32:24:21,  1.89s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.4153136610984802, 'learning_rate': 2.6237102458494332e-05, 'epoch': 5.11}
 21%|██▏       | 16720/78504 [10:09:52<32:24:21,  1.89s/it] 21%|██▏       | 16721/78504 [10:09:54<31:08:52,  1.81s/it]                                                           {'loss': 0.1299, 'grad_norm': 0.7254997491836548, 'learning_rate': 2.6236677848074394e-05, 'epoch': 5.11}
 21%|██▏       | 16721/78504 [10:09:54<31:08:52,  1.81s/it] 21%|██▏       | 16722/78504 [10:09:55<29:37:22,  1.73s/it]                                                           {'loss': 0.156, 'grad_norm': 0.664996325969696, 'learning_rate': 2.6236253237654453e-05, 'epoch': 5.11}
 21%|██▏       | 16722/78504 [10:09:55<29:37:22,  1.73s/it] 21%|██▏       | 16723/78504 [10:09:57<28:01:46,  1.63s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.6199843287467957, 'learning_rate': 2.6235828627234515e-05, 'epoch': 5.11}
 21%|██▏       | 16723/78504 [10:09:57<28:01:46,  1.63s/it] 21%|██▏       | 16724/78504 [10:09:58<26:52:09,  1.57s/it]                                                           {'loss': 0.1379, 'grad_norm': 0.4211265742778778, 'learning_rate': 2.6235404016814574e-05, 'epoch': 5.11}
 21%|██▏       | 16724/78504 [10:09:58<26:52:09,  1.57s/it] 21%|██▏       | 16725/78504 [10:09:59<25:06:36,  1.46s/it]                                                           {'loss': 0.1867, 'grad_norm': 0.6741346716880798, 'learning_rate': 2.6234979406394636e-05, 'epoch': 5.11}
 21%|██▏       | 16725/78504 [10:09:59<25:06:36,  1.46s/it] 21%|██▏       | 16726/78504 [10:10:01<23:24:20,  1.36s/it]                                                           {'loss': 0.182, 'grad_norm': 0.8080139756202698, 'learning_rate': 2.6234554795974694e-05, 'epoch': 5.11}
 21%|██▏       | 16726/78504 [10:10:01<23:24:20,  1.36s/it] 21%|██▏       | 16727/78504 [10:10:02<22:02:29,  1.28s/it]                                                           {'loss': 0.168, 'grad_norm': 0.7262703776359558, 'learning_rate': 2.6234130185554756e-05, 'epoch': 5.11}
 21%|██▏       | 16727/78504 [10:10:02<22:02:29,  1.28s/it] 21%|██▏       | 16728/78504 [10:10:03<20:29:16,  1.19s/it]                                                           {'loss': 0.2384, 'grad_norm': 2.0479736328125, 'learning_rate': 2.6233705575134815e-05, 'epoch': 5.11}
 21%|██▏       | 16728/78504 [10:10:03<20:29:16,  1.19s/it] 21%|██▏       | 16729/78504 [10:10:04<19:05:32,  1.11s/it]                                                           {'loss': 0.2598, 'grad_norm': 1.275508999824524, 'learning_rate': 2.6233280964714877e-05, 'epoch': 5.11}
 21%|██▏       | 16729/78504 [10:10:04<19:05:32,  1.11s/it] 21%|██▏       | 16730/78504 [10:10:04<17:24:16,  1.01s/it]                                                           {'loss': 0.2449, 'grad_norm': 1.31483793258667, 'learning_rate': 2.6232856354294936e-05, 'epoch': 5.11}
 21%|██▏       | 16730/78504 [10:10:04<17:24:16,  1.01s/it] 21%|██▏       | 16731/78504 [10:10:14<62:31:58,  3.64s/it]                                                           {'loss': 0.1437, 'grad_norm': 0.4201337695121765, 'learning_rate': 2.6232431743874995e-05, 'epoch': 5.11}
 21%|██▏       | 16731/78504 [10:10:14<62:31:58,  3.64s/it] 21%|██▏       | 16732/78504 [10:10:17<59:54:17,  3.49s/it]                                                           {'loss': 0.0984, 'grad_norm': 0.2574135661125183, 'learning_rate': 2.6232007133455057e-05, 'epoch': 5.12}
 21%|██▏       | 16732/78504 [10:10:17<59:54:17,  3.49s/it] 21%|██▏       | 16733/78504 [10:10:20<57:27:48,  3.35s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.2733038663864136, 'learning_rate': 2.6231582523035115e-05, 'epoch': 5.12}
 21%|██▏       | 16733/78504 [10:10:20<57:27:48,  3.35s/it] 21%|██▏       | 16734/78504 [10:10:23<53:41:39,  3.13s/it]                                                           {'loss': 0.0835, 'grad_norm': 0.1982709765434265, 'learning_rate': 2.6231157912615177e-05, 'epoch': 5.12}
 21%|██▏       | 16734/78504 [10:10:23<53:41:39,  3.13s/it] 21%|██▏       | 16735/78504 [10:10:25<50:17:34,  2.93s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.3433452844619751, 'learning_rate': 2.6230733302195236e-05, 'epoch': 5.12}
 21%|██▏       | 16735/78504 [10:10:25<50:17:34,  2.93s/it] 21%|██▏       | 16736/78504 [10:10:28<47:44:12,  2.78s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.15467260777950287, 'learning_rate': 2.6230308691775298e-05, 'epoch': 5.12}
 21%|██▏       | 16736/78504 [10:10:28<47:44:12,  2.78s/it] 21%|██▏       | 16737/78504 [10:10:30<45:20:17,  2.64s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.28930506110191345, 'learning_rate': 2.6229884081355357e-05, 'epoch': 5.12}
 21%|██▏       | 16737/78504 [10:10:30<45:20:17,  2.64s/it] 21%|██▏       | 16738/78504 [10:10:32<42:36:12,  2.48s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.3444804251194, 'learning_rate': 2.622945947093542e-05, 'epoch': 5.12}
 21%|██▏       | 16738/78504 [10:10:32<42:36:12,  2.48s/it] 21%|██▏       | 16739/78504 [10:10:34<41:04:07,  2.39s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.18698380887508392, 'learning_rate': 2.6229034860515478e-05, 'epoch': 5.12}
 21%|██▏       | 16739/78504 [10:10:34<41:04:07,  2.39s/it] 21%|██▏       | 16740/78504 [10:10:37<39:55:04,  2.33s/it]                                                           {'loss': 0.0415, 'grad_norm': 0.21832041442394257, 'learning_rate': 2.622861025009554e-05, 'epoch': 5.12}
 21%|██▏       | 16740/78504 [10:10:37<39:55:04,  2.33s/it] 21%|██▏       | 16741/78504 [10:10:38<37:30:41,  2.19s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.3345864415168762, 'learning_rate': 2.62281856396756e-05, 'epoch': 5.12}
 21%|██▏       | 16741/78504 [10:10:38<37:30:41,  2.19s/it] 21%|██▏       | 16742/78504 [10:10:40<36:28:55,  2.13s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.44758880138397217, 'learning_rate': 2.622776102925566e-05, 'epoch': 5.12}
 21%|██▏       | 16742/78504 [10:10:40<36:28:55,  2.13s/it] 21%|██▏       | 16743/78504 [10:10:42<35:13:24,  2.05s/it]                                                           {'loss': 0.1164, 'grad_norm': 0.7839491963386536, 'learning_rate': 2.622733641883572e-05, 'epoch': 5.12}
 21%|██▏       | 16743/78504 [10:10:42<35:13:24,  2.05s/it] 21%|██▏       | 16744/78504 [10:10:44<34:15:45,  2.00s/it]                                                           {'loss': 0.1113, 'grad_norm': 0.5331063270568848, 'learning_rate': 2.6226911808415778e-05, 'epoch': 5.12}
 21%|██▏       | 16744/78504 [10:10:44<34:15:45,  2.00s/it] 21%|██▏       | 16745/78504 [10:10:46<33:04:40,  1.93s/it]                                                           {'loss': 0.1146, 'grad_norm': 0.5169556736946106, 'learning_rate': 2.622648719799584e-05, 'epoch': 5.12}
 21%|██▏       | 16745/78504 [10:10:46<33:04:40,  1.93s/it] 21%|██▏       | 16746/78504 [10:10:48<31:38:10,  1.84s/it]                                                           {'loss': 0.1474, 'grad_norm': 0.3681056499481201, 'learning_rate': 2.62260625875759e-05, 'epoch': 5.12}
 21%|██▏       | 16746/78504 [10:10:48<31:38:10,  1.84s/it] 21%|██▏       | 16747/78504 [10:10:49<30:04:01,  1.75s/it]                                                           {'loss': 0.1682, 'grad_norm': 2.3679769039154053, 'learning_rate': 2.622563797715596e-05, 'epoch': 5.12}
 21%|██▏       | 16747/78504 [10:10:49<30:04:01,  1.75s/it] 21%|██▏       | 16748/78504 [10:10:51<28:36:23,  1.67s/it]                                                           {'loss': 0.179, 'grad_norm': 0.6755548715591431, 'learning_rate': 2.622521336673602e-05, 'epoch': 5.12}
 21%|██▏       | 16748/78504 [10:10:51<28:36:23,  1.67s/it] 21%|██▏       | 16749/78504 [10:10:52<27:18:59,  1.59s/it]                                                           {'loss': 0.184, 'grad_norm': 0.6262083649635315, 'learning_rate': 2.622478875631608e-05, 'epoch': 5.12}
 21%|██▏       | 16749/78504 [10:10:52<27:18:59,  1.59s/it] 21%|██▏       | 16750/78504 [10:10:53<25:43:20,  1.50s/it]                                                           {'loss': 0.1574, 'grad_norm': 0.6508714556694031, 'learning_rate': 2.622436414589614e-05, 'epoch': 5.12}
 21%|██▏       | 16750/78504 [10:10:53<25:43:20,  1.50s/it] 21%|██▏       | 16751/78504 [10:10:54<23:48:25,  1.39s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.6899085640907288, 'learning_rate': 2.6223939535476202e-05, 'epoch': 5.12}
 21%|██▏       | 16751/78504 [10:10:54<23:48:25,  1.39s/it] 21%|██▏       | 16752/78504 [10:10:56<22:19:26,  1.30s/it]                                                           {'loss': 0.1558, 'grad_norm': 1.0508657693862915, 'learning_rate': 2.622351492505626e-05, 'epoch': 5.12}
 21%|██▏       | 16752/78504 [10:10:56<22:19:26,  1.30s/it] 21%|██▏       | 16753/78504 [10:10:57<21:03:25,  1.23s/it]                                                           {'loss': 0.1947, 'grad_norm': 0.9647064208984375, 'learning_rate': 2.6223090314636323e-05, 'epoch': 5.12}
 21%|██▏       | 16753/78504 [10:10:57<21:03:25,  1.23s/it] 21%|██▏       | 16754/78504 [10:10:58<19:31:09,  1.14s/it]                                                           {'loss': 0.2324, 'grad_norm': 1.3785629272460938, 'learning_rate': 2.6222665704216382e-05, 'epoch': 5.12}
 21%|██▏       | 16754/78504 [10:10:58<19:31:09,  1.14s/it] 21%|██▏       | 16755/78504 [10:10:58<17:40:32,  1.03s/it]                                                           {'loss': 0.2569, 'grad_norm': 1.44075608253479, 'learning_rate': 2.6222241093796444e-05, 'epoch': 5.12}
 21%|██▏       | 16755/78504 [10:10:58<17:40:32,  1.03s/it] 21%|██▏       | 16756/78504 [10:11:08<61:49:01,  3.60s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.35795941948890686, 'learning_rate': 2.6221816483376503e-05, 'epoch': 5.12}
 21%|██▏       | 16756/78504 [10:11:08<61:49:01,  3.60s/it] 21%|██▏       | 16757/78504 [10:11:11<59:11:23,  3.45s/it]                                                           {'loss': 0.0842, 'grad_norm': 0.6252706050872803, 'learning_rate': 2.622139187295656e-05, 'epoch': 5.12}
 21%|██▏       | 16757/78504 [10:11:11<59:11:23,  3.45s/it] 21%|██▏       | 16758/78504 [10:11:14<56:27:51,  3.29s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.16684432327747345, 'learning_rate': 2.6220967262536624e-05, 'epoch': 5.12}
 21%|██▏       | 16758/78504 [10:11:14<56:27:51,  3.29s/it] 21%|██▏       | 16759/78504 [10:11:16<52:47:01,  3.08s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.8272101283073425, 'learning_rate': 2.6220542652116682e-05, 'epoch': 5.12}
 21%|██▏       | 16759/78504 [10:11:17<52:47:01,  3.08s/it] 21%|██▏       | 16760/78504 [10:11:19<49:45:52,  2.90s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.301944762468338, 'learning_rate': 2.6220118041696744e-05, 'epoch': 5.12}
 21%|██▏       | 16760/78504 [10:11:19<49:45:52,  2.90s/it] 21%|██▏       | 16761/78504 [10:11:21<47:18:44,  2.76s/it]                                                           {'loss': 0.049, 'grad_norm': 0.17421430349349976, 'learning_rate': 2.6219693431276803e-05, 'epoch': 5.12}
 21%|██▏       | 16761/78504 [10:11:21<47:18:44,  2.76s/it] 21%|██▏       | 16762/78504 [10:11:24<45:03:08,  2.63s/it]                                                           {'loss': 0.04, 'grad_norm': 0.14025399088859558, 'learning_rate': 2.6219268820856865e-05, 'epoch': 5.12}
 21%|██▏       | 16762/78504 [10:11:24<45:03:08,  2.63s/it] 21%|██▏       | 16763/78504 [10:11:26<43:23:35,  2.53s/it]                                                           {'loss': 0.0845, 'grad_norm': 0.22687269747257233, 'learning_rate': 2.6218844210436924e-05, 'epoch': 5.12}
 21%|██▏       | 16763/78504 [10:11:26<43:23:35,  2.53s/it] 21%|██▏       | 16764/78504 [10:11:28<41:36:58,  2.43s/it]                                                           {'loss': 0.046, 'grad_norm': 0.3288164436817169, 'learning_rate': 2.6218419600016986e-05, 'epoch': 5.13}
 21%|██▏       | 16764/78504 [10:11:28<41:36:58,  2.43s/it] 21%|██▏       | 16765/78504 [10:11:30<40:16:56,  2.35s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.42633605003356934, 'learning_rate': 2.6217994989597045e-05, 'epoch': 5.13}
 21%|██▏       | 16765/78504 [10:11:30<40:16:56,  2.35s/it] 21%|██▏       | 16766/78504 [10:11:32<37:44:07,  2.20s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.4169326424598694, 'learning_rate': 2.6217570379177107e-05, 'epoch': 5.13}
 21%|██▏       | 16766/78504 [10:11:32<37:44:07,  2.20s/it] 21%|██▏       | 16767/78504 [10:11:34<36:38:45,  2.14s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.4272092580795288, 'learning_rate': 2.6217145768757165e-05, 'epoch': 5.13}
 21%|██▏       | 16767/78504 [10:11:34<36:38:45,  2.14s/it] 21%|██▏       | 16768/78504 [10:11:36<35:34:40,  2.07s/it]                                                           {'loss': 0.0836, 'grad_norm': 0.424666166305542, 'learning_rate': 2.6216721158337224e-05, 'epoch': 5.13}
 21%|██▏       | 16768/78504 [10:11:36<35:34:40,  2.07s/it] 21%|██▏       | 16769/78504 [10:11:38<34:30:51,  2.01s/it]                                                           {'loss': 0.107, 'grad_norm': 0.4195452034473419, 'learning_rate': 2.6216296547917286e-05, 'epoch': 5.13}
 21%|██▏       | 16769/78504 [10:11:38<34:30:51,  2.01s/it] 21%|██▏       | 16770/78504 [10:11:40<33:13:16,  1.94s/it]                                                           {'loss': 0.1257, 'grad_norm': 0.6069584488868713, 'learning_rate': 2.6215871937497345e-05, 'epoch': 5.13}
 21%|██▏       | 16770/78504 [10:11:40<33:13:16,  1.94s/it] 21%|██▏       | 16771/78504 [10:11:41<31:47:25,  1.85s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.5580390095710754, 'learning_rate': 2.6215447327077407e-05, 'epoch': 5.13}
 21%|██▏       | 16771/78504 [10:11:41<31:47:25,  1.85s/it] 21%|██▏       | 16772/78504 [10:11:43<30:09:26,  1.76s/it]                                                           {'loss': 0.1321, 'grad_norm': 0.811248779296875, 'learning_rate': 2.6215022716657466e-05, 'epoch': 5.13}
 21%|██▏       | 16772/78504 [10:11:43<30:09:26,  1.76s/it] 21%|██▏       | 16773/78504 [10:11:44<28:42:22,  1.67s/it]                                                           {'loss': 0.1532, 'grad_norm': 0.43086567521095276, 'learning_rate': 2.6214598106237528e-05, 'epoch': 5.13}
 21%|██▏       | 16773/78504 [10:11:44<28:42:22,  1.67s/it] 21%|██▏       | 16774/78504 [10:11:46<27:24:49,  1.60s/it]                                                           {'loss': 0.1761, 'grad_norm': 1.1207998991012573, 'learning_rate': 2.6214173495817586e-05, 'epoch': 5.13}
 21%|██▏       | 16774/78504 [10:11:46<27:24:49,  1.60s/it] 21%|██▏       | 16775/78504 [10:11:47<25:49:41,  1.51s/it]                                                           {'loss': 0.1696, 'grad_norm': 1.1678358316421509, 'learning_rate': 2.621374888539765e-05, 'epoch': 5.13}
 21%|██▏       | 16775/78504 [10:11:47<25:49:41,  1.51s/it] 21%|██▏       | 16776/78504 [10:11:48<23:58:20,  1.40s/it]                                                           {'loss': 0.1834, 'grad_norm': 0.9384748339653015, 'learning_rate': 2.6213324274977707e-05, 'epoch': 5.13}
 21%|██▏       | 16776/78504 [10:11:48<23:58:20,  1.40s/it] 21%|██▏       | 16777/78504 [10:11:49<22:25:58,  1.31s/it]                                                           {'loss': 0.1761, 'grad_norm': 0.8024607300758362, 'learning_rate': 2.621289966455777e-05, 'epoch': 5.13}
 21%|██▏       | 16777/78504 [10:11:49<22:25:58,  1.31s/it] 21%|██▏       | 16778/78504 [10:11:50<21:06:27,  1.23s/it]                                                           {'loss': 0.1563, 'grad_norm': 1.0693086385726929, 'learning_rate': 2.6212475054137828e-05, 'epoch': 5.13}
 21%|██▏       | 16778/78504 [10:11:50<21:06:27,  1.23s/it] 21%|██▏       | 16779/78504 [10:11:51<19:38:00,  1.15s/it]                                                           {'loss': 0.1921, 'grad_norm': 1.0531105995178223, 'learning_rate': 2.621205044371789e-05, 'epoch': 5.13}
 21%|██▏       | 16779/78504 [10:11:51<19:38:00,  1.15s/it] 21%|██▏       | 16780/78504 [10:11:52<17:41:35,  1.03s/it]                                                           {'loss': 0.1988, 'grad_norm': 1.0274244546890259, 'learning_rate': 2.621162583329795e-05, 'epoch': 5.13}
 21%|██▏       | 16780/78504 [10:11:52<17:41:35,  1.03s/it] 21%|██▏       | 16781/78504 [10:11:58<44:31:50,  2.60s/it]                                                           {'loss': 0.187, 'grad_norm': 0.6928637623786926, 'learning_rate': 2.6211201222878008e-05, 'epoch': 5.13}
 21%|██▏       | 16781/78504 [10:11:58<44:31:50,  2.60s/it] 21%|██▏       | 16782/78504 [10:12:02<47:18:24,  2.76s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.3711897134780884, 'learning_rate': 2.621077661245807e-05, 'epoch': 5.13}
 21%|██▏       | 16782/78504 [10:12:02<47:18:24,  2.76s/it] 21%|██▏       | 16783/78504 [10:12:04<46:21:26,  2.70s/it]                                                           {'loss': 0.0803, 'grad_norm': 0.22645960748195648, 'learning_rate': 2.621035200203813e-05, 'epoch': 5.13}
 21%|██▏       | 16783/78504 [10:12:04<46:21:26,  2.70s/it] 21%|██▏       | 16784/78504 [10:12:07<44:56:14,  2.62s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.4681661128997803, 'learning_rate': 2.620992739161819e-05, 'epoch': 5.13}
 21%|██▏       | 16784/78504 [10:12:07<44:56:14,  2.62s/it] 21%|██▏       | 16785/78504 [10:12:09<44:11:11,  2.58s/it]                                                           {'loss': 0.0361, 'grad_norm': 0.19198893010616302, 'learning_rate': 2.620950278119825e-05, 'epoch': 5.13}
 21%|██▏       | 16785/78504 [10:12:09<44:11:11,  2.58s/it] 21%|██▏       | 16786/78504 [10:12:11<43:25:34,  2.53s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.22184152901172638, 'learning_rate': 2.620907817077831e-05, 'epoch': 5.13}
 21%|██▏       | 16786/78504 [10:12:11<43:25:34,  2.53s/it] 21%|██▏       | 16787/78504 [10:12:14<42:20:15,  2.47s/it]                                                           {'loss': 0.0396, 'grad_norm': 0.4538893699645996, 'learning_rate': 2.620865356035837e-05, 'epoch': 5.13}
 21%|██▏       | 16787/78504 [10:12:14<42:20:15,  2.47s/it] 21%|██▏       | 16788/78504 [10:12:16<40:23:53,  2.36s/it]                                                           {'loss': 0.0643, 'grad_norm': 0.29064205288887024, 'learning_rate': 2.6208228949938432e-05, 'epoch': 5.13}
 21%|██▏       | 16788/78504 [10:12:16<40:23:53,  2.36s/it] 21%|██▏       | 16789/78504 [10:12:18<38:44:44,  2.26s/it]                                                           {'loss': 0.1065, 'grad_norm': 0.3447053134441376, 'learning_rate': 2.620780433951849e-05, 'epoch': 5.13}
 21%|██▏       | 16789/78504 [10:12:18<38:44:44,  2.26s/it] 21%|██▏       | 16790/78504 [10:12:20<38:07:31,  2.22s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.38856279850006104, 'learning_rate': 2.6207379729098553e-05, 'epoch': 5.13}
 21%|██▏       | 16790/78504 [10:12:20<38:07:31,  2.22s/it] 21%|██▏       | 16791/78504 [10:12:22<36:53:42,  2.15s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.4907699227333069, 'learning_rate': 2.620695511867861e-05, 'epoch': 5.13}
 21%|██▏       | 16791/78504 [10:12:22<36:53:42,  2.15s/it] 21%|██▏       | 16792/78504 [10:12:24<35:06:39,  2.05s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.2041686773300171, 'learning_rate': 2.6206530508258674e-05, 'epoch': 5.13}
 21%|██▏       | 16792/78504 [10:12:24<35:06:39,  2.05s/it] 21%|██▏       | 16793/78504 [10:12:26<34:11:01,  1.99s/it]                                                           {'loss': 0.0978, 'grad_norm': 0.3589651584625244, 'learning_rate': 2.6206105897838732e-05, 'epoch': 5.13}
 21%|██▏       | 16793/78504 [10:12:26<34:11:01,  1.99s/it] 21%|██▏       | 16794/78504 [10:12:28<33:25:11,  1.95s/it]                                                           {'loss': 0.0972, 'grad_norm': 0.4887858033180237, 'learning_rate': 2.620568128741879e-05, 'epoch': 5.13}
 21%|██▏       | 16794/78504 [10:12:28<33:25:11,  1.95s/it] 21%|██▏       | 16795/78504 [10:12:29<32:19:03,  1.89s/it]                                                           {'loss': 0.1196, 'grad_norm': 0.6020526885986328, 'learning_rate': 2.6205256676998853e-05, 'epoch': 5.13}
 21%|██▏       | 16795/78504 [10:12:29<32:19:03,  1.89s/it] 21%|██▏       | 16796/78504 [10:12:31<31:04:56,  1.81s/it]                                                           {'loss': 0.1399, 'grad_norm': 1.5288838148117065, 'learning_rate': 2.6204832066578912e-05, 'epoch': 5.13}
 21%|██▏       | 16796/78504 [10:12:31<31:04:56,  1.81s/it] 21%|██▏       | 16797/78504 [10:12:32<29:40:44,  1.73s/it]                                                           {'loss': 0.1168, 'grad_norm': 2.5859031677246094, 'learning_rate': 2.6204407456158974e-05, 'epoch': 5.14}
 21%|██▏       | 16797/78504 [10:12:33<29:40:44,  1.73s/it] 21%|██▏       | 16798/78504 [10:12:34<28:19:08,  1.65s/it]                                                           {'loss': 0.158, 'grad_norm': 1.2796900272369385, 'learning_rate': 2.6203982845739033e-05, 'epoch': 5.14}
 21%|██▏       | 16798/78504 [10:12:34<28:19:08,  1.65s/it] 21%|██▏       | 16799/78504 [10:12:35<27:07:37,  1.58s/it]                                                           {'loss': 0.1728, 'grad_norm': 0.8416755795478821, 'learning_rate': 2.6203558235319095e-05, 'epoch': 5.14}
 21%|██▏       | 16799/78504 [10:12:35<27:07:37,  1.58s/it] 21%|██▏       | 16800/78504 [10:12:37<25:36:25,  1.49s/it]                                                           {'loss': 0.1381, 'grad_norm': 1.2723414897918701, 'learning_rate': 2.6203133624899153e-05, 'epoch': 5.14}
 21%|██▏       | 16800/78504 [10:12:37<25:36:25,  1.49s/it] 21%|██▏       | 16801/78504 [10:12:38<23:49:55,  1.39s/it]                                                           {'loss': 0.1624, 'grad_norm': 1.1134322881698608, 'learning_rate': 2.6202709014479215e-05, 'epoch': 5.14}
 21%|██▏       | 16801/78504 [10:12:38<23:49:55,  1.39s/it] 21%|██▏       | 16802/78504 [10:12:39<22:19:16,  1.30s/it]                                                           {'loss': 0.168, 'grad_norm': 1.0639007091522217, 'learning_rate': 2.6202284404059274e-05, 'epoch': 5.14}
 21%|██▏       | 16802/78504 [10:12:39<22:19:16,  1.30s/it] 21%|██▏       | 16803/78504 [10:12:40<21:01:55,  1.23s/it]                                                           {'loss': 0.2022, 'grad_norm': 0.7173783779144287, 'learning_rate': 2.6201859793639336e-05, 'epoch': 5.14}
 21%|██▏       | 16803/78504 [10:12:40<21:01:55,  1.23s/it] 21%|██▏       | 16804/78504 [10:12:41<19:31:21,  1.14s/it]                                                           {'loss': 0.2037, 'grad_norm': 0.7509580850601196, 'learning_rate': 2.6201435183219395e-05, 'epoch': 5.14}
 21%|██▏       | 16804/78504 [10:12:41<19:31:21,  1.14s/it] 21%|██▏       | 16805/78504 [10:12:42<17:32:51,  1.02s/it]                                                           {'loss': 0.2456, 'grad_norm': 1.4366101026535034, 'learning_rate': 2.6201010572799457e-05, 'epoch': 5.14}
 21%|██▏       | 16805/78504 [10:12:42<17:32:51,  1.02s/it] 21%|██▏       | 16806/78504 [10:12:49<51:48:38,  3.02s/it]                                                           {'loss': 0.1562, 'grad_norm': 0.529866635799408, 'learning_rate': 2.620058596237952e-05, 'epoch': 5.14}
 21%|██▏       | 16806/78504 [10:12:49<51:48:38,  3.02s/it] 21%|██▏       | 16807/78504 [10:12:52<52:26:50,  3.06s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.27667614817619324, 'learning_rate': 2.6200161351959578e-05, 'epoch': 5.14}
 21%|██▏       | 16807/78504 [10:12:52<52:26:50,  3.06s/it] 21%|██▏       | 16808/78504 [10:12:55<51:45:12,  3.02s/it]                                                           {'loss': 0.0719, 'grad_norm': 0.2593812048435211, 'learning_rate': 2.619973674153964e-05, 'epoch': 5.14}
 21%|██▏       | 16808/78504 [10:12:55<51:45:12,  3.02s/it] 21%|██▏       | 16809/78504 [10:12:58<48:43:32,  2.84s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.5107375383377075, 'learning_rate': 2.61993121311197e-05, 'epoch': 5.14}
 21%|██▏       | 16809/78504 [10:12:58<48:43:32,  2.84s/it] 21%|██▏       | 16810/78504 [10:13:00<46:48:12,  2.73s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.19018816947937012, 'learning_rate': 2.619888752069976e-05, 'epoch': 5.14}
 21%|██▏       | 16810/78504 [10:13:00<46:48:12,  2.73s/it] 21%|██▏       | 16811/78504 [10:13:03<45:15:16,  2.64s/it]                                                           {'loss': 0.0507, 'grad_norm': 0.1565730720758438, 'learning_rate': 2.619846291027982e-05, 'epoch': 5.14}
 21%|██▏       | 16811/78504 [10:13:03<45:15:16,  2.64s/it] 21%|██▏       | 16812/78504 [10:13:05<43:34:14,  2.54s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.30241507291793823, 'learning_rate': 2.619803829985988e-05, 'epoch': 5.14}
 21%|██▏       | 16812/78504 [10:13:05<43:34:14,  2.54s/it] 21%|██▏       | 16813/78504 [10:13:07<41:22:25,  2.41s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.2494114637374878, 'learning_rate': 2.619761368943994e-05, 'epoch': 5.14}
 21%|██▏       | 16813/78504 [10:13:07<41:22:25,  2.41s/it] 21%|██▏       | 16814/78504 [10:13:09<40:12:24,  2.35s/it]                                                           {'loss': 0.0871, 'grad_norm': 0.8318573236465454, 'learning_rate': 2.6197189079020002e-05, 'epoch': 5.14}
 21%|██▏       | 16814/78504 [10:13:09<40:12:24,  2.35s/it] 21%|██▏       | 16815/78504 [10:13:11<39:07:45,  2.28s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.2787289619445801, 'learning_rate': 2.619676446860006e-05, 'epoch': 5.14}
 21%|██▏       | 16815/78504 [10:13:12<39:07:45,  2.28s/it] 21%|██▏       | 16816/78504 [10:13:13<37:41:55,  2.20s/it]                                                           {'loss': 0.0941, 'grad_norm': 0.45657479763031006, 'learning_rate': 2.6196339858180123e-05, 'epoch': 5.14}
 21%|██▏       | 16816/78504 [10:13:14<37:41:55,  2.20s/it] 21%|██▏       | 16817/78504 [10:13:15<35:38:01,  2.08s/it]                                                           {'loss': 0.086, 'grad_norm': 0.4018072485923767, 'learning_rate': 2.6195915247760182e-05, 'epoch': 5.14}
 21%|██▏       | 16817/78504 [10:13:15<35:38:01,  2.08s/it] 21%|██▏       | 16818/78504 [10:13:17<34:31:22,  2.01s/it]                                                           {'loss': 0.1011, 'grad_norm': 0.8288427591323853, 'learning_rate': 2.6195490637340244e-05, 'epoch': 5.14}
 21%|██▏       | 16818/78504 [10:13:17<34:31:22,  2.01s/it] 21%|██▏       | 16819/78504 [10:13:19<33:38:34,  1.96s/it]                                                           {'loss': 0.1057, 'grad_norm': 0.49745768308639526, 'learning_rate': 2.6195066026920302e-05, 'epoch': 5.14}
 21%|██▏       | 16819/78504 [10:13:19<33:38:34,  1.96s/it] 21%|██▏       | 16820/78504 [10:13:21<32:30:10,  1.90s/it]                                                           {'loss': 0.1169, 'grad_norm': 3.225329637527466, 'learning_rate': 2.619464141650036e-05, 'epoch': 5.14}
 21%|██▏       | 16820/78504 [10:13:21<32:30:10,  1.90s/it] 21%|██▏       | 16821/78504 [10:13:22<31:10:53,  1.82s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.6348628401756287, 'learning_rate': 2.6194216806080423e-05, 'epoch': 5.14}
 21%|██▏       | 16821/78504 [10:13:22<31:10:53,  1.82s/it] 21%|██▏       | 16822/78504 [10:13:24<29:46:43,  1.74s/it]                                                           {'loss': 0.1707, 'grad_norm': 1.4580150842666626, 'learning_rate': 2.6193792195660482e-05, 'epoch': 5.14}
 21%|██▏       | 16822/78504 [10:13:24<29:46:43,  1.74s/it] 21%|██▏       | 16823/78504 [10:13:25<28:09:40,  1.64s/it]                                                           {'loss': 0.1511, 'grad_norm': 0.7013120055198669, 'learning_rate': 2.6193367585240544e-05, 'epoch': 5.14}
 21%|██▏       | 16823/78504 [10:13:25<28:09:40,  1.64s/it] 21%|██▏       | 16824/78504 [10:13:27<26:56:46,  1.57s/it]                                                           {'loss': 0.1673, 'grad_norm': 1.7555310726165771, 'learning_rate': 2.6192942974820603e-05, 'epoch': 5.14}
 21%|██▏       | 16824/78504 [10:13:27<26:56:46,  1.57s/it] 21%|██▏       | 16825/78504 [10:13:28<25:28:04,  1.49s/it]                                                           {'loss': 0.1603, 'grad_norm': 1.0665032863616943, 'learning_rate': 2.6192518364400665e-05, 'epoch': 5.14}
 21%|██▏       | 16825/78504 [10:13:28<25:28:04,  1.49s/it] 21%|██▏       | 16826/78504 [10:13:29<23:38:54,  1.38s/it]                                                           {'loss': 0.1499, 'grad_norm': 0.5705925226211548, 'learning_rate': 2.6192093753980724e-05, 'epoch': 5.14}
 21%|██▏       | 16826/78504 [10:13:29<23:38:54,  1.38s/it] 21%|██▏       | 16827/78504 [10:13:30<22:11:35,  1.30s/it]                                                           {'loss': 0.1764, 'grad_norm': 12.788030624389648, 'learning_rate': 2.6191669143560786e-05, 'epoch': 5.14}
 21%|██▏       | 16827/78504 [10:13:30<22:11:35,  1.30s/it] 21%|██▏       | 16828/78504 [10:13:31<20:39:27,  1.21s/it]                                                           {'loss': 0.177, 'grad_norm': 1.1387652158737183, 'learning_rate': 2.6191244533140844e-05, 'epoch': 5.14}
 21%|██▏       | 16828/78504 [10:13:31<20:39:27,  1.21s/it] 21%|██▏       | 16829/78504 [10:13:32<19:13:54,  1.12s/it]                                                           {'loss': 0.1647, 'grad_norm': 1.3677341938018799, 'learning_rate': 2.6190819922720906e-05, 'epoch': 5.14}
 21%|██▏       | 16829/78504 [10:13:32<19:13:54,  1.12s/it] 21%|██▏       | 16830/78504 [10:13:33<17:27:44,  1.02s/it]                                                           {'loss': 0.1968, 'grad_norm': 1.7758127450942993, 'learning_rate': 2.6190395312300965e-05, 'epoch': 5.15}
 21%|██▏       | 16830/78504 [10:13:33<17:27:44,  1.02s/it] 21%|██▏       | 16831/78504 [10:13:41<52:13:16,  3.05s/it]                                                           {'loss': 0.1265, 'grad_norm': 0.583168625831604, 'learning_rate': 2.6189970701881027e-05, 'epoch': 5.15}
 21%|██▏       | 16831/78504 [10:13:41<52:13:16,  3.05s/it] 21%|██▏       | 16832/78504 [10:13:44<53:50:33,  3.14s/it]                                                           {'loss': 0.0768, 'grad_norm': 0.2884281277656555, 'learning_rate': 2.6189546091461086e-05, 'epoch': 5.15}
 21%|██▏       | 16832/78504 [10:13:44<53:50:33,  3.14s/it] 21%|██▏       | 16833/78504 [10:13:47<53:11:15,  3.10s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.2193293571472168, 'learning_rate': 2.6189121481041145e-05, 'epoch': 5.15}
 21%|██▏       | 16833/78504 [10:13:47<53:11:15,  3.10s/it] 21%|██▏       | 16834/78504 [10:13:50<50:39:22,  2.96s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.29244133830070496, 'learning_rate': 2.6188696870621207e-05, 'epoch': 5.15}
 21%|██▏       | 16834/78504 [10:13:50<50:39:22,  2.96s/it] 21%|██▏       | 16835/78504 [10:13:52<47:35:34,  2.78s/it]                                                           {'loss': 0.0423, 'grad_norm': 0.16441528499126434, 'learning_rate': 2.6188272260201265e-05, 'epoch': 5.15}
 21%|██▏       | 16835/78504 [10:13:52<47:35:34,  2.78s/it] 21%|██▏       | 16836/78504 [10:13:54<44:57:00,  2.62s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.3397209346294403, 'learning_rate': 2.6187847649781328e-05, 'epoch': 5.15}
 21%|██▏       | 16836/78504 [10:13:54<44:57:00,  2.62s/it] 21%|██▏       | 16837/78504 [10:13:57<43:26:27,  2.54s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.2568510174751282, 'learning_rate': 2.6187423039361386e-05, 'epoch': 5.15}
 21%|██▏       | 16837/78504 [10:13:57<43:26:27,  2.54s/it] 21%|██▏       | 16838/78504 [10:13:59<41:09:24,  2.40s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.31085628271102905, 'learning_rate': 2.6186998428941448e-05, 'epoch': 5.15}
 21%|██▏       | 16838/78504 [10:13:59<41:09:24,  2.40s/it] 21%|██▏       | 16839/78504 [10:14:01<40:01:34,  2.34s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.43656349182128906, 'learning_rate': 2.6186573818521507e-05, 'epoch': 5.15}
 21%|██▏       | 16839/78504 [10:14:01<40:01:34,  2.34s/it] 21%|██▏       | 16840/78504 [10:14:03<39:04:01,  2.28s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.23907840251922607, 'learning_rate': 2.618614920810157e-05, 'epoch': 5.15}
 21%|██▏       | 16840/78504 [10:14:03<39:04:01,  2.28s/it] 21%|██▏       | 16841/78504 [10:14:05<37:44:16,  2.20s/it]                                                           {'loss': 0.1112, 'grad_norm': 0.3232944905757904, 'learning_rate': 2.6185724597681628e-05, 'epoch': 5.15}
 21%|██▏       | 16841/78504 [10:14:05<37:44:16,  2.20s/it] 21%|██▏       | 16842/78504 [10:14:07<36:36:17,  2.14s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.24007488787174225, 'learning_rate': 2.618529998726169e-05, 'epoch': 5.15}
 21%|██▏       | 16842/78504 [10:14:07<36:36:17,  2.14s/it] 21%|██▏       | 16843/78504 [10:14:09<35:19:32,  2.06s/it]                                                           {'loss': 0.0864, 'grad_norm': 0.3981797993183136, 'learning_rate': 2.618487537684175e-05, 'epoch': 5.15}
 21%|██▏       | 16843/78504 [10:14:09<35:19:32,  2.06s/it] 21%|██▏       | 16844/78504 [10:14:11<34:19:57,  2.00s/it]                                                           {'loss': 0.0998, 'grad_norm': 0.48110994696617126, 'learning_rate': 2.618445076642181e-05, 'epoch': 5.15}
 21%|██▏       | 16844/78504 [10:14:11<34:19:57,  2.00s/it] 21%|██▏       | 16845/78504 [10:14:13<33:06:05,  1.93s/it]                                                           {'loss': 0.1427, 'grad_norm': 0.4156735837459564, 'learning_rate': 2.618402615600187e-05, 'epoch': 5.15}
 21%|██▏       | 16845/78504 [10:14:13<33:06:05,  1.93s/it] 21%|██▏       | 16846/78504 [10:14:14<31:17:51,  1.83s/it]                                                           {'loss': 0.1164, 'grad_norm': 0.6003925800323486, 'learning_rate': 2.6183601545581928e-05, 'epoch': 5.15}
 21%|██▏       | 16846/78504 [10:14:14<31:17:51,  1.83s/it] 21%|██▏       | 16847/78504 [10:14:16<29:49:46,  1.74s/it]                                                           {'loss': 0.1241, 'grad_norm': 0.46255287528038025, 'learning_rate': 2.618317693516199e-05, 'epoch': 5.15}
 21%|██▏       | 16847/78504 [10:14:16<29:49:46,  1.74s/it] 21%|██▏       | 16848/78504 [10:14:17<28:24:29,  1.66s/it]                                                           {'loss': 0.1243, 'grad_norm': 0.4299468696117401, 'learning_rate': 2.618275232474205e-05, 'epoch': 5.15}
 21%|██▏       | 16848/78504 [10:14:17<28:24:29,  1.66s/it] 21%|██▏       | 16849/78504 [10:14:19<27:05:22,  1.58s/it]                                                           {'loss': 0.1331, 'grad_norm': 0.5798346400260925, 'learning_rate': 2.618232771432211e-05, 'epoch': 5.15}
 21%|██▏       | 16849/78504 [10:14:19<27:05:22,  1.58s/it] 21%|██▏       | 16850/78504 [10:14:20<25:34:06,  1.49s/it]                                                           {'loss': 0.1932, 'grad_norm': 1.3458205461502075, 'learning_rate': 2.618190310390217e-05, 'epoch': 5.15}
 21%|██▏       | 16850/78504 [10:14:20<25:34:06,  1.49s/it] 21%|██▏       | 16851/78504 [10:14:21<23:49:13,  1.39s/it]                                                           {'loss': 0.1731, 'grad_norm': 3.0872862339019775, 'learning_rate': 2.6181478493482232e-05, 'epoch': 5.15}
 21%|██▏       | 16851/78504 [10:14:21<23:49:13,  1.39s/it] 21%|██▏       | 16852/78504 [10:14:22<22:15:27,  1.30s/it]                                                           {'loss': 0.1608, 'grad_norm': 1.6227812767028809, 'learning_rate': 2.618105388306229e-05, 'epoch': 5.15}
 21%|██▏       | 16852/78504 [10:14:22<22:15:27,  1.30s/it] 21%|██▏       | 16853/78504 [10:14:23<20:39:02,  1.21s/it]                                                           {'loss': 0.1769, 'grad_norm': 3.385836362838745, 'learning_rate': 2.6180629272642353e-05, 'epoch': 5.15}
 21%|██▏       | 16853/78504 [10:14:23<20:39:02,  1.21s/it] 21%|██▏       | 16854/78504 [10:14:24<19:16:38,  1.13s/it]                                                           {'loss': 0.1858, 'grad_norm': 2.9214072227478027, 'learning_rate': 2.618020466222241e-05, 'epoch': 5.15}
 21%|██▏       | 16854/78504 [10:14:24<19:16:38,  1.13s/it] 21%|██▏       | 16855/78504 [10:14:25<17:32:11,  1.02s/it]                                                           {'loss': 0.2264, 'grad_norm': 1.155037760734558, 'learning_rate': 2.6179780051802473e-05, 'epoch': 5.15}
 21%|██▏       | 16855/78504 [10:14:25<17:32:11,  1.02s/it] 21%|██▏       | 16856/78504 [10:14:35<62:29:34,  3.65s/it]                                                           {'loss': 0.1109, 'grad_norm': 0.3373599052429199, 'learning_rate': 2.6179355441382532e-05, 'epoch': 5.15}
 21%|██▏       | 16856/78504 [10:14:35<62:29:34,  3.65s/it] 21%|██▏       | 16857/78504 [10:14:38<60:30:30,  3.53s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.24492037296295166, 'learning_rate': 2.6178930830962594e-05, 'epoch': 5.15}
 21%|██▏       | 16857/78504 [10:14:38<60:30:30,  3.53s/it] 21%|██▏       | 16858/78504 [10:14:41<57:40:06,  3.37s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.19454927742481232, 'learning_rate': 2.6178506220542653e-05, 'epoch': 5.15}
 21%|██▏       | 16858/78504 [10:14:41<57:40:06,  3.37s/it] 21%|██▏       | 16859/78504 [10:14:43<53:40:24,  3.13s/it]                                                           {'loss': 0.07, 'grad_norm': 0.3962819278240204, 'learning_rate': 2.617808161012271e-05, 'epoch': 5.15}
 21%|██▏       | 16859/78504 [10:14:44<53:40:24,  3.13s/it] 21%|██▏       | 16860/78504 [10:14:46<50:14:41,  2.93s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.25729432702064514, 'learning_rate': 2.6177656999702774e-05, 'epoch': 5.15}
 21%|██▏       | 16860/78504 [10:14:46<50:14:41,  2.93s/it] 21%|██▏       | 16861/78504 [10:14:48<46:49:33,  2.73s/it]                                                           {'loss': 0.072, 'grad_norm': 0.22803710401058197, 'learning_rate': 2.6177232389282832e-05, 'epoch': 5.15}
 21%|██▏       | 16861/78504 [10:14:48<46:49:33,  2.73s/it] 21%|██▏       | 16862/78504 [10:14:51<44:40:45,  2.61s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.20339612662792206, 'learning_rate': 2.6176807778862894e-05, 'epoch': 5.15}
 21%|██▏       | 16862/78504 [10:14:51<44:40:45,  2.61s/it] 21%|██▏       | 16863/78504 [10:14:53<42:09:21,  2.46s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.43626946210861206, 'learning_rate': 2.6176383168442953e-05, 'epoch': 5.16}
 21%|██▏       | 16863/78504 [10:14:53<42:09:21,  2.46s/it] 21%|██▏       | 16864/78504 [10:14:55<40:44:06,  2.38s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.26710015535354614, 'learning_rate': 2.6175958558023015e-05, 'epoch': 5.16}
 21%|██▏       | 16864/78504 [10:14:55<40:44:06,  2.38s/it] 21%|██▏       | 16865/78504 [10:14:57<39:31:25,  2.31s/it]                                                           {'loss': 0.0756, 'grad_norm': 0.4323484003543854, 'learning_rate': 2.6175533947603074e-05, 'epoch': 5.16}
 21%|██▏       | 16865/78504 [10:14:57<39:31:25,  2.31s/it] 21%|██▏       | 16866/78504 [10:14:59<38:04:23,  2.22s/it]                                                           {'loss': 0.0794, 'grad_norm': 0.6659135222434998, 'learning_rate': 2.6175109337183136e-05, 'epoch': 5.16}
 21%|██▏       | 16866/78504 [10:14:59<38:04:23,  2.22s/it] 21%|██▏       | 16867/78504 [10:15:01<36:48:11,  2.15s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.20239800214767456, 'learning_rate': 2.6174684726763195e-05, 'epoch': 5.16}
 21%|██▏       | 16867/78504 [10:15:01<36:48:11,  2.15s/it] 21%|██▏       | 16868/78504 [10:15:03<35:21:16,  2.06s/it]                                                           {'loss': 0.0867, 'grad_norm': 0.333680659532547, 'learning_rate': 2.6174260116343257e-05, 'epoch': 5.16}
 21%|██▏       | 16868/78504 [10:15:03<35:21:16,  2.06s/it] 21%|██▏       | 16869/78504 [10:15:05<34:23:58,  2.01s/it]                                                           {'loss': 0.1529, 'grad_norm': 0.3469800055027008, 'learning_rate': 2.6173835505923315e-05, 'epoch': 5.16}
 21%|██▏       | 16869/78504 [10:15:05<34:23:58,  2.01s/it] 21%|██▏       | 16870/78504 [10:15:07<33:07:51,  1.94s/it]                                                           {'loss': 0.1209, 'grad_norm': 0.5727220773696899, 'learning_rate': 2.6173410895503378e-05, 'epoch': 5.16}
 21%|██▏       | 16870/78504 [10:15:07<33:07:51,  1.94s/it] 21%|██▏       | 16871/78504 [10:15:08<31:43:49,  1.85s/it]                                                           {'loss': 0.1078, 'grad_norm': 0.44612035155296326, 'learning_rate': 2.6172986285083436e-05, 'epoch': 5.16}
 21%|██▏       | 16871/78504 [10:15:08<31:43:49,  1.85s/it] 21%|██▏       | 16872/78504 [10:15:10<30:07:35,  1.76s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.5471586585044861, 'learning_rate': 2.6172561674663495e-05, 'epoch': 5.16}
 21%|██▏       | 16872/78504 [10:15:10<30:07:35,  1.76s/it] 21%|██▏       | 16873/78504 [10:15:11<28:39:55,  1.67s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.4438742995262146, 'learning_rate': 2.6172137064243557e-05, 'epoch': 5.16}
 21%|██▏       | 16873/78504 [10:15:11<28:39:55,  1.67s/it] 21%|██▏       | 16874/78504 [10:15:13<27:07:57,  1.58s/it]                                                           {'loss': 0.1779, 'grad_norm': 0.8351784348487854, 'learning_rate': 2.6171712453823616e-05, 'epoch': 5.16}
 21%|██▏       | 16874/78504 [10:15:13<27:07:57,  1.58s/it] 21%|██▏       | 16875/78504 [10:15:14<25:37:24,  1.50s/it]                                                           {'loss': 0.1691, 'grad_norm': 1.6869258880615234, 'learning_rate': 2.6171287843403678e-05, 'epoch': 5.16}
 21%|██▏       | 16875/78504 [10:15:14<25:37:24,  1.50s/it] 21%|██▏       | 16876/78504 [10:15:15<23:51:10,  1.39s/it]                                                           {'loss': 0.1665, 'grad_norm': 0.9334918856620789, 'learning_rate': 2.6170863232983736e-05, 'epoch': 5.16}
 21%|██▏       | 16876/78504 [10:15:15<23:51:10,  1.39s/it] 21%|██▏       | 16877/78504 [10:15:16<22:18:06,  1.30s/it]                                                           {'loss': 0.1676, 'grad_norm': 0.5144487023353577, 'learning_rate': 2.61704386225638e-05, 'epoch': 5.16}
 21%|██▏       | 16877/78504 [10:15:16<22:18:06,  1.30s/it] 21%|██▏       | 16878/78504 [10:15:17<20:58:00,  1.22s/it]                                                           {'loss': 0.1681, 'grad_norm': 1.0443432331085205, 'learning_rate': 2.6170014012143857e-05, 'epoch': 5.16}
 21%|██▏       | 16878/78504 [10:15:17<20:58:00,  1.22s/it] 22%|██▏       | 16879/78504 [10:15:18<19:34:06,  1.14s/it]                                                           {'loss': 0.1646, 'grad_norm': 1.4257978200912476, 'learning_rate': 2.616958940172392e-05, 'epoch': 5.16}
 22%|██▏       | 16879/78504 [10:15:18<19:34:06,  1.14s/it] 22%|██▏       | 16880/78504 [10:15:19<17:43:18,  1.04s/it]                                                           {'loss': 0.2422, 'grad_norm': 3.552338123321533, 'learning_rate': 2.6169164791303978e-05, 'epoch': 5.16}
 22%|██▏       | 16880/78504 [10:15:19<17:43:18,  1.04s/it] 22%|██▏       | 16881/78504 [10:15:29<64:46:00,  3.78s/it]                                                           {'loss': 0.168, 'grad_norm': 0.3799952566623688, 'learning_rate': 2.616874018088404e-05, 'epoch': 5.16}
 22%|██▏       | 16881/78504 [10:15:29<64:46:00,  3.78s/it] 22%|██▏       | 16882/78504 [10:15:32<62:18:22,  3.64s/it]                                                           {'loss': 0.0947, 'grad_norm': 0.5557749271392822, 'learning_rate': 2.61683155704641e-05, 'epoch': 5.16}
 22%|██▏       | 16882/78504 [10:15:32<62:18:22,  3.64s/it] 22%|██▏       | 16883/78504 [10:15:35<59:05:10,  3.45s/it]                                                           {'loss': 0.0892, 'grad_norm': 0.22231914103031158, 'learning_rate': 2.6167890960044158e-05, 'epoch': 5.16}
 22%|██▏       | 16883/78504 [10:15:35<59:05:10,  3.45s/it] 22%|██▏       | 16884/78504 [10:15:38<54:48:37,  3.20s/it]                                                           {'loss': 0.047, 'grad_norm': 0.22168171405792236, 'learning_rate': 2.616746634962422e-05, 'epoch': 5.16}
 22%|██▏       | 16884/78504 [10:15:38<54:48:37,  3.20s/it] 22%|██▏       | 16885/78504 [10:15:40<51:01:54,  2.98s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.1694391816854477, 'learning_rate': 2.616704173920428e-05, 'epoch': 5.16}
 22%|██▏       | 16885/78504 [10:15:41<51:01:54,  2.98s/it] 22%|██▏       | 16886/78504 [10:15:43<48:19:09,  2.82s/it]                                                           {'loss': 0.071, 'grad_norm': 0.22036725282669067, 'learning_rate': 2.616661712878434e-05, 'epoch': 5.16}
 22%|██▏       | 16886/78504 [10:15:43<48:19:09,  2.82s/it] 22%|██▏       | 16887/78504 [10:15:45<45:42:24,  2.67s/it]                                                           {'loss': 0.0461, 'grad_norm': 0.4096008837223053, 'learning_rate': 2.61661925183644e-05, 'epoch': 5.16}
 22%|██▏       | 16887/78504 [10:15:45<45:42:24,  2.67s/it] 22%|██▏       | 16888/78504 [10:15:48<43:50:28,  2.56s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.2336195558309555, 'learning_rate': 2.616576790794446e-05, 'epoch': 5.16}
 22%|██▏       | 16888/78504 [10:15:48<43:50:28,  2.56s/it] 22%|██▏       | 16889/78504 [10:15:50<41:57:22,  2.45s/it]                                                           {'loss': 0.0558, 'grad_norm': 1.5247132778167725, 'learning_rate': 2.616534329752452e-05, 'epoch': 5.16}
 22%|██▏       | 16889/78504 [10:15:50<41:57:22,  2.45s/it] 22%|██▏       | 16890/78504 [10:15:52<40:28:59,  2.37s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.2525153160095215, 'learning_rate': 2.6164918687104582e-05, 'epoch': 5.16}
 22%|██▏       | 16890/78504 [10:15:52<40:28:59,  2.37s/it] 22%|██▏       | 16891/78504 [10:15:54<38:18:32,  2.24s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.4316021203994751, 'learning_rate': 2.616449407668464e-05, 'epoch': 5.16}
 22%|██▏       | 16891/78504 [10:15:54<38:18:32,  2.24s/it] 22%|██▏       | 16892/78504 [10:15:56<37:00:02,  2.16s/it]                                                           {'loss': 0.0719, 'grad_norm': 6.545958518981934, 'learning_rate': 2.6164069466264703e-05, 'epoch': 5.16}
 22%|██▏       | 16892/78504 [10:15:56<37:00:02,  2.16s/it] 22%|██▏       | 16893/78504 [10:15:58<35:04:59,  2.05s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.27365946769714355, 'learning_rate': 2.616364485584476e-05, 'epoch': 5.16}
 22%|██▏       | 16893/78504 [10:15:58<35:04:59,  2.05s/it] 22%|██▏       | 16894/78504 [10:16:00<34:14:24,  2.00s/it]                                                           {'loss': 0.1138, 'grad_norm': 0.4729461669921875, 'learning_rate': 2.6163220245424824e-05, 'epoch': 5.16}
 22%|██▏       | 16894/78504 [10:16:00<34:14:24,  2.00s/it] 22%|██▏       | 16895/78504 [10:16:01<33:00:56,  1.93s/it]                                                           {'loss': 0.1122, 'grad_norm': 0.713455080986023, 'learning_rate': 2.6162795635004882e-05, 'epoch': 5.17}
 22%|██▏       | 16895/78504 [10:16:01<33:00:56,  1.93s/it] 22%|██▏       | 16896/78504 [10:16:03<31:33:42,  1.84s/it]                                                           {'loss': 0.1062, 'grad_norm': 0.4011973440647125, 'learning_rate': 2.616237102458494e-05, 'epoch': 5.17}
 22%|██▏       | 16896/78504 [10:16:03<31:33:42,  1.84s/it] 22%|██▏       | 16897/78504 [10:16:04<29:42:27,  1.74s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.6319785714149475, 'learning_rate': 2.6161946414165003e-05, 'epoch': 5.17}
 22%|██▏       | 16897/78504 [10:16:04<29:42:27,  1.74s/it] 22%|██▏       | 16898/78504 [10:16:06<28:34:14,  1.67s/it]                                                           {'loss': 0.1887, 'grad_norm': 0.5535654425621033, 'learning_rate': 2.6161521803745062e-05, 'epoch': 5.17}
 22%|██▏       | 16898/78504 [10:16:06<28:34:14,  1.67s/it] 22%|██▏       | 16899/78504 [10:16:07<27:14:02,  1.59s/it]                                                           {'loss': 0.1519, 'grad_norm': 0.7565202116966248, 'learning_rate': 2.6161097193325124e-05, 'epoch': 5.17}
 22%|██▏       | 16899/78504 [10:16:07<27:14:02,  1.59s/it] 22%|██▏       | 16900/78504 [10:16:09<25:42:33,  1.50s/it]                                                           {'loss': 0.1793, 'grad_norm': 0.6322049498558044, 'learning_rate': 2.6160672582905183e-05, 'epoch': 5.17}
 22%|██▏       | 16900/78504 [10:16:09<25:42:33,  1.50s/it] 22%|██▏       | 16901/78504 [10:16:10<24:11:36,  1.41s/it]                                                           {'loss': 0.1617, 'grad_norm': 0.8369337916374207, 'learning_rate': 2.6160247972485245e-05, 'epoch': 5.17}
 22%|██▏       | 16901/78504 [10:16:10<24:11:36,  1.41s/it] 22%|██▏       | 16902/78504 [10:16:11<22:34:47,  1.32s/it]                                                           {'loss': 0.1886, 'grad_norm': 1.0530232191085815, 'learning_rate': 2.6159823362065303e-05, 'epoch': 5.17}
 22%|██▏       | 16902/78504 [10:16:11<22:34:47,  1.32s/it] 22%|██▏       | 16903/78504 [10:16:12<21:11:18,  1.24s/it]                                                           {'loss': 0.2047, 'grad_norm': 1.3118261098861694, 'learning_rate': 2.6159398751645365e-05, 'epoch': 5.17}
 22%|██▏       | 16903/78504 [10:16:12<21:11:18,  1.24s/it] 22%|██▏       | 16904/78504 [10:16:13<19:35:26,  1.14s/it]                                                           {'loss': 0.1949, 'grad_norm': 0.7179185152053833, 'learning_rate': 2.6158974141225424e-05, 'epoch': 5.17}
 22%|██▏       | 16904/78504 [10:16:13<19:35:26,  1.14s/it] 22%|██▏       | 16905/78504 [10:16:14<17:44:51,  1.04s/it]                                                           {'loss': 0.1725, 'grad_norm': 2.3610525131225586, 'learning_rate': 2.6158549530805486e-05, 'epoch': 5.17}
 22%|██▏       | 16905/78504 [10:16:14<17:44:51,  1.04s/it] 22%|██▏       | 16906/78504 [10:16:22<55:44:09,  3.26s/it]                                                           {'loss': 0.1229, 'grad_norm': 0.26937025785446167, 'learning_rate': 2.6158124920385545e-05, 'epoch': 5.17}
 22%|██▏       | 16906/78504 [10:16:22<55:44:09,  3.26s/it] 22%|██▏       | 16907/78504 [10:16:25<55:08:25,  3.22s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.3028858006000519, 'learning_rate': 2.6157700309965607e-05, 'epoch': 5.17}
 22%|██▏       | 16907/78504 [10:16:25<55:08:25,  3.22s/it] 22%|██▏       | 16908/78504 [10:16:28<53:54:27,  3.15s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.3587085008621216, 'learning_rate': 2.615727569954567e-05, 'epoch': 5.17}
 22%|██▏       | 16908/78504 [10:16:28<53:54:27,  3.15s/it] 22%|██▏       | 16909/78504 [10:16:31<51:09:13,  2.99s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.18767020106315613, 'learning_rate': 2.6156851089125728e-05, 'epoch': 5.17}
 22%|██▏       | 16909/78504 [10:16:31<51:09:13,  2.99s/it] 22%|██▏       | 16910/78504 [10:16:33<48:29:50,  2.83s/it]                                                           {'loss': 0.0486, 'grad_norm': 0.20928974449634552, 'learning_rate': 2.615642647870579e-05, 'epoch': 5.17}
 22%|██▏       | 16910/78504 [10:16:33<48:29:50,  2.83s/it] 22%|██▏       | 16911/78504 [10:16:36<45:34:29,  2.66s/it]                                                           {'loss': 0.0431, 'grad_norm': 0.15703293681144714, 'learning_rate': 2.615600186828585e-05, 'epoch': 5.17}
 22%|██▏       | 16911/78504 [10:16:36<45:34:29,  2.66s/it] 22%|██▏       | 16912/78504 [10:16:38<43:47:46,  2.56s/it]                                                           {'loss': 0.07, 'grad_norm': 0.2539346516132355, 'learning_rate': 2.615557725786591e-05, 'epoch': 5.17}
 22%|██▏       | 16912/78504 [10:16:38<43:47:46,  2.56s/it] 22%|██▏       | 16913/78504 [10:16:40<41:22:12,  2.42s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.5431164503097534, 'learning_rate': 2.615515264744597e-05, 'epoch': 5.17}
 22%|██▏       | 16913/78504 [10:16:40<41:22:12,  2.42s/it] 22%|██▏       | 16914/78504 [10:16:42<40:10:40,  2.35s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.27502962946891785, 'learning_rate': 2.615472803702603e-05, 'epoch': 5.17}
 22%|██▏       | 16914/78504 [10:16:42<40:10:40,  2.35s/it] 22%|██▏       | 16915/78504 [10:16:44<39:06:22,  2.29s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.26462092995643616, 'learning_rate': 2.615430342660609e-05, 'epoch': 5.17}
 22%|██▏       | 16915/78504 [10:16:44<39:06:22,  2.29s/it] 22%|██▏       | 16916/78504 [10:16:46<37:46:00,  2.21s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.24564941227436066, 'learning_rate': 2.6153878816186152e-05, 'epoch': 5.17}
 22%|██▏       | 16916/78504 [10:16:46<37:46:00,  2.21s/it] 22%|██▏       | 16917/78504 [10:16:48<36:35:53,  2.14s/it]                                                           {'loss': 0.0845, 'grad_norm': 0.45104992389678955, 'learning_rate': 2.615345420576621e-05, 'epoch': 5.17}
 22%|██▏       | 16917/78504 [10:16:48<36:35:53,  2.14s/it] 22%|██▏       | 16918/78504 [10:16:50<35:10:48,  2.06s/it]                                                           {'loss': 0.0865, 'grad_norm': 3.0868422985076904, 'learning_rate': 2.6153029595346273e-05, 'epoch': 5.17}
 22%|██▏       | 16918/78504 [10:16:50<35:10:48,  2.06s/it] 22%|██▏       | 16919/78504 [10:16:52<34:02:05,  1.99s/it]                                                           {'loss': 0.1326, 'grad_norm': 0.44217467308044434, 'learning_rate': 2.6152604984926332e-05, 'epoch': 5.17}
 22%|██▏       | 16919/78504 [10:16:52<34:02:05,  1.99s/it] 22%|██▏       | 16920/78504 [10:16:54<32:58:01,  1.93s/it]                                                           {'loss': 0.0989, 'grad_norm': 0.7014266848564148, 'learning_rate': 2.6152180374506394e-05, 'epoch': 5.17}
 22%|██▏       | 16920/78504 [10:16:54<32:58:01,  1.93s/it] 22%|██▏       | 16921/78504 [10:16:55<31:31:01,  1.84s/it]                                                           {'loss': 0.1479, 'grad_norm': 0.6723583340644836, 'learning_rate': 2.6151755764086453e-05, 'epoch': 5.17}
 22%|██▏       | 16921/78504 [10:16:55<31:31:01,  1.84s/it] 22%|██▏       | 16922/78504 [10:16:57<29:57:17,  1.75s/it]                                                           {'loss': 0.1784, 'grad_norm': 7.2451171875, 'learning_rate': 2.615133115366651e-05, 'epoch': 5.17}
 22%|██▏       | 16922/78504 [10:16:57<29:57:17,  1.75s/it] 22%|██▏       | 16923/78504 [10:16:58<28:30:18,  1.67s/it]                                                           {'loss': 0.1566, 'grad_norm': 0.3786543905735016, 'learning_rate': 2.6150906543246573e-05, 'epoch': 5.17}
 22%|██▏       | 16923/78504 [10:16:58<28:30:18,  1.67s/it] 22%|██▏       | 16924/78504 [10:17:00<27:10:44,  1.59s/it]                                                           {'loss': 0.1665, 'grad_norm': 0.5562983751296997, 'learning_rate': 2.6150481932826632e-05, 'epoch': 5.17}
 22%|██▏       | 16924/78504 [10:17:00<27:10:44,  1.59s/it] 22%|██▏       | 16925/78504 [10:17:01<25:36:03,  1.50s/it]                                                           {'loss': 0.1603, 'grad_norm': 0.8975144028663635, 'learning_rate': 2.6150057322406694e-05, 'epoch': 5.17}
 22%|██▏       | 16925/78504 [10:17:01<25:36:03,  1.50s/it] 22%|██▏       | 16926/78504 [10:17:02<23:47:06,  1.39s/it]                                                           {'loss': 0.1814, 'grad_norm': 3.6429529190063477, 'learning_rate': 2.6149632711986753e-05, 'epoch': 5.17}
 22%|██▏       | 16926/78504 [10:17:02<23:47:06,  1.39s/it] 22%|██▏       | 16927/78504 [10:17:03<22:18:45,  1.30s/it]                                                           {'loss': 0.1578, 'grad_norm': 0.9929733872413635, 'learning_rate': 2.6149208101566815e-05, 'epoch': 5.17}
 22%|██▏       | 16927/78504 [10:17:03<22:18:45,  1.30s/it] 22%|██▏       | 16928/78504 [10:17:04<21:02:02,  1.23s/it]                                                           {'loss': 0.1513, 'grad_norm': 1.0302854776382446, 'learning_rate': 2.6148783491146874e-05, 'epoch': 5.18}
 22%|██▏       | 16928/78504 [10:17:04<21:02:02,  1.23s/it] 22%|██▏       | 16929/78504 [10:17:05<19:33:33,  1.14s/it]                                                           {'loss': 0.1926, 'grad_norm': 1.0736396312713623, 'learning_rate': 2.6148358880726936e-05, 'epoch': 5.18}
 22%|██▏       | 16929/78504 [10:17:05<19:33:33,  1.14s/it] 22%|██▏       | 16930/78504 [10:17:06<17:41:28,  1.03s/it]                                                           {'loss': 0.1935, 'grad_norm': 1.6320469379425049, 'learning_rate': 2.6147934270306994e-05, 'epoch': 5.18}
 22%|██▏       | 16930/78504 [10:17:06<17:41:28,  1.03s/it] 22%|██▏       | 16931/78504 [10:17:15<58:52:11,  3.44s/it]                                                           {'loss': 0.1349, 'grad_norm': 1.3052235841751099, 'learning_rate': 2.6147509659887056e-05, 'epoch': 5.18}
 22%|██▏       | 16931/78504 [10:17:15<58:52:11,  3.44s/it] 22%|██▏       | 16932/78504 [10:17:18<57:00:32,  3.33s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.6789337992668152, 'learning_rate': 2.6147085049467115e-05, 'epoch': 5.18}
 22%|██▏       | 16932/78504 [10:17:18<57:00:32,  3.33s/it] 22%|██▏       | 16933/78504 [10:17:21<55:12:21,  3.23s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.46218910813331604, 'learning_rate': 2.6146660439047177e-05, 'epoch': 5.18}
 22%|██▏       | 16933/78504 [10:17:21<55:12:21,  3.23s/it] 22%|██▏       | 16934/78504 [10:17:24<51:56:49,  3.04s/it]                                                           {'loss': 0.0478, 'grad_norm': 0.22012034058570862, 'learning_rate': 2.6146235828627236e-05, 'epoch': 5.18}
 22%|██▏       | 16934/78504 [10:17:24<51:56:49,  3.04s/it] 22%|██▏       | 16935/78504 [10:17:26<49:08:18,  2.87s/it]                                                           {'loss': 0.0419, 'grad_norm': 0.23578347265720367, 'learning_rate': 2.6145811218207295e-05, 'epoch': 5.18}
 22%|██▏       | 16935/78504 [10:17:26<49:08:18,  2.87s/it] 22%|██▏       | 16936/78504 [10:17:29<46:29:14,  2.72s/it]                                                           {'loss': 0.0649, 'grad_norm': 1.2356555461883545, 'learning_rate': 2.6145386607787357e-05, 'epoch': 5.18}
 22%|██▏       | 16936/78504 [10:17:29<46:29:14,  2.72s/it] 22%|██▏       | 16937/78504 [10:17:31<44:28:50,  2.60s/it]                                                           {'loss': 0.0471, 'grad_norm': 0.3874727487564087, 'learning_rate': 2.6144961997367415e-05, 'epoch': 5.18}
 22%|██▏       | 16937/78504 [10:17:31<44:28:50,  2.60s/it] 22%|██▏       | 16938/78504 [10:17:33<42:44:47,  2.50s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.6896043419837952, 'learning_rate': 2.6144537386947478e-05, 'epoch': 5.18}
 22%|██▏       | 16938/78504 [10:17:33<42:44:47,  2.50s/it] 22%|██▏       | 16939/78504 [10:17:36<41:10:11,  2.41s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.8112092614173889, 'learning_rate': 2.6144112776527536e-05, 'epoch': 5.18}
 22%|██▏       | 16939/78504 [10:17:36<41:10:11,  2.41s/it] 22%|██▏       | 16940/78504 [10:17:38<39:48:52,  2.33s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.45350679755210876, 'learning_rate': 2.61436881661076e-05, 'epoch': 5.18}
 22%|██▏       | 16940/78504 [10:17:38<39:48:52,  2.33s/it] 22%|██▏       | 16941/78504 [10:17:40<38:05:52,  2.23s/it]                                                           {'loss': 0.0973, 'grad_norm': 1.4165873527526855, 'learning_rate': 2.6143263555687657e-05, 'epoch': 5.18}
 22%|██▏       | 16941/78504 [10:17:40<38:05:52,  2.23s/it] 22%|██▏       | 16942/78504 [10:17:41<35:54:01,  2.10s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.6647264361381531, 'learning_rate': 2.614283894526772e-05, 'epoch': 5.18}
 22%|██▏       | 16942/78504 [10:17:41<35:54:01,  2.10s/it] 22%|██▏       | 16943/78504 [10:17:43<34:43:37,  2.03s/it]                                                           {'loss': 0.0993, 'grad_norm': 0.8899637460708618, 'learning_rate': 2.6142414334847778e-05, 'epoch': 5.18}
 22%|██▏       | 16943/78504 [10:17:43<34:43:37,  2.03s/it] 22%|██▏       | 16944/78504 [10:17:45<33:43:20,  1.97s/it]                                                           {'loss': 0.1301, 'grad_norm': 1.4926029443740845, 'learning_rate': 2.614198972442784e-05, 'epoch': 5.18}
 22%|██▏       | 16944/78504 [10:17:45<33:43:20,  1.97s/it] 22%|██▏       | 16945/78504 [10:17:47<32:27:31,  1.90s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.6135749220848083, 'learning_rate': 2.61415651140079e-05, 'epoch': 5.18}
 22%|██▏       | 16945/78504 [10:17:47<32:27:31,  1.90s/it] 22%|██▏       | 16946/78504 [10:17:49<31:10:02,  1.82s/it]                                                           {'loss': 0.15, 'grad_norm': 0.8462659120559692, 'learning_rate': 2.614114050358796e-05, 'epoch': 5.18}
 22%|██▏       | 16946/78504 [10:17:49<31:10:02,  1.82s/it] 22%|██▏       | 16947/78504 [10:17:50<29:38:38,  1.73s/it]                                                           {'loss': 0.1494, 'grad_norm': 1.1835358142852783, 'learning_rate': 2.614071589316802e-05, 'epoch': 5.18}
 22%|██▏       | 16947/78504 [10:17:50<29:38:38,  1.73s/it] 22%|██▏       | 16948/78504 [10:17:52<28:16:56,  1.65s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.8606416583061218, 'learning_rate': 2.6140291282748078e-05, 'epoch': 5.18}
 22%|██▏       | 16948/78504 [10:17:52<28:16:56,  1.65s/it] 22%|██▏       | 16949/78504 [10:17:53<27:04:43,  1.58s/it]                                                           {'loss': 0.159, 'grad_norm': 0.8310849666595459, 'learning_rate': 2.613986667232814e-05, 'epoch': 5.18}
 22%|██▏       | 16949/78504 [10:17:53<27:04:43,  1.58s/it] 22%|██▏       | 16950/78504 [10:17:54<25:33:40,  1.49s/it]                                                           {'loss': 0.1595, 'grad_norm': 1.214922547340393, 'learning_rate': 2.61394420619082e-05, 'epoch': 5.18}
 22%|██▏       | 16950/78504 [10:17:54<25:33:40,  1.49s/it] 22%|██▏       | 16951/78504 [10:17:55<23:49:08,  1.39s/it]                                                           {'loss': 0.1736, 'grad_norm': 10.961921691894531, 'learning_rate': 2.613901745148826e-05, 'epoch': 5.18}
 22%|██▏       | 16951/78504 [10:17:55<23:49:08,  1.39s/it] 22%|██▏       | 16952/78504 [10:17:56<22:17:07,  1.30s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.6809720396995544, 'learning_rate': 2.613859284106832e-05, 'epoch': 5.18}
 22%|██▏       | 16952/78504 [10:17:57<22:17:07,  1.30s/it] 22%|██▏       | 16953/78504 [10:17:57<20:38:53,  1.21s/it]                                                           {'loss': 0.1807, 'grad_norm': 1.3250495195388794, 'learning_rate': 2.6138168230648382e-05, 'epoch': 5.18}
 22%|██▏       | 16953/78504 [10:17:57<20:38:53,  1.21s/it] 22%|██▏       | 16954/78504 [10:17:58<19:17:12,  1.13s/it]                                                           {'loss': 0.1662, 'grad_norm': 1.0524958372116089, 'learning_rate': 2.613774362022844e-05, 'epoch': 5.18}
 22%|██▏       | 16954/78504 [10:17:58<19:17:12,  1.13s/it] 22%|██▏       | 16955/78504 [10:17:59<17:33:16,  1.03s/it]                                                           {'loss': 0.2429, 'grad_norm': 2.1401660442352295, 'learning_rate': 2.6137319009808503e-05, 'epoch': 5.18}
 22%|██▏       | 16955/78504 [10:17:59<17:33:16,  1.03s/it] 22%|██▏       | 16956/78504 [10:18:07<52:58:51,  3.10s/it]                                                           {'loss': 0.1409, 'grad_norm': 0.6269713640213013, 'learning_rate': 2.613689439938856e-05, 'epoch': 5.18}
 22%|██▏       | 16956/78504 [10:18:07<52:58:51,  3.10s/it] 22%|██▏       | 16957/78504 [10:18:10<52:01:57,  3.04s/it]                                                           {'loss': 0.091, 'grad_norm': 0.5498161911964417, 'learning_rate': 2.6136469788968623e-05, 'epoch': 5.18}
 22%|██▏       | 16957/78504 [10:18:10<52:01:57,  3.04s/it] 22%|██▏       | 16958/78504 [10:18:13<52:11:07,  3.05s/it]                                                           {'loss': 0.0756, 'grad_norm': 0.18192759156227112, 'learning_rate': 2.6136045178548682e-05, 'epoch': 5.18}
 22%|██▏       | 16958/78504 [10:18:13<52:11:07,  3.05s/it] 22%|██▏       | 16959/78504 [10:18:16<50:07:20,  2.93s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.16490939259529114, 'learning_rate': 2.6135620568128744e-05, 'epoch': 5.18}
 22%|██▏       | 16959/78504 [10:18:16<50:07:20,  2.93s/it] 22%|██▏       | 16960/78504 [10:18:18<47:51:29,  2.80s/it]                                                           {'loss': 0.0406, 'grad_norm': 0.30743834376335144, 'learning_rate': 2.6135195957708803e-05, 'epoch': 5.18}
 22%|██▏       | 16960/78504 [10:18:18<47:51:29,  2.80s/it] 22%|██▏       | 16961/78504 [10:18:21<46:04:48,  2.70s/it]                                                           {'loss': 0.0427, 'grad_norm': 0.21214307844638824, 'learning_rate': 2.613477134728886e-05, 'epoch': 5.19}
 22%|██▏       | 16961/78504 [10:18:21<46:04:48,  2.70s/it] 22%|██▏       | 16962/78504 [10:18:23<44:22:04,  2.60s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.3593412935733795, 'learning_rate': 2.6134346736868924e-05, 'epoch': 5.19}
 22%|██▏       | 16962/78504 [10:18:23<44:22:04,  2.60s/it] 22%|██▏       | 16963/78504 [10:18:25<42:55:33,  2.51s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.35203590989112854, 'learning_rate': 2.6133922126448982e-05, 'epoch': 5.19}
 22%|██▏       | 16963/78504 [10:18:25<42:55:33,  2.51s/it] 22%|██▏       | 16964/78504 [10:18:27<40:34:34,  2.37s/it]                                                           {'loss': 0.0379, 'grad_norm': 0.16775096952915192, 'learning_rate': 2.6133497516029044e-05, 'epoch': 5.19}
 22%|██▏       | 16964/78504 [10:18:27<40:34:34,  2.37s/it] 22%|██▏       | 16965/78504 [10:18:30<39:29:10,  2.31s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.8918443918228149, 'learning_rate': 2.6133072905609103e-05, 'epoch': 5.19}
 22%|██▏       | 16965/78504 [10:18:30<39:29:10,  2.31s/it] 22%|██▏       | 16966/78504 [10:18:31<37:09:25,  2.17s/it]                                                           {'loss': 0.0773, 'grad_norm': 1.7471051216125488, 'learning_rate': 2.6132648295189165e-05, 'epoch': 5.19}
 22%|██▏       | 16966/78504 [10:18:31<37:09:25,  2.17s/it] 22%|██▏       | 16967/78504 [10:18:33<36:10:34,  2.12s/it]                                                           {'loss': 0.0895, 'grad_norm': 0.3241240084171295, 'learning_rate': 2.6132223684769224e-05, 'epoch': 5.19}
 22%|██▏       | 16967/78504 [10:18:33<36:10:34,  2.12s/it] 22%|██▏       | 16968/78504 [10:18:35<35:12:36,  2.06s/it]                                                           {'loss': 0.0984, 'grad_norm': 1.5235614776611328, 'learning_rate': 2.6131799074349286e-05, 'epoch': 5.19}
 22%|██▏       | 16968/78504 [10:18:35<35:12:36,  2.06s/it] 22%|██▏       | 16969/78504 [10:18:37<34:20:33,  2.01s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.4613686501979828, 'learning_rate': 2.6131374463929345e-05, 'epoch': 5.19}
 22%|██▏       | 16969/78504 [10:18:37<34:20:33,  2.01s/it] 22%|██▏       | 16970/78504 [10:18:39<33:06:18,  1.94s/it]                                                           {'loss': 0.1169, 'grad_norm': 0.39312100410461426, 'learning_rate': 2.6130949853509407e-05, 'epoch': 5.19}
 22%|██▏       | 16970/78504 [10:18:39<33:06:18,  1.94s/it] 22%|██▏       | 16971/78504 [10:18:41<31:37:57,  1.85s/it]                                                           {'loss': 0.1358, 'grad_norm': 0.6429910063743591, 'learning_rate': 2.6130525243089465e-05, 'epoch': 5.19}
 22%|██▏       | 16971/78504 [10:18:41<31:37:57,  1.85s/it] 22%|██▏       | 16972/78504 [10:18:42<30:03:38,  1.76s/it]                                                           {'loss': 0.1694, 'grad_norm': 0.4895278513431549, 'learning_rate': 2.6130100632669528e-05, 'epoch': 5.19}
 22%|██▏       | 16972/78504 [10:18:42<30:03:38,  1.76s/it] 22%|██▏       | 16973/78504 [10:18:44<28:33:30,  1.67s/it]                                                           {'loss': 0.1475, 'grad_norm': 1.2082911729812622, 'learning_rate': 2.6129676022249586e-05, 'epoch': 5.19}
 22%|██▏       | 16973/78504 [10:18:44<28:33:30,  1.67s/it] 22%|██▏       | 16974/78504 [10:18:45<27:16:19,  1.60s/it]                                                           {'loss': 0.1653, 'grad_norm': 0.927025318145752, 'learning_rate': 2.6129251411829645e-05, 'epoch': 5.19}
 22%|██▏       | 16974/78504 [10:18:45<27:16:19,  1.60s/it] 22%|██▏       | 16975/78504 [10:18:46<25:41:36,  1.50s/it]                                                           {'loss': 0.1573, 'grad_norm': 0.9603756666183472, 'learning_rate': 2.6128826801409707e-05, 'epoch': 5.19}
 22%|██▏       | 16975/78504 [10:18:46<25:41:36,  1.50s/it] 22%|██▏       | 16976/78504 [10:18:48<23:45:19,  1.39s/it]                                                           {'loss': 0.1792, 'grad_norm': 1.4875503778457642, 'learning_rate': 2.6128402190989766e-05, 'epoch': 5.19}
 22%|██▏       | 16976/78504 [10:18:48<23:45:19,  1.39s/it] 22%|██▏       | 16977/78504 [10:18:49<22:14:48,  1.30s/it]                                                           {'loss': 0.1729, 'grad_norm': 1.3839737176895142, 'learning_rate': 2.6127977580569828e-05, 'epoch': 5.19}
 22%|██▏       | 16977/78504 [10:18:49<22:14:48,  1.30s/it] 22%|██▏       | 16978/78504 [10:18:50<20:39:52,  1.21s/it]                                                           {'loss': 0.1672, 'grad_norm': 0.6470495462417603, 'learning_rate': 2.6127552970149887e-05, 'epoch': 5.19}
 22%|██▏       | 16978/78504 [10:18:50<20:39:52,  1.21s/it] 22%|██▏       | 16979/78504 [10:18:51<19:17:27,  1.13s/it]                                                           {'loss': 0.2346, 'grad_norm': 1.6120057106018066, 'learning_rate': 2.612712835972995e-05, 'epoch': 5.19}
 22%|██▏       | 16979/78504 [10:18:51<19:17:27,  1.13s/it] 22%|██▏       | 16980/78504 [10:18:51<17:30:35,  1.02s/it]                                                           {'loss': 0.2764, 'grad_norm': 1.5041766166687012, 'learning_rate': 2.6126703749310007e-05, 'epoch': 5.19}
 22%|██▏       | 16980/78504 [10:18:51<17:30:35,  1.02s/it] 22%|██▏       | 16981/78504 [10:19:00<56:30:52,  3.31s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.32318153977394104, 'learning_rate': 2.612627913889007e-05, 'epoch': 5.19}
 22%|██▏       | 16981/78504 [10:19:00<56:30:52,  3.31s/it] 22%|██▏       | 16982/78504 [10:19:03<54:26:54,  3.19s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.2337397336959839, 'learning_rate': 2.6125854528470128e-05, 'epoch': 5.19}
 22%|██▏       | 16982/78504 [10:19:03<54:26:54,  3.19s/it] 22%|██▏       | 16983/78504 [10:19:06<53:05:31,  3.11s/it]                                                           {'loss': 0.0763, 'grad_norm': 2.032656192779541, 'learning_rate': 2.612542991805019e-05, 'epoch': 5.19}
 22%|██▏       | 16983/78504 [10:19:06<53:05:31,  3.11s/it] 22%|██▏       | 16984/78504 [10:19:08<50:22:58,  2.95s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.22368377447128296, 'learning_rate': 2.612500530763025e-05, 'epoch': 5.19}
 22%|██▏       | 16984/78504 [10:19:08<50:22:58,  2.95s/it] 22%|██▏       | 16985/78504 [10:19:11<48:02:32,  2.81s/it]                                                           {'loss': 0.0382, 'grad_norm': 0.1337159126996994, 'learning_rate': 2.612458069721031e-05, 'epoch': 5.19}
 22%|██▏       | 16985/78504 [10:19:11<48:02:32,  2.81s/it] 22%|██▏       | 16986/78504 [10:19:13<46:12:07,  2.70s/it]                                                           {'loss': 0.0543, 'grad_norm': 0.19565719366073608, 'learning_rate': 2.612415608679037e-05, 'epoch': 5.19}
 22%|██▏       | 16986/78504 [10:19:13<46:12:07,  2.70s/it] 22%|██▏       | 16987/78504 [10:19:16<44:14:17,  2.59s/it]                                                           {'loss': 0.0439, 'grad_norm': 0.6047672629356384, 'learning_rate': 2.612373147637043e-05, 'epoch': 5.19}
 22%|██▏       | 16987/78504 [10:19:16<44:14:17,  2.59s/it] 22%|██▏       | 16988/78504 [10:19:18<41:48:51,  2.45s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.5108151435852051, 'learning_rate': 2.612330686595049e-05, 'epoch': 5.19}
 22%|██▏       | 16988/78504 [10:19:18<41:48:51,  2.45s/it] 22%|██▏       | 16989/78504 [10:19:20<40:26:41,  2.37s/it]                                                           {'loss': 0.0465, 'grad_norm': 0.39825427532196045, 'learning_rate': 2.612288225553055e-05, 'epoch': 5.19}
 22%|██▏       | 16989/78504 [10:19:20<40:26:41,  2.37s/it] 22%|██▏       | 16990/78504 [10:19:22<39:18:31,  2.30s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.6162153482437134, 'learning_rate': 2.612245764511061e-05, 'epoch': 5.19}
 22%|██▏       | 16990/78504 [10:19:22<39:18:31,  2.30s/it] 22%|██▏       | 16991/78504 [10:19:24<37:56:43,  2.22s/it]                                                           {'loss': 0.1271, 'grad_norm': 0.5806321501731873, 'learning_rate': 2.612203303469067e-05, 'epoch': 5.19}
 22%|██▏       | 16991/78504 [10:19:24<37:56:43,  2.22s/it] 22%|██▏       | 16992/78504 [10:19:26<37:46:24,  2.21s/it]                                                           {'loss': 0.076, 'grad_norm': 0.3921952545642853, 'learning_rate': 2.6121608424270732e-05, 'epoch': 5.19}
 22%|██▏       | 16992/78504 [10:19:26<37:46:24,  2.21s/it] 22%|██▏       | 16993/78504 [10:19:28<36:17:55,  2.12s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.6310101747512817, 'learning_rate': 2.612118381385079e-05, 'epoch': 5.2}
 22%|██▏       | 16993/78504 [10:19:28<36:17:55,  2.12s/it] 22%|██▏       | 16994/78504 [10:19:30<35:04:46,  2.05s/it]                                                           {'loss': 0.101, 'grad_norm': 0.35069093108177185, 'learning_rate': 2.6120759203430853e-05, 'epoch': 5.2}
 22%|██▏       | 16994/78504 [10:19:30<35:04:46,  2.05s/it] 22%|██▏       | 16995/78504 [10:19:32<33:20:15,  1.95s/it]                                                           {'loss': 0.1231, 'grad_norm': 0.43293634057044983, 'learning_rate': 2.612033459301091e-05, 'epoch': 5.2}
 22%|██▏       | 16995/78504 [10:19:32<33:20:15,  1.95s/it] 22%|██▏       | 16996/78504 [10:19:33<31:46:24,  1.86s/it]                                                           {'loss': 0.13, 'grad_norm': 0.9305558800697327, 'learning_rate': 2.6119909982590974e-05, 'epoch': 5.2}
 22%|██▏       | 16996/78504 [10:19:33<31:46:24,  1.86s/it] 22%|██▏       | 16997/78504 [10:19:35<30:08:37,  1.76s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.678790807723999, 'learning_rate': 2.6119485372171032e-05, 'epoch': 5.2}
 22%|██▏       | 16997/78504 [10:19:35<30:08:37,  1.76s/it] 22%|██▏       | 16998/78504 [10:19:36<28:35:53,  1.67s/it]                                                           {'loss': 0.1243, 'grad_norm': 0.9294718503952026, 'learning_rate': 2.6119060761751094e-05, 'epoch': 5.2}
 22%|██▏       | 16998/78504 [10:19:37<28:35:53,  1.67s/it] 22%|██▏       | 16999/78504 [10:19:38<27:17:42,  1.60s/it]                                                           {'loss': 0.1641, 'grad_norm': 0.7797172665596008, 'learning_rate': 2.6118636151331153e-05, 'epoch': 5.2}
 22%|██▏       | 16999/78504 [10:19:38<27:17:42,  1.60s/it] 22%|██▏       | 17000/78504 [10:19:39<25:41:23,  1.50s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.9051293134689331, 'learning_rate': 2.6118211540911212e-05, 'epoch': 5.2}
 22%|██▏       | 17000/78504 [10:19:39<25:41:23,  1.50s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.90it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.48it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.71it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.82it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.13it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.59it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.71it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.06it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.42it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.61it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.90it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                           
                                               [A{'eval_loss': 0.23064684867858887, 'eval_wer': 0.33043769727102595, 'eval_cer': 0.18930095032350278, 'eval_runtime': 19.0591, 'eval_samples_per_second': 238.101, 'eval_steps_per_second': 0.787, 'epoch': 5.2}
 22%|██▏       | 17000/78504 [10:20:45<25:41:23,  1.50s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-17000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-15000] due to args.save_total_limit
 22%|██▏       | 17001/78504 [10:21:01<437:28:39, 25.61s/it]                                                            {'loss': 0.1518, 'grad_norm': 0.8413543105125427, 'learning_rate': 2.6117786930491274e-05, 'epoch': 5.2}
 22%|██▏       | 17001/78504 [10:21:01<437:28:39, 25.61s/it] 22%|██▏       | 17002/78504 [10:21:02<311:44:07, 18.25s/it]                                                            {'loss': 0.17, 'grad_norm': 1.5813815593719482, 'learning_rate': 2.6117362320071333e-05, 'epoch': 5.2}
 22%|██▏       | 17002/78504 [10:21:02<311:44:07, 18.25s/it] 22%|██▏       | 17003/78504 [10:21:03<223:32:54, 13.09s/it]                                                            {'loss': 0.1886, 'grad_norm': 0.625190019607544, 'learning_rate': 2.6116937709651395e-05, 'epoch': 5.2}
 22%|██▏       | 17003/78504 [10:21:03<223:32:54, 13.09s/it] 22%|██▏       | 17004/78504 [10:21:04<161:11:50,  9.44s/it]                                                            {'loss': 0.1656, 'grad_norm': 1.0677759647369385, 'learning_rate': 2.6116513099231453e-05, 'epoch': 5.2}
 22%|██▏       | 17004/78504 [10:21:04<161:11:50,  9.44s/it] 22%|██▏       | 17005/78504 [10:21:05<116:47:56,  6.84s/it]                                                            {'loss': 0.2944, 'grad_norm': 1.355506181716919, 'learning_rate': 2.6116088488811515e-05, 'epoch': 5.2}
 22%|██▏       | 17005/78504 [10:21:05<116:47:56,  6.84s/it] 22%|██▏       | 17006/78504 [10:21:14<126:59:49,  7.43s/it]                                                            {'loss': 0.1526, 'grad_norm': 0.4086611866950989, 'learning_rate': 2.6115663878391574e-05, 'epoch': 5.2}
 22%|██▏       | 17006/78504 [10:21:14<126:59:49,  7.43s/it] 22%|██▏       | 17007/78504 [10:21:17<104:28:28,  6.12s/it]                                                            {'loss': 0.0837, 'grad_norm': 0.30071645975112915, 'learning_rate': 2.6115239267971636e-05, 'epoch': 5.2}
 22%|██▏       | 17007/78504 [10:21:17<104:28:28,  6.12s/it] 22%|██▏       | 17008/78504 [10:21:20<88:05:16,  5.16s/it]                                                            {'loss': 0.0564, 'grad_norm': 0.2001948356628418, 'learning_rate': 2.6114814657551695e-05, 'epoch': 5.2}
 22%|██▏       | 17008/78504 [10:21:20<88:05:16,  5.16s/it] 22%|██▏       | 17009/78504 [10:21:22<74:50:06,  4.38s/it]                                                           {'loss': 0.0583, 'grad_norm': 0.5245619416236877, 'learning_rate': 2.6114390047131757e-05, 'epoch': 5.2}
 22%|██▏       | 17009/78504 [10:21:22<74:50:06,  4.38s/it] 22%|██▏       | 17010/78504 [10:21:25<65:10:40,  3.82s/it]                                                           {'loss': 0.0492, 'grad_norm': 0.2671698033809662, 'learning_rate': 2.611396543671182e-05, 'epoch': 5.2}
 22%|██▏       | 17010/78504 [10:21:25<65:10:40,  3.82s/it] 22%|██▏       | 17011/78504 [10:21:27<58:07:59,  3.40s/it]                                                           {'loss': 0.0636, 'grad_norm': 0.24810215830802917, 'learning_rate': 2.6113540826291878e-05, 'epoch': 5.2}
 22%|██▏       | 17011/78504 [10:21:27<58:07:59,  3.40s/it] 22%|██▏       | 17012/78504 [10:21:29<52:33:12,  3.08s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.4107024371623993, 'learning_rate': 2.611311621587194e-05, 'epoch': 5.2}
 22%|██▏       | 17012/78504 [10:21:29<52:33:12,  3.08s/it] 22%|██▏       | 17013/78504 [10:21:32<48:32:58,  2.84s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.3328718841075897, 'learning_rate': 2.6112691605452e-05, 'epoch': 5.2}
 22%|██▏       | 17013/78504 [10:21:32<48:32:58,  2.84s/it] 22%|██▏       | 17014/78504 [10:21:34<45:08:51,  2.64s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.18924878537654877, 'learning_rate': 2.611226699503206e-05, 'epoch': 5.2}
 22%|██▏       | 17014/78504 [10:21:34<45:08:51,  2.64s/it] 22%|██▏       | 17015/78504 [10:21:36<42:40:13,  2.50s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.8975359797477722, 'learning_rate': 2.611184238461212e-05, 'epoch': 5.2}
 22%|██▏       | 17015/78504 [10:21:36<42:40:13,  2.50s/it] 22%|██▏       | 17016/78504 [10:21:38<39:20:17,  2.30s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.6646851897239685, 'learning_rate': 2.611141777419218e-05, 'epoch': 5.2}
 22%|██▏       | 17016/78504 [10:21:38<39:20:17,  2.30s/it] 22%|██▏       | 17017/78504 [10:21:40<37:41:20,  2.21s/it]                                                           {'loss': 0.0825, 'grad_norm': 0.5715751647949219, 'learning_rate': 2.611099316377224e-05, 'epoch': 5.2}
 22%|██▏       | 17017/78504 [10:21:40<37:41:20,  2.21s/it] 22%|██▏       | 17018/78504 [10:21:42<35:55:32,  2.10s/it]                                                           {'loss': 0.0814, 'grad_norm': 0.390480637550354, 'learning_rate': 2.6110568553352302e-05, 'epoch': 5.2}
 22%|██▏       | 17018/78504 [10:21:42<35:55:32,  2.10s/it] 22%|██▏       | 17019/78504 [10:21:44<34:31:20,  2.02s/it]                                                           {'loss': 0.143, 'grad_norm': 0.4645673930644989, 'learning_rate': 2.611014394293236e-05, 'epoch': 5.2}
 22%|██▏       | 17019/78504 [10:21:44<34:31:20,  2.02s/it] 22%|██▏       | 17020/78504 [10:21:45<33:13:39,  1.95s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.6357869505882263, 'learning_rate': 2.6109719332512423e-05, 'epoch': 5.2}
 22%|██▏       | 17020/78504 [10:21:45<33:13:39,  1.95s/it] 22%|██▏       | 17021/78504 [10:21:47<31:40:48,  1.85s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.7585084438323975, 'learning_rate': 2.6109294722092482e-05, 'epoch': 5.2}
 22%|██▏       | 17021/78504 [10:21:47<31:40:48,  1.85s/it] 22%|██▏       | 17022/78504 [10:21:49<30:03:53,  1.76s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.6580197215080261, 'learning_rate': 2.6108870111672544e-05, 'epoch': 5.2}
 22%|██▏       | 17022/78504 [10:21:49<30:03:53,  1.76s/it] 22%|██▏       | 17023/78504 [10:21:50<28:31:44,  1.67s/it]                                                           {'loss': 0.1537, 'grad_norm': 0.4852772355079651, 'learning_rate': 2.6108445501252603e-05, 'epoch': 5.2}
 22%|██▏       | 17023/78504 [10:21:50<28:31:44,  1.67s/it] 22%|██▏       | 17024/78504 [10:21:51<27:12:08,  1.59s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.5349514484405518, 'learning_rate': 2.610802089083266e-05, 'epoch': 5.2}
 22%|██▏       | 17024/78504 [10:21:51<27:12:08,  1.59s/it] 22%|██▏       | 17025/78504 [10:21:53<25:18:05,  1.48s/it]                                                           {'loss': 0.1584, 'grad_norm': 1.8412518501281738, 'learning_rate': 2.6107596280412723e-05, 'epoch': 5.2}
 22%|██▏       | 17025/78504 [10:21:53<25:18:05,  1.48s/it] 22%|██▏       | 17026/78504 [10:21:54<23:33:14,  1.38s/it]                                                           {'loss': 0.1671, 'grad_norm': 0.6206215023994446, 'learning_rate': 2.6107171669992782e-05, 'epoch': 5.21}
 22%|██▏       | 17026/78504 [10:21:54<23:33:14,  1.38s/it] 22%|██▏       | 17027/78504 [10:21:55<22:04:08,  1.29s/it]                                                           {'loss': 0.1913, 'grad_norm': 1.6372798681259155, 'learning_rate': 2.6106747059572844e-05, 'epoch': 5.21}
 22%|██▏       | 17027/78504 [10:21:55<22:04:08,  1.29s/it] 22%|██▏       | 17028/78504 [10:21:56<20:29:52,  1.20s/it]                                                           {'loss': 0.1948, 'grad_norm': 1.5756028890609741, 'learning_rate': 2.6106322449152903e-05, 'epoch': 5.21}
 22%|██▏       | 17028/78504 [10:21:56<20:29:52,  1.20s/it] 22%|██▏       | 17029/78504 [10:21:57<19:05:49,  1.12s/it]                                                           {'loss': 0.1928, 'grad_norm': 1.7904974222183228, 'learning_rate': 2.6105897838732965e-05, 'epoch': 5.21}
 22%|██▏       | 17029/78504 [10:21:57<19:05:49,  1.12s/it] 22%|██▏       | 17030/78504 [10:21:58<17:22:08,  1.02s/it]                                                           {'loss': 0.2255, 'grad_norm': 0.7874795198440552, 'learning_rate': 2.6105473228313024e-05, 'epoch': 5.21}
 22%|██▏       | 17030/78504 [10:21:58<17:22:08,  1.02s/it] 22%|██▏       | 17031/78504 [10:22:06<55:10:55,  3.23s/it]                                                           {'loss': 0.1204, 'grad_norm': 0.44373807311058044, 'learning_rate': 2.6105048617893086e-05, 'epoch': 5.21}
 22%|██▏       | 17031/78504 [10:22:06<55:10:55,  3.23s/it] 22%|██▏       | 17032/78504 [10:22:09<54:21:45,  3.18s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.3730107545852661, 'learning_rate': 2.6104624007473144e-05, 'epoch': 5.21}
 22%|██▏       | 17032/78504 [10:22:09<54:21:45,  3.18s/it] 22%|██▏       | 17033/78504 [10:22:12<53:08:24,  3.11s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.35062214732170105, 'learning_rate': 2.6104199397053206e-05, 'epoch': 5.21}
 22%|██▏       | 17033/78504 [10:22:12<53:08:24,  3.11s/it] 22%|██▏       | 17034/78504 [10:22:15<50:26:28,  2.95s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.29060402512550354, 'learning_rate': 2.6103774786633265e-05, 'epoch': 5.21}
 22%|██▏       | 17034/78504 [10:22:15<50:26:28,  2.95s/it] 22%|██▏       | 17035/78504 [10:22:17<48:00:50,  2.81s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.22962519526481628, 'learning_rate': 2.6103350176213327e-05, 'epoch': 5.21}
 22%|██▏       | 17035/78504 [10:22:17<48:00:50,  2.81s/it] 22%|██▏       | 17036/78504 [10:22:19<45:39:02,  2.67s/it]                                                           {'loss': 0.0925, 'grad_norm': 1.4900420904159546, 'learning_rate': 2.6102925565793386e-05, 'epoch': 5.21}
 22%|██▏       | 17036/78504 [10:22:19<45:39:02,  2.67s/it] 22%|██▏       | 17037/78504 [10:22:22<43:52:43,  2.57s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.2910684049129486, 'learning_rate': 2.6102500955373445e-05, 'epoch': 5.21}
 22%|██▏       | 17037/78504 [10:22:22<43:52:43,  2.57s/it] 22%|██▏       | 17038/78504 [10:22:24<41:24:41,  2.43s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.7917945981025696, 'learning_rate': 2.6102076344953507e-05, 'epoch': 5.21}
 22%|██▏       | 17038/78504 [10:22:24<41:24:41,  2.43s/it] 22%|██▏       | 17039/78504 [10:22:26<40:09:03,  2.35s/it]                                                           {'loss': 0.0844, 'grad_norm': 0.3801807761192322, 'learning_rate': 2.6101651734533565e-05, 'epoch': 5.21}
 22%|██▏       | 17039/78504 [10:22:26<40:09:03,  2.35s/it] 22%|██▏       | 17040/78504 [10:22:28<39:02:54,  2.29s/it]                                                           {'loss': 0.0704, 'grad_norm': 0.4603117108345032, 'learning_rate': 2.6101227124113628e-05, 'epoch': 5.21}
 22%|██▏       | 17040/78504 [10:22:28<39:02:54,  2.29s/it] 22%|██▏       | 17041/78504 [10:22:30<37:40:26,  2.21s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.45561668276786804, 'learning_rate': 2.6100802513693686e-05, 'epoch': 5.21}
 22%|██▏       | 17041/78504 [10:22:30<37:40:26,  2.21s/it] 22%|██▏       | 17042/78504 [10:22:32<36:27:44,  2.14s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.7238538265228271, 'learning_rate': 2.610037790327375e-05, 'epoch': 5.21}
 22%|██▏       | 17042/78504 [10:22:32<36:27:44,  2.14s/it] 22%|██▏       | 17043/78504 [10:22:34<35:04:45,  2.05s/it]                                                           {'loss': 0.0802, 'grad_norm': 1.4124280214309692, 'learning_rate': 2.6099953292853807e-05, 'epoch': 5.21}
 22%|██▏       | 17043/78504 [10:22:34<35:04:45,  2.05s/it] 22%|██▏       | 17044/78504 [10:22:36<33:55:36,  1.99s/it]                                                           {'loss': 0.1305, 'grad_norm': 0.6368075013160706, 'learning_rate': 2.609952868243387e-05, 'epoch': 5.21}
 22%|██▏       | 17044/78504 [10:22:36<33:55:36,  1.99s/it] 22%|██▏       | 17045/78504 [10:22:38<32:35:53,  1.91s/it]                                                           {'loss': 0.1038, 'grad_norm': 0.38712289929389954, 'learning_rate': 2.6099104072013928e-05, 'epoch': 5.21}
 22%|██▏       | 17045/78504 [10:22:38<32:35:53,  1.91s/it] 22%|██▏       | 17046/78504 [10:22:39<31:13:31,  1.83s/it]                                                           {'loss': 0.1138, 'grad_norm': 0.6398399472236633, 'learning_rate': 2.609867946159399e-05, 'epoch': 5.21}
 22%|██▏       | 17046/78504 [10:22:39<31:13:31,  1.83s/it] 22%|██▏       | 17047/78504 [10:22:41<29:38:59,  1.74s/it]                                                           {'loss': 0.1553, 'grad_norm': 0.4912562072277069, 'learning_rate': 2.609825485117405e-05, 'epoch': 5.21}
 22%|██▏       | 17047/78504 [10:22:41<29:38:59,  1.74s/it] 22%|██▏       | 17048/78504 [10:22:42<28:01:44,  1.64s/it]                                                           {'loss': 0.1523, 'grad_norm': 0.5253143310546875, 'learning_rate': 2.609783024075411e-05, 'epoch': 5.21}
 22%|██▏       | 17048/78504 [10:22:42<28:01:44,  1.64s/it] 22%|██▏       | 17049/78504 [10:22:44<26:49:01,  1.57s/it]                                                           {'loss': 0.1419, 'grad_norm': 0.6082462668418884, 'learning_rate': 2.609740563033417e-05, 'epoch': 5.21}
 22%|██▏       | 17049/78504 [10:22:44<26:49:01,  1.57s/it] 22%|██▏       | 17050/78504 [10:22:45<25:22:08,  1.49s/it]                                                           {'loss': 0.1602, 'grad_norm': 0.9789995551109314, 'learning_rate': 2.6096981019914228e-05, 'epoch': 5.21}
 22%|██▏       | 17050/78504 [10:22:45<25:22:08,  1.49s/it] 22%|██▏       | 17051/78504 [10:22:46<23:41:59,  1.39s/it]                                                           {'loss': 0.1717, 'grad_norm': 0.7661843299865723, 'learning_rate': 2.609655640949429e-05, 'epoch': 5.21}
 22%|██▏       | 17051/78504 [10:22:46<23:41:59,  1.39s/it] 22%|██▏       | 17052/78504 [10:22:47<22:10:20,  1.30s/it]                                                           {'loss': 0.1602, 'grad_norm': 1.3957805633544922, 'learning_rate': 2.609613179907435e-05, 'epoch': 5.21}
 22%|██▏       | 17052/78504 [10:22:47<22:10:20,  1.30s/it] 22%|██▏       | 17053/78504 [10:22:48<20:35:58,  1.21s/it]                                                           {'loss': 0.162, 'grad_norm': 0.8787436485290527, 'learning_rate': 2.609570718865441e-05, 'epoch': 5.21}
 22%|██▏       | 17053/78504 [10:22:48<20:35:58,  1.21s/it] 22%|██▏       | 17054/78504 [10:22:49<19:10:13,  1.12s/it]                                                           {'loss': 0.2136, 'grad_norm': 0.878352165222168, 'learning_rate': 2.609528257823447e-05, 'epoch': 5.21}
 22%|██▏       | 17054/78504 [10:22:49<19:10:13,  1.12s/it] 22%|██▏       | 17055/78504 [10:22:50<17:24:08,  1.02s/it]                                                           {'loss': 0.1906, 'grad_norm': 2.193553924560547, 'learning_rate': 2.6094857967814532e-05, 'epoch': 5.21}
 22%|██▏       | 17055/78504 [10:22:50<17:24:08,  1.02s/it] 22%|██▏       | 17056/78504 [10:22:59<58:32:09,  3.43s/it]                                                           {'loss': 0.1277, 'grad_norm': 0.3772686719894409, 'learning_rate': 2.609443335739459e-05, 'epoch': 5.21}
 22%|██▏       | 17056/78504 [10:22:59<58:32:09,  3.43s/it] 22%|██▏       | 17057/78504 [10:23:02<57:52:35,  3.39s/it]                                                           {'loss': 0.0724, 'grad_norm': 0.909527063369751, 'learning_rate': 2.6094008746974653e-05, 'epoch': 5.21}
 22%|██▏       | 17057/78504 [10:23:02<57:52:35,  3.39s/it] 22%|██▏       | 17058/78504 [10:23:05<55:56:11,  3.28s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.3390888273715973, 'learning_rate': 2.609358413655471e-05, 'epoch': 5.21}
 22%|██▏       | 17058/78504 [10:23:05<55:56:11,  3.28s/it] 22%|██▏       | 17059/78504 [10:23:08<52:32:30,  3.08s/it]                                                           {'loss': 0.056, 'grad_norm': 0.27633529901504517, 'learning_rate': 2.6093159526134773e-05, 'epoch': 5.22}
 22%|██▏       | 17059/78504 [10:23:08<52:32:30,  3.08s/it] 22%|██▏       | 17060/78504 [10:23:10<49:24:50,  2.90s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.394270658493042, 'learning_rate': 2.6092734915714832e-05, 'epoch': 5.22}
 22%|██▏       | 17060/78504 [10:23:10<49:24:50,  2.90s/it] 22%|██▏       | 17061/78504 [10:23:12<46:11:23,  2.71s/it]                                                           {'loss': 0.05, 'grad_norm': 0.23831534385681152, 'learning_rate': 2.6092310305294894e-05, 'epoch': 5.22}
 22%|██▏       | 17061/78504 [10:23:13<46:11:23,  2.71s/it] 22%|██▏       | 17062/78504 [10:23:15<44:13:46,  2.59s/it]                                                           {'loss': 0.0501, 'grad_norm': 0.27010467648506165, 'learning_rate': 2.6091885694874953e-05, 'epoch': 5.22}
 22%|██▏       | 17062/78504 [10:23:15<44:13:46,  2.59s/it] 22%|██▏       | 17063/78504 [10:23:17<41:37:39,  2.44s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.15806157886981964, 'learning_rate': 2.609146108445501e-05, 'epoch': 5.22}
 22%|██▏       | 17063/78504 [10:23:17<41:37:39,  2.44s/it] 22%|██▏       | 17064/78504 [10:23:19<40:22:42,  2.37s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.22794708609580994, 'learning_rate': 2.6091036474035074e-05, 'epoch': 5.22}
 22%|██▏       | 17064/78504 [10:23:19<40:22:42,  2.37s/it] 22%|██▏       | 17065/78504 [10:23:21<39:13:24,  2.30s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.44551435112953186, 'learning_rate': 2.6090611863615132e-05, 'epoch': 5.22}
 22%|██▏       | 17065/78504 [10:23:21<39:13:24,  2.30s/it] 22%|██▏       | 17066/78504 [10:23:23<36:57:38,  2.17s/it]                                                           {'loss': 0.1064, 'grad_norm': 0.398704469203949, 'learning_rate': 2.6090187253195194e-05, 'epoch': 5.22}
 22%|██▏       | 17066/78504 [10:23:23<36:57:38,  2.17s/it] 22%|██▏       | 17067/78504 [10:23:25<36:04:19,  2.11s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.36894550919532776, 'learning_rate': 2.6089762642775253e-05, 'epoch': 5.22}
 22%|██▏       | 17067/78504 [10:23:25<36:04:19,  2.11s/it] 22%|██▏       | 17068/78504 [10:23:27<34:54:51,  2.05s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.3543678820133209, 'learning_rate': 2.6089338032355315e-05, 'epoch': 5.22}
 22%|██▏       | 17068/78504 [10:23:27<34:54:51,  2.05s/it] 22%|██▏       | 17069/78504 [10:23:29<33:56:39,  1.99s/it]                                                           {'loss': 0.1059, 'grad_norm': 0.6698466539382935, 'learning_rate': 2.6088913421935374e-05, 'epoch': 5.22}
 22%|██▏       | 17069/78504 [10:23:29<33:56:39,  1.99s/it] 22%|██▏       | 17070/78504 [10:23:31<32:34:43,  1.91s/it]                                                           {'loss': 0.0889, 'grad_norm': 0.39309802651405334, 'learning_rate': 2.6088488811515436e-05, 'epoch': 5.22}
 22%|██▏       | 17070/78504 [10:23:31<32:34:43,  1.91s/it] 22%|██▏       | 17071/78504 [10:23:32<31:17:47,  1.83s/it]                                                           {'loss': 0.1661, 'grad_norm': 0.8927958607673645, 'learning_rate': 2.6088064201095495e-05, 'epoch': 5.22}
 22%|██▏       | 17071/78504 [10:23:32<31:17:47,  1.83s/it] 22%|██▏       | 17072/78504 [10:23:34<29:46:17,  1.74s/it]                                                           {'loss': 0.157, 'grad_norm': 1.176974892616272, 'learning_rate': 2.6087639590675557e-05, 'epoch': 5.22}
 22%|██▏       | 17072/78504 [10:23:34<29:46:17,  1.74s/it] 22%|██▏       | 17073/78504 [10:23:35<28:23:19,  1.66s/it]                                                           {'loss': 0.1558, 'grad_norm': 0.4703321158885956, 'learning_rate': 2.6087214980255615e-05, 'epoch': 5.22}
 22%|██▏       | 17073/78504 [10:23:35<28:23:19,  1.66s/it] 22%|██▏       | 17074/78504 [10:23:37<26:57:13,  1.58s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.8148415684700012, 'learning_rate': 2.6086790369835678e-05, 'epoch': 5.22}
 22%|██▏       | 17074/78504 [10:23:37<26:57:13,  1.58s/it] 22%|██▏       | 17075/78504 [10:23:38<25:27:29,  1.49s/it]                                                           {'loss': 0.142, 'grad_norm': 0.44749340415000916, 'learning_rate': 2.6086365759415736e-05, 'epoch': 5.22}
 22%|██▏       | 17075/78504 [10:23:38<25:27:29,  1.49s/it] 22%|██▏       | 17076/78504 [10:23:39<23:41:05,  1.39s/it]                                                           {'loss': 0.1388, 'grad_norm': 0.6776039600372314, 'learning_rate': 2.6085941148995795e-05, 'epoch': 5.22}
 22%|██▏       | 17076/78504 [10:23:39<23:41:05,  1.39s/it] 22%|██▏       | 17077/78504 [10:23:40<22:10:25,  1.30s/it]                                                           {'loss': 0.1914, 'grad_norm': 0.6460184454917908, 'learning_rate': 2.6085516538575857e-05, 'epoch': 5.22}
 22%|██▏       | 17077/78504 [10:23:40<22:10:25,  1.30s/it] 22%|██▏       | 17078/78504 [10:23:41<20:53:44,  1.22s/it]                                                           {'loss': 0.1474, 'grad_norm': 0.714772641658783, 'learning_rate': 2.6085091928155916e-05, 'epoch': 5.22}
 22%|██▏       | 17078/78504 [10:23:41<20:53:44,  1.22s/it] 22%|██▏       | 17079/78504 [10:23:42<19:23:12,  1.14s/it]                                                           {'loss': 0.2108, 'grad_norm': 1.0902379751205444, 'learning_rate': 2.6084667317735978e-05, 'epoch': 5.22}
 22%|██▏       | 17079/78504 [10:23:42<19:23:12,  1.14s/it] 22%|██▏       | 17080/78504 [10:23:43<17:39:54,  1.04s/it]                                                           {'loss': 0.2064, 'grad_norm': 4.763638496398926, 'learning_rate': 2.6084242707316037e-05, 'epoch': 5.22}
 22%|██▏       | 17080/78504 [10:23:43<17:39:54,  1.04s/it] 22%|██▏       | 17081/78504 [10:23:52<59:44:13,  3.50s/it]                                                           {'loss': 0.1511, 'grad_norm': 0.5963332056999207, 'learning_rate': 2.60838180968961e-05, 'epoch': 5.22}
 22%|██▏       | 17081/78504 [10:23:52<59:44:13,  3.50s/it] 22%|██▏       | 17082/78504 [10:23:56<58:59:27,  3.46s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.5272235870361328, 'learning_rate': 2.6083393486476157e-05, 'epoch': 5.22}
 22%|██▏       | 17082/78504 [10:23:56<58:59:27,  3.46s/it] 22%|██▏       | 17083/78504 [10:23:59<56:44:40,  3.33s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.4176841974258423, 'learning_rate': 2.608296887605622e-05, 'epoch': 5.22}
 22%|██▏       | 17083/78504 [10:23:59<56:44:40,  3.33s/it] 22%|██▏       | 17084/78504 [10:24:01<53:05:53,  3.11s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.23837456107139587, 'learning_rate': 2.6082544265636278e-05, 'epoch': 5.22}
 22%|██▏       | 17084/78504 [10:24:01<53:05:53,  3.11s/it] 22%|██▏       | 17085/78504 [10:24:04<49:14:03,  2.89s/it]                                                           {'loss': 0.066, 'grad_norm': 0.2491115927696228, 'learning_rate': 2.608211965521634e-05, 'epoch': 5.22}
 22%|██▏       | 17085/78504 [10:24:04<49:14:03,  2.89s/it] 22%|██▏       | 17086/78504 [10:24:06<46:02:38,  2.70s/it]                                                           {'loss': 0.072, 'grad_norm': 0.4224886894226074, 'learning_rate': 2.60816950447964e-05, 'epoch': 5.22}
 22%|██▏       | 17086/78504 [10:24:06<46:02:38,  2.70s/it] 22%|██▏       | 17087/78504 [10:24:08<44:05:54,  2.58s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.37702277302742004, 'learning_rate': 2.608127043437646e-05, 'epoch': 5.22}
 22%|██▏       | 17087/78504 [10:24:08<44:05:54,  2.58s/it] 22%|██▏       | 17088/78504 [10:24:10<41:38:19,  2.44s/it]                                                           {'loss': 0.044, 'grad_norm': 0.2386436015367508, 'learning_rate': 2.608084582395652e-05, 'epoch': 5.22}
 22%|██▏       | 17088/78504 [10:24:10<41:38:19,  2.44s/it] 22%|██▏       | 17089/78504 [10:24:12<39:30:18,  2.32s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.3675117790699005, 'learning_rate': 2.608042121353658e-05, 'epoch': 5.22}
 22%|██▏       | 17089/78504 [10:24:12<39:30:18,  2.32s/it] 22%|██▏       | 17090/78504 [10:24:14<38:35:50,  2.26s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.44574543833732605, 'learning_rate': 2.607999660311664e-05, 'epoch': 5.22}
 22%|██▏       | 17090/78504 [10:24:14<38:35:50,  2.26s/it] 22%|██▏       | 17091/78504 [10:24:16<37:24:39,  2.19s/it]                                                           {'loss': 0.0805, 'grad_norm': 0.3424935042858124, 'learning_rate': 2.60795719926967e-05, 'epoch': 5.23}
 22%|██▏       | 17091/78504 [10:24:16<37:24:39,  2.19s/it] 22%|██▏       | 17092/78504 [10:24:18<36:16:58,  2.13s/it]                                                           {'loss': 0.0893, 'grad_norm': 0.3476708233356476, 'learning_rate': 2.607914738227676e-05, 'epoch': 5.23}
 22%|██▏       | 17092/78504 [10:24:18<36:16:58,  2.13s/it] 22%|██▏       | 17093/78504 [10:24:20<35:06:45,  2.06s/it]                                                           {'loss': 0.0908, 'grad_norm': 0.49808838963508606, 'learning_rate': 2.607872277185682e-05, 'epoch': 5.23}
 22%|██▏       | 17093/78504 [10:24:20<35:06:45,  2.06s/it] 22%|██▏       | 17094/78504 [10:24:22<34:05:59,  2.00s/it]                                                           {'loss': 0.1213, 'grad_norm': 1.62803053855896, 'learning_rate': 2.6078298161436882e-05, 'epoch': 5.23}
 22%|██▏       | 17094/78504 [10:24:22<34:05:59,  2.00s/it] 22%|██▏       | 17095/78504 [10:24:24<32:53:32,  1.93s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.46561214327812195, 'learning_rate': 2.607787355101694e-05, 'epoch': 5.23}
 22%|██▏       | 17095/78504 [10:24:24<32:53:32,  1.93s/it] 22%|██▏       | 17096/78504 [10:24:26<31:33:27,  1.85s/it]                                                           {'loss': 0.1132, 'grad_norm': 0.8491675853729248, 'learning_rate': 2.6077448940597003e-05, 'epoch': 5.23}
 22%|██▏       | 17096/78504 [10:24:26<31:33:27,  1.85s/it] 22%|██▏       | 17097/78504 [10:24:27<29:59:05,  1.76s/it]                                                           {'loss': 0.1475, 'grad_norm': 0.7997792363166809, 'learning_rate': 2.607702433017706e-05, 'epoch': 5.23}
 22%|██▏       | 17097/78504 [10:24:27<29:59:05,  1.76s/it] 22%|██▏       | 17098/78504 [10:24:29<28:29:09,  1.67s/it]                                                           {'loss': 0.1757, 'grad_norm': 0.6897121667861938, 'learning_rate': 2.6076599719757124e-05, 'epoch': 5.23}
 22%|██▏       | 17098/78504 [10:24:29<28:29:09,  1.67s/it] 22%|██▏       | 17099/78504 [10:24:30<27:11:27,  1.59s/it]                                                           {'loss': 0.1491, 'grad_norm': 0.6885817646980286, 'learning_rate': 2.6076175109337182e-05, 'epoch': 5.23}
 22%|██▏       | 17099/78504 [10:24:30<27:11:27,  1.59s/it] 22%|██▏       | 17100/78504 [10:24:31<25:37:07,  1.50s/it]                                                           {'loss': 0.1801, 'grad_norm': 0.5073511004447937, 'learning_rate': 2.6075750498917244e-05, 'epoch': 5.23}
 22%|██▏       | 17100/78504 [10:24:31<25:37:07,  1.50s/it] 22%|██▏       | 17101/78504 [10:24:32<23:49:58,  1.40s/it]                                                           {'loss': 0.1748, 'grad_norm': 0.5853029489517212, 'learning_rate': 2.6075325888497303e-05, 'epoch': 5.23}
 22%|██▏       | 17101/78504 [10:24:32<23:49:58,  1.40s/it] 22%|██▏       | 17102/78504 [10:24:34<22:15:39,  1.31s/it]                                                           {'loss': 0.1575, 'grad_norm': 0.5412883162498474, 'learning_rate': 2.6074901278077362e-05, 'epoch': 5.23}
 22%|██▏       | 17102/78504 [10:24:34<22:15:39,  1.31s/it] 22%|██▏       | 17103/78504 [10:24:35<20:57:15,  1.23s/it]                                                           {'loss': 0.2003, 'grad_norm': 0.9837409853935242, 'learning_rate': 2.6074476667657424e-05, 'epoch': 5.23}
 22%|██▏       | 17103/78504 [10:24:35<20:57:15,  1.23s/it] 22%|██▏       | 17104/78504 [10:24:35<19:25:49,  1.14s/it]                                                           {'loss': 0.1848, 'grad_norm': 1.4915127754211426, 'learning_rate': 2.6074052057237483e-05, 'epoch': 5.23}
 22%|██▏       | 17104/78504 [10:24:36<19:25:49,  1.14s/it] 22%|██▏       | 17105/78504 [10:24:36<17:36:10,  1.03s/it]                                                           {'loss': 0.2521, 'grad_norm': 2.5727245807647705, 'learning_rate': 2.6073627446817545e-05, 'epoch': 5.23}
 22%|██▏       | 17105/78504 [10:24:36<17:36:10,  1.03s/it] 22%|██▏       | 17106/78504 [10:24:45<54:59:10,  3.22s/it]                                                           {'loss': 0.1332, 'grad_norm': 0.44885244965553284, 'learning_rate': 2.6073202836397603e-05, 'epoch': 5.23}
 22%|██▏       | 17106/78504 [10:24:45<54:59:10,  3.22s/it] 22%|██▏       | 17107/78504 [10:24:48<55:23:40,  3.25s/it]                                                           {'loss': 0.063, 'grad_norm': 0.23900370299816132, 'learning_rate': 2.6072778225977665e-05, 'epoch': 5.23}
 22%|██▏       | 17107/78504 [10:24:48<55:23:40,  3.25s/it] 22%|██▏       | 17108/78504 [10:24:50<51:54:40,  3.04s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.29764324426651, 'learning_rate': 2.6072353615557724e-05, 'epoch': 5.23}
 22%|██▏       | 17108/78504 [10:24:51<51:54:40,  3.04s/it] 22%|██▏       | 17109/78504 [10:24:53<49:31:13,  2.90s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.24207410216331482, 'learning_rate': 2.6071929005137786e-05, 'epoch': 5.23}
 22%|██▏       | 17109/78504 [10:24:53<49:31:13,  2.90s/it] 22%|██▏       | 17110/78504 [10:24:56<47:26:43,  2.78s/it]                                                           {'loss': 0.0472, 'grad_norm': 0.4479823708534241, 'learning_rate': 2.6071504394717845e-05, 'epoch': 5.23}
 22%|██▏       | 17110/78504 [10:24:56<47:26:43,  2.78s/it] 22%|██▏       | 17111/78504 [10:24:58<45:45:17,  2.68s/it]                                                           {'loss': 0.0801, 'grad_norm': 0.8939133286476135, 'learning_rate': 2.6071079784297907e-05, 'epoch': 5.23}
 22%|██▏       | 17111/78504 [10:24:58<45:45:17,  2.68s/it] 22%|██▏       | 17112/78504 [10:25:00<44:04:43,  2.58s/it]                                                           {'loss': 0.062, 'grad_norm': 0.9156277775764465, 'learning_rate': 2.607065517387797e-05, 'epoch': 5.23}
 22%|██▏       | 17112/78504 [10:25:00<44:04:43,  2.58s/it] 22%|██▏       | 17113/78504 [10:25:03<42:35:32,  2.50s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.8447320461273193, 'learning_rate': 2.607023056345803e-05, 'epoch': 5.23}
 22%|██▏       | 17113/78504 [10:25:03<42:35:32,  2.50s/it] 22%|██▏       | 17114/78504 [10:25:05<41:01:38,  2.41s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.2500327229499817, 'learning_rate': 2.606980595303809e-05, 'epoch': 5.23}
 22%|██▏       | 17114/78504 [10:25:05<41:01:38,  2.41s/it] 22%|██▏       | 17115/78504 [10:25:07<39:46:02,  2.33s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.664632260799408, 'learning_rate': 2.606938134261815e-05, 'epoch': 5.23}
 22%|██▏       | 17115/78504 [10:25:07<39:46:02,  2.33s/it] 22%|██▏       | 17116/78504 [10:25:09<37:25:44,  2.19s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.7040178179740906, 'learning_rate': 2.606895673219821e-05, 'epoch': 5.23}
 22%|██▏       | 17116/78504 [10:25:09<37:25:44,  2.19s/it] 22%|██▏       | 17117/78504 [10:25:11<36:20:02,  2.13s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.6449639797210693, 'learning_rate': 2.606853212177827e-05, 'epoch': 5.23}
 22%|██▏       | 17117/78504 [10:25:11<36:20:02,  2.13s/it] 22%|██▏       | 17118/78504 [10:25:13<35:12:13,  2.06s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.3917717933654785, 'learning_rate': 2.606810751135833e-05, 'epoch': 5.23}
 22%|██▏       | 17118/78504 [10:25:13<35:12:13,  2.06s/it] 22%|██▏       | 17119/78504 [10:25:15<34:17:20,  2.01s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.959564208984375, 'learning_rate': 2.606768290093839e-05, 'epoch': 5.23}
 22%|██▏       | 17119/78504 [10:25:15<34:17:20,  2.01s/it] 22%|██▏       | 17120/78504 [10:25:16<33:02:15,  1.94s/it]                                                           {'loss': 0.1126, 'grad_norm': 0.31328868865966797, 'learning_rate': 2.6067258290518452e-05, 'epoch': 5.23}
 22%|██▏       | 17120/78504 [10:25:16<33:02:15,  1.94s/it] 22%|██▏       | 17121/78504 [10:25:18<31:32:56,  1.85s/it]                                                           {'loss': 0.1253, 'grad_norm': 0.5630320310592651, 'learning_rate': 2.606683368009851e-05, 'epoch': 5.23}
 22%|██▏       | 17121/78504 [10:25:18<31:32:56,  1.85s/it] 22%|██▏       | 17122/78504 [10:25:20<29:59:18,  1.76s/it]                                                           {'loss': 0.168, 'grad_norm': 0.7183599472045898, 'learning_rate': 2.6066409069678573e-05, 'epoch': 5.23}
 22%|██▏       | 17122/78504 [10:25:20<29:59:18,  1.76s/it] 22%|██▏       | 17123/78504 [10:25:21<28:28:12,  1.67s/it]                                                           {'loss': 0.1504, 'grad_norm': 0.42600587010383606, 'learning_rate': 2.6065984459258632e-05, 'epoch': 5.23}
 22%|██▏       | 17123/78504 [10:25:21<28:28:12,  1.67s/it] 22%|██▏       | 17124/78504 [10:25:22<27:07:38,  1.59s/it]                                                           {'loss': 0.2003, 'grad_norm': 1.5021591186523438, 'learning_rate': 2.6065559848838694e-05, 'epoch': 5.24}
 22%|██▏       | 17124/78504 [10:25:23<27:07:38,  1.59s/it] 22%|██▏       | 17125/78504 [10:25:24<25:31:53,  1.50s/it]                                                           {'loss': 0.1555, 'grad_norm': 1.0501168966293335, 'learning_rate': 2.6065135238418753e-05, 'epoch': 5.24}
 22%|██▏       | 17125/78504 [10:25:24<25:31:53,  1.50s/it] 22%|██▏       | 17126/78504 [10:25:25<23:39:41,  1.39s/it]                                                           {'loss': 0.1746, 'grad_norm': 0.9235765337944031, 'learning_rate': 2.606471062799881e-05, 'epoch': 5.24}
 22%|██▏       | 17126/78504 [10:25:25<23:39:41,  1.39s/it] 22%|██▏       | 17127/78504 [10:25:26<22:10:56,  1.30s/it]                                                           {'loss': 0.1985, 'grad_norm': 0.8801589012145996, 'learning_rate': 2.6064286017578873e-05, 'epoch': 5.24}
 22%|██▏       | 17127/78504 [10:25:26<22:10:56,  1.30s/it] 22%|██▏       | 17128/78504 [10:25:27<20:36:51,  1.21s/it]                                                           {'loss': 0.1788, 'grad_norm': 0.6045496463775635, 'learning_rate': 2.6063861407158932e-05, 'epoch': 5.24}
 22%|██▏       | 17128/78504 [10:25:27<20:36:51,  1.21s/it] 22%|██▏       | 17129/78504 [10:25:28<19:10:14,  1.12s/it]                                                           {'loss': 0.2177, 'grad_norm': 0.7732682228088379, 'learning_rate': 2.6063436796738994e-05, 'epoch': 5.24}
 22%|██▏       | 17129/78504 [10:25:28<19:10:14,  1.12s/it] 22%|██▏       | 17130/78504 [10:25:29<17:23:17,  1.02s/it]                                                           {'loss': 0.2537, 'grad_norm': 0.9052548408508301, 'learning_rate': 2.6063012186319053e-05, 'epoch': 5.24}
 22%|██▏       | 17130/78504 [10:25:29<17:23:17,  1.02s/it] 22%|██▏       | 17131/78504 [10:25:39<63:27:18,  3.72s/it]                                                           {'loss': 0.1446, 'grad_norm': 0.5484800934791565, 'learning_rate': 2.6062587575899115e-05, 'epoch': 5.24}
 22%|██▏       | 17131/78504 [10:25:39<63:27:18,  3.72s/it] 22%|██▏       | 17132/78504 [10:25:42<60:16:17,  3.54s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.3970649242401123, 'learning_rate': 2.6062162965479174e-05, 'epoch': 5.24}
 22%|██▏       | 17132/78504 [10:25:42<60:16:17,  3.54s/it] 22%|██▏       | 17133/78504 [10:25:45<57:08:39,  3.35s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.46443840861320496, 'learning_rate': 2.6061738355059236e-05, 'epoch': 5.24}
 22%|██▏       | 17133/78504 [10:25:45<57:08:39,  3.35s/it] 22%|██▏       | 17134/78504 [10:25:47<53:11:26,  3.12s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.1972033679485321, 'learning_rate': 2.6061313744639294e-05, 'epoch': 5.24}
 22%|██▏       | 17134/78504 [10:25:47<53:11:26,  3.12s/it] 22%|██▏       | 17135/78504 [10:25:50<49:59:30,  2.93s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.2778644263744354, 'learning_rate': 2.6060889134219357e-05, 'epoch': 5.24}
 22%|██▏       | 17135/78504 [10:25:50<49:59:30,  2.93s/it] 22%|██▏       | 17136/78504 [10:25:52<47:30:58,  2.79s/it]                                                           {'loss': 0.0506, 'grad_norm': 1.6976767778396606, 'learning_rate': 2.6060464523799415e-05, 'epoch': 5.24}
 22%|██▏       | 17136/78504 [10:25:52<47:30:58,  2.79s/it] 22%|██▏       | 17137/78504 [10:25:55<45:05:52,  2.65s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.28037723898887634, 'learning_rate': 2.6060039913379477e-05, 'epoch': 5.24}
 22%|██▏       | 17137/78504 [10:25:55<45:05:52,  2.65s/it] 22%|██▏       | 17138/78504 [10:25:57<43:19:37,  2.54s/it]                                                           {'loss': 0.1141, 'grad_norm': 2.234689235687256, 'learning_rate': 2.6059615302959536e-05, 'epoch': 5.24}
 22%|██▏       | 17138/78504 [10:25:57<43:19:37,  2.54s/it] 22%|██▏       | 17139/78504 [10:25:59<41:29:36,  2.43s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.3497505187988281, 'learning_rate': 2.6059190692539595e-05, 'epoch': 5.24}
 22%|██▏       | 17139/78504 [10:25:59<41:29:36,  2.43s/it] 22%|██▏       | 17140/78504 [10:26:01<40:05:58,  2.35s/it]                                                           {'loss': 0.0856, 'grad_norm': 0.3169878125190735, 'learning_rate': 2.6058766082119657e-05, 'epoch': 5.24}
 22%|██▏       | 17140/78504 [10:26:01<40:05:58,  2.35s/it] 22%|██▏       | 17141/78504 [10:26:03<38:26:07,  2.25s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.2677208483219147, 'learning_rate': 2.6058341471699716e-05, 'epoch': 5.24}
 22%|██▏       | 17141/78504 [10:26:03<38:26:07,  2.25s/it] 22%|██▏       | 17142/78504 [10:26:05<36:59:44,  2.17s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.8994413614273071, 'learning_rate': 2.6057916861279778e-05, 'epoch': 5.24}
 22%|██▏       | 17142/78504 [10:26:05<36:59:44,  2.17s/it] 22%|██▏       | 17143/78504 [10:26:07<35:26:24,  2.08s/it]                                                           {'loss': 0.0904, 'grad_norm': 0.6407151222229004, 'learning_rate': 2.6057492250859836e-05, 'epoch': 5.24}
 22%|██▏       | 17143/78504 [10:26:07<35:26:24,  2.08s/it] 22%|██▏       | 17144/78504 [10:26:09<34:13:58,  2.01s/it]                                                           {'loss': 0.1056, 'grad_norm': 0.6572180390357971, 'learning_rate': 2.60570676404399e-05, 'epoch': 5.24}
 22%|██▏       | 17144/78504 [10:26:09<34:13:58,  2.01s/it] 22%|██▏       | 17145/78504 [10:26:11<32:50:19,  1.93s/it]                                                           {'loss': 0.1265, 'grad_norm': 1.2466291189193726, 'learning_rate': 2.6056643030019957e-05, 'epoch': 5.24}
 22%|██▏       | 17145/78504 [10:26:11<32:50:19,  1.93s/it] 22%|██▏       | 17146/78504 [10:26:12<31:23:06,  1.84s/it]                                                           {'loss': 0.1609, 'grad_norm': 1.779950737953186, 'learning_rate': 2.605621841960002e-05, 'epoch': 5.24}
 22%|██▏       | 17146/78504 [10:26:12<31:23:06,  1.84s/it] 22%|██▏       | 17147/78504 [10:26:14<29:49:32,  1.75s/it]                                                           {'loss': 0.1375, 'grad_norm': 1.7527027130126953, 'learning_rate': 2.6055793809180078e-05, 'epoch': 5.24}
 22%|██▏       | 17147/78504 [10:26:14<29:49:32,  1.75s/it] 22%|██▏       | 17148/78504 [10:26:15<28:22:43,  1.67s/it]                                                           {'loss': 0.161, 'grad_norm': 0.7809727191925049, 'learning_rate': 2.605536919876014e-05, 'epoch': 5.24}
 22%|██▏       | 17148/78504 [10:26:15<28:22:43,  1.67s/it] 22%|██▏       | 17149/78504 [10:26:17<27:05:58,  1.59s/it]                                                           {'loss': 0.1486, 'grad_norm': 0.4589511454105377, 'learning_rate': 2.60549445883402e-05, 'epoch': 5.24}
 22%|██▏       | 17149/78504 [10:26:17<27:05:58,  1.59s/it] 22%|██▏       | 17150/78504 [10:26:18<25:29:50,  1.50s/it]                                                           {'loss': 0.1694, 'grad_norm': 1.1547434329986572, 'learning_rate': 2.605451997792026e-05, 'epoch': 5.24}
 22%|██▏       | 17150/78504 [10:26:18<25:29:50,  1.50s/it] 22%|██▏       | 17151/78504 [10:26:19<23:34:00,  1.38s/it]                                                           {'loss': 0.1665, 'grad_norm': 1.1958062648773193, 'learning_rate': 2.605409536750032e-05, 'epoch': 5.24}
 22%|██▏       | 17151/78504 [10:26:19<23:34:00,  1.38s/it] 22%|██▏       | 17152/78504 [10:26:20<22:04:40,  1.30s/it]                                                           {'loss': 0.1673, 'grad_norm': 0.6589462757110596, 'learning_rate': 2.6053670757080378e-05, 'epoch': 5.24}
 22%|██▏       | 17152/78504 [10:26:20<22:04:40,  1.30s/it] 22%|██▏       | 17153/78504 [10:26:21<20:30:37,  1.20s/it]                                                           {'loss': 0.2036, 'grad_norm': 0.9556612968444824, 'learning_rate': 2.605324614666044e-05, 'epoch': 5.24}
 22%|██▏       | 17153/78504 [10:26:21<20:30:37,  1.20s/it] 22%|██▏       | 17154/78504 [10:26:22<19:05:41,  1.12s/it]                                                           {'loss': 0.2268, 'grad_norm': 1.2362257242202759, 'learning_rate': 2.60528215362405e-05, 'epoch': 5.24}
 22%|██▏       | 17154/78504 [10:26:22<19:05:41,  1.12s/it] 22%|██▏       | 17155/78504 [10:26:23<17:21:57,  1.02s/it]                                                           {'loss': 0.2875, 'grad_norm': 2.016751766204834, 'learning_rate': 2.605239692582056e-05, 'epoch': 5.24}
 22%|██▏       | 17155/78504 [10:26:23<17:21:57,  1.02s/it] 22%|██▏       | 17156/78504 [10:26:31<55:15:09,  3.24s/it]                                                           {'loss': 0.1637, 'grad_norm': 0.4670041799545288, 'learning_rate': 2.605197231540062e-05, 'epoch': 5.24}
 22%|██▏       | 17156/78504 [10:26:31<55:15:09,  3.24s/it] 22%|██▏       | 17157/78504 [10:26:35<55:52:15,  3.28s/it]                                                           {'loss': 0.0969, 'grad_norm': 0.3563551902770996, 'learning_rate': 2.6051547704980682e-05, 'epoch': 5.25}
 22%|██▏       | 17157/78504 [10:26:35<55:52:15,  3.28s/it] 22%|██▏       | 17158/78504 [10:26:38<54:31:10,  3.20s/it]                                                           {'loss': 0.0626, 'grad_norm': 0.35574355721473694, 'learning_rate': 2.605112309456074e-05, 'epoch': 5.25}
 22%|██▏       | 17158/78504 [10:26:38<54:31:10,  3.20s/it] 22%|██▏       | 17159/78504 [10:26:40<51:31:59,  3.02s/it]                                                           {'loss': 0.065, 'grad_norm': 0.27543964982032776, 'learning_rate': 2.6050698484140803e-05, 'epoch': 5.25}
 22%|██▏       | 17159/78504 [10:26:40<51:31:59,  3.02s/it] 22%|██▏       | 17160/78504 [10:26:43<48:41:35,  2.86s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.3493461608886719, 'learning_rate': 2.605027387372086e-05, 'epoch': 5.25}
 22%|██▏       | 17160/78504 [10:26:43<48:41:35,  2.86s/it] 22%|██▏       | 17161/78504 [10:26:45<45:40:30,  2.68s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.32883843779563904, 'learning_rate': 2.6049849263300923e-05, 'epoch': 5.25}
 22%|██▏       | 17161/78504 [10:26:45<45:40:30,  2.68s/it] 22%|██▏       | 17162/78504 [10:26:47<43:49:40,  2.57s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.32210201025009155, 'learning_rate': 2.6049424652880982e-05, 'epoch': 5.25}
 22%|██▏       | 17162/78504 [10:26:47<43:49:40,  2.57s/it] 22%|██▏       | 17163/78504 [10:26:50<41:25:02,  2.43s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.512829065322876, 'learning_rate': 2.6049000042461044e-05, 'epoch': 5.25}
 22%|██▏       | 17163/78504 [10:26:50<41:25:02,  2.43s/it] 22%|██▏       | 17164/78504 [10:26:52<39:21:16,  2.31s/it]                                                           {'loss': 0.079, 'grad_norm': 0.5337696075439453, 'learning_rate': 2.6048575432041103e-05, 'epoch': 5.25}
 22%|██▏       | 17164/78504 [10:26:52<39:21:16,  2.31s/it] 22%|██▏       | 17165/78504 [10:26:54<38:28:58,  2.26s/it]                                                           {'loss': 0.0729, 'grad_norm': 2.536505937576294, 'learning_rate': 2.604815082162116e-05, 'epoch': 5.25}
 22%|██▏       | 17165/78504 [10:26:54<38:28:58,  2.26s/it] 22%|██▏       | 17166/78504 [10:26:56<37:12:21,  2.18s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.9277153611183167, 'learning_rate': 2.6047726211201224e-05, 'epoch': 5.25}
 22%|██▏       | 17166/78504 [10:26:56<37:12:21,  2.18s/it] 22%|██▏       | 17167/78504 [10:26:58<36:10:09,  2.12s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.3962959945201874, 'learning_rate': 2.6047301600781282e-05, 'epoch': 5.25}
 22%|██▏       | 17167/78504 [10:26:58<36:10:09,  2.12s/it] 22%|██▏       | 17168/78504 [10:27:00<34:51:42,  2.05s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.45308056473731995, 'learning_rate': 2.6046876990361344e-05, 'epoch': 5.25}
 22%|██▏       | 17168/78504 [10:27:00<34:51:42,  2.05s/it] 22%|██▏       | 17169/78504 [10:27:01<33:51:16,  1.99s/it]                                                           {'loss': 0.1155, 'grad_norm': 1.4351154565811157, 'learning_rate': 2.6046452379941403e-05, 'epoch': 5.25}
 22%|██▏       | 17169/78504 [10:27:01<33:51:16,  1.99s/it] 22%|██▏       | 17170/78504 [10:27:03<32:46:40,  1.92s/it]                                                           {'loss': 0.1078, 'grad_norm': 0.43905335664749146, 'learning_rate': 2.6046027769521465e-05, 'epoch': 5.25}
 22%|██▏       | 17170/78504 [10:27:03<32:46:40,  1.92s/it] 22%|██▏       | 17171/78504 [10:27:05<31:21:49,  1.84s/it]                                                           {'loss': 0.1713, 'grad_norm': 0.6177271008491516, 'learning_rate': 2.6045603159101524e-05, 'epoch': 5.25}
 22%|██▏       | 17171/78504 [10:27:05<31:21:49,  1.84s/it] 22%|██▏       | 17172/78504 [10:27:06<29:49:20,  1.75s/it]                                                           {'loss': 0.1747, 'grad_norm': 0.5411296486854553, 'learning_rate': 2.6045178548681586e-05, 'epoch': 5.25}
 22%|██▏       | 17172/78504 [10:27:06<29:49:20,  1.75s/it] 22%|██▏       | 17173/78504 [10:27:08<28:22:06,  1.67s/it]                                                           {'loss': 0.1613, 'grad_norm': 0.4707507789134979, 'learning_rate': 2.6044753938261645e-05, 'epoch': 5.25}
 22%|██▏       | 17173/78504 [10:27:08<28:22:06,  1.67s/it] 22%|██▏       | 17174/78504 [10:27:09<26:59:23,  1.58s/it]                                                           {'loss': 0.1582, 'grad_norm': 0.953357994556427, 'learning_rate': 2.6044329327841707e-05, 'epoch': 5.25}
 22%|██▏       | 17174/78504 [10:27:09<26:59:23,  1.58s/it] 22%|██▏       | 17175/78504 [10:27:10<25:29:23,  1.50s/it]                                                           {'loss': 0.177, 'grad_norm': 0.9560423493385315, 'learning_rate': 2.6043904717421766e-05, 'epoch': 5.25}
 22%|██▏       | 17175/78504 [10:27:11<25:29:23,  1.50s/it] 22%|██▏       | 17176/78504 [10:27:12<23:44:19,  1.39s/it]                                                           {'loss': 0.1678, 'grad_norm': 0.5654507279396057, 'learning_rate': 2.6043480107001828e-05, 'epoch': 5.25}
 22%|██▏       | 17176/78504 [10:27:12<23:44:19,  1.39s/it] 22%|██▏       | 17177/78504 [10:27:13<22:11:38,  1.30s/it]                                                           {'loss': 0.1666, 'grad_norm': 1.4232200384140015, 'learning_rate': 2.6043055496581886e-05, 'epoch': 5.25}
 22%|██▏       | 17177/78504 [10:27:13<22:11:38,  1.30s/it] 22%|██▏       | 17178/78504 [10:27:14<20:52:55,  1.23s/it]                                                           {'loss': 0.198, 'grad_norm': 0.766558825969696, 'learning_rate': 2.6042630886161945e-05, 'epoch': 5.25}
 22%|██▏       | 17178/78504 [10:27:14<20:52:55,  1.23s/it] 22%|██▏       | 17179/78504 [10:27:15<19:24:24,  1.14s/it]                                                           {'loss': 0.2218, 'grad_norm': 1.0041773319244385, 'learning_rate': 2.6042206275742007e-05, 'epoch': 5.25}
 22%|██▏       | 17179/78504 [10:27:15<19:24:24,  1.14s/it] 22%|██▏       | 17180/78504 [10:27:15<17:24:53,  1.02s/it]                                                           {'loss': 0.2015, 'grad_norm': 1.7791972160339355, 'learning_rate': 2.6041781665322066e-05, 'epoch': 5.25}
 22%|██▏       | 17180/78504 [10:27:15<17:24:53,  1.02s/it] 22%|██▏       | 17181/78504 [10:27:23<48:06:57,  2.82s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.4961565434932709, 'learning_rate': 2.6041357054902128e-05, 'epoch': 5.25}
 22%|██▏       | 17181/78504 [10:27:23<48:06:57,  2.82s/it] 22%|██▏       | 17182/78504 [10:27:26<50:18:57,  2.95s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.4302699863910675, 'learning_rate': 2.6040932444482187e-05, 'epoch': 5.25}
 22%|██▏       | 17182/78504 [10:27:26<50:18:57,  2.95s/it] 22%|██▏       | 17183/78504 [10:27:29<50:28:26,  2.96s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.4155394732952118, 'learning_rate': 2.604050783406225e-05, 'epoch': 5.25}
 22%|██▏       | 17183/78504 [10:27:29<50:28:26,  2.96s/it] 22%|██▏       | 17184/78504 [10:27:31<48:41:44,  2.86s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.4033893942832947, 'learning_rate': 2.6040083223642307e-05, 'epoch': 5.25}
 22%|██▏       | 17184/78504 [10:27:31<48:41:44,  2.86s/it] 22%|██▏       | 17185/78504 [10:27:34<46:42:49,  2.74s/it]                                                           {'loss': 0.0457, 'grad_norm': 0.38707855343818665, 'learning_rate': 2.603965861322237e-05, 'epoch': 5.25}
 22%|██▏       | 17185/78504 [10:27:34<46:42:49,  2.74s/it] 22%|██▏       | 17186/78504 [10:27:36<44:15:42,  2.60s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.6979387998580933, 'learning_rate': 2.6039234002802428e-05, 'epoch': 5.25}
 22%|██▏       | 17186/78504 [10:27:36<44:15:42,  2.60s/it] 22%|██▏       | 17187/78504 [10:27:38<42:49:45,  2.51s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.22843392193317413, 'learning_rate': 2.603880939238249e-05, 'epoch': 5.25}
 22%|██▏       | 17187/78504 [10:27:38<42:49:45,  2.51s/it] 22%|██▏       | 17188/78504 [10:27:41<40:46:23,  2.39s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.5077956914901733, 'learning_rate': 2.603838478196255e-05, 'epoch': 5.25}
 22%|██▏       | 17188/78504 [10:27:41<40:46:23,  2.39s/it] 22%|██▏       | 17189/78504 [10:27:43<39:41:35,  2.33s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.3902338147163391, 'learning_rate': 2.603796017154261e-05, 'epoch': 5.25}
 22%|██▏       | 17189/78504 [10:27:43<39:41:35,  2.33s/it] 22%|██▏       | 17190/78504 [10:27:45<38:51:27,  2.28s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.4844670593738556, 'learning_rate': 2.603753556112267e-05, 'epoch': 5.26}
 22%|██▏       | 17190/78504 [10:27:45<38:51:27,  2.28s/it] 22%|██▏       | 17191/78504 [10:27:47<36:39:52,  2.15s/it]                                                           {'loss': 0.0959, 'grad_norm': 1.4803105592727661, 'learning_rate': 2.603711095070273e-05, 'epoch': 5.26}
 22%|██▏       | 17191/78504 [10:27:47<36:39:52,  2.15s/it] 22%|██▏       | 17192/78504 [10:27:49<35:47:19,  2.10s/it]                                                           {'loss': 0.0925, 'grad_norm': 0.6733037233352661, 'learning_rate': 2.603668634028279e-05, 'epoch': 5.26}
 22%|██▏       | 17192/78504 [10:27:49<35:47:19,  2.10s/it] 22%|██▏       | 17193/78504 [10:27:51<34:41:35,  2.04s/it]                                                           {'loss': 0.0838, 'grad_norm': 0.5551050901412964, 'learning_rate': 2.603626172986285e-05, 'epoch': 5.26}
 22%|██▏       | 17193/78504 [10:27:51<34:41:35,  2.04s/it] 22%|██▏       | 17194/78504 [10:27:52<33:47:25,  1.98s/it]                                                           {'loss': 0.1542, 'grad_norm': 0.5808466076850891, 'learning_rate': 2.603583711944291e-05, 'epoch': 5.26}
 22%|██▏       | 17194/78504 [10:27:52<33:47:25,  1.98s/it] 22%|██▏       | 17195/78504 [10:27:54<32:41:26,  1.92s/it]                                                           {'loss': 0.1373, 'grad_norm': 0.6103107929229736, 'learning_rate': 2.603541250902297e-05, 'epoch': 5.26}
 22%|██▏       | 17195/78504 [10:27:54<32:41:26,  1.92s/it] 22%|██▏       | 17196/78504 [10:27:56<30:56:17,  1.82s/it]                                                           {'loss': 0.1313, 'grad_norm': 0.9395822286605835, 'learning_rate': 2.6034987898603032e-05, 'epoch': 5.26}
 22%|██▏       | 17196/78504 [10:27:56<30:56:17,  1.82s/it] 22%|██▏       | 17197/78504 [10:27:57<29:31:58,  1.73s/it]                                                           {'loss': 0.1251, 'grad_norm': 0.532863199710846, 'learning_rate': 2.603456328818309e-05, 'epoch': 5.26}
 22%|██▏       | 17197/78504 [10:27:57<29:31:58,  1.73s/it] 22%|██▏       | 17198/78504 [10:27:59<28:25:16,  1.67s/it]                                                           {'loss': 0.1463, 'grad_norm': 0.7362218499183655, 'learning_rate': 2.6034138677763153e-05, 'epoch': 5.26}
 22%|██▏       | 17198/78504 [10:27:59<28:25:16,  1.67s/it] 22%|██▏       | 17199/78504 [10:28:00<27:10:40,  1.60s/it]                                                           {'loss': 0.2072, 'grad_norm': 1.3059393167495728, 'learning_rate': 2.603371406734321e-05, 'epoch': 5.26}
 22%|██▏       | 17199/78504 [10:28:00<27:10:40,  1.60s/it] 22%|██▏       | 17200/78504 [10:28:02<25:37:30,  1.50s/it]                                                           {'loss': 0.174, 'grad_norm': 4.0272698402404785, 'learning_rate': 2.6033289456923274e-05, 'epoch': 5.26}
 22%|██▏       | 17200/78504 [10:28:02<25:37:30,  1.50s/it] 22%|██▏       | 17201/78504 [10:28:03<23:48:09,  1.40s/it]                                                           {'loss': 0.1824, 'grad_norm': 1.2369298934936523, 'learning_rate': 2.6032864846503332e-05, 'epoch': 5.26}
 22%|██▏       | 17201/78504 [10:28:03<23:48:09,  1.40s/it] 22%|██▏       | 17202/78504 [10:28:04<22:11:57,  1.30s/it]                                                           {'loss': 0.1814, 'grad_norm': 0.7370820641517639, 'learning_rate': 2.6032440236083394e-05, 'epoch': 5.26}
 22%|██▏       | 17202/78504 [10:28:04<22:11:57,  1.30s/it] 22%|██▏       | 17203/78504 [10:28:05<20:54:50,  1.23s/it]                                                           {'loss': 0.1671, 'grad_norm': 1.4216235876083374, 'learning_rate': 2.6032015625663453e-05, 'epoch': 5.26}
 22%|██▏       | 17203/78504 [10:28:05<20:54:50,  1.23s/it] 22%|██▏       | 17204/78504 [10:28:06<19:26:31,  1.14s/it]                                                           {'loss': 0.2119, 'grad_norm': 1.4005155563354492, 'learning_rate': 2.6031591015243512e-05, 'epoch': 5.26}
 22%|██▏       | 17204/78504 [10:28:06<19:26:31,  1.14s/it] 22%|██▏       | 17205/78504 [10:28:07<17:35:47,  1.03s/it]                                                           {'loss': 0.2115, 'grad_norm': 1.2369505167007446, 'learning_rate': 2.6031166404823574e-05, 'epoch': 5.26}
 22%|██▏       | 17205/78504 [10:28:07<17:35:47,  1.03s/it] 22%|██▏       | 17206/78504 [10:28:15<57:32:47,  3.38s/it]                                                           {'loss': 0.1144, 'grad_norm': 0.3303484618663788, 'learning_rate': 2.6030741794403633e-05, 'epoch': 5.26}
 22%|██▏       | 17206/78504 [10:28:15<57:32:47,  3.38s/it] 22%|██▏       | 17207/78504 [10:28:19<56:13:26,  3.30s/it]                                                           {'loss': 0.0872, 'grad_norm': 0.3570588231086731, 'learning_rate': 2.6030317183983695e-05, 'epoch': 5.26}
 22%|██▏       | 17207/78504 [10:28:19<56:13:26,  3.30s/it] 22%|██▏       | 17208/78504 [10:28:21<52:29:11,  3.08s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.31281962990760803, 'learning_rate': 2.6029892573563753e-05, 'epoch': 5.26}
 22%|██▏       | 17208/78504 [10:28:21<52:29:11,  3.08s/it] 22%|██▏       | 17209/78504 [10:28:24<49:59:08,  2.94s/it]                                                           {'loss': 0.0428, 'grad_norm': 0.15285535156726837, 'learning_rate': 2.6029467963143816e-05, 'epoch': 5.26}
 22%|██▏       | 17209/78504 [10:28:24<49:59:08,  2.94s/it] 22%|██▏       | 17210/78504 [10:28:26<47:41:24,  2.80s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.3094017803668976, 'learning_rate': 2.6029043352723874e-05, 'epoch': 5.26}
 22%|██▏       | 17210/78504 [10:28:26<47:41:24,  2.80s/it] 22%|██▏       | 17211/78504 [10:28:28<44:56:48,  2.64s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.3275777995586395, 'learning_rate': 2.6028618742303936e-05, 'epoch': 5.26}
 22%|██▏       | 17211/78504 [10:28:28<44:56:48,  2.64s/it] 22%|██▏       | 17212/78504 [10:28:31<43:18:18,  2.54s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.39929166436195374, 'learning_rate': 2.6028194131883995e-05, 'epoch': 5.26}
 22%|██▏       | 17212/78504 [10:28:31<43:18:18,  2.54s/it] 22%|██▏       | 17213/78504 [10:28:33<41:01:52,  2.41s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.4670945107936859, 'learning_rate': 2.6027769521464057e-05, 'epoch': 5.26}
 22%|██▏       | 17213/78504 [10:28:33<41:01:52,  2.41s/it] 22%|██▏       | 17214/78504 [10:28:35<39:53:30,  2.34s/it]                                                           {'loss': 0.0683, 'grad_norm': 1.7056195735931396, 'learning_rate': 2.602734491104412e-05, 'epoch': 5.26}
 22%|██▏       | 17214/78504 [10:28:35<39:53:30,  2.34s/it] 22%|██▏       | 17215/78504 [10:28:37<38:50:43,  2.28s/it]                                                           {'loss': 0.077, 'grad_norm': 0.31235161423683167, 'learning_rate': 2.602692030062418e-05, 'epoch': 5.26}
 22%|██▏       | 17215/78504 [10:28:37<38:50:43,  2.28s/it] 22%|██▏       | 17216/78504 [10:28:39<37:33:01,  2.21s/it]                                                           {'loss': 0.0956, 'grad_norm': 0.38519105315208435, 'learning_rate': 2.602649569020424e-05, 'epoch': 5.26}
 22%|██▏       | 17216/78504 [10:28:39<37:33:01,  2.21s/it] 22%|██▏       | 17217/78504 [10:28:41<36:23:57,  2.14s/it]                                                           {'loss': 0.0909, 'grad_norm': 0.33440011739730835, 'learning_rate': 2.60260710797843e-05, 'epoch': 5.26}
 22%|██▏       | 17217/78504 [10:28:41<36:23:57,  2.14s/it] 22%|██▏       | 17218/78504 [10:28:43<35:00:20,  2.06s/it]                                                           {'loss': 0.0943, 'grad_norm': 0.6007805466651917, 'learning_rate': 2.602564646936436e-05, 'epoch': 5.26}
 22%|██▏       | 17218/78504 [10:28:43<35:00:20,  2.06s/it] 22%|██▏       | 17219/78504 [10:28:45<33:55:51,  1.99s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.544255256652832, 'learning_rate': 2.602522185894442e-05, 'epoch': 5.26}
 22%|██▏       | 17219/78504 [10:28:45<33:55:51,  1.99s/it] 22%|██▏       | 17220/78504 [10:28:47<32:34:27,  1.91s/it]                                                           {'loss': 0.105, 'grad_norm': 0.36643359065055847, 'learning_rate': 2.602479724852448e-05, 'epoch': 5.26}
 22%|██▏       | 17220/78504 [10:28:47<32:34:27,  1.91s/it] 22%|██▏       | 17221/78504 [10:28:48<31:13:59,  1.83s/it]                                                           {'loss': 0.1237, 'grad_norm': 0.4963669180870056, 'learning_rate': 2.602437263810454e-05, 'epoch': 5.26}
 22%|██▏       | 17221/78504 [10:28:48<31:13:59,  1.83s/it] 22%|██▏       | 17222/78504 [10:28:50<29:47:25,  1.75s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.8021164536476135, 'learning_rate': 2.6023948027684602e-05, 'epoch': 5.27}
 22%|██▏       | 17222/78504 [10:28:50<29:47:25,  1.75s/it] 22%|██▏       | 17223/78504 [10:28:51<28:22:02,  1.67s/it]                                                           {'loss': 0.1531, 'grad_norm': 0.46744436025619507, 'learning_rate': 2.602352341726466e-05, 'epoch': 5.27}
 22%|██▏       | 17223/78504 [10:28:51<28:22:02,  1.67s/it] 22%|██▏       | 17224/78504 [10:28:53<26:58:55,  1.59s/it]                                                           {'loss': 0.1727, 'grad_norm': 0.5686823725700378, 'learning_rate': 2.6023098806844723e-05, 'epoch': 5.27}
 22%|██▏       | 17224/78504 [10:28:53<26:58:55,  1.59s/it] 22%|██▏       | 17225/78504 [10:28:54<25:27:01,  1.50s/it]                                                           {'loss': 0.1431, 'grad_norm': 0.5567758083343506, 'learning_rate': 2.6022674196424782e-05, 'epoch': 5.27}
 22%|██▏       | 17225/78504 [10:28:54<25:27:01,  1.50s/it] 22%|██▏       | 17226/78504 [10:28:55<23:40:37,  1.39s/it]                                                           {'loss': 0.1853, 'grad_norm': 1.5232049226760864, 'learning_rate': 2.6022249586004844e-05, 'epoch': 5.27}
 22%|██▏       | 17226/78504 [10:28:55<23:40:37,  1.39s/it] 22%|██▏       | 17227/78504 [10:28:56<22:09:32,  1.30s/it]                                                           {'loss': 0.18, 'grad_norm': 0.7006996273994446, 'learning_rate': 2.6021824975584903e-05, 'epoch': 5.27}
 22%|██▏       | 17227/78504 [10:28:56<22:09:32,  1.30s/it] 22%|██▏       | 17228/78504 [10:28:57<20:52:48,  1.23s/it]                                                           {'loss': 0.1915, 'grad_norm': 0.5871265530586243, 'learning_rate': 2.6021400365164965e-05, 'epoch': 5.27}
 22%|██▏       | 17228/78504 [10:28:57<20:52:48,  1.23s/it] 22%|██▏       | 17229/78504 [10:28:58<19:19:45,  1.14s/it]                                                           {'loss': 0.1687, 'grad_norm': 0.9886505603790283, 'learning_rate': 2.6020975754745023e-05, 'epoch': 5.27}
 22%|██▏       | 17229/78504 [10:28:58<19:19:45,  1.14s/it] 22%|██▏       | 17230/78504 [10:28:59<17:37:11,  1.04s/it]                                                           {'loss': 0.2247, 'grad_norm': 1.6441172361373901, 'learning_rate': 2.6020551144325082e-05, 'epoch': 5.27}
 22%|██▏       | 17230/78504 [10:28:59<17:37:11,  1.04s/it] 22%|██▏       | 17231/78504 [10:29:07<52:31:39,  3.09s/it]                                                           {'loss': 0.143, 'grad_norm': 0.3439050614833832, 'learning_rate': 2.6020126533905144e-05, 'epoch': 5.27}
 22%|██▏       | 17231/78504 [10:29:07<52:31:39,  3.09s/it] 22%|██▏       | 17232/78504 [10:29:10<52:46:43,  3.10s/it]                                                           {'loss': 0.067, 'grad_norm': 0.28478437662124634, 'learning_rate': 2.6019701923485203e-05, 'epoch': 5.27}
 22%|██▏       | 17232/78504 [10:29:10<52:46:43,  3.10s/it] 22%|██▏       | 17233/78504 [10:29:13<52:12:21,  3.07s/it]                                                           {'loss': 0.0452, 'grad_norm': 0.27702683210372925, 'learning_rate': 2.6019277313065265e-05, 'epoch': 5.27}
 22%|██▏       | 17233/78504 [10:29:13<52:12:21,  3.07s/it] 22%|██▏       | 17234/78504 [10:29:16<49:45:25,  2.92s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.16727256774902344, 'learning_rate': 2.6018852702645324e-05, 'epoch': 5.27}
 22%|██▏       | 17234/78504 [10:29:16<49:45:25,  2.92s/it] 22%|██▏       | 17235/78504 [10:29:18<47:27:28,  2.79s/it]                                                           {'loss': 0.0545, 'grad_norm': 0.2677350342273712, 'learning_rate': 2.6018428092225386e-05, 'epoch': 5.27}
 22%|██▏       | 17235/78504 [10:29:18<47:27:28,  2.79s/it] 22%|██▏       | 17236/78504 [10:29:20<44:47:24,  2.63s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.21428196132183075, 'learning_rate': 2.6018003481805444e-05, 'epoch': 5.27}
 22%|██▏       | 17236/78504 [10:29:20<44:47:24,  2.63s/it] 22%|██▏       | 17237/78504 [10:29:23<43:10:58,  2.54s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.21090549230575562, 'learning_rate': 2.6017578871385507e-05, 'epoch': 5.27}
 22%|██▏       | 17237/78504 [10:29:23<43:10:58,  2.54s/it] 22%|██▏       | 17238/78504 [10:29:25<40:55:51,  2.41s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.30823075771331787, 'learning_rate': 2.6017154260965565e-05, 'epoch': 5.27}
 22%|██▏       | 17238/78504 [10:29:25<40:55:51,  2.41s/it] 22%|██▏       | 17239/78504 [10:29:27<39:48:04,  2.34s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.2613312005996704, 'learning_rate': 2.6016729650545627e-05, 'epoch': 5.27}
 22%|██▏       | 17239/78504 [10:29:27<39:48:04,  2.34s/it] 22%|██▏       | 17240/78504 [10:29:29<38:48:16,  2.28s/it]                                                           {'loss': 0.0852, 'grad_norm': 0.2530074715614319, 'learning_rate': 2.6016305040125686e-05, 'epoch': 5.27}
 22%|██▏       | 17240/78504 [10:29:29<38:48:16,  2.28s/it] 22%|██▏       | 17241/78504 [10:29:31<36:37:20,  2.15s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.33697253465652466, 'learning_rate': 2.6015880429705745e-05, 'epoch': 5.27}
 22%|██▏       | 17241/78504 [10:29:31<36:37:20,  2.15s/it] 22%|██▏       | 17242/78504 [10:29:33<35:46:01,  2.10s/it]                                                           {'loss': 0.073, 'grad_norm': 0.5063658952713013, 'learning_rate': 2.6015455819285807e-05, 'epoch': 5.27}
 22%|██▏       | 17242/78504 [10:29:33<35:46:01,  2.10s/it] 22%|██▏       | 17243/78504 [10:29:35<34:51:25,  2.05s/it]                                                           {'loss': 0.1249, 'grad_norm': 0.3126816153526306, 'learning_rate': 2.6015031208865866e-05, 'epoch': 5.27}
 22%|██▏       | 17243/78504 [10:29:35<34:51:25,  2.05s/it] 22%|██▏       | 17244/78504 [10:29:37<34:00:09,  2.00s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.9730883836746216, 'learning_rate': 2.6014606598445928e-05, 'epoch': 5.27}
 22%|██▏       | 17244/78504 [10:29:37<34:00:09,  2.00s/it] 22%|██▏       | 17245/78504 [10:29:39<32:47:58,  1.93s/it]                                                           {'loss': 0.1053, 'grad_norm': 0.39581018686294556, 'learning_rate': 2.6014181988025986e-05, 'epoch': 5.27}
 22%|██▏       | 17245/78504 [10:29:39<32:47:58,  1.93s/it] 22%|██▏       | 17246/78504 [10:29:40<31:24:34,  1.85s/it]                                                           {'loss': 0.1671, 'grad_norm': 0.5055803656578064, 'learning_rate': 2.601375737760605e-05, 'epoch': 5.27}
 22%|██▏       | 17246/78504 [10:29:40<31:24:34,  1.85s/it] 22%|██▏       | 17247/78504 [10:29:42<29:50:50,  1.75s/it]                                                           {'loss': 0.1604, 'grad_norm': 1.126314401626587, 'learning_rate': 2.6013332767186107e-05, 'epoch': 5.27}
 22%|██▏       | 17247/78504 [10:29:42<29:50:50,  1.75s/it] 22%|██▏       | 17248/78504 [10:29:43<28:22:43,  1.67s/it]                                                           {'loss': 0.1548, 'grad_norm': 0.47635579109191895, 'learning_rate': 2.601290815676617e-05, 'epoch': 5.27}
 22%|██▏       | 17248/78504 [10:29:43<28:22:43,  1.67s/it] 22%|██▏       | 17249/78504 [10:29:45<26:52:48,  1.58s/it]                                                           {'loss': 0.1467, 'grad_norm': 0.39993491768836975, 'learning_rate': 2.6012483546346228e-05, 'epoch': 5.27}
 22%|██▏       | 17249/78504 [10:29:45<26:52:48,  1.58s/it] 22%|██▏       | 17250/78504 [10:29:46<25:20:58,  1.49s/it]                                                           {'loss': 0.1614, 'grad_norm': 0.6744846701622009, 'learning_rate': 2.601205893592629e-05, 'epoch': 5.27}
 22%|██▏       | 17250/78504 [10:29:46<25:20:58,  1.49s/it] 22%|██▏       | 17251/78504 [10:29:47<23:38:11,  1.39s/it]                                                           {'loss': 0.2055, 'grad_norm': 0.5040090680122375, 'learning_rate': 2.601163432550635e-05, 'epoch': 5.27}
 22%|██▏       | 17251/78504 [10:29:47<23:38:11,  1.39s/it] 22%|██▏       | 17252/78504 [10:29:48<22:09:05,  1.30s/it]                                                           {'loss': 0.2096, 'grad_norm': 0.8020264506340027, 'learning_rate': 2.601120971508641e-05, 'epoch': 5.27}
 22%|██▏       | 17252/78504 [10:29:48<22:09:05,  1.30s/it] 22%|██▏       | 17253/78504 [10:29:49<20:51:13,  1.23s/it]                                                           {'loss': 0.2166, 'grad_norm': 0.6218999624252319, 'learning_rate': 2.601078510466647e-05, 'epoch': 5.27}
 22%|██▏       | 17253/78504 [10:29:49<20:51:13,  1.23s/it] 22%|██▏       | 17254/78504 [10:29:50<19:22:13,  1.14s/it]                                                           {'loss': 0.1798, 'grad_norm': 1.106251835823059, 'learning_rate': 2.6010360494246528e-05, 'epoch': 5.27}
 22%|██▏       | 17254/78504 [10:29:50<19:22:13,  1.14s/it] 22%|██▏       | 17255/78504 [10:29:51<17:41:14,  1.04s/it]                                                           {'loss': 0.2524, 'grad_norm': 1.346760630607605, 'learning_rate': 2.600993588382659e-05, 'epoch': 5.28}
 22%|██▏       | 17255/78504 [10:29:51<17:41:14,  1.04s/it] 22%|██▏       | 17256/78504 [10:30:00<57:36:38,  3.39s/it]                                                           {'loss': 0.1238, 'grad_norm': 0.6719956398010254, 'learning_rate': 2.600951127340665e-05, 'epoch': 5.28}
 22%|██▏       | 17256/78504 [10:30:00<57:36:38,  3.39s/it] 22%|██▏       | 17257/78504 [10:30:03<55:57:20,  3.29s/it]                                                           {'loss': 0.1142, 'grad_norm': 0.6009935140609741, 'learning_rate': 2.600908666298671e-05, 'epoch': 5.28}
 22%|██▏       | 17257/78504 [10:30:03<55:57:20,  3.29s/it] 22%|██▏       | 17258/78504 [10:30:05<52:16:59,  3.07s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.24464759230613708, 'learning_rate': 2.600866205256677e-05, 'epoch': 5.28}
 22%|██▏       | 17258/78504 [10:30:05<52:16:59,  3.07s/it] 22%|██▏       | 17259/78504 [10:30:08<49:58:18,  2.94s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.228623166680336, 'learning_rate': 2.6008237442146832e-05, 'epoch': 5.28}
 22%|██▏       | 17259/78504 [10:30:08<49:58:18,  2.94s/it] 22%|██▏       | 17260/78504 [10:30:10<47:41:14,  2.80s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.15820106863975525, 'learning_rate': 2.600781283172689e-05, 'epoch': 5.28}
 22%|██▏       | 17260/78504 [10:30:10<47:41:14,  2.80s/it] 22%|██▏       | 17261/78504 [10:30:13<45:47:45,  2.69s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.25959089398384094, 'learning_rate': 2.6007388221306953e-05, 'epoch': 5.28}
 22%|██▏       | 17261/78504 [10:30:13<45:47:45,  2.69s/it] 22%|██▏       | 17262/78504 [10:30:15<43:53:32,  2.58s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.4203749895095825, 'learning_rate': 2.600696361088701e-05, 'epoch': 5.28}
 22%|██▏       | 17262/78504 [10:30:15<43:53:32,  2.58s/it] 22%|██▏       | 17263/78504 [10:30:17<41:24:10,  2.43s/it]                                                           {'loss': 0.0669, 'grad_norm': 1.241800308227539, 'learning_rate': 2.6006539000467073e-05, 'epoch': 5.28}
 22%|██▏       | 17263/78504 [10:30:17<41:24:10,  2.43s/it] 22%|██▏       | 17264/78504 [10:30:19<39:22:55,  2.32s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.8202168941497803, 'learning_rate': 2.6006114390047132e-05, 'epoch': 5.28}
 22%|██▏       | 17264/78504 [10:30:19<39:22:55,  2.32s/it] 22%|██▏       | 17265/78504 [10:30:21<38:26:48,  2.26s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.7856286764144897, 'learning_rate': 2.6005689779627194e-05, 'epoch': 5.28}
 22%|██▏       | 17265/78504 [10:30:21<38:26:48,  2.26s/it] 22%|██▏       | 17266/78504 [10:30:23<37:12:41,  2.19s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.9621418714523315, 'learning_rate': 2.6005265169207253e-05, 'epoch': 5.28}
 22%|██▏       | 17266/78504 [10:30:24<37:12:41,  2.19s/it] 22%|██▏       | 17267/78504 [10:30:25<36:08:56,  2.13s/it]                                                           {'loss': 0.0868, 'grad_norm': 0.43488556146621704, 'learning_rate': 2.600484055878731e-05, 'epoch': 5.28}
 22%|██▏       | 17267/78504 [10:30:25<36:08:56,  2.13s/it] 22%|██▏       | 17268/78504 [10:30:27<34:49:16,  2.05s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.2936912477016449, 'learning_rate': 2.6004415948367374e-05, 'epoch': 5.28}
 22%|██▏       | 17268/78504 [10:30:27<34:49:16,  2.05s/it] 22%|██▏       | 17269/78504 [10:30:29<33:47:09,  1.99s/it]                                                           {'loss': 0.1397, 'grad_norm': 0.43014803528785706, 'learning_rate': 2.6003991337947432e-05, 'epoch': 5.28}
 22%|██▏       | 17269/78504 [10:30:29<33:47:09,  1.99s/it] 22%|██▏       | 17270/78504 [10:30:31<32:42:36,  1.92s/it]                                                           {'loss': 0.1335, 'grad_norm': 0.7926280498504639, 'learning_rate': 2.6003566727527494e-05, 'epoch': 5.28}
 22%|██▏       | 17270/78504 [10:30:31<32:42:36,  1.92s/it] 22%|██▏       | 17271/78504 [10:30:33<31:19:09,  1.84s/it]                                                           {'loss': 0.1522, 'grad_norm': 0.8460874557495117, 'learning_rate': 2.6003142117107553e-05, 'epoch': 5.28}
 22%|██▏       | 17271/78504 [10:30:33<31:19:09,  1.84s/it] 22%|██▏       | 17272/78504 [10:30:34<29:42:22,  1.75s/it]                                                           {'loss': 0.136, 'grad_norm': 0.731002926826477, 'learning_rate': 2.6002717506687615e-05, 'epoch': 5.28}
 22%|██▏       | 17272/78504 [10:30:34<29:42:22,  1.75s/it] 22%|██▏       | 17273/78504 [10:30:36<28:18:13,  1.66s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.47834861278533936, 'learning_rate': 2.6002292896267674e-05, 'epoch': 5.28}
 22%|██▏       | 17273/78504 [10:30:36<28:18:13,  1.66s/it] 22%|██▏       | 17274/78504 [10:30:37<27:01:27,  1.59s/it]                                                           {'loss': 0.1896, 'grad_norm': 0.6096823215484619, 'learning_rate': 2.6001868285847736e-05, 'epoch': 5.28}
 22%|██▏       | 17274/78504 [10:30:37<27:01:27,  1.59s/it] 22%|██▏       | 17275/78504 [10:30:38<25:27:45,  1.50s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.8816190361976624, 'learning_rate': 2.6001443675427795e-05, 'epoch': 5.28}
 22%|██▏       | 17275/78504 [10:30:38<25:27:45,  1.50s/it] 22%|██▏       | 17276/78504 [10:30:39<23:42:01,  1.39s/it]                                                           {'loss': 0.1636, 'grad_norm': 2.9597699642181396, 'learning_rate': 2.6001019065007857e-05, 'epoch': 5.28}
 22%|██▏       | 17276/78504 [10:30:39<23:42:01,  1.39s/it] 22%|██▏       | 17277/78504 [10:30:41<22:14:09,  1.31s/it]                                                           {'loss': 0.2024, 'grad_norm': 2.5121657848358154, 'learning_rate': 2.6000594454587916e-05, 'epoch': 5.28}
 22%|██▏       | 17277/78504 [10:30:41<22:14:09,  1.31s/it] 22%|██▏       | 17278/78504 [10:30:42<20:36:43,  1.21s/it]                                                           {'loss': 0.2123, 'grad_norm': 0.8050329089164734, 'learning_rate': 2.6000169844167978e-05, 'epoch': 5.28}
 22%|██▏       | 17278/78504 [10:30:42<20:36:43,  1.21s/it] 22%|██▏       | 17279/78504 [10:30:42<19:10:47,  1.13s/it]                                                           {'loss': 0.2522, 'grad_norm': 1.2476513385772705, 'learning_rate': 2.5999745233748036e-05, 'epoch': 5.28}
 22%|██▏       | 17279/78504 [10:30:43<19:10:47,  1.13s/it] 22%|██▏       | 17280/78504 [10:30:43<17:22:49,  1.02s/it]                                                           {'loss': 0.2215, 'grad_norm': 1.6332908868789673, 'learning_rate': 2.5999320623328095e-05, 'epoch': 5.28}
 22%|██▏       | 17280/78504 [10:30:43<17:22:49,  1.02s/it] 22%|██▏       | 17281/78504 [10:30:52<57:29:50,  3.38s/it]                                                           {'loss': 0.1615, 'grad_norm': 0.44571974873542786, 'learning_rate': 2.5998896012908157e-05, 'epoch': 5.28}
 22%|██▏       | 17281/78504 [10:30:52<57:29:50,  3.38s/it] 22%|██▏       | 17282/78504 [10:30:55<56:53:05,  3.34s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.4092874825000763, 'learning_rate': 2.5998471402488216e-05, 'epoch': 5.28}
 22%|██▏       | 17282/78504 [10:30:55<56:53:05,  3.34s/it] 22%|██▏       | 17283/78504 [10:30:58<55:01:13,  3.24s/it]                                                           {'loss': 0.0771, 'grad_norm': 3.3886170387268066, 'learning_rate': 2.5998046792068278e-05, 'epoch': 5.28}
 22%|██▏       | 17283/78504 [10:30:58<55:01:13,  3.24s/it] 22%|██▏       | 17284/78504 [10:31:01<51:43:04,  3.04s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.69985032081604, 'learning_rate': 2.5997622181648337e-05, 'epoch': 5.28}
 22%|██▏       | 17284/78504 [10:31:01<51:43:04,  3.04s/it] 22%|██▏       | 17285/78504 [10:31:03<48:54:11,  2.88s/it]                                                           {'loss': 0.052, 'grad_norm': 0.45458751916885376, 'learning_rate': 2.59971975712284e-05, 'epoch': 5.28}
 22%|██▏       | 17285/78504 [10:31:03<48:54:11,  2.88s/it] 22%|██▏       | 17286/78504 [10:31:06<45:44:00,  2.69s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.9507390856742859, 'learning_rate': 2.5996772960808457e-05, 'epoch': 5.28}
 22%|██▏       | 17286/78504 [10:31:06<45:44:00,  2.69s/it] 22%|██▏       | 17287/78504 [10:31:08<43:53:54,  2.58s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.40967321395874023, 'learning_rate': 2.599634835038852e-05, 'epoch': 5.28}
 22%|██▏       | 17287/78504 [10:31:08<43:53:54,  2.58s/it] 22%|██▏       | 17288/78504 [10:31:10<41:23:17,  2.43s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.5870233178138733, 'learning_rate': 2.5995923739968578e-05, 'epoch': 5.29}
 22%|██▏       | 17288/78504 [10:31:10<41:23:17,  2.43s/it] 22%|██▏       | 17289/78504 [10:31:12<40:05:27,  2.36s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.4609624445438385, 'learning_rate': 2.599549912954864e-05, 'epoch': 5.29}
 22%|██▏       | 17289/78504 [10:31:12<40:05:27,  2.36s/it] 22%|██▏       | 17290/78504 [10:31:14<39:07:31,  2.30s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.33990681171417236, 'learning_rate': 2.59950745191287e-05, 'epoch': 5.29}
 22%|██▏       | 17290/78504 [10:31:15<39:07:31,  2.30s/it] 22%|██▏       | 17291/78504 [10:31:17<37:41:54,  2.22s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.5933921933174133, 'learning_rate': 2.599464990870876e-05, 'epoch': 5.29}
 22%|██▏       | 17291/78504 [10:31:17<37:41:54,  2.22s/it] 22%|██▏       | 17292/78504 [10:31:18<36:31:16,  2.15s/it]                                                           {'loss': 0.075, 'grad_norm': 0.3558615446090698, 'learning_rate': 2.599422529828882e-05, 'epoch': 5.29}
 22%|██▏       | 17292/78504 [10:31:19<36:31:16,  2.15s/it] 22%|██▏       | 17293/78504 [10:31:20<35:05:24,  2.06s/it]                                                           {'loss': 0.074, 'grad_norm': 0.44001996517181396, 'learning_rate': 2.599380068786888e-05, 'epoch': 5.29}
 22%|██▏       | 17293/78504 [10:31:20<35:05:24,  2.06s/it] 22%|██▏       | 17294/78504 [10:31:22<34:02:03,  2.00s/it]                                                           {'loss': 0.1142, 'grad_norm': 1.8426579236984253, 'learning_rate': 2.599337607744894e-05, 'epoch': 5.29}
 22%|██▏       | 17294/78504 [10:31:22<34:02:03,  2.00s/it] 22%|██▏       | 17295/78504 [10:31:24<32:49:10,  1.93s/it]                                                           {'loss': 0.1414, 'grad_norm': 1.2937966585159302, 'learning_rate': 2.5992951467029e-05, 'epoch': 5.29}
 22%|██▏       | 17295/78504 [10:31:24<32:49:10,  1.93s/it] 22%|██▏       | 17296/78504 [10:31:26<31:01:43,  1.82s/it]                                                           {'loss': 0.1559, 'grad_norm': 0.5763744115829468, 'learning_rate': 2.599252685660906e-05, 'epoch': 5.29}
 22%|██▏       | 17296/78504 [10:31:26<31:01:43,  1.82s/it] 22%|██▏       | 17297/78504 [10:31:27<29:33:31,  1.74s/it]                                                           {'loss': 0.1897, 'grad_norm': 1.401045799255371, 'learning_rate': 2.599210224618912e-05, 'epoch': 5.29}
 22%|██▏       | 17297/78504 [10:31:27<29:33:31,  1.74s/it] 22%|██▏       | 17298/78504 [10:31:29<27:57:01,  1.64s/it]                                                           {'loss': 0.1484, 'grad_norm': 4.105606555938721, 'learning_rate': 2.5991677635769182e-05, 'epoch': 5.29}
 22%|██▏       | 17298/78504 [10:31:29<27:57:01,  1.64s/it] 22%|██▏       | 17299/78504 [10:31:30<26:46:23,  1.57s/it]                                                           {'loss': 0.1583, 'grad_norm': 0.8096147775650024, 'learning_rate': 2.599125302534924e-05, 'epoch': 5.29}
 22%|██▏       | 17299/78504 [10:31:30<26:46:23,  1.57s/it] 22%|██▏       | 17300/78504 [10:31:31<24:58:08,  1.47s/it]                                                           {'loss': 0.1604, 'grad_norm': 1.8954200744628906, 'learning_rate': 2.5990828414929303e-05, 'epoch': 5.29}
 22%|██▏       | 17300/78504 [10:31:31<24:58:08,  1.47s/it] 22%|██▏       | 17301/78504 [10:31:32<23:13:13,  1.37s/it]                                                           {'loss': 0.1809, 'grad_norm': 1.5278277397155762, 'learning_rate': 2.599040380450936e-05, 'epoch': 5.29}
 22%|██▏       | 17301/78504 [10:31:32<23:13:13,  1.37s/it] 22%|██▏       | 17302/78504 [10:31:33<21:50:12,  1.28s/it]                                                           {'loss': 0.1721, 'grad_norm': 1.457716464996338, 'learning_rate': 2.5989979194089424e-05, 'epoch': 5.29}
 22%|██▏       | 17302/78504 [10:31:33<21:50:12,  1.28s/it] 22%|██▏       | 17303/78504 [10:31:34<20:22:01,  1.20s/it]                                                           {'loss': 0.1773, 'grad_norm': 0.9752690196037292, 'learning_rate': 2.5989554583669482e-05, 'epoch': 5.29}
 22%|██▏       | 17303/78504 [10:31:34<20:22:01,  1.20s/it] 22%|██▏       | 17304/78504 [10:31:35<19:01:03,  1.12s/it]                                                           {'loss': 0.1784, 'grad_norm': 1.5574485063552856, 'learning_rate': 2.5989129973249544e-05, 'epoch': 5.29}
 22%|██▏       | 17304/78504 [10:31:35<19:01:03,  1.12s/it] 22%|██▏       | 17305/78504 [10:31:36<17:16:52,  1.02s/it]                                                           {'loss': 0.2233, 'grad_norm': 5.237147808074951, 'learning_rate': 2.5988705362829603e-05, 'epoch': 5.29}
 22%|██▏       | 17305/78504 [10:31:36<17:16:52,  1.02s/it] 22%|██▏       | 17306/78504 [10:31:46<62:44:44,  3.69s/it]                                                           {'loss': 0.1523, 'grad_norm': 0.4066639840602875, 'learning_rate': 2.5988280752409662e-05, 'epoch': 5.29}
 22%|██▏       | 17306/78504 [10:31:46<62:44:44,  3.69s/it] 22%|██▏       | 17307/78504 [10:31:49<60:27:25,  3.56s/it]                                                           {'loss': 0.0894, 'grad_norm': 0.5286878347396851, 'learning_rate': 2.5987856141989724e-05, 'epoch': 5.29}
 22%|██▏       | 17307/78504 [10:31:49<60:27:25,  3.56s/it] 22%|██▏       | 17308/78504 [10:31:52<57:31:08,  3.38s/it]                                                           {'loss': 0.075, 'grad_norm': 0.26321765780448914, 'learning_rate': 2.5987431531569783e-05, 'epoch': 5.29}
 22%|██▏       | 17308/78504 [10:31:52<57:31:08,  3.38s/it] 22%|██▏       | 17309/78504 [10:31:55<53:27:42,  3.15s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.219460129737854, 'learning_rate': 2.5987006921149845e-05, 'epoch': 5.29}
 22%|██▏       | 17309/78504 [10:31:55<53:27:42,  3.15s/it] 22%|██▏       | 17310/78504 [10:31:57<49:27:07,  2.91s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.2584701180458069, 'learning_rate': 2.5986582310729903e-05, 'epoch': 5.29}
 22%|██▏       | 17310/78504 [10:31:57<49:27:07,  2.91s/it] 22%|██▏       | 17311/78504 [10:31:59<46:09:16,  2.72s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.3969259262084961, 'learning_rate': 2.5986157700309966e-05, 'epoch': 5.29}
 22%|██▏       | 17311/78504 [10:31:59<46:09:16,  2.72s/it] 22%|██▏       | 17312/78504 [10:32:02<44:11:02,  2.60s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.27650028467178345, 'learning_rate': 2.5985733089890024e-05, 'epoch': 5.29}
 22%|██▏       | 17312/78504 [10:32:02<44:11:02,  2.60s/it] 22%|██▏       | 17313/78504 [10:32:04<41:34:47,  2.45s/it]                                                           {'loss': 0.0868, 'grad_norm': 0.3834875226020813, 'learning_rate': 2.5985308479470086e-05, 'epoch': 5.29}
 22%|██▏       | 17313/78504 [10:32:04<41:34:47,  2.45s/it] 22%|██▏       | 17314/78504 [10:32:06<39:27:30,  2.32s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.23372012376785278, 'learning_rate': 2.5984883869050145e-05, 'epoch': 5.29}
 22%|██▏       | 17314/78504 [10:32:06<39:27:30,  2.32s/it] 22%|██▏       | 17315/78504 [10:32:08<38:32:37,  2.27s/it]                                                           {'loss': 0.0499, 'grad_norm': 0.5836880207061768, 'learning_rate': 2.5984459258630207e-05, 'epoch': 5.29}
 22%|██▏       | 17315/78504 [10:32:08<38:32:37,  2.27s/it] 22%|██▏       | 17316/78504 [10:32:10<37:18:50,  2.20s/it]                                                           {'loss': 0.1061, 'grad_norm': 0.3614482581615448, 'learning_rate': 2.598403464821027e-05, 'epoch': 5.29}
 22%|██▏       | 17316/78504 [10:32:10<37:18:50,  2.20s/it] 22%|██▏       | 17317/78504 [10:32:12<36:11:29,  2.13s/it]                                                           {'loss': 0.073, 'grad_norm': 0.245935320854187, 'learning_rate': 2.598361003779033e-05, 'epoch': 5.29}
 22%|██▏       | 17317/78504 [10:32:12<36:11:29,  2.13s/it] 22%|██▏       | 17318/78504 [10:32:14<34:58:17,  2.06s/it]                                                           {'loss': 0.0947, 'grad_norm': 0.5125656127929688, 'learning_rate': 2.598318542737039e-05, 'epoch': 5.29}
 22%|██▏       | 17318/78504 [10:32:14<34:58:17,  2.06s/it] 22%|██▏       | 17319/78504 [10:32:16<34:01:15,  2.00s/it]                                                           {'loss': 0.1437, 'grad_norm': 0.8183099031448364, 'learning_rate': 2.598276081695045e-05, 'epoch': 5.29}
 22%|██▏       | 17319/78504 [10:32:16<34:01:15,  2.00s/it] 22%|██▏       | 17320/78504 [10:32:18<32:47:41,  1.93s/it]                                                           {'loss': 0.1075, 'grad_norm': 0.7026053667068481, 'learning_rate': 2.598233620653051e-05, 'epoch': 5.3}
 22%|██▏       | 17320/78504 [10:32:18<32:47:41,  1.93s/it] 22%|██▏       | 17321/78504 [10:32:19<31:23:09,  1.85s/it]                                                           {'loss': 0.1668, 'grad_norm': 0.8232913017272949, 'learning_rate': 2.598191159611057e-05, 'epoch': 5.3}
 22%|██▏       | 17321/78504 [10:32:19<31:23:09,  1.85s/it] 22%|██▏       | 17322/78504 [10:32:21<29:50:36,  1.76s/it]                                                           {'loss': 0.1443, 'grad_norm': 0.8139181733131409, 'learning_rate': 2.598148698569063e-05, 'epoch': 5.3}
 22%|██▏       | 17322/78504 [10:32:21<29:50:36,  1.76s/it] 22%|██▏       | 17323/78504 [10:32:22<28:19:43,  1.67s/it]                                                           {'loss': 0.1588, 'grad_norm': 0.4871729016304016, 'learning_rate': 2.598106237527069e-05, 'epoch': 5.3}
 22%|██▏       | 17323/78504 [10:32:22<28:19:43,  1.67s/it] 22%|██▏       | 17324/78504 [10:32:24<26:52:13,  1.58s/it]                                                           {'loss': 0.1571, 'grad_norm': 1.7474123239517212, 'learning_rate': 2.5980637764850752e-05, 'epoch': 5.3}
 22%|██▏       | 17324/78504 [10:32:24<26:52:13,  1.58s/it] 22%|██▏       | 17325/78504 [10:32:25<25:20:58,  1.49s/it]                                                           {'loss': 0.1843, 'grad_norm': 2.8019235134124756, 'learning_rate': 2.598021315443081e-05, 'epoch': 5.3}
 22%|██▏       | 17325/78504 [10:32:25<25:20:58,  1.49s/it] 22%|██▏       | 17326/78504 [10:32:26<23:37:25,  1.39s/it]                                                           {'loss': 0.1526, 'grad_norm': 0.43262195587158203, 'learning_rate': 2.5979788544010873e-05, 'epoch': 5.3}
 22%|██▏       | 17326/78504 [10:32:26<23:37:25,  1.39s/it] 22%|██▏       | 17327/78504 [10:32:27<22:05:57,  1.30s/it]                                                           {'loss': 0.1662, 'grad_norm': 1.2314540147781372, 'learning_rate': 2.5979363933590932e-05, 'epoch': 5.3}
 22%|██▏       | 17327/78504 [10:32:27<22:05:57,  1.30s/it] 22%|██▏       | 17328/78504 [10:32:28<20:29:24,  1.21s/it]                                                           {'loss': 0.1957, 'grad_norm': 1.4232938289642334, 'learning_rate': 2.5978939323170994e-05, 'epoch': 5.3}
 22%|██▏       | 17328/78504 [10:32:28<20:29:24,  1.21s/it] 22%|██▏       | 17329/78504 [10:32:29<19:06:20,  1.12s/it]                                                           {'loss': 0.1773, 'grad_norm': 4.744178771972656, 'learning_rate': 2.5978514712751053e-05, 'epoch': 5.3}
 22%|██▏       | 17329/78504 [10:32:29<19:06:20,  1.12s/it] 22%|██▏       | 17330/78504 [10:32:30<17:21:27,  1.02s/it]                                                           {'loss': 0.243, 'grad_norm': 1.9780455827713013, 'learning_rate': 2.5978090102331115e-05, 'epoch': 5.3}
 22%|██▏       | 17330/78504 [10:32:30<17:21:27,  1.02s/it] 22%|██▏       | 17331/78504 [10:32:38<53:38:47,  3.16s/it]                                                           {'loss': 0.1605, 'grad_norm': 0.32747676968574524, 'learning_rate': 2.5977665491911173e-05, 'epoch': 5.3}
 22%|██▏       | 17331/78504 [10:32:38<53:38:47,  3.16s/it] 22%|██▏       | 17332/78504 [10:32:41<53:13:28,  3.13s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.26165780425071716, 'learning_rate': 2.5977240881491232e-05, 'epoch': 5.3}
 22%|██▏       | 17332/78504 [10:32:41<53:13:28,  3.13s/it] 22%|██▏       | 17333/78504 [10:32:44<52:35:22,  3.09s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.829535186290741, 'learning_rate': 2.5976816271071294e-05, 'epoch': 5.3}
 22%|██▏       | 17333/78504 [10:32:44<52:35:22,  3.09s/it] 22%|██▏       | 17334/78504 [10:32:47<50:07:48,  2.95s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.40366220474243164, 'learning_rate': 2.5976391660651353e-05, 'epoch': 5.3}
 22%|██▏       | 17334/78504 [10:32:47<50:07:48,  2.95s/it] 22%|██▏       | 17335/78504 [10:32:49<47:04:50,  2.77s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.7793444395065308, 'learning_rate': 2.5975967050231415e-05, 'epoch': 5.3}
 22%|██▏       | 17335/78504 [10:32:49<47:04:50,  2.77s/it] 22%|██▏       | 17336/78504 [10:32:51<44:28:16,  2.62s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.3614521026611328, 'learning_rate': 2.5975542439811474e-05, 'epoch': 5.3}
 22%|██▏       | 17336/78504 [10:32:51<44:28:16,  2.62s/it] 22%|██▏       | 17337/78504 [10:32:54<42:58:14,  2.53s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.3222470283508301, 'learning_rate': 2.5975117829391536e-05, 'epoch': 5.3}
 22%|██▏       | 17337/78504 [10:32:54<42:58:14,  2.53s/it] 22%|██▏       | 17338/78504 [10:32:56<40:50:08,  2.40s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.5457300543785095, 'learning_rate': 2.5974693218971594e-05, 'epoch': 5.3}
 22%|██▏       | 17338/78504 [10:32:56<40:50:08,  2.40s/it] 22%|██▏       | 17339/78504 [10:32:58<38:56:16,  2.29s/it]                                                           {'loss': 0.066, 'grad_norm': 0.333141028881073, 'learning_rate': 2.5974268608551657e-05, 'epoch': 5.3}
 22%|██▏       | 17339/78504 [10:32:58<38:56:16,  2.29s/it] 22%|██▏       | 17340/78504 [10:33:00<38:08:30,  2.24s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.3645116686820984, 'learning_rate': 2.5973843998131715e-05, 'epoch': 5.3}
 22%|██▏       | 17340/78504 [10:33:00<38:08:30,  2.24s/it] 22%|██▏       | 17341/78504 [10:33:02<36:52:47,  2.17s/it]                                                           {'loss': 0.0905, 'grad_norm': 0.5593229532241821, 'learning_rate': 2.5973419387711777e-05, 'epoch': 5.3}
 22%|██▏       | 17341/78504 [10:33:02<36:52:47,  2.17s/it] 22%|██▏       | 17342/78504 [10:33:04<35:02:19,  2.06s/it]                                                           {'loss': 0.0755, 'grad_norm': 1.2781566381454468, 'learning_rate': 2.5972994777291836e-05, 'epoch': 5.3}
 22%|██▏       | 17342/78504 [10:33:04<35:02:19,  2.06s/it] 22%|██▏       | 17343/78504 [10:33:06<34:00:43,  2.00s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.46636897325515747, 'learning_rate': 2.5972570166871898e-05, 'epoch': 5.3}
 22%|██▏       | 17343/78504 [10:33:06<34:00:43,  2.00s/it] 22%|██▏       | 17344/78504 [10:33:07<32:30:30,  1.91s/it]                                                           {'loss': 0.1363, 'grad_norm': 2.1506054401397705, 'learning_rate': 2.5972145556451957e-05, 'epoch': 5.3}
 22%|██▏       | 17344/78504 [10:33:07<32:30:30,  1.91s/it] 22%|██▏       | 17345/78504 [10:33:09<31:46:35,  1.87s/it]                                                           {'loss': 0.1098, 'grad_norm': 0.44152069091796875, 'learning_rate': 2.5971720946032016e-05, 'epoch': 5.3}
 22%|██▏       | 17345/78504 [10:33:09<31:46:35,  1.87s/it] 22%|██▏       | 17346/78504 [10:33:11<30:35:26,  1.80s/it]                                                           {'loss': 0.1213, 'grad_norm': 0.8622969388961792, 'learning_rate': 2.5971296335612078e-05, 'epoch': 5.3}
 22%|██▏       | 17346/78504 [10:33:11<30:35:26,  1.80s/it] 22%|██▏       | 17347/78504 [10:33:12<29:10:51,  1.72s/it]                                                           {'loss': 0.1669, 'grad_norm': 0.7351446151733398, 'learning_rate': 2.5970871725192136e-05, 'epoch': 5.3}
 22%|██▏       | 17347/78504 [10:33:12<29:10:51,  1.72s/it] 22%|██▏       | 17348/78504 [10:33:14<27:44:16,  1.63s/it]                                                           {'loss': 0.1353, 'grad_norm': 1.6256924867630005, 'learning_rate': 2.59704471147722e-05, 'epoch': 5.3}
 22%|██▏       | 17348/78504 [10:33:14<27:44:16,  1.63s/it] 22%|██▏       | 17349/78504 [10:33:15<26:37:12,  1.57s/it]                                                           {'loss': 0.1929, 'grad_norm': 0.4934519827365875, 'learning_rate': 2.5970022504352257e-05, 'epoch': 5.3}
 22%|██▏       | 17349/78504 [10:33:15<26:37:12,  1.57s/it] 22%|██▏       | 17350/78504 [10:33:16<25:10:43,  1.48s/it]                                                           {'loss': 0.1827, 'grad_norm': 0.8993542790412903, 'learning_rate': 2.596959789393232e-05, 'epoch': 5.3}
 22%|██▏       | 17350/78504 [10:33:16<25:10:43,  1.48s/it] 22%|██▏       | 17351/78504 [10:33:17<23:27:47,  1.38s/it]                                                           {'loss': 0.1701, 'grad_norm': 1.2997190952301025, 'learning_rate': 2.5969173283512378e-05, 'epoch': 5.3}
 22%|██▏       | 17351/78504 [10:33:17<23:27:47,  1.38s/it] 22%|██▏       | 17352/78504 [10:33:19<22:02:09,  1.30s/it]                                                           {'loss': 0.1537, 'grad_norm': 2.047340154647827, 'learning_rate': 2.596874867309244e-05, 'epoch': 5.3}
 22%|██▏       | 17352/78504 [10:33:19<22:02:09,  1.30s/it] 22%|██▏       | 17353/78504 [10:33:20<20:29:13,  1.21s/it]                                                           {'loss': 0.1746, 'grad_norm': 1.0968362092971802, 'learning_rate': 2.59683240626725e-05, 'epoch': 5.31}
 22%|██▏       | 17353/78504 [10:33:20<20:29:13,  1.21s/it] 22%|██▏       | 17354/78504 [10:33:20<19:06:54,  1.13s/it]                                                           {'loss': 0.2111, 'grad_norm': 0.8943732976913452, 'learning_rate': 2.596789945225256e-05, 'epoch': 5.31}
 22%|██▏       | 17354/78504 [10:33:21<19:06:54,  1.13s/it] 22%|██▏       | 17355/78504 [10:33:21<17:22:39,  1.02s/it]                                                           {'loss': 0.2071, 'grad_norm': 1.2364776134490967, 'learning_rate': 2.596747484183262e-05, 'epoch': 5.31}
 22%|██▏       | 17355/78504 [10:33:21<17:22:39,  1.02s/it] 22%|██▏       | 17356/78504 [10:33:30<55:39:56,  3.28s/it]                                                           {'loss': 0.1506, 'grad_norm': 0.8191848397254944, 'learning_rate': 2.5967050231412678e-05, 'epoch': 5.31}
 22%|██▏       | 17356/78504 [10:33:30<55:39:56,  3.28s/it] 22%|██▏       | 17357/78504 [10:33:33<54:57:20,  3.24s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.32629773020744324, 'learning_rate': 2.596662562099274e-05, 'epoch': 5.31}
 22%|██▏       | 17357/78504 [10:33:33<54:57:20,  3.24s/it] 22%|██▏       | 17358/78504 [10:33:36<53:52:05,  3.17s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.3109055757522583, 'learning_rate': 2.59662010105728e-05, 'epoch': 5.31}
 22%|██▏       | 17358/78504 [10:33:36<53:52:05,  3.17s/it] 22%|██▏       | 17359/78504 [10:33:39<51:01:34,  3.00s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.26789429783821106, 'learning_rate': 2.596577640015286e-05, 'epoch': 5.31}
 22%|██▏       | 17359/78504 [10:33:39<51:01:34,  3.00s/it] 22%|██▏       | 17360/78504 [10:33:41<47:43:52,  2.81s/it]                                                           {'loss': 0.0425, 'grad_norm': 0.8307021856307983, 'learning_rate': 2.596535178973292e-05, 'epoch': 5.31}
 22%|██▏       | 17360/78504 [10:33:41<47:43:52,  2.81s/it] 22%|██▏       | 17361/78504 [10:33:43<44:38:37,  2.63s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.44943034648895264, 'learning_rate': 2.5964927179312982e-05, 'epoch': 5.31}
 22%|██▏       | 17361/78504 [10:33:43<44:38:37,  2.63s/it] 22%|██▏       | 17362/78504 [10:33:45<43:08:20,  2.54s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.6218191981315613, 'learning_rate': 2.596450256889304e-05, 'epoch': 5.31}
 22%|██▏       | 17362/78504 [10:33:46<43:08:20,  2.54s/it] 22%|██▏       | 17363/78504 [10:33:48<40:52:54,  2.41s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.38206157088279724, 'learning_rate': 2.5964077958473103e-05, 'epoch': 5.31}
 22%|██▏       | 17363/78504 [10:33:48<40:52:54,  2.41s/it] 22%|██▏       | 17364/78504 [10:33:50<39:45:35,  2.34s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.3280293047428131, 'learning_rate': 2.596365334805316e-05, 'epoch': 5.31}
 22%|██▏       | 17364/78504 [10:33:50<39:45:35,  2.34s/it] 22%|██▏       | 17365/78504 [10:33:52<38:43:06,  2.28s/it]                                                           {'loss': 0.0395, 'grad_norm': 0.30513545870780945, 'learning_rate': 2.5963228737633223e-05, 'epoch': 5.31}
 22%|██▏       | 17365/78504 [10:33:52<38:43:06,  2.28s/it] 22%|██▏       | 17366/78504 [10:33:54<37:26:27,  2.20s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.3037160038948059, 'learning_rate': 2.5962804127213282e-05, 'epoch': 5.31}
 22%|██▏       | 17366/78504 [10:33:54<37:26:27,  2.20s/it] 22%|██▏       | 17367/78504 [10:33:56<36:17:35,  2.14s/it]                                                           {'loss': 0.0546, 'grad_norm': 0.2099308967590332, 'learning_rate': 2.5962379516793344e-05, 'epoch': 5.31}
 22%|██▏       | 17367/78504 [10:33:56<36:17:35,  2.14s/it] 22%|██▏       | 17368/78504 [10:33:58<35:02:41,  2.06s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.3891242444515228, 'learning_rate': 2.5961954906373403e-05, 'epoch': 5.31}
 22%|██▏       | 17368/78504 [10:33:58<35:02:41,  2.06s/it] 22%|██▏       | 17369/78504 [10:34:00<34:12:19,  2.01s/it]                                                           {'loss': 0.1047, 'grad_norm': 0.3551992177963257, 'learning_rate': 2.596153029595346e-05, 'epoch': 5.31}
 22%|██▏       | 17369/78504 [10:34:00<34:12:19,  2.01s/it] 22%|██▏       | 17370/78504 [10:34:01<32:54:38,  1.94s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.5575762391090393, 'learning_rate': 2.5961105685533524e-05, 'epoch': 5.31}
 22%|██▏       | 17370/78504 [10:34:01<32:54:38,  1.94s/it] 22%|██▏       | 17371/78504 [10:34:03<31:05:00,  1.83s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.7046176195144653, 'learning_rate': 2.5960681075113582e-05, 'epoch': 5.31}
 22%|██▏       | 17371/78504 [10:34:03<31:05:00,  1.83s/it] 22%|██▏       | 17372/78504 [10:34:05<29:36:34,  1.74s/it]                                                           {'loss': 0.1462, 'grad_norm': 0.7109256982803345, 'learning_rate': 2.5960256464693645e-05, 'epoch': 5.31}
 22%|██▏       | 17372/78504 [10:34:05<29:36:34,  1.74s/it] 22%|██▏       | 17373/78504 [10:34:06<28:11:39,  1.66s/it]                                                           {'loss': 0.1491, 'grad_norm': 0.4580579102039337, 'learning_rate': 2.5959831854273703e-05, 'epoch': 5.31}
 22%|██▏       | 17373/78504 [10:34:06<28:11:39,  1.66s/it] 22%|██▏       | 17374/78504 [10:34:07<26:56:43,  1.59s/it]                                                           {'loss': 0.1504, 'grad_norm': 0.962948203086853, 'learning_rate': 2.5959407243853765e-05, 'epoch': 5.31}
 22%|██▏       | 17374/78504 [10:34:07<26:56:43,  1.59s/it] 22%|██▏       | 17375/78504 [10:34:09<25:29:04,  1.50s/it]                                                           {'loss': 0.1614, 'grad_norm': 0.5743358731269836, 'learning_rate': 2.5958982633433824e-05, 'epoch': 5.31}
 22%|██▏       | 17375/78504 [10:34:09<25:29:04,  1.50s/it] 22%|██▏       | 17376/78504 [10:34:10<23:40:31,  1.39s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.552081286907196, 'learning_rate': 2.5958558023013886e-05, 'epoch': 5.31}
 22%|██▏       | 17376/78504 [10:34:10<23:40:31,  1.39s/it] 22%|██▏       | 17377/78504 [10:34:11<22:10:43,  1.31s/it]                                                           {'loss': 0.1632, 'grad_norm': 0.7679868340492249, 'learning_rate': 2.5958133412593945e-05, 'epoch': 5.31}
 22%|██▏       | 17377/78504 [10:34:11<22:10:43,  1.31s/it] 22%|██▏       | 17378/78504 [10:34:12<20:33:51,  1.21s/it]                                                           {'loss': 0.1974, 'grad_norm': 0.7319192886352539, 'learning_rate': 2.5957708802174007e-05, 'epoch': 5.31}
 22%|██▏       | 17378/78504 [10:34:12<20:33:51,  1.21s/it] 22%|██▏       | 17379/78504 [10:34:13<19:05:32,  1.12s/it]                                                           {'loss': 0.1958, 'grad_norm': 1.1067944765090942, 'learning_rate': 2.5957284191754066e-05, 'epoch': 5.31}
 22%|██▏       | 17379/78504 [10:34:13<19:05:32,  1.12s/it] 22%|██▏       | 17380/78504 [10:34:14<17:23:13,  1.02s/it]                                                           {'loss': 0.2498, 'grad_norm': 1.100860357284546, 'learning_rate': 2.5956859581334128e-05, 'epoch': 5.31}
 22%|██▏       | 17380/78504 [10:34:14<17:23:13,  1.02s/it] 22%|██▏       | 17381/78504 [10:34:23<57:17:21,  3.37s/it]                                                           {'loss': 0.1591, 'grad_norm': 0.47977784276008606, 'learning_rate': 2.5956434970914186e-05, 'epoch': 5.31}
 22%|██▏       | 17381/78504 [10:34:23<57:17:21,  3.37s/it] 22%|██▏       | 17382/78504 [10:34:26<55:46:23,  3.28s/it]                                                           {'loss': 0.0673, 'grad_norm': 0.3415321707725525, 'learning_rate': 2.5956010360494245e-05, 'epoch': 5.31}
 22%|██▏       | 17382/78504 [10:34:26<55:46:23,  3.28s/it] 22%|██▏       | 17383/78504 [10:34:29<54:12:31,  3.19s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.4972634017467499, 'learning_rate': 2.5955585750074307e-05, 'epoch': 5.31}
 22%|██▏       | 17383/78504 [10:34:29<54:12:31,  3.19s/it] 22%|██▏       | 17384/78504 [10:34:31<51:16:39,  3.02s/it]                                                           {'loss': 0.0907, 'grad_norm': 0.31220683455467224, 'learning_rate': 2.5955161139654366e-05, 'epoch': 5.31}
 22%|██▏       | 17384/78504 [10:34:31<51:16:39,  3.02s/it] 22%|██▏       | 17385/78504 [10:34:34<48:27:49,  2.85s/it]                                                           {'loss': 0.0662, 'grad_norm': 0.21393296122550964, 'learning_rate': 2.5954736529234428e-05, 'epoch': 5.31}
 22%|██▏       | 17385/78504 [10:34:34<48:27:49,  2.85s/it] 22%|██▏       | 17386/78504 [10:34:36<45:27:34,  2.68s/it]                                                           {'loss': 0.057, 'grad_norm': 0.351020872592926, 'learning_rate': 2.5954311918814487e-05, 'epoch': 5.32}
 22%|██▏       | 17386/78504 [10:34:36<45:27:34,  2.68s/it] 22%|██▏       | 17387/78504 [10:34:38<43:38:10,  2.57s/it]                                                           {'loss': 0.0436, 'grad_norm': 0.17539171874523163, 'learning_rate': 2.595388730839455e-05, 'epoch': 5.32}
 22%|██▏       | 17387/78504 [10:34:38<43:38:10,  2.57s/it] 22%|██▏       | 17388/78504 [10:34:40<41:10:09,  2.43s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.3022637963294983, 'learning_rate': 2.5953462697974607e-05, 'epoch': 5.32}
 22%|██▏       | 17388/78504 [10:34:40<41:10:09,  2.43s/it] 22%|██▏       | 17389/78504 [10:34:43<39:56:11,  2.35s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.27210450172424316, 'learning_rate': 2.595303808755467e-05, 'epoch': 5.32}
 22%|██▏       | 17389/78504 [10:34:43<39:56:11,  2.35s/it] 22%|██▏       | 17390/78504 [10:34:45<38:51:22,  2.29s/it]                                                           {'loss': 0.0514, 'grad_norm': 2.1902315616607666, 'learning_rate': 2.5952613477134728e-05, 'epoch': 5.32}
 22%|██▏       | 17390/78504 [10:34:45<38:51:22,  2.29s/it] 22%|██▏       | 17391/78504 [10:34:47<37:29:39,  2.21s/it]                                                           {'loss': 0.0859, 'grad_norm': 0.9180057644844055, 'learning_rate': 2.595218886671479e-05, 'epoch': 5.32}
 22%|██▏       | 17391/78504 [10:34:47<37:29:39,  2.21s/it] 22%|██▏       | 17392/78504 [10:34:49<36:19:25,  2.14s/it]                                                           {'loss': 0.0881, 'grad_norm': 0.2894631028175354, 'learning_rate': 2.595176425629485e-05, 'epoch': 5.32}
 22%|██▏       | 17392/78504 [10:34:49<36:19:25,  2.14s/it] 22%|██▏       | 17393/78504 [10:34:51<34:53:50,  2.06s/it]                                                           {'loss': 0.0934, 'grad_norm': 0.5945976376533508, 'learning_rate': 2.595133964587491e-05, 'epoch': 5.32}
 22%|██▏       | 17393/78504 [10:34:51<34:53:50,  2.06s/it] 22%|██▏       | 17394/78504 [10:34:52<33:56:12,  2.00s/it]                                                           {'loss': 0.0986, 'grad_norm': 0.40354084968566895, 'learning_rate': 2.595091503545497e-05, 'epoch': 5.32}
 22%|██▏       | 17394/78504 [10:34:52<33:56:12,  2.00s/it] 22%|██▏       | 17395/78504 [10:34:54<32:31:47,  1.92s/it]                                                           {'loss': 0.1007, 'grad_norm': 0.7662529945373535, 'learning_rate': 2.595049042503503e-05, 'epoch': 5.32}
 22%|██▏       | 17395/78504 [10:34:54<32:31:47,  1.92s/it] 22%|██▏       | 17396/78504 [10:34:56<31:05:26,  1.83s/it]                                                           {'loss': 0.128, 'grad_norm': 0.6297411918640137, 'learning_rate': 2.595006581461509e-05, 'epoch': 5.32}
 22%|██▏       | 17396/78504 [10:34:56<31:05:26,  1.83s/it] 22%|██▏       | 17397/78504 [10:34:57<29:34:58,  1.74s/it]                                                           {'loss': 0.1382, 'grad_norm': 0.8485533595085144, 'learning_rate': 2.594964120419515e-05, 'epoch': 5.32}
 22%|██▏       | 17397/78504 [10:34:57<29:34:58,  1.74s/it] 22%|██▏       | 17398/78504 [10:34:59<28:11:07,  1.66s/it]                                                           {'loss': 0.1396, 'grad_norm': 0.7497985363006592, 'learning_rate': 2.594921659377521e-05, 'epoch': 5.32}
 22%|██▏       | 17398/78504 [10:34:59<28:11:07,  1.66s/it] 22%|██▏       | 17399/78504 [10:35:00<26:54:15,  1.59s/it]                                                           {'loss': 0.1837, 'grad_norm': 0.8798383474349976, 'learning_rate': 2.594879198335527e-05, 'epoch': 5.32}
 22%|██▏       | 17399/78504 [10:35:00<26:54:15,  1.59s/it] 22%|██▏       | 17400/78504 [10:35:01<25:20:21,  1.49s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.3978791832923889, 'learning_rate': 2.5948367372935332e-05, 'epoch': 5.32}
 22%|██▏       | 17400/78504 [10:35:02<25:20:21,  1.49s/it] 22%|██▏       | 17401/78504 [10:35:03<23:32:18,  1.39s/it]                                                           {'loss': 0.1777, 'grad_norm': 1.0597656965255737, 'learning_rate': 2.594794276251539e-05, 'epoch': 5.32}
 22%|██▏       | 17401/78504 [10:35:03<23:32:18,  1.39s/it] 22%|██▏       | 17402/78504 [10:35:04<22:06:01,  1.30s/it]                                                           {'loss': 0.2321, 'grad_norm': 0.8462112545967102, 'learning_rate': 2.5947518152095453e-05, 'epoch': 5.32}
 22%|██▏       | 17402/78504 [10:35:04<22:06:01,  1.30s/it] 22%|██▏       | 17403/78504 [10:35:05<20:30:03,  1.21s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.8579172492027283, 'learning_rate': 2.594709354167551e-05, 'epoch': 5.32}
 22%|██▏       | 17403/78504 [10:35:05<20:30:03,  1.21s/it] 22%|██▏       | 17404/78504 [10:35:06<19:06:51,  1.13s/it]                                                           {'loss': 0.2171, 'grad_norm': 0.7216127514839172, 'learning_rate': 2.5946668931255574e-05, 'epoch': 5.32}
 22%|██▏       | 17404/78504 [10:35:06<19:06:51,  1.13s/it] 22%|██▏       | 17405/78504 [10:35:06<17:21:54,  1.02s/it]                                                           {'loss': 0.2271, 'grad_norm': 1.707323670387268, 'learning_rate': 2.5946244320835632e-05, 'epoch': 5.32}
 22%|██▏       | 17405/78504 [10:35:06<17:21:54,  1.02s/it] 22%|██▏       | 17406/78504 [10:35:17<64:30:03,  3.80s/it]                                                           {'loss': 0.1593, 'grad_norm': 0.4871456027030945, 'learning_rate': 2.5945819710415695e-05, 'epoch': 5.32}
 22%|██▏       | 17406/78504 [10:35:17<64:30:03,  3.80s/it] 22%|██▏       | 17407/78504 [10:35:20<62:15:08,  3.67s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.17900077998638153, 'learning_rate': 2.5945395099995753e-05, 'epoch': 5.32}
 22%|██▏       | 17407/78504 [10:35:20<62:15:08,  3.67s/it] 22%|██▏       | 17408/78504 [10:35:23<56:39:16,  3.34s/it]                                                           {'loss': 0.0806, 'grad_norm': 0.22153933346271515, 'learning_rate': 2.5944970489575812e-05, 'epoch': 5.32}
 22%|██▏       | 17408/78504 [10:35:23<56:39:16,  3.34s/it] 22%|██▏       | 17409/78504 [10:35:25<52:58:41,  3.12s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.22563311457633972, 'learning_rate': 2.5944545879155874e-05, 'epoch': 5.32}
 22%|██▏       | 17409/78504 [10:35:25<52:58:41,  3.12s/it] 22%|██▏       | 17410/78504 [10:35:28<49:38:34,  2.93s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.19180814921855927, 'learning_rate': 2.5944121268735933e-05, 'epoch': 5.32}
 22%|██▏       | 17410/78504 [10:35:28<49:38:34,  2.93s/it] 22%|██▏       | 17411/78504 [10:35:30<46:17:38,  2.73s/it]                                                           {'loss': 0.0345, 'grad_norm': 0.21868157386779785, 'learning_rate': 2.5943696658315995e-05, 'epoch': 5.32}
 22%|██▏       | 17411/78504 [10:35:30<46:17:38,  2.73s/it] 22%|██▏       | 17412/78504 [10:35:32<44:12:43,  2.61s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.21627368032932281, 'learning_rate': 2.5943272047896053e-05, 'epoch': 5.32}
 22%|██▏       | 17412/78504 [10:35:32<44:12:43,  2.61s/it] 22%|██▏       | 17413/78504 [10:35:35<42:41:32,  2.52s/it]                                                           {'loss': 0.0704, 'grad_norm': 0.30907300114631653, 'learning_rate': 2.5942847437476116e-05, 'epoch': 5.32}
 22%|██▏       | 17413/78504 [10:35:35<42:41:32,  2.52s/it] 22%|██▏       | 17414/78504 [10:35:37<40:58:34,  2.41s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.23946785926818848, 'learning_rate': 2.5942422827056174e-05, 'epoch': 5.32}
 22%|██▏       | 17414/78504 [10:35:37<40:58:34,  2.41s/it] 22%|██▏       | 17415/78504 [10:35:39<39:42:45,  2.34s/it]                                                           {'loss': 0.0504, 'grad_norm': 0.4162997901439667, 'learning_rate': 2.5941998216636236e-05, 'epoch': 5.32}
 22%|██▏       | 17415/78504 [10:35:39<39:42:45,  2.34s/it] 22%|██▏       | 17416/78504 [10:35:41<37:13:55,  2.19s/it]                                                           {'loss': 0.1062, 'grad_norm': 0.4081616997718811, 'learning_rate': 2.5941573606216295e-05, 'epoch': 5.32}
 22%|██▏       | 17416/78504 [10:35:41<37:13:55,  2.19s/it] 22%|██▏       | 17417/78504 [10:35:43<36:10:38,  2.13s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.37132692337036133, 'learning_rate': 2.5941148995796357e-05, 'epoch': 5.32}
 22%|██▏       | 17417/78504 [10:35:43<36:10:38,  2.13s/it] 22%|██▏       | 17418/78504 [10:35:45<34:58:21,  2.06s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.5934848189353943, 'learning_rate': 2.5940724385376416e-05, 'epoch': 5.32}
 22%|██▏       | 17418/78504 [10:35:45<34:58:21,  2.06s/it] 22%|██▏       | 17419/78504 [10:35:47<33:54:51,  2.00s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.3193126618862152, 'learning_rate': 2.594029977495648e-05, 'epoch': 5.33}
 22%|██▏       | 17419/78504 [10:35:47<33:54:51,  2.00s/it] 22%|██▏       | 17420/78504 [10:35:48<32:44:32,  1.93s/it]                                                           {'loss': 0.1206, 'grad_norm': 0.3541451096534729, 'learning_rate': 2.593987516453654e-05, 'epoch': 5.33}
 22%|██▏       | 17420/78504 [10:35:48<32:44:32,  1.93s/it] 22%|██▏       | 17421/78504 [10:35:50<31:19:46,  1.85s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.4985538125038147, 'learning_rate': 2.59394505541166e-05, 'epoch': 5.33}
 22%|██▏       | 17421/78504 [10:35:50<31:19:46,  1.85s/it] 22%|██▏       | 17422/78504 [10:35:52<29:44:36,  1.75s/it]                                                           {'loss': 0.1421, 'grad_norm': 0.5543042421340942, 'learning_rate': 2.593902594369666e-05, 'epoch': 5.33}
 22%|██▏       | 17422/78504 [10:35:52<29:44:36,  1.75s/it] 22%|██▏       | 17423/78504 [10:35:53<28:17:20,  1.67s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.8864631056785583, 'learning_rate': 2.593860133327672e-05, 'epoch': 5.33}
 22%|██▏       | 17423/78504 [10:35:53<28:17:20,  1.67s/it] 22%|██▏       | 17424/78504 [10:35:54<26:55:28,  1.59s/it]                                                           {'loss': 0.1908, 'grad_norm': 0.6449218988418579, 'learning_rate': 2.593817672285678e-05, 'epoch': 5.33}
 22%|██▏       | 17424/78504 [10:35:54<26:55:28,  1.59s/it] 22%|██▏       | 17425/78504 [10:35:56<25:23:52,  1.50s/it]                                                           {'loss': 0.1651, 'grad_norm': 0.6614227294921875, 'learning_rate': 2.593775211243684e-05, 'epoch': 5.33}
 22%|██▏       | 17425/78504 [10:35:56<25:23:52,  1.50s/it] 22%|██▏       | 17426/78504 [10:35:57<23:28:54,  1.38s/it]                                                           {'loss': 0.1654, 'grad_norm': 1.197358250617981, 'learning_rate': 2.5937327502016902e-05, 'epoch': 5.33}
 22%|██▏       | 17426/78504 [10:35:57<23:28:54,  1.38s/it] 22%|██▏       | 17427/78504 [10:35:58<22:00:21,  1.30s/it]                                                           {'loss': 0.1888, 'grad_norm': 2.403608798980713, 'learning_rate': 2.593690289159696e-05, 'epoch': 5.33}
 22%|██▏       | 17427/78504 [10:35:58<22:00:21,  1.30s/it] 22%|██▏       | 17428/78504 [10:35:59<20:29:25,  1.21s/it]                                                           {'loss': 0.258, 'grad_norm': 2.8901383876800537, 'learning_rate': 2.5936478281177023e-05, 'epoch': 5.33}
 22%|██▏       | 17428/78504 [10:35:59<20:29:25,  1.21s/it] 22%|██▏       | 17429/78504 [10:36:00<19:03:44,  1.12s/it]                                                           {'loss': 0.1903, 'grad_norm': 4.140195846557617, 'learning_rate': 2.5936053670757082e-05, 'epoch': 5.33}
 22%|██▏       | 17429/78504 [10:36:00<19:03:44,  1.12s/it] 22%|██▏       | 17430/78504 [10:36:01<17:20:26,  1.02s/it]                                                           {'loss': 0.2268, 'grad_norm': 2.233199119567871, 'learning_rate': 2.5935629060337144e-05, 'epoch': 5.33}
 22%|██▏       | 17430/78504 [10:36:01<17:20:26,  1.02s/it] 22%|██▏       | 17431/78504 [10:36:10<60:00:44,  3.54s/it]                                                           {'loss': 0.1423, 'grad_norm': 0.6595281958580017, 'learning_rate': 2.5935204449917203e-05, 'epoch': 5.33}
 22%|██▏       | 17431/78504 [10:36:10<60:00:44,  3.54s/it] 22%|██▏       | 17432/78504 [10:36:13<59:03:07,  3.48s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.6264349222183228, 'learning_rate': 2.5934779839497265e-05, 'epoch': 5.33}
 22%|██▏       | 17432/78504 [10:36:13<59:03:07,  3.48s/it] 22%|██▏       | 17433/78504 [10:36:16<54:23:12,  3.21s/it]                                                           {'loss': 0.0475, 'grad_norm': 0.39046186208724976, 'learning_rate': 2.5934355229077323e-05, 'epoch': 5.33}
 22%|██▏       | 17433/78504 [10:36:16<54:23:12,  3.21s/it] 22%|██▏       | 17434/78504 [10:36:19<51:21:35,  3.03s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.20229856669902802, 'learning_rate': 2.5933930618657382e-05, 'epoch': 5.33}
 22%|██▏       | 17434/78504 [10:36:19<51:21:35,  3.03s/it] 22%|██▏       | 17435/78504 [10:36:21<47:57:54,  2.83s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.2820141613483429, 'learning_rate': 2.5933506008237444e-05, 'epoch': 5.33}
 22%|██▏       | 17435/78504 [10:36:21<47:57:54,  2.83s/it] 22%|██▏       | 17436/78504 [10:36:23<45:04:46,  2.66s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.18941202759742737, 'learning_rate': 2.5933081397817503e-05, 'epoch': 5.33}
 22%|██▏       | 17436/78504 [10:36:23<45:04:46,  2.66s/it] 22%|██▏       | 17437/78504 [10:36:25<43:19:58,  2.55s/it]                                                           {'loss': 0.081, 'grad_norm': 0.20571403205394745, 'learning_rate': 2.5932656787397565e-05, 'epoch': 5.33}
 22%|██▏       | 17437/78504 [10:36:25<43:19:58,  2.55s/it] 22%|██▏       | 17438/78504 [10:36:28<40:59:51,  2.42s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.5634913444519043, 'learning_rate': 2.5932232176977624e-05, 'epoch': 5.33}
 22%|██▏       | 17438/78504 [10:36:28<40:59:51,  2.42s/it] 22%|██▏       | 17439/78504 [10:36:30<39:00:33,  2.30s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.3898214101791382, 'learning_rate': 2.5931807566557686e-05, 'epoch': 5.33}
 22%|██▏       | 17439/78504 [10:36:30<39:00:33,  2.30s/it] 22%|██▏       | 17440/78504 [10:36:32<38:10:17,  2.25s/it]                                                           {'loss': 0.0637, 'grad_norm': 2.9749221801757812, 'learning_rate': 2.5931382956137745e-05, 'epoch': 5.33}
 22%|██▏       | 17440/78504 [10:36:32<38:10:17,  2.25s/it] 22%|██▏       | 17441/78504 [10:36:34<37:00:55,  2.18s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.1829776018857956, 'learning_rate': 2.5930958345717807e-05, 'epoch': 5.33}
 22%|██▏       | 17441/78504 [10:36:34<37:00:55,  2.18s/it] 22%|██▏       | 17442/78504 [10:36:36<35:38:33,  2.10s/it]                                                           {'loss': 0.0879, 'grad_norm': 0.801478922367096, 'learning_rate': 2.5930533735297865e-05, 'epoch': 5.33}
 22%|██▏       | 17442/78504 [10:36:36<35:38:33,  2.10s/it] 22%|██▏       | 17443/78504 [10:36:38<34:28:17,  2.03s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.2820027470588684, 'learning_rate': 2.5930109124877927e-05, 'epoch': 5.33}
 22%|██▏       | 17443/78504 [10:36:38<34:28:17,  2.03s/it] 22%|██▏       | 17444/78504 [10:36:39<32:53:43,  1.94s/it]                                                           {'loss': 0.1043, 'grad_norm': 0.9314470291137695, 'learning_rate': 2.5929684514457986e-05, 'epoch': 5.33}
 22%|██▏       | 17444/78504 [10:36:39<32:53:43,  1.94s/it] 22%|██▏       | 17445/78504 [10:36:41<32:00:05,  1.89s/it]                                                           {'loss': 0.1508, 'grad_norm': 0.4619143009185791, 'learning_rate': 2.5929259904038048e-05, 'epoch': 5.33}
 22%|██▏       | 17445/78504 [10:36:41<32:00:05,  1.89s/it] 22%|██▏       | 17446/78504 [10:36:43<30:44:39,  1.81s/it]                                                           {'loss': 0.134, 'grad_norm': 0.6063992977142334, 'learning_rate': 2.5928835293618107e-05, 'epoch': 5.33}
 22%|██▏       | 17446/78504 [10:36:43<30:44:39,  1.81s/it] 22%|██▏       | 17447/78504 [10:36:44<29:13:59,  1.72s/it]                                                           {'loss': 0.161, 'grad_norm': 0.6292773485183716, 'learning_rate': 2.5928410683198166e-05, 'epoch': 5.33}
 22%|██▏       | 17447/78504 [10:36:44<29:13:59,  1.72s/it] 22%|██▏       | 17448/78504 [10:36:46<27:58:16,  1.65s/it]                                                           {'loss': 0.1584, 'grad_norm': 1.5845324993133545, 'learning_rate': 2.5927986072778228e-05, 'epoch': 5.33}
 22%|██▏       | 17448/78504 [10:36:46<27:58:16,  1.65s/it] 22%|██▏       | 17449/78504 [10:36:47<26:45:31,  1.58s/it]                                                           {'loss': 0.1468, 'grad_norm': 0.5995978116989136, 'learning_rate': 2.5927561462358286e-05, 'epoch': 5.33}
 22%|██▏       | 17449/78504 [10:36:47<26:45:31,  1.58s/it] 22%|██▏       | 17450/78504 [10:36:48<25:17:38,  1.49s/it]                                                           {'loss': 0.1649, 'grad_norm': 1.1493276357650757, 'learning_rate': 2.592713685193835e-05, 'epoch': 5.33}
 22%|██▏       | 17450/78504 [10:36:48<25:17:38,  1.49s/it] 22%|██▏       | 17451/78504 [10:36:49<23:33:40,  1.39s/it]                                                           {'loss': 0.1576, 'grad_norm': 0.4762287735939026, 'learning_rate': 2.5926712241518407e-05, 'epoch': 5.34}
 22%|██▏       | 17451/78504 [10:36:50<23:33:40,  1.39s/it] 22%|██▏       | 17452/78504 [10:36:51<22:06:00,  1.30s/it]                                                           {'loss': 0.1748, 'grad_norm': 0.6663997173309326, 'learning_rate': 2.592628763109847e-05, 'epoch': 5.34}
 22%|██▏       | 17452/78504 [10:36:51<22:06:00,  1.30s/it] 22%|██▏       | 17453/78504 [10:36:52<20:46:04,  1.22s/it]                                                           {'loss': 0.1786, 'grad_norm': 0.5730801224708557, 'learning_rate': 2.5925863020678528e-05, 'epoch': 5.34}
 22%|██▏       | 17453/78504 [10:36:52<20:46:04,  1.22s/it] 22%|██▏       | 17454/78504 [10:36:53<19:14:02,  1.13s/it]                                                           {'loss': 0.244, 'grad_norm': 0.9712129235267639, 'learning_rate': 2.592543841025859e-05, 'epoch': 5.34}
 22%|██▏       | 17454/78504 [10:36:53<19:14:02,  1.13s/it] 22%|██▏       | 17455/78504 [10:36:53<17:27:05,  1.03s/it]                                                           {'loss': 0.2374, 'grad_norm': 0.9940794706344604, 'learning_rate': 2.592501379983865e-05, 'epoch': 5.34}
 22%|██▏       | 17455/78504 [10:36:53<17:27:05,  1.03s/it] 22%|██▏       | 17456/78504 [10:37:01<49:41:58,  2.93s/it]                                                           {'loss': 0.1377, 'grad_norm': 0.3819144368171692, 'learning_rate': 2.592458918941871e-05, 'epoch': 5.34}
 22%|██▏       | 17456/78504 [10:37:01<49:41:58,  2.93s/it] 22%|██▏       | 17457/78504 [10:37:04<51:55:25,  3.06s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.24364708364009857, 'learning_rate': 2.592416457899877e-05, 'epoch': 5.34}
 22%|██▏       | 17457/78504 [10:37:04<51:55:25,  3.06s/it] 22%|██▏       | 17458/78504 [10:37:07<49:25:51,  2.92s/it]                                                           {'loss': 0.0872, 'grad_norm': 0.25737351179122925, 'learning_rate': 2.592373996857883e-05, 'epoch': 5.34}
 22%|██▏       | 17458/78504 [10:37:07<49:25:51,  2.92s/it] 22%|██▏       | 17459/78504 [10:37:09<47:51:41,  2.82s/it]                                                           {'loss': 0.0838, 'grad_norm': 0.28755393624305725, 'learning_rate': 2.592331535815889e-05, 'epoch': 5.34}
 22%|██▏       | 17459/78504 [10:37:09<47:51:41,  2.82s/it] 22%|██▏       | 17460/78504 [10:37:12<46:05:00,  2.72s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.45376813411712646, 'learning_rate': 2.592289074773895e-05, 'epoch': 5.34}
 22%|██▏       | 17460/78504 [10:37:12<46:05:00,  2.72s/it] 22%|██▏       | 17461/78504 [10:37:14<43:46:26,  2.58s/it]                                                           {'loss': 0.0415, 'grad_norm': 0.4518970847129822, 'learning_rate': 2.592246613731901e-05, 'epoch': 5.34}
 22%|██▏       | 17461/78504 [10:37:14<43:46:26,  2.58s/it] 22%|██▏       | 17462/78504 [10:37:16<42:27:12,  2.50s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.6104654669761658, 'learning_rate': 2.592204152689907e-05, 'epoch': 5.34}
 22%|██▏       | 17462/78504 [10:37:16<42:27:12,  2.50s/it] 22%|██▏       | 17463/78504 [10:37:18<40:27:19,  2.39s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.3692210614681244, 'learning_rate': 2.5921616916479132e-05, 'epoch': 5.34}
 22%|██▏       | 17463/78504 [10:37:18<40:27:19,  2.39s/it] 22%|██▏       | 17464/78504 [10:37:21<39:25:30,  2.33s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.41792139410972595, 'learning_rate': 2.592119230605919e-05, 'epoch': 5.34}
 22%|██▏       | 17464/78504 [10:37:21<39:25:30,  2.33s/it] 22%|██▏       | 17465/78504 [10:37:23<38:31:02,  2.27s/it]                                                           {'loss': 0.0648, 'grad_norm': 0.3310199975967407, 'learning_rate': 2.5920767695639253e-05, 'epoch': 5.34}
 22%|██▏       | 17465/78504 [10:37:23<38:31:02,  2.27s/it] 22%|██▏       | 17466/78504 [10:37:25<37:13:26,  2.20s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.3717235326766968, 'learning_rate': 2.592034308521931e-05, 'epoch': 5.34}
 22%|██▏       | 17466/78504 [10:37:25<37:13:26,  2.20s/it] 22%|██▏       | 17467/78504 [10:37:27<36:06:23,  2.13s/it]                                                           {'loss': 0.1237, 'grad_norm': 0.5348508358001709, 'learning_rate': 2.5919918474799373e-05, 'epoch': 5.34}
 22%|██▏       | 17467/78504 [10:37:27<36:06:23,  2.13s/it] 22%|██▏       | 17468/78504 [10:37:29<34:53:17,  2.06s/it]                                                           {'loss': 0.0958, 'grad_norm': 0.358508437871933, 'learning_rate': 2.5919493864379432e-05, 'epoch': 5.34}
 22%|██▏       | 17468/78504 [10:37:29<34:53:17,  2.06s/it] 22%|██▏       | 17469/78504 [10:37:31<34:33:54,  2.04s/it]                                                           {'loss': 0.0983, 'grad_norm': 0.7156733274459839, 'learning_rate': 2.5919069253959494e-05, 'epoch': 5.34}
 22%|██▏       | 17469/78504 [10:37:31<34:33:54,  2.04s/it] 22%|██▏       | 17470/78504 [10:37:32<33:08:26,  1.95s/it]                                                           {'loss': 0.1123, 'grad_norm': 0.3521808385848999, 'learning_rate': 2.5918644643539553e-05, 'epoch': 5.34}
 22%|██▏       | 17470/78504 [10:37:32<33:08:26,  1.95s/it] 22%|██▏       | 17471/78504 [10:37:34<31:13:16,  1.84s/it]                                                           {'loss': 0.1442, 'grad_norm': 1.0991475582122803, 'learning_rate': 2.5918220033119615e-05, 'epoch': 5.34}
 22%|██▏       | 17471/78504 [10:37:34<31:13:16,  1.84s/it] 22%|██▏       | 17472/78504 [10:37:36<29:40:40,  1.75s/it]                                                           {'loss': 0.1643, 'grad_norm': 0.5815557241439819, 'learning_rate': 2.5917795422699674e-05, 'epoch': 5.34}
 22%|██▏       | 17472/78504 [10:37:36<29:40:40,  1.75s/it] 22%|██▏       | 17473/78504 [10:37:37<28:28:44,  1.68s/it]                                                           {'loss': 0.1658, 'grad_norm': 0.8540669083595276, 'learning_rate': 2.5917370812279732e-05, 'epoch': 5.34}
 22%|██▏       | 17473/78504 [10:37:37<28:28:44,  1.68s/it] 22%|██▏       | 17474/78504 [10:37:38<27:00:58,  1.59s/it]                                                           {'loss': 0.1523, 'grad_norm': 0.6200188994407654, 'learning_rate': 2.5916946201859795e-05, 'epoch': 5.34}
 22%|██▏       | 17474/78504 [10:37:38<27:00:58,  1.59s/it] 22%|██▏       | 17475/78504 [10:37:40<25:24:44,  1.50s/it]                                                           {'loss': 0.1586, 'grad_norm': 0.6407157778739929, 'learning_rate': 2.5916521591439853e-05, 'epoch': 5.34}
 22%|██▏       | 17475/78504 [10:37:40<25:24:44,  1.50s/it] 22%|██▏       | 17476/78504 [10:37:41<23:37:08,  1.39s/it]                                                           {'loss': 0.1961, 'grad_norm': 1.2162878513336182, 'learning_rate': 2.5916096981019915e-05, 'epoch': 5.34}
 22%|██▏       | 17476/78504 [10:37:41<23:37:08,  1.39s/it] 22%|██▏       | 17477/78504 [10:37:42<22:04:22,  1.30s/it]                                                           {'loss': 0.1903, 'grad_norm': 0.8302090167999268, 'learning_rate': 2.5915672370599974e-05, 'epoch': 5.34}
 22%|██▏       | 17477/78504 [10:37:42<22:04:22,  1.30s/it] 22%|██▏       | 17478/78504 [10:37:43<20:30:00,  1.21s/it]                                                           {'loss': 0.1991, 'grad_norm': 0.7557647824287415, 'learning_rate': 2.5915247760180036e-05, 'epoch': 5.34}
 22%|██▏       | 17478/78504 [10:37:43<20:30:00,  1.21s/it] 22%|██▏       | 17479/78504 [10:37:44<19:08:21,  1.13s/it]                                                           {'loss': 0.1972, 'grad_norm': 0.6856497526168823, 'learning_rate': 2.5914823149760095e-05, 'epoch': 5.34}
 22%|██▏       | 17479/78504 [10:37:44<19:08:21,  1.13s/it] 22%|██▏       | 17480/78504 [10:37:45<17:29:25,  1.03s/it]                                                           {'loss': 0.255, 'grad_norm': 1.1442700624465942, 'learning_rate': 2.5914398539340157e-05, 'epoch': 5.34}
 22%|██▏       | 17480/78504 [10:37:45<17:29:25,  1.03s/it] 22%|██▏       | 17481/78504 [10:37:51<45:55:33,  2.71s/it]                                                           {'loss': 0.1765, 'grad_norm': 0.8059082627296448, 'learning_rate': 2.5913973928920216e-05, 'epoch': 5.34}
 22%|██▏       | 17481/78504 [10:37:51<45:55:33,  2.71s/it] 22%|██▏       | 17482/78504 [10:37:54<47:59:55,  2.83s/it]                                                           {'loss': 0.0925, 'grad_norm': 0.2400123029947281, 'learning_rate': 2.5913549318500278e-05, 'epoch': 5.34}
 22%|██▏       | 17482/78504 [10:37:54<47:59:55,  2.83s/it] 22%|██▏       | 17483/78504 [10:37:57<48:46:28,  2.88s/it]                                                           {'loss': 0.0943, 'grad_norm': 0.5005520582199097, 'learning_rate': 2.5913124708080336e-05, 'epoch': 5.34}
 22%|██▏       | 17483/78504 [10:37:57<48:46:28,  2.88s/it] 22%|██▏       | 17484/78504 [10:38:00<47:17:49,  2.79s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.2210826873779297, 'learning_rate': 2.5912700097660395e-05, 'epoch': 5.35}
 22%|██▏       | 17484/78504 [10:38:00<47:17:49,  2.79s/it] 22%|██▏       | 17485/78504 [10:38:02<45:05:59,  2.66s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.3590957522392273, 'learning_rate': 2.5912275487240457e-05, 'epoch': 5.35}
 22%|██▏       | 17485/78504 [10:38:02<45:05:59,  2.66s/it] 22%|██▏       | 17486/78504 [10:38:05<43:31:08,  2.57s/it]                                                           {'loss': 0.061, 'grad_norm': 0.21954567730426788, 'learning_rate': 2.5911850876820516e-05, 'epoch': 5.35}
 22%|██▏       | 17486/78504 [10:38:05<43:31:08,  2.57s/it] 22%|██▏       | 17487/78504 [10:38:07<42:20:02,  2.50s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.17073491215705872, 'learning_rate': 2.5911426266400578e-05, 'epoch': 5.35}
 22%|██▏       | 17487/78504 [10:38:07<42:20:02,  2.50s/it] 22%|██▏       | 17488/78504 [10:38:09<41:05:36,  2.42s/it]                                                           {'loss': 0.0435, 'grad_norm': 1.3246979713439941, 'learning_rate': 2.5911001655980637e-05, 'epoch': 5.35}
 22%|██▏       | 17488/78504 [10:38:09<41:05:36,  2.42s/it] 22%|██▏       | 17489/78504 [10:38:11<39:05:38,  2.31s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.7503647208213806, 'learning_rate': 2.59105770455607e-05, 'epoch': 5.35}
 22%|██▏       | 17489/78504 [10:38:11<39:05:38,  2.31s/it] 22%|██▏       | 17490/78504 [10:38:13<38:14:59,  2.26s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.2529979348182678, 'learning_rate': 2.5910152435140757e-05, 'epoch': 5.35}
 22%|██▏       | 17490/78504 [10:38:13<38:14:59,  2.26s/it] 22%|██▏       | 17491/78504 [10:38:15<36:52:03,  2.18s/it]                                                           {'loss': 0.0961, 'grad_norm': 0.36763009428977966, 'learning_rate': 2.590972782472082e-05, 'epoch': 5.35}
 22%|██▏       | 17491/78504 [10:38:15<36:52:03,  2.18s/it] 22%|██▏       | 17492/78504 [10:38:17<35:00:26,  2.07s/it]                                                           {'loss': 0.0848, 'grad_norm': 0.32145029306411743, 'learning_rate': 2.5909303214300878e-05, 'epoch': 5.35}
 22%|██▏       | 17492/78504 [10:38:17<35:00:26,  2.07s/it] 22%|██▏       | 17493/78504 [10:38:19<33:58:22,  2.00s/it]                                                           {'loss': 0.1174, 'grad_norm': 0.3380149006843567, 'learning_rate': 2.590887860388094e-05, 'epoch': 5.35}
 22%|██▏       | 17493/78504 [10:38:19<33:58:22,  2.00s/it] 22%|██▏       | 17494/78504 [10:38:21<32:27:20,  1.92s/it]                                                           {'loss': 0.1271, 'grad_norm': 0.40349531173706055, 'learning_rate': 2.5908453993461e-05, 'epoch': 5.35}
 22%|██▏       | 17494/78504 [10:38:21<32:27:20,  1.92s/it] 22%|██▏       | 17495/78504 [10:38:23<31:28:55,  1.86s/it]                                                           {'loss': 0.1128, 'grad_norm': 0.7018424272537231, 'learning_rate': 2.590802938304106e-05, 'epoch': 5.35}
 22%|██▏       | 17495/78504 [10:38:23<31:28:55,  1.86s/it] 22%|██▏       | 17496/78504 [10:38:24<30:26:04,  1.80s/it]                                                           {'loss': 0.1185, 'grad_norm': 0.3442157804965973, 'learning_rate': 2.590760477262112e-05, 'epoch': 5.35}
 22%|██▏       | 17496/78504 [10:38:24<30:26:04,  1.80s/it] 22%|██▏       | 17497/78504 [10:38:26<29:02:55,  1.71s/it]                                                           {'loss': 0.1363, 'grad_norm': 0.822137176990509, 'learning_rate': 2.590718016220118e-05, 'epoch': 5.35}
 22%|██▏       | 17497/78504 [10:38:26<29:02:55,  1.71s/it] 22%|██▏       | 17498/78504 [10:38:27<27:34:35,  1.63s/it]                                                           {'loss': 0.171, 'grad_norm': 0.6066516041755676, 'learning_rate': 2.590675555178124e-05, 'epoch': 5.35}
 22%|██▏       | 17498/78504 [10:38:27<27:34:35,  1.63s/it] 22%|██▏       | 17499/78504 [10:38:29<26:30:38,  1.56s/it]                                                           {'loss': 0.1317, 'grad_norm': 0.4280405640602112, 'learning_rate': 2.59063309413613e-05, 'epoch': 5.35}
 22%|██▏       | 17499/78504 [10:38:29<26:30:38,  1.56s/it] 22%|██▏       | 17500/78504 [10:38:30<24:46:50,  1.46s/it]                                                           {'loss': 0.1983, 'grad_norm': 0.46434471011161804, 'learning_rate': 2.590590633094136e-05, 'epoch': 5.35}
 22%|██▏       | 17500/78504 [10:38:30<24:46:50,  1.46s/it] 22%|██▏       | 17501/78504 [10:38:31<23:11:31,  1.37s/it]                                                           {'loss': 0.1815, 'grad_norm': 1.293434977531433, 'learning_rate': 2.590548172052142e-05, 'epoch': 5.35}
 22%|██▏       | 17501/78504 [10:38:31<23:11:31,  1.37s/it] 22%|██▏       | 17502/78504 [10:38:32<21:46:30,  1.29s/it]                                                           {'loss': 0.1756, 'grad_norm': 0.9794960021972656, 'learning_rate': 2.5905057110101482e-05, 'epoch': 5.35}
 22%|██▏       | 17502/78504 [10:38:32<21:46:30,  1.29s/it] 22%|██▏       | 17503/78504 [10:38:33<20:48:15,  1.23s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.8945972323417664, 'learning_rate': 2.590463249968154e-05, 'epoch': 5.35}
 22%|██▏       | 17503/78504 [10:38:33<20:48:15,  1.23s/it] 22%|██▏       | 17504/78504 [10:38:34<19:20:27,  1.14s/it]                                                           {'loss': 0.2065, 'grad_norm': 1.8548918962478638, 'learning_rate': 2.5904207889261603e-05, 'epoch': 5.35}
 22%|██▏       | 17504/78504 [10:38:34<19:20:27,  1.14s/it] 22%|██▏       | 17505/78504 [10:38:35<17:31:16,  1.03s/it]                                                           {'loss': 0.2229, 'grad_norm': 0.8631103038787842, 'learning_rate': 2.590378327884166e-05, 'epoch': 5.35}
 22%|██▏       | 17505/78504 [10:38:35<17:31:16,  1.03s/it] 22%|██▏       | 17506/78504 [10:38:44<59:19:26,  3.50s/it]                                                           {'loss': 0.1377, 'grad_norm': 0.427567720413208, 'learning_rate': 2.5903358668421724e-05, 'epoch': 5.35}
 22%|██▏       | 17506/78504 [10:38:44<59:19:26,  3.50s/it] 22%|██▏       | 17507/78504 [10:38:47<58:35:08,  3.46s/it]                                                           {'loss': 0.0962, 'grad_norm': 0.36581555008888245, 'learning_rate': 2.5902934058001782e-05, 'epoch': 5.35}
 22%|██▏       | 17507/78504 [10:38:47<58:35:08,  3.46s/it] 22%|██▏       | 17508/78504 [10:38:50<55:51:37,  3.30s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.24086828529834747, 'learning_rate': 2.5902509447581845e-05, 'epoch': 5.35}
 22%|██▏       | 17508/78504 [10:38:50<55:51:37,  3.30s/it] 22%|██▏       | 17509/78504 [10:38:53<52:16:52,  3.09s/it]                                                           {'loss': 0.0588, 'grad_norm': 0.2448224127292633, 'learning_rate': 2.5902084837161903e-05, 'epoch': 5.35}
 22%|██▏       | 17509/78504 [10:38:53<52:16:52,  3.09s/it] 22%|██▏       | 17510/78504 [10:38:55<49:17:53,  2.91s/it]                                                           {'loss': 0.0456, 'grad_norm': 0.2818410098552704, 'learning_rate': 2.5901660226741962e-05, 'epoch': 5.35}
 22%|██▏       | 17510/78504 [10:38:55<49:17:53,  2.91s/it] 22%|██▏       | 17511/78504 [10:38:58<46:57:53,  2.77s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.24995854496955872, 'learning_rate': 2.5901235616322024e-05, 'epoch': 5.35}
 22%|██▏       | 17511/78504 [10:38:58<46:57:53,  2.77s/it] 22%|██▏       | 17512/78504 [10:39:00<44:50:58,  2.65s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.22241264581680298, 'learning_rate': 2.5900811005902083e-05, 'epoch': 5.35}
 22%|██▏       | 17512/78504 [10:39:00<44:50:58,  2.65s/it] 22%|██▏       | 17513/78504 [10:39:03<43:06:01,  2.54s/it]                                                           {'loss': 0.0832, 'grad_norm': 0.44681620597839355, 'learning_rate': 2.5900386395482145e-05, 'epoch': 5.35}
 22%|██▏       | 17513/78504 [10:39:03<43:06:01,  2.54s/it] 22%|██▏       | 17514/78504 [10:39:05<41:19:42,  2.44s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.9255015850067139, 'learning_rate': 2.5899961785062204e-05, 'epoch': 5.35}
 22%|██▏       | 17514/78504 [10:39:05<41:19:42,  2.44s/it] 22%|██▏       | 17515/78504 [10:39:07<39:57:41,  2.36s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.2576883137226105, 'learning_rate': 2.5899537174642266e-05, 'epoch': 5.35}
 22%|██▏       | 17515/78504 [10:39:07<39:57:41,  2.36s/it] 22%|██▏       | 17516/78504 [10:39:09<37:24:40,  2.21s/it]                                                           {'loss': 0.1308, 'grad_norm': 0.43476808071136475, 'learning_rate': 2.5899112564222324e-05, 'epoch': 5.35}
 22%|██▏       | 17516/78504 [10:39:09<37:24:40,  2.21s/it] 22%|██▏       | 17517/78504 [10:39:11<36:15:58,  2.14s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.486181378364563, 'learning_rate': 2.5898687953802386e-05, 'epoch': 5.36}
 22%|██▏       | 17517/78504 [10:39:11<36:15:58,  2.14s/it] 22%|██▏       | 17518/78504 [10:39:13<35:00:33,  2.07s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.300533264875412, 'learning_rate': 2.5898263343382445e-05, 'epoch': 5.36}
 22%|██▏       | 17518/78504 [10:39:13<35:00:33,  2.07s/it] 22%|██▏       | 17519/78504 [10:39:15<33:59:18,  2.01s/it]                                                           {'loss': 0.1204, 'grad_norm': 0.6220220327377319, 'learning_rate': 2.5897838732962507e-05, 'epoch': 5.36}
 22%|██▏       | 17519/78504 [10:39:15<33:59:18,  2.01s/it] 22%|██▏       | 17520/78504 [10:39:16<32:31:38,  1.92s/it]                                                           {'loss': 0.1087, 'grad_norm': 0.6288091540336609, 'learning_rate': 2.5897414122542566e-05, 'epoch': 5.36}
 22%|██▏       | 17520/78504 [10:39:16<32:31:38,  1.92s/it] 22%|██▏       | 17521/78504 [10:39:18<31:08:06,  1.84s/it]                                                           {'loss': 0.1278, 'grad_norm': 0.3650303781032562, 'learning_rate': 2.5896989512122628e-05, 'epoch': 5.36}
 22%|██▏       | 17521/78504 [10:39:18<31:08:06,  1.84s/it] 22%|██▏       | 17522/78504 [10:39:19<29:38:17,  1.75s/it]                                                           {'loss': 0.1793, 'grad_norm': 0.6349318027496338, 'learning_rate': 2.589656490170269e-05, 'epoch': 5.36}
 22%|██▏       | 17522/78504 [10:39:19<29:38:17,  1.75s/it] 22%|██▏       | 17523/78504 [10:39:21<27:58:50,  1.65s/it]                                                           {'loss': 0.1567, 'grad_norm': 0.5342428684234619, 'learning_rate': 2.589614029128275e-05, 'epoch': 5.36}
 22%|██▏       | 17523/78504 [10:39:21<27:58:50,  1.65s/it] 22%|██▏       | 17524/78504 [10:39:22<26:46:38,  1.58s/it]                                                           {'loss': 0.2267, 'grad_norm': 0.5735058784484863, 'learning_rate': 2.589571568086281e-05, 'epoch': 5.36}
 22%|██▏       | 17524/78504 [10:39:22<26:46:38,  1.58s/it] 22%|██▏       | 17525/78504 [10:39:24<25:17:41,  1.49s/it]                                                           {'loss': 0.1703, 'grad_norm': 0.8771612048149109, 'learning_rate': 2.589529107044287e-05, 'epoch': 5.36}
 22%|██▏       | 17525/78504 [10:39:24<25:17:41,  1.49s/it] 22%|██▏       | 17526/78504 [10:39:25<23:32:24,  1.39s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.9110962152481079, 'learning_rate': 2.589486646002293e-05, 'epoch': 5.36}
 22%|██▏       | 17526/78504 [10:39:25<23:32:24,  1.39s/it] 22%|██▏       | 17527/78504 [10:39:26<22:02:12,  1.30s/it]                                                           {'loss': 0.1964, 'grad_norm': 0.7600893378257751, 'learning_rate': 2.589444184960299e-05, 'epoch': 5.36}
 22%|██▏       | 17527/78504 [10:39:26<22:02:12,  1.30s/it] 22%|██▏       | 17528/78504 [10:39:27<20:26:35,  1.21s/it]                                                           {'loss': 0.184, 'grad_norm': 5.209876537322998, 'learning_rate': 2.5894017239183052e-05, 'epoch': 5.36}
 22%|██▏       | 17528/78504 [10:39:27<20:26:35,  1.21s/it] 22%|██▏       | 17529/78504 [10:39:28<19:02:26,  1.12s/it]                                                           {'loss': 0.1874, 'grad_norm': 1.0662846565246582, 'learning_rate': 2.589359262876311e-05, 'epoch': 5.36}
 22%|██▏       | 17529/78504 [10:39:28<19:02:26,  1.12s/it] 22%|██▏       | 17530/78504 [10:39:29<17:16:49,  1.02s/it]                                                           {'loss': 0.2281, 'grad_norm': 1.008230447769165, 'learning_rate': 2.5893168018343173e-05, 'epoch': 5.36}
 22%|██▏       | 17530/78504 [10:39:29<17:16:49,  1.02s/it] 22%|██▏       | 17531/78504 [10:39:37<55:31:25,  3.28s/it]                                                           {'loss': 0.1409, 'grad_norm': 0.28672897815704346, 'learning_rate': 2.5892743407923232e-05, 'epoch': 5.36}
 22%|██▏       | 17531/78504 [10:39:37<55:31:25,  3.28s/it] 22%|██▏       | 17532/78504 [10:39:40<54:40:35,  3.23s/it]                                                           {'loss': 0.0759, 'grad_norm': 0.20743893086910248, 'learning_rate': 2.5892318797503294e-05, 'epoch': 5.36}
 22%|██▏       | 17532/78504 [10:39:40<54:40:35,  3.23s/it] 22%|██▏       | 17533/78504 [10:39:43<53:24:20,  3.15s/it]                                                           {'loss': 0.062, 'grad_norm': 0.3011041581630707, 'learning_rate': 2.5891894187083353e-05, 'epoch': 5.36}
 22%|██▏       | 17533/78504 [10:39:43<53:24:20,  3.15s/it] 22%|██▏       | 17534/78504 [10:39:46<50:40:34,  2.99s/it]                                                           {'loss': 0.0461, 'grad_norm': 0.19206468760967255, 'learning_rate': 2.5891469576663415e-05, 'epoch': 5.36}
 22%|██▏       | 17534/78504 [10:39:46<50:40:34,  2.99s/it] 22%|██▏       | 17535/78504 [10:39:48<47:59:22,  2.83s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.20739169418811798, 'learning_rate': 2.5891044966243473e-05, 'epoch': 5.36}
 22%|██▏       | 17535/78504 [10:39:48<47:59:22,  2.83s/it] 22%|██▏       | 17536/78504 [10:39:51<45:54:50,  2.71s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.20410506427288055, 'learning_rate': 2.5890620355823532e-05, 'epoch': 5.36}
 22%|██▏       | 17536/78504 [10:39:51<45:54:50,  2.71s/it] 22%|██▏       | 17537/78504 [10:39:53<43:54:25,  2.59s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.2134535163640976, 'learning_rate': 2.5890195745403594e-05, 'epoch': 5.36}
 22%|██▏       | 17537/78504 [10:39:53<43:54:25,  2.59s/it] 22%|██▏       | 17538/78504 [10:39:55<41:27:09,  2.45s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.3487726151943207, 'learning_rate': 2.5889771134983653e-05, 'epoch': 5.36}
 22%|██▏       | 17538/78504 [10:39:55<41:27:09,  2.45s/it] 22%|██▏       | 17539/78504 [10:39:57<40:06:47,  2.37s/it]                                                           {'loss': 0.0796, 'grad_norm': 0.3002113401889801, 'learning_rate': 2.5889346524563715e-05, 'epoch': 5.36}
 22%|██▏       | 17539/78504 [10:39:57<40:06:47,  2.37s/it] 22%|██▏       | 17540/78504 [10:39:59<38:57:14,  2.30s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.4071653187274933, 'learning_rate': 2.5888921914143774e-05, 'epoch': 5.36}
 22%|██▏       | 17540/78504 [10:39:59<38:57:14,  2.30s/it] 22%|██▏       | 17541/78504 [10:40:01<36:42:21,  2.17s/it]                                                           {'loss': 0.112, 'grad_norm': 0.41409122943878174, 'learning_rate': 2.5888497303723836e-05, 'epoch': 5.36}
 22%|██▏       | 17541/78504 [10:40:01<36:42:21,  2.17s/it] 22%|██▏       | 17542/78504 [10:40:03<35:46:41,  2.11s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.45894452929496765, 'learning_rate': 2.5888072693303895e-05, 'epoch': 5.36}
 22%|██▏       | 17542/78504 [10:40:03<35:46:41,  2.11s/it] 22%|██▏       | 17543/78504 [10:40:05<34:37:06,  2.04s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.33362042903900146, 'learning_rate': 2.5887648082883957e-05, 'epoch': 5.36}
 22%|██▏       | 17543/78504 [10:40:05<34:37:06,  2.04s/it] 22%|██▏       | 17544/78504 [10:40:07<33:45:37,  1.99s/it]                                                           {'loss': 0.1085, 'grad_norm': 0.3234081268310547, 'learning_rate': 2.5887223472464015e-05, 'epoch': 5.36}
 22%|██▏       | 17544/78504 [10:40:07<33:45:37,  1.99s/it] 22%|██▏       | 17545/78504 [10:40:09<32:37:44,  1.93s/it]                                                           {'loss': 0.0974, 'grad_norm': 1.486631155014038, 'learning_rate': 2.5886798862044077e-05, 'epoch': 5.36}
 22%|██▏       | 17545/78504 [10:40:09<32:37:44,  1.93s/it] 22%|██▏       | 17546/78504 [10:40:10<31:12:20,  1.84s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.5247377157211304, 'learning_rate': 2.5886374251624136e-05, 'epoch': 5.36}
 22%|██▏       | 17546/78504 [10:40:10<31:12:20,  1.84s/it] 22%|██▏       | 17547/78504 [10:40:12<29:39:29,  1.75s/it]                                                           {'loss': 0.1472, 'grad_norm': 1.3916223049163818, 'learning_rate': 2.5885949641204198e-05, 'epoch': 5.36}
 22%|██▏       | 17547/78504 [10:40:12<29:39:29,  1.75s/it] 22%|██▏       | 17548/78504 [10:40:13<28:12:31,  1.67s/it]                                                           {'loss': 0.2065, 'grad_norm': 1.071075439453125, 'learning_rate': 2.5885525030784257e-05, 'epoch': 5.36}
 22%|██▏       | 17548/78504 [10:40:13<28:12:31,  1.67s/it] 22%|██▏       | 17549/78504 [10:40:15<26:52:00,  1.59s/it]                                                           {'loss': 0.1777, 'grad_norm': 0.759652316570282, 'learning_rate': 2.5885100420364316e-05, 'epoch': 5.37}
 22%|██▏       | 17549/78504 [10:40:15<26:52:00,  1.59s/it] 22%|██▏       | 17550/78504 [10:40:16<25:17:42,  1.49s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.5031685829162598, 'learning_rate': 2.5884675809944378e-05, 'epoch': 5.37}
 22%|██▏       | 17550/78504 [10:40:16<25:17:42,  1.49s/it] 22%|██▏       | 17551/78504 [10:40:17<23:32:24,  1.39s/it]                                                           {'loss': 0.1798, 'grad_norm': 0.6499749422073364, 'learning_rate': 2.5884251199524436e-05, 'epoch': 5.37}
 22%|██▏       | 17551/78504 [10:40:17<23:32:24,  1.39s/it] 22%|██▏       | 17552/78504 [10:40:18<22:00:16,  1.30s/it]                                                           {'loss': 0.1639, 'grad_norm': 0.7080777287483215, 'learning_rate': 2.58838265891045e-05, 'epoch': 5.37}
 22%|██▏       | 17552/78504 [10:40:18<22:00:16,  1.30s/it] 22%|██▏       | 17553/78504 [10:40:19<20:44:16,  1.22s/it]                                                           {'loss': 0.1661, 'grad_norm': 0.529785692691803, 'learning_rate': 2.5883401978684557e-05, 'epoch': 5.37}
 22%|██▏       | 17553/78504 [10:40:19<20:44:16,  1.22s/it] 22%|██▏       | 17554/78504 [10:40:20<19:15:09,  1.14s/it]                                                           {'loss': 0.1937, 'grad_norm': 0.9307445883750916, 'learning_rate': 2.588297736826462e-05, 'epoch': 5.37}
 22%|██▏       | 17554/78504 [10:40:20<19:15:09,  1.14s/it] 22%|██▏       | 17555/78504 [10:40:21<17:25:40,  1.03s/it]                                                           {'loss': 0.2236, 'grad_norm': 1.4002957344055176, 'learning_rate': 2.5882552757844678e-05, 'epoch': 5.37}
 22%|██▏       | 17555/78504 [10:40:21<17:25:40,  1.03s/it] 22%|██▏       | 17556/78504 [10:40:29<54:30:08,  3.22s/it]                                                           {'loss': 0.1264, 'grad_norm': 0.2603761851787567, 'learning_rate': 2.588212814742474e-05, 'epoch': 5.37}
 22%|██▏       | 17556/78504 [10:40:29<54:30:08,  3.22s/it] 22%|██▏       | 17557/78504 [10:40:33<53:46:13,  3.18s/it]                                                           {'loss': 0.0766, 'grad_norm': 0.24693770706653595, 'learning_rate': 2.58817035370048e-05, 'epoch': 5.37}
 22%|██▏       | 17557/78504 [10:40:33<53:46:13,  3.18s/it] 22%|██▏       | 17558/78504 [10:40:36<52:57:12,  3.13s/it]                                                           {'loss': 0.076, 'grad_norm': 0.25822821259498596, 'learning_rate': 2.588127892658486e-05, 'epoch': 5.37}
 22%|██▏       | 17558/78504 [10:40:36<52:57:12,  3.13s/it] 22%|██▏       | 17559/78504 [10:40:38<50:22:25,  2.98s/it]                                                           {'loss': 0.0616, 'grad_norm': 1.1055548191070557, 'learning_rate': 2.588085431616492e-05, 'epoch': 5.37}
 22%|██▏       | 17559/78504 [10:40:38<50:22:25,  2.98s/it] 22%|██▏       | 17560/78504 [10:40:41<47:14:46,  2.79s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.2059692144393921, 'learning_rate': 2.588042970574498e-05, 'epoch': 5.37}
 22%|██▏       | 17560/78504 [10:40:41<47:14:46,  2.79s/it] 22%|██▏       | 17561/78504 [10:40:43<44:34:20,  2.63s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.24122171103954315, 'learning_rate': 2.588000509532504e-05, 'epoch': 5.37}
 22%|██▏       | 17561/78504 [10:40:43<44:34:20,  2.63s/it] 22%|██▏       | 17562/78504 [10:40:45<42:58:06,  2.54s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.2433559149503708, 'learning_rate': 2.58795804849051e-05, 'epoch': 5.37}
 22%|██▏       | 17562/78504 [10:40:45<42:58:06,  2.54s/it] 22%|██▏       | 17563/78504 [10:40:47<40:42:59,  2.41s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.4048289358615875, 'learning_rate': 2.587915587448516e-05, 'epoch': 5.37}
 22%|██▏       | 17563/78504 [10:40:47<40:42:59,  2.41s/it] 22%|██▏       | 17564/78504 [10:40:49<39:34:42,  2.34s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.2854553461074829, 'learning_rate': 2.587873126406522e-05, 'epoch': 5.37}
 22%|██▏       | 17564/78504 [10:40:49<39:34:42,  2.34s/it] 22%|██▏       | 17565/78504 [10:40:52<38:36:00,  2.28s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.32545384764671326, 'learning_rate': 2.5878306653645282e-05, 'epoch': 5.37}
 22%|██▏       | 17565/78504 [10:40:52<38:36:00,  2.28s/it] 22%|██▏       | 17566/78504 [10:40:54<37:17:35,  2.20s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.38549166917800903, 'learning_rate': 2.587788204322534e-05, 'epoch': 5.37}
 22%|██▏       | 17566/78504 [10:40:54<37:17:35,  2.20s/it] 22%|██▏       | 17567/78504 [10:40:56<36:09:11,  2.14s/it]                                                           {'loss': 0.0743, 'grad_norm': 0.2945159077644348, 'learning_rate': 2.5877457432805403e-05, 'epoch': 5.37}
 22%|██▏       | 17567/78504 [10:40:56<36:09:11,  2.14s/it] 22%|██▏       | 17568/78504 [10:40:57<34:56:55,  2.06s/it]                                                           {'loss': 0.1075, 'grad_norm': 0.3570353090763092, 'learning_rate': 2.587703282238546e-05, 'epoch': 5.37}
 22%|██▏       | 17568/78504 [10:40:57<34:56:55,  2.06s/it] 22%|██▏       | 17569/78504 [10:40:59<33:55:11,  2.00s/it]                                                           {'loss': 0.1112, 'grad_norm': 1.2092959880828857, 'learning_rate': 2.5876608211965524e-05, 'epoch': 5.37}
 22%|██▏       | 17569/78504 [10:40:59<33:55:11,  2.00s/it] 22%|██▏       | 17570/78504 [10:41:01<32:41:35,  1.93s/it]                                                           {'loss': 0.1207, 'grad_norm': 0.3170117735862732, 'learning_rate': 2.5876183601545582e-05, 'epoch': 5.37}
 22%|██▏       | 17570/78504 [10:41:01<32:41:35,  1.93s/it] 22%|██▏       | 17571/78504 [10:41:03<31:16:36,  1.85s/it]                                                           {'loss': 0.1439, 'grad_norm': 0.4448407292366028, 'learning_rate': 2.5875758991125644e-05, 'epoch': 5.37}
 22%|██▏       | 17571/78504 [10:41:03<31:16:36,  1.85s/it] 22%|██▏       | 17572/78504 [10:41:04<29:44:36,  1.76s/it]                                                           {'loss': 0.1581, 'grad_norm': 1.2718228101730347, 'learning_rate': 2.5875334380705703e-05, 'epoch': 5.37}
 22%|██▏       | 17572/78504 [10:41:04<29:44:36,  1.76s/it] 22%|██▏       | 17573/78504 [10:41:06<28:28:18,  1.68s/it]                                                           {'loss': 0.1615, 'grad_norm': 0.6574974060058594, 'learning_rate': 2.5874909770285765e-05, 'epoch': 5.37}
 22%|██▏       | 17573/78504 [10:41:06<28:28:18,  1.68s/it] 22%|██▏       | 17574/78504 [10:41:07<27:06:10,  1.60s/it]                                                           {'loss': 0.1645, 'grad_norm': 0.5816260576248169, 'learning_rate': 2.5874485159865824e-05, 'epoch': 5.37}
 22%|██▏       | 17574/78504 [10:41:07<27:06:10,  1.60s/it] 22%|██▏       | 17575/78504 [10:41:08<25:29:22,  1.51s/it]                                                           {'loss': 0.1376, 'grad_norm': 0.5456323623657227, 'learning_rate': 2.5874060549445882e-05, 'epoch': 5.37}
 22%|██▏       | 17575/78504 [10:41:08<25:29:22,  1.51s/it] 22%|██▏       | 17576/78504 [10:41:10<23:58:17,  1.42s/it]                                                           {'loss': 0.165, 'grad_norm': 1.196677803993225, 'learning_rate': 2.5873635939025945e-05, 'epoch': 5.37}
 22%|██▏       | 17576/78504 [10:41:10<23:58:17,  1.42s/it] 22%|██▏       | 17577/78504 [10:41:11<22:15:49,  1.32s/it]                                                           {'loss': 0.1731, 'grad_norm': 0.7324596047401428, 'learning_rate': 2.5873211328606003e-05, 'epoch': 5.37}
 22%|██▏       | 17577/78504 [10:41:11<22:15:49,  1.32s/it] 22%|██▏       | 17578/78504 [10:41:12<20:52:56,  1.23s/it]                                                           {'loss': 0.2067, 'grad_norm': 4.480225563049316, 'learning_rate': 2.5872786718186065e-05, 'epoch': 5.37}
 22%|██▏       | 17578/78504 [10:41:12<20:52:56,  1.23s/it] 22%|██▏       | 17579/78504 [10:41:13<19:21:13,  1.14s/it]                                                           {'loss': 0.1963, 'grad_norm': 1.266359567642212, 'learning_rate': 2.5872362107766124e-05, 'epoch': 5.37}
 22%|██▏       | 17579/78504 [10:41:13<19:21:13,  1.14s/it] 22%|██▏       | 17580/78504 [10:41:13<17:31:34,  1.04s/it]                                                           {'loss': 0.268, 'grad_norm': 1.8538053035736084, 'learning_rate': 2.5871937497346186e-05, 'epoch': 5.37}
 22%|██▏       | 17580/78504 [10:41:14<17:31:34,  1.04s/it] 22%|██▏       | 17581/78504 [10:41:22<57:16:24,  3.38s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.7440856099128723, 'learning_rate': 2.5871512886926245e-05, 'epoch': 5.37}
 22%|██▏       | 17581/78504 [10:41:22<57:16:24,  3.38s/it] 22%|██▏       | 17582/78504 [10:41:25<56:00:07,  3.31s/it]                                                           {'loss': 0.0721, 'grad_norm': 0.4674694538116455, 'learning_rate': 2.5871088276506307e-05, 'epoch': 5.38}
 22%|██▏       | 17582/78504 [10:41:26<56:00:07,  3.31s/it] 22%|██▏       | 17583/78504 [10:41:28<54:20:14,  3.21s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.40858200192451477, 'learning_rate': 2.5870663666086366e-05, 'epoch': 5.38}
 22%|██▏       | 17583/78504 [10:41:28<54:20:14,  3.21s/it] 22%|██▏       | 17584/78504 [10:41:31<51:17:58,  3.03s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.4021449387073517, 'learning_rate': 2.5870239055666428e-05, 'epoch': 5.38}
 22%|██▏       | 17584/78504 [10:41:31<51:17:58,  3.03s/it] 22%|██▏       | 17585/78504 [10:41:34<48:24:43,  2.86s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.4128209948539734, 'learning_rate': 2.5869814445246486e-05, 'epoch': 5.38}
 22%|██▏       | 17585/78504 [10:41:34<48:24:43,  2.86s/it] 22%|██▏       | 17586/78504 [10:41:36<45:23:07,  2.68s/it]                                                           {'loss': 0.0368, 'grad_norm': 0.44828999042510986, 'learning_rate': 2.586938983482655e-05, 'epoch': 5.38}
 22%|██▏       | 17586/78504 [10:41:36<45:23:07,  2.68s/it] 22%|██▏       | 17587/78504 [10:41:38<43:30:29,  2.57s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.2948751747608185, 'learning_rate': 2.5868965224406607e-05, 'epoch': 5.38}
 22%|██▏       | 17587/78504 [10:41:38<43:30:29,  2.57s/it] 22%|██▏       | 17588/78504 [10:41:40<41:08:58,  2.43s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.46475833654403687, 'learning_rate': 2.5868540613986666e-05, 'epoch': 5.38}
 22%|██▏       | 17588/78504 [10:41:40<41:08:58,  2.43s/it] 22%|██▏       | 17589/78504 [10:41:42<39:54:09,  2.36s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.30156049132347107, 'learning_rate': 2.5868116003566728e-05, 'epoch': 5.38}
 22%|██▏       | 17589/78504 [10:41:42<39:54:09,  2.36s/it] 22%|██▏       | 17590/78504 [10:41:45<38:46:23,  2.29s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.2717687487602234, 'learning_rate': 2.5867691393146787e-05, 'epoch': 5.38}
 22%|██▏       | 17590/78504 [10:41:45<38:46:23,  2.29s/it] 22%|██▏       | 17591/78504 [10:41:47<37:26:15,  2.21s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.3768424689769745, 'learning_rate': 2.586726678272685e-05, 'epoch': 5.38}
 22%|██▏       | 17591/78504 [10:41:47<37:26:15,  2.21s/it] 22%|██▏       | 17592/78504 [10:41:48<35:19:59,  2.09s/it]                                                           {'loss': 0.0967, 'grad_norm': 0.5207379460334778, 'learning_rate': 2.5866842172306907e-05, 'epoch': 5.38}
 22%|██▏       | 17592/78504 [10:41:48<35:19:59,  2.09s/it] 22%|██▏       | 17593/78504 [10:41:50<34:09:02,  2.02s/it]                                                           {'loss': 0.0973, 'grad_norm': 0.412354052066803, 'learning_rate': 2.586641756188697e-05, 'epoch': 5.38}
 22%|██▏       | 17593/78504 [10:41:50<34:09:02,  2.02s/it] 22%|██▏       | 17594/78504 [10:41:52<33:26:00,  1.98s/it]                                                           {'loss': 0.1181, 'grad_norm': 0.7933188080787659, 'learning_rate': 2.5865992951467028e-05, 'epoch': 5.38}
 22%|██▏       | 17594/78504 [10:41:52<33:26:00,  1.98s/it] 22%|██▏       | 17595/78504 [10:41:54<32:07:38,  1.90s/it]                                                           {'loss': 0.1186, 'grad_norm': 0.5205254554748535, 'learning_rate': 2.586556834104709e-05, 'epoch': 5.38}
 22%|██▏       | 17595/78504 [10:41:54<32:07:38,  1.90s/it] 22%|██▏       | 17596/78504 [10:41:55<30:47:31,  1.82s/it]                                                           {'loss': 0.143, 'grad_norm': 0.6317648887634277, 'learning_rate': 2.586514373062715e-05, 'epoch': 5.38}
 22%|██▏       | 17596/78504 [10:41:55<30:47:31,  1.82s/it] 22%|██▏       | 17597/78504 [10:41:57<29:16:18,  1.73s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.6802299618721008, 'learning_rate': 2.586471912020721e-05, 'epoch': 5.38}
 22%|██▏       | 17597/78504 [10:41:57<29:16:18,  1.73s/it] 22%|██▏       | 17598/78504 [10:41:58<27:58:41,  1.65s/it]                                                           {'loss': 0.1937, 'grad_norm': 0.5327808260917664, 'learning_rate': 2.586429450978727e-05, 'epoch': 5.38}
 22%|██▏       | 17598/78504 [10:41:58<27:58:41,  1.65s/it] 22%|██▏       | 17599/78504 [10:42:00<26:46:04,  1.58s/it]                                                           {'loss': 0.1749, 'grad_norm': 0.591751217842102, 'learning_rate': 2.586386989936733e-05, 'epoch': 5.38}
 22%|██▏       | 17599/78504 [10:42:00<26:46:04,  1.58s/it] 22%|██▏       | 17600/78504 [10:42:01<25:12:47,  1.49s/it]                                                           {'loss': 0.193, 'grad_norm': 1.2447450160980225, 'learning_rate': 2.586344528894739e-05, 'epoch': 5.38}
 22%|██▏       | 17600/78504 [10:42:01<25:12:47,  1.49s/it] 22%|██▏       | 17601/78504 [10:42:02<23:27:17,  1.39s/it]                                                           {'loss': 0.1764, 'grad_norm': 0.7073903679847717, 'learning_rate': 2.586302067852745e-05, 'epoch': 5.38}
 22%|██▏       | 17601/78504 [10:42:02<23:27:17,  1.39s/it] 22%|██▏       | 17602/78504 [10:42:03<22:00:02,  1.30s/it]                                                           {'loss': 0.1637, 'grad_norm': 0.5932996273040771, 'learning_rate': 2.586259606810751e-05, 'epoch': 5.38}
 22%|██▏       | 17602/78504 [10:42:03<22:00:02,  1.30s/it] 22%|██▏       | 17603/78504 [10:42:04<20:27:32,  1.21s/it]                                                           {'loss': 0.1985, 'grad_norm': 1.8451441526412964, 'learning_rate': 2.586217145768757e-05, 'epoch': 5.38}
 22%|██▏       | 17603/78504 [10:42:04<20:27:32,  1.21s/it] 22%|██▏       | 17604/78504 [10:42:05<19:01:49,  1.12s/it]                                                           {'loss': 0.176, 'grad_norm': 0.7339709401130676, 'learning_rate': 2.5861746847267632e-05, 'epoch': 5.38}
 22%|██▏       | 17604/78504 [10:42:05<19:01:49,  1.12s/it] 22%|██▏       | 17605/78504 [10:42:06<17:15:48,  1.02s/it]                                                           {'loss': 0.2108, 'grad_norm': 0.8656896352767944, 'learning_rate': 2.586132223684769e-05, 'epoch': 5.38}
 22%|██▏       | 17605/78504 [10:42:06<17:15:48,  1.02s/it] 22%|██▏       | 17606/78504 [10:42:13<46:05:22,  2.72s/it]                                                           {'loss': 0.1267, 'grad_norm': 0.7133968472480774, 'learning_rate': 2.5860897626427753e-05, 'epoch': 5.38}
 22%|██▏       | 17606/78504 [10:42:13<46:05:22,  2.72s/it] 22%|██▏       | 17607/78504 [10:42:16<48:11:13,  2.85s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.3889751434326172, 'learning_rate': 2.5860473016007812e-05, 'epoch': 5.38}
 22%|██▏       | 17607/78504 [10:42:16<48:11:13,  2.85s/it] 22%|██▏       | 17608/78504 [10:42:19<48:52:08,  2.89s/it]                                                           {'loss': 0.0559, 'grad_norm': 0.7575603723526001, 'learning_rate': 2.5860048405587874e-05, 'epoch': 5.38}
 22%|██▏       | 17608/78504 [10:42:19<48:52:08,  2.89s/it] 22%|██▏       | 17609/78504 [10:42:22<47:28:57,  2.81s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.191242054104805, 'learning_rate': 2.5859623795167932e-05, 'epoch': 5.38}
 22%|██▏       | 17609/78504 [10:42:22<47:28:57,  2.81s/it] 22%|██▏       | 17610/78504 [10:42:24<45:44:11,  2.70s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.41504716873168945, 'learning_rate': 2.5859199184747995e-05, 'epoch': 5.38}
 22%|██▏       | 17610/78504 [10:42:24<45:44:11,  2.70s/it] 22%|██▏       | 17611/78504 [10:42:26<43:31:46,  2.57s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.5372995138168335, 'learning_rate': 2.5858774574328053e-05, 'epoch': 5.38}
 22%|██▏       | 17611/78504 [10:42:26<43:31:46,  2.57s/it] 22%|██▏       | 17612/78504 [10:42:29<42:14:12,  2.50s/it]                                                           {'loss': 0.0638, 'grad_norm': 0.37171587347984314, 'learning_rate': 2.5858349963908112e-05, 'epoch': 5.38}
 22%|██▏       | 17612/78504 [10:42:29<42:14:12,  2.50s/it] 22%|██▏       | 17613/78504 [10:42:31<40:11:15,  2.38s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.39093443751335144, 'learning_rate': 2.5857925353488174e-05, 'epoch': 5.38}
 22%|██▏       | 17613/78504 [10:42:31<40:11:15,  2.38s/it] 22%|██▏       | 17614/78504 [10:42:33<39:12:07,  2.32s/it]                                                           {'loss': 0.0468, 'grad_norm': 1.9665447473526, 'learning_rate': 2.5857500743068233e-05, 'epoch': 5.38}
 22%|██▏       | 17614/78504 [10:42:33<39:12:07,  2.32s/it] 22%|██▏       | 17615/78504 [10:42:35<38:17:27,  2.26s/it]                                                           {'loss': 0.0568, 'grad_norm': 2.442437171936035, 'learning_rate': 2.5857076132648295e-05, 'epoch': 5.39}
 22%|██▏       | 17615/78504 [10:42:35<38:17:27,  2.26s/it] 22%|██▏       | 17616/78504 [10:42:37<37:04:44,  2.19s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.7182384133338928, 'learning_rate': 2.5856651522228354e-05, 'epoch': 5.39}
 22%|██▏       | 17616/78504 [10:42:37<37:04:44,  2.19s/it] 22%|██▏       | 17617/78504 [10:42:39<36:00:06,  2.13s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.3654138147830963, 'learning_rate': 2.5856226911808416e-05, 'epoch': 5.39}
 22%|██▏       | 17617/78504 [10:42:39<36:00:06,  2.13s/it] 22%|██▏       | 17618/78504 [10:42:41<34:39:22,  2.05s/it]                                                           {'loss': 0.0913, 'grad_norm': 1.568679690361023, 'learning_rate': 2.5855802301388474e-05, 'epoch': 5.39}
 22%|██▏       | 17618/78504 [10:42:41<34:39:22,  2.05s/it] 22%|██▏       | 17619/78504 [10:42:43<33:47:27,  2.00s/it]                                                           {'loss': 0.1065, 'grad_norm': 0.5278741121292114, 'learning_rate': 2.5855377690968536e-05, 'epoch': 5.39}
 22%|██▏       | 17619/78504 [10:42:43<33:47:27,  2.00s/it] 22%|██▏       | 17620/78504 [10:42:45<32:36:03,  1.93s/it]                                                           {'loss': 0.1258, 'grad_norm': 0.37319961190223694, 'learning_rate': 2.5854953080548595e-05, 'epoch': 5.39}
 22%|██▏       | 17620/78504 [10:42:45<32:36:03,  1.93s/it] 22%|██▏       | 17621/78504 [10:42:46<31:11:45,  1.84s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.46501046419143677, 'learning_rate': 2.5854528470128657e-05, 'epoch': 5.39}
 22%|██▏       | 17621/78504 [10:42:46<31:11:45,  1.84s/it] 22%|██▏       | 17622/78504 [10:42:48<29:41:09,  1.76s/it]                                                           {'loss': 0.1188, 'grad_norm': 0.5686343908309937, 'learning_rate': 2.5854103859708716e-05, 'epoch': 5.39}
 22%|██▏       | 17622/78504 [10:42:48<29:41:09,  1.76s/it] 22%|██▏       | 17623/78504 [10:42:49<28:13:26,  1.67s/it]                                                           {'loss': 0.1446, 'grad_norm': 1.3113631010055542, 'learning_rate': 2.5853679249288778e-05, 'epoch': 5.39}
 22%|██▏       | 17623/78504 [10:42:49<28:13:26,  1.67s/it] 22%|██▏       | 17624/78504 [10:42:51<26:48:49,  1.59s/it]                                                           {'loss': 0.1444, 'grad_norm': 1.4609112739562988, 'learning_rate': 2.585325463886884e-05, 'epoch': 5.39}
 22%|██▏       | 17624/78504 [10:42:51<26:48:49,  1.59s/it] 22%|██▏       | 17625/78504 [10:42:52<25:18:06,  1.50s/it]                                                           {'loss': 0.1563, 'grad_norm': 0.6446533799171448, 'learning_rate': 2.58528300284489e-05, 'epoch': 5.39}
 22%|██▏       | 17625/78504 [10:42:52<25:18:06,  1.50s/it] 22%|██▏       | 17626/78504 [10:42:53<23:32:16,  1.39s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.5992265343666077, 'learning_rate': 2.585240541802896e-05, 'epoch': 5.39}
 22%|██▏       | 17626/78504 [10:42:53<23:32:16,  1.39s/it] 22%|██▏       | 17627/78504 [10:42:54<22:01:31,  1.30s/it]                                                           {'loss': 0.1491, 'grad_norm': 2.2051048278808594, 'learning_rate': 2.585198080760902e-05, 'epoch': 5.39}
 22%|██▏       | 17627/78504 [10:42:54<22:01:31,  1.30s/it] 22%|██▏       | 17628/78504 [10:42:55<20:25:32,  1.21s/it]                                                           {'loss': 0.1825, 'grad_norm': 0.7952269911766052, 'learning_rate': 2.585155619718908e-05, 'epoch': 5.39}
 22%|██▏       | 17628/78504 [10:42:55<20:25:32,  1.21s/it] 22%|██▏       | 17629/78504 [10:42:56<18:59:35,  1.12s/it]                                                           {'loss': 0.1919, 'grad_norm': 1.5679454803466797, 'learning_rate': 2.585113158676914e-05, 'epoch': 5.39}
 22%|██▏       | 17629/78504 [10:42:56<18:59:35,  1.12s/it] 22%|██▏       | 17630/78504 [10:42:57<17:21:06,  1.03s/it]                                                           {'loss': 0.2293, 'grad_norm': 2.8537654876708984, 'learning_rate': 2.5850706976349202e-05, 'epoch': 5.39}
 22%|██▏       | 17630/78504 [10:42:57<17:21:06,  1.03s/it] 22%|██▏       | 17631/78504 [10:43:05<51:50:19,  3.07s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.3709367513656616, 'learning_rate': 2.585028236592926e-05, 'epoch': 5.39}
 22%|██▏       | 17631/78504 [10:43:05<51:50:19,  3.07s/it] 22%|██▏       | 17632/78504 [10:43:08<51:02:38,  3.02s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.24559636414051056, 'learning_rate': 2.5849857755509323e-05, 'epoch': 5.39}
 22%|██▏       | 17632/78504 [10:43:08<51:02:38,  3.02s/it] 22%|██▏       | 17633/78504 [10:43:10<50:34:30,  2.99s/it]                                                           {'loss': 0.0662, 'grad_norm': 0.26136577129364014, 'learning_rate': 2.5849433145089382e-05, 'epoch': 5.39}
 22%|██▏       | 17633/78504 [10:43:10<50:34:30,  2.99s/it] 22%|██▏       | 17634/78504 [10:43:13<48:27:51,  2.87s/it]                                                           {'loss': 0.0749, 'grad_norm': 1.3731276988983154, 'learning_rate': 2.5849008534669444e-05, 'epoch': 5.39}
 22%|██▏       | 17634/78504 [10:43:13<48:27:51,  2.87s/it] 22%|██▏       | 17635/78504 [10:43:16<46:35:12,  2.76s/it]                                                           {'loss': 0.057, 'grad_norm': 0.3053025007247925, 'learning_rate': 2.5848583924249503e-05, 'epoch': 5.39}
 22%|██▏       | 17635/78504 [10:43:16<46:35:12,  2.76s/it] 22%|██▏       | 17636/78504 [10:43:18<45:01:17,  2.66s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.30179429054260254, 'learning_rate': 2.5848159313829565e-05, 'epoch': 5.39}
 22%|██▏       | 17636/78504 [10:43:18<45:01:17,  2.66s/it] 22%|██▏       | 17637/78504 [10:43:20<43:28:48,  2.57s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.8926263451576233, 'learning_rate': 2.5847734703409624e-05, 'epoch': 5.39}
 22%|██▏       | 17637/78504 [10:43:20<43:28:48,  2.57s/it] 22%|██▏       | 17638/78504 [10:43:23<42:05:03,  2.49s/it]                                                           {'loss': 0.0845, 'grad_norm': 0.8301391005516052, 'learning_rate': 2.5847310092989682e-05, 'epoch': 5.39}
 22%|██▏       | 17638/78504 [10:43:23<42:05:03,  2.49s/it] 22%|██▏       | 17639/78504 [10:43:25<40:36:46,  2.40s/it]                                                           {'loss': 0.0524, 'grad_norm': 1.1822646856307983, 'learning_rate': 2.5846885482569744e-05, 'epoch': 5.39}
 22%|██▏       | 17639/78504 [10:43:25<40:36:46,  2.40s/it] 22%|██▏       | 17640/78504 [10:43:27<39:25:01,  2.33s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.8352319002151489, 'learning_rate': 2.5846460872149803e-05, 'epoch': 5.39}
 22%|██▏       | 17640/78504 [10:43:27<39:25:01,  2.33s/it] 22%|██▏       | 17641/78504 [10:43:29<37:04:20,  2.19s/it]                                                           {'loss': 0.0974, 'grad_norm': 0.3536536395549774, 'learning_rate': 2.5846036261729865e-05, 'epoch': 5.39}
 22%|██▏       | 17641/78504 [10:43:29<37:04:20,  2.19s/it] 22%|██▏       | 17642/78504 [10:43:31<36:02:41,  2.13s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.2846263647079468, 'learning_rate': 2.5845611651309924e-05, 'epoch': 5.39}
 22%|██▏       | 17642/78504 [10:43:31<36:02:41,  2.13s/it] 22%|██▏       | 17643/78504 [10:43:33<34:58:44,  2.07s/it]                                                           {'loss': 0.1111, 'grad_norm': 0.5282399654388428, 'learning_rate': 2.5845187040889986e-05, 'epoch': 5.39}
 22%|██▏       | 17643/78504 [10:43:33<34:58:44,  2.07s/it] 22%|██▏       | 17644/78504 [10:43:35<33:59:49,  2.01s/it]                                                           {'loss': 0.0983, 'grad_norm': 0.4303502142429352, 'learning_rate': 2.5844762430470045e-05, 'epoch': 5.39}
 22%|██▏       | 17644/78504 [10:43:35<33:59:49,  2.01s/it] 22%|██▏       | 17645/78504 [10:43:36<32:46:04,  1.94s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.44202733039855957, 'learning_rate': 2.5844337820050107e-05, 'epoch': 5.39}
 22%|██▏       | 17645/78504 [10:43:36<32:46:04,  1.94s/it] 22%|██▏       | 17646/78504 [10:43:38<30:58:23,  1.83s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.3952205181121826, 'learning_rate': 2.5843913209630165e-05, 'epoch': 5.39}
 22%|██▏       | 17646/78504 [10:43:38<30:58:23,  1.83s/it] 22%|██▏       | 17647/78504 [10:43:40<29:28:34,  1.74s/it]                                                           {'loss': 0.141, 'grad_norm': 0.4753582179546356, 'learning_rate': 2.5843488599210227e-05, 'epoch': 5.39}
 22%|██▏       | 17647/78504 [10:43:40<29:28:34,  1.74s/it] 22%|██▏       | 17648/78504 [10:43:41<28:04:23,  1.66s/it]                                                           {'loss': 0.1986, 'grad_norm': 0.7217050194740295, 'learning_rate': 2.5843063988790286e-05, 'epoch': 5.4}
 22%|██▏       | 17648/78504 [10:43:41<28:04:23,  1.66s/it] 22%|██▏       | 17649/78504 [10:43:42<26:42:03,  1.58s/it]                                                           {'loss': 0.1805, 'grad_norm': 0.46928441524505615, 'learning_rate': 2.5842639378370348e-05, 'epoch': 5.4}
 22%|██▏       | 17649/78504 [10:43:42<26:42:03,  1.58s/it] 22%|██▏       | 17650/78504 [10:43:44<25:11:06,  1.49s/it]                                                           {'loss': 0.1622, 'grad_norm': 0.5933506488800049, 'learning_rate': 2.5842214767950407e-05, 'epoch': 5.4}
 22%|██▏       | 17650/78504 [10:43:44<25:11:06,  1.49s/it] 22%|██▏       | 17651/78504 [10:43:45<23:26:54,  1.39s/it]                                                           {'loss': 0.1865, 'grad_norm': 0.6453065276145935, 'learning_rate': 2.5841790157530466e-05, 'epoch': 5.4}
 22%|██▏       | 17651/78504 [10:43:45<23:26:54,  1.39s/it] 22%|██▏       | 17652/78504 [10:43:46<21:54:29,  1.30s/it]                                                           {'loss': 0.1626, 'grad_norm': 1.516277551651001, 'learning_rate': 2.5841365547110528e-05, 'epoch': 5.4}
 22%|██▏       | 17652/78504 [10:43:46<21:54:29,  1.30s/it] 22%|██▏       | 17653/78504 [10:43:47<20:40:23,  1.22s/it]                                                           {'loss': 0.2126, 'grad_norm': 3.1464688777923584, 'learning_rate': 2.5840940936690586e-05, 'epoch': 5.4}
 22%|██▏       | 17653/78504 [10:43:47<20:40:23,  1.22s/it] 22%|██▏       | 17654/78504 [10:43:48<19:10:34,  1.13s/it]                                                           {'loss': 0.2178, 'grad_norm': 0.6883322596549988, 'learning_rate': 2.584051632627065e-05, 'epoch': 5.4}
 22%|██▏       | 17654/78504 [10:43:48<19:10:34,  1.13s/it] 22%|██▏       | 17655/78504 [10:43:49<17:31:00,  1.04s/it]                                                           {'loss': 0.195, 'grad_norm': 1.6219468116760254, 'learning_rate': 2.5840091715850707e-05, 'epoch': 5.4}
 22%|██▏       | 17655/78504 [10:43:49<17:31:00,  1.04s/it] 22%|██▏       | 17656/78504 [10:43:56<50:23:44,  2.98s/it]                                                           {'loss': 0.1411, 'grad_norm': 0.5190029144287109, 'learning_rate': 2.583966710543077e-05, 'epoch': 5.4}
 22%|██▏       | 17656/78504 [10:43:56<50:23:44,  2.98s/it] 22%|██▏       | 17657/78504 [10:44:00<52:16:49,  3.09s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.5458866953849792, 'learning_rate': 2.5839242495010828e-05, 'epoch': 5.4}
 22%|██▏       | 17657/78504 [10:44:00<52:16:49,  3.09s/it] 22%|██▏       | 17658/78504 [10:44:03<51:52:38,  3.07s/it]                                                           {'loss': 0.0814, 'grad_norm': 0.3408924639225006, 'learning_rate': 2.583881788459089e-05, 'epoch': 5.4}
 22%|██▏       | 17658/78504 [10:44:03<51:52:38,  3.07s/it] 22%|██▏       | 17659/78504 [10:44:05<49:36:14,  2.93s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.33499211072921753, 'learning_rate': 2.583839327417095e-05, 'epoch': 5.4}
 22%|██▏       | 17659/78504 [10:44:05<49:36:14,  2.93s/it] 22%|██▏       | 17660/78504 [10:44:08<46:40:20,  2.76s/it]                                                           {'loss': 0.0588, 'grad_norm': 0.46444374322891235, 'learning_rate': 2.583796866375101e-05, 'epoch': 5.4}
 22%|██▏       | 17660/78504 [10:44:08<46:40:20,  2.76s/it] 22%|██▏       | 17661/78504 [10:44:10<44:37:45,  2.64s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.23896624147891998, 'learning_rate': 2.583754405333107e-05, 'epoch': 5.4}
 22%|██▏       | 17661/78504 [10:44:10<44:37:45,  2.64s/it] 22%|██▏       | 17662/78504 [10:44:12<43:04:24,  2.55s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.40026524662971497, 'learning_rate': 2.583711944291113e-05, 'epoch': 5.4}
 22%|██▏       | 17662/78504 [10:44:12<43:04:24,  2.55s/it] 22%|██▏       | 17663/78504 [10:44:14<40:44:27,  2.41s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.1925583779811859, 'learning_rate': 2.583669483249119e-05, 'epoch': 5.4}
 22%|██▏       | 17663/78504 [10:44:14<40:44:27,  2.41s/it] 23%|██▎       | 17664/78504 [10:44:17<39:36:33,  2.34s/it]                                                           {'loss': 0.0866, 'grad_norm': 0.3033418655395508, 'learning_rate': 2.583627022207125e-05, 'epoch': 5.4}
 23%|██▎       | 17664/78504 [10:44:17<39:36:33,  2.34s/it] 23%|██▎       | 17665/78504 [10:44:19<38:33:48,  2.28s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.29217472672462463, 'learning_rate': 2.583584561165131e-05, 'epoch': 5.4}
 23%|██▎       | 17665/78504 [10:44:19<38:33:48,  2.28s/it] 23%|██▎       | 17666/78504 [10:44:21<36:24:43,  2.15s/it]                                                           {'loss': 0.0844, 'grad_norm': 0.3566412329673767, 'learning_rate': 2.583542100123137e-05, 'epoch': 5.4}
 23%|██▎       | 17666/78504 [10:44:21<36:24:43,  2.15s/it] 23%|██▎       | 17667/78504 [10:44:23<35:31:53,  2.10s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.6568431854248047, 'learning_rate': 2.5834996390811432e-05, 'epoch': 5.4}
 23%|██▎       | 17667/78504 [10:44:23<35:31:53,  2.10s/it] 23%|██▎       | 17668/78504 [10:44:24<34:23:41,  2.04s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.4382776916027069, 'learning_rate': 2.583457178039149e-05, 'epoch': 5.4}
 23%|██▎       | 17668/78504 [10:44:24<34:23:41,  2.04s/it] 23%|██▎       | 17669/78504 [10:44:26<33:32:09,  1.98s/it]                                                           {'loss': 0.1284, 'grad_norm': 0.6361920833587646, 'learning_rate': 2.5834147169971553e-05, 'epoch': 5.4}
 23%|██▎       | 17669/78504 [10:44:26<33:32:09,  1.98s/it] 23%|██▎       | 17670/78504 [10:44:28<32:24:22,  1.92s/it]                                                           {'loss': 0.1474, 'grad_norm': 0.6018670201301575, 'learning_rate': 2.583372255955161e-05, 'epoch': 5.4}
 23%|██▎       | 17670/78504 [10:44:28<32:24:22,  1.92s/it] 23%|██▎       | 17671/78504 [10:44:30<31:01:32,  1.84s/it]                                                           {'loss': 0.138, 'grad_norm': 0.9352192878723145, 'learning_rate': 2.5833297949131674e-05, 'epoch': 5.4}
 23%|██▎       | 17671/78504 [10:44:30<31:01:32,  1.84s/it] 23%|██▎       | 17672/78504 [10:44:31<29:32:39,  1.75s/it]                                                           {'loss': 0.1392, 'grad_norm': 0.5986952185630798, 'learning_rate': 2.5832873338711732e-05, 'epoch': 5.4}
 23%|██▎       | 17672/78504 [10:44:31<29:32:39,  1.75s/it] 23%|██▎       | 17673/78504 [10:44:33<28:19:27,  1.68s/it]                                                           {'loss': 0.1617, 'grad_norm': 0.8120054602622986, 'learning_rate': 2.5832448728291794e-05, 'epoch': 5.4}
 23%|██▎       | 17673/78504 [10:44:33<28:19:27,  1.68s/it] 23%|██▎       | 17674/78504 [10:44:34<26:51:33,  1.59s/it]                                                           {'loss': 0.1799, 'grad_norm': 1.1330946683883667, 'learning_rate': 2.5832024117871853e-05, 'epoch': 5.4}
 23%|██▎       | 17674/78504 [10:44:34<26:51:33,  1.59s/it] 23%|██▎       | 17675/78504 [10:44:35<25:15:43,  1.50s/it]                                                           {'loss': 0.1614, 'grad_norm': 0.6539401412010193, 'learning_rate': 2.5831599507451915e-05, 'epoch': 5.4}
 23%|██▎       | 17675/78504 [10:44:35<25:15:43,  1.50s/it] 23%|██▎       | 17676/78504 [10:44:37<23:31:54,  1.39s/it]                                                           {'loss': 0.1723, 'grad_norm': 2.041297197341919, 'learning_rate': 2.5831174897031974e-05, 'epoch': 5.4}
 23%|██▎       | 17676/78504 [10:44:37<23:31:54,  1.39s/it] 23%|██▎       | 17677/78504 [10:44:38<22:03:20,  1.31s/it]                                                           {'loss': 0.1947, 'grad_norm': 1.2727270126342773, 'learning_rate': 2.5830750286612033e-05, 'epoch': 5.4}
 23%|██▎       | 17677/78504 [10:44:38<22:03:20,  1.31s/it] 23%|██▎       | 17678/78504 [10:44:39<20:30:02,  1.21s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.6622243523597717, 'learning_rate': 2.5830325676192095e-05, 'epoch': 5.4}
 23%|██▎       | 17678/78504 [10:44:39<20:30:02,  1.21s/it] 23%|██▎       | 17679/78504 [10:44:40<19:02:02,  1.13s/it]                                                           {'loss': 0.2246, 'grad_norm': 1.367349624633789, 'learning_rate': 2.5829901065772153e-05, 'epoch': 5.4}
 23%|██▎       | 17679/78504 [10:44:40<19:02:02,  1.13s/it] 23%|██▎       | 17680/78504 [10:44:40<17:05:50,  1.01s/it]                                                           {'loss': 0.2124, 'grad_norm': 6.031641006469727, 'learning_rate': 2.5829476455352215e-05, 'epoch': 5.41}
 23%|██▎       | 17680/78504 [10:44:40<17:05:50,  1.01s/it] 23%|██▎       | 17681/78504 [10:44:50<58:42:45,  3.48s/it]                                                           {'loss': 0.1299, 'grad_norm': 0.4979099631309509, 'learning_rate': 2.5829051844932274e-05, 'epoch': 5.41}
 23%|██▎       | 17681/78504 [10:44:50<58:42:45,  3.48s/it] 23%|██▎       | 17682/78504 [10:44:53<58:06:02,  3.44s/it]                                                           {'loss': 0.0948, 'grad_norm': 0.3282302916049957, 'learning_rate': 2.5828627234512336e-05, 'epoch': 5.41}
 23%|██▎       | 17682/78504 [10:44:53<58:06:02,  3.44s/it] 23%|██▎       | 17683/78504 [10:44:56<55:28:38,  3.28s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.2801792323589325, 'learning_rate': 2.5828202624092395e-05, 'epoch': 5.41}
 23%|██▎       | 17683/78504 [10:44:56<55:28:38,  3.28s/it] 23%|██▎       | 17684/78504 [10:44:58<51:53:17,  3.07s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.30579474568367004, 'learning_rate': 2.5827778013672457e-05, 'epoch': 5.41}
 23%|██▎       | 17684/78504 [10:44:58<51:53:17,  3.07s/it] 23%|██▎       | 17685/78504 [10:45:01<48:51:43,  2.89s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.30891892313957214, 'learning_rate': 2.5827353403252516e-05, 'epoch': 5.41}
 23%|██▎       | 17685/78504 [10:45:01<48:51:43,  2.89s/it] 23%|██▎       | 17686/78504 [10:45:03<46:29:24,  2.75s/it]                                                           {'loss': 0.0597, 'grad_norm': 1.2044200897216797, 'learning_rate': 2.5826928792832578e-05, 'epoch': 5.41}
 23%|██▎       | 17686/78504 [10:45:03<46:29:24,  2.75s/it] 23%|██▎       | 17687/78504 [10:45:06<44:20:10,  2.62s/it]                                                           {'loss': 0.0519, 'grad_norm': 1.5818454027175903, 'learning_rate': 2.5826504182412636e-05, 'epoch': 5.41}
 23%|██▎       | 17687/78504 [10:45:06<44:20:10,  2.62s/it] 23%|██▎       | 17688/78504 [10:45:08<42:42:54,  2.53s/it]                                                           {'loss': 0.0778, 'grad_norm': 0.3284049332141876, 'learning_rate': 2.58260795719927e-05, 'epoch': 5.41}
 23%|██▎       | 17688/78504 [10:45:08<42:42:54,  2.53s/it] 23%|██▎       | 17689/78504 [10:45:10<41:01:12,  2.43s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.2843709886074066, 'learning_rate': 2.5825654961572757e-05, 'epoch': 5.41}
 23%|██▎       | 17689/78504 [10:45:10<41:01:12,  2.43s/it] 23%|██▎       | 17690/78504 [10:45:12<39:41:38,  2.35s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.3756740093231201, 'learning_rate': 2.5825230351152816e-05, 'epoch': 5.41}
 23%|██▎       | 17690/78504 [10:45:12<39:41:38,  2.35s/it] 23%|██▎       | 17691/78504 [10:45:14<37:10:12,  2.20s/it]                                                           {'loss': 0.1122, 'grad_norm': 0.893212616443634, 'learning_rate': 2.5824805740732878e-05, 'epoch': 5.41}
 23%|██▎       | 17691/78504 [10:45:14<37:10:12,  2.20s/it] 23%|██▎       | 17692/78504 [10:45:16<36:06:44,  2.14s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.3838440477848053, 'learning_rate': 2.5824381130312937e-05, 'epoch': 5.41}
 23%|██▎       | 17692/78504 [10:45:16<36:06:44,  2.14s/it] 23%|██▎       | 17693/78504 [10:45:18<35:00:58,  2.07s/it]                                                           {'loss': 0.1133, 'grad_norm': 0.5050315260887146, 'learning_rate': 2.5823956519893e-05, 'epoch': 5.41}
 23%|██▎       | 17693/78504 [10:45:18<35:00:58,  2.07s/it] 23%|██▎       | 17694/78504 [10:45:20<34:04:19,  2.02s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.5545922517776489, 'learning_rate': 2.5823531909473058e-05, 'epoch': 5.41}
 23%|██▎       | 17694/78504 [10:45:20<34:04:19,  2.02s/it] 23%|██▎       | 17695/78504 [10:45:22<32:48:06,  1.94s/it]                                                           {'loss': 0.1088, 'grad_norm': 0.6125749349594116, 'learning_rate': 2.582310729905312e-05, 'epoch': 5.41}
 23%|██▎       | 17695/78504 [10:45:22<32:48:06,  1.94s/it] 23%|██▎       | 17696/78504 [10:45:23<31:01:35,  1.84s/it]                                                           {'loss': 0.1039, 'grad_norm': 0.49854564666748047, 'learning_rate': 2.5822682688633178e-05, 'epoch': 5.41}
 23%|██▎       | 17696/78504 [10:45:23<31:01:35,  1.84s/it] 23%|██▎       | 17697/78504 [10:45:25<29:31:35,  1.75s/it]                                                           {'loss': 0.1426, 'grad_norm': 0.6312681436538696, 'learning_rate': 2.582225807821324e-05, 'epoch': 5.41}
 23%|██▎       | 17697/78504 [10:45:25<29:31:35,  1.75s/it] 23%|██▎       | 17698/78504 [10:45:26<28:07:51,  1.67s/it]                                                           {'loss': 0.1398, 'grad_norm': 0.47877800464630127, 'learning_rate': 2.58218334677933e-05, 'epoch': 5.41}
 23%|██▎       | 17698/78504 [10:45:26<28:07:51,  1.67s/it] 23%|██▎       | 17699/78504 [10:45:28<26:46:33,  1.59s/it]                                                           {'loss': 0.161, 'grad_norm': 0.5242709517478943, 'learning_rate': 2.582140885737336e-05, 'epoch': 5.41}
 23%|██▎       | 17699/78504 [10:45:28<26:46:33,  1.59s/it] 23%|██▎       | 17700/78504 [10:45:29<25:14:21,  1.49s/it]                                                           {'loss': 0.1917, 'grad_norm': 1.411246657371521, 'learning_rate': 2.582098424695342e-05, 'epoch': 5.41}
 23%|██▎       | 17700/78504 [10:45:29<25:14:21,  1.49s/it] 23%|██▎       | 17701/78504 [10:45:30<23:26:07,  1.39s/it]                                                           {'loss': 0.2057, 'grad_norm': 1.569435954093933, 'learning_rate': 2.5820559636533482e-05, 'epoch': 5.41}
 23%|██▎       | 17701/78504 [10:45:30<23:26:07,  1.39s/it] 23%|██▎       | 17702/78504 [10:45:31<21:56:02,  1.30s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.6436520218849182, 'learning_rate': 2.582013502611354e-05, 'epoch': 5.41}
 23%|██▎       | 17702/78504 [10:45:31<21:56:02,  1.30s/it] 23%|██▎       | 17703/78504 [10:45:32<20:42:10,  1.23s/it]                                                           {'loss': 0.1769, 'grad_norm': 2.132234573364258, 'learning_rate': 2.58197104156936e-05, 'epoch': 5.41}
 23%|██▎       | 17703/78504 [10:45:32<20:42:10,  1.23s/it] 23%|██▎       | 17704/78504 [10:45:33<19:16:35,  1.14s/it]                                                           {'loss': 0.1853, 'grad_norm': 1.1163458824157715, 'learning_rate': 2.581928580527366e-05, 'epoch': 5.41}
 23%|██▎       | 17704/78504 [10:45:33<19:16:35,  1.14s/it] 23%|██▎       | 17705/78504 [10:45:34<17:33:23,  1.04s/it]                                                           {'loss': 0.2139, 'grad_norm': 0.9533193111419678, 'learning_rate': 2.581886119485372e-05, 'epoch': 5.41}
 23%|██▎       | 17705/78504 [10:45:34<17:33:23,  1.04s/it] 23%|██▎       | 17706/78504 [10:45:43<58:39:14,  3.47s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.5878692865371704, 'learning_rate': 2.5818436584433782e-05, 'epoch': 5.41}
 23%|██▎       | 17706/78504 [10:45:43<58:39:14,  3.47s/it] 23%|██▎       | 17707/78504 [10:45:46<57:48:18,  3.42s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.20892149209976196, 'learning_rate': 2.581801197401384e-05, 'epoch': 5.41}
 23%|██▎       | 17707/78504 [10:45:46<57:48:18,  3.42s/it] 23%|██▎       | 17708/78504 [10:45:49<55:34:08,  3.29s/it]                                                           {'loss': 0.0592, 'grad_norm': 2.2802176475524902, 'learning_rate': 2.5817587363593903e-05, 'epoch': 5.41}
 23%|██▎       | 17708/78504 [10:45:49<55:34:08,  3.29s/it] 23%|██▎       | 17709/78504 [10:45:52<52:07:49,  3.09s/it]                                                           {'loss': 0.0547, 'grad_norm': 1.588739275932312, 'learning_rate': 2.5817162753173962e-05, 'epoch': 5.41}
 23%|██▎       | 17709/78504 [10:45:52<52:07:49,  3.09s/it] 23%|██▎       | 17710/78504 [10:45:55<49:00:30,  2.90s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.28576555848121643, 'learning_rate': 2.5816738142754024e-05, 'epoch': 5.41}
 23%|██▎       | 17710/78504 [10:45:55<49:00:30,  2.90s/it] 23%|██▎       | 17711/78504 [10:45:57<45:47:43,  2.71s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.559400200843811, 'learning_rate': 2.5816313532334083e-05, 'epoch': 5.41}
 23%|██▎       | 17711/78504 [10:45:57<45:47:43,  2.71s/it] 23%|██▎       | 17712/78504 [10:45:59<43:47:44,  2.59s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.8519971370697021, 'learning_rate': 2.5815888921914145e-05, 'epoch': 5.41}
 23%|██▎       | 17712/78504 [10:45:59<43:47:44,  2.59s/it] 23%|██▎       | 17713/78504 [10:46:01<41:17:40,  2.45s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.47179052233695984, 'learning_rate': 2.5815464311494203e-05, 'epoch': 5.42}
 23%|██▎       | 17713/78504 [10:46:01<41:17:40,  2.45s/it] 23%|██▎       | 17714/78504 [10:46:03<39:56:55,  2.37s/it]                                                           {'loss': 0.077, 'grad_norm': 0.4654650390148163, 'learning_rate': 2.5815039701074262e-05, 'epoch': 5.42}
 23%|██▎       | 17714/78504 [10:46:03<39:56:55,  2.37s/it] 23%|██▎       | 17715/78504 [10:46:06<38:50:04,  2.30s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.28495487570762634, 'learning_rate': 2.5814615090654324e-05, 'epoch': 5.42}
 23%|██▎       | 17715/78504 [10:46:06<38:50:04,  2.30s/it] 23%|██▎       | 17716/78504 [10:46:08<37:19:30,  2.21s/it]                                                           {'loss': 0.0723, 'grad_norm': 0.4225354790687561, 'learning_rate': 2.5814190480234383e-05, 'epoch': 5.42}
 23%|██▎       | 17716/78504 [10:46:08<37:19:30,  2.21s/it] 23%|██▎       | 17717/78504 [10:46:09<35:14:33,  2.09s/it]                                                           {'loss': 0.0941, 'grad_norm': 0.5927707552909851, 'learning_rate': 2.5813765869814445e-05, 'epoch': 5.42}
 23%|██▎       | 17717/78504 [10:46:09<35:14:33,  2.09s/it] 23%|██▎       | 17718/78504 [10:46:11<34:06:35,  2.02s/it]                                                           {'loss': 0.0978, 'grad_norm': 0.7989650964736938, 'learning_rate': 2.5813341259394504e-05, 'epoch': 5.42}
 23%|██▎       | 17718/78504 [10:46:11<34:06:35,  2.02s/it] 23%|██▎       | 17719/78504 [10:46:13<33:12:54,  1.97s/it]                                                           {'loss': 0.1507, 'grad_norm': 0.42591190338134766, 'learning_rate': 2.5812916648974566e-05, 'epoch': 5.42}
 23%|██▎       | 17719/78504 [10:46:13<33:12:54,  1.97s/it] 23%|██▎       | 17720/78504 [10:46:15<32:12:25,  1.91s/it]                                                           {'loss': 0.1179, 'grad_norm': 1.1248356103897095, 'learning_rate': 2.5812492038554624e-05, 'epoch': 5.42}
 23%|██▎       | 17720/78504 [10:46:15<32:12:25,  1.91s/it] 23%|██▎       | 17721/78504 [10:46:16<30:53:56,  1.83s/it]                                                           {'loss': 0.168, 'grad_norm': 0.5716126561164856, 'learning_rate': 2.5812067428134686e-05, 'epoch': 5.42}
 23%|██▎       | 17721/78504 [10:46:16<30:53:56,  1.83s/it] 23%|██▎       | 17722/78504 [10:46:18<29:21:02,  1.74s/it]                                                           {'loss': 0.1458, 'grad_norm': 1.4119412899017334, 'learning_rate': 2.5811642817714745e-05, 'epoch': 5.42}
 23%|██▎       | 17722/78504 [10:46:18<29:21:02,  1.74s/it] 23%|██▎       | 17723/78504 [10:46:19<27:47:49,  1.65s/it]                                                           {'loss': 0.148, 'grad_norm': 0.7743752002716064, 'learning_rate': 2.5811218207294807e-05, 'epoch': 5.42}
 23%|██▎       | 17723/78504 [10:46:19<27:47:49,  1.65s/it] 23%|██▎       | 17724/78504 [10:46:21<26:35:35,  1.58s/it]                                                           {'loss': 0.1915, 'grad_norm': 1.230774998664856, 'learning_rate': 2.5810793596874866e-05, 'epoch': 5.42}
 23%|██▎       | 17724/78504 [10:46:21<26:35:35,  1.58s/it] 23%|██▎       | 17725/78504 [10:46:22<25:09:24,  1.49s/it]                                                           {'loss': 0.1951, 'grad_norm': 2.353522777557373, 'learning_rate': 2.5810368986454928e-05, 'epoch': 5.42}
 23%|██▎       | 17725/78504 [10:46:22<25:09:24,  1.49s/it] 23%|██▎       | 17726/78504 [10:46:23<23:24:19,  1.39s/it]                                                           {'loss': 0.2072, 'grad_norm': 1.1838774681091309, 'learning_rate': 2.580994437603499e-05, 'epoch': 5.42}
 23%|██▎       | 17726/78504 [10:46:23<23:24:19,  1.39s/it] 23%|██▎       | 17727/78504 [10:46:24<21:55:11,  1.30s/it]                                                           {'loss': 0.1946, 'grad_norm': 1.024107813835144, 'learning_rate': 2.580951976561505e-05, 'epoch': 5.42}
 23%|██▎       | 17727/78504 [10:46:24<21:55:11,  1.30s/it] 23%|██▎       | 17728/78504 [10:46:25<20:38:41,  1.22s/it]                                                           {'loss': 0.1888, 'grad_norm': 2.7565107345581055, 'learning_rate': 2.580909515519511e-05, 'epoch': 5.42}
 23%|██▎       | 17728/78504 [10:46:25<20:38:41,  1.22s/it] 23%|██▎       | 17729/78504 [10:46:26<19:09:50,  1.14s/it]                                                           {'loss': 0.1912, 'grad_norm': 1.787035584449768, 'learning_rate': 2.580867054477517e-05, 'epoch': 5.42}
 23%|██▎       | 17729/78504 [10:46:26<19:09:50,  1.14s/it] 23%|██▎       | 17730/78504 [10:46:27<17:22:42,  1.03s/it]                                                           {'loss': 0.2059, 'grad_norm': 2.2928855419158936, 'learning_rate': 2.5808245934355232e-05, 'epoch': 5.42}
 23%|██▎       | 17730/78504 [10:46:27<17:22:42,  1.03s/it] 23%|██▎       | 17731/78504 [10:46:36<54:33:34,  3.23s/it]                                                           {'loss': 0.1238, 'grad_norm': 0.46662288904190063, 'learning_rate': 2.580782132393529e-05, 'epoch': 5.42}
 23%|██▎       | 17731/78504 [10:46:36<54:33:34,  3.23s/it] 23%|██▎       | 17732/78504 [10:46:39<54:00:07,  3.20s/it]                                                           {'loss': 0.0891, 'grad_norm': 0.40266671776771545, 'learning_rate': 2.5807396713515352e-05, 'epoch': 5.42}
 23%|██▎       | 17732/78504 [10:46:39<54:00:07,  3.20s/it] 23%|██▎       | 17733/78504 [10:46:42<53:05:09,  3.14s/it]                                                           {'loss': 0.1071, 'grad_norm': 0.2953406870365143, 'learning_rate': 2.580697210309541e-05, 'epoch': 5.42}
 23%|██▎       | 17733/78504 [10:46:42<53:05:09,  3.14s/it] 23%|██▎       | 17734/78504 [10:46:44<50:24:28,  2.99s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.3023248314857483, 'learning_rate': 2.5806547492675473e-05, 'epoch': 5.42}
 23%|██▎       | 17734/78504 [10:46:44<50:24:28,  2.99s/it] 23%|██▎       | 17735/78504 [10:46:47<47:47:36,  2.83s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.42883172631263733, 'learning_rate': 2.5806122882255532e-05, 'epoch': 5.42}
 23%|██▎       | 17735/78504 [10:46:47<47:47:36,  2.83s/it] 23%|██▎       | 17736/78504 [10:46:49<44:36:50,  2.64s/it]                                                           {'loss': 0.0764, 'grad_norm': 0.37349358201026917, 'learning_rate': 2.5805698271835594e-05, 'epoch': 5.42}
 23%|██▎       | 17736/78504 [10:46:49<44:36:50,  2.64s/it] 23%|██▎       | 17737/78504 [10:46:51<43:03:05,  2.55s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.28531956672668457, 'learning_rate': 2.5805273661415653e-05, 'epoch': 5.42}
 23%|██▎       | 17737/78504 [10:46:51<43:03:05,  2.55s/it] 23%|██▎       | 17738/78504 [10:46:53<40:41:42,  2.41s/it]                                                           {'loss': 0.0539, 'grad_norm': 0.2592794895172119, 'learning_rate': 2.5804849050995715e-05, 'epoch': 5.42}
 23%|██▎       | 17738/78504 [10:46:53<40:41:42,  2.41s/it] 23%|██▎       | 17739/78504 [10:46:56<39:37:52,  2.35s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.35326555371284485, 'learning_rate': 2.5804424440575774e-05, 'epoch': 5.42}
 23%|██▎       | 17739/78504 [10:46:56<39:37:52,  2.35s/it] 23%|██▎       | 17740/78504 [10:46:58<38:33:40,  2.28s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.3551596999168396, 'learning_rate': 2.5803999830155832e-05, 'epoch': 5.42}
 23%|██▎       | 17740/78504 [10:46:58<38:33:40,  2.28s/it] 23%|██▎       | 17741/78504 [10:47:00<37:06:05,  2.20s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.6437387466430664, 'learning_rate': 2.5803575219735894e-05, 'epoch': 5.42}
 23%|██▎       | 17741/78504 [10:47:00<37:06:05,  2.20s/it] 23%|██▎       | 17742/78504 [10:47:01<35:06:15,  2.08s/it]                                                           {'loss': 0.0768, 'grad_norm': 0.4277696907520294, 'learning_rate': 2.5803150609315953e-05, 'epoch': 5.42}
 23%|██▎       | 17742/78504 [10:47:02<35:06:15,  2.08s/it] 23%|██▎       | 17743/78504 [10:47:03<33:59:30,  2.01s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.6327899694442749, 'learning_rate': 2.5802725998896015e-05, 'epoch': 5.42}
 23%|██▎       | 17743/78504 [10:47:03<33:59:30,  2.01s/it] 23%|██▎       | 17744/78504 [10:47:05<33:06:07,  1.96s/it]                                                           {'loss': 0.1411, 'grad_norm': 0.6572338938713074, 'learning_rate': 2.5802301388476074e-05, 'epoch': 5.42}
 23%|██▎       | 17744/78504 [10:47:05<33:06:07,  1.96s/it] 23%|██▎       | 17745/78504 [10:47:07<32:09:15,  1.91s/it]                                                           {'loss': 0.1248, 'grad_norm': 0.5701612830162048, 'learning_rate': 2.5801876778056136e-05, 'epoch': 5.42}
 23%|██▎       | 17745/78504 [10:47:07<32:09:15,  1.91s/it] 23%|██▎       | 17746/78504 [10:47:09<30:49:26,  1.83s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.5128480792045593, 'learning_rate': 2.5801452167636195e-05, 'epoch': 5.43}
 23%|██▎       | 17746/78504 [10:47:09<30:49:26,  1.83s/it] 23%|██▎       | 17747/78504 [10:47:10<29:20:51,  1.74s/it]                                                           {'loss': 0.1992, 'grad_norm': 1.3085055351257324, 'learning_rate': 2.5801027557216257e-05, 'epoch': 5.43}
 23%|██▎       | 17747/78504 [10:47:10<29:20:51,  1.74s/it] 23%|██▎       | 17748/78504 [10:47:12<27:58:19,  1.66s/it]                                                           {'loss': 0.157, 'grad_norm': 0.720861554145813, 'learning_rate': 2.5800602946796315e-05, 'epoch': 5.43}
 23%|██▎       | 17748/78504 [10:47:12<27:58:19,  1.66s/it] 23%|██▎       | 17749/78504 [10:47:13<26:44:48,  1.58s/it]                                                           {'loss': 0.1857, 'grad_norm': 1.686551809310913, 'learning_rate': 2.5800178336376377e-05, 'epoch': 5.43}
 23%|██▎       | 17749/78504 [10:47:13<26:44:48,  1.58s/it] 23%|██▎       | 17750/78504 [10:47:14<25:10:29,  1.49s/it]                                                           {'loss': 0.1787, 'grad_norm': 1.2294373512268066, 'learning_rate': 2.5799753725956436e-05, 'epoch': 5.43}
 23%|██▎       | 17750/78504 [10:47:14<25:10:29,  1.49s/it] 23%|██▎       | 17751/78504 [10:47:15<23:25:44,  1.39s/it]                                                           {'loss': 0.1592, 'grad_norm': 0.8188624978065491, 'learning_rate': 2.5799329115536498e-05, 'epoch': 5.43}
 23%|██▎       | 17751/78504 [10:47:15<23:25:44,  1.39s/it] 23%|██▎       | 17752/78504 [10:47:17<22:01:31,  1.31s/it]                                                           {'loss': 0.1834, 'grad_norm': 0.8868386745452881, 'learning_rate': 2.5798904505116557e-05, 'epoch': 5.43}
 23%|██▎       | 17752/78504 [10:47:17<22:01:31,  1.31s/it] 23%|██▎       | 17753/78504 [10:47:18<20:24:46,  1.21s/it]                                                           {'loss': 0.2009, 'grad_norm': 1.2276134490966797, 'learning_rate': 2.5798479894696616e-05, 'epoch': 5.43}
 23%|██▎       | 17753/78504 [10:47:18<20:24:46,  1.21s/it] 23%|██▎       | 17754/78504 [10:47:18<19:04:05,  1.13s/it]                                                           {'loss': 0.2178, 'grad_norm': 1.3868283033370972, 'learning_rate': 2.5798055284276678e-05, 'epoch': 5.43}
 23%|██▎       | 17754/78504 [10:47:19<19:04:05,  1.13s/it] 23%|██▎       | 17755/78504 [10:47:19<17:17:48,  1.03s/it]                                                           {'loss': 0.3059, 'grad_norm': 1.8991283178329468, 'learning_rate': 2.5797630673856736e-05, 'epoch': 5.43}
 23%|██▎       | 17755/78504 [10:47:19<17:17:48,  1.03s/it] 23%|██▎       | 17756/78504 [10:47:27<49:24:28,  2.93s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.5193761587142944, 'learning_rate': 2.57972060634368e-05, 'epoch': 5.43}
 23%|██▎       | 17756/78504 [10:47:27<49:24:28,  2.93s/it] 23%|██▎       | 17757/78504 [10:47:30<50:29:21,  2.99s/it]                                                           {'loss': 0.1036, 'grad_norm': 0.35480284690856934, 'learning_rate': 2.5796781453016857e-05, 'epoch': 5.43}
 23%|██▎       | 17757/78504 [10:47:30<50:29:21,  2.99s/it] 23%|██▎       | 17758/78504 [10:47:32<48:21:09,  2.87s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.9832378625869751, 'learning_rate': 2.579635684259692e-05, 'epoch': 5.43}
 23%|██▎       | 17758/78504 [10:47:32<48:21:09,  2.87s/it] 23%|██▎       | 17759/78504 [10:47:35<47:06:47,  2.79s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.4544336199760437, 'learning_rate': 2.5795932232176978e-05, 'epoch': 5.43}
 23%|██▎       | 17759/78504 [10:47:35<47:06:47,  2.79s/it] 23%|██▎       | 17760/78504 [10:47:37<45:26:50,  2.69s/it]                                                           {'loss': 0.049, 'grad_norm': 0.2562420964241028, 'learning_rate': 2.579550762175704e-05, 'epoch': 5.43}
 23%|██▎       | 17760/78504 [10:47:37<45:26:50,  2.69s/it] 23%|██▎       | 17761/78504 [10:47:40<44:07:57,  2.62s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.2965337634086609, 'learning_rate': 2.57950830113371e-05, 'epoch': 5.43}
 23%|██▎       | 17761/78504 [10:47:40<44:07:57,  2.62s/it] 23%|██▎       | 17762/78504 [10:47:42<42:37:14,  2.53s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.9886170625686646, 'learning_rate': 2.579465840091716e-05, 'epoch': 5.43}
 23%|██▎       | 17762/78504 [10:47:42<42:37:14,  2.53s/it] 23%|██▎       | 17763/78504 [10:47:44<40:31:21,  2.40s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.434605211019516, 'learning_rate': 2.579423379049722e-05, 'epoch': 5.43}
 23%|██▎       | 17763/78504 [10:47:44<40:31:21,  2.40s/it] 23%|██▎       | 17764/78504 [10:47:46<39:25:31,  2.34s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.19999822974205017, 'learning_rate': 2.5793809180077282e-05, 'epoch': 5.43}
 23%|██▎       | 17764/78504 [10:47:47<39:25:31,  2.34s/it] 23%|██▎       | 17765/78504 [10:47:49<38:25:24,  2.28s/it]                                                           {'loss': 0.0779, 'grad_norm': 1.374260663986206, 'learning_rate': 2.579338456965734e-05, 'epoch': 5.43}
 23%|██▎       | 17765/78504 [10:47:49<38:25:24,  2.28s/it] 23%|██▎       | 17766/78504 [10:47:51<37:10:17,  2.20s/it]                                                           {'loss': 0.1022, 'grad_norm': 0.4892440736293793, 'learning_rate': 2.57929599592374e-05, 'epoch': 5.43}
 23%|██▎       | 17766/78504 [10:47:51<37:10:17,  2.20s/it] 23%|██▎       | 17767/78504 [10:47:53<36:01:13,  2.14s/it]                                                           {'loss': 0.1061, 'grad_norm': 0.43651869893074036, 'learning_rate': 2.579253534881746e-05, 'epoch': 5.43}
 23%|██▎       | 17767/78504 [10:47:53<36:01:13,  2.14s/it] 23%|██▎       | 17768/78504 [10:47:54<34:38:05,  2.05s/it]                                                           {'loss': 0.0896, 'grad_norm': 0.3871915936470032, 'learning_rate': 2.579211073839752e-05, 'epoch': 5.43}
 23%|██▎       | 17768/78504 [10:47:55<34:38:05,  2.05s/it] 23%|██▎       | 17769/78504 [10:47:56<33:34:33,  1.99s/it]                                                           {'loss': 0.1377, 'grad_norm': 0.8812291026115417, 'learning_rate': 2.5791686127977582e-05, 'epoch': 5.43}
 23%|██▎       | 17769/78504 [10:47:56<33:34:33,  1.99s/it] 23%|██▎       | 17770/78504 [10:47:58<32:15:11,  1.91s/it]                                                           {'loss': 0.1152, 'grad_norm': 0.711980938911438, 'learning_rate': 2.579126151755764e-05, 'epoch': 5.43}
 23%|██▎       | 17770/78504 [10:47:58<32:15:11,  1.91s/it] 23%|██▎       | 17771/78504 [10:48:00<30:51:31,  1.83s/it]                                                           {'loss': 0.1482, 'grad_norm': 0.58348149061203, 'learning_rate': 2.5790836907137703e-05, 'epoch': 5.43}
 23%|██▎       | 17771/78504 [10:48:00<30:51:31,  1.83s/it] 23%|██▎       | 17772/78504 [10:48:01<29:19:01,  1.74s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.985148549079895, 'learning_rate': 2.579041229671776e-05, 'epoch': 5.43}
 23%|██▎       | 17772/78504 [10:48:01<29:19:01,  1.74s/it] 23%|██▎       | 17773/78504 [10:48:03<27:45:56,  1.65s/it]                                                           {'loss': 0.17, 'grad_norm': 3.192687749862671, 'learning_rate': 2.5789987686297824e-05, 'epoch': 5.43}
 23%|██▎       | 17773/78504 [10:48:03<27:45:56,  1.65s/it] 23%|██▎       | 17774/78504 [10:48:04<26:32:25,  1.57s/it]                                                           {'loss': 0.1808, 'grad_norm': 1.0520174503326416, 'learning_rate': 2.5789563075877882e-05, 'epoch': 5.43}
 23%|██▎       | 17774/78504 [10:48:04<26:32:25,  1.57s/it] 23%|██▎       | 17775/78504 [10:48:05<25:02:48,  1.48s/it]                                                           {'loss': 0.1983, 'grad_norm': 1.4559433460235596, 'learning_rate': 2.5789138465457944e-05, 'epoch': 5.43}
 23%|██▎       | 17775/78504 [10:48:05<25:02:48,  1.48s/it] 23%|██▎       | 17776/78504 [10:48:06<23:21:27,  1.38s/it]                                                           {'loss': 0.179, 'grad_norm': 1.5598466396331787, 'learning_rate': 2.5788713855038003e-05, 'epoch': 5.43}
 23%|██▎       | 17776/78504 [10:48:07<23:21:27,  1.38s/it] 23%|██▎       | 17777/78504 [10:48:08<21:51:28,  1.30s/it]                                                           {'loss': 0.1567, 'grad_norm': nan, 'learning_rate': 2.5788713855038003e-05, 'epoch': 5.43}
 23%|██▎       | 17777/78504 [10:48:08<21:51:28,  1.30s/it] 23%|██▎       | 17778/78504 [10:48:09<20:20:44,  1.21s/it]                                                           {'loss': 0.2066, 'grad_norm': 1.7302592992782593, 'learning_rate': 2.5788289244618065e-05, 'epoch': 5.44}
 23%|██▎       | 17778/78504 [10:48:09<20:20:44,  1.21s/it] 23%|██▎       | 17779/78504 [10:48:10<18:58:27,  1.12s/it]                                                           {'loss': 0.224, 'grad_norm': 1.290088176727295, 'learning_rate': 2.5787864634198124e-05, 'epoch': 5.44}
 23%|██▎       | 17779/78504 [10:48:10<18:58:27,  1.12s/it] 23%|██▎       | 17780/78504 [10:48:10<17:14:32,  1.02s/it]                                                           {'loss': 0.2568, 'grad_norm': 1.942000389099121, 'learning_rate': 2.5787440023778183e-05, 'epoch': 5.44}
 23%|██▎       | 17780/78504 [10:48:10<17:14:32,  1.02s/it] 23%|██▎       | 17781/78504 [10:48:20<60:04:18,  3.56s/it]                                                           {'loss': 0.1551, 'grad_norm': 0.6466100811958313, 'learning_rate': 2.5787015413358245e-05, 'epoch': 5.44}
 23%|██▎       | 17781/78504 [10:48:20<60:04:18,  3.56s/it] 23%|██▎       | 17782/78504 [10:48:23<58:31:06,  3.47s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.3554234206676483, 'learning_rate': 2.5786590802938303e-05, 'epoch': 5.44}
 23%|██▎       | 17782/78504 [10:48:23<58:31:06,  3.47s/it] 23%|██▎       | 17783/78504 [10:48:26<56:11:28,  3.33s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.7312273383140564, 'learning_rate': 2.5786166192518365e-05, 'epoch': 5.44}
 23%|██▎       | 17783/78504 [10:48:26<56:11:28,  3.33s/it] 23%|██▎       | 17784/78504 [10:48:29<52:34:03,  3.12s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.2200843244791031, 'learning_rate': 2.5785741582098424e-05, 'epoch': 5.44}
 23%|██▎       | 17784/78504 [10:48:29<52:34:03,  3.12s/it] 23%|██▎       | 17785/78504 [10:48:31<49:17:03,  2.92s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.35626110434532166, 'learning_rate': 2.5785316971678486e-05, 'epoch': 5.44}
 23%|██▎       | 17785/78504 [10:48:31<49:17:03,  2.92s/it] 23%|██▎       | 17786/78504 [10:48:33<45:58:46,  2.73s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.500328779220581, 'learning_rate': 2.5784892361258545e-05, 'epoch': 5.44}
 23%|██▎       | 17786/78504 [10:48:33<45:58:46,  2.73s/it] 23%|██▎       | 17787/78504 [10:48:36<43:55:59,  2.60s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.16322065889835358, 'learning_rate': 2.5784467750838607e-05, 'epoch': 5.44}
 23%|██▎       | 17787/78504 [10:48:36<43:55:59,  2.60s/it] 23%|██▎       | 17788/78504 [10:48:38<41:21:01,  2.45s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.2685287296772003, 'learning_rate': 2.5784043140418666e-05, 'epoch': 5.44}
 23%|██▎       | 17788/78504 [10:48:38<41:21:01,  2.45s/it] 23%|██▎       | 17789/78504 [10:48:40<40:01:21,  2.37s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.2237055003643036, 'learning_rate': 2.5783618529998728e-05, 'epoch': 5.44}
 23%|██▎       | 17789/78504 [10:48:40<40:01:21,  2.37s/it] 23%|██▎       | 17790/78504 [10:48:42<38:58:48,  2.31s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.236003115773201, 'learning_rate': 2.5783193919578786e-05, 'epoch': 5.44}
 23%|██▎       | 17790/78504 [10:48:42<38:58:48,  2.31s/it] 23%|██▎       | 17791/78504 [10:48:44<36:39:21,  2.17s/it]                                                           {'loss': 0.0846, 'grad_norm': 1.7509368658065796, 'learning_rate': 2.578276930915885e-05, 'epoch': 5.44}
 23%|██▎       | 17791/78504 [10:48:44<36:39:21,  2.17s/it] 23%|██▎       | 17792/78504 [10:48:46<35:42:28,  2.12s/it]                                                           {'loss': 0.081, 'grad_norm': 0.45074090361595154, 'learning_rate': 2.5782344698738907e-05, 'epoch': 5.44}
 23%|██▎       | 17792/78504 [10:48:46<35:42:28,  2.12s/it] 23%|██▎       | 17793/78504 [10:48:48<34:40:47,  2.06s/it]                                                           {'loss': 0.0959, 'grad_norm': 2.16957950592041, 'learning_rate': 2.5781920088318966e-05, 'epoch': 5.44}
 23%|██▎       | 17793/78504 [10:48:48<34:40:47,  2.06s/it] 23%|██▎       | 17794/78504 [10:48:50<33:46:12,  2.00s/it]                                                           {'loss': 0.0892, 'grad_norm': 0.6634747982025146, 'learning_rate': 2.5781495477899028e-05, 'epoch': 5.44}
 23%|██▎       | 17794/78504 [10:48:50<33:46:12,  2.00s/it] 23%|██▎       | 17795/78504 [10:48:52<32:34:00,  1.93s/it]                                                           {'loss': 0.1568, 'grad_norm': 0.713859498500824, 'learning_rate': 2.5781070867479087e-05, 'epoch': 5.44}
 23%|██▎       | 17795/78504 [10:48:52<32:34:00,  1.93s/it] 23%|██▎       | 17796/78504 [10:48:53<31:12:03,  1.85s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.5095196962356567, 'learning_rate': 2.578064625705915e-05, 'epoch': 5.44}
 23%|██▎       | 17796/78504 [10:48:53<31:12:03,  1.85s/it] 23%|██▎       | 17797/78504 [10:48:55<29:37:22,  1.76s/it]                                                           {'loss': 0.1532, 'grad_norm': 0.945172131061554, 'learning_rate': 2.5780221646639208e-05, 'epoch': 5.44}
 23%|██▎       | 17797/78504 [10:48:55<29:37:22,  1.76s/it] 23%|██▎       | 17798/78504 [10:48:56<28:12:50,  1.67s/it]                                                           {'loss': 0.144, 'grad_norm': 1.1653478145599365, 'learning_rate': 2.577979703621927e-05, 'epoch': 5.44}
 23%|██▎       | 17798/78504 [10:48:56<28:12:50,  1.67s/it] 23%|██▎       | 17799/78504 [10:48:58<26:56:40,  1.60s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.5836684703826904, 'learning_rate': 2.577937242579933e-05, 'epoch': 5.44}
 23%|██▎       | 17799/78504 [10:48:58<26:56:40,  1.60s/it] 23%|██▎       | 17800/78504 [10:48:59<25:23:22,  1.51s/it]                                                           {'loss': 0.1538, 'grad_norm': 1.7120652198791504, 'learning_rate': 2.577894781537939e-05, 'epoch': 5.44}
 23%|██▎       | 17800/78504 [10:48:59<25:23:22,  1.51s/it] 23%|██▎       | 17801/78504 [10:49:00<23:34:57,  1.40s/it]                                                           {'loss': 0.1777, 'grad_norm': 1.3369680643081665, 'learning_rate': 2.577852320495945e-05, 'epoch': 5.44}
 23%|██▎       | 17801/78504 [10:49:00<23:34:57,  1.40s/it] 23%|██▎       | 17802/78504 [10:49:01<22:06:10,  1.31s/it]                                                           {'loss': 0.2057, 'grad_norm': 1.2605267763137817, 'learning_rate': 2.577809859453951e-05, 'epoch': 5.44}
 23%|██▎       | 17802/78504 [10:49:01<22:06:10,  1.31s/it] 23%|██▎       | 17803/78504 [10:49:02<20:50:03,  1.24s/it]                                                           {'loss': 0.1792, 'grad_norm': 9.51916790008545, 'learning_rate': 2.577767398411957e-05, 'epoch': 5.44}
 23%|██▎       | 17803/78504 [10:49:02<20:50:03,  1.24s/it] 23%|██▎       | 17804/78504 [10:49:03<19:22:58,  1.15s/it]                                                           {'loss': 0.2397, 'grad_norm': 1.9914902448654175, 'learning_rate': 2.5777249373699632e-05, 'epoch': 5.44}
 23%|██▎       | 17804/78504 [10:49:03<19:22:58,  1.15s/it] 23%|██▎       | 17805/78504 [10:49:04<17:31:21,  1.04s/it]                                                           {'loss': 0.239, 'grad_norm': 1.6253575086593628, 'learning_rate': 2.577682476327969e-05, 'epoch': 5.44}
 23%|██▎       | 17805/78504 [10:49:04<17:31:21,  1.04s/it] 23%|██▎       | 17806/78504 [10:49:12<54:35:15,  3.24s/it]                                                           {'loss': 0.1337, 'grad_norm': 0.5637826323509216, 'learning_rate': 2.577640015285975e-05, 'epoch': 5.44}
 23%|██▎       | 17806/78504 [10:49:12<54:35:15,  3.24s/it] 23%|██▎       | 17807/78504 [10:49:16<55:09:15,  3.27s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.5678479075431824, 'learning_rate': 2.577597554243981e-05, 'epoch': 5.44}
 23%|██▎       | 17807/78504 [10:49:16<55:09:15,  3.27s/it] 23%|██▎       | 17808/78504 [10:49:19<53:52:35,  3.20s/it]                                                           {'loss': 0.077, 'grad_norm': 0.25310033559799194, 'learning_rate': 2.577555093201987e-05, 'epoch': 5.44}
 23%|██▎       | 17808/78504 [10:49:19<53:52:35,  3.20s/it] 23%|██▎       | 17809/78504 [10:49:21<50:57:41,  3.02s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.4972168505191803, 'learning_rate': 2.5775126321599932e-05, 'epoch': 5.44}
 23%|██▎       | 17809/78504 [10:49:21<50:57:41,  3.02s/it] 23%|██▎       | 17810/78504 [10:49:24<48:08:28,  2.86s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.18574345111846924, 'learning_rate': 2.577470171117999e-05, 'epoch': 5.44}
 23%|██▎       | 17810/78504 [10:49:24<48:08:28,  2.86s/it] 23%|██▎       | 17811/78504 [10:49:26<45:08:24,  2.68s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.5883479118347168, 'learning_rate': 2.5774277100760053e-05, 'epoch': 5.45}
 23%|██▎       | 17811/78504 [10:49:26<45:08:24,  2.68s/it] 23%|██▎       | 17812/78504 [10:49:28<43:16:20,  2.57s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.3062955141067505, 'learning_rate': 2.5773852490340112e-05, 'epoch': 5.45}
 23%|██▎       | 17812/78504 [10:49:28<43:16:20,  2.57s/it] 23%|██▎       | 17813/78504 [10:49:30<40:58:29,  2.43s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.3509267568588257, 'learning_rate': 2.5773427879920174e-05, 'epoch': 5.45}
 23%|██▎       | 17813/78504 [10:49:31<40:58:29,  2.43s/it] 23%|██▎       | 17814/78504 [10:49:33<39:42:31,  2.36s/it]                                                           {'loss': 0.1088, 'grad_norm': 0.3737746775150299, 'learning_rate': 2.5773003269500233e-05, 'epoch': 5.45}
 23%|██▎       | 17814/78504 [10:49:33<39:42:31,  2.36s/it] 23%|██▎       | 17815/78504 [10:49:35<38:37:53,  2.29s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.5459342002868652, 'learning_rate': 2.5772578659080295e-05, 'epoch': 5.45}
 23%|██▎       | 17815/78504 [10:49:35<38:37:53,  2.29s/it] 23%|██▎       | 17816/78504 [10:49:37<37:18:09,  2.21s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.4371106028556824, 'learning_rate': 2.5772154048660353e-05, 'epoch': 5.45}
 23%|██▎       | 17816/78504 [10:49:37<37:18:09,  2.21s/it] 23%|██▎       | 17817/78504 [10:49:39<36:07:11,  2.14s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.8115184307098389, 'learning_rate': 2.5771729438240415e-05, 'epoch': 5.45}
 23%|██▎       | 17817/78504 [10:49:39<36:07:11,  2.14s/it] 23%|██▎       | 17818/78504 [10:49:41<34:43:01,  2.06s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.2570803463459015, 'learning_rate': 2.5771304827820474e-05, 'epoch': 5.45}
 23%|██▎       | 17818/78504 [10:49:41<34:43:01,  2.06s/it] 23%|██▎       | 17819/78504 [10:49:43<33:45:12,  2.00s/it]                                                           {'loss': 0.1021, 'grad_norm': 0.5013136863708496, 'learning_rate': 2.5770880217400533e-05, 'epoch': 5.45}
 23%|██▎       | 17819/78504 [10:49:43<33:45:12,  2.00s/it] 23%|██▎       | 17820/78504 [10:49:44<32:19:07,  1.92s/it]                                                           {'loss': 0.1056, 'grad_norm': 1.0097758769989014, 'learning_rate': 2.5770455606980595e-05, 'epoch': 5.45}
 23%|██▎       | 17820/78504 [10:49:44<32:19:07,  1.92s/it] 23%|██▎       | 17821/78504 [10:49:46<30:55:45,  1.83s/it]                                                           {'loss': 0.1744, 'grad_norm': 0.6034950613975525, 'learning_rate': 2.5770030996560654e-05, 'epoch': 5.45}
 23%|██▎       | 17821/78504 [10:49:46<30:55:45,  1.83s/it] 23%|██▎       | 17822/78504 [10:49:47<29:26:07,  1.75s/it]                                                           {'loss': 0.1598, 'grad_norm': 0.9176740050315857, 'learning_rate': 2.5769606386140716e-05, 'epoch': 5.45}
 23%|██▎       | 17822/78504 [10:49:47<29:26:07,  1.75s/it] 23%|██▎       | 17823/78504 [10:49:49<27:59:41,  1.66s/it]                                                           {'loss': 0.1988, 'grad_norm': 0.9445605874061584, 'learning_rate': 2.5769181775720774e-05, 'epoch': 5.45}
 23%|██▎       | 17823/78504 [10:49:49<27:59:41,  1.66s/it] 23%|██▎       | 17824/78504 [10:49:50<26:45:33,  1.59s/it]                                                           {'loss': 0.1896, 'grad_norm': 0.5561435222625732, 'learning_rate': 2.5768757165300836e-05, 'epoch': 5.45}
 23%|██▎       | 17824/78504 [10:49:50<26:45:33,  1.59s/it] 23%|██▎       | 17825/78504 [10:49:52<25:13:42,  1.50s/it]                                                           {'loss': 0.1621, 'grad_norm': 2.309534788131714, 'learning_rate': 2.5768332554880895e-05, 'epoch': 5.45}
 23%|██▎       | 17825/78504 [10:49:52<25:13:42,  1.50s/it] 23%|██▎       | 17826/78504 [10:49:53<23:28:40,  1.39s/it]                                                           {'loss': 0.18, 'grad_norm': 1.0407261848449707, 'learning_rate': 2.5767907944460957e-05, 'epoch': 5.45}
 23%|██▎       | 17826/78504 [10:49:53<23:28:40,  1.39s/it] 23%|██▎       | 17827/78504 [10:49:54<21:58:34,  1.30s/it]                                                           {'loss': 0.172, 'grad_norm': 0.5222876667976379, 'learning_rate': 2.5767483334041016e-05, 'epoch': 5.45}
 23%|██▎       | 17827/78504 [10:49:54<21:58:34,  1.30s/it] 23%|██▎       | 17828/78504 [10:49:55<20:22:32,  1.21s/it]                                                           {'loss': 0.2083, 'grad_norm': 0.9374191761016846, 'learning_rate': 2.5767058723621078e-05, 'epoch': 5.45}
 23%|██▎       | 17828/78504 [10:49:55<20:22:32,  1.21s/it] 23%|██▎       | 17829/78504 [10:49:56<18:59:05,  1.13s/it]                                                           {'loss': 0.2093, 'grad_norm': 0.6938203573226929, 'learning_rate': 2.576663411320114e-05, 'epoch': 5.45}
 23%|██▎       | 17829/78504 [10:49:56<18:59:05,  1.13s/it] 23%|██▎       | 17830/78504 [10:49:57<17:03:49,  1.01s/it]                                                           {'loss': 0.248, 'grad_norm': 2.5641679763793945, 'learning_rate': 2.57662095027812e-05, 'epoch': 5.45}
 23%|██▎       | 17830/78504 [10:49:57<17:03:49,  1.01s/it] 23%|██▎       | 17831/78504 [10:50:06<61:01:54,  3.62s/it]                                                           {'loss': 0.1583, 'grad_norm': 0.37219178676605225, 'learning_rate': 2.576578489236126e-05, 'epoch': 5.45}
 23%|██▎       | 17831/78504 [10:50:06<61:01:54,  3.62s/it] 23%|██▎       | 17832/78504 [10:50:09<58:34:54,  3.48s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.7019333243370056, 'learning_rate': 2.576536028194132e-05, 'epoch': 5.45}
 23%|██▎       | 17832/78504 [10:50:09<58:34:54,  3.48s/it] 23%|██▎       | 17833/78504 [10:50:12<56:13:44,  3.34s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.2851669490337372, 'learning_rate': 2.5764935671521382e-05, 'epoch': 5.45}
 23%|██▎       | 17833/78504 [10:50:12<56:13:44,  3.34s/it] 23%|██▎       | 17834/78504 [10:50:15<52:23:17,  3.11s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.32095539569854736, 'learning_rate': 2.576451106110144e-05, 'epoch': 5.45}
 23%|██▎       | 17834/78504 [10:50:15<52:23:17,  3.11s/it] 23%|██▎       | 17835/78504 [10:50:17<49:16:24,  2.92s/it]                                                           {'loss': 0.0428, 'grad_norm': 0.29924342036247253, 'learning_rate': 2.5764086450681503e-05, 'epoch': 5.45}
 23%|██▎       | 17835/78504 [10:50:17<49:16:24,  2.92s/it] 23%|██▎       | 17836/78504 [10:50:20<46:54:09,  2.78s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.19267645478248596, 'learning_rate': 2.576366184026156e-05, 'epoch': 5.45}
 23%|██▎       | 17836/78504 [10:50:20<46:54:09,  2.78s/it] 23%|██▎       | 17837/78504 [10:50:22<44:32:39,  2.64s/it]                                                           {'loss': 0.0447, 'grad_norm': 0.35147616267204285, 'learning_rate': 2.5763237229841623e-05, 'epoch': 5.45}
 23%|██▎       | 17837/78504 [10:50:22<44:32:39,  2.64s/it] 23%|██▎       | 17838/78504 [10:50:25<42:49:42,  2.54s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.4746277630329132, 'learning_rate': 2.5762812619421682e-05, 'epoch': 5.45}
 23%|██▎       | 17838/78504 [10:50:25<42:49:42,  2.54s/it] 23%|██▎       | 17839/78504 [10:50:27<41:03:32,  2.44s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.5283970236778259, 'learning_rate': 2.5762388009001744e-05, 'epoch': 5.45}
 23%|██▎       | 17839/78504 [10:50:27<41:03:32,  2.44s/it] 23%|██▎       | 17840/78504 [10:50:29<39:40:52,  2.35s/it]                                                           {'loss': 0.0805, 'grad_norm': 0.49816539883613586, 'learning_rate': 2.5761963398581803e-05, 'epoch': 5.45}
 23%|██▎       | 17840/78504 [10:50:29<39:40:52,  2.35s/it] 23%|██▎       | 17841/78504 [10:50:31<37:11:15,  2.21s/it]                                                           {'loss': 0.1058, 'grad_norm': 0.33008289337158203, 'learning_rate': 2.5761538788161865e-05, 'epoch': 5.45}
 23%|██▎       | 17841/78504 [10:50:31<37:11:15,  2.21s/it] 23%|██▎       | 17842/78504 [10:50:33<36:02:52,  2.14s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.21536628901958466, 'learning_rate': 2.5761114177741924e-05, 'epoch': 5.45}
 23%|██▎       | 17842/78504 [10:50:33<36:02:52,  2.14s/it] 23%|██▎       | 17843/78504 [10:50:35<34:38:50,  2.06s/it]                                                           {'loss': 0.0827, 'grad_norm': 0.40220242738723755, 'learning_rate': 2.5760689567321982e-05, 'epoch': 5.45}
 23%|██▎       | 17843/78504 [10:50:35<34:38:50,  2.06s/it] 23%|██▎       | 17844/78504 [10:50:36<32:58:01,  1.96s/it]                                                           {'loss': 0.1209, 'grad_norm': 1.160796046257019, 'learning_rate': 2.5760264956902044e-05, 'epoch': 5.46}
 23%|██▎       | 17844/78504 [10:50:36<32:58:01,  1.96s/it] 23%|██▎       | 17845/78504 [10:50:38<31:58:37,  1.90s/it]                                                           {'loss': 0.1536, 'grad_norm': 1.2322337627410889, 'learning_rate': 2.5759840346482103e-05, 'epoch': 5.46}
 23%|██▎       | 17845/78504 [10:50:38<31:58:37,  1.90s/it] 23%|██▎       | 17846/78504 [10:50:40<30:39:42,  1.82s/it]                                                           {'loss': 0.1731, 'grad_norm': 0.9983041286468506, 'learning_rate': 2.5759415736062165e-05, 'epoch': 5.46}
 23%|██▎       | 17846/78504 [10:50:40<30:39:42,  1.82s/it] 23%|██▎       | 17847/78504 [10:50:41<29:08:26,  1.73s/it]                                                           {'loss': 0.1611, 'grad_norm': 0.48293444514274597, 'learning_rate': 2.5758991125642224e-05, 'epoch': 5.46}
 23%|██▎       | 17847/78504 [10:50:41<29:08:26,  1.73s/it] 23%|██▎       | 17848/78504 [10:50:43<27:36:34,  1.64s/it]                                                           {'loss': 0.1496, 'grad_norm': 1.4989060163497925, 'learning_rate': 2.5758566515222286e-05, 'epoch': 5.46}
 23%|██▎       | 17848/78504 [10:50:43<27:36:34,  1.64s/it] 23%|██▎       | 17849/78504 [10:50:44<26:24:17,  1.57s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.8192698955535889, 'learning_rate': 2.5758141904802345e-05, 'epoch': 5.46}
 23%|██▎       | 17849/78504 [10:50:44<26:24:17,  1.57s/it] 23%|██▎       | 17850/78504 [10:50:45<24:57:13,  1.48s/it]                                                           {'loss': 0.1901, 'grad_norm': 0.5911040306091309, 'learning_rate': 2.5757717294382407e-05, 'epoch': 5.46}
 23%|██▎       | 17850/78504 [10:50:45<24:57:13,  1.48s/it] 23%|██▎       | 17851/78504 [10:50:46<23:15:31,  1.38s/it]                                                           {'loss': 0.166, 'grad_norm': 0.8569478988647461, 'learning_rate': 2.5757292683962465e-05, 'epoch': 5.46}
 23%|██▎       | 17851/78504 [10:50:47<23:15:31,  1.38s/it] 23%|██▎       | 17852/78504 [10:50:48<21:50:53,  1.30s/it]                                                           {'loss': 0.1599, 'grad_norm': 2.0481362342834473, 'learning_rate': 2.5756868073542528e-05, 'epoch': 5.46}
 23%|██▎       | 17852/78504 [10:50:48<21:50:53,  1.30s/it] 23%|██▎       | 17853/78504 [10:50:49<20:16:44,  1.20s/it]                                                           {'loss': 0.1812, 'grad_norm': 0.7978664040565491, 'learning_rate': 2.5756443463122586e-05, 'epoch': 5.46}
 23%|██▎       | 17853/78504 [10:50:49<20:16:44,  1.20s/it] 23%|██▎       | 17854/78504 [10:50:50<18:50:51,  1.12s/it]                                                           {'loss': 0.2074, 'grad_norm': 1.3279223442077637, 'learning_rate': 2.575601885270265e-05, 'epoch': 5.46}
 23%|██▎       | 17854/78504 [10:50:50<18:50:51,  1.12s/it] 23%|██▎       | 17855/78504 [10:50:50<17:06:27,  1.02s/it]                                                           {'loss': 0.2273, 'grad_norm': 1.1623378992080688, 'learning_rate': 2.5755594242282707e-05, 'epoch': 5.46}
 23%|██▎       | 17855/78504 [10:50:50<17:06:27,  1.02s/it] 23%|██▎       | 17856/78504 [10:50:58<51:46:00,  3.07s/it]                                                           {'loss': 0.1469, 'grad_norm': 0.3307773768901825, 'learning_rate': 2.5755169631862766e-05, 'epoch': 5.46}
 23%|██▎       | 17856/78504 [10:50:58<51:46:00,  3.07s/it] 23%|██▎       | 17857/78504 [10:51:01<50:51:05,  3.02s/it]                                                           {'loss': 0.0974, 'grad_norm': 0.6072080135345459, 'learning_rate': 2.5754745021442828e-05, 'epoch': 5.46}
 23%|██▎       | 17857/78504 [10:51:01<50:51:05,  3.02s/it] 23%|██▎       | 17858/78504 [10:51:04<49:38:22,  2.95s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.2480347901582718, 'learning_rate': 2.5754320411022886e-05, 'epoch': 5.46}
 23%|██▎       | 17858/78504 [10:51:04<49:38:22,  2.95s/it] 23%|██▎       | 17859/78504 [10:51:06<47:55:35,  2.85s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.32724568247795105, 'learning_rate': 2.575389580060295e-05, 'epoch': 5.46}
 23%|██▎       | 17859/78504 [10:51:06<47:55:35,  2.85s/it] 23%|██▎       | 17860/78504 [10:51:09<46:00:06,  2.73s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.17984004318714142, 'learning_rate': 2.5753471190183007e-05, 'epoch': 5.46}
 23%|██▎       | 17860/78504 [10:51:09<46:00:06,  2.73s/it] 23%|██▎       | 17861/78504 [10:51:11<43:37:20,  2.59s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.18378418684005737, 'learning_rate': 2.575304657976307e-05, 'epoch': 5.46}
 23%|██▎       | 17861/78504 [10:51:11<43:37:20,  2.59s/it] 23%|██▎       | 17862/78504 [10:51:13<42:13:14,  2.51s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.22201569378376007, 'learning_rate': 2.5752621969343128e-05, 'epoch': 5.46}
 23%|██▎       | 17862/78504 [10:51:13<42:13:14,  2.51s/it] 23%|██▎       | 17863/78504 [10:51:16<40:08:11,  2.38s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.29437434673309326, 'learning_rate': 2.575219735892319e-05, 'epoch': 5.46}
 23%|██▎       | 17863/78504 [10:51:16<40:08:11,  2.38s/it] 23%|██▎       | 17864/78504 [10:51:18<39:05:17,  2.32s/it]                                                           {'loss': 0.056, 'grad_norm': 0.31922289729118347, 'learning_rate': 2.575177274850325e-05, 'epoch': 5.46}
 23%|██▎       | 17864/78504 [10:51:18<39:05:17,  2.32s/it] 23%|██▎       | 17865/78504 [10:51:20<38:10:05,  2.27s/it]                                                           {'loss': 0.084, 'grad_norm': 0.28558850288391113, 'learning_rate': 2.575134813808331e-05, 'epoch': 5.46}
 23%|██▎       | 17865/78504 [10:51:20<38:10:05,  2.27s/it] 23%|██▎       | 17866/78504 [10:51:22<36:56:16,  2.19s/it]                                                           {'loss': 0.0935, 'grad_norm': 0.8771422505378723, 'learning_rate': 2.575092352766337e-05, 'epoch': 5.46}
 23%|██▎       | 17866/78504 [10:51:22<36:56:16,  2.19s/it] 23%|██▎       | 17867/78504 [10:51:24<35:50:06,  2.13s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.39268532395362854, 'learning_rate': 2.5750498917243432e-05, 'epoch': 5.46}
 23%|██▎       | 17867/78504 [10:51:24<35:50:06,  2.13s/it] 23%|██▎       | 17868/78504 [10:51:26<34:30:46,  2.05s/it]                                                           {'loss': 0.1025, 'grad_norm': 0.27527761459350586, 'learning_rate': 2.575007430682349e-05, 'epoch': 5.46}
 23%|██▎       | 17868/78504 [10:51:26<34:30:46,  2.05s/it] 23%|██▎       | 17869/78504 [10:51:28<33:25:59,  1.98s/it]                                                           {'loss': 0.138, 'grad_norm': 0.9179679751396179, 'learning_rate': 2.574964969640355e-05, 'epoch': 5.46}
 23%|██▎       | 17869/78504 [10:51:28<33:25:59,  1.98s/it] 23%|██▎       | 17870/78504 [10:51:29<32:19:19,  1.92s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.4506025016307831, 'learning_rate': 2.574922508598361e-05, 'epoch': 5.46}
 23%|██▎       | 17870/78504 [10:51:29<32:19:19,  1.92s/it] 23%|██▎       | 17871/78504 [10:51:31<30:57:45,  1.84s/it]                                                           {'loss': 0.1535, 'grad_norm': 0.7292141318321228, 'learning_rate': 2.574880047556367e-05, 'epoch': 5.46}
 23%|██▎       | 17871/78504 [10:51:31<30:57:45,  1.84s/it] 23%|██▎       | 17872/78504 [10:51:33<29:27:27,  1.75s/it]                                                           {'loss': 0.1458, 'grad_norm': 0.4963727295398712, 'learning_rate': 2.5748375865143732e-05, 'epoch': 5.46}
 23%|██▎       | 17872/78504 [10:51:33<29:27:27,  1.75s/it] 23%|██▎       | 17873/78504 [10:51:34<28:00:59,  1.66s/it]                                                           {'loss': 0.1318, 'grad_norm': 0.7824214696884155, 'learning_rate': 2.574795125472379e-05, 'epoch': 5.46}
 23%|██▎       | 17873/78504 [10:51:34<28:00:59,  1.66s/it] 23%|██▎       | 17874/78504 [10:51:35<26:39:28,  1.58s/it]                                                           {'loss': 0.1484, 'grad_norm': 0.8217960000038147, 'learning_rate': 2.5747526644303853e-05, 'epoch': 5.46}
 23%|██▎       | 17874/78504 [10:51:35<26:39:28,  1.58s/it] 23%|██▎       | 17875/78504 [10:51:37<25:08:58,  1.49s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.5186364650726318, 'learning_rate': 2.574710203388391e-05, 'epoch': 5.46}
 23%|██▎       | 17875/78504 [10:51:37<25:08:58,  1.49s/it] 23%|██▎       | 17876/78504 [10:51:38<23:25:36,  1.39s/it]                                                           {'loss': 0.1828, 'grad_norm': 0.6725145578384399, 'learning_rate': 2.5746677423463974e-05, 'epoch': 5.46}
 23%|██▎       | 17876/78504 [10:51:38<23:25:36,  1.39s/it] 23%|██▎       | 17877/78504 [10:51:39<21:51:13,  1.30s/it]                                                           {'loss': 0.1939, 'grad_norm': 0.5884656310081482, 'learning_rate': 2.5746252813044032e-05, 'epoch': 5.47}
 23%|██▎       | 17877/78504 [10:51:39<21:51:13,  1.30s/it] 23%|██▎       | 17878/78504 [10:51:40<20:34:03,  1.22s/it]                                                           {'loss': 0.21, 'grad_norm': 1.1644023656845093, 'learning_rate': 2.5745828202624094e-05, 'epoch': 5.47}
 23%|██▎       | 17878/78504 [10:51:40<20:34:03,  1.22s/it] 23%|██▎       | 17879/78504 [10:51:41<19:03:49,  1.13s/it]                                                           {'loss': 0.1667, 'grad_norm': 1.3123244047164917, 'learning_rate': 2.5745403592204153e-05, 'epoch': 5.47}
 23%|██▎       | 17879/78504 [10:51:41<19:03:49,  1.13s/it] 23%|██▎       | 17880/78504 [10:51:42<17:18:45,  1.03s/it]                                                           {'loss': 0.2146, 'grad_norm': 3.2687807083129883, 'learning_rate': 2.5744978981784215e-05, 'epoch': 5.47}
 23%|██▎       | 17880/78504 [10:51:42<17:18:45,  1.03s/it] 23%|██▎       | 17881/78504 [10:51:49<49:06:06,  2.92s/it]                                                           {'loss': 0.128, 'grad_norm': 0.6401085257530212, 'learning_rate': 2.5744554371364274e-05, 'epoch': 5.47}
 23%|██▎       | 17881/78504 [10:51:49<49:06:06,  2.92s/it] 23%|██▎       | 17882/78504 [10:51:52<50:05:37,  2.97s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.21842451393604279, 'learning_rate': 2.5744129760944333e-05, 'epoch': 5.47}
 23%|██▎       | 17882/78504 [10:51:52<50:05:37,  2.97s/it] 23%|██▎       | 17883/78504 [10:51:55<50:07:34,  2.98s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.5760063529014587, 'learning_rate': 2.5743705150524395e-05, 'epoch': 5.47}
 23%|██▎       | 17883/78504 [10:51:55<50:07:34,  2.98s/it] 23%|██▎       | 17884/78504 [10:51:58<48:15:49,  2.87s/it]                                                           {'loss': 0.0706, 'grad_norm': 0.25595325231552124, 'learning_rate': 2.5743280540104453e-05, 'epoch': 5.47}
 23%|██▎       | 17884/78504 [10:51:58<48:15:49,  2.87s/it] 23%|██▎       | 17885/78504 [10:52:00<45:40:30,  2.71s/it]                                                           {'loss': 0.0472, 'grad_norm': 0.2537398934364319, 'learning_rate': 2.5742855929684515e-05, 'epoch': 5.47}
 23%|██▎       | 17885/78504 [10:52:00<45:40:30,  2.71s/it] 23%|██▎       | 17886/78504 [10:52:02<43:21:36,  2.58s/it]                                                           {'loss': 0.062, 'grad_norm': 0.2519209086894989, 'learning_rate': 2.5742431319264574e-05, 'epoch': 5.47}
 23%|██▎       | 17886/78504 [10:52:02<43:21:36,  2.58s/it] 23%|██▎       | 17887/78504 [10:52:05<42:03:30,  2.50s/it]                                                           {'loss': 0.0568, 'grad_norm': 0.3385803997516632, 'learning_rate': 2.5742006708844636e-05, 'epoch': 5.47}
 23%|██▎       | 17887/78504 [10:52:05<42:03:30,  2.50s/it] 23%|██▎       | 17888/78504 [10:52:07<40:05:07,  2.38s/it]                                                           {'loss': 0.0562, 'grad_norm': 1.4112073183059692, 'learning_rate': 2.5741582098424695e-05, 'epoch': 5.47}
 23%|██▎       | 17888/78504 [10:52:07<40:05:07,  2.38s/it] 23%|██▎       | 17889/78504 [10:52:09<39:04:39,  2.32s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.4135737419128418, 'learning_rate': 2.5741157488004757e-05, 'epoch': 5.47}
 23%|██▎       | 17889/78504 [10:52:09<39:04:39,  2.32s/it] 23%|██▎       | 17890/78504 [10:52:11<38:16:35,  2.27s/it]                                                           {'loss': 0.056, 'grad_norm': 0.294258713722229, 'learning_rate': 2.5740732877584816e-05, 'epoch': 5.47}
 23%|██▎       | 17890/78504 [10:52:11<38:16:35,  2.27s/it] 23%|██▎       | 17891/78504 [10:52:13<36:07:38,  2.15s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.23282390832901, 'learning_rate': 2.5740308267164878e-05, 'epoch': 5.47}
 23%|██▎       | 17891/78504 [10:52:13<36:07:38,  2.15s/it] 23%|██▎       | 17892/78504 [10:52:15<35:18:45,  2.10s/it]                                                           {'loss': 0.0742, 'grad_norm': 0.4785754084587097, 'learning_rate': 2.5739883656744937e-05, 'epoch': 5.47}
 23%|██▎       | 17892/78504 [10:52:15<35:18:45,  2.10s/it] 23%|██▎       | 17893/78504 [10:52:17<34:24:20,  2.04s/it]                                                           {'loss': 0.092, 'grad_norm': 0.4704841077327728, 'learning_rate': 2.5739459046325e-05, 'epoch': 5.47}
 23%|██▎       | 17893/78504 [10:52:17<34:24:20,  2.04s/it] 23%|██▎       | 17894/78504 [10:52:19<33:18:01,  1.98s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.7514201998710632, 'learning_rate': 2.5739034435905057e-05, 'epoch': 5.47}
 23%|██▎       | 17894/78504 [10:52:19<33:18:01,  1.98s/it] 23%|██▎       | 17895/78504 [10:52:20<32:14:38,  1.92s/it]                                                           {'loss': 0.1639, 'grad_norm': 0.6733801364898682, 'learning_rate': 2.5738609825485116e-05, 'epoch': 5.47}
 23%|██▎       | 17895/78504 [10:52:20<32:14:38,  1.92s/it] 23%|██▎       | 17896/78504 [10:52:22<30:31:50,  1.81s/it]                                                           {'loss': 0.1339, 'grad_norm': 0.3422427475452423, 'learning_rate': 2.5738185215065178e-05, 'epoch': 5.47}
 23%|██▎       | 17896/78504 [10:52:22<30:31:50,  1.81s/it] 23%|██▎       | 17897/78504 [10:52:24<29:05:58,  1.73s/it]                                                           {'loss': 0.1327, 'grad_norm': 0.32212039828300476, 'learning_rate': 2.5737760604645237e-05, 'epoch': 5.47}
 23%|██▎       | 17897/78504 [10:52:24<29:05:58,  1.73s/it] 23%|██▎       | 17898/78504 [10:52:25<27:46:19,  1.65s/it]                                                           {'loss': 0.1536, 'grad_norm': 1.3130426406860352, 'learning_rate': 2.57373359942253e-05, 'epoch': 5.47}
 23%|██▎       | 17898/78504 [10:52:25<27:46:19,  1.65s/it] 23%|██▎       | 17899/78504 [10:52:26<26:35:42,  1.58s/it]                                                           {'loss': 0.1994, 'grad_norm': 1.2300153970718384, 'learning_rate': 2.5736911383805358e-05, 'epoch': 5.47}
 23%|██▎       | 17899/78504 [10:52:26<26:35:42,  1.58s/it] 23%|██▎       | 17900/78504 [10:52:28<25:08:56,  1.49s/it]                                                           {'loss': 0.1775, 'grad_norm': 0.5897002816200256, 'learning_rate': 2.573648677338542e-05, 'epoch': 5.47}
 23%|██▎       | 17900/78504 [10:52:28<25:08:56,  1.49s/it] 23%|██▎       | 17901/78504 [10:52:29<23:24:17,  1.39s/it]                                                           {'loss': 0.1948, 'grad_norm': 1.2561157941818237, 'learning_rate': 2.573606216296548e-05, 'epoch': 5.47}
 23%|██▎       | 17901/78504 [10:52:29<23:24:17,  1.39s/it] 23%|██▎       | 17902/78504 [10:52:30<21:54:08,  1.30s/it]                                                           {'loss': 0.1803, 'grad_norm': 0.685992419719696, 'learning_rate': 2.573563755254554e-05, 'epoch': 5.47}
 23%|██▎       | 17902/78504 [10:52:30<21:54:08,  1.30s/it] 23%|██▎       | 17903/78504 [10:52:31<20:19:01,  1.21s/it]                                                           {'loss': 0.218, 'grad_norm': 1.315086007118225, 'learning_rate': 2.57352129421256e-05, 'epoch': 5.47}
 23%|██▎       | 17903/78504 [10:52:31<20:19:01,  1.21s/it] 23%|██▎       | 17904/78504 [10:52:32<18:56:10,  1.12s/it]                                                           {'loss': 0.1717, 'grad_norm': 0.8976170420646667, 'learning_rate': 2.573478833170566e-05, 'epoch': 5.47}
 23%|██▎       | 17904/78504 [10:52:32<18:56:10,  1.12s/it] 23%|██▎       | 17905/78504 [10:52:33<17:11:49,  1.02s/it]                                                           {'loss': 0.2844, 'grad_norm': 0.9299706220626831, 'learning_rate': 2.573436372128572e-05, 'epoch': 5.47}
 23%|██▎       | 17905/78504 [10:52:33<17:11:49,  1.02s/it] 23%|██▎       | 17906/78504 [10:52:41<52:33:24,  3.12s/it]                                                           {'loss': 0.1513, 'grad_norm': 0.4857066869735718, 'learning_rate': 2.5733939110865782e-05, 'epoch': 5.47}
 23%|██▎       | 17906/78504 [10:52:41<52:33:24,  3.12s/it] 23%|██▎       | 17907/78504 [10:52:44<52:24:13,  3.11s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.3851558566093445, 'learning_rate': 2.573351450044584e-05, 'epoch': 5.47}
 23%|██▎       | 17907/78504 [10:52:44<52:24:13,  3.11s/it] 23%|██▎       | 17908/78504 [10:52:46<49:37:31,  2.95s/it]                                                           {'loss': 0.0716, 'grad_norm': 0.41809648275375366, 'learning_rate': 2.57330898900259e-05, 'epoch': 5.47}
 23%|██▎       | 17908/78504 [10:52:46<49:37:31,  2.95s/it] 23%|██▎       | 17909/78504 [10:52:49<47:57:00,  2.85s/it]                                                           {'loss': 0.0507, 'grad_norm': 0.1671319603919983, 'learning_rate': 2.573266527960596e-05, 'epoch': 5.48}
 23%|██▎       | 17909/78504 [10:52:49<47:57:00,  2.85s/it] 23%|██▎       | 17910/78504 [10:52:51<46:00:39,  2.73s/it]                                                           {'loss': 0.0718, 'grad_norm': 0.4472218155860901, 'learning_rate': 2.573224066918602e-05, 'epoch': 5.48}
 23%|██▎       | 17910/78504 [10:52:51<46:00:39,  2.73s/it] 23%|██▎       | 17911/78504 [10:52:54<43:38:39,  2.59s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.2999393343925476, 'learning_rate': 2.5731816058766082e-05, 'epoch': 5.48}
 23%|██▎       | 17911/78504 [10:52:54<43:38:39,  2.59s/it] 23%|██▎       | 17912/78504 [10:52:56<42:13:54,  2.51s/it]                                                           {'loss': 0.047, 'grad_norm': 0.19108489155769348, 'learning_rate': 2.573139144834614e-05, 'epoch': 5.48}
 23%|██▎       | 17912/78504 [10:52:56<42:13:54,  2.51s/it] 23%|██▎       | 17913/78504 [10:52:58<40:13:25,  2.39s/it]                                                           {'loss': 0.0768, 'grad_norm': 0.5545867681503296, 'learning_rate': 2.5730966837926203e-05, 'epoch': 5.48}
 23%|██▎       | 17913/78504 [10:52:58<40:13:25,  2.39s/it] 23%|██▎       | 17914/78504 [10:53:00<39:11:24,  2.33s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.2680521607398987, 'learning_rate': 2.5730542227506262e-05, 'epoch': 5.48}
 23%|██▎       | 17914/78504 [10:53:00<39:11:24,  2.33s/it] 23%|██▎       | 17915/78504 [10:53:02<38:12:14,  2.27s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.3152911365032196, 'learning_rate': 2.5730117617086324e-05, 'epoch': 5.48}
 23%|██▎       | 17915/78504 [10:53:02<38:12:14,  2.27s/it] 23%|██▎       | 17916/78504 [10:53:04<36:57:44,  2.20s/it]                                                           {'loss': 0.0943, 'grad_norm': 0.3449380695819855, 'learning_rate': 2.5729693006666383e-05, 'epoch': 5.48}
 23%|██▎       | 17916/78504 [10:53:04<36:57:44,  2.20s/it] 23%|██▎       | 17917/78504 [10:53:06<35:52:25,  2.13s/it]                                                           {'loss': 0.0852, 'grad_norm': 0.2861163020133972, 'learning_rate': 2.5729268396246445e-05, 'epoch': 5.48}
 23%|██▎       | 17917/78504 [10:53:06<35:52:25,  2.13s/it] 23%|██▎       | 17918/78504 [10:53:08<34:30:53,  2.05s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.6900731921195984, 'learning_rate': 2.5728843785826503e-05, 'epoch': 5.48}
 23%|██▎       | 17918/78504 [10:53:08<34:30:53,  2.05s/it] 23%|██▎       | 17919/78504 [10:53:10<33:24:47,  1.99s/it]                                                           {'loss': 0.1462, 'grad_norm': 0.6244825124740601, 'learning_rate': 2.5728419175406565e-05, 'epoch': 5.48}
 23%|██▎       | 17919/78504 [10:53:10<33:24:47,  1.99s/it] 23%|██▎       | 17920/78504 [10:53:12<32:09:48,  1.91s/it]                                                           {'loss': 0.0928, 'grad_norm': 0.30325794219970703, 'learning_rate': 2.5727994564986624e-05, 'epoch': 5.48}
 23%|██▎       | 17920/78504 [10:53:12<32:09:48,  1.91s/it] 23%|██▎       | 17921/78504 [10:53:13<30:47:34,  1.83s/it]                                                           {'loss': 0.1388, 'grad_norm': 0.3862561881542206, 'learning_rate': 2.5727569954566683e-05, 'epoch': 5.48}
 23%|██▎       | 17921/78504 [10:53:13<30:47:34,  1.83s/it] 23%|██▎       | 17922/78504 [10:53:15<29:21:17,  1.74s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.43946072459220886, 'learning_rate': 2.5727145344146745e-05, 'epoch': 5.48}
 23%|██▎       | 17922/78504 [10:53:15<29:21:17,  1.74s/it] 23%|██▎       | 17923/78504 [10:53:16<27:58:28,  1.66s/it]                                                           {'loss': 0.1705, 'grad_norm': 0.860380232334137, 'learning_rate': 2.5726720733726804e-05, 'epoch': 5.48}
 23%|██▎       | 17923/78504 [10:53:17<27:58:28,  1.66s/it] 23%|██▎       | 17924/78504 [10:53:18<26:42:27,  1.59s/it]                                                           {'loss': 0.152, 'grad_norm': 0.8287355303764343, 'learning_rate': 2.5726296123306866e-05, 'epoch': 5.48}
 23%|██▎       | 17924/78504 [10:53:18<26:42:27,  1.59s/it] 23%|██▎       | 17925/78504 [10:53:19<25:09:33,  1.50s/it]                                                           {'loss': 0.1848, 'grad_norm': 1.619492530822754, 'learning_rate': 2.5725871512886924e-05, 'epoch': 5.48}
 23%|██▎       | 17925/78504 [10:53:19<25:09:33,  1.50s/it] 23%|██▎       | 17926/78504 [10:53:20<23:26:11,  1.39s/it]                                                           {'loss': 0.1667, 'grad_norm': 2.8244659900665283, 'learning_rate': 2.5725446902466987e-05, 'epoch': 5.48}
 23%|██▎       | 17926/78504 [10:53:20<23:26:11,  1.39s/it] 23%|██▎       | 17927/78504 [10:53:21<21:59:19,  1.31s/it]                                                           {'loss': 0.1675, 'grad_norm': 1.565324306488037, 'learning_rate': 2.5725022292047045e-05, 'epoch': 5.48}
 23%|██▎       | 17927/78504 [10:53:21<21:59:19,  1.31s/it] 23%|██▎       | 17928/78504 [10:53:22<20:26:54,  1.22s/it]                                                           {'loss': 0.1706, 'grad_norm': 0.7465373873710632, 'learning_rate': 2.5724597681627107e-05, 'epoch': 5.48}
 23%|██▎       | 17928/78504 [10:53:22<20:26:54,  1.22s/it] 23%|██▎       | 17929/78504 [10:53:23<18:57:23,  1.13s/it]                                                           {'loss': 0.1895, 'grad_norm': 0.8872531652450562, 'learning_rate': 2.5724173071207166e-05, 'epoch': 5.48}
 23%|██▎       | 17929/78504 [10:53:23<18:57:23,  1.13s/it] 23%|██▎       | 17930/78504 [10:53:24<17:11:16,  1.02s/it]                                                           {'loss': 0.2419, 'grad_norm': 1.728035569190979, 'learning_rate': 2.5723748460787228e-05, 'epoch': 5.48}
 23%|██▎       | 17930/78504 [10:53:24<17:11:16,  1.02s/it] 23%|██▎       | 17931/78504 [10:53:32<51:34:52,  3.07s/it]                                                           {'loss': 0.1437, 'grad_norm': 1.3466180562973022, 'learning_rate': 2.572332385036729e-05, 'epoch': 5.48}
 23%|██▎       | 17931/78504 [10:53:32<51:34:52,  3.07s/it] 23%|██▎       | 17932/78504 [10:53:35<51:49:37,  3.08s/it]                                                           {'loss': 0.0889, 'grad_norm': 0.9332375526428223, 'learning_rate': 2.5722899239947352e-05, 'epoch': 5.48}
 23%|██▎       | 17932/78504 [10:53:35<51:49:37,  3.08s/it] 23%|██▎       | 17933/78504 [10:53:38<51:20:42,  3.05s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.25682690739631653, 'learning_rate': 2.572247462952741e-05, 'epoch': 5.48}
 23%|██▎       | 17933/78504 [10:53:38<51:20:42,  3.05s/it] 23%|██▎       | 17934/78504 [10:53:41<48:59:39,  2.91s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.33719635009765625, 'learning_rate': 2.572205001910747e-05, 'epoch': 5.48}
 23%|██▎       | 17934/78504 [10:53:41<48:59:39,  2.91s/it] 23%|██▎       | 17935/78504 [10:53:43<46:52:09,  2.79s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.285445898771286, 'learning_rate': 2.5721625408687532e-05, 'epoch': 5.48}
 23%|██▎       | 17935/78504 [10:53:43<46:52:09,  2.79s/it] 23%|██▎       | 17936/78504 [10:53:45<44:13:07,  2.63s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.21773262321949005, 'learning_rate': 2.572120079826759e-05, 'epoch': 5.48}
 23%|██▎       | 17936/78504 [10:53:45<44:13:07,  2.63s/it] 23%|██▎       | 17937/78504 [10:53:48<42:37:56,  2.53s/it]                                                           {'loss': 0.0381, 'grad_norm': 1.9207193851470947, 'learning_rate': 2.5720776187847653e-05, 'epoch': 5.48}
 23%|██▎       | 17937/78504 [10:53:48<42:37:56,  2.53s/it] 23%|██▎       | 17938/78504 [10:53:50<40:25:57,  2.40s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.3880285322666168, 'learning_rate': 2.572035157742771e-05, 'epoch': 5.48}
 23%|██▎       | 17938/78504 [10:53:50<40:25:57,  2.40s/it] 23%|██▎       | 17939/78504 [10:53:52<39:18:03,  2.34s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.3643975555896759, 'learning_rate': 2.5719926967007773e-05, 'epoch': 5.48}
 23%|██▎       | 17939/78504 [10:53:52<39:18:03,  2.34s/it] 23%|██▎       | 17940/78504 [10:53:54<38:19:20,  2.28s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.2682657241821289, 'learning_rate': 2.5719502356587832e-05, 'epoch': 5.48}
 23%|██▎       | 17940/78504 [10:53:54<38:19:20,  2.28s/it] 23%|██▎       | 17941/78504 [10:53:56<37:03:36,  2.20s/it]                                                           {'loss': 0.0927, 'grad_norm': 0.5408663749694824, 'learning_rate': 2.5719077746167894e-05, 'epoch': 5.48}
 23%|██▎       | 17941/78504 [10:53:56<37:03:36,  2.20s/it] 23%|██▎       | 17942/78504 [10:53:58<35:54:15,  2.13s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.2938993275165558, 'learning_rate': 2.5718653135747953e-05, 'epoch': 5.49}
 23%|██▎       | 17942/78504 [10:53:58<35:54:15,  2.13s/it] 23%|██▎       | 17943/78504 [10:54:00<34:34:19,  2.06s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.3331314027309418, 'learning_rate': 2.5718228525328015e-05, 'epoch': 5.49}
 23%|██▎       | 17943/78504 [10:54:00<34:34:19,  2.06s/it] 23%|██▎       | 17944/78504 [10:54:02<33:28:07,  1.99s/it]                                                           {'loss': 0.117, 'grad_norm': 0.4607211947441101, 'learning_rate': 2.5717803914908074e-05, 'epoch': 5.49}
 23%|██▎       | 17944/78504 [10:54:02<33:28:07,  1.99s/it] 23%|██▎       | 17945/78504 [10:54:04<31:48:19,  1.89s/it]                                                           {'loss': 0.1705, 'grad_norm': 0.6406403183937073, 'learning_rate': 2.5717379304488132e-05, 'epoch': 5.49}
 23%|██▎       | 17945/78504 [10:54:04<31:48:19,  1.89s/it] 23%|██▎       | 17946/78504 [10:54:05<30:33:48,  1.82s/it]                                                           {'loss': 0.135, 'grad_norm': 1.08026123046875, 'learning_rate': 2.5716954694068194e-05, 'epoch': 5.49}
 23%|██▎       | 17946/78504 [10:54:05<30:33:48,  1.82s/it] 23%|██▎       | 17947/78504 [10:54:07<29:05:59,  1.73s/it]                                                           {'loss': 0.1407, 'grad_norm': 1.0211955308914185, 'learning_rate': 2.5716530083648253e-05, 'epoch': 5.49}
 23%|██▎       | 17947/78504 [10:54:07<29:05:59,  1.73s/it] 23%|██▎       | 17948/78504 [10:54:08<27:34:51,  1.64s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.4607406258583069, 'learning_rate': 2.5716105473228315e-05, 'epoch': 5.49}
 23%|██▎       | 17948/78504 [10:54:08<27:34:51,  1.64s/it] 23%|██▎       | 17949/78504 [10:54:10<26:25:44,  1.57s/it]                                                           {'loss': 0.1468, 'grad_norm': 1.9993420839309692, 'learning_rate': 2.5715680862808374e-05, 'epoch': 5.49}
 23%|██▎       | 17949/78504 [10:54:10<26:25:44,  1.57s/it] 23%|██▎       | 17950/78504 [10:54:11<24:57:12,  1.48s/it]                                                           {'loss': 0.1657, 'grad_norm': 1.4075638055801392, 'learning_rate': 2.5715256252388436e-05, 'epoch': 5.49}
 23%|██▎       | 17950/78504 [10:54:11<24:57:12,  1.48s/it] 23%|██▎       | 17951/78504 [10:54:12<23:15:38,  1.38s/it]                                                           {'loss': 0.154, 'grad_norm': 0.6828092932701111, 'learning_rate': 2.5714831641968495e-05, 'epoch': 5.49}
 23%|██▎       | 17951/78504 [10:54:12<23:15:38,  1.38s/it] 23%|██▎       | 17952/78504 [10:54:13<21:47:55,  1.30s/it]                                                           {'loss': 0.1767, 'grad_norm': 0.9647865295410156, 'learning_rate': 2.5714407031548557e-05, 'epoch': 5.49}
 23%|██▎       | 17952/78504 [10:54:13<21:47:55,  1.30s/it] 23%|██▎       | 17953/78504 [10:54:14<20:14:32,  1.20s/it]                                                           {'loss': 0.1541, 'grad_norm': 1.5772550106048584, 'learning_rate': 2.5713982421128615e-05, 'epoch': 5.49}
 23%|██▎       | 17953/78504 [10:54:14<20:14:32,  1.20s/it] 23%|██▎       | 17954/78504 [10:54:15<18:57:31,  1.13s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.7171614170074463, 'learning_rate': 2.5713557810708678e-05, 'epoch': 5.49}
 23%|██▎       | 17954/78504 [10:54:15<18:57:31,  1.13s/it] 23%|██▎       | 17955/78504 [10:54:16<17:14:52,  1.03s/it]                                                           {'loss': 0.2915, 'grad_norm': 15.90996265411377, 'learning_rate': 2.5713133200288736e-05, 'epoch': 5.49}
 23%|██▎       | 17955/78504 [10:54:16<17:14:52,  1.03s/it] 23%|██▎       | 17956/78504 [10:54:23<47:31:36,  2.83s/it]                                                           {'loss': 0.1281, 'grad_norm': 0.2997455894947052, 'learning_rate': 2.57127085898688e-05, 'epoch': 5.49}
 23%|██▎       | 17956/78504 [10:54:23<47:31:36,  2.83s/it] 23%|██▎       | 17957/78504 [10:54:26<50:13:30,  2.99s/it]                                                           {'loss': 0.0753, 'grad_norm': 0.17056308686733246, 'learning_rate': 2.5712283979448857e-05, 'epoch': 5.49}
 23%|██▎       | 17957/78504 [10:54:26<50:13:30,  2.99s/it] 23%|██▎       | 17958/78504 [10:54:29<48:06:35,  2.86s/it]                                                           {'loss': 0.0725, 'grad_norm': 0.4078495502471924, 'learning_rate': 2.5711859369028916e-05, 'epoch': 5.49}
 23%|██▎       | 17958/78504 [10:54:29<48:06:35,  2.86s/it] 23%|██▎       | 17959/78504 [10:54:31<46:50:51,  2.79s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.1958223134279251, 'learning_rate': 2.5711434758608978e-05, 'epoch': 5.49}
 23%|██▎       | 17959/78504 [10:54:31<46:50:51,  2.79s/it] 23%|██▎       | 17960/78504 [10:54:34<45:15:32,  2.69s/it]                                                           {'loss': 0.0443, 'grad_norm': 0.1767519861459732, 'learning_rate': 2.5711010148189037e-05, 'epoch': 5.49}
 23%|██▎       | 17960/78504 [10:54:34<45:15:32,  2.69s/it] 23%|██▎       | 17961/78504 [10:54:36<43:05:54,  2.56s/it]                                                           {'loss': 0.0398, 'grad_norm': 0.15656016767024994, 'learning_rate': 2.57105855377691e-05, 'epoch': 5.49}
 23%|██▎       | 17961/78504 [10:54:36<43:05:54,  2.56s/it] 23%|██▎       | 17962/78504 [10:54:38<41:51:56,  2.49s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.6143420338630676, 'learning_rate': 2.5710160927349157e-05, 'epoch': 5.49}
 23%|██▎       | 17962/78504 [10:54:38<41:51:56,  2.49s/it] 23%|██▎       | 17963/78504 [10:54:41<39:57:51,  2.38s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.48772621154785156, 'learning_rate': 2.570973631692922e-05, 'epoch': 5.49}
 23%|██▎       | 17963/78504 [10:54:41<39:57:51,  2.38s/it] 23%|██▎       | 17964/78504 [10:54:43<38:58:26,  2.32s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.701438307762146, 'learning_rate': 2.5709311706509278e-05, 'epoch': 5.49}
 23%|██▎       | 17964/78504 [10:54:43<38:58:26,  2.32s/it] 23%|██▎       | 17965/78504 [10:54:45<38:12:02,  2.27s/it]                                                           {'loss': 0.064, 'grad_norm': 0.23345650732517242, 'learning_rate': 2.570888709608934e-05, 'epoch': 5.49}
 23%|██▎       | 17965/78504 [10:54:45<38:12:02,  2.27s/it] 23%|██▎       | 17966/78504 [10:54:47<36:56:56,  2.20s/it]                                                           {'loss': 0.0864, 'grad_norm': 0.25750914216041565, 'learning_rate': 2.57084624856694e-05, 'epoch': 5.49}
 23%|██▎       | 17966/78504 [10:54:47<36:56:56,  2.20s/it] 23%|██▎       | 17967/78504 [10:54:49<35:53:48,  2.13s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.3201320469379425, 'learning_rate': 2.570803787524946e-05, 'epoch': 5.49}
 23%|██▎       | 17967/78504 [10:54:49<35:53:48,  2.13s/it] 23%|██▎       | 17968/78504 [10:54:51<34:40:47,  2.06s/it]                                                           {'loss': 0.0953, 'grad_norm': 1.2221693992614746, 'learning_rate': 2.570761326482952e-05, 'epoch': 5.49}
 23%|██▎       | 17968/78504 [10:54:51<34:40:47,  2.06s/it] 23%|██▎       | 17969/78504 [10:54:53<33:40:16,  2.00s/it]                                                           {'loss': 0.093, 'grad_norm': 0.36956122517585754, 'learning_rate': 2.5707188654409582e-05, 'epoch': 5.49}
 23%|██▎       | 17969/78504 [10:54:53<33:40:16,  2.00s/it] 23%|██▎       | 17970/78504 [10:54:54<32:28:43,  1.93s/it]                                                           {'loss': 0.1244, 'grad_norm': 0.9189037084579468, 'learning_rate': 2.570676404398964e-05, 'epoch': 5.49}
 23%|██▎       | 17970/78504 [10:54:54<32:28:43,  1.93s/it] 23%|██▎       | 17971/78504 [10:54:56<31:04:32,  1.85s/it]                                                           {'loss': 0.1179, 'grad_norm': 0.2695816159248352, 'learning_rate': 2.57063394335697e-05, 'epoch': 5.49}
 23%|██▎       | 17971/78504 [10:54:56<31:04:32,  1.85s/it] 23%|██▎       | 17972/78504 [10:54:58<29:29:30,  1.75s/it]                                                           {'loss': 0.1557, 'grad_norm': 1.001640796661377, 'learning_rate': 2.570591482314976e-05, 'epoch': 5.49}
 23%|██▎       | 17972/78504 [10:54:58<29:29:30,  1.75s/it] 23%|██▎       | 17973/78504 [10:54:59<28:05:01,  1.67s/it]                                                           {'loss': 0.1708, 'grad_norm': 1.3354674577713013, 'learning_rate': 2.570549021272982e-05, 'epoch': 5.49}
 23%|██▎       | 17973/78504 [10:54:59<28:05:01,  1.67s/it] 23%|██▎       | 17974/78504 [10:55:00<26:48:52,  1.59s/it]                                                           {'loss': 0.179, 'grad_norm': 0.6881787180900574, 'learning_rate': 2.5705065602309882e-05, 'epoch': 5.49}
 23%|██▎       | 17974/78504 [10:55:00<26:48:52,  1.59s/it] 23%|██▎       | 17975/78504 [10:55:02<25:13:54,  1.50s/it]                                                           {'loss': 0.1498, 'grad_norm': 2.2737510204315186, 'learning_rate': 2.570464099188994e-05, 'epoch': 5.5}
 23%|██▎       | 17975/78504 [10:55:02<25:13:54,  1.50s/it] 23%|██▎       | 17976/78504 [10:55:03<23:26:51,  1.39s/it]                                                           {'loss': 0.1822, 'grad_norm': 0.7350075840950012, 'learning_rate': 2.5704216381470003e-05, 'epoch': 5.5}
 23%|██▎       | 17976/78504 [10:55:03<23:26:51,  1.39s/it] 23%|██▎       | 17977/78504 [10:55:04<21:55:27,  1.30s/it]                                                           {'loss': 0.2028, 'grad_norm': 0.716929018497467, 'learning_rate': 2.570379177105006e-05, 'epoch': 5.5}
 23%|██▎       | 17977/78504 [10:55:04<21:55:27,  1.30s/it] 23%|██▎       | 17978/78504 [10:55:05<20:23:05,  1.21s/it]                                                           {'loss': 0.1735, 'grad_norm': 0.9242053627967834, 'learning_rate': 2.5703367160630124e-05, 'epoch': 5.5}
 23%|██▎       | 17978/78504 [10:55:05<20:23:05,  1.21s/it] 23%|██▎       | 17979/78504 [10:55:06<18:57:33,  1.13s/it]                                                           {'loss': 0.1761, 'grad_norm': 1.0835851430892944, 'learning_rate': 2.5702942550210182e-05, 'epoch': 5.5}
 23%|██▎       | 17979/78504 [10:55:06<18:57:33,  1.13s/it] 23%|██▎       | 17980/78504 [10:55:07<17:13:45,  1.02s/it]                                                           {'loss': 0.244, 'grad_norm': 7.688479900360107, 'learning_rate': 2.5702517939790244e-05, 'epoch': 5.5}
 23%|██▎       | 17980/78504 [10:55:07<17:13:45,  1.02s/it] 23%|██▎       | 17981/78504 [10:55:15<52:51:29,  3.14s/it]                                                           {'loss': 0.1309, 'grad_norm': 1.1996625661849976, 'learning_rate': 2.5702093329370303e-05, 'epoch': 5.5}
 23%|██▎       | 17981/78504 [10:55:15<52:51:29,  3.14s/it] 23%|██▎       | 17982/78504 [10:55:18<52:43:20,  3.14s/it]                                                           {'loss': 0.0848, 'grad_norm': 0.37689611315727234, 'learning_rate': 2.5701668718950365e-05, 'epoch': 5.5}
 23%|██▎       | 17982/78504 [10:55:18<52:43:20,  3.14s/it] 23%|██▎       | 17983/78504 [10:55:21<52:06:16,  3.10s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.47367623448371887, 'learning_rate': 2.5701244108530424e-05, 'epoch': 5.5}
 23%|██▎       | 17983/78504 [10:55:21<52:06:16,  3.10s/it] 23%|██▎       | 17984/78504 [10:55:24<49:32:24,  2.95s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.200336754322052, 'learning_rate': 2.5700819498110483e-05, 'epoch': 5.5}
 23%|██▎       | 17984/78504 [10:55:24<49:32:24,  2.95s/it] 23%|██▎       | 17985/78504 [10:55:26<47:06:48,  2.80s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.29526233673095703, 'learning_rate': 2.5700394887690545e-05, 'epoch': 5.5}
 23%|██▎       | 17985/78504 [10:55:26<47:06:48,  2.80s/it] 23%|██▎       | 17986/78504 [10:55:28<44:24:51,  2.64s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.23640300333499908, 'learning_rate': 2.5699970277270603e-05, 'epoch': 5.5}
 23%|██▎       | 17986/78504 [10:55:28<44:24:51,  2.64s/it] 23%|██▎       | 17987/78504 [10:55:31<42:50:09,  2.55s/it]                                                           {'loss': 0.0449, 'grad_norm': 0.24052345752716064, 'learning_rate': 2.5699545666850665e-05, 'epoch': 5.5}
 23%|██▎       | 17987/78504 [10:55:31<42:50:09,  2.55s/it] 23%|██▎       | 17988/78504 [10:55:33<40:30:59,  2.41s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.3726736903190613, 'learning_rate': 2.5699121056430724e-05, 'epoch': 5.5}
 23%|██▎       | 17988/78504 [10:55:33<40:30:59,  2.41s/it] 23%|██▎       | 17989/78504 [10:55:35<39:22:57,  2.34s/it]                                                           {'loss': 0.1038, 'grad_norm': 0.596839189529419, 'learning_rate': 2.5698696446010786e-05, 'epoch': 5.5}
 23%|██▎       | 17989/78504 [10:55:35<39:22:57,  2.34s/it] 23%|██▎       | 17990/78504 [10:55:37<38:20:15,  2.28s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.2804550230503082, 'learning_rate': 2.5698271835590845e-05, 'epoch': 5.5}
 23%|██▎       | 17990/78504 [10:55:37<38:20:15,  2.28s/it] 23%|██▎       | 17991/78504 [10:55:39<36:54:39,  2.20s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.8150602579116821, 'learning_rate': 2.5697847225170907e-05, 'epoch': 5.5}
 23%|██▎       | 17991/78504 [10:55:39<36:54:39,  2.20s/it] 23%|██▎       | 17992/78504 [10:55:41<34:55:49,  2.08s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.3968225419521332, 'learning_rate': 2.5697422614750966e-05, 'epoch': 5.5}
 23%|██▎       | 17992/78504 [10:55:41<34:55:49,  2.08s/it] 23%|██▎       | 17993/78504 [10:55:43<33:49:50,  2.01s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.543877899646759, 'learning_rate': 2.5696998004331028e-05, 'epoch': 5.5}
 23%|██▎       | 17993/78504 [10:55:43<33:49:50,  2.01s/it] 23%|██▎       | 17994/78504 [10:55:44<32:59:24,  1.96s/it]                                                           {'loss': 0.1374, 'grad_norm': 0.6455498337745667, 'learning_rate': 2.5696573393911087e-05, 'epoch': 5.5}
 23%|██▎       | 17994/78504 [10:55:45<32:59:24,  1.96s/it] 23%|██▎       | 17995/78504 [10:55:46<31:47:46,  1.89s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.42560887336730957, 'learning_rate': 2.569614878349115e-05, 'epoch': 5.5}
 23%|██▎       | 17995/78504 [10:55:46<31:47:46,  1.89s/it] 23%|██▎       | 17996/78504 [10:55:48<30:31:07,  1.82s/it]                                                           {'loss': 0.1152, 'grad_norm': 0.6599999070167542, 'learning_rate': 2.5695724173071207e-05, 'epoch': 5.5}
 23%|██▎       | 17996/78504 [10:55:48<30:31:07,  1.82s/it] 23%|██▎       | 17997/78504 [10:55:49<29:02:48,  1.73s/it]                                                           {'loss': 0.1608, 'grad_norm': 5.0673723220825195, 'learning_rate': 2.5695299562651266e-05, 'epoch': 5.5}
 23%|██▎       | 17997/78504 [10:55:49<29:02:48,  1.73s/it] 23%|██▎       | 17998/78504 [10:55:51<27:32:19,  1.64s/it]                                                           {'loss': 0.1648, 'grad_norm': 1.5063166618347168, 'learning_rate': 2.5694874952231328e-05, 'epoch': 5.5}
 23%|██▎       | 17998/78504 [10:55:51<27:32:19,  1.64s/it] 23%|██▎       | 17999/78504 [10:55:52<26:23:23,  1.57s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.5931892991065979, 'learning_rate': 2.5694450341811387e-05, 'epoch': 5.5}
 23%|██▎       | 17999/78504 [10:55:52<26:23:23,  1.57s/it] 23%|██▎       | 18000/78504 [10:55:53<24:35:37,  1.46s/it]                                                           {'loss': 0.1974, 'grad_norm': 2.8192436695098877, 'learning_rate': 2.569402573139145e-05, 'epoch': 5.5}
 23%|██▎       | 18000/78504 [10:55:53<24:35:37,  1.46s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.61it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.72it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.04it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.49it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.61it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.85it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.20it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.49it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.29it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                           
                                               [A{'eval_loss': 0.23962095379829407, 'eval_wer': 0.3332309153375604, 'eval_cer': 0.18989558443258814, 'eval_runtime': 18.9961, 'eval_samples_per_second': 238.892, 'eval_steps_per_second': 0.79, 'epoch': 5.5}
 23%|██▎       | 18000/78504 [10:56:58<24:35:37,  1.46s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-18000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-16000] due to args.save_total_limit
 23%|██▎       | 18001/78504 [10:57:14<422:05:02, 25.11s/it]                                                            {'loss': 0.1852, 'grad_norm': 0.6267180442810059, 'learning_rate': 2.5693601120971508e-05, 'epoch': 5.5}
 23%|██▎       | 18001/78504 [10:57:14<422:05:02, 25.11s/it] 23%|██▎       | 18002/78504 [10:57:15<300:52:05, 17.90s/it]                                                            {'loss': 0.1748, 'grad_norm': 0.8950520157814026, 'learning_rate': 2.569317651055157e-05, 'epoch': 5.5}
 23%|██▎       | 18002/78504 [10:57:15<300:52:05, 17.90s/it] 23%|██▎       | 18003/78504 [10:57:16<215:32:29, 12.83s/it]                                                            {'loss': 0.1935, 'grad_norm': 1.757005214691162, 'learning_rate': 2.569275190013163e-05, 'epoch': 5.5}
 23%|██▎       | 18003/78504 [10:57:16<215:32:29, 12.83s/it] 23%|██▎       | 18004/78504 [10:57:17<155:37:25,  9.26s/it]                                                            {'loss': 0.2222, 'grad_norm': 1.2944791316986084, 'learning_rate': 2.569232728971169e-05, 'epoch': 5.5}
 23%|██▎       | 18004/78504 [10:57:17<155:37:25,  9.26s/it] 23%|██▎       | 18005/78504 [10:57:18<112:52:45,  6.72s/it]                                                            {'loss': 0.2365, 'grad_norm': 1.018923282623291, 'learning_rate': 2.569190267929175e-05, 'epoch': 5.5}
 23%|██▎       | 18005/78504 [10:57:18<112:52:45,  6.72s/it] 23%|██▎       | 18006/78504 [10:57:27<127:52:50,  7.61s/it]                                                            {'loss': 0.139, 'grad_norm': 0.831725001335144, 'learning_rate': 2.569147806887181e-05, 'epoch': 5.5}
 23%|██▎       | 18006/78504 [10:57:27<127:52:50,  7.61s/it] 23%|██▎       | 18007/78504 [10:57:30<105:17:56,  6.27s/it]                                                            {'loss': 0.0684, 'grad_norm': 0.23841066658496857, 'learning_rate': 2.569105345845187e-05, 'epoch': 5.51}
 23%|██▎       | 18007/78504 [10:57:30<105:17:56,  6.27s/it] 23%|██▎       | 18008/78504 [10:57:33<88:49:56,  5.29s/it]                                                            {'loss': 0.0846, 'grad_norm': 0.2837525010108948, 'learning_rate': 2.5690628848031932e-05, 'epoch': 5.51}
 23%|██▎       | 18008/78504 [10:57:33<88:49:56,  5.29s/it] 23%|██▎       | 18009/78504 [10:57:36<75:13:11,  4.48s/it]                                                           {'loss': 0.0465, 'grad_norm': 0.15218950808048248, 'learning_rate': 2.569020423761199e-05, 'epoch': 5.51}
 23%|██▎       | 18009/78504 [10:57:36<75:13:11,  4.48s/it] 23%|██▎       | 18010/78504 [10:57:38<64:33:42,  3.84s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.22203975915908813, 'learning_rate': 2.568977962719205e-05, 'epoch': 5.51}
 23%|██▎       | 18010/78504 [10:57:38<64:33:42,  3.84s/it] 23%|██▎       | 18011/78504 [10:57:41<56:35:51,  3.37s/it]                                                           {'loss': 0.08, 'grad_norm': 0.38195931911468506, 'learning_rate': 2.568935501677211e-05, 'epoch': 5.51}
 23%|██▎       | 18011/78504 [10:57:41<56:35:51,  3.37s/it] 23%|██▎       | 18012/78504 [10:57:43<51:14:08,  3.05s/it]                                                           {'loss': 0.0509, 'grad_norm': 1.2909266948699951, 'learning_rate': 2.568893040635217e-05, 'epoch': 5.51}
 23%|██▎       | 18012/78504 [10:57:43<51:14:08,  3.05s/it] 23%|██▎       | 18013/78504 [10:57:45<46:23:32,  2.76s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.520631730556488, 'learning_rate': 2.5688505795932232e-05, 'epoch': 5.51}
 23%|██▎       | 18013/78504 [10:57:45<46:23:32,  2.76s/it] 23%|██▎       | 18014/78504 [10:57:47<43:28:50,  2.59s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.41378307342529297, 'learning_rate': 2.568808118551229e-05, 'epoch': 5.51}
 23%|██▎       | 18014/78504 [10:57:47<43:28:50,  2.59s/it] 23%|██▎       | 18015/78504 [10:57:49<41:10:54,  2.45s/it]                                                           {'loss': 0.077, 'grad_norm': 0.33442947268486023, 'learning_rate': 2.5687656575092353e-05, 'epoch': 5.51}
 23%|██▎       | 18015/78504 [10:57:49<41:10:54,  2.45s/it] 23%|██▎       | 18016/78504 [10:57:51<39:01:17,  2.32s/it]                                                           {'loss': 0.1072, 'grad_norm': 0.3143943250179291, 'learning_rate': 2.5687231964672412e-05, 'epoch': 5.51}
 23%|██▎       | 18016/78504 [10:57:51<39:01:17,  2.32s/it] 23%|██▎       | 18017/78504 [10:57:53<37:15:08,  2.22s/it]                                                           {'loss': 0.0659, 'grad_norm': 1.1245054006576538, 'learning_rate': 2.5686807354252474e-05, 'epoch': 5.51}
 23%|██▎       | 18017/78504 [10:57:53<37:15:08,  2.22s/it] 23%|██▎       | 18018/78504 [10:57:55<35:32:11,  2.12s/it]                                                           {'loss': 0.1176, 'grad_norm': 0.7692553400993347, 'learning_rate': 2.5686382743832533e-05, 'epoch': 5.51}
 23%|██▎       | 18018/78504 [10:57:55<35:32:11,  2.12s/it] 23%|██▎       | 18019/78504 [10:57:57<34:18:05,  2.04s/it]                                                           {'loss': 0.101, 'grad_norm': 2.027956962585449, 'learning_rate': 2.5685958133412595e-05, 'epoch': 5.51}
 23%|██▎       | 18019/78504 [10:57:57<34:18:05,  2.04s/it] 23%|██▎       | 18020/78504 [10:57:59<32:53:55,  1.96s/it]                                                           {'loss': 0.1103, 'grad_norm': 0.2993135452270508, 'learning_rate': 2.5685533522992653e-05, 'epoch': 5.51}
 23%|██▎       | 18020/78504 [10:57:59<32:53:55,  1.96s/it] 23%|██▎       | 18021/78504 [10:58:00<30:57:25,  1.84s/it]                                                           {'loss': 0.132, 'grad_norm': 0.6649914979934692, 'learning_rate': 2.5685108912572715e-05, 'epoch': 5.51}
 23%|██▎       | 18021/78504 [10:58:00<30:57:25,  1.84s/it] 23%|██▎       | 18022/78504 [10:58:02<29:27:27,  1.75s/it]                                                           {'loss': 0.1556, 'grad_norm': 1.448671817779541, 'learning_rate': 2.5684684302152774e-05, 'epoch': 5.51}
 23%|██▎       | 18022/78504 [10:58:02<29:27:27,  1.75s/it] 23%|██▎       | 18023/78504 [10:58:03<28:00:09,  1.67s/it]                                                           {'loss': 0.1351, 'grad_norm': 0.44917911291122437, 'learning_rate': 2.5684259691732833e-05, 'epoch': 5.51}
 23%|██▎       | 18023/78504 [10:58:03<28:00:09,  1.67s/it] 23%|██▎       | 18024/78504 [10:58:05<26:40:01,  1.59s/it]                                                           {'loss': 0.1399, 'grad_norm': 0.7281275987625122, 'learning_rate': 2.5683835081312895e-05, 'epoch': 5.51}
 23%|██▎       | 18024/78504 [10:58:05<26:40:01,  1.59s/it] 23%|██▎       | 18025/78504 [10:58:06<25:09:48,  1.50s/it]                                                           {'loss': 0.1423, 'grad_norm': 7.623199939727783, 'learning_rate': 2.5683410470892954e-05, 'epoch': 5.51}
 23%|██▎       | 18025/78504 [10:58:06<25:09:48,  1.50s/it] 23%|██▎       | 18026/78504 [10:58:07<23:40:18,  1.41s/it]                                                           {'loss': 0.2289, 'grad_norm': 0.9083811640739441, 'learning_rate': 2.5682985860473016e-05, 'epoch': 5.51}
 23%|██▎       | 18026/78504 [10:58:07<23:40:18,  1.41s/it] 23%|██▎       | 18027/78504 [10:58:08<21:59:23,  1.31s/it]                                                           {'loss': 0.1593, 'grad_norm': 0.5946227312088013, 'learning_rate': 2.5682561250053074e-05, 'epoch': 5.51}
 23%|██▎       | 18027/78504 [10:58:08<21:59:23,  1.31s/it] 23%|██▎       | 18028/78504 [10:58:09<20:40:20,  1.23s/it]                                                           {'loss': 0.186, 'grad_norm': 5.159407138824463, 'learning_rate': 2.5682136639633137e-05, 'epoch': 5.51}
 23%|██▎       | 18028/78504 [10:58:09<20:40:20,  1.23s/it] 23%|██▎       | 18029/78504 [10:58:10<19:06:05,  1.14s/it]                                                           {'loss': 0.1917, 'grad_norm': 1.0201890468597412, 'learning_rate': 2.5681712029213195e-05, 'epoch': 5.51}
 23%|██▎       | 18029/78504 [10:58:10<19:06:05,  1.14s/it] 23%|██▎       | 18030/78504 [10:58:11<17:19:57,  1.03s/it]                                                           {'loss': 0.2159, 'grad_norm': 2.83345365524292, 'learning_rate': 2.5681287418793257e-05, 'epoch': 5.51}
 23%|██▎       | 18030/78504 [10:58:11<17:19:57,  1.03s/it] 23%|██▎       | 18031/78504 [10:58:18<49:13:02,  2.93s/it]                                                           {'loss': 0.1249, 'grad_norm': 0.8982387781143188, 'learning_rate': 2.5680862808373316e-05, 'epoch': 5.51}
 23%|██▎       | 18031/78504 [10:58:18<49:13:02,  2.93s/it] 23%|██▎       | 18032/78504 [10:58:22<51:05:05,  3.04s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.20579230785369873, 'learning_rate': 2.5680438197953378e-05, 'epoch': 5.51}
 23%|██▎       | 18032/78504 [10:58:22<51:05:05,  3.04s/it] 23%|██▎       | 18033/78504 [10:58:24<49:25:53,  2.94s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.22487123310565948, 'learning_rate': 2.568001358753344e-05, 'epoch': 5.51}
 23%|██▎       | 18033/78504 [10:58:24<49:25:53,  2.94s/it] 23%|██▎       | 18034/78504 [10:58:27<47:35:06,  2.83s/it]                                                           {'loss': 0.0392, 'grad_norm': 1.0245338678359985, 'learning_rate': 2.5679588977113502e-05, 'epoch': 5.51}
 23%|██▎       | 18034/78504 [10:58:27<47:35:06,  2.83s/it] 23%|██▎       | 18035/78504 [10:58:29<45:10:34,  2.69s/it]                                                           {'loss': 0.062, 'grad_norm': 0.38566508889198303, 'learning_rate': 2.567916436669356e-05, 'epoch': 5.51}
 23%|██▎       | 18035/78504 [10:58:29<45:10:34,  2.69s/it] 23%|██▎       | 18036/78504 [10:58:32<43:00:06,  2.56s/it]                                                           {'loss': 0.0534, 'grad_norm': 0.2567332088947296, 'learning_rate': 2.567873975627362e-05, 'epoch': 5.51}
 23%|██▎       | 18036/78504 [10:58:32<43:00:06,  2.56s/it] 23%|██▎       | 18037/78504 [10:58:34<41:50:24,  2.49s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.18243053555488586, 'learning_rate': 2.5678315145853682e-05, 'epoch': 5.51}
 23%|██▎       | 18037/78504 [10:58:34<41:50:24,  2.49s/it] 23%|██▎       | 18038/78504 [10:58:36<39:48:32,  2.37s/it]                                                           {'loss': 0.0549, 'grad_norm': 0.24854175746440887, 'learning_rate': 2.567789053543374e-05, 'epoch': 5.51}
 23%|██▎       | 18038/78504 [10:58:36<39:48:32,  2.37s/it] 23%|██▎       | 18039/78504 [10:58:38<38:05:03,  2.27s/it]                                                           {'loss': 0.1048, 'grad_norm': 0.4536980986595154, 'learning_rate': 2.5677465925013803e-05, 'epoch': 5.51}
 23%|██▎       | 18039/78504 [10:58:38<38:05:03,  2.27s/it] 23%|██▎       | 18040/78504 [10:58:40<37:25:24,  2.23s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.25529298186302185, 'learning_rate': 2.567704131459386e-05, 'epoch': 5.52}
 23%|██▎       | 18040/78504 [10:58:40<37:25:24,  2.23s/it] 23%|██▎       | 18041/78504 [10:58:42<36:14:21,  2.16s/it]                                                           {'loss': 0.1117, 'grad_norm': 1.3842926025390625, 'learning_rate': 2.5676616704173923e-05, 'epoch': 5.52}
 23%|██▎       | 18041/78504 [10:58:42<36:14:21,  2.16s/it] 23%|██▎       | 18042/78504 [10:58:44<35:02:39,  2.09s/it]                                                           {'loss': 0.12, 'grad_norm': 0.6016749739646912, 'learning_rate': 2.5676192093753982e-05, 'epoch': 5.52}
 23%|██▎       | 18042/78504 [10:58:44<35:02:39,  2.09s/it] 23%|██▎       | 18043/78504 [10:58:46<34:03:51,  2.03s/it]                                                           {'loss': 0.076, 'grad_norm': 0.2978745400905609, 'learning_rate': 2.5675767483334044e-05, 'epoch': 5.52}
 23%|██▎       | 18043/78504 [10:58:46<34:03:51,  2.03s/it] 23%|██▎       | 18044/78504 [10:58:48<33:03:04,  1.97s/it]                                                           {'loss': 0.126, 'grad_norm': 0.3759467303752899, 'learning_rate': 2.5675342872914103e-05, 'epoch': 5.52}
 23%|██▎       | 18044/78504 [10:58:48<33:03:04,  1.97s/it] 23%|██▎       | 18045/78504 [10:58:50<31:59:42,  1.91s/it]                                                           {'loss': 0.1309, 'grad_norm': 1.0639989376068115, 'learning_rate': 2.5674918262494165e-05, 'epoch': 5.52}
 23%|██▎       | 18045/78504 [10:58:50<31:59:42,  1.91s/it] 23%|██▎       | 18046/78504 [10:58:51<30:11:20,  1.80s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.4187204837799072, 'learning_rate': 2.5674493652074224e-05, 'epoch': 5.52}
 23%|██▎       | 18046/78504 [10:58:51<30:11:20,  1.80s/it] 23%|██▎       | 18047/78504 [10:58:53<28:49:25,  1.72s/it]                                                           {'loss': 0.1514, 'grad_norm': 0.40534666180610657, 'learning_rate': 2.5674069041654286e-05, 'epoch': 5.52}
 23%|██▎       | 18047/78504 [10:58:53<28:49:25,  1.72s/it] 23%|██▎       | 18048/78504 [10:58:54<27:36:29,  1.64s/it]                                                           {'loss': 0.1564, 'grad_norm': 1.7538563013076782, 'learning_rate': 2.5673644431234344e-05, 'epoch': 5.52}
 23%|██▎       | 18048/78504 [10:58:54<27:36:29,  1.64s/it] 23%|██▎       | 18049/78504 [10:58:56<26:25:40,  1.57s/it]                                                           {'loss': 0.1404, 'grad_norm': 0.867701530456543, 'learning_rate': 2.5673219820814403e-05, 'epoch': 5.52}
 23%|██▎       | 18049/78504 [10:58:56<26:25:40,  1.57s/it] 23%|██▎       | 18050/78504 [10:58:57<24:40:25,  1.47s/it]                                                           {'loss': 0.1561, 'grad_norm': 1.5014516115188599, 'learning_rate': 2.5672795210394465e-05, 'epoch': 5.52}
 23%|██▎       | 18050/78504 [10:58:57<24:40:25,  1.47s/it] 23%|██▎       | 18051/78504 [10:58:58<22:58:17,  1.37s/it]                                                           {'loss': 0.1907, 'grad_norm': 0.8398255109786987, 'learning_rate': 2.5672370599974524e-05, 'epoch': 5.52}
 23%|██▎       | 18051/78504 [10:58:58<22:58:17,  1.37s/it] 23%|██▎       | 18052/78504 [10:58:59<21:36:34,  1.29s/it]                                                           {'loss': 0.1951, 'grad_norm': 0.6833816766738892, 'learning_rate': 2.5671945989554586e-05, 'epoch': 5.52}
 23%|██▎       | 18052/78504 [10:58:59<21:36:34,  1.29s/it] 23%|██▎       | 18053/78504 [10:59:00<20:06:23,  1.20s/it]                                                           {'loss': 0.1496, 'grad_norm': 0.609977662563324, 'learning_rate': 2.5671521379134645e-05, 'epoch': 5.52}
 23%|██▎       | 18053/78504 [10:59:00<20:06:23,  1.20s/it] 23%|██▎       | 18054/78504 [10:59:01<18:47:21,  1.12s/it]                                                           {'loss': 0.2006, 'grad_norm': 1.7919082641601562, 'learning_rate': 2.5671096768714707e-05, 'epoch': 5.52}
 23%|██▎       | 18054/78504 [10:59:01<18:47:21,  1.12s/it] 23%|██▎       | 18055/78504 [10:59:02<17:07:07,  1.02s/it]                                                           {'loss': 0.2466, 'grad_norm': 1.4415675401687622, 'learning_rate': 2.5670672158294765e-05, 'epoch': 5.52}
 23%|██▎       | 18055/78504 [10:59:02<17:07:07,  1.02s/it] 23%|██▎       | 18056/78504 [10:59:10<51:56:39,  3.09s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.34602227807044983, 'learning_rate': 2.5670247547874828e-05, 'epoch': 5.52}
 23%|██▎       | 18056/78504 [10:59:10<51:56:39,  3.09s/it] 23%|██▎       | 18057/78504 [10:59:13<52:02:19,  3.10s/it]                                                           {'loss': 0.0836, 'grad_norm': 0.23795053362846375, 'learning_rate': 2.5669822937454886e-05, 'epoch': 5.52}
 23%|██▎       | 18057/78504 [10:59:13<52:02:19,  3.10s/it] 23%|██▎       | 18058/78504 [10:59:16<51:37:51,  3.08s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.29530754685401917, 'learning_rate': 2.566939832703495e-05, 'epoch': 5.52}
 23%|██▎       | 18058/78504 [10:59:16<51:37:51,  3.08s/it] 23%|██▎       | 18059/78504 [10:59:18<49:17:52,  2.94s/it]                                                           {'loss': 0.051, 'grad_norm': 0.22950813174247742, 'learning_rate': 2.5668973716615007e-05, 'epoch': 5.52}
 23%|██▎       | 18059/78504 [10:59:18<49:17:52,  2.94s/it] 23%|██▎       | 18060/78504 [10:59:21<46:23:21,  2.76s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.6639609932899475, 'learning_rate': 2.566854910619507e-05, 'epoch': 5.52}
 23%|██▎       | 18060/78504 [10:59:21<46:23:21,  2.76s/it] 23%|██▎       | 18061/78504 [10:59:23<43:51:07,  2.61s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.22328715026378632, 'learning_rate': 2.5668124495775128e-05, 'epoch': 5.52}
 23%|██▎       | 18061/78504 [10:59:23<43:51:07,  2.61s/it] 23%|██▎       | 18062/78504 [10:59:25<42:21:58,  2.52s/it]                                                           {'loss': 0.0455, 'grad_norm': 0.5070368051528931, 'learning_rate': 2.5667699885355187e-05, 'epoch': 5.52}
 23%|██▎       | 18062/78504 [10:59:25<42:21:58,  2.52s/it] 23%|██▎       | 18063/78504 [10:59:27<40:09:27,  2.39s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.3414435088634491, 'learning_rate': 2.566727527493525e-05, 'epoch': 5.52}
 23%|██▎       | 18063/78504 [10:59:27<40:09:27,  2.39s/it] 23%|██▎       | 18064/78504 [10:59:29<38:21:38,  2.28s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.7999484539031982, 'learning_rate': 2.5666850664515307e-05, 'epoch': 5.52}
 23%|██▎       | 18064/78504 [10:59:29<38:21:38,  2.28s/it] 23%|██▎       | 18065/78504 [10:59:32<37:34:03,  2.24s/it]                                                           {'loss': 0.0812, 'grad_norm': 0.2931734621524811, 'learning_rate': 2.566642605409537e-05, 'epoch': 5.52}
 23%|██▎       | 18065/78504 [10:59:32<37:34:03,  2.24s/it] 23%|██▎       | 18066/78504 [10:59:34<36:26:47,  2.17s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.3243177831172943, 'learning_rate': 2.5666001443675428e-05, 'epoch': 5.52}
 23%|██▎       | 18066/78504 [10:59:34<36:26:47,  2.17s/it] 23%|██▎       | 18067/78504 [10:59:36<35:30:01,  2.11s/it]                                                           {'loss': 0.0804, 'grad_norm': 2.7243237495422363, 'learning_rate': 2.566557683325549e-05, 'epoch': 5.52}
 23%|██▎       | 18067/78504 [10:59:36<35:30:01,  2.11s/it] 23%|██▎       | 18068/78504 [10:59:37<34:13:54,  2.04s/it]                                                           {'loss': 0.0992, 'grad_norm': 0.3809860944747925, 'learning_rate': 2.566515222283555e-05, 'epoch': 5.52}
 23%|██▎       | 18068/78504 [10:59:37<34:13:54,  2.04s/it] 23%|██▎       | 18069/78504 [10:59:39<32:34:59,  1.94s/it]                                                           {'loss': 0.0891, 'grad_norm': 0.32526862621307373, 'learning_rate': 2.566472761241561e-05, 'epoch': 5.52}
 23%|██▎       | 18069/78504 [10:59:39<32:34:59,  1.94s/it] 23%|██▎       | 18070/78504 [10:59:41<31:41:32,  1.89s/it]                                                           {'loss': 0.1216, 'grad_norm': 0.3083510100841522, 'learning_rate': 2.566430300199567e-05, 'epoch': 5.52}
 23%|██▎       | 18070/78504 [10:59:41<31:41:32,  1.89s/it] 23%|██▎       | 18071/78504 [10:59:43<30:26:30,  1.81s/it]                                                           {'loss': 0.1484, 'grad_norm': 0.48087623715400696, 'learning_rate': 2.5663878391575732e-05, 'epoch': 5.52}
 23%|██▎       | 18071/78504 [10:59:43<30:26:30,  1.81s/it] 23%|██▎       | 18072/78504 [10:59:44<28:55:56,  1.72s/it]                                                           {'loss': 0.1534, 'grad_norm': 1.0334500074386597, 'learning_rate': 2.566345378115579e-05, 'epoch': 5.52}
 23%|██▎       | 18072/78504 [10:59:44<28:55:56,  1.72s/it] 23%|██▎       | 18073/78504 [10:59:46<27:27:12,  1.64s/it]                                                           {'loss': 0.1743, 'grad_norm': 0.7263479232788086, 'learning_rate': 2.566302917073585e-05, 'epoch': 5.53}
 23%|██▎       | 18073/78504 [10:59:46<27:27:12,  1.64s/it] 23%|██▎       | 18074/78504 [10:59:47<26:18:38,  1.57s/it]                                                           {'loss': 0.1774, 'grad_norm': 0.7074320912361145, 'learning_rate': 2.566260456031591e-05, 'epoch': 5.53}
 23%|██▎       | 18074/78504 [10:59:47<26:18:38,  1.57s/it] 23%|██▎       | 18075/78504 [10:59:48<24:33:56,  1.46s/it]                                                           {'loss': 0.1943, 'grad_norm': 1.872473955154419, 'learning_rate': 2.566217994989597e-05, 'epoch': 5.53}
 23%|██▎       | 18075/78504 [10:59:48<24:33:56,  1.46s/it] 23%|██▎       | 18076/78504 [10:59:49<22:51:42,  1.36s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.6966062188148499, 'learning_rate': 2.5661755339476032e-05, 'epoch': 5.53}
 23%|██▎       | 18076/78504 [10:59:49<22:51:42,  1.36s/it] 23%|██▎       | 18077/78504 [10:59:50<21:32:09,  1.28s/it]                                                           {'loss': 0.2025, 'grad_norm': 4.572185516357422, 'learning_rate': 2.566133072905609e-05, 'epoch': 5.53}
 23%|██▎       | 18077/78504 [10:59:50<21:32:09,  1.28s/it] 23%|██▎       | 18078/78504 [10:59:51<20:04:44,  1.20s/it]                                                           {'loss': 0.1533, 'grad_norm': 1.2679247856140137, 'learning_rate': 2.5660906118636153e-05, 'epoch': 5.53}
 23%|██▎       | 18078/78504 [10:59:51<20:04:44,  1.20s/it] 23%|██▎       | 18079/78504 [10:59:52<18:46:30,  1.12s/it]                                                           {'loss': 0.2304, 'grad_norm': 0.8264580965042114, 'learning_rate': 2.566048150821621e-05, 'epoch': 5.53}
 23%|██▎       | 18079/78504 [10:59:52<18:46:30,  1.12s/it] 23%|██▎       | 18080/78504 [10:59:53<17:05:50,  1.02s/it]                                                           {'loss': 0.2008, 'grad_norm': 1.1976076364517212, 'learning_rate': 2.5660056897796274e-05, 'epoch': 5.53}
 23%|██▎       | 18080/78504 [10:59:53<17:05:50,  1.02s/it] 23%|██▎       | 18081/78504 [11:00:04<65:20:03,  3.89s/it]                                                           {'loss': 0.1443, 'grad_norm': 1.0164154767990112, 'learning_rate': 2.5659632287376332e-05, 'epoch': 5.53}
 23%|██▎       | 18081/78504 [11:00:04<65:20:03,  3.89s/it] 23%|██▎       | 18082/78504 [11:00:07<61:30:52,  3.67s/it]                                                           {'loss': 0.0996, 'grad_norm': 0.6286493539810181, 'learning_rate': 2.5659207676956394e-05, 'epoch': 5.53}
 23%|██▎       | 18082/78504 [11:00:07<61:30:52,  3.67s/it] 23%|██▎       | 18083/78504 [11:00:09<56:00:56,  3.34s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.5151241421699524, 'learning_rate': 2.5658783066536453e-05, 'epoch': 5.53}
 23%|██▎       | 18083/78504 [11:00:09<56:00:56,  3.34s/it] 23%|██▎       | 18084/78504 [11:00:12<52:21:29,  3.12s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.18052320182323456, 'learning_rate': 2.5658358456116515e-05, 'epoch': 5.53}
 23%|██▎       | 18084/78504 [11:00:12<52:21:29,  3.12s/it] 23%|██▎       | 18085/78504 [11:00:14<48:32:02,  2.89s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.17068856954574585, 'learning_rate': 2.5657933845696574e-05, 'epoch': 5.53}
 23%|██▎       | 18085/78504 [11:00:14<48:32:02,  2.89s/it] 23%|██▎       | 18086/78504 [11:00:17<45:20:03,  2.70s/it]                                                           {'loss': 0.0495, 'grad_norm': 0.13805927336215973, 'learning_rate': 2.5657509235276633e-05, 'epoch': 5.53}
 23%|██▎       | 18086/78504 [11:00:17<45:20:03,  2.70s/it] 23%|██▎       | 18087/78504 [11:00:19<43:24:39,  2.59s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.6500966548919678, 'learning_rate': 2.5657084624856695e-05, 'epoch': 5.53}
 23%|██▎       | 18087/78504 [11:00:19<43:24:39,  2.59s/it] 23%|██▎       | 18088/78504 [11:00:21<40:54:45,  2.44s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.3060779273509979, 'learning_rate': 2.5656660014436753e-05, 'epoch': 5.53}
 23%|██▎       | 18088/78504 [11:00:21<40:54:45,  2.44s/it] 23%|██▎       | 18089/78504 [11:00:23<39:36:19,  2.36s/it]                                                           {'loss': 0.0773, 'grad_norm': 0.6952208876609802, 'learning_rate': 2.5656235404016815e-05, 'epoch': 5.53}
 23%|██▎       | 18089/78504 [11:00:23<39:36:19,  2.36s/it] 23%|██▎       | 18090/78504 [11:00:25<38:30:10,  2.29s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.24278368055820465, 'learning_rate': 2.5655810793596874e-05, 'epoch': 5.53}
 23%|██▎       | 18090/78504 [11:00:25<38:30:10,  2.29s/it] 23%|██▎       | 18091/78504 [11:00:27<37:09:15,  2.21s/it]                                                           {'loss': 0.1074, 'grad_norm': 0.4738689959049225, 'learning_rate': 2.5655386183176936e-05, 'epoch': 5.53}
 23%|██▎       | 18091/78504 [11:00:27<37:09:15,  2.21s/it] 23%|██▎       | 18092/78504 [11:00:29<35:55:31,  2.14s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.25881439447402954, 'learning_rate': 2.5654961572756995e-05, 'epoch': 5.53}
 23%|██▎       | 18092/78504 [11:00:29<35:55:31,  2.14s/it] 23%|██▎       | 18093/78504 [11:00:31<34:30:01,  2.06s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.5086950659751892, 'learning_rate': 2.5654536962337057e-05, 'epoch': 5.53}
 23%|██▎       | 18093/78504 [11:00:31<34:30:01,  2.06s/it] 23%|██▎       | 18094/78504 [11:00:33<33:21:37,  1.99s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.37594130635261536, 'learning_rate': 2.5654112351917116e-05, 'epoch': 5.53}
 23%|██▎       | 18094/78504 [11:00:33<33:21:37,  1.99s/it] 23%|██▎       | 18095/78504 [11:00:35<32:15:42,  1.92s/it]                                                           {'loss': 0.1142, 'grad_norm': 0.44853153824806213, 'learning_rate': 2.5653687741497178e-05, 'epoch': 5.53}
 23%|██▎       | 18095/78504 [11:00:35<32:15:42,  1.92s/it] 23%|██▎       | 18096/78504 [11:00:36<30:55:10,  1.84s/it]                                                           {'loss': 0.1422, 'grad_norm': 0.7862557172775269, 'learning_rate': 2.5653263131077237e-05, 'epoch': 5.53}
 23%|██▎       | 18096/78504 [11:00:36<30:55:10,  1.84s/it] 23%|██▎       | 18097/78504 [11:00:38<29:22:54,  1.75s/it]                                                           {'loss': 0.1287, 'grad_norm': 0.4674795866012573, 'learning_rate': 2.56528385206573e-05, 'epoch': 5.53}
 23%|██▎       | 18097/78504 [11:00:38<29:22:54,  1.75s/it] 23%|██▎       | 18098/78504 [11:00:39<27:54:21,  1.66s/it]                                                           {'loss': 0.1471, 'grad_norm': 1.563585877418518, 'learning_rate': 2.5652413910237357e-05, 'epoch': 5.53}
 23%|██▎       | 18098/78504 [11:00:39<27:54:21,  1.66s/it] 23%|██▎       | 18099/78504 [11:00:41<26:40:08,  1.59s/it]                                                           {'loss': 0.1776, 'grad_norm': 0.3706517815589905, 'learning_rate': 2.5651989299817416e-05, 'epoch': 5.53}
 23%|██▎       | 18099/78504 [11:00:41<26:40:08,  1.59s/it] 23%|██▎       | 18100/78504 [11:00:42<25:07:23,  1.50s/it]                                                           {'loss': 0.1741, 'grad_norm': 0.5871512293815613, 'learning_rate': 2.5651564689397478e-05, 'epoch': 5.53}
 23%|██▎       | 18100/78504 [11:00:42<25:07:23,  1.50s/it] 23%|██▎       | 18101/78504 [11:00:43<23:22:25,  1.39s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.7111625075340271, 'learning_rate': 2.5651140078977537e-05, 'epoch': 5.53}
 23%|██▎       | 18101/78504 [11:00:43<23:22:25,  1.39s/it] 23%|██▎       | 18102/78504 [11:00:44<21:50:04,  1.30s/it]                                                           {'loss': 0.168, 'grad_norm': 0.9615498185157776, 'learning_rate': 2.56507154685576e-05, 'epoch': 5.53}
 23%|██▎       | 18102/78504 [11:00:44<21:50:04,  1.30s/it] 23%|██▎       | 18103/78504 [11:00:45<20:33:34,  1.23s/it]                                                           {'loss': 0.1846, 'grad_norm': 1.6901288032531738, 'learning_rate': 2.5650290858137658e-05, 'epoch': 5.53}
 23%|██▎       | 18103/78504 [11:00:45<20:33:34,  1.23s/it] 23%|██▎       | 18104/78504 [11:00:46<19:05:09,  1.14s/it]                                                           {'loss': 0.1998, 'grad_norm': 3.1088223457336426, 'learning_rate': 2.564986624771772e-05, 'epoch': 5.53}
 23%|██▎       | 18104/78504 [11:00:46<19:05:09,  1.14s/it] 23%|██▎       | 18105/78504 [11:00:47<17:16:51,  1.03s/it]                                                           {'loss': 0.1899, 'grad_norm': 1.8949530124664307, 'learning_rate': 2.564944163729778e-05, 'epoch': 5.54}
 23%|██▎       | 18105/78504 [11:00:47<17:16:51,  1.03s/it] 23%|██▎       | 18106/78504 [11:00:57<62:58:37,  3.75s/it]                                                           {'loss': 0.1547, 'grad_norm': 0.4656505286693573, 'learning_rate': 2.564901702687784e-05, 'epoch': 5.54}
 23%|██▎       | 18106/78504 [11:00:57<62:58:37,  3.75s/it] 23%|██▎       | 18107/78504 [11:01:00<58:50:14,  3.51s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.2301201969385147, 'learning_rate': 2.56485924164579e-05, 'epoch': 5.54}
 23%|██▎       | 18107/78504 [11:01:00<58:50:14,  3.51s/it] 23%|██▎       | 18108/78504 [11:01:03<55:51:22,  3.33s/it]                                                           {'loss': 0.0673, 'grad_norm': 0.3392500877380371, 'learning_rate': 2.564816780603796e-05, 'epoch': 5.54}
 23%|██▎       | 18108/78504 [11:01:03<55:51:22,  3.33s/it] 23%|██▎       | 18109/78504 [11:01:06<51:17:24,  3.06s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.4396427273750305, 'learning_rate': 2.564774319561802e-05, 'epoch': 5.54}
 23%|██▎       | 18109/78504 [11:01:06<51:17:24,  3.06s/it] 23%|██▎       | 18110/78504 [11:01:08<48:19:40,  2.88s/it]                                                           {'loss': 0.0588, 'grad_norm': 0.39685386419296265, 'learning_rate': 2.5647318585198082e-05, 'epoch': 5.54}
 23%|██▎       | 18110/78504 [11:01:08<48:19:40,  2.88s/it] 23%|██▎       | 18111/78504 [11:01:10<45:13:41,  2.70s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.46919816732406616, 'learning_rate': 2.564689397477814e-05, 'epoch': 5.54}
 23%|██▎       | 18111/78504 [11:01:10<45:13:41,  2.70s/it] 23%|██▎       | 18112/78504 [11:01:13<43:17:28,  2.58s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.4767204821109772, 'learning_rate': 2.56464693643582e-05, 'epoch': 5.54}
 23%|██▎       | 18112/78504 [11:01:13<43:17:28,  2.58s/it] 23%|██▎       | 18113/78504 [11:01:15<40:49:52,  2.43s/it]                                                           {'loss': 0.0405, 'grad_norm': 3.6391921043395996, 'learning_rate': 2.564604475393826e-05, 'epoch': 5.54}
 23%|██▎       | 18113/78504 [11:01:15<40:49:52,  2.43s/it] 23%|██▎       | 18114/78504 [11:01:17<38:48:05,  2.31s/it]                                                           {'loss': 0.1056, 'grad_norm': 0.40291157364845276, 'learning_rate': 2.564562014351832e-05, 'epoch': 5.54}
 23%|██▎       | 18114/78504 [11:01:17<38:48:05,  2.31s/it] 23%|██▎       | 18115/78504 [11:01:19<37:54:04,  2.26s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.3516983389854431, 'learning_rate': 2.5645195533098382e-05, 'epoch': 5.54}
 23%|██▎       | 18115/78504 [11:01:19<37:54:04,  2.26s/it] 23%|██▎       | 18116/78504 [11:01:21<36:33:44,  2.18s/it]                                                           {'loss': 0.0962, 'grad_norm': 0.3845501244068146, 'learning_rate': 2.564477092267844e-05, 'epoch': 5.54}
 23%|██▎       | 18116/78504 [11:01:21<36:33:44,  2.18s/it] 23%|██▎       | 18117/78504 [11:01:23<34:40:02,  2.07s/it]                                                           {'loss': 0.0762, 'grad_norm': 0.8781955242156982, 'learning_rate': 2.5644346312258503e-05, 'epoch': 5.54}
 23%|██▎       | 18117/78504 [11:01:23<34:40:02,  2.07s/it] 23%|██▎       | 18118/78504 [11:01:24<33:37:04,  2.00s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.3925141990184784, 'learning_rate': 2.5643921701838562e-05, 'epoch': 5.54}
 23%|██▎       | 18118/78504 [11:01:25<33:37:04,  2.00s/it] 23%|██▎       | 18119/78504 [11:01:26<32:48:33,  1.96s/it]                                                           {'loss': 0.1066, 'grad_norm': 0.8153861165046692, 'learning_rate': 2.5643497091418624e-05, 'epoch': 5.54}
 23%|██▎       | 18119/78504 [11:01:26<32:48:33,  1.96s/it] 23%|██▎       | 18120/78504 [11:01:28<31:53:41,  1.90s/it]                                                           {'loss': 0.1075, 'grad_norm': 0.8738040328025818, 'learning_rate': 2.5643072480998683e-05, 'epoch': 5.54}
 23%|██▎       | 18120/78504 [11:01:28<31:53:41,  1.90s/it] 23%|██▎       | 18121/78504 [11:01:30<30:32:39,  1.82s/it]                                                           {'loss': 0.1591, 'grad_norm': 0.6454999446868896, 'learning_rate': 2.5642647870578745e-05, 'epoch': 5.54}
 23%|██▎       | 18121/78504 [11:01:30<30:32:39,  1.82s/it] 23%|██▎       | 18122/78504 [11:01:31<29:09:46,  1.74s/it]                                                           {'loss': 0.1591, 'grad_norm': 1.7337932586669922, 'learning_rate': 2.5642223260158803e-05, 'epoch': 5.54}
 23%|██▎       | 18122/78504 [11:01:31<29:09:46,  1.74s/it] 23%|██▎       | 18123/78504 [11:01:33<27:46:49,  1.66s/it]                                                           {'loss': 0.1411, 'grad_norm': 1.2042385339736938, 'learning_rate': 2.5641798649738866e-05, 'epoch': 5.54}
 23%|██▎       | 18123/78504 [11:01:33<27:46:49,  1.66s/it] 23%|██▎       | 18124/78504 [11:01:34<26:32:37,  1.58s/it]                                                           {'loss': 0.1444, 'grad_norm': 1.15369713306427, 'learning_rate': 2.5641374039318924e-05, 'epoch': 5.54}
 23%|██▎       | 18124/78504 [11:01:34<26:32:37,  1.58s/it] 23%|██▎       | 18125/78504 [11:01:35<25:02:00,  1.49s/it]                                                           {'loss': 0.153, 'grad_norm': 2.5777924060821533, 'learning_rate': 2.5640949428898983e-05, 'epoch': 5.54}
 23%|██▎       | 18125/78504 [11:01:35<25:02:00,  1.49s/it] 23%|██▎       | 18126/78504 [11:01:37<23:19:54,  1.39s/it]                                                           {'loss': 0.1802, 'grad_norm': 0.7406261563301086, 'learning_rate': 2.5640524818479045e-05, 'epoch': 5.54}
 23%|██▎       | 18126/78504 [11:01:37<23:19:54,  1.39s/it] 23%|██▎       | 18127/78504 [11:01:38<21:48:22,  1.30s/it]                                                           {'loss': 0.1865, 'grad_norm': 0.9185925126075745, 'learning_rate': 2.5640100208059104e-05, 'epoch': 5.54}
 23%|██▎       | 18127/78504 [11:01:38<21:48:22,  1.30s/it] 23%|██▎       | 18128/78504 [11:01:39<20:33:22,  1.23s/it]                                                           {'loss': 0.1821, 'grad_norm': 1.5099009275436401, 'learning_rate': 2.5639675597639166e-05, 'epoch': 5.54}
 23%|██▎       | 18128/78504 [11:01:39<20:33:22,  1.23s/it] 23%|██▎       | 18129/78504 [11:01:40<19:04:35,  1.14s/it]                                                           {'loss': 0.1972, 'grad_norm': 1.722994089126587, 'learning_rate': 2.5639250987219224e-05, 'epoch': 5.54}
 23%|██▎       | 18129/78504 [11:01:40<19:04:35,  1.14s/it] 23%|██▎       | 18130/78504 [11:01:40<17:17:06,  1.03s/it]                                                           {'loss': 0.2084, 'grad_norm': 0.7694106698036194, 'learning_rate': 2.5638826376799287e-05, 'epoch': 5.54}
 23%|██▎       | 18130/78504 [11:01:40<17:17:06,  1.03s/it] 23%|██▎       | 18131/78504 [11:01:49<54:18:27,  3.24s/it]                                                           {'loss': 0.1382, 'grad_norm': 0.43223753571510315, 'learning_rate': 2.5638401766379345e-05, 'epoch': 5.54}
 23%|██▎       | 18131/78504 [11:01:49<54:18:27,  3.24s/it] 23%|██▎       | 18132/78504 [11:01:52<55:22:09,  3.30s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.24549680948257446, 'learning_rate': 2.5637977155959407e-05, 'epoch': 5.54}
 23%|██▎       | 18132/78504 [11:01:52<55:22:09,  3.30s/it] 23%|██▎       | 18133/78504 [11:01:55<53:27:10,  3.19s/it]                                                           {'loss': 0.0766, 'grad_norm': 0.39897915720939636, 'learning_rate': 2.5637552545539466e-05, 'epoch': 5.54}
 23%|██▎       | 18133/78504 [11:01:55<53:27:10,  3.19s/it] 23%|██▎       | 18134/78504 [11:01:58<50:20:42,  3.00s/it]                                                           {'loss': 0.045, 'grad_norm': 0.2753201723098755, 'learning_rate': 2.5637127935119528e-05, 'epoch': 5.54}
 23%|██▎       | 18134/78504 [11:01:58<50:20:42,  3.00s/it] 23%|██▎       | 18135/78504 [11:02:00<47:48:20,  2.85s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.2942052185535431, 'learning_rate': 2.563670332469959e-05, 'epoch': 5.54}
 23%|██▎       | 18135/78504 [11:02:00<47:48:20,  2.85s/it] 23%|██▎       | 18136/78504 [11:02:03<45:45:48,  2.73s/it]                                                           {'loss': 0.058, 'grad_norm': 0.1728944033384323, 'learning_rate': 2.5636278714279652e-05, 'epoch': 5.54}
 23%|██▎       | 18136/78504 [11:02:03<45:45:48,  2.73s/it] 23%|██▎       | 18137/78504 [11:02:05<43:44:12,  2.61s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.24700243771076202, 'learning_rate': 2.563585410385971e-05, 'epoch': 5.54}
 23%|██▎       | 18137/78504 [11:02:05<43:44:12,  2.61s/it] 23%|██▎       | 18138/78504 [11:02:07<42:09:37,  2.51s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.2830154299736023, 'learning_rate': 2.563542949343977e-05, 'epoch': 5.55}
 23%|██▎       | 18138/78504 [11:02:07<42:09:37,  2.51s/it] 23%|██▎       | 18139/78504 [11:02:10<40:33:23,  2.42s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.2615518271923065, 'learning_rate': 2.5635004883019832e-05, 'epoch': 5.55}
 23%|██▎       | 18139/78504 [11:02:10<40:33:23,  2.42s/it] 23%|██▎       | 18140/78504 [11:02:12<39:15:55,  2.34s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.2825852036476135, 'learning_rate': 2.563458027259989e-05, 'epoch': 5.55}
 23%|██▎       | 18140/78504 [11:02:12<39:15:55,  2.34s/it] 23%|██▎       | 18141/78504 [11:02:14<36:47:37,  2.19s/it]                                                           {'loss': 0.0825, 'grad_norm': 0.406435489654541, 'learning_rate': 2.5634155662179953e-05, 'epoch': 5.55}
 23%|██▎       | 18141/78504 [11:02:14<36:47:37,  2.19s/it] 23%|██▎       | 18142/78504 [11:02:16<35:44:51,  2.13s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.3649517595767975, 'learning_rate': 2.563373105176001e-05, 'epoch': 5.55}
 23%|██▎       | 18142/78504 [11:02:16<35:44:51,  2.13s/it] 23%|██▎       | 18143/78504 [11:02:17<34:39:42,  2.07s/it]                                                           {'loss': 0.1203, 'grad_norm': 0.3940063714981079, 'learning_rate': 2.5633306441340073e-05, 'epoch': 5.55}
 23%|██▎       | 18143/78504 [11:02:17<34:39:42,  2.07s/it] 23%|██▎       | 18144/78504 [11:02:19<33:42:04,  2.01s/it]                                                           {'loss': 0.0851, 'grad_norm': 0.3809981346130371, 'learning_rate': 2.5632881830920132e-05, 'epoch': 5.55}
 23%|██▎       | 18144/78504 [11:02:19<33:42:04,  2.01s/it] 23%|██▎       | 18145/78504 [11:02:21<32:28:32,  1.94s/it]                                                           {'loss': 0.1341, 'grad_norm': 0.47912654280662537, 'learning_rate': 2.5632457220500194e-05, 'epoch': 5.55}
 23%|██▎       | 18145/78504 [11:02:21<32:28:32,  1.94s/it] 23%|██▎       | 18146/78504 [11:02:23<30:59:59,  1.85s/it]                                                           {'loss': 0.1418, 'grad_norm': 0.6931911706924438, 'learning_rate': 2.5632032610080253e-05, 'epoch': 5.55}
 23%|██▎       | 18146/78504 [11:02:23<30:59:59,  1.85s/it] 23%|██▎       | 18147/78504 [11:02:24<29:29:43,  1.76s/it]                                                           {'loss': 0.1784, 'grad_norm': 0.5588856935501099, 'learning_rate': 2.5631607999660315e-05, 'epoch': 5.55}
 23%|██▎       | 18147/78504 [11:02:24<29:29:43,  1.76s/it] 23%|██▎       | 18148/78504 [11:02:26<28:16:59,  1.69s/it]                                                           {'loss': 0.163, 'grad_norm': 1.7161896228790283, 'learning_rate': 2.5631183389240374e-05, 'epoch': 5.55}
 23%|██▎       | 18148/78504 [11:02:26<28:16:59,  1.69s/it] 23%|██▎       | 18149/78504 [11:02:27<26:56:02,  1.61s/it]                                                           {'loss': 0.1778, 'grad_norm': 1.1216284036636353, 'learning_rate': 2.5630758778820436e-05, 'epoch': 5.55}
 23%|██▎       | 18149/78504 [11:02:27<26:56:02,  1.61s/it] 23%|██▎       | 18150/78504 [11:02:29<25:20:08,  1.51s/it]                                                           {'loss': 0.1598, 'grad_norm': 1.3785226345062256, 'learning_rate': 2.5630334168400494e-05, 'epoch': 5.55}
 23%|██▎       | 18150/78504 [11:02:29<25:20:08,  1.51s/it] 23%|██▎       | 18151/78504 [11:02:30<23:29:57,  1.40s/it]                                                           {'loss': 0.193, 'grad_norm': 0.674984335899353, 'learning_rate': 2.5629909557980553e-05, 'epoch': 5.55}
 23%|██▎       | 18151/78504 [11:02:30<23:29:57,  1.40s/it] 23%|██▎       | 18152/78504 [11:02:31<21:59:31,  1.31s/it]                                                           {'loss': 0.1876, 'grad_norm': 0.8464537262916565, 'learning_rate': 2.5629484947560615e-05, 'epoch': 5.55}
 23%|██▎       | 18152/78504 [11:02:31<21:59:31,  1.31s/it] 23%|██▎       | 18153/78504 [11:02:32<20:24:24,  1.22s/it]                                                           {'loss': 0.203, 'grad_norm': 0.7279518246650696, 'learning_rate': 2.5629060337140674e-05, 'epoch': 5.55}
 23%|██▎       | 18153/78504 [11:02:32<20:24:24,  1.22s/it] 23%|██▎       | 18154/78504 [11:02:33<18:58:56,  1.13s/it]                                                           {'loss': 0.2007, 'grad_norm': 1.1861811876296997, 'learning_rate': 2.5628635726720736e-05, 'epoch': 5.55}
 23%|██▎       | 18154/78504 [11:02:33<18:58:56,  1.13s/it] 23%|██▎       | 18155/78504 [11:02:33<17:15:53,  1.03s/it]                                                           {'loss': 0.279, 'grad_norm': 0.9227790832519531, 'learning_rate': 2.5628211116300795e-05, 'epoch': 5.55}
 23%|██▎       | 18155/78504 [11:02:33<17:15:53,  1.03s/it] 23%|██▎       | 18156/78504 [11:02:42<55:26:16,  3.31s/it]                                                           {'loss': 0.1334, 'grad_norm': 0.3477182984352112, 'learning_rate': 2.5627786505880857e-05, 'epoch': 5.55}
 23%|██▎       | 18156/78504 [11:02:42<55:26:16,  3.31s/it] 23%|██▎       | 18157/78504 [11:02:45<55:10:31,  3.29s/it]                                                           {'loss': 0.0721, 'grad_norm': 0.37942013144493103, 'learning_rate': 2.5627361895460916e-05, 'epoch': 5.55}
 23%|██▎       | 18157/78504 [11:02:45<55:10:31,  3.29s/it] 23%|██▎       | 18158/78504 [11:02:48<52:16:10,  3.12s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.4355303943157196, 'learning_rate': 2.5626937285040978e-05, 'epoch': 5.55}
 23%|██▎       | 18158/78504 [11:02:48<52:16:10,  3.12s/it] 23%|██▎       | 18159/78504 [11:02:51<49:35:48,  2.96s/it]                                                           {'loss': 0.0409, 'grad_norm': 0.22595307230949402, 'learning_rate': 2.5626512674621036e-05, 'epoch': 5.55}
 23%|██▎       | 18159/78504 [11:02:51<49:35:48,  2.96s/it] 23%|██▎       | 18160/78504 [11:02:53<47:13:38,  2.82s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.19690658152103424, 'learning_rate': 2.56260880642011e-05, 'epoch': 5.55}
 23%|██▎       | 18160/78504 [11:02:53<47:13:38,  2.82s/it] 23%|██▎       | 18161/78504 [11:02:55<44:54:18,  2.68s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.6557488441467285, 'learning_rate': 2.5625663453781157e-05, 'epoch': 5.55}
 23%|██▎       | 18161/78504 [11:02:56<44:54:18,  2.68s/it] 23%|██▎       | 18162/78504 [11:02:58<43:05:48,  2.57s/it]                                                           {'loss': 0.051, 'grad_norm': 0.4158211052417755, 'learning_rate': 2.562523884336122e-05, 'epoch': 5.55}
 23%|██▎       | 18162/78504 [11:02:58<43:05:48,  2.57s/it] 23%|██▎       | 18163/78504 [11:03:00<41:31:27,  2.48s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.1860416978597641, 'learning_rate': 2.5624814232941278e-05, 'epoch': 5.55}
 23%|██▎       | 18163/78504 [11:03:00<41:31:27,  2.48s/it] 23%|██▎       | 18164/78504 [11:03:02<40:03:56,  2.39s/it]                                                           {'loss': 0.1066, 'grad_norm': 0.5398805141448975, 'learning_rate': 2.5624389622521337e-05, 'epoch': 5.55}
 23%|██▎       | 18164/78504 [11:03:02<40:03:56,  2.39s/it] 23%|██▎       | 18165/78504 [11:03:04<38:46:43,  2.31s/it]                                                           {'loss': 0.0655, 'grad_norm': 0.4735147953033447, 'learning_rate': 2.56239650121014e-05, 'epoch': 5.55}
 23%|██▎       | 18165/78504 [11:03:04<38:46:43,  2.31s/it] 23%|██▎       | 18166/78504 [11:03:06<37:08:17,  2.22s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.4435317814350128, 'learning_rate': 2.5623540401681457e-05, 'epoch': 5.55}
 23%|██▎       | 18166/78504 [11:03:06<37:08:17,  2.22s/it] 23%|██▎       | 18167/78504 [11:03:08<35:37:12,  2.13s/it]                                                           {'loss': 0.0704, 'grad_norm': 1.1839826107025146, 'learning_rate': 2.562311579126152e-05, 'epoch': 5.55}
 23%|██▎       | 18167/78504 [11:03:08<35:37:12,  2.13s/it] 23%|██▎       | 18168/78504 [11:03:10<34:18:35,  2.05s/it]                                                           {'loss': 0.1093, 'grad_norm': 0.5247227549552917, 'learning_rate': 2.5622691180841578e-05, 'epoch': 5.55}
 23%|██▎       | 18168/78504 [11:03:10<34:18:35,  2.05s/it] 23%|██▎       | 18169/78504 [11:03:12<32:37:53,  1.95s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.39008384943008423, 'learning_rate': 2.562226657042164e-05, 'epoch': 5.55}
 23%|██▎       | 18169/78504 [11:03:12<32:37:53,  1.95s/it] 23%|██▎       | 18170/78504 [11:03:14<31:41:11,  1.89s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.5741655230522156, 'learning_rate': 2.56218419600017e-05, 'epoch': 5.55}
 23%|██▎       | 18170/78504 [11:03:14<31:41:11,  1.89s/it] 23%|██▎       | 18171/78504 [11:03:15<30:27:12,  1.82s/it]                                                           {'loss': 0.1236, 'grad_norm': 1.3828297853469849, 'learning_rate': 2.562141734958176e-05, 'epoch': 5.56}
 23%|██▎       | 18171/78504 [11:03:15<30:27:12,  1.82s/it] 23%|██▎       | 18172/78504 [11:03:17<28:56:43,  1.73s/it]                                                           {'loss': 0.153, 'grad_norm': 0.7518048882484436, 'learning_rate': 2.562099273916182e-05, 'epoch': 5.56}
 23%|██▎       | 18172/78504 [11:03:17<28:56:43,  1.73s/it] 23%|██▎       | 18173/78504 [11:03:18<27:38:33,  1.65s/it]                                                           {'loss': 0.1593, 'grad_norm': 1.3250856399536133, 'learning_rate': 2.5620568128741882e-05, 'epoch': 5.56}
 23%|██▎       | 18173/78504 [11:03:18<27:38:33,  1.65s/it] 23%|██▎       | 18174/78504 [11:03:20<26:15:54,  1.57s/it]                                                           {'loss': 0.1602, 'grad_norm': 3.0665807723999023, 'learning_rate': 2.562014351832194e-05, 'epoch': 5.56}
 23%|██▎       | 18174/78504 [11:03:20<26:15:54,  1.57s/it] 23%|██▎       | 18175/78504 [11:03:21<24:54:25,  1.49s/it]                                                           {'loss': 0.131, 'grad_norm': 1.013611912727356, 'learning_rate': 2.5619718907902003e-05, 'epoch': 5.56}
 23%|██▎       | 18175/78504 [11:03:21<24:54:25,  1.49s/it] 23%|██▎       | 18176/78504 [11:03:22<23:12:49,  1.39s/it]                                                           {'loss': 0.1879, 'grad_norm': 0.7416409850120544, 'learning_rate': 2.561929429748206e-05, 'epoch': 5.56}
 23%|██▎       | 18176/78504 [11:03:22<23:12:49,  1.39s/it] 23%|██▎       | 18177/78504 [11:03:23<21:44:12,  1.30s/it]                                                           {'loss': 0.1539, 'grad_norm': 1.2573846578598022, 'learning_rate': 2.561886968706212e-05, 'epoch': 5.56}
 23%|██▎       | 18177/78504 [11:03:23<21:44:12,  1.30s/it] 23%|██▎       | 18178/78504 [11:03:24<20:26:30,  1.22s/it]                                                           {'loss': 0.176, 'grad_norm': 4.374913692474365, 'learning_rate': 2.5618445076642182e-05, 'epoch': 5.56}
 23%|██▎       | 18178/78504 [11:03:24<20:26:30,  1.22s/it] 23%|██▎       | 18179/78504 [11:03:25<18:56:07,  1.13s/it]                                                           {'loss': 0.2087, 'grad_norm': 1.3068124055862427, 'learning_rate': 2.561802046622224e-05, 'epoch': 5.56}
 23%|██▎       | 18179/78504 [11:03:25<18:56:07,  1.13s/it] 23%|██▎       | 18180/78504 [11:03:26<17:00:48,  1.02s/it]                                                           {'loss': 0.2584, 'grad_norm': 1.4363025426864624, 'learning_rate': 2.5617595855802303e-05, 'epoch': 5.56}
 23%|██▎       | 18180/78504 [11:03:26<17:00:48,  1.02s/it] 23%|██▎       | 18181/78504 [11:03:36<63:30:13,  3.79s/it]                                                           {'loss': 0.117, 'grad_norm': 0.6346430778503418, 'learning_rate': 2.561717124538236e-05, 'epoch': 5.56}
 23%|██▎       | 18181/78504 [11:03:36<63:30:13,  3.79s/it] 23%|██▎       | 18182/78504 [11:03:39<59:04:08,  3.53s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.7972927093505859, 'learning_rate': 2.5616746634962424e-05, 'epoch': 5.56}
 23%|██▎       | 18182/78504 [11:03:39<59:04:08,  3.53s/it] 23%|██▎       | 18183/78504 [11:03:42<56:01:44,  3.34s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.4103338420391083, 'learning_rate': 2.5616322024542482e-05, 'epoch': 5.56}
 23%|██▎       | 18183/78504 [11:03:42<56:01:44,  3.34s/it] 23%|██▎       | 18184/78504 [11:03:45<52:10:48,  3.11s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.2286425530910492, 'learning_rate': 2.5615897414122544e-05, 'epoch': 5.56}
 23%|██▎       | 18184/78504 [11:03:45<52:10:48,  3.11s/it] 23%|██▎       | 18185/78504 [11:03:47<48:55:07,  2.92s/it]                                                           {'loss': 0.056, 'grad_norm': 0.18531754612922668, 'learning_rate': 2.5615472803702603e-05, 'epoch': 5.56}
 23%|██▎       | 18185/78504 [11:03:47<48:55:07,  2.92s/it] 23%|██▎       | 18186/78504 [11:03:49<46:27:44,  2.77s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.5745859146118164, 'learning_rate': 2.5615048193282665e-05, 'epoch': 5.56}
 23%|██▎       | 18186/78504 [11:03:49<46:27:44,  2.77s/it] 23%|██▎       | 18187/78504 [11:03:52<44:07:20,  2.63s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.3150327205657959, 'learning_rate': 2.5614623582862724e-05, 'epoch': 5.56}
 23%|██▎       | 18187/78504 [11:03:52<44:07:20,  2.63s/it] 23%|██▎       | 18188/78504 [11:03:54<41:29:09,  2.48s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.41964492201805115, 'learning_rate': 2.5614198972442783e-05, 'epoch': 5.56}
 23%|██▎       | 18188/78504 [11:03:54<41:29:09,  2.48s/it] 23%|██▎       | 18189/78504 [11:03:56<40:01:50,  2.39s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.4148467183113098, 'learning_rate': 2.5613774362022845e-05, 'epoch': 5.56}
 23%|██▎       | 18189/78504 [11:03:56<40:01:50,  2.39s/it] 23%|██▎       | 18190/78504 [11:03:58<38:52:44,  2.32s/it]                                                           {'loss': 0.0712, 'grad_norm': 0.2686937749385834, 'learning_rate': 2.5613349751602903e-05, 'epoch': 5.56}
 23%|██▎       | 18190/78504 [11:03:58<38:52:44,  2.32s/it] 23%|██▎       | 18191/78504 [11:04:00<36:34:04,  2.18s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.2350790649652481, 'learning_rate': 2.5612925141182966e-05, 'epoch': 5.56}
 23%|██▎       | 18191/78504 [11:04:00<36:34:04,  2.18s/it] 23%|██▎       | 18192/78504 [11:04:02<35:33:56,  2.12s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.8980087637901306, 'learning_rate': 2.5612500530763024e-05, 'epoch': 5.56}
 23%|██▎       | 18192/78504 [11:04:02<35:33:56,  2.12s/it] 23%|██▎       | 18193/78504 [11:04:04<34:32:53,  2.06s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.7887543439865112, 'learning_rate': 2.5612075920343086e-05, 'epoch': 5.56}
 23%|██▎       | 18193/78504 [11:04:04<34:32:53,  2.06s/it] 23%|██▎       | 18194/78504 [11:04:06<33:40:42,  2.01s/it]                                                           {'loss': 0.104, 'grad_norm': 0.3130825459957123, 'learning_rate': 2.5611651309923145e-05, 'epoch': 5.56}
 23%|██▎       | 18194/78504 [11:04:06<33:40:42,  2.01s/it] 23%|██▎       | 18195/78504 [11:04:08<32:27:20,  1.94s/it]                                                           {'loss': 0.1428, 'grad_norm': 0.9381800889968872, 'learning_rate': 2.5611226699503207e-05, 'epoch': 5.56}
 23%|██▎       | 18195/78504 [11:04:08<32:27:20,  1.94s/it] 23%|██▎       | 18196/78504 [11:04:09<30:36:43,  1.83s/it]                                                           {'loss': 0.1276, 'grad_norm': 0.3894016444683075, 'learning_rate': 2.5610802089083266e-05, 'epoch': 5.56}
 23%|██▎       | 18196/78504 [11:04:09<30:36:43,  1.83s/it] 23%|██▎       | 18197/78504 [11:04:11<29:11:26,  1.74s/it]                                                           {'loss': 0.145, 'grad_norm': 2.601618766784668, 'learning_rate': 2.5610377478663328e-05, 'epoch': 5.56}
 23%|██▎       | 18197/78504 [11:04:11<29:11:26,  1.74s/it] 23%|██▎       | 18198/78504 [11:04:12<27:48:16,  1.66s/it]                                                           {'loss': 0.1611, 'grad_norm': 0.5394982695579529, 'learning_rate': 2.5609952868243387e-05, 'epoch': 5.56}
 23%|██▎       | 18198/78504 [11:04:12<27:48:16,  1.66s/it] 23%|██▎       | 18199/78504 [11:04:14<26:34:13,  1.59s/it]                                                           {'loss': 0.1557, 'grad_norm': 1.7035691738128662, 'learning_rate': 2.560952825782345e-05, 'epoch': 5.56}
 23%|██▎       | 18199/78504 [11:04:14<26:34:13,  1.59s/it] 23%|██▎       | 18200/78504 [11:04:15<25:02:23,  1.49s/it]                                                           {'loss': 0.1687, 'grad_norm': 0.8955191373825073, 'learning_rate': 2.5609103647403507e-05, 'epoch': 5.56}
 23%|██▎       | 18200/78504 [11:04:15<25:02:23,  1.49s/it] 23%|██▎       | 18201/78504 [11:04:16<23:20:02,  1.39s/it]                                                           {'loss': 0.1445, 'grad_norm': 1.7379570007324219, 'learning_rate': 2.5608679036983566e-05, 'epoch': 5.56}
 23%|██▎       | 18201/78504 [11:04:16<23:20:02,  1.39s/it] 23%|██▎       | 18202/78504 [11:04:17<21:47:55,  1.30s/it]                                                           {'loss': 0.1853, 'grad_norm': 0.6403531432151794, 'learning_rate': 2.5608254426563628e-05, 'epoch': 5.56}
 23%|██▎       | 18202/78504 [11:04:17<21:47:55,  1.30s/it] 23%|██▎       | 18203/78504 [11:04:18<20:31:47,  1.23s/it]                                                           {'loss': 0.1599, 'grad_norm': 1.2355467081069946, 'learning_rate': 2.5607829816143687e-05, 'epoch': 5.56}
 23%|██▎       | 18203/78504 [11:04:18<20:31:47,  1.23s/it] 23%|██▎       | 18204/78504 [11:04:19<19:01:13,  1.14s/it]                                                           {'loss': 0.1917, 'grad_norm': 1.2689508199691772, 'learning_rate': 2.560740520572375e-05, 'epoch': 5.57}
 23%|██▎       | 18204/78504 [11:04:19<19:01:13,  1.14s/it] 23%|██▎       | 18205/78504 [11:04:20<17:13:33,  1.03s/it]                                                           {'loss': 0.2209, 'grad_norm': 1.5791460275650024, 'learning_rate': 2.5606980595303808e-05, 'epoch': 5.57}
 23%|██▎       | 18205/78504 [11:04:20<17:13:33,  1.03s/it] 23%|██▎       | 18206/78504 [11:04:27<49:55:02,  2.98s/it]                                                           {'loss': 0.136, 'grad_norm': 0.3659871816635132, 'learning_rate': 2.560655598488387e-05, 'epoch': 5.57}
 23%|██▎       | 18206/78504 [11:04:27<49:55:02,  2.98s/it] 23%|██▎       | 18207/78504 [11:04:30<50:14:20,  3.00s/it]                                                           {'loss': 0.072, 'grad_norm': 0.36038991808891296, 'learning_rate': 2.560613137446393e-05, 'epoch': 5.57}
 23%|██▎       | 18207/78504 [11:04:31<50:14:20,  3.00s/it] 23%|██▎       | 18208/78504 [11:04:33<50:08:14,  2.99s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.17764714360237122, 'learning_rate': 2.560570676404399e-05, 'epoch': 5.57}
 23%|██▎       | 18208/78504 [11:04:33<50:08:14,  2.99s/it] 23%|██▎       | 18209/78504 [11:04:36<48:12:07,  2.88s/it]                                                           {'loss': 0.066, 'grad_norm': 0.3920097351074219, 'learning_rate': 2.560528215362405e-05, 'epoch': 5.57}
 23%|██▎       | 18209/78504 [11:04:36<48:12:07,  2.88s/it] 23%|██▎       | 18210/78504 [11:04:39<46:08:23,  2.75s/it]                                                           {'loss': 0.0389, 'grad_norm': 0.18096420168876648, 'learning_rate': 2.560485754320411e-05, 'epoch': 5.57}
 23%|██▎       | 18210/78504 [11:04:39<46:08:23,  2.75s/it] 23%|██▎       | 18211/78504 [11:04:41<43:39:32,  2.61s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.33687111735343933, 'learning_rate': 2.560443293278417e-05, 'epoch': 5.57}
 23%|██▎       | 18211/78504 [11:04:41<43:39:32,  2.61s/it] 23%|██▎       | 18212/78504 [11:04:43<42:10:27,  2.52s/it]                                                           {'loss': 0.0611, 'grad_norm': 0.6991496682167053, 'learning_rate': 2.5604008322364232e-05, 'epoch': 5.57}
 23%|██▎       | 18212/78504 [11:04:43<42:10:27,  2.52s/it] 23%|██▎       | 18213/78504 [11:04:45<40:07:23,  2.40s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.34299975633621216, 'learning_rate': 2.560358371194429e-05, 'epoch': 5.57}
 23%|██▎       | 18213/78504 [11:04:45<40:07:23,  2.40s/it] 23%|██▎       | 18214/78504 [11:04:47<39:01:50,  2.33s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.3086771070957184, 'learning_rate': 2.560315910152435e-05, 'epoch': 5.57}
 23%|██▎       | 18214/78504 [11:04:47<39:01:50,  2.33s/it] 23%|██▎       | 18215/78504 [11:04:50<38:11:06,  2.28s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.31989291310310364, 'learning_rate': 2.560273449110441e-05, 'epoch': 5.57}
 23%|██▎       | 18215/78504 [11:04:50<38:11:06,  2.28s/it] 23%|██▎       | 18216/78504 [11:04:52<36:55:01,  2.20s/it]                                                           {'loss': 0.0949, 'grad_norm': 0.3949809968471527, 'learning_rate': 2.560230988068447e-05, 'epoch': 5.57}
 23%|██▎       | 18216/78504 [11:04:52<36:55:01,  2.20s/it] 23%|██▎       | 18217/78504 [11:04:54<35:45:16,  2.14s/it]                                                           {'loss': 0.0774, 'grad_norm': 2.0121452808380127, 'learning_rate': 2.5601885270264532e-05, 'epoch': 5.57}
 23%|██▎       | 18217/78504 [11:04:54<35:45:16,  2.14s/it] 23%|██▎       | 18218/78504 [11:04:55<34:32:18,  2.06s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.3369629979133606, 'learning_rate': 2.560146065984459e-05, 'epoch': 5.57}
 23%|██▎       | 18218/78504 [11:04:55<34:32:18,  2.06s/it] 23%|██▎       | 18219/78504 [11:04:57<33:29:11,  2.00s/it]                                                           {'loss': 0.131, 'grad_norm': 0.7477700710296631, 'learning_rate': 2.5601036049424653e-05, 'epoch': 5.57}
 23%|██▎       | 18219/78504 [11:04:57<33:29:11,  2.00s/it] 23%|██▎       | 18220/78504 [11:04:59<32:17:21,  1.93s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.38101184368133545, 'learning_rate': 2.5600611439004712e-05, 'epoch': 5.57}
 23%|██▎       | 18220/78504 [11:04:59<32:17:21,  1.93s/it] 23%|██▎       | 18221/78504 [11:05:01<30:53:08,  1.84s/it]                                                           {'loss': 0.1357, 'grad_norm': 0.9335916042327881, 'learning_rate': 2.5600186828584774e-05, 'epoch': 5.57}
 23%|██▎       | 18221/78504 [11:05:01<30:53:08,  1.84s/it] 23%|██▎       | 18222/78504 [11:05:02<29:23:13,  1.75s/it]                                                           {'loss': 0.1458, 'grad_norm': 2.0911591053009033, 'learning_rate': 2.5599762218164833e-05, 'epoch': 5.57}
 23%|██▎       | 18222/78504 [11:05:02<29:23:13,  1.75s/it] 23%|██▎       | 18223/78504 [11:05:04<27:54:12,  1.67s/it]                                                           {'loss': 0.1669, 'grad_norm': 0.4694939851760864, 'learning_rate': 2.5599337607744895e-05, 'epoch': 5.57}
 23%|██▎       | 18223/78504 [11:05:04<27:54:12,  1.67s/it] 23%|██▎       | 18224/78504 [11:05:05<26:37:18,  1.59s/it]                                                           {'loss': 0.1523, 'grad_norm': 0.7713999152183533, 'learning_rate': 2.5598912997324953e-05, 'epoch': 5.57}
 23%|██▎       | 18224/78504 [11:05:05<26:37:18,  1.59s/it] 23%|██▎       | 18225/78504 [11:05:06<25:06:34,  1.50s/it]                                                           {'loss': 0.1562, 'grad_norm': 0.9502610564231873, 'learning_rate': 2.5598488386905016e-05, 'epoch': 5.57}
 23%|██▎       | 18225/78504 [11:05:06<25:06:34,  1.50s/it] 23%|██▎       | 18226/78504 [11:05:08<23:21:39,  1.40s/it]                                                           {'loss': 0.1824, 'grad_norm': 0.6290639638900757, 'learning_rate': 2.5598063776485074e-05, 'epoch': 5.57}
 23%|██▎       | 18226/78504 [11:05:08<23:21:39,  1.40s/it] 23%|██▎       | 18227/78504 [11:05:09<21:50:01,  1.30s/it]                                                           {'loss': 0.1603, 'grad_norm': 1.2107418775558472, 'learning_rate': 2.5597639166065133e-05, 'epoch': 5.57}
 23%|██▎       | 18227/78504 [11:05:09<21:50:01,  1.30s/it] 23%|██▎       | 18228/78504 [11:05:10<20:14:37,  1.21s/it]                                                           {'loss': 0.1561, 'grad_norm': 1.7002454996109009, 'learning_rate': 2.5597214555645195e-05, 'epoch': 5.57}
 23%|██▎       | 18228/78504 [11:05:10<20:14:37,  1.21s/it] 23%|██▎       | 18229/78504 [11:05:11<18:52:09,  1.13s/it]                                                           {'loss': 0.2145, 'grad_norm': 1.1432609558105469, 'learning_rate': 2.5596789945225254e-05, 'epoch': 5.57}
 23%|██▎       | 18229/78504 [11:05:11<18:52:09,  1.13s/it] 23%|██▎       | 18230/78504 [11:05:11<17:10:00,  1.03s/it]                                                           {'loss': 0.233, 'grad_norm': 1.21875, 'learning_rate': 2.5596365334805316e-05, 'epoch': 5.57}
 23%|██▎       | 18230/78504 [11:05:11<17:10:00,  1.03s/it] 23%|██▎       | 18231/78504 [11:05:20<54:54:04,  3.28s/it]                                                           {'loss': 0.1348, 'grad_norm': 0.36984407901763916, 'learning_rate': 2.5595940724385375e-05, 'epoch': 5.57}
 23%|██▎       | 18231/78504 [11:05:20<54:54:04,  3.28s/it] 23%|██▎       | 18232/78504 [11:05:23<53:53:20,  3.22s/it]                                                           {'loss': 0.0971, 'grad_norm': 0.3420976400375366, 'learning_rate': 2.5595516113965437e-05, 'epoch': 5.57}
 23%|██▎       | 18232/78504 [11:05:23<53:53:20,  3.22s/it] 23%|██▎       | 18233/78504 [11:05:26<52:23:47,  3.13s/it]                                                           {'loss': 0.076, 'grad_norm': 0.4986873269081116, 'learning_rate': 2.5595091503545495e-05, 'epoch': 5.57}
 23%|██▎       | 18233/78504 [11:05:26<52:23:47,  3.13s/it] 23%|██▎       | 18234/78504 [11:05:28<48:52:07,  2.92s/it]                                                           {'loss': 0.067, 'grad_norm': 0.3662385940551758, 'learning_rate': 2.5594666893125557e-05, 'epoch': 5.57}
 23%|██▎       | 18234/78504 [11:05:28<48:52:07,  2.92s/it] 23%|██▎       | 18235/78504 [11:05:31<46:36:47,  2.78s/it]                                                           {'loss': 0.0563, 'grad_norm': 0.359659343957901, 'learning_rate': 2.5594242282705616e-05, 'epoch': 5.57}
 23%|██▎       | 18235/78504 [11:05:31<46:36:47,  2.78s/it] 23%|██▎       | 18236/78504 [11:05:33<44:50:33,  2.68s/it]                                                           {'loss': 0.0425, 'grad_norm': 0.23621471226215363, 'learning_rate': 2.5593817672285678e-05, 'epoch': 5.58}
 23%|██▎       | 18236/78504 [11:05:33<44:50:33,  2.68s/it] 23%|██▎       | 18237/78504 [11:05:36<43:00:48,  2.57s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.27636727690696716, 'learning_rate': 2.559339306186574e-05, 'epoch': 5.58}
 23%|██▎       | 18237/78504 [11:05:36<43:00:48,  2.57s/it] 23%|██▎       | 18238/78504 [11:05:38<40:42:49,  2.43s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.26008129119873047, 'learning_rate': 2.5592968451445802e-05, 'epoch': 5.58}
 23%|██▎       | 18238/78504 [11:05:38<40:42:49,  2.43s/it] 23%|██▎       | 18239/78504 [11:05:40<39:28:12,  2.36s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.24376484751701355, 'learning_rate': 2.559254384102586e-05, 'epoch': 5.58}
 23%|██▎       | 18239/78504 [11:05:40<39:28:12,  2.36s/it] 23%|██▎       | 18240/78504 [11:05:42<38:29:14,  2.30s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.2924080193042755, 'learning_rate': 2.559211923060592e-05, 'epoch': 5.58}
 23%|██▎       | 18240/78504 [11:05:42<38:29:14,  2.30s/it] 23%|██▎       | 18241/78504 [11:05:44<36:15:23,  2.17s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.872961163520813, 'learning_rate': 2.5591694620185982e-05, 'epoch': 5.58}
 23%|██▎       | 18241/78504 [11:05:44<36:15:23,  2.17s/it] 23%|██▎       | 18242/78504 [11:05:46<35:19:54,  2.11s/it]                                                           {'loss': 0.1012, 'grad_norm': 0.6587720513343811, 'learning_rate': 2.559127000976604e-05, 'epoch': 5.58}
 23%|██▎       | 18242/78504 [11:05:46<35:19:54,  2.11s/it] 23%|██▎       | 18243/78504 [11:05:48<34:10:54,  2.04s/it]                                                           {'loss': 0.0847, 'grad_norm': 0.32475802302360535, 'learning_rate': 2.5590845399346103e-05, 'epoch': 5.58}
 23%|██▎       | 18243/78504 [11:05:48<34:10:54,  2.04s/it] 23%|██▎       | 18244/78504 [11:05:50<33:19:43,  1.99s/it]                                                           {'loss': 0.1006, 'grad_norm': 0.5134047269821167, 'learning_rate': 2.559042078892616e-05, 'epoch': 5.58}
 23%|██▎       | 18244/78504 [11:05:50<33:19:43,  1.99s/it] 23%|██▎       | 18245/78504 [11:05:51<32:11:03,  1.92s/it]                                                           {'loss': 0.135, 'grad_norm': 0.5361547470092773, 'learning_rate': 2.5589996178506223e-05, 'epoch': 5.58}
 23%|██▎       | 18245/78504 [11:05:51<32:11:03,  1.92s/it] 23%|██▎       | 18246/78504 [11:05:53<30:49:55,  1.84s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.663695216178894, 'learning_rate': 2.5589571568086282e-05, 'epoch': 5.58}
 23%|██▎       | 18246/78504 [11:05:53<30:49:55,  1.84s/it] 23%|██▎       | 18247/78504 [11:05:55<29:19:46,  1.75s/it]                                                           {'loss': 0.1477, 'grad_norm': 0.5147190093994141, 'learning_rate': 2.5589146957666344e-05, 'epoch': 5.58}
 23%|██▎       | 18247/78504 [11:05:55<29:19:46,  1.75s/it] 23%|██▎       | 18248/78504 [11:05:56<28:08:18,  1.68s/it]                                                           {'loss': 0.1332, 'grad_norm': 1.0885143280029297, 'learning_rate': 2.5588722347246403e-05, 'epoch': 5.58}
 23%|██▎       | 18248/78504 [11:05:56<28:08:18,  1.68s/it] 23%|██▎       | 18249/78504 [11:05:58<26:49:43,  1.60s/it]                                                           {'loss': 0.1898, 'grad_norm': 1.2082918882369995, 'learning_rate': 2.5588297736826465e-05, 'epoch': 5.58}
 23%|██▎       | 18249/78504 [11:05:58<26:49:43,  1.60s/it] 23%|██▎       | 18250/78504 [11:05:59<25:11:07,  1.50s/it]                                                           {'loss': 0.1885, 'grad_norm': 0.6588470935821533, 'learning_rate': 2.5587873126406524e-05, 'epoch': 5.58}
 23%|██▎       | 18250/78504 [11:05:59<25:11:07,  1.50s/it] 23%|██▎       | 18251/78504 [11:06:00<23:25:41,  1.40s/it]                                                           {'loss': 0.1531, 'grad_norm': 1.3274037837982178, 'learning_rate': 2.5587448515986586e-05, 'epoch': 5.58}
 23%|██▎       | 18251/78504 [11:06:00<23:25:41,  1.40s/it] 23%|██▎       | 18252/78504 [11:06:01<21:50:44,  1.31s/it]                                                           {'loss': 0.179, 'grad_norm': 0.7022039890289307, 'learning_rate': 2.5587023905566644e-05, 'epoch': 5.58}
 23%|██▎       | 18252/78504 [11:06:01<21:50:44,  1.31s/it] 23%|██▎       | 18253/78504 [11:06:02<20:36:02,  1.23s/it]                                                           {'loss': 0.1493, 'grad_norm': 1.2852256298065186, 'learning_rate': 2.5586599295146703e-05, 'epoch': 5.58}
 23%|██▎       | 18253/78504 [11:06:02<20:36:02,  1.23s/it] 23%|██▎       | 18254/78504 [11:06:03<19:07:34,  1.14s/it]                                                           {'loss': 0.1954, 'grad_norm': 2.819136381149292, 'learning_rate': 2.5586174684726765e-05, 'epoch': 5.58}
 23%|██▎       | 18254/78504 [11:06:03<19:07:34,  1.14s/it] 23%|██▎       | 18255/78504 [11:06:04<17:18:03,  1.03s/it]                                                           {'loss': 0.2869, 'grad_norm': 2.9819889068603516, 'learning_rate': 2.5585750074306824e-05, 'epoch': 5.58}
 23%|██▎       | 18255/78504 [11:06:04<17:18:03,  1.03s/it] 23%|██▎       | 18256/78504 [11:06:14<61:58:51,  3.70s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.5199511647224426, 'learning_rate': 2.5585325463886886e-05, 'epoch': 5.58}
 23%|██▎       | 18256/78504 [11:06:14<61:58:51,  3.70s/it] 23%|██▎       | 18257/78504 [11:06:17<57:54:45,  3.46s/it]                                                           {'loss': 0.1076, 'grad_norm': 0.48873084783554077, 'learning_rate': 2.5584900853466945e-05, 'epoch': 5.58}
 23%|██▎       | 18257/78504 [11:06:17<57:54:45,  3.46s/it] 23%|██▎       | 18258/78504 [11:06:20<55:11:26,  3.30s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.3225087523460388, 'learning_rate': 2.5584476243047007e-05, 'epoch': 5.58}
 23%|██▎       | 18258/78504 [11:06:20<55:11:26,  3.30s/it] 23%|██▎       | 18259/78504 [11:06:22<50:47:15,  3.03s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.2614062428474426, 'learning_rate': 2.5584051632627066e-05, 'epoch': 5.58}
 23%|██▎       | 18259/78504 [11:06:22<50:47:15,  3.03s/it] 23%|██▎       | 18260/78504 [11:06:24<47:58:44,  2.87s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.18758346140384674, 'learning_rate': 2.5583627022207128e-05, 'epoch': 5.58}
 23%|██▎       | 18260/78504 [11:06:24<47:58:44,  2.87s/it] 23%|██▎       | 18261/78504 [11:06:27<45:44:36,  2.73s/it]                                                           {'loss': 0.0576, 'grad_norm': 0.4030674695968628, 'learning_rate': 2.5583202411787186e-05, 'epoch': 5.58}
 23%|██▎       | 18261/78504 [11:06:27<45:44:36,  2.73s/it] 23%|██▎       | 18262/78504 [11:06:29<43:38:36,  2.61s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.445995956659317, 'learning_rate': 2.558277780136725e-05, 'epoch': 5.58}
 23%|██▎       | 18262/78504 [11:06:29<43:38:36,  2.61s/it] 23%|██▎       | 18263/78504 [11:06:31<41:09:04,  2.46s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.2416725754737854, 'learning_rate': 2.5582353190947307e-05, 'epoch': 5.58}
 23%|██▎       | 18263/78504 [11:06:31<41:09:04,  2.46s/it] 23%|██▎       | 18264/78504 [11:06:33<39:46:51,  2.38s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.3997728228569031, 'learning_rate': 2.558192858052737e-05, 'epoch': 5.58}
 23%|██▎       | 18264/78504 [11:06:34<39:46:51,  2.38s/it] 23%|██▎       | 18265/78504 [11:06:36<38:36:56,  2.31s/it]                                                           {'loss': 0.0449, 'grad_norm': 0.48270997405052185, 'learning_rate': 2.5581503970107428e-05, 'epoch': 5.58}
 23%|██▎       | 18265/78504 [11:06:36<38:36:56,  2.31s/it] 23%|██▎       | 18266/78504 [11:06:38<37:10:23,  2.22s/it]                                                           {'loss': 0.0957, 'grad_norm': 0.29373639822006226, 'learning_rate': 2.5581079359687487e-05, 'epoch': 5.58}
 23%|██▎       | 18266/78504 [11:06:38<37:10:23,  2.22s/it] 23%|██▎       | 18267/78504 [11:06:40<35:56:27,  2.15s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.7496426701545715, 'learning_rate': 2.558065474926755e-05, 'epoch': 5.58}
 23%|██▎       | 18267/78504 [11:06:40<35:56:27,  2.15s/it] 23%|██▎       | 18268/78504 [11:06:41<34:31:02,  2.06s/it]                                                           {'loss': 0.0836, 'grad_norm': 0.7271338701248169, 'learning_rate': 2.5580230138847607e-05, 'epoch': 5.58}
 23%|██▎       | 18268/78504 [11:06:42<34:31:02,  2.06s/it] 23%|██▎       | 18269/78504 [11:06:43<33:31:20,  2.00s/it]                                                           {'loss': 0.1048, 'grad_norm': 0.35986825823783875, 'learning_rate': 2.557980552842767e-05, 'epoch': 5.59}
 23%|██▎       | 18269/78504 [11:06:43<33:31:20,  2.00s/it] 23%|██▎       | 18270/78504 [11:06:45<32:08:19,  1.92s/it]                                                           {'loss': 0.1097, 'grad_norm': 0.759092390537262, 'learning_rate': 2.5579380918007728e-05, 'epoch': 5.59}
 23%|██▎       | 18270/78504 [11:06:45<32:08:19,  1.92s/it] 23%|██▎       | 18271/78504 [11:06:47<30:45:04,  1.84s/it]                                                           {'loss': 0.1599, 'grad_norm': 1.737236738204956, 'learning_rate': 2.557895630758779e-05, 'epoch': 5.59}
 23%|██▎       | 18271/78504 [11:06:47<30:45:04,  1.84s/it] 23%|██▎       | 18272/78504 [11:06:48<29:15:01,  1.75s/it]                                                           {'loss': 0.1099, 'grad_norm': 0.5426335334777832, 'learning_rate': 2.557853169716785e-05, 'epoch': 5.59}
 23%|██▎       | 18272/78504 [11:06:48<29:15:01,  1.75s/it] 23%|██▎       | 18273/78504 [11:06:50<27:47:26,  1.66s/it]                                                           {'loss': 0.1856, 'grad_norm': nan, 'learning_rate': 2.557853169716785e-05, 'epoch': 5.59}
 23%|██▎       | 18273/78504 [11:06:50<27:47:26,  1.66s/it] 23%|██▎       | 18274/78504 [11:06:51<26:22:47,  1.58s/it]                                                           {'loss': 0.1707, 'grad_norm': 0.49117082357406616, 'learning_rate': 2.557810708674791e-05, 'epoch': 5.59}
 23%|██▎       | 18274/78504 [11:06:51<26:22:47,  1.58s/it] 23%|██▎       | 18275/78504 [11:06:52<24:53:09,  1.49s/it]                                                           {'loss': 0.1684, 'grad_norm': 0.7507224678993225, 'learning_rate': 2.557768247632797e-05, 'epoch': 5.59}
 23%|██▎       | 18275/78504 [11:06:52<24:53:09,  1.49s/it] 23%|██▎       | 18276/78504 [11:06:54<23:10:36,  1.39s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.6961421370506287, 'learning_rate': 2.5577257865908032e-05, 'epoch': 5.59}
 23%|██▎       | 18276/78504 [11:06:54<23:10:36,  1.39s/it] 23%|██▎       | 18277/78504 [11:06:55<21:44:08,  1.30s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.6474846005439758, 'learning_rate': 2.557683325548809e-05, 'epoch': 5.59}
 23%|██▎       | 18277/78504 [11:06:55<21:44:08,  1.30s/it] 23%|██▎       | 18278/78504 [11:06:56<20:29:36,  1.22s/it]                                                           {'loss': 0.2155, 'grad_norm': 1.1997066736221313, 'learning_rate': 2.5576408645068153e-05, 'epoch': 5.59}
 23%|██▎       | 18278/78504 [11:06:56<20:29:36,  1.22s/it] 23%|██▎       | 18279/78504 [11:06:57<19:03:44,  1.14s/it]                                                           {'loss': 0.1997, 'grad_norm': 0.915921688079834, 'learning_rate': 2.557598403464821e-05, 'epoch': 5.59}
 23%|██▎       | 18279/78504 [11:06:57<19:03:44,  1.14s/it] 23%|██▎       | 18280/78504 [11:06:57<17:15:43,  1.03s/it]                                                           {'loss': 0.2111, 'grad_norm': 1.0445983409881592, 'learning_rate': 2.557555942422827e-05, 'epoch': 5.59}
 23%|██▎       | 18280/78504 [11:06:57<17:15:43,  1.03s/it] 23%|██▎       | 18281/78504 [11:07:07<58:36:13,  3.50s/it]                                                           {'loss': 0.1476, 'grad_norm': 0.5158277750015259, 'learning_rate': 2.5575134813808332e-05, 'epoch': 5.59}
 23%|██▎       | 18281/78504 [11:07:07<58:36:13,  3.50s/it] 23%|██▎       | 18282/78504 [11:07:10<57:46:10,  3.45s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.2924502491950989, 'learning_rate': 2.557471020338839e-05, 'epoch': 5.59}
 23%|██▎       | 18282/78504 [11:07:10<57:46:10,  3.45s/it] 23%|██▎       | 18283/78504 [11:07:13<55:31:41,  3.32s/it]                                                           {'loss': 0.0539, 'grad_norm': 0.30518248677253723, 'learning_rate': 2.5574285592968453e-05, 'epoch': 5.59}
 23%|██▎       | 18283/78504 [11:07:13<55:31:41,  3.32s/it] 23%|██▎       | 18284/78504 [11:07:16<51:58:47,  3.11s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.28949207067489624, 'learning_rate': 2.557386098254851e-05, 'epoch': 5.59}
 23%|██▎       | 18284/78504 [11:07:16<51:58:47,  3.11s/it] 23%|██▎       | 18285/78504 [11:07:18<48:45:04,  2.91s/it]                                                           {'loss': 0.068, 'grad_norm': 0.30180981755256653, 'learning_rate': 2.5573436372128574e-05, 'epoch': 5.59}
 23%|██▎       | 18285/78504 [11:07:18<48:45:04,  2.91s/it] 23%|██▎       | 18286/78504 [11:07:20<45:28:50,  2.72s/it]                                                           {'loss': 0.0367, 'grad_norm': 0.13290192186832428, 'learning_rate': 2.5573011761708632e-05, 'epoch': 5.59}
 23%|██▎       | 18286/78504 [11:07:20<45:28:50,  2.72s/it] 23%|██▎       | 18287/78504 [11:07:23<43:25:46,  2.60s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.2858189642429352, 'learning_rate': 2.5572587151288694e-05, 'epoch': 5.59}
 23%|██▎       | 18287/78504 [11:07:23<43:25:46,  2.60s/it] 23%|██▎       | 18288/78504 [11:07:25<40:53:54,  2.45s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.6638586521148682, 'learning_rate': 2.5572162540868753e-05, 'epoch': 5.59}
 23%|██▎       | 18288/78504 [11:07:25<40:53:54,  2.45s/it] 23%|██▎       | 18289/78504 [11:07:27<38:45:27,  2.32s/it]                                                           {'loss': 0.0708, 'grad_norm': 0.5358924269676208, 'learning_rate': 2.5571737930448815e-05, 'epoch': 5.59}
 23%|██▎       | 18289/78504 [11:07:27<38:45:27,  2.32s/it] 23%|██▎       | 18290/78504 [11:07:29<37:51:06,  2.26s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.39520156383514404, 'learning_rate': 2.5571313320028874e-05, 'epoch': 5.59}
 23%|██▎       | 18290/78504 [11:07:29<37:51:06,  2.26s/it] 23%|██▎       | 18291/78504 [11:07:31<36:28:15,  2.18s/it]                                                           {'loss': 0.0947, 'grad_norm': 0.3666377663612366, 'learning_rate': 2.5570888709608936e-05, 'epoch': 5.59}
 23%|██▎       | 18291/78504 [11:07:31<36:28:15,  2.18s/it] 23%|██▎       | 18292/78504 [11:07:33<35:08:01,  2.10s/it]                                                           {'loss': 0.0743, 'grad_norm': 0.2805826961994171, 'learning_rate': 2.5570464099188995e-05, 'epoch': 5.59}
 23%|██▎       | 18292/78504 [11:07:33<35:08:01,  2.10s/it] 23%|██▎       | 18293/78504 [11:07:35<33:57:13,  2.03s/it]                                                           {'loss': 0.0899, 'grad_norm': 0.2662874460220337, 'learning_rate': 2.5570039488769053e-05, 'epoch': 5.59}
 23%|██▎       | 18293/78504 [11:07:35<33:57:13,  2.03s/it] 23%|██▎       | 18294/78504 [11:07:36<32:22:47,  1.94s/it]                                                           {'loss': 0.1027, 'grad_norm': 0.43489620089530945, 'learning_rate': 2.5569614878349116e-05, 'epoch': 5.59}
 23%|██▎       | 18294/78504 [11:07:36<32:22:47,  1.94s/it] 23%|██▎       | 18295/78504 [11:07:38<31:30:15,  1.88s/it]                                                           {'loss': 0.1545, 'grad_norm': 0.45221394300460815, 'learning_rate': 2.5569190267929174e-05, 'epoch': 5.59}
 23%|██▎       | 18295/78504 [11:07:38<31:30:15,  1.88s/it] 23%|██▎       | 18296/78504 [11:07:40<30:17:24,  1.81s/it]                                                           {'loss': 0.1243, 'grad_norm': 0.4465176463127136, 'learning_rate': 2.5568765657509236e-05, 'epoch': 5.59}
 23%|██▎       | 18296/78504 [11:07:40<30:17:24,  1.81s/it] 23%|██▎       | 18297/78504 [11:07:41<28:48:19,  1.72s/it]                                                           {'loss': 0.189, 'grad_norm': 2.5913608074188232, 'learning_rate': 2.5568341047089295e-05, 'epoch': 5.59}
 23%|██▎       | 18297/78504 [11:07:41<28:48:19,  1.72s/it] 23%|██▎       | 18298/78504 [11:07:43<27:22:52,  1.64s/it]                                                           {'loss': 0.1542, 'grad_norm': 0.9094834923744202, 'learning_rate': 2.5567916436669357e-05, 'epoch': 5.59}
 23%|██▎       | 18298/78504 [11:07:43<27:22:52,  1.64s/it] 23%|██▎       | 18299/78504 [11:07:44<26:15:12,  1.57s/it]                                                           {'loss': 0.1738, 'grad_norm': 0.4633389413356781, 'learning_rate': 2.5567491826249416e-05, 'epoch': 5.59}
 23%|██▎       | 18299/78504 [11:07:44<26:15:12,  1.57s/it] 23%|██▎       | 18300/78504 [11:07:45<24:29:14,  1.46s/it]                                                           {'loss': 0.1534, 'grad_norm': 0.5642329454421997, 'learning_rate': 2.5567067215829478e-05, 'epoch': 5.59}
 23%|██▎       | 18300/78504 [11:07:45<24:29:14,  1.46s/it] 23%|██▎       | 18301/78504 [11:07:47<22:55:15,  1.37s/it]                                                           {'loss': 0.1533, 'grad_norm': 0.5438848733901978, 'learning_rate': 2.5566642605409537e-05, 'epoch': 5.59}
 23%|██▎       | 18301/78504 [11:07:47<22:55:15,  1.37s/it] 23%|██▎       | 18302/78504 [11:07:48<21:34:42,  1.29s/it]                                                           {'loss': 0.169, 'grad_norm': 1.0531153678894043, 'learning_rate': 2.55662179949896e-05, 'epoch': 5.6}
 23%|██▎       | 18302/78504 [11:07:48<21:34:42,  1.29s/it] 23%|██▎       | 18303/78504 [11:07:49<20:02:28,  1.20s/it]                                                           {'loss': 0.1932, 'grad_norm': 1.092287302017212, 'learning_rate': 2.5565793384569657e-05, 'epoch': 5.6}
 23%|██▎       | 18303/78504 [11:07:49<20:02:28,  1.20s/it] 23%|██▎       | 18304/78504 [11:07:50<18:40:54,  1.12s/it]                                                           {'loss': 0.1669, 'grad_norm': 0.9711857438087463, 'learning_rate': 2.5565368774149716e-05, 'epoch': 5.6}
 23%|██▎       | 18304/78504 [11:07:50<18:40:54,  1.12s/it] 23%|██▎       | 18305/78504 [11:07:50<17:07:28,  1.02s/it]                                                           {'loss': 0.2212, 'grad_norm': 2.179421901702881, 'learning_rate': 2.5564944163729778e-05, 'epoch': 5.6}
 23%|██▎       | 18305/78504 [11:07:50<17:07:28,  1.02s/it] 23%|██▎       | 18306/78504 [11:08:00<58:25:36,  3.49s/it]                                                           {'loss': 0.1173, 'grad_norm': 0.3701043725013733, 'learning_rate': 2.5564519553309837e-05, 'epoch': 5.6}
 23%|██▎       | 18306/78504 [11:08:00<58:25:36,  3.49s/it] 23%|██▎       | 18307/78504 [11:08:03<57:07:54,  3.42s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.5180609226226807, 'learning_rate': 2.55640949428899e-05, 'epoch': 5.6}
 23%|██▎       | 18307/78504 [11:08:03<57:07:54,  3.42s/it] 23%|██▎       | 18308/78504 [11:08:06<54:54:19,  3.28s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.5908294916152954, 'learning_rate': 2.5563670332469958e-05, 'epoch': 5.6}
 23%|██▎       | 18308/78504 [11:08:06<54:54:19,  3.28s/it] 23%|██▎       | 18309/78504 [11:08:08<51:25:24,  3.08s/it]                                                           {'loss': 0.0414, 'grad_norm': 0.2464517503976822, 'learning_rate': 2.556324572205002e-05, 'epoch': 5.6}
 23%|██▎       | 18309/78504 [11:08:08<51:25:24,  3.08s/it] 23%|██▎       | 18310/78504 [11:08:11<48:12:42,  2.88s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.3050457835197449, 'learning_rate': 2.556282111163008e-05, 'epoch': 5.6}
 23%|██▎       | 18310/78504 [11:08:11<48:12:42,  2.88s/it] 23%|██▎       | 18311/78504 [11:08:13<45:33:03,  2.72s/it]                                                           {'loss': 0.0938, 'grad_norm': 3.5179948806762695, 'learning_rate': 2.556239650121014e-05, 'epoch': 5.6}
 23%|██▎       | 18311/78504 [11:08:13<45:33:03,  2.72s/it] 23%|██▎       | 18312/78504 [11:08:16<43:34:02,  2.61s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.45646238327026367, 'learning_rate': 2.55619718907902e-05, 'epoch': 5.6}
 23%|██▎       | 18312/78504 [11:08:16<43:34:02,  2.61s/it] 23%|██▎       | 18313/78504 [11:08:18<40:57:04,  2.45s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.46691322326660156, 'learning_rate': 2.556154728037026e-05, 'epoch': 5.6}
 23%|██▎       | 18313/78504 [11:08:18<40:57:04,  2.45s/it] 23%|██▎       | 18314/78504 [11:08:20<39:39:22,  2.37s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.36241424083709717, 'learning_rate': 2.556112266995032e-05, 'epoch': 5.6}
 23%|██▎       | 18314/78504 [11:08:20<39:39:22,  2.37s/it] 23%|██▎       | 18315/78504 [11:08:22<38:26:31,  2.30s/it]                                                           {'loss': 0.074, 'grad_norm': 0.4105997085571289, 'learning_rate': 2.5560698059530382e-05, 'epoch': 5.6}
 23%|██▎       | 18315/78504 [11:08:22<38:26:31,  2.30s/it] 23%|██▎       | 18316/78504 [11:08:24<36:51:33,  2.20s/it]                                                           {'loss': 0.1143, 'grad_norm': 0.8527687191963196, 'learning_rate': 2.556027344911044e-05, 'epoch': 5.6}
 23%|██▎       | 18316/78504 [11:08:24<36:51:33,  2.20s/it] 23%|██▎       | 18317/78504 [11:08:26<35:26:47,  2.12s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.37523311376571655, 'learning_rate': 2.55598488386905e-05, 'epoch': 5.6}
 23%|██▎       | 18317/78504 [11:08:26<35:26:47,  2.12s/it] 23%|██▎       | 18318/78504 [11:08:28<34:08:31,  2.04s/it]                                                           {'loss': 0.1002, 'grad_norm': 0.7474581003189087, 'learning_rate': 2.555942422827056e-05, 'epoch': 5.6}
 23%|██▎       | 18318/78504 [11:08:28<34:08:31,  2.04s/it] 23%|██▎       | 18319/78504 [11:08:29<32:32:50,  1.95s/it]                                                           {'loss': 0.123, 'grad_norm': 0.6421859264373779, 'learning_rate': 2.555899961785062e-05, 'epoch': 5.6}
 23%|██▎       | 18319/78504 [11:08:29<32:32:50,  1.95s/it] 23%|██▎       | 18320/78504 [11:08:31<31:23:38,  1.88s/it]                                                           {'loss': 0.1767, 'grad_norm': 0.4499695301055908, 'learning_rate': 2.5558575007430682e-05, 'epoch': 5.6}
 23%|██▎       | 18320/78504 [11:08:31<31:23:38,  1.88s/it] 23%|██▎       | 18321/78504 [11:08:33<30:12:11,  1.81s/it]                                                           {'loss': 0.1281, 'grad_norm': 1.2326194047927856, 'learning_rate': 2.555815039701074e-05, 'epoch': 5.6}
 23%|██▎       | 18321/78504 [11:08:33<30:12:11,  1.81s/it] 23%|██▎       | 18322/78504 [11:08:34<28:45:51,  1.72s/it]                                                           {'loss': 0.1583, 'grad_norm': 0.5783007740974426, 'learning_rate': 2.5557725786590803e-05, 'epoch': 5.6}
 23%|██▎       | 18322/78504 [11:08:34<28:45:51,  1.72s/it] 23%|██▎       | 18323/78504 [11:08:36<27:18:21,  1.63s/it]                                                           {'loss': 0.1774, 'grad_norm': 0.6018354892730713, 'learning_rate': 2.5557301176170862e-05, 'epoch': 5.6}
 23%|██▎       | 18323/78504 [11:08:36<27:18:21,  1.63s/it] 23%|██▎       | 18324/78504 [11:08:37<26:11:16,  1.57s/it]                                                           {'loss': 0.1687, 'grad_norm': 0.6259329915046692, 'learning_rate': 2.5556876565750924e-05, 'epoch': 5.6}
 23%|██▎       | 18324/78504 [11:08:37<26:11:16,  1.57s/it] 23%|██▎       | 18325/78504 [11:08:38<24:42:48,  1.48s/it]                                                           {'loss': 0.1305, 'grad_norm': 1.1085996627807617, 'learning_rate': 2.5556451955330983e-05, 'epoch': 5.6}
 23%|██▎       | 18325/78504 [11:08:38<24:42:48,  1.48s/it] 23%|██▎       | 18326/78504 [11:08:40<23:03:24,  1.38s/it]                                                           {'loss': 0.1693, 'grad_norm': 1.0240309238433838, 'learning_rate': 2.5556027344911045e-05, 'epoch': 5.6}
 23%|██▎       | 18326/78504 [11:08:40<23:03:24,  1.38s/it] 23%|██▎       | 18327/78504 [11:08:41<21:38:28,  1.29s/it]                                                           {'loss': 0.1946, 'grad_norm': 1.677309274673462, 'learning_rate': 2.5555602734491103e-05, 'epoch': 5.6}
 23%|██▎       | 18327/78504 [11:08:41<21:38:28,  1.29s/it] 23%|██▎       | 18328/78504 [11:08:42<20:24:11,  1.22s/it]                                                           {'loss': 0.1978, 'grad_norm': 1.1795698404312134, 'learning_rate': 2.5555178124071166e-05, 'epoch': 5.6}
 23%|██▎       | 18328/78504 [11:08:42<20:24:11,  1.22s/it] 23%|██▎       | 18329/78504 [11:08:43<18:56:07,  1.13s/it]                                                           {'loss': 0.164, 'grad_norm': 0.7014297842979431, 'learning_rate': 2.5554753513651224e-05, 'epoch': 5.6}
 23%|██▎       | 18329/78504 [11:08:43<18:56:07,  1.13s/it] 23%|██▎       | 18330/78504 [11:08:43<17:09:03,  1.03s/it]                                                           {'loss': 0.221, 'grad_norm': 1.456209421157837, 'learning_rate': 2.5554328903231283e-05, 'epoch': 5.6}
 23%|██▎       | 18330/78504 [11:08:43<17:09:03,  1.03s/it] 23%|██▎       | 18331/78504 [11:08:52<54:15:25,  3.25s/it]                                                           {'loss': 0.134, 'grad_norm': 0.6593865156173706, 'learning_rate': 2.5553904292811345e-05, 'epoch': 5.6}
 23%|██▎       | 18331/78504 [11:08:52<54:15:25,  3.25s/it] 23%|██▎       | 18332/78504 [11:08:55<54:32:01,  3.26s/it]                                                           {'loss': 0.0909, 'grad_norm': 0.556879460811615, 'learning_rate': 2.5553479682391404e-05, 'epoch': 5.6}
 23%|██▎       | 18332/78504 [11:08:55<54:32:01,  3.26s/it] 23%|██▎       | 18333/78504 [11:08:58<53:06:35,  3.18s/it]                                                           {'loss': 0.0636, 'grad_norm': 0.2810749113559723, 'learning_rate': 2.5553055071971466e-05, 'epoch': 5.6}
 23%|██▎       | 18333/78504 [11:08:58<53:06:35,  3.18s/it] 23%|██▎       | 18334/78504 [11:09:01<50:08:19,  3.00s/it]                                                           {'loss': 0.044, 'grad_norm': 0.19630540907382965, 'learning_rate': 2.5552630461551525e-05, 'epoch': 5.61}
 23%|██▎       | 18334/78504 [11:09:01<50:08:19,  3.00s/it] 23%|██▎       | 18335/78504 [11:09:03<46:55:20,  2.81s/it]                                                           {'loss': 0.072, 'grad_norm': 0.21681417524814606, 'learning_rate': 2.5552205851131587e-05, 'epoch': 5.61}
 23%|██▎       | 18335/78504 [11:09:03<46:55:20,  2.81s/it] 23%|██▎       | 18336/78504 [11:09:05<44:10:17,  2.64s/it]                                                           {'loss': 0.0381, 'grad_norm': 0.25979942083358765, 'learning_rate': 2.5551781240711645e-05, 'epoch': 5.61}
 23%|██▎       | 18336/78504 [11:09:05<44:10:17,  2.64s/it] 23%|██▎       | 18337/78504 [11:09:08<42:31:54,  2.54s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.2653813064098358, 'learning_rate': 2.5551356630291707e-05, 'epoch': 5.61}
 23%|██▎       | 18337/78504 [11:09:08<42:31:54,  2.54s/it] 23%|██▎       | 18338/78504 [11:09:10<40:17:14,  2.41s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.25605547428131104, 'learning_rate': 2.5550932019871766e-05, 'epoch': 5.61}
 23%|██▎       | 18338/78504 [11:09:10<40:17:14,  2.41s/it] 23%|██▎       | 18339/78504 [11:09:12<39:08:11,  2.34s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.2844046652317047, 'learning_rate': 2.5550507409451828e-05, 'epoch': 5.61}
 23%|██▎       | 18339/78504 [11:09:12<39:08:11,  2.34s/it] 23%|██▎       | 18340/78504 [11:09:14<38:08:27,  2.28s/it]                                                           {'loss': 0.0396, 'grad_norm': 0.2867510914802551, 'learning_rate': 2.5550082799031887e-05, 'epoch': 5.61}
 23%|██▎       | 18340/78504 [11:09:14<38:08:27,  2.28s/it] 23%|██▎       | 18341/78504 [11:09:16<36:49:37,  2.20s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.2644846737384796, 'learning_rate': 2.554965818861195e-05, 'epoch': 5.61}
 23%|██▎       | 18341/78504 [11:09:16<36:49:37,  2.20s/it] 23%|██▎       | 18342/78504 [11:09:18<35:42:31,  2.14s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.3620111644268036, 'learning_rate': 2.554923357819201e-05, 'epoch': 5.61}
 23%|██▎       | 18342/78504 [11:09:18<35:42:31,  2.14s/it] 23%|██▎       | 18343/78504 [11:09:20<34:21:18,  2.06s/it]                                                           {'loss': 0.1287, 'grad_norm': 0.7335001230239868, 'learning_rate': 2.554880896777207e-05, 'epoch': 5.61}
 23%|██▎       | 18343/78504 [11:09:20<34:21:18,  2.06s/it] 23%|██▎       | 18344/78504 [11:09:22<32:41:09,  1.96s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.6635366082191467, 'learning_rate': 2.5548384357352132e-05, 'epoch': 5.61}
 23%|██▎       | 18344/78504 [11:09:22<32:41:09,  1.96s/it] 23%|██▎       | 18345/78504 [11:09:23<31:10:52,  1.87s/it]                                                           {'loss': 0.1211, 'grad_norm': 0.7507050037384033, 'learning_rate': 2.554795974693219e-05, 'epoch': 5.61}
 23%|██▎       | 18345/78504 [11:09:23<31:10:52,  1.87s/it] 23%|██▎       | 18346/78504 [11:09:25<30:04:07,  1.80s/it]                                                           {'loss': 0.126, 'grad_norm': 0.4637993574142456, 'learning_rate': 2.5547535136512253e-05, 'epoch': 5.61}
 23%|██▎       | 18346/78504 [11:09:25<30:04:07,  1.80s/it] 23%|██▎       | 18347/78504 [11:09:26<28:40:54,  1.72s/it]                                                           {'loss': 0.1478, 'grad_norm': 1.0918055772781372, 'learning_rate': 2.554711052609231e-05, 'epoch': 5.61}
 23%|██▎       | 18347/78504 [11:09:26<28:40:54,  1.72s/it] 23%|██▎       | 18348/78504 [11:09:28<27:26:16,  1.64s/it]                                                           {'loss': 0.1589, 'grad_norm': 0.43471693992614746, 'learning_rate': 2.5546685915672373e-05, 'epoch': 5.61}
 23%|██▎       | 18348/78504 [11:09:28<27:26:16,  1.64s/it] 23%|██▎       | 18349/78504 [11:09:29<26:18:58,  1.57s/it]                                                           {'loss': 0.2077, 'grad_norm': 0.6311132907867432, 'learning_rate': 2.5546261305252432e-05, 'epoch': 5.61}
 23%|██▎       | 18349/78504 [11:09:29<26:18:58,  1.57s/it] 23%|██▎       | 18350/78504 [11:09:31<24:32:16,  1.47s/it]                                                           {'loss': 0.1843, 'grad_norm': 2.1593711376190186, 'learning_rate': 2.5545836694832494e-05, 'epoch': 5.61}
 23%|██▎       | 18350/78504 [11:09:31<24:32:16,  1.47s/it] 23%|██▎       | 18351/78504 [11:09:32<22:56:48,  1.37s/it]                                                           {'loss': 0.17, 'grad_norm': 0.800590455532074, 'learning_rate': 2.5545412084412553e-05, 'epoch': 5.61}
 23%|██▎       | 18351/78504 [11:09:32<22:56:48,  1.37s/it] 23%|██▎       | 18352/78504 [11:09:33<21:33:39,  1.29s/it]                                                           {'loss': 0.1841, 'grad_norm': 0.9671453237533569, 'learning_rate': 2.5544987473992615e-05, 'epoch': 5.61}
 23%|██▎       | 18352/78504 [11:09:33<21:33:39,  1.29s/it] 23%|██▎       | 18353/78504 [11:09:34<20:01:10,  1.20s/it]                                                           {'loss': 0.1729, 'grad_norm': 0.575558066368103, 'learning_rate': 2.5544562863572674e-05, 'epoch': 5.61}
 23%|██▎       | 18353/78504 [11:09:34<20:01:10,  1.20s/it] 23%|██▎       | 18354/78504 [11:09:35<18:40:52,  1.12s/it]                                                           {'loss': 0.2113, 'grad_norm': 1.407077431678772, 'learning_rate': 2.5544138253152736e-05, 'epoch': 5.61}
 23%|██▎       | 18354/78504 [11:09:35<18:40:52,  1.12s/it] 23%|██▎       | 18355/78504 [11:09:36<17:01:03,  1.02s/it]                                                           {'loss': 0.2013, 'grad_norm': 2.2530078887939453, 'learning_rate': 2.5543713642732795e-05, 'epoch': 5.61}
 23%|██▎       | 18355/78504 [11:09:36<17:01:03,  1.02s/it] 23%|██▎       | 18356/78504 [11:09:45<57:40:11,  3.45s/it]                                                           {'loss': 0.1365, 'grad_norm': 1.2347095012664795, 'learning_rate': 2.5543289032312853e-05, 'epoch': 5.61}
 23%|██▎       | 18356/78504 [11:09:45<57:40:11,  3.45s/it] 23%|██▎       | 18357/78504 [11:09:48<56:03:50,  3.36s/it]                                                           {'loss': 0.0951, 'grad_norm': 0.27907806634902954, 'learning_rate': 2.5542864421892915e-05, 'epoch': 5.61}
 23%|██▎       | 18357/78504 [11:09:48<56:03:50,  3.36s/it] 23%|██▎       | 18358/78504 [11:09:50<52:07:07,  3.12s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.2175348848104477, 'learning_rate': 2.5542439811472974e-05, 'epoch': 5.61}
 23%|██▎       | 18358/78504 [11:09:50<52:07:07,  3.12s/it] 23%|██▎       | 18359/78504 [11:09:53<49:35:13,  2.97s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.5466992855072021, 'learning_rate': 2.5542015201053036e-05, 'epoch': 5.61}
 23%|██▎       | 18359/78504 [11:09:53<49:35:13,  2.97s/it] 23%|██▎       | 18360/78504 [11:09:55<47:02:49,  2.82s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.3007045388221741, 'learning_rate': 2.5541590590633095e-05, 'epoch': 5.61}
 23%|██▎       | 18360/78504 [11:09:55<47:02:49,  2.82s/it] 23%|██▎       | 18361/78504 [11:09:58<45:06:22,  2.70s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.3950837552547455, 'learning_rate': 2.5541165980213157e-05, 'epoch': 5.61}
 23%|██▎       | 18361/78504 [11:09:58<45:06:22,  2.70s/it] 23%|██▎       | 18362/78504 [11:10:00<43:09:25,  2.58s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.3152276575565338, 'learning_rate': 2.5540741369793216e-05, 'epoch': 5.61}
 23%|██▎       | 18362/78504 [11:10:00<43:09:25,  2.58s/it] 23%|██▎       | 18363/78504 [11:10:02<41:44:42,  2.50s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.2755364179611206, 'learning_rate': 2.5540316759373278e-05, 'epoch': 5.61}
 23%|██▎       | 18363/78504 [11:10:02<41:44:42,  2.50s/it] 23%|██▎       | 18364/78504 [11:10:05<40:07:54,  2.40s/it]                                                           {'loss': 0.0401, 'grad_norm': 0.3574415147304535, 'learning_rate': 2.5539892148953336e-05, 'epoch': 5.61}
 23%|██▎       | 18364/78504 [11:10:05<40:07:54,  2.40s/it] 23%|██▎       | 18365/78504 [11:10:07<38:55:13,  2.33s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.3049468994140625, 'learning_rate': 2.55394675385334e-05, 'epoch': 5.61}
 23%|██▎       | 18365/78504 [11:10:07<38:55:13,  2.33s/it] 23%|██▎       | 18366/78504 [11:10:09<37:24:57,  2.24s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.32711291313171387, 'learning_rate': 2.5539042928113457e-05, 'epoch': 5.61}
 23%|██▎       | 18366/78504 [11:10:09<37:24:57,  2.24s/it] 23%|██▎       | 18367/78504 [11:10:11<36:06:54,  2.16s/it]                                                           {'loss': 0.082, 'grad_norm': 0.2703985273838043, 'learning_rate': 2.553861831769352e-05, 'epoch': 5.62}
 23%|██▎       | 18367/78504 [11:10:11<36:06:54,  2.16s/it] 23%|██▎       | 18368/78504 [11:10:13<34:53:08,  2.09s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.6479877829551697, 'learning_rate': 2.5538193707273578e-05, 'epoch': 5.62}
 23%|██▎       | 18368/78504 [11:10:13<34:53:08,  2.09s/it] 23%|██▎       | 18369/78504 [11:10:15<33:47:26,  2.02s/it]                                                           {'loss': 0.1142, 'grad_norm': 0.5852622389793396, 'learning_rate': 2.5537769096853637e-05, 'epoch': 5.62}
 23%|██▎       | 18369/78504 [11:10:15<33:47:26,  2.02s/it] 23%|██▎       | 18370/78504 [11:10:16<32:29:00,  1.94s/it]                                                           {'loss': 0.1224, 'grad_norm': 0.7199486494064331, 'learning_rate': 2.55373444864337e-05, 'epoch': 5.62}
 23%|██▎       | 18370/78504 [11:10:16<32:29:00,  1.94s/it] 23%|██▎       | 18371/78504 [11:10:18<30:58:14,  1.85s/it]                                                           {'loss': 0.1378, 'grad_norm': 1.0010203123092651, 'learning_rate': 2.5536919876013757e-05, 'epoch': 5.62}
 23%|██▎       | 18371/78504 [11:10:18<30:58:14,  1.85s/it] 23%|██▎       | 18372/78504 [11:10:20<29:24:25,  1.76s/it]                                                           {'loss': 0.1366, 'grad_norm': 0.5241647362709045, 'learning_rate': 2.553649526559382e-05, 'epoch': 5.62}
 23%|██▎       | 18372/78504 [11:10:20<29:24:25,  1.76s/it] 23%|██▎       | 18373/78504 [11:10:21<27:55:17,  1.67s/it]                                                           {'loss': 0.1675, 'grad_norm': 1.2921569347381592, 'learning_rate': 2.5536070655173878e-05, 'epoch': 5.62}
 23%|██▎       | 18373/78504 [11:10:21<27:55:17,  1.67s/it] 23%|██▎       | 18374/78504 [11:10:22<26:38:46,  1.60s/it]                                                           {'loss': 0.165, 'grad_norm': 0.7712802290916443, 'learning_rate': 2.553564604475394e-05, 'epoch': 5.62}
 23%|██▎       | 18374/78504 [11:10:22<26:38:46,  1.60s/it] 23%|██▎       | 18375/78504 [11:10:24<25:04:27,  1.50s/it]                                                           {'loss': 0.1565, 'grad_norm': 0.6041282415390015, 'learning_rate': 2.5535221434334e-05, 'epoch': 5.62}
 23%|██▎       | 18375/78504 [11:10:24<25:04:27,  1.50s/it] 23%|██▎       | 18376/78504 [11:10:25<23:18:30,  1.40s/it]                                                           {'loss': 0.1993, 'grad_norm': 0.6444793343544006, 'learning_rate': 2.553479682391406e-05, 'epoch': 5.62}
 23%|██▎       | 18376/78504 [11:10:25<23:18:30,  1.40s/it] 23%|██▎       | 18377/78504 [11:10:26<21:46:53,  1.30s/it]                                                           {'loss': 0.1833, 'grad_norm': 1.4104039669036865, 'learning_rate': 2.553437221349412e-05, 'epoch': 5.62}
 23%|██▎       | 18377/78504 [11:10:26<21:46:53,  1.30s/it] 23%|██▎       | 18378/78504 [11:10:27<20:13:07,  1.21s/it]                                                           {'loss': 0.1817, 'grad_norm': 0.7025769352912903, 'learning_rate': 2.5533947603074182e-05, 'epoch': 5.62}
 23%|██▎       | 18378/78504 [11:10:27<20:13:07,  1.21s/it] 23%|██▎       | 18379/78504 [11:10:28<18:49:56,  1.13s/it]                                                           {'loss': 0.2198, 'grad_norm': 1.3158737421035767, 'learning_rate': 2.553352299265424e-05, 'epoch': 5.62}
 23%|██▎       | 18379/78504 [11:10:28<18:49:56,  1.13s/it] 23%|██▎       | 18380/78504 [11:10:29<17:05:07,  1.02s/it]                                                           {'loss': 0.1984, 'grad_norm': 1.2085230350494385, 'learning_rate': 2.5533098382234303e-05, 'epoch': 5.62}
 23%|██▎       | 18380/78504 [11:10:29<17:05:07,  1.02s/it] 23%|██▎       | 18381/78504 [11:10:39<62:36:58,  3.75s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.3944307565689087, 'learning_rate': 2.553267377181436e-05, 'epoch': 5.62}
 23%|██▎       | 18381/78504 [11:10:39<62:36:58,  3.75s/it] 23%|██▎       | 18382/78504 [11:10:42<60:37:03,  3.63s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.3044701814651489, 'learning_rate': 2.553224916139442e-05, 'epoch': 5.62}
 23%|██▎       | 18382/78504 [11:10:42<60:37:03,  3.63s/it] 23%|██▎       | 18383/78504 [11:10:45<57:30:17,  3.44s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.323711633682251, 'learning_rate': 2.5531824550974482e-05, 'epoch': 5.62}
 23%|██▎       | 18383/78504 [11:10:45<57:30:17,  3.44s/it] 23%|██▎       | 18384/78504 [11:10:48<53:13:03,  3.19s/it]                                                           {'loss': 0.055, 'grad_norm': 0.2655865550041199, 'learning_rate': 2.553139994055454e-05, 'epoch': 5.62}
 23%|██▎       | 18384/78504 [11:10:48<53:13:03,  3.19s/it] 23%|██▎       | 18385/78504 [11:10:50<49:01:59,  2.94s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.1908949613571167, 'learning_rate': 2.5530975330134603e-05, 'epoch': 5.62}
 23%|██▎       | 18385/78504 [11:10:50<49:01:59,  2.94s/it] 23%|██▎       | 18386/78504 [11:10:52<45:40:17,  2.73s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.2946237623691559, 'learning_rate': 2.553055071971466e-05, 'epoch': 5.62}
 23%|██▎       | 18386/78504 [11:10:52<45:40:17,  2.73s/it] 23%|██▎       | 18387/78504 [11:10:55<43:38:35,  2.61s/it]                                                           {'loss': 0.0506, 'grad_norm': 0.15077988803386688, 'learning_rate': 2.5530126109294724e-05, 'epoch': 5.62}
 23%|██▎       | 18387/78504 [11:10:55<43:38:35,  2.61s/it] 23%|██▎       | 18388/78504 [11:10:57<40:59:06,  2.45s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.18089918792247772, 'learning_rate': 2.5529701498874782e-05, 'epoch': 5.62}
 23%|██▎       | 18388/78504 [11:10:57<40:59:06,  2.45s/it] 23%|██▎       | 18389/78504 [11:10:59<38:50:04,  2.33s/it]                                                           {'loss': 0.0934, 'grad_norm': 0.49957138299942017, 'learning_rate': 2.5529276888454845e-05, 'epoch': 5.62}
 23%|██▎       | 18389/78504 [11:10:59<38:50:04,  2.33s/it] 23%|██▎       | 18390/78504 [11:11:01<37:52:44,  2.27s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.17919307947158813, 'learning_rate': 2.5528852278034903e-05, 'epoch': 5.62}
 23%|██▎       | 18390/78504 [11:11:01<37:52:44,  2.27s/it] 23%|██▎       | 18391/78504 [11:11:03<36:38:02,  2.19s/it]                                                           {'loss': 0.0724, 'grad_norm': 0.4282303750514984, 'learning_rate': 2.5528427667614965e-05, 'epoch': 5.62}
 23%|██▎       | 18391/78504 [11:11:03<36:38:02,  2.19s/it] 23%|██▎       | 18392/78504 [11:11:05<35:32:52,  2.13s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.3802656829357147, 'learning_rate': 2.5528003057195024e-05, 'epoch': 5.62}
 23%|██▎       | 18392/78504 [11:11:05<35:32:52,  2.13s/it] 23%|██▎       | 18393/78504 [11:11:07<34:17:59,  2.05s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.5588738322257996, 'learning_rate': 2.5527578446775086e-05, 'epoch': 5.62}
 23%|██▎       | 18393/78504 [11:11:07<34:17:59,  2.05s/it] 23%|██▎       | 18394/78504 [11:11:09<33:20:33,  2.00s/it]                                                           {'loss': 0.1115, 'grad_norm': 0.8118077516555786, 'learning_rate': 2.5527153836355145e-05, 'epoch': 5.62}
 23%|██▎       | 18394/78504 [11:11:09<33:20:33,  2.00s/it] 23%|██▎       | 18395/78504 [11:11:10<32:11:33,  1.93s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.46445631980895996, 'learning_rate': 2.5526729225935203e-05, 'epoch': 5.62}
 23%|██▎       | 18395/78504 [11:11:10<32:11:33,  1.93s/it] 23%|██▎       | 18396/78504 [11:11:12<30:47:41,  1.84s/it]                                                           {'loss': 0.1105, 'grad_norm': 0.5238533020019531, 'learning_rate': 2.5526304615515266e-05, 'epoch': 5.62}
 23%|██▎       | 18396/78504 [11:11:12<30:47:41,  1.84s/it] 23%|██▎       | 18397/78504 [11:11:14<29:15:01,  1.75s/it]                                                           {'loss': 0.146, 'grad_norm': 0.6106948852539062, 'learning_rate': 2.5525880005095324e-05, 'epoch': 5.62}
 23%|██▎       | 18397/78504 [11:11:14<29:15:01,  1.75s/it] 23%|██▎       | 18398/78504 [11:11:15<27:51:07,  1.67s/it]                                                           {'loss': 0.1471, 'grad_norm': 0.7683594822883606, 'learning_rate': 2.5525455394675386e-05, 'epoch': 5.62}
 23%|██▎       | 18398/78504 [11:11:15<27:51:07,  1.67s/it] 23%|██▎       | 18399/78504 [11:11:17<26:36:39,  1.59s/it]                                                           {'loss': 0.1861, 'grad_norm': 0.6357750296592712, 'learning_rate': 2.5525030784255445e-05, 'epoch': 5.62}
 23%|██▎       | 18399/78504 [11:11:17<26:36:39,  1.59s/it] 23%|██▎       | 18400/78504 [11:11:18<25:00:17,  1.50s/it]                                                           {'loss': 0.1823, 'grad_norm': 0.7400969862937927, 'learning_rate': 2.5524606173835507e-05, 'epoch': 5.63}
 23%|██▎       | 18400/78504 [11:11:18<25:00:17,  1.50s/it] 23%|██▎       | 18401/78504 [11:11:19<23:14:24,  1.39s/it]                                                           {'loss': 0.1734, 'grad_norm': 1.8920694589614868, 'learning_rate': 2.5524181563415566e-05, 'epoch': 5.63}
 23%|██▎       | 18401/78504 [11:11:19<23:14:24,  1.39s/it] 23%|██▎       | 18402/78504 [11:11:20<21:48:49,  1.31s/it]                                                           {'loss': 0.1563, 'grad_norm': 0.73150235414505, 'learning_rate': 2.5523756952995628e-05, 'epoch': 5.63}
 23%|██▎       | 18402/78504 [11:11:20<21:48:49,  1.31s/it] 23%|██▎       | 18403/78504 [11:11:21<20:14:45,  1.21s/it]                                                           {'loss': 0.176, 'grad_norm': 0.7553536295890808, 'learning_rate': 2.5523332342575687e-05, 'epoch': 5.63}
 23%|██▎       | 18403/78504 [11:11:21<20:14:45,  1.21s/it] 23%|██▎       | 18404/78504 [11:11:22<18:54:22,  1.13s/it]                                                           {'loss': 0.1927, 'grad_norm': 0.765883207321167, 'learning_rate': 2.552290773215575e-05, 'epoch': 5.63}
 23%|██▎       | 18404/78504 [11:11:22<18:54:22,  1.13s/it] 23%|██▎       | 18405/78504 [11:11:23<17:08:24,  1.03s/it]                                                           {'loss': 0.253, 'grad_norm': 1.1407947540283203, 'learning_rate': 2.5522483121735807e-05, 'epoch': 5.63}
 23%|██▎       | 18405/78504 [11:11:23<17:08:24,  1.03s/it] 23%|██▎       | 18406/78504 [11:11:31<54:11:51,  3.25s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.34362131357192993, 'learning_rate': 2.552205851131587e-05, 'epoch': 5.63}
 23%|██▎       | 18406/78504 [11:11:31<54:11:51,  3.25s/it] 23%|██▎       | 18407/78504 [11:11:34<54:26:33,  3.26s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.19805558025836945, 'learning_rate': 2.5521633900895928e-05, 'epoch': 5.63}
 23%|██▎       | 18407/78504 [11:11:34<54:26:33,  3.26s/it] 23%|██▎       | 18408/78504 [11:11:37<53:00:36,  3.18s/it]                                                           {'loss': 0.0762, 'grad_norm': 0.21457865834236145, 'learning_rate': 2.5521209290475987e-05, 'epoch': 5.63}
 23%|██▎       | 18408/78504 [11:11:37<53:00:36,  3.18s/it] 23%|██▎       | 18409/78504 [11:11:40<50:10:06,  3.01s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.3055373728275299, 'learning_rate': 2.552078468005605e-05, 'epoch': 5.63}
 23%|██▎       | 18409/78504 [11:11:40<50:10:06,  3.01s/it] 23%|██▎       | 18410/78504 [11:11:43<47:27:50,  2.84s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.38694822788238525, 'learning_rate': 2.5520360069636108e-05, 'epoch': 5.63}
 23%|██▎       | 18410/78504 [11:11:43<47:27:50,  2.84s/it] 23%|██▎       | 18411/78504 [11:11:45<45:23:15,  2.72s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.19008947908878326, 'learning_rate': 2.551993545921617e-05, 'epoch': 5.63}
 23%|██▎       | 18411/78504 [11:11:45<45:23:15,  2.72s/it] 23%|██▎       | 18412/78504 [11:11:47<43:21:32,  2.60s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.6846996545791626, 'learning_rate': 2.551951084879623e-05, 'epoch': 5.63}
 23%|██▎       | 18412/78504 [11:11:47<43:21:32,  2.60s/it] 23%|██▎       | 18413/78504 [11:11:49<40:54:43,  2.45s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.48525184392929077, 'learning_rate': 2.551908623837629e-05, 'epoch': 5.63}
 23%|██▎       | 18413/78504 [11:11:49<40:54:43,  2.45s/it] 23%|██▎       | 18414/78504 [11:11:52<39:31:47,  2.37s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.7362934947013855, 'learning_rate': 2.551866162795635e-05, 'epoch': 5.63}
 23%|██▎       | 18414/78504 [11:11:52<39:31:47,  2.37s/it] 23%|██▎       | 18415/78504 [11:11:54<38:24:12,  2.30s/it]                                                           {'loss': 0.051, 'grad_norm': 0.2001827210187912, 'learning_rate': 2.551823701753641e-05, 'epoch': 5.63}
 23%|██▎       | 18415/78504 [11:11:54<38:24:12,  2.30s/it] 23%|██▎       | 18416/78504 [11:11:56<37:02:55,  2.22s/it]                                                           {'loss': 0.1212, 'grad_norm': 0.42259034514427185, 'learning_rate': 2.551781240711647e-05, 'epoch': 5.63}
 23%|██▎       | 18416/78504 [11:11:56<37:02:55,  2.22s/it] 23%|██▎       | 18417/78504 [11:11:58<35:47:30,  2.14s/it]                                                           {'loss': 0.0794, 'grad_norm': 0.39875084161758423, 'learning_rate': 2.5517387796696532e-05, 'epoch': 5.63}
 23%|██▎       | 18417/78504 [11:11:58<35:47:30,  2.14s/it] 23%|██▎       | 18418/78504 [11:12:00<34:23:35,  2.06s/it]                                                           {'loss': 0.0723, 'grad_norm': 0.2640916705131531, 'learning_rate': 2.551696318627659e-05, 'epoch': 5.63}
 23%|██▎       | 18418/78504 [11:12:00<34:23:35,  2.06s/it] 23%|██▎       | 18419/78504 [11:12:01<33:16:28,  1.99s/it]                                                           {'loss': 0.1211, 'grad_norm': 0.4708666205406189, 'learning_rate': 2.551653857585665e-05, 'epoch': 5.63}
 23%|██▎       | 18419/78504 [11:12:01<33:16:28,  1.99s/it] 23%|██▎       | 18420/78504 [11:12:03<31:55:14,  1.91s/it]                                                           {'loss': 0.0975, 'grad_norm': 0.29123854637145996, 'learning_rate': 2.551611396543671e-05, 'epoch': 5.63}
 23%|██▎       | 18420/78504 [11:12:03<31:55:14,  1.91s/it] 23%|██▎       | 18421/78504 [11:12:05<30:33:23,  1.83s/it]                                                           {'loss': 0.1296, 'grad_norm': 0.6214659214019775, 'learning_rate': 2.551568935501677e-05, 'epoch': 5.63}
 23%|██▎       | 18421/78504 [11:12:05<30:33:23,  1.83s/it] 23%|██▎       | 18422/78504 [11:12:06<28:58:14,  1.74s/it]                                                           {'loss': 0.1602, 'grad_norm': 0.46046915650367737, 'learning_rate': 2.5515264744596832e-05, 'epoch': 5.63}
 23%|██▎       | 18422/78504 [11:12:06<28:58:14,  1.74s/it] 23%|██▎       | 18423/78504 [11:12:08<27:36:48,  1.65s/it]                                                           {'loss': 0.1499, 'grad_norm': 0.44548627734184265, 'learning_rate': 2.551484013417689e-05, 'epoch': 5.63}
 23%|██▎       | 18423/78504 [11:12:08<27:36:48,  1.65s/it] 23%|██▎       | 18424/78504 [11:12:09<26:24:52,  1.58s/it]                                                           {'loss': 0.1462, 'grad_norm': 0.5805967450141907, 'learning_rate': 2.5514415523756953e-05, 'epoch': 5.63}
 23%|██▎       | 18424/78504 [11:12:09<26:24:52,  1.58s/it] 23%|██▎       | 18425/78504 [11:12:10<24:35:03,  1.47s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.5914457440376282, 'learning_rate': 2.5513990913337012e-05, 'epoch': 5.63}
 23%|██▎       | 18425/78504 [11:12:10<24:35:03,  1.47s/it] 23%|██▎       | 18426/78504 [11:12:11<22:52:26,  1.37s/it]                                                           {'loss': 0.2083, 'grad_norm': 1.0902252197265625, 'learning_rate': 2.5513566302917074e-05, 'epoch': 5.63}
 23%|██▎       | 18426/78504 [11:12:12<22:52:26,  1.37s/it] 23%|██▎       | 18427/78504 [11:12:13<21:29:37,  1.29s/it]                                                           {'loss': 0.177, 'grad_norm': 1.019568920135498, 'learning_rate': 2.5513141692497133e-05, 'epoch': 5.63}
 23%|██▎       | 18427/78504 [11:12:13<21:29:37,  1.29s/it] 23%|██▎       | 18428/78504 [11:12:14<19:58:43,  1.20s/it]                                                           {'loss': 0.2052, 'grad_norm': 1.4159470796585083, 'learning_rate': 2.5512717082077195e-05, 'epoch': 5.63}
 23%|██▎       | 18428/78504 [11:12:14<19:58:43,  1.20s/it] 23%|██▎       | 18429/78504 [11:12:15<18:39:39,  1.12s/it]                                                           {'loss': 0.2023, 'grad_norm': 0.8630003929138184, 'learning_rate': 2.5512292471657254e-05, 'epoch': 5.63}
 23%|██▎       | 18429/78504 [11:12:15<18:39:39,  1.12s/it] 23%|██▎       | 18430/78504 [11:12:15<16:57:42,  1.02s/it]                                                           {'loss': 0.2236, 'grad_norm': 1.150755524635315, 'learning_rate': 2.5511867861237316e-05, 'epoch': 5.63}
 23%|██▎       | 18430/78504 [11:12:15<16:57:42,  1.02s/it] 23%|██▎       | 18431/78504 [11:12:24<57:16:49,  3.43s/it]                                                           {'loss': 0.1368, 'grad_norm': 0.5829628705978394, 'learning_rate': 2.5511443250817374e-05, 'epoch': 5.63}
 23%|██▎       | 18431/78504 [11:12:24<57:16:49,  3.43s/it] 23%|██▎       | 18432/78504 [11:12:27<54:36:12,  3.27s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.21245886385440826, 'learning_rate': 2.5511018640397433e-05, 'epoch': 5.63}
 23%|██▎       | 18432/78504 [11:12:27<54:36:12,  3.27s/it] 23%|██▎       | 18433/78504 [11:12:30<52:48:45,  3.17s/it]                                                           {'loss': 0.077, 'grad_norm': 0.4454851746559143, 'learning_rate': 2.5510594029977495e-05, 'epoch': 5.64}
 23%|██▎       | 18433/78504 [11:12:30<52:48:45,  3.17s/it] 23%|██▎       | 18434/78504 [11:12:33<49:51:12,  2.99s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.23562999069690704, 'learning_rate': 2.5510169419557554e-05, 'epoch': 5.64}
 23%|██▎       | 18434/78504 [11:12:33<49:51:12,  2.99s/it] 23%|██▎       | 18435/78504 [11:12:35<47:13:37,  2.83s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.1752994805574417, 'learning_rate': 2.5509744809137616e-05, 'epoch': 5.64}
 23%|██▎       | 18435/78504 [11:12:35<47:13:37,  2.83s/it] 23%|██▎       | 18436/78504 [11:12:38<45:11:27,  2.71s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.2186470627784729, 'learning_rate': 2.5509320198717675e-05, 'epoch': 5.64}
 23%|██▎       | 18436/78504 [11:12:38<45:11:27,  2.71s/it] 23%|██▎       | 18437/78504 [11:12:40<43:14:46,  2.59s/it]                                                           {'loss': 0.0492, 'grad_norm': 0.23952725529670715, 'learning_rate': 2.5508895588297737e-05, 'epoch': 5.64}
 23%|██▎       | 18437/78504 [11:12:40<43:14:46,  2.59s/it] 23%|██▎       | 18438/78504 [11:12:42<41:46:32,  2.50s/it]                                                           {'loss': 0.0842, 'grad_norm': 0.22865600883960724, 'learning_rate': 2.5508470977877795e-05, 'epoch': 5.64}
 23%|██▎       | 18438/78504 [11:12:42<41:46:32,  2.50s/it] 23%|██▎       | 18439/78504 [11:12:44<39:28:31,  2.37s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.47735780477523804, 'learning_rate': 2.5508046367457857e-05, 'epoch': 5.64}
 23%|██▎       | 18439/78504 [11:12:44<39:28:31,  2.37s/it] 23%|██▎       | 18440/78504 [11:12:46<38:17:35,  2.30s/it]                                                           {'loss': 0.0717, 'grad_norm': 0.34648072719573975, 'learning_rate': 2.5507621757037916e-05, 'epoch': 5.64}
 23%|██▎       | 18440/78504 [11:12:46<38:17:35,  2.30s/it] 23%|██▎       | 18441/78504 [11:12:48<36:28:57,  2.19s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.2714444398880005, 'learning_rate': 2.5507197146617978e-05, 'epoch': 5.64}
 23%|██▎       | 18441/78504 [11:12:48<36:28:57,  2.19s/it] 23%|██▎       | 18442/78504 [11:12:50<35:26:35,  2.12s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.19756640493869781, 'learning_rate': 2.5506772536198037e-05, 'epoch': 5.64}
 23%|██▎       | 18442/78504 [11:12:50<35:26:35,  2.12s/it] 23%|██▎       | 18443/78504 [11:12:52<34:23:55,  2.06s/it]                                                           {'loss': 0.1165, 'grad_norm': 0.5132104158401489, 'learning_rate': 2.55063479257781e-05, 'epoch': 5.64}
 23%|██▎       | 18443/78504 [11:12:52<34:23:55,  2.06s/it] 23%|██▎       | 18444/78504 [11:12:54<33:29:54,  2.01s/it]                                                           {'loss': 0.1164, 'grad_norm': 0.8439040780067444, 'learning_rate': 2.550592331535816e-05, 'epoch': 5.64}
 23%|██▎       | 18444/78504 [11:12:54<33:29:54,  2.01s/it] 23%|██▎       | 18445/78504 [11:12:56<32:16:44,  1.93s/it]                                                           {'loss': 0.1436, 'grad_norm': 0.6721707582473755, 'learning_rate': 2.550549870493822e-05, 'epoch': 5.64}
 23%|██▎       | 18445/78504 [11:12:56<32:16:44,  1.93s/it] 23%|██▎       | 18446/78504 [11:12:57<30:27:18,  1.83s/it]                                                           {'loss': 0.1098, 'grad_norm': 0.5008426308631897, 'learning_rate': 2.5505074094518282e-05, 'epoch': 5.64}
 23%|██▎       | 18446/78504 [11:12:57<30:27:18,  1.83s/it] 23%|██▎       | 18447/78504 [11:12:59<29:02:43,  1.74s/it]                                                           {'loss': 0.1896, 'grad_norm': 0.817044198513031, 'learning_rate': 2.550464948409834e-05, 'epoch': 5.64}
 23%|██▎       | 18447/78504 [11:12:59<29:02:43,  1.74s/it] 23%|██▎       | 18448/78504 [11:13:01<27:51:47,  1.67s/it]                                                           {'loss': 0.1488, 'grad_norm': 0.6587046384811401, 'learning_rate': 2.5504224873678403e-05, 'epoch': 5.64}
 23%|██▎       | 18448/78504 [11:13:01<27:51:47,  1.67s/it] 24%|██▎       | 18449/78504 [11:13:02<26:28:44,  1.59s/it]                                                           {'loss': 0.1425, 'grad_norm': 0.6782678365707397, 'learning_rate': 2.550380026325846e-05, 'epoch': 5.64}
 24%|██▎       | 18449/78504 [11:13:02<26:28:44,  1.59s/it] 24%|██▎       | 18450/78504 [11:13:03<24:55:57,  1.49s/it]                                                           {'loss': 0.1576, 'grad_norm': 0.6864480376243591, 'learning_rate': 2.5503375652838523e-05, 'epoch': 5.64}
 24%|██▎       | 18450/78504 [11:13:03<24:55:57,  1.49s/it] 24%|██▎       | 18451/78504 [11:13:04<23:13:42,  1.39s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.4903359115123749, 'learning_rate': 2.5502951042418582e-05, 'epoch': 5.64}
 24%|██▎       | 18451/78504 [11:13:04<23:13:42,  1.39s/it] 24%|██▎       | 18452/78504 [11:13:05<21:44:29,  1.30s/it]                                                           {'loss': 0.1797, 'grad_norm': 0.5138401389122009, 'learning_rate': 2.5502526431998644e-05, 'epoch': 5.64}
 24%|██▎       | 18452/78504 [11:13:05<21:44:29,  1.30s/it] 24%|██▎       | 18453/78504 [11:13:06<20:28:54,  1.23s/it]                                                           {'loss': 0.1836, 'grad_norm': 1.057532787322998, 'learning_rate': 2.5502101821578703e-05, 'epoch': 5.64}
 24%|██▎       | 18453/78504 [11:13:07<20:28:54,  1.23s/it] 24%|██▎       | 18454/78504 [11:13:07<18:57:49,  1.14s/it]                                                           {'loss': 0.2336, 'grad_norm': 1.3012136220932007, 'learning_rate': 2.5501677211158765e-05, 'epoch': 5.64}
 24%|██▎       | 18454/78504 [11:13:07<18:57:49,  1.14s/it] 24%|██▎       | 18455/78504 [11:13:08<17:09:53,  1.03s/it]                                                           {'loss': 0.2527, 'grad_norm': 1.6566760540008545, 'learning_rate': 2.5501252600738824e-05, 'epoch': 5.64}
 24%|██▎       | 18455/78504 [11:13:08<17:09:53,  1.03s/it] 24%|██▎       | 18456/78504 [11:13:18<63:25:07,  3.80s/it]                                                           {'loss': 0.111, 'grad_norm': 0.42375221848487854, 'learning_rate': 2.5500827990318886e-05, 'epoch': 5.64}
 24%|██▎       | 18456/78504 [11:13:18<63:25:07,  3.80s/it] 24%|██▎       | 18457/78504 [11:13:22<60:01:36,  3.60s/it]                                                           {'loss': 0.064, 'grad_norm': 0.37816163897514343, 'learning_rate': 2.5500403379898945e-05, 'epoch': 5.64}
 24%|██▎       | 18457/78504 [11:13:22<60:01:36,  3.60s/it] 24%|██▎       | 18458/78504 [11:13:24<54:52:01,  3.29s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.30621960759162903, 'learning_rate': 2.5499978769479003e-05, 'epoch': 5.64}
 24%|██▎       | 18458/78504 [11:13:24<54:52:01,  3.29s/it] 24%|██▎       | 18459/78504 [11:13:27<51:27:38,  3.09s/it]                                                           {'loss': 0.0468, 'grad_norm': 0.15712840855121613, 'learning_rate': 2.5499554159059065e-05, 'epoch': 5.64}
 24%|██▎       | 18459/78504 [11:13:27<51:27:38,  3.09s/it] 24%|██▎       | 18460/78504 [11:13:29<48:21:56,  2.90s/it]                                                           {'loss': 0.0477, 'grad_norm': 0.179916650056839, 'learning_rate': 2.5499129548639124e-05, 'epoch': 5.64}
 24%|██▎       | 18460/78504 [11:13:29<48:21:56,  2.90s/it] 24%|██▎       | 18461/78504 [11:13:32<45:10:26,  2.71s/it]                                                           {'loss': 0.0477, 'grad_norm': 0.26511964201927185, 'learning_rate': 2.5498704938219186e-05, 'epoch': 5.64}
 24%|██▎       | 18461/78504 [11:13:32<45:10:26,  2.71s/it] 24%|██▎       | 18462/78504 [11:13:34<43:16:08,  2.59s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.23202064633369446, 'learning_rate': 2.5498280327799245e-05, 'epoch': 5.64}
 24%|██▎       | 18462/78504 [11:13:34<43:16:08,  2.59s/it] 24%|██▎       | 18463/78504 [11:13:36<41:34:04,  2.49s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.3108268678188324, 'learning_rate': 2.5497855717379307e-05, 'epoch': 5.64}
 24%|██▎       | 18463/78504 [11:13:36<41:34:04,  2.49s/it] 24%|██▎       | 18464/78504 [11:13:38<40:03:29,  2.40s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.2885558307170868, 'learning_rate': 2.5497431106959366e-05, 'epoch': 5.64}
 24%|██▎       | 18464/78504 [11:13:38<40:03:29,  2.40s/it] 24%|██▎       | 18465/78504 [11:13:40<38:42:59,  2.32s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.40167009830474854, 'learning_rate': 2.5497006496539428e-05, 'epoch': 5.65}
 24%|██▎       | 18465/78504 [11:13:40<38:42:59,  2.32s/it] 24%|██▎       | 18466/78504 [11:13:42<37:01:24,  2.22s/it]                                                           {'loss': 0.1083, 'grad_norm': 0.4009724259376526, 'learning_rate': 2.5496581886119486e-05, 'epoch': 5.65}
 24%|██▎       | 18466/78504 [11:13:43<37:01:24,  2.22s/it] 24%|██▎       | 18467/78504 [11:13:44<35:45:39,  2.14s/it]                                                           {'loss': 0.0895, 'grad_norm': 0.2701486349105835, 'learning_rate': 2.549615727569955e-05, 'epoch': 5.65}
 24%|██▎       | 18467/78504 [11:13:44<35:45:39,  2.14s/it] 24%|██▎       | 18468/78504 [11:13:46<34:22:46,  2.06s/it]                                                           {'loss': 0.1039, 'grad_norm': 0.6698035001754761, 'learning_rate': 2.5495732665279607e-05, 'epoch': 5.65}
 24%|██▎       | 18468/78504 [11:13:46<34:22:46,  2.06s/it] 24%|██▎       | 18469/78504 [11:13:48<32:37:57,  1.96s/it]                                                           {'loss': 0.1279, 'grad_norm': 2.2862470149993896, 'learning_rate': 2.549530805485967e-05, 'epoch': 5.65}
 24%|██▎       | 18469/78504 [11:13:48<32:37:57,  1.96s/it] 24%|██▎       | 18470/78504 [11:13:50<31:40:36,  1.90s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.7373393774032593, 'learning_rate': 2.5494883444439728e-05, 'epoch': 5.65}
 24%|██▎       | 18470/78504 [11:13:50<31:40:36,  1.90s/it] 24%|██▎       | 18471/78504 [11:13:51<30:21:45,  1.82s/it]                                                           {'loss': 0.1053, 'grad_norm': 0.30177631974220276, 'learning_rate': 2.5494458834019787e-05, 'epoch': 5.65}
 24%|██▎       | 18471/78504 [11:13:51<30:21:45,  1.82s/it] 24%|██▎       | 18472/78504 [11:13:53<28:47:35,  1.73s/it]                                                           {'loss': 0.1768, 'grad_norm': 2.3086564540863037, 'learning_rate': 2.549403422359985e-05, 'epoch': 5.65}
 24%|██▎       | 18472/78504 [11:13:53<28:47:35,  1.73s/it] 24%|██▎       | 18473/78504 [11:13:54<27:19:35,  1.64s/it]                                                           {'loss': 0.15, 'grad_norm': 0.7466709017753601, 'learning_rate': 2.5493609613179907e-05, 'epoch': 5.65}
 24%|██▎       | 18473/78504 [11:13:54<27:19:35,  1.64s/it] 24%|██▎       | 18474/78504 [11:13:56<26:10:27,  1.57s/it]                                                           {'loss': 0.1642, 'grad_norm': 0.6714603304862976, 'learning_rate': 2.549318500275997e-05, 'epoch': 5.65}
 24%|██▎       | 18474/78504 [11:13:56<26:10:27,  1.57s/it] 24%|██▎       | 18475/78504 [11:13:57<24:25:38,  1.46s/it]                                                           {'loss': 0.174, 'grad_norm': 0.5699871182441711, 'learning_rate': 2.5492760392340028e-05, 'epoch': 5.65}
 24%|██▎       | 18475/78504 [11:13:57<24:25:38,  1.46s/it] 24%|██▎       | 18476/78504 [11:13:58<22:43:36,  1.36s/it]                                                           {'loss': 0.1866, 'grad_norm': 0.758994996547699, 'learning_rate': 2.549233578192009e-05, 'epoch': 5.65}
 24%|██▎       | 18476/78504 [11:13:58<22:43:36,  1.36s/it] 24%|██▎       | 18477/78504 [11:13:59<21:25:18,  1.28s/it]                                                           {'loss': 0.1664, 'grad_norm': 0.5084396004676819, 'learning_rate': 2.549191117150015e-05, 'epoch': 5.65}
 24%|██▎       | 18477/78504 [11:13:59<21:25:18,  1.28s/it] 24%|██▎       | 18478/78504 [11:14:00<20:00:58,  1.20s/it]                                                           {'loss': 0.1868, 'grad_norm': 1.3609265089035034, 'learning_rate': 2.549148656108021e-05, 'epoch': 5.65}
 24%|██▎       | 18478/78504 [11:14:00<20:00:58,  1.20s/it] 24%|██▎       | 18479/78504 [11:14:01<18:39:45,  1.12s/it]                                                           {'loss': 0.1851, 'grad_norm': 0.6764551401138306, 'learning_rate': 2.549106195066027e-05, 'epoch': 5.65}
 24%|██▎       | 18479/78504 [11:14:01<18:39:45,  1.12s/it] 24%|██▎       | 18480/78504 [11:14:02<17:39:14,  1.06s/it]                                                           {'loss': 0.217, 'grad_norm': 1.4693233966827393, 'learning_rate': 2.5490637340240332e-05, 'epoch': 5.65}
 24%|██▎       | 18480/78504 [11:14:02<17:39:14,  1.06s/it] 24%|██▎       | 18481/78504 [11:14:11<59:23:46,  3.56s/it]                                                           {'loss': 0.134, 'grad_norm': 0.2944168746471405, 'learning_rate': 2.549021272982039e-05, 'epoch': 5.65}
 24%|██▎       | 18481/78504 [11:14:11<59:23:46,  3.56s/it] 24%|██▎       | 18482/78504 [11:14:15<57:11:34,  3.43s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.2609524428844452, 'learning_rate': 2.5489788119400453e-05, 'epoch': 5.65}
 24%|██▎       | 18482/78504 [11:14:15<57:11:34,  3.43s/it] 24%|██▎       | 18483/78504 [11:14:18<55:07:40,  3.31s/it]                                                           {'loss': 0.0839, 'grad_norm': 0.4646514356136322, 'learning_rate': 2.548936350898051e-05, 'epoch': 5.65}
 24%|██▎       | 18483/78504 [11:14:18<55:07:40,  3.31s/it] 24%|██▎       | 18484/78504 [11:14:20<51:30:54,  3.09s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.18474321067333221, 'learning_rate': 2.548893889856057e-05, 'epoch': 5.65}
 24%|██▎       | 18484/78504 [11:14:20<51:30:54,  3.09s/it] 24%|██▎       | 18485/78504 [11:14:22<47:50:23,  2.87s/it]                                                           {'loss': 0.0419, 'grad_norm': 0.24719330668449402, 'learning_rate': 2.5488514288140632e-05, 'epoch': 5.65}
 24%|██▎       | 18485/78504 [11:14:22<47:50:23,  2.87s/it] 24%|██▎       | 18486/78504 [11:14:25<44:26:58,  2.67s/it]                                                           {'loss': 0.055, 'grad_norm': 0.4384026527404785, 'learning_rate': 2.548808967772069e-05, 'epoch': 5.65}
 24%|██▎       | 18486/78504 [11:14:25<44:26:58,  2.67s/it] 24%|██▎       | 18487/78504 [11:14:27<42:45:43,  2.56s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.37716472148895264, 'learning_rate': 2.5487665067300753e-05, 'epoch': 5.65}
 24%|██▎       | 18487/78504 [11:14:27<42:45:43,  2.56s/it] 24%|██▎       | 18488/78504 [11:14:29<40:22:33,  2.42s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.8592354655265808, 'learning_rate': 2.548724045688081e-05, 'epoch': 5.65}
 24%|██▎       | 18488/78504 [11:14:29<40:22:33,  2.42s/it] 24%|██▎       | 18489/78504 [11:14:31<38:21:00,  2.30s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.7742878198623657, 'learning_rate': 2.5486815846460874e-05, 'epoch': 5.65}
 24%|██▎       | 18489/78504 [11:14:31<38:21:00,  2.30s/it] 24%|██▎       | 18490/78504 [11:14:33<37:32:04,  2.25s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.30219876766204834, 'learning_rate': 2.5486391236040932e-05, 'epoch': 5.65}
 24%|██▎       | 18490/78504 [11:14:33<37:32:04,  2.25s/it] 24%|██▎       | 18491/78504 [11:14:35<36:13:53,  2.17s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.22960150241851807, 'learning_rate': 2.5485966625620995e-05, 'epoch': 5.65}
 24%|██▎       | 18491/78504 [11:14:35<36:13:53,  2.17s/it] 24%|██▎       | 18492/78504 [11:14:37<35:15:25,  2.12s/it]                                                           {'loss': 0.08, 'grad_norm': 0.27640119194984436, 'learning_rate': 2.5485542015201053e-05, 'epoch': 5.65}
 24%|██▎       | 18492/78504 [11:14:37<35:15:25,  2.12s/it] 24%|██▎       | 18493/78504 [11:14:39<34:02:23,  2.04s/it]                                                           {'loss': 0.1092, 'grad_norm': 0.8863904476165771, 'learning_rate': 2.5485117404781115e-05, 'epoch': 5.65}
 24%|██▎       | 18493/78504 [11:14:39<34:02:23,  2.04s/it] 24%|██▎       | 18494/78504 [11:14:41<33:10:26,  1.99s/it]                                                           {'loss': 0.0959, 'grad_norm': 1.2875447273254395, 'learning_rate': 2.5484692794361174e-05, 'epoch': 5.65}
 24%|██▎       | 18494/78504 [11:14:41<33:10:26,  1.99s/it] 24%|██▎       | 18495/78504 [11:14:43<31:59:55,  1.92s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.6255121231079102, 'learning_rate': 2.5484268183941236e-05, 'epoch': 5.65}
 24%|██▎       | 18495/78504 [11:14:43<31:59:55,  1.92s/it] 24%|██▎       | 18496/78504 [11:14:44<30:37:52,  1.84s/it]                                                           {'loss': 0.1468, 'grad_norm': 0.7239121794700623, 'learning_rate': 2.5483843573521295e-05, 'epoch': 5.65}
 24%|██▎       | 18496/78504 [11:14:44<30:37:52,  1.84s/it] 24%|██▎       | 18497/78504 [11:14:46<29:10:25,  1.75s/it]                                                           {'loss': 0.1433, 'grad_norm': 0.5515616536140442, 'learning_rate': 2.5483418963101354e-05, 'epoch': 5.65}
 24%|██▎       | 18497/78504 [11:14:46<29:10:25,  1.75s/it] 24%|██▎       | 18498/78504 [11:14:47<27:44:46,  1.66s/it]                                                           {'loss': 0.1582, 'grad_norm': 1.0401304960250854, 'learning_rate': 2.5482994352681416e-05, 'epoch': 5.66}
 24%|██▎       | 18498/78504 [11:14:47<27:44:46,  1.66s/it] 24%|██▎       | 18499/78504 [11:14:49<26:29:21,  1.59s/it]                                                           {'loss': 0.197, 'grad_norm': 0.8271476626396179, 'learning_rate': 2.5482569742261474e-05, 'epoch': 5.66}
 24%|██▎       | 18499/78504 [11:14:49<26:29:21,  1.59s/it] 24%|██▎       | 18500/78504 [11:14:50<24:58:42,  1.50s/it]                                                           {'loss': 0.1845, 'grad_norm': 0.5947284698486328, 'learning_rate': 2.5482145131841536e-05, 'epoch': 5.66}
 24%|██▎       | 18500/78504 [11:14:50<24:58:42,  1.50s/it] 24%|██▎       | 18501/78504 [11:14:51<23:15:56,  1.40s/it]                                                           {'loss': 0.1796, 'grad_norm': 1.1087075471878052, 'learning_rate': 2.5481720521421595e-05, 'epoch': 5.66}
 24%|██▎       | 18501/78504 [11:14:51<23:15:56,  1.40s/it] 24%|██▎       | 18502/78504 [11:14:52<21:44:22,  1.30s/it]                                                           {'loss': 0.1806, 'grad_norm': 0.9266759753227234, 'learning_rate': 2.5481295911001657e-05, 'epoch': 5.66}
 24%|██▎       | 18502/78504 [11:14:52<21:44:22,  1.30s/it] 24%|██▎       | 18503/78504 [11:14:53<20:07:02,  1.21s/it]                                                           {'loss': 0.1996, 'grad_norm': 1.1524014472961426, 'learning_rate': 2.5480871300581716e-05, 'epoch': 5.66}
 24%|██▎       | 18503/78504 [11:14:53<20:07:02,  1.21s/it] 24%|██▎       | 18504/78504 [11:14:54<18:41:50,  1.12s/it]                                                           {'loss': 0.1804, 'grad_norm': 1.132796049118042, 'learning_rate': 2.5480446690161778e-05, 'epoch': 5.66}
 24%|██▎       | 18504/78504 [11:14:54<18:41:50,  1.12s/it] 24%|██▎       | 18505/78504 [11:14:55<16:59:47,  1.02s/it]                                                           {'loss': 0.2101, 'grad_norm': 1.844029426574707, 'learning_rate': 2.5480022079741837e-05, 'epoch': 5.66}
 24%|██▎       | 18505/78504 [11:14:55<16:59:47,  1.02s/it] 24%|██▎       | 18506/78504 [11:15:04<54:37:11,  3.28s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.3803228735923767, 'learning_rate': 2.54795974693219e-05, 'epoch': 5.66}
 24%|██▎       | 18506/78504 [11:15:04<54:37:11,  3.28s/it] 24%|██▎       | 18507/78504 [11:15:07<53:47:19,  3.23s/it]                                                           {'loss': 0.1044, 'grad_norm': 0.7733468413352966, 'learning_rate': 2.5479172858901957e-05, 'epoch': 5.66}
 24%|██▎       | 18507/78504 [11:15:07<53:47:19,  3.23s/it] 24%|██▎       | 18508/78504 [11:15:10<52:44:05,  3.16s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.2661001980304718, 'learning_rate': 2.547874824848202e-05, 'epoch': 5.66}
 24%|██▎       | 18508/78504 [11:15:10<52:44:05,  3.16s/it] 24%|██▎       | 18509/78504 [11:15:12<49:50:30,  2.99s/it]                                                           {'loss': 0.0652, 'grad_norm': 0.9077520966529846, 'learning_rate': 2.5478323638062078e-05, 'epoch': 5.66}
 24%|██▎       | 18509/78504 [11:15:12<49:50:30,  2.99s/it] 24%|██▎       | 18510/78504 [11:15:15<47:18:13,  2.84s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.20628884434700012, 'learning_rate': 2.5477899027642137e-05, 'epoch': 5.66}
 24%|██▎       | 18510/78504 [11:15:15<47:18:13,  2.84s/it] 24%|██▎       | 18511/78504 [11:15:17<44:22:33,  2.66s/it]                                                           {'loss': 0.0492, 'grad_norm': 0.4192962348461151, 'learning_rate': 2.54774744172222e-05, 'epoch': 5.66}
 24%|██▎       | 18511/78504 [11:15:17<44:22:33,  2.66s/it] 24%|██▎       | 18512/78504 [11:15:19<42:37:08,  2.56s/it]                                                           {'loss': 0.0501, 'grad_norm': 0.8188371658325195, 'learning_rate': 2.5477049806802258e-05, 'epoch': 5.66}
 24%|██▎       | 18512/78504 [11:15:19<42:37:08,  2.56s/it] 24%|██▎       | 18513/78504 [11:15:21<40:15:05,  2.42s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.2415381669998169, 'learning_rate': 2.547662519638232e-05, 'epoch': 5.66}
 24%|██▎       | 18513/78504 [11:15:21<40:15:05,  2.42s/it] 24%|██▎       | 18514/78504 [11:15:24<39:04:38,  2.35s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.30186185240745544, 'learning_rate': 2.547620058596238e-05, 'epoch': 5.66}
 24%|██▎       | 18514/78504 [11:15:24<39:04:38,  2.35s/it] 24%|██▎       | 18515/78504 [11:15:26<38:03:00,  2.28s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.818983793258667, 'learning_rate': 2.547577597554244e-05, 'epoch': 5.66}
 24%|██▎       | 18515/78504 [11:15:26<38:03:00,  2.28s/it] 24%|██▎       | 18516/78504 [11:15:28<36:44:43,  2.21s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.35079512000083923, 'learning_rate': 2.54753513651225e-05, 'epoch': 5.66}
 24%|██▎       | 18516/78504 [11:15:28<36:44:43,  2.21s/it] 24%|██▎       | 18517/78504 [11:15:30<35:34:20,  2.13s/it]                                                           {'loss': 0.0636, 'grad_norm': 1.1470630168914795, 'learning_rate': 2.547492675470256e-05, 'epoch': 5.66}
 24%|██▎       | 18517/78504 [11:15:30<35:34:20,  2.13s/it] 24%|██▎       | 18518/78504 [11:15:32<34:10:31,  2.05s/it]                                                           {'loss': 0.1074, 'grad_norm': 0.6475244760513306, 'learning_rate': 2.547450214428262e-05, 'epoch': 5.66}
 24%|██▎       | 18518/78504 [11:15:32<34:10:31,  2.05s/it] 24%|██▎       | 18519/78504 [11:15:33<33:13:28,  1.99s/it]                                                           {'loss': 0.1103, 'grad_norm': 0.3550567030906677, 'learning_rate': 2.5474077533862682e-05, 'epoch': 5.66}
 24%|██▎       | 18519/78504 [11:15:33<33:13:28,  1.99s/it] 24%|██▎       | 18520/78504 [11:15:35<32:04:59,  1.93s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.4824056327342987, 'learning_rate': 2.547365292344274e-05, 'epoch': 5.66}
 24%|██▎       | 18520/78504 [11:15:35<32:04:59,  1.93s/it] 24%|██▎       | 18521/78504 [11:15:37<30:40:02,  1.84s/it]                                                           {'loss': 0.1244, 'grad_norm': 0.43186646699905396, 'learning_rate': 2.5473228313022803e-05, 'epoch': 5.66}
 24%|██▎       | 18521/78504 [11:15:37<30:40:02,  1.84s/it] 24%|██▎       | 18522/78504 [11:15:38<29:08:09,  1.75s/it]                                                           {'loss': 0.1465, 'grad_norm': 0.7859824895858765, 'learning_rate': 2.547280370260286e-05, 'epoch': 5.66}
 24%|██▎       | 18522/78504 [11:15:38<29:08:09,  1.75s/it] 24%|██▎       | 18523/78504 [11:15:40<27:45:36,  1.67s/it]                                                           {'loss': 0.2088, 'grad_norm': 0.9720561504364014, 'learning_rate': 2.547237909218292e-05, 'epoch': 5.66}
 24%|██▎       | 18523/78504 [11:15:40<27:45:36,  1.67s/it] 24%|██▎       | 18524/78504 [11:15:41<26:30:18,  1.59s/it]                                                           {'loss': 0.1693, 'grad_norm': 1.6055572032928467, 'learning_rate': 2.5471954481762982e-05, 'epoch': 5.66}
 24%|██▎       | 18524/78504 [11:15:41<26:30:18,  1.59s/it] 24%|██▎       | 18525/78504 [11:15:43<24:56:38,  1.50s/it]                                                           {'loss': 0.1617, 'grad_norm': 0.8475479483604431, 'learning_rate': 2.547152987134304e-05, 'epoch': 5.66}
 24%|██▎       | 18525/78504 [11:15:43<24:56:38,  1.50s/it] 24%|██▎       | 18526/78504 [11:15:44<23:10:18,  1.39s/it]                                                           {'loss': 0.2049, 'grad_norm': 1.2936248779296875, 'learning_rate': 2.5471105260923103e-05, 'epoch': 5.66}
 24%|██▎       | 18526/78504 [11:15:44<23:10:18,  1.39s/it] 24%|██▎       | 18527/78504 [11:15:45<21:42:41,  1.30s/it]                                                           {'loss': 0.1818, 'grad_norm': 1.842755913734436, 'learning_rate': 2.5470680650503162e-05, 'epoch': 5.66}
 24%|██▎       | 18527/78504 [11:15:45<21:42:41,  1.30s/it] 24%|██▎       | 18528/78504 [11:15:46<20:26:31,  1.23s/it]                                                           {'loss': 0.18, 'grad_norm': 0.8095844388008118, 'learning_rate': 2.5470256040083224e-05, 'epoch': 5.66}
 24%|██▎       | 18528/78504 [11:15:46<20:26:31,  1.23s/it] 24%|██▎       | 18529/78504 [11:15:47<18:55:52,  1.14s/it]                                                           {'loss': 0.1801, 'grad_norm': 1.3398072719573975, 'learning_rate': 2.5469831429663283e-05, 'epoch': 5.66}
 24%|██▎       | 18529/78504 [11:15:47<18:55:52,  1.14s/it] 24%|██▎       | 18530/78504 [11:15:48<17:13:48,  1.03s/it]                                                           {'loss': 0.2222, 'grad_norm': 1.1143486499786377, 'learning_rate': 2.5469406819243345e-05, 'epoch': 5.66}
 24%|██▎       | 18530/78504 [11:15:48<17:13:48,  1.03s/it] 24%|██▎       | 18531/78504 [11:15:55<47:58:14,  2.88s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.3359677493572235, 'learning_rate': 2.5468982208823404e-05, 'epoch': 5.67}
 24%|██▎       | 18531/78504 [11:15:55<47:58:14,  2.88s/it] 24%|██▎       | 18532/78504 [11:15:58<49:14:58,  2.96s/it]                                                           {'loss': 0.0875, 'grad_norm': 0.22514308989048004, 'learning_rate': 2.5468557598403466e-05, 'epoch': 5.67}
 24%|██▎       | 18532/78504 [11:15:58<49:14:58,  2.96s/it] 24%|██▎       | 18533/78504 [11:16:00<47:17:58,  2.84s/it]                                                           {'loss': 0.1141, 'grad_norm': 0.41745561361312866, 'learning_rate': 2.5468132987983524e-05, 'epoch': 5.67}
 24%|██▎       | 18533/78504 [11:16:00<47:17:58,  2.84s/it] 24%|██▎       | 18534/78504 [11:16:03<46:10:16,  2.77s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.3417200744152069, 'learning_rate': 2.5467708377563586e-05, 'epoch': 5.67}
 24%|██▎       | 18534/78504 [11:16:03<46:10:16,  2.77s/it] 24%|██▎       | 18535/78504 [11:16:05<44:37:10,  2.68s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.5452728271484375, 'learning_rate': 2.5467283767143645e-05, 'epoch': 5.67}
 24%|██▎       | 18535/78504 [11:16:06<44:37:10,  2.68s/it] 24%|██▎       | 18536/78504 [11:16:08<42:34:53,  2.56s/it]                                                           {'loss': 0.0504, 'grad_norm': 0.17795869708061218, 'learning_rate': 2.5466859156723704e-05, 'epoch': 5.67}
 24%|██▎       | 18536/78504 [11:16:08<42:34:53,  2.56s/it] 24%|██▎       | 18537/78504 [11:16:10<41:20:58,  2.48s/it]                                                           {'loss': 0.0765, 'grad_norm': 0.5844858884811401, 'learning_rate': 2.5466434546303766e-05, 'epoch': 5.67}
 24%|██▎       | 18537/78504 [11:16:10<41:20:58,  2.48s/it] 24%|██▎       | 18538/78504 [11:16:12<39:29:58,  2.37s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.2314738780260086, 'learning_rate': 2.5466009935883825e-05, 'epoch': 5.67}
 24%|██▎       | 18538/78504 [11:16:12<39:29:58,  2.37s/it] 24%|██▎       | 18539/78504 [11:16:14<38:33:55,  2.32s/it]                                                           {'loss': 0.0486, 'grad_norm': 0.33428487181663513, 'learning_rate': 2.5465585325463887e-05, 'epoch': 5.67}
 24%|██▎       | 18539/78504 [11:16:14<38:33:55,  2.32s/it] 24%|██▎       | 18540/78504 [11:16:17<37:48:48,  2.27s/it]                                                           {'loss': 0.0661, 'grad_norm': 0.4195386469364166, 'learning_rate': 2.5465160715043945e-05, 'epoch': 5.67}
 24%|██▎       | 18540/78504 [11:16:17<37:48:48,  2.27s/it] 24%|██▎       | 18541/78504 [11:16:19<36:35:41,  2.20s/it]                                                           {'loss': 0.108, 'grad_norm': 0.2632922828197479, 'learning_rate': 2.5464736104624007e-05, 'epoch': 5.67}
 24%|██▎       | 18541/78504 [11:16:19<36:35:41,  2.20s/it] 24%|██▎       | 18542/78504 [11:16:21<35:29:47,  2.13s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.44749096035957336, 'learning_rate': 2.5464311494204066e-05, 'epoch': 5.67}
 24%|██▎       | 18542/78504 [11:16:21<35:29:47,  2.13s/it] 24%|██▎       | 18543/78504 [11:16:22<34:15:13,  2.06s/it]                                                           {'loss': 0.1179, 'grad_norm': 0.378113329410553, 'learning_rate': 2.5463886883784128e-05, 'epoch': 5.67}
 24%|██▎       | 18543/78504 [11:16:22<34:15:13,  2.06s/it] 24%|██▎       | 18544/78504 [11:16:24<33:16:43,  2.00s/it]                                                           {'loss': 0.1041, 'grad_norm': 0.5105288624763489, 'learning_rate': 2.5463462273364187e-05, 'epoch': 5.67}
 24%|██▎       | 18544/78504 [11:16:24<33:16:43,  2.00s/it] 24%|██▎       | 18545/78504 [11:16:26<32:05:15,  1.93s/it]                                                           {'loss': 0.1303, 'grad_norm': 0.3515630066394806, 'learning_rate': 2.546303766294425e-05, 'epoch': 5.67}
 24%|██▎       | 18545/78504 [11:16:26<32:05:15,  1.93s/it] 24%|██▎       | 18546/78504 [11:16:28<30:39:22,  1.84s/it]                                                           {'loss': 0.1359, 'grad_norm': 0.4692878723144531, 'learning_rate': 2.546261305252431e-05, 'epoch': 5.67}
 24%|██▎       | 18546/78504 [11:16:28<30:39:22,  1.84s/it] 24%|██▎       | 18547/78504 [11:16:29<29:02:10,  1.74s/it]                                                           {'loss': 0.1681, 'grad_norm': 0.5738835334777832, 'learning_rate': 2.546218844210437e-05, 'epoch': 5.67}
 24%|██▎       | 18547/78504 [11:16:29<29:02:10,  1.74s/it] 24%|██▎       | 18548/78504 [11:16:31<27:41:13,  1.66s/it]                                                           {'loss': 0.1861, 'grad_norm': 1.1729353666305542, 'learning_rate': 2.5461763831684432e-05, 'epoch': 5.67}
 24%|██▎       | 18548/78504 [11:16:31<27:41:13,  1.66s/it] 24%|██▎       | 18549/78504 [11:16:32<26:25:55,  1.59s/it]                                                           {'loss': 0.1743, 'grad_norm': 0.4897361099720001, 'learning_rate': 2.546133922126449e-05, 'epoch': 5.67}
 24%|██▎       | 18549/78504 [11:16:32<26:25:55,  1.59s/it] 24%|██▎       | 18550/78504 [11:16:33<24:54:33,  1.50s/it]                                                           {'loss': 0.1449, 'grad_norm': 0.4255358874797821, 'learning_rate': 2.5460914610844553e-05, 'epoch': 5.67}
 24%|██▎       | 18550/78504 [11:16:33<24:54:33,  1.50s/it] 24%|██▎       | 18551/78504 [11:16:35<23:11:20,  1.39s/it]                                                           {'loss': 0.2002, 'grad_norm': 3.608874559402466, 'learning_rate': 2.546049000042461e-05, 'epoch': 5.67}
 24%|██▎       | 18551/78504 [11:16:35<23:11:20,  1.39s/it] 24%|██▎       | 18552/78504 [11:16:36<21:43:50,  1.30s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.765680730342865, 'learning_rate': 2.5460065390004674e-05, 'epoch': 5.67}
 24%|██▎       | 18552/78504 [11:16:36<21:43:50,  1.30s/it] 24%|██▎       | 18553/78504 [11:16:37<20:10:22,  1.21s/it]                                                           {'loss': 0.2111, 'grad_norm': 10.499080657958984, 'learning_rate': 2.5459640779584732e-05, 'epoch': 5.67}
 24%|██▎       | 18553/78504 [11:16:37<20:10:22,  1.21s/it] 24%|██▎       | 18554/78504 [11:16:38<18:46:56,  1.13s/it]                                                           {'loss': 0.2043, 'grad_norm': 1.2929213047027588, 'learning_rate': 2.5459216169164794e-05, 'epoch': 5.67}
 24%|██▎       | 18554/78504 [11:16:38<18:46:56,  1.13s/it] 24%|██▎       | 18555/78504 [11:16:38<17:01:38,  1.02s/it]                                                           {'loss': 0.2327, 'grad_norm': 3.925189256668091, 'learning_rate': 2.5458791558744853e-05, 'epoch': 5.67}
 24%|██▎       | 18555/78504 [11:16:38<17:01:38,  1.02s/it] 24%|██▎       | 18556/78504 [11:16:46<52:34:23,  3.16s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.43100637197494507, 'learning_rate': 2.5458366948324915e-05, 'epoch': 5.67}
 24%|██▎       | 18556/78504 [11:16:46<52:34:23,  3.16s/it] 24%|██▎       | 18557/78504 [11:16:50<53:33:35,  3.22s/it]                                                           {'loss': 0.0884, 'grad_norm': 0.2982318103313446, 'learning_rate': 2.5457942337904974e-05, 'epoch': 5.67}
 24%|██▎       | 18557/78504 [11:16:50<53:33:35,  3.22s/it] 24%|██▎       | 18558/78504 [11:16:53<52:21:27,  3.14s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.29726919531822205, 'learning_rate': 2.5457517727485036e-05, 'epoch': 5.67}
 24%|██▎       | 18558/78504 [11:16:53<52:21:27,  3.14s/it] 24%|██▎       | 18559/78504 [11:16:55<49:33:59,  2.98s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.5109903812408447, 'learning_rate': 2.5457093117065095e-05, 'epoch': 5.67}
 24%|██▎       | 18559/78504 [11:16:55<49:33:59,  2.98s/it] 24%|██▎       | 18560/78504 [11:16:58<46:59:48,  2.82s/it]                                                           {'loss': 0.068, 'grad_norm': 0.19127638638019562, 'learning_rate': 2.5456668506645153e-05, 'epoch': 5.67}
 24%|██▎       | 18560/78504 [11:16:58<46:59:48,  2.82s/it] 24%|██▎       | 18561/78504 [11:17:00<44:09:54,  2.65s/it]                                                           {'loss': 0.0352, 'grad_norm': 0.35755184292793274, 'learning_rate': 2.5456243896225215e-05, 'epoch': 5.67}
 24%|██▎       | 18561/78504 [11:17:00<44:09:54,  2.65s/it] 24%|██▎       | 18562/78504 [11:17:02<42:27:53,  2.55s/it]                                                           {'loss': 0.0424, 'grad_norm': 0.22297129034996033, 'learning_rate': 2.5455819285805274e-05, 'epoch': 5.67}
 24%|██▎       | 18562/78504 [11:17:02<42:27:53,  2.55s/it] 24%|██▎       | 18563/78504 [11:17:04<40:09:37,  2.41s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.24405062198638916, 'learning_rate': 2.5455394675385336e-05, 'epoch': 5.68}
 24%|██▎       | 18563/78504 [11:17:05<40:09:37,  2.41s/it] 24%|██▎       | 18564/78504 [11:17:07<38:12:21,  2.29s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.5633051991462708, 'learning_rate': 2.5454970064965395e-05, 'epoch': 5.68}
 24%|██▎       | 18564/78504 [11:17:07<38:12:21,  2.29s/it] 24%|██▎       | 18565/78504 [11:17:09<37:24:35,  2.25s/it]                                                           {'loss': 0.0435, 'grad_norm': 0.18760643899440765, 'learning_rate': 2.5454545454545457e-05, 'epoch': 5.68}
 24%|██▎       | 18565/78504 [11:17:09<37:24:35,  2.25s/it] 24%|██▎       | 18566/78504 [11:17:11<36:17:42,  2.18s/it]                                                           {'loss': 0.0957, 'grad_norm': 0.8420765399932861, 'learning_rate': 2.5454120844125516e-05, 'epoch': 5.68}
 24%|██▎       | 18566/78504 [11:17:11<36:17:42,  2.18s/it] 24%|██▎       | 18567/78504 [11:17:13<35:17:05,  2.12s/it]                                                           {'loss': 0.0719, 'grad_norm': 0.41108912229537964, 'learning_rate': 2.5453696233705578e-05, 'epoch': 5.68}
 24%|██▎       | 18567/78504 [11:17:13<35:17:05,  2.12s/it] 24%|██▎       | 18568/78504 [11:17:15<33:59:34,  2.04s/it]                                                           {'loss': 0.0905, 'grad_norm': 0.4107869267463684, 'learning_rate': 2.5453271623285636e-05, 'epoch': 5.68}
 24%|██▎       | 18568/78504 [11:17:15<33:59:34,  2.04s/it] 24%|██▎       | 18569/78504 [11:17:16<33:07:04,  1.99s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.7136121988296509, 'learning_rate': 2.54528470128657e-05, 'epoch': 5.68}
 24%|██▎       | 18569/78504 [11:17:16<33:07:04,  1.99s/it] 24%|██▎       | 18570/78504 [11:17:18<31:46:15,  1.91s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.3498241901397705, 'learning_rate': 2.5452422402445757e-05, 'epoch': 5.68}
 24%|██▎       | 18570/78504 [11:17:18<31:46:15,  1.91s/it] 24%|██▎       | 18571/78504 [11:17:20<30:27:56,  1.83s/it]                                                           {'loss': 0.1369, 'grad_norm': 1.4910794496536255, 'learning_rate': 2.545199779202582e-05, 'epoch': 5.68}
 24%|██▎       | 18571/78504 [11:17:20<30:27:56,  1.83s/it] 24%|██▎       | 18572/78504 [11:17:21<28:55:19,  1.74s/it]                                                           {'loss': 0.1414, 'grad_norm': 0.4808568060398102, 'learning_rate': 2.5451573181605878e-05, 'epoch': 5.68}
 24%|██▎       | 18572/78504 [11:17:21<28:55:19,  1.74s/it] 24%|██▎       | 18573/78504 [11:17:23<27:23:13,  1.65s/it]                                                           {'loss': 0.1533, 'grad_norm': 0.4789227545261383, 'learning_rate': 2.5451148571185937e-05, 'epoch': 5.68}
 24%|██▎       | 18573/78504 [11:17:23<27:23:13,  1.65s/it] 24%|██▎       | 18574/78504 [11:17:24<26:13:27,  1.58s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.6773920059204102, 'learning_rate': 2.5450723960766e-05, 'epoch': 5.68}
 24%|██▎       | 18574/78504 [11:17:24<26:13:27,  1.58s/it] 24%|██▎       | 18575/78504 [11:17:25<24:45:20,  1.49s/it]                                                           {'loss': 0.1952, 'grad_norm': 0.4860672652721405, 'learning_rate': 2.5450299350346057e-05, 'epoch': 5.68}
 24%|██▎       | 18575/78504 [11:17:25<24:45:20,  1.49s/it] 24%|██▎       | 18576/78504 [11:17:27<23:01:04,  1.38s/it]                                                           {'loss': 0.1922, 'grad_norm': 1.1697263717651367, 'learning_rate': 2.544987473992612e-05, 'epoch': 5.68}
 24%|██▎       | 18576/78504 [11:17:27<23:01:04,  1.38s/it] 24%|██▎       | 18577/78504 [11:17:28<21:35:08,  1.30s/it]                                                           {'loss': 0.2013, 'grad_norm': 1.2199746370315552, 'learning_rate': 2.5449450129506178e-05, 'epoch': 5.68}
 24%|██▎       | 18577/78504 [11:17:28<21:35:08,  1.30s/it] 24%|██▎       | 18578/78504 [11:17:29<20:03:16,  1.20s/it]                                                           {'loss': 0.2053, 'grad_norm': 2.2086620330810547, 'learning_rate': 2.544902551908624e-05, 'epoch': 5.68}
 24%|██▎       | 18578/78504 [11:17:29<20:03:16,  1.20s/it] 24%|██▎       | 18579/78504 [11:17:30<18:44:44,  1.13s/it]                                                           {'loss': 0.2054, 'grad_norm': 1.1960076093673706, 'learning_rate': 2.54486009086663e-05, 'epoch': 5.68}
 24%|██▎       | 18579/78504 [11:17:30<18:44:44,  1.13s/it] 24%|██▎       | 18580/78504 [11:17:30<17:00:09,  1.02s/it]                                                           {'loss': 0.231, 'grad_norm': 1.9199124574661255, 'learning_rate': 2.544817629824636e-05, 'epoch': 5.68}
 24%|██▎       | 18580/78504 [11:17:30<17:00:09,  1.02s/it] 24%|██▎       | 18581/78504 [11:17:39<53:29:33,  3.21s/it]                                                           {'loss': 0.1529, 'grad_norm': 0.6720374822616577, 'learning_rate': 2.544775168782642e-05, 'epoch': 5.68}
 24%|██▎       | 18581/78504 [11:17:39<53:29:33,  3.21s/it] 24%|██▎       | 18582/78504 [11:17:42<53:05:54,  3.19s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.2990720570087433, 'learning_rate': 2.5447327077406482e-05, 'epoch': 5.68}
 24%|██▎       | 18582/78504 [11:17:42<53:05:54,  3.19s/it] 24%|██▎       | 18583/78504 [11:17:44<50:00:19,  3.00s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.17702366411685944, 'learning_rate': 2.544690246698654e-05, 'epoch': 5.68}
 24%|██▎       | 18583/78504 [11:17:44<50:00:19,  3.00s/it] 24%|██▎       | 18584/78504 [11:17:47<48:04:01,  2.89s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.37496694922447205, 'learning_rate': 2.5446477856566603e-05, 'epoch': 5.68}
 24%|██▎       | 18584/78504 [11:17:47<48:04:01,  2.89s/it] 24%|██▎       | 18585/78504 [11:17:49<45:57:18,  2.76s/it]                                                           {'loss': 0.037, 'grad_norm': 0.16581784188747406, 'learning_rate': 2.544605324614666e-05, 'epoch': 5.68}
 24%|██▎       | 18585/78504 [11:17:49<45:57:18,  2.76s/it] 24%|██▎       | 18586/78504 [11:17:52<43:28:02,  2.61s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.3415208160877228, 'learning_rate': 2.544562863572672e-05, 'epoch': 5.68}
 24%|██▎       | 18586/78504 [11:17:52<43:28:02,  2.61s/it] 24%|██▎       | 18587/78504 [11:17:54<41:59:09,  2.52s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.39088118076324463, 'learning_rate': 2.5445204025306782e-05, 'epoch': 5.68}
 24%|██▎       | 18587/78504 [11:17:54<41:59:09,  2.52s/it] 24%|██▎       | 18588/78504 [11:17:56<39:49:40,  2.39s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.22201527655124664, 'learning_rate': 2.544477941488684e-05, 'epoch': 5.68}
 24%|██▎       | 18588/78504 [11:17:56<39:49:40,  2.39s/it] 24%|██▎       | 18589/78504 [11:17:58<38:01:18,  2.28s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.4511376917362213, 'learning_rate': 2.5444354804466903e-05, 'epoch': 5.68}
 24%|██▎       | 18589/78504 [11:17:58<38:01:18,  2.28s/it] 24%|██▎       | 18590/78504 [11:18:00<37:16:09,  2.24s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.3083445727825165, 'learning_rate': 2.5443930194046962e-05, 'epoch': 5.68}
 24%|██▎       | 18590/78504 [11:18:00<37:16:09,  2.24s/it] 24%|██▎       | 18591/78504 [11:18:02<36:03:41,  2.17s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.2649531662464142, 'learning_rate': 2.5443505583627024e-05, 'epoch': 5.68}
 24%|██▎       | 18591/78504 [11:18:02<36:03:41,  2.17s/it] 24%|██▎       | 18592/78504 [11:18:04<34:50:19,  2.09s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.2095055878162384, 'learning_rate': 2.5443080973207082e-05, 'epoch': 5.68}
 24%|██▎       | 18592/78504 [11:18:04<34:50:19,  2.09s/it] 24%|██▎       | 18593/78504 [11:18:06<33:42:47,  2.03s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.5869274735450745, 'learning_rate': 2.5442656362787145e-05, 'epoch': 5.68}
 24%|██▎       | 18593/78504 [11:18:06<33:42:47,  2.03s/it] 24%|██▎       | 18594/78504 [11:18:08<31:56:31,  1.92s/it]                                                           {'loss': 0.0927, 'grad_norm': 13.2318754196167, 'learning_rate': 2.5442231752367203e-05, 'epoch': 5.68}
 24%|██▎       | 18594/78504 [11:18:08<31:56:31,  1.92s/it] 24%|██▎       | 18595/78504 [11:18:10<31:11:27,  1.87s/it]                                                           {'loss': 0.129, 'grad_norm': 0.5029048323631287, 'learning_rate': 2.5441807141947265e-05, 'epoch': 5.68}
 24%|██▎       | 18595/78504 [11:18:10<31:11:27,  1.87s/it] 24%|██▎       | 18596/78504 [11:18:11<29:59:09,  1.80s/it]                                                           {'loss': 0.1165, 'grad_norm': 0.3530340790748596, 'learning_rate': 2.5441382531527324e-05, 'epoch': 5.69}
 24%|██▎       | 18596/78504 [11:18:11<29:59:09,  1.80s/it] 24%|██▎       | 18597/78504 [11:18:13<28:32:46,  1.72s/it]                                                           {'loss': 0.1221, 'grad_norm': 2.0598983764648438, 'learning_rate': 2.5440957921107386e-05, 'epoch': 5.69}
 24%|██▎       | 18597/78504 [11:18:13<28:32:46,  1.72s/it] 24%|██▎       | 18598/78504 [11:18:14<27:03:27,  1.63s/it]                                                           {'loss': 0.1776, 'grad_norm': 0.8388881087303162, 'learning_rate': 2.5440533310687445e-05, 'epoch': 5.69}
 24%|██▎       | 18598/78504 [11:18:14<27:03:27,  1.63s/it] 24%|██▎       | 18599/78504 [11:18:16<26:01:19,  1.56s/it]                                                           {'loss': 0.1479, 'grad_norm': 0.6919925212860107, 'learning_rate': 2.5440108700267504e-05, 'epoch': 5.69}
 24%|██▎       | 18599/78504 [11:18:16<26:01:19,  1.56s/it] 24%|██▎       | 18600/78504 [11:18:17<24:16:19,  1.46s/it]                                                           {'loss': 0.1654, 'grad_norm': 0.7358434200286865, 'learning_rate': 2.5439684089847566e-05, 'epoch': 5.69}
 24%|██▎       | 18600/78504 [11:18:17<24:16:19,  1.46s/it] 24%|██▎       | 18601/78504 [11:18:18<22:35:05,  1.36s/it]                                                           {'loss': 0.1792, 'grad_norm': 0.7756868004798889, 'learning_rate': 2.5439259479427624e-05, 'epoch': 5.69}
 24%|██▎       | 18601/78504 [11:18:18<22:35:05,  1.36s/it] 24%|██▎       | 18602/78504 [11:18:19<21:19:18,  1.28s/it]                                                           {'loss': 0.2195, 'grad_norm': 3.5577096939086914, 'learning_rate': 2.5438834869007686e-05, 'epoch': 5.69}
 24%|██▎       | 18602/78504 [11:18:19<21:19:18,  1.28s/it] 24%|██▎       | 18603/78504 [11:18:20<19:53:05,  1.20s/it]                                                           {'loss': 0.1631, 'grad_norm': 2.151115894317627, 'learning_rate': 2.5438410258587745e-05, 'epoch': 5.69}
 24%|██▎       | 18603/78504 [11:18:20<19:53:05,  1.20s/it] 24%|██▎       | 18604/78504 [11:18:21<18:34:11,  1.12s/it]                                                           {'loss': 0.2031, 'grad_norm': 1.9568315744400024, 'learning_rate': 2.5437985648167807e-05, 'epoch': 5.69}
 24%|██▎       | 18604/78504 [11:18:21<18:34:11,  1.12s/it] 24%|██▎       | 18605/78504 [11:18:22<16:52:51,  1.01s/it]                                                           {'loss': 0.2375, 'grad_norm': 1.1249927282333374, 'learning_rate': 2.5437561037747866e-05, 'epoch': 5.69}
 24%|██▎       | 18605/78504 [11:18:22<16:52:51,  1.01s/it] 24%|██▎       | 18606/78504 [11:18:31<60:00:25,  3.61s/it]                                                           {'loss': 0.1261, 'grad_norm': 0.3670465052127838, 'learning_rate': 2.5437136427327928e-05, 'epoch': 5.69}
 24%|██▎       | 18606/78504 [11:18:31<60:00:25,  3.61s/it] 24%|██▎       | 18607/78504 [11:18:35<58:46:21,  3.53s/it]                                                           {'loss': 0.0807, 'grad_norm': 0.3241949677467346, 'learning_rate': 2.5436711816907987e-05, 'epoch': 5.69}
 24%|██▎       | 18607/78504 [11:18:35<58:46:21,  3.53s/it] 24%|██▎       | 18608/78504 [11:18:37<53:56:29,  3.24s/it]                                                           {'loss': 0.0778, 'grad_norm': 0.5783215761184692, 'learning_rate': 2.543628720648805e-05, 'epoch': 5.69}
 24%|██▎       | 18608/78504 [11:18:37<53:56:29,  3.24s/it] 24%|██▎       | 18609/78504 [11:18:40<49:47:48,  2.99s/it]                                                           {'loss': 0.0783, 'grad_norm': 0.3223001956939697, 'learning_rate': 2.5435862596068107e-05, 'epoch': 5.69}
 24%|██▎       | 18609/78504 [11:18:40<49:47:48,  2.99s/it] 24%|██▎       | 18610/78504 [11:18:42<46:38:51,  2.80s/it]                                                           {'loss': 0.0369, 'grad_norm': 0.1830097883939743, 'learning_rate': 2.543543798564817e-05, 'epoch': 5.69}
 24%|██▎       | 18610/78504 [11:18:42<46:38:51,  2.80s/it] 24%|██▎       | 18611/78504 [11:18:44<44:23:33,  2.67s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.43933552503585815, 'learning_rate': 2.5435013375228228e-05, 'epoch': 5.69}
 24%|██▎       | 18611/78504 [11:18:44<44:23:33,  2.67s/it] 24%|██▎       | 18612/78504 [11:18:47<42:41:48,  2.57s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.18558482825756073, 'learning_rate': 2.5434588764808287e-05, 'epoch': 5.69}
 24%|██▎       | 18612/78504 [11:18:47<42:41:48,  2.57s/it] 24%|██▎       | 18613/78504 [11:18:49<40:18:06,  2.42s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.22324004769325256, 'learning_rate': 2.543416415438835e-05, 'epoch': 5.69}
 24%|██▎       | 18613/78504 [11:18:49<40:18:06,  2.42s/it] 24%|██▎       | 18614/78504 [11:18:51<38:18:51,  2.30s/it]                                                           {'loss': 0.0967, 'grad_norm': 0.37701675295829773, 'learning_rate': 2.5433739543968408e-05, 'epoch': 5.69}
 24%|██▎       | 18614/78504 [11:18:51<38:18:51,  2.30s/it] 24%|██▎       | 18615/78504 [11:18:53<37:27:59,  2.25s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.4216599762439728, 'learning_rate': 2.543331493354847e-05, 'epoch': 5.69}
 24%|██▎       | 18615/78504 [11:18:53<37:27:59,  2.25s/it] 24%|██▎       | 18616/78504 [11:18:55<36:20:03,  2.18s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.36850157380104065, 'learning_rate': 2.543289032312853e-05, 'epoch': 5.69}
 24%|██▎       | 18616/78504 [11:18:55<36:20:03,  2.18s/it] 24%|██▎       | 18617/78504 [11:18:57<35:17:21,  2.12s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.31711694598197937, 'learning_rate': 2.543246571270859e-05, 'epoch': 5.69}
 24%|██▎       | 18617/78504 [11:18:57<35:17:21,  2.12s/it] 24%|██▎       | 18618/78504 [11:18:59<34:02:30,  2.05s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.7281199097633362, 'learning_rate': 2.543204110228865e-05, 'epoch': 5.69}
 24%|██▎       | 18618/78504 [11:18:59<34:02:30,  2.05s/it] 24%|██▎       | 18619/78504 [11:19:01<32:59:16,  1.98s/it]                                                           {'loss': 0.1281, 'grad_norm': 0.4058483839035034, 'learning_rate': 2.543161649186871e-05, 'epoch': 5.69}
 24%|██▎       | 18619/78504 [11:19:01<32:59:16,  1.98s/it] 24%|██▎       | 18620/78504 [11:19:02<31:43:26,  1.91s/it]                                                           {'loss': 0.1242, 'grad_norm': 0.6919861435890198, 'learning_rate': 2.543119188144877e-05, 'epoch': 5.69}
 24%|██▎       | 18620/78504 [11:19:02<31:43:26,  1.91s/it] 24%|██▎       | 18621/78504 [11:19:04<30:25:56,  1.83s/it]                                                           {'loss': 0.1498, 'grad_norm': 0.6299869418144226, 'learning_rate': 2.5430767271028832e-05, 'epoch': 5.69}
 24%|██▎       | 18621/78504 [11:19:04<30:25:56,  1.83s/it] 24%|██▎       | 18622/78504 [11:19:06<28:59:57,  1.74s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.64848393201828, 'learning_rate': 2.543034266060889e-05, 'epoch': 5.69}
 24%|██▎       | 18622/78504 [11:19:06<28:59:57,  1.74s/it] 24%|██▎       | 18623/78504 [11:19:07<27:37:34,  1.66s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.5360555648803711, 'learning_rate': 2.5429918050188953e-05, 'epoch': 5.69}
 24%|██▎       | 18623/78504 [11:19:07<27:37:34,  1.66s/it] 24%|██▎       | 18624/78504 [11:19:08<26:17:19,  1.58s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.9445700645446777, 'learning_rate': 2.5429493439769012e-05, 'epoch': 5.69}
 24%|██▎       | 18624/78504 [11:19:08<26:17:19,  1.58s/it] 24%|██▎       | 18625/78504 [11:19:10<24:50:03,  1.49s/it]                                                           {'loss': 0.1484, 'grad_norm': 1.1106923818588257, 'learning_rate': 2.542906882934907e-05, 'epoch': 5.69}
 24%|██▎       | 18625/78504 [11:19:10<24:50:03,  1.49s/it] 24%|██▎       | 18626/78504 [11:19:11<23:09:59,  1.39s/it]                                                           {'loss': 0.1669, 'grad_norm': 1.1515451669692993, 'learning_rate': 2.5428644218929133e-05, 'epoch': 5.69}
 24%|██▎       | 18626/78504 [11:19:11<23:09:59,  1.39s/it] 24%|██▎       | 18627/78504 [11:19:12<21:43:36,  1.31s/it]                                                           {'loss': 0.1853, 'grad_norm': 0.8279430866241455, 'learning_rate': 2.542821960850919e-05, 'epoch': 5.69}
 24%|██▎       | 18627/78504 [11:19:12<21:43:36,  1.31s/it] 24%|██▎       | 18628/78504 [11:19:13<20:08:07,  1.21s/it]                                                           {'loss': 0.1892, 'grad_norm': 1.2030842304229736, 'learning_rate': 2.5427794998089253e-05, 'epoch': 5.69}
 24%|██▎       | 18628/78504 [11:19:13<20:08:07,  1.21s/it] 24%|██▎       | 18629/78504 [11:19:14<18:44:49,  1.13s/it]                                                           {'loss': 0.1887, 'grad_norm': 1.2653671503067017, 'learning_rate': 2.5427370387669312e-05, 'epoch': 5.7}
 24%|██▎       | 18629/78504 [11:19:14<18:44:49,  1.13s/it] 24%|██▎       | 18630/78504 [11:19:15<17:02:52,  1.03s/it]                                                           {'loss': 0.224, 'grad_norm': 0.9451742172241211, 'learning_rate': 2.5426945777249374e-05, 'epoch': 5.7}
 24%|██▎       | 18630/78504 [11:19:15<17:02:52,  1.03s/it] 24%|██▎       | 18631/78504 [11:19:23<52:30:45,  3.16s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.6105967164039612, 'learning_rate': 2.5426521166829433e-05, 'epoch': 5.7}
 24%|██▎       | 18631/78504 [11:19:23<52:30:45,  3.16s/it] 24%|██▎       | 18632/78504 [11:19:26<51:13:34,  3.08s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.39327967166900635, 'learning_rate': 2.5426096556409495e-05, 'epoch': 5.7}
 24%|██▎       | 18632/78504 [11:19:26<51:13:34,  3.08s/it] 24%|██▎       | 18633/78504 [11:19:28<49:42:36,  2.99s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.3037634491920471, 'learning_rate': 2.5425671945989554e-05, 'epoch': 5.7}
 24%|██▎       | 18633/78504 [11:19:28<49:42:36,  2.99s/it] 24%|██▎       | 18634/78504 [11:19:31<46:52:29,  2.82s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.41174718737602234, 'learning_rate': 2.5425247335569616e-05, 'epoch': 5.7}
 24%|██▎       | 18634/78504 [11:19:31<46:52:29,  2.82s/it] 24%|██▎       | 18635/78504 [11:19:33<45:08:20,  2.71s/it]                                                           {'loss': 0.0501, 'grad_norm': 0.18256694078445435, 'learning_rate': 2.5424822725149674e-05, 'epoch': 5.7}
 24%|██▎       | 18635/78504 [11:19:33<45:08:20,  2.71s/it] 24%|██▎       | 18636/78504 [11:19:36<42:53:01,  2.58s/it]                                                           {'loss': 0.042, 'grad_norm': 0.21399454772472382, 'learning_rate': 2.5424398114729736e-05, 'epoch': 5.7}
 24%|██▎       | 18636/78504 [11:19:36<42:53:01,  2.58s/it] 24%|██▎       | 18637/78504 [11:19:38<41:33:11,  2.50s/it]                                                           {'loss': 0.0718, 'grad_norm': 0.2561348080635071, 'learning_rate': 2.5423973504309795e-05, 'epoch': 5.7}
 24%|██▎       | 18637/78504 [11:19:38<41:33:11,  2.50s/it] 24%|██▎       | 18638/78504 [11:19:40<39:29:25,  2.37s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.5231165885925293, 'learning_rate': 2.5423548893889854e-05, 'epoch': 5.7}
 24%|██▎       | 18638/78504 [11:19:40<39:29:25,  2.37s/it] 24%|██▎       | 18639/78504 [11:19:42<37:43:25,  2.27s/it]                                                           {'loss': 0.0856, 'grad_norm': 0.3665730953216553, 'learning_rate': 2.5423124283469916e-05, 'epoch': 5.7}
 24%|██▎       | 18639/78504 [11:19:42<37:43:25,  2.27s/it] 24%|██▎       | 18640/78504 [11:19:44<37:02:49,  2.23s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.2762523591518402, 'learning_rate': 2.5422699673049975e-05, 'epoch': 5.7}
 24%|██▎       | 18640/78504 [11:19:44<37:02:49,  2.23s/it] 24%|██▎       | 18641/78504 [11:19:46<36:00:19,  2.17s/it]                                                           {'loss': 0.0875, 'grad_norm': 0.2347649782896042, 'learning_rate': 2.5422275062630037e-05, 'epoch': 5.7}
 24%|██▎       | 18641/78504 [11:19:46<36:00:19,  2.17s/it] 24%|██▎       | 18642/78504 [11:19:48<35:04:53,  2.11s/it]                                                           {'loss': 0.1273, 'grad_norm': 0.3562887907028198, 'learning_rate': 2.5421850452210095e-05, 'epoch': 5.7}
 24%|██▎       | 18642/78504 [11:19:48<35:04:53,  2.11s/it] 24%|██▎       | 18643/78504 [11:19:50<33:57:26,  2.04s/it]                                                           {'loss': 0.0863, 'grad_norm': 0.4811681807041168, 'learning_rate': 2.5421425841790158e-05, 'epoch': 5.7}
 24%|██▎       | 18643/78504 [11:19:50<33:57:26,  2.04s/it] 24%|██▎       | 18644/78504 [11:19:52<33:07:26,  1.99s/it]                                                           {'loss': 0.1055, 'grad_norm': 0.30141764879226685, 'learning_rate': 2.5421001231370216e-05, 'epoch': 5.7}
 24%|██▎       | 18644/78504 [11:19:52<33:07:26,  1.99s/it] 24%|██▍       | 18645/78504 [11:19:54<32:00:19,  1.92s/it]                                                           {'loss': 0.1413, 'grad_norm': 0.7200740575790405, 'learning_rate': 2.5420576620950278e-05, 'epoch': 5.7}
 24%|██▍       | 18645/78504 [11:19:54<32:00:19,  1.92s/it] 24%|██▍       | 18646/78504 [11:19:55<30:17:04,  1.82s/it]                                                           {'loss': 0.1294, 'grad_norm': 1.158706784248352, 'learning_rate': 2.5420152010530337e-05, 'epoch': 5.7}
 24%|██▍       | 18646/78504 [11:19:55<30:17:04,  1.82s/it] 24%|██▍       | 18647/78504 [11:19:57<28:52:22,  1.74s/it]                                                           {'loss': 0.1388, 'grad_norm': 0.4484245777130127, 'learning_rate': 2.54197274001104e-05, 'epoch': 5.7}
 24%|██▍       | 18647/78504 [11:19:57<28:52:22,  1.74s/it] 24%|██▍       | 18648/78504 [11:19:58<27:32:08,  1.66s/it]                                                           {'loss': 0.1882, 'grad_norm': 0.6327133774757385, 'learning_rate': 2.541930278969046e-05, 'epoch': 5.7}
 24%|██▍       | 18648/78504 [11:19:58<27:32:08,  1.66s/it] 24%|██▍       | 18649/78504 [11:20:00<26:14:09,  1.58s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.6131977438926697, 'learning_rate': 2.5418878179270523e-05, 'epoch': 5.7}
 24%|██▍       | 18649/78504 [11:20:00<26:14:09,  1.58s/it] 24%|██▍       | 18650/78504 [11:20:01<24:45:45,  1.49s/it]                                                           {'loss': 0.1865, 'grad_norm': 1.9011907577514648, 'learning_rate': 2.5418453568850582e-05, 'epoch': 5.7}
 24%|██▍       | 18650/78504 [11:20:01<24:45:45,  1.49s/it] 24%|██▍       | 18651/78504 [11:20:02<23:02:04,  1.39s/it]                                                           {'loss': 0.166, 'grad_norm': 0.5041196346282959, 'learning_rate': 2.541802895843064e-05, 'epoch': 5.7}
 24%|██▍       | 18651/78504 [11:20:02<23:02:04,  1.39s/it] 24%|██▍       | 18652/78504 [11:20:03<21:34:05,  1.30s/it]                                                           {'loss': 0.2001, 'grad_norm': 0.8564692139625549, 'learning_rate': 2.5417604348010703e-05, 'epoch': 5.7}
 24%|██▍       | 18652/78504 [11:20:03<21:34:05,  1.30s/it] 24%|██▍       | 18653/78504 [11:20:04<20:20:31,  1.22s/it]                                                           {'loss': 0.1883, 'grad_norm': 1.1844090223312378, 'learning_rate': 2.541717973759076e-05, 'epoch': 5.7}
 24%|██▍       | 18653/78504 [11:20:04<20:20:31,  1.22s/it] 24%|██▍       | 18654/78504 [11:20:05<18:53:56,  1.14s/it]                                                           {'loss': 0.2004, 'grad_norm': 1.1220088005065918, 'learning_rate': 2.5416755127170824e-05, 'epoch': 5.7}
 24%|██▍       | 18654/78504 [11:20:05<18:53:56,  1.14s/it] 24%|██▍       | 18655/78504 [11:20:06<17:06:11,  1.03s/it]                                                           {'loss': 0.3024, 'grad_norm': 1.8786641359329224, 'learning_rate': 2.5416330516750882e-05, 'epoch': 5.7}
 24%|██▍       | 18655/78504 [11:20:06<17:06:11,  1.03s/it] 24%|██▍       | 18656/78504 [11:20:15<58:52:00,  3.54s/it]                                                           {'loss': 0.1198, 'grad_norm': 0.25745877623558044, 'learning_rate': 2.5415905906330944e-05, 'epoch': 5.7}
 24%|██▍       | 18656/78504 [11:20:15<58:52:00,  3.54s/it] 24%|██▍       | 18657/78504 [11:20:19<56:49:19,  3.42s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.24358202517032623, 'learning_rate': 2.5415481295911003e-05, 'epoch': 5.7}
 24%|██▍       | 18657/78504 [11:20:19<56:49:19,  3.42s/it] 24%|██▍       | 18658/78504 [11:20:21<54:22:41,  3.27s/it]                                                           {'loss': 0.0835, 'grad_norm': 0.24635787308216095, 'learning_rate': 2.5415056685491065e-05, 'epoch': 5.7}
 24%|██▍       | 18658/78504 [11:20:21<54:22:41,  3.27s/it] 24%|██▍       | 18659/78504 [11:20:24<50:07:43,  3.02s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.21362845599651337, 'learning_rate': 2.5414632075071124e-05, 'epoch': 5.7}
 24%|██▍       | 18659/78504 [11:20:24<50:07:43,  3.02s/it] 24%|██▍       | 18660/78504 [11:20:26<47:25:26,  2.85s/it]                                                           {'loss': 0.0362, 'grad_norm': 0.4285033345222473, 'learning_rate': 2.5414207464651186e-05, 'epoch': 5.7}
 24%|██▍       | 18660/78504 [11:20:26<47:25:26,  2.85s/it] 24%|██▍       | 18661/78504 [11:20:29<45:18:02,  2.73s/it]                                                           {'loss': 0.062, 'grad_norm': 0.6974202990531921, 'learning_rate': 2.5413782854231245e-05, 'epoch': 5.7}
 24%|██▍       | 18661/78504 [11:20:29<45:18:02,  2.73s/it] 24%|██▍       | 18662/78504 [11:20:31<43:25:41,  2.61s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.16777868568897247, 'learning_rate': 2.5413358243811303e-05, 'epoch': 5.71}
 24%|██▍       | 18662/78504 [11:20:31<43:25:41,  2.61s/it] 24%|██▍       | 18663/78504 [11:20:33<41:51:31,  2.52s/it]                                                           {'loss': 0.0762, 'grad_norm': 1.0884315967559814, 'learning_rate': 2.5412933633391365e-05, 'epoch': 5.71}
 24%|██▍       | 18663/78504 [11:20:33<41:51:31,  2.52s/it] 24%|██▍       | 18664/78504 [11:20:36<40:12:15,  2.42s/it]                                                           {'loss': 0.0796, 'grad_norm': 0.2640117108821869, 'learning_rate': 2.5412509022971424e-05, 'epoch': 5.71}
 24%|██▍       | 18664/78504 [11:20:36<40:12:15,  2.42s/it] 24%|██▍       | 18665/78504 [11:20:38<38:48:33,  2.33s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.2948550879955292, 'learning_rate': 2.5412084412551486e-05, 'epoch': 5.71}
 24%|██▍       | 18665/78504 [11:20:38<38:48:33,  2.33s/it] 24%|██▍       | 18666/78504 [11:20:40<36:30:14,  2.20s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.9654630422592163, 'learning_rate': 2.5411659802131545e-05, 'epoch': 5.71}
 24%|██▍       | 18666/78504 [11:20:40<36:30:14,  2.20s/it] 24%|██▍       | 18667/78504 [11:20:42<35:25:31,  2.13s/it]                                                           {'loss': 0.074, 'grad_norm': 0.2683297097682953, 'learning_rate': 2.5411235191711607e-05, 'epoch': 5.71}
 24%|██▍       | 18667/78504 [11:20:42<35:25:31,  2.13s/it] 24%|██▍       | 18668/78504 [11:20:44<34:25:07,  2.07s/it]                                                           {'loss': 0.1009, 'grad_norm': 0.38121965527534485, 'learning_rate': 2.5410810581291666e-05, 'epoch': 5.71}
 24%|██▍       | 18668/78504 [11:20:44<34:25:07,  2.07s/it] 24%|██▍       | 18669/78504 [11:20:45<33:28:19,  2.01s/it]                                                           {'loss': 0.0929, 'grad_norm': 0.40779751539230347, 'learning_rate': 2.5410385970871728e-05, 'epoch': 5.71}
 24%|██▍       | 18669/78504 [11:20:45<33:28:19,  2.01s/it] 24%|██▍       | 18670/78504 [11:20:47<32:13:17,  1.94s/it]                                                           {'loss': 0.11, 'grad_norm': 0.46128049492836, 'learning_rate': 2.5409961360451786e-05, 'epoch': 5.71}
 24%|██▍       | 18670/78504 [11:20:47<32:13:17,  1.94s/it] 24%|██▍       | 18671/78504 [11:20:49<30:45:05,  1.85s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.603236198425293, 'learning_rate': 2.540953675003185e-05, 'epoch': 5.71}
 24%|██▍       | 18671/78504 [11:20:49<30:45:05,  1.85s/it] 24%|██▍       | 18672/78504 [11:20:50<29:04:54,  1.75s/it]                                                           {'loss': 0.1665, 'grad_norm': 0.587801992893219, 'learning_rate': 2.5409112139611907e-05, 'epoch': 5.71}
 24%|██▍       | 18672/78504 [11:20:50<29:04:54,  1.75s/it] 24%|██▍       | 18673/78504 [11:20:52<27:52:07,  1.68s/it]                                                           {'loss': 0.1584, 'grad_norm': 0.4973999857902527, 'learning_rate': 2.540868752919197e-05, 'epoch': 5.71}
 24%|██▍       | 18673/78504 [11:20:52<27:52:07,  1.68s/it] 24%|██▍       | 18674/78504 [11:20:53<26:29:39,  1.59s/it]                                                           {'loss': 0.1412, 'grad_norm': 1.8626434803009033, 'learning_rate': 2.5408262918772028e-05, 'epoch': 5.71}
 24%|██▍       | 18674/78504 [11:20:53<26:29:39,  1.59s/it] 24%|██▍       | 18675/78504 [11:20:55<24:57:14,  1.50s/it]                                                           {'loss': 0.1659, 'grad_norm': 0.6063597798347473, 'learning_rate': 2.5407838308352087e-05, 'epoch': 5.71}
 24%|██▍       | 18675/78504 [11:20:55<24:57:14,  1.50s/it] 24%|██▍       | 18676/78504 [11:20:56<23:05:45,  1.39s/it]                                                           {'loss': 0.1669, 'grad_norm': 1.5315186977386475, 'learning_rate': 2.540741369793215e-05, 'epoch': 5.71}
 24%|██▍       | 18676/78504 [11:20:56<23:05:45,  1.39s/it] 24%|██▍       | 18677/78504 [11:20:57<21:37:00,  1.30s/it]                                                           {'loss': 0.1693, 'grad_norm': 0.8186375498771667, 'learning_rate': 2.5406989087512208e-05, 'epoch': 5.71}
 24%|██▍       | 18677/78504 [11:20:57<21:37:00,  1.30s/it] 24%|██▍       | 18678/78504 [11:20:58<20:04:58,  1.21s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.5643807053565979, 'learning_rate': 2.540656447709227e-05, 'epoch': 5.71}
 24%|██▍       | 18678/78504 [11:20:58<20:04:58,  1.21s/it] 24%|██▍       | 18679/78504 [11:20:59<18:42:56,  1.13s/it]                                                           {'loss': 0.2131, 'grad_norm': 1.621171236038208, 'learning_rate': 2.5406139866672328e-05, 'epoch': 5.71}
 24%|██▍       | 18679/78504 [11:20:59<18:42:56,  1.13s/it] 24%|██▍       | 18680/78504 [11:20:59<17:01:11,  1.02s/it]                                                           {'loss': 0.205, 'grad_norm': 1.2611528635025024, 'learning_rate': 2.540571525625239e-05, 'epoch': 5.71}
 24%|██▍       | 18680/78504 [11:20:59<17:01:11,  1.02s/it] 24%|██▍       | 18681/78504 [11:21:06<46:27:03,  2.80s/it]                                                           {'loss': 0.1539, 'grad_norm': 0.5052173137664795, 'learning_rate': 2.540529064583245e-05, 'epoch': 5.71}
 24%|██▍       | 18681/78504 [11:21:06<46:27:03,  2.80s/it] 24%|██▍       | 18682/78504 [11:21:10<49:15:58,  2.96s/it]                                                           {'loss': 0.0976, 'grad_norm': 0.3167942464351654, 'learning_rate': 2.540486603541251e-05, 'epoch': 5.71}
 24%|██▍       | 18682/78504 [11:21:10<49:15:58,  2.96s/it] 24%|██▍       | 18683/78504 [11:21:13<49:28:36,  2.98s/it]                                                           {'loss': 0.0922, 'grad_norm': 0.22291067242622375, 'learning_rate': 2.540444142499257e-05, 'epoch': 5.71}
 24%|██▍       | 18683/78504 [11:21:13<49:28:36,  2.98s/it] 24%|██▍       | 18684/78504 [11:21:15<47:39:04,  2.87s/it]                                                           {'loss': 0.073, 'grad_norm': 0.30268409848213196, 'learning_rate': 2.5404016814572632e-05, 'epoch': 5.71}
 24%|██▍       | 18684/78504 [11:21:15<47:39:04,  2.87s/it] 24%|██▍       | 18685/78504 [11:21:18<45:38:56,  2.75s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.1562056541442871, 'learning_rate': 2.540359220415269e-05, 'epoch': 5.71}
 24%|██▍       | 18685/78504 [11:21:18<45:38:56,  2.75s/it] 24%|██▍       | 18686/78504 [11:21:20<44:03:47,  2.65s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.20884723961353302, 'learning_rate': 2.5403167593732753e-05, 'epoch': 5.71}
 24%|██▍       | 18686/78504 [11:21:20<44:03:47,  2.65s/it] 24%|██▍       | 18687/78504 [11:21:23<42:22:11,  2.55s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.2519817352294922, 'learning_rate': 2.540274298331281e-05, 'epoch': 5.71}
 24%|██▍       | 18687/78504 [11:21:23<42:22:11,  2.55s/it] 24%|██▍       | 18688/78504 [11:21:25<41:06:21,  2.47s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.37333133816719055, 'learning_rate': 2.540231837289287e-05, 'epoch': 5.71}
 24%|██▍       | 18688/78504 [11:21:25<41:06:21,  2.47s/it] 24%|██▍       | 18689/78504 [11:21:27<39:37:37,  2.38s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.22719870507717133, 'learning_rate': 2.5401893762472932e-05, 'epoch': 5.71}
 24%|██▍       | 18689/78504 [11:21:27<39:37:37,  2.38s/it] 24%|██▍       | 18690/78504 [11:21:29<38:30:24,  2.32s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.5826574563980103, 'learning_rate': 2.540146915205299e-05, 'epoch': 5.71}
 24%|██▍       | 18690/78504 [11:21:29<38:30:24,  2.32s/it] 24%|██▍       | 18691/78504 [11:21:31<36:16:01,  2.18s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.27574047446250916, 'learning_rate': 2.5401044541633053e-05, 'epoch': 5.71}
 24%|██▍       | 18691/78504 [11:21:31<36:16:01,  2.18s/it] 24%|██▍       | 18692/78504 [11:21:33<35:18:20,  2.12s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.2491411417722702, 'learning_rate': 2.5400619931213112e-05, 'epoch': 5.71}
 24%|██▍       | 18692/78504 [11:21:33<35:18:20,  2.12s/it] 24%|██▍       | 18693/78504 [11:21:35<34:15:50,  2.06s/it]                                                           {'loss': 0.1039, 'grad_norm': 0.42267823219299316, 'learning_rate': 2.5400195320793174e-05, 'epoch': 5.71}
 24%|██▍       | 18693/78504 [11:21:35<34:15:50,  2.06s/it] 24%|██▍       | 18694/78504 [11:21:37<33:19:25,  2.01s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.5404069423675537, 'learning_rate': 2.5399770710373233e-05, 'epoch': 5.72}
 24%|██▍       | 18694/78504 [11:21:37<33:19:25,  2.01s/it] 24%|██▍       | 18695/78504 [11:21:39<32:07:08,  1.93s/it]                                                           {'loss': 0.111, 'grad_norm': 0.31652402877807617, 'learning_rate': 2.5399346099953295e-05, 'epoch': 5.72}
 24%|██▍       | 18695/78504 [11:21:39<32:07:08,  1.93s/it] 24%|██▍       | 18696/78504 [11:21:40<30:21:20,  1.83s/it]                                                           {'loss': 0.1278, 'grad_norm': 1.0189889669418335, 'learning_rate': 2.5398921489533353e-05, 'epoch': 5.72}
 24%|██▍       | 18696/78504 [11:21:40<30:21:20,  1.83s/it] 24%|██▍       | 18697/78504 [11:21:42<28:54:05,  1.74s/it]                                                           {'loss': 0.1424, 'grad_norm': 1.8136368989944458, 'learning_rate': 2.5398496879113415e-05, 'epoch': 5.72}
 24%|██▍       | 18697/78504 [11:21:42<28:54:05,  1.74s/it] 24%|██▍       | 18698/78504 [11:21:43<27:44:20,  1.67s/it]                                                           {'loss': 0.1726, 'grad_norm': 0.5367833971977234, 'learning_rate': 2.5398072268693474e-05, 'epoch': 5.72}
 24%|██▍       | 18698/78504 [11:21:43<27:44:20,  1.67s/it] 24%|██▍       | 18699/78504 [11:21:45<26:28:57,  1.59s/it]                                                           {'loss': 0.1775, 'grad_norm': 0.9572295546531677, 'learning_rate': 2.5397647658273536e-05, 'epoch': 5.72}
 24%|██▍       | 18699/78504 [11:21:45<26:28:57,  1.59s/it] 24%|██▍       | 18700/78504 [11:21:46<24:57:24,  1.50s/it]                                                           {'loss': 0.1692, 'grad_norm': 0.6758299469947815, 'learning_rate': 2.5397223047853595e-05, 'epoch': 5.72}
 24%|██▍       | 18700/78504 [11:21:46<24:57:24,  1.50s/it] 24%|██▍       | 18701/78504 [11:21:47<23:11:00,  1.40s/it]                                                           {'loss': 0.1867, 'grad_norm': 0.7576196789741516, 'learning_rate': 2.5396798437433654e-05, 'epoch': 5.72}
 24%|██▍       | 18701/78504 [11:21:47<23:11:00,  1.40s/it] 24%|██▍       | 18702/78504 [11:21:48<21:42:19,  1.31s/it]                                                           {'loss': 0.1548, 'grad_norm': 1.0111048221588135, 'learning_rate': 2.5396373827013716e-05, 'epoch': 5.72}
 24%|██▍       | 18702/78504 [11:21:48<21:42:19,  1.31s/it] 24%|██▍       | 18703/78504 [11:21:49<20:25:37,  1.23s/it]                                                           {'loss': 0.1653, 'grad_norm': 0.6576048135757446, 'learning_rate': 2.5395949216593774e-05, 'epoch': 5.72}
 24%|██▍       | 18703/78504 [11:21:49<20:25:37,  1.23s/it] 24%|██▍       | 18704/78504 [11:21:50<18:57:30,  1.14s/it]                                                           {'loss': 0.1732, 'grad_norm': 0.43248534202575684, 'learning_rate': 2.5395524606173836e-05, 'epoch': 5.72}
 24%|██▍       | 18704/78504 [11:21:50<18:57:30,  1.14s/it] 24%|██▍       | 18705/78504 [11:21:51<17:08:55,  1.03s/it]                                                           {'loss': 0.2453, 'grad_norm': 1.8234351873397827, 'learning_rate': 2.5395099995753895e-05, 'epoch': 5.72}
 24%|██▍       | 18705/78504 [11:21:51<17:08:55,  1.03s/it] 24%|██▍       | 18706/78504 [11:22:00<56:08:33,  3.38s/it]                                                           {'loss': 0.1242, 'grad_norm': 0.5962262749671936, 'learning_rate': 2.5394675385333957e-05, 'epoch': 5.72}
 24%|██▍       | 18706/78504 [11:22:00<56:08:33,  3.38s/it] 24%|██▍       | 18707/78504 [11:22:03<55:43:19,  3.35s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.4512355327606201, 'learning_rate': 2.5394250774914016e-05, 'epoch': 5.72}
 24%|██▍       | 18707/78504 [11:22:03<55:43:19,  3.35s/it] 24%|██▍       | 18708/78504 [11:22:06<53:51:01,  3.24s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.28675413131713867, 'learning_rate': 2.5393826164494078e-05, 'epoch': 5.72}
 24%|██▍       | 18708/78504 [11:22:06<53:51:01,  3.24s/it] 24%|██▍       | 18709/78504 [11:22:09<50:35:28,  3.05s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.4188797175884247, 'learning_rate': 2.5393401554074137e-05, 'epoch': 5.72}
 24%|██▍       | 18709/78504 [11:22:09<50:35:28,  3.05s/it] 24%|██▍       | 18710/78504 [11:22:11<47:34:21,  2.86s/it]                                                           {'loss': 0.0769, 'grad_norm': 0.5232982039451599, 'learning_rate': 2.53929769436542e-05, 'epoch': 5.72}
 24%|██▍       | 18710/78504 [11:22:11<47:34:21,  2.86s/it] 24%|██▍       | 18711/78504 [11:22:13<45:02:25,  2.71s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.2623283267021179, 'learning_rate': 2.5392552333234258e-05, 'epoch': 5.72}
 24%|██▍       | 18711/78504 [11:22:13<45:02:25,  2.71s/it] 24%|██▍       | 18712/78504 [11:22:16<43:07:40,  2.60s/it]                                                           {'loss': 0.0757, 'grad_norm': 0.23807299137115479, 'learning_rate': 2.539212772281432e-05, 'epoch': 5.72}
 24%|██▍       | 18712/78504 [11:22:16<43:07:40,  2.60s/it] 24%|██▍       | 18713/78504 [11:22:18<40:35:52,  2.44s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.6867741942405701, 'learning_rate': 2.539170311239438e-05, 'epoch': 5.72}
 24%|██▍       | 18713/78504 [11:22:18<40:35:52,  2.44s/it] 24%|██▍       | 18714/78504 [11:22:20<38:30:25,  2.32s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.2811562418937683, 'learning_rate': 2.5391278501974437e-05, 'epoch': 5.72}
 24%|██▍       | 18714/78504 [11:22:20<38:30:25,  2.32s/it] 24%|██▍       | 18715/78504 [11:22:22<37:35:52,  2.26s/it]                                                           {'loss': 0.0492, 'grad_norm': 0.604166567325592, 'learning_rate': 2.53908538915545e-05, 'epoch': 5.72}
 24%|██▍       | 18715/78504 [11:22:22<37:35:52,  2.26s/it] 24%|██▍       | 18716/78504 [11:22:24<36:21:29,  2.19s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.41364797949790955, 'learning_rate': 2.5390429281134558e-05, 'epoch': 5.72}
 24%|██▍       | 18716/78504 [11:22:24<36:21:29,  2.19s/it] 24%|██▍       | 18717/78504 [11:22:26<35:16:47,  2.12s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.30926749110221863, 'learning_rate': 2.539000467071462e-05, 'epoch': 5.72}
 24%|██▍       | 18717/78504 [11:22:26<35:16:47,  2.12s/it] 24%|██▍       | 18718/78504 [11:22:28<33:56:45,  2.04s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.947966456413269, 'learning_rate': 2.538958006029468e-05, 'epoch': 5.72}
 24%|██▍       | 18718/78504 [11:22:28<33:56:45,  2.04s/it] 24%|██▍       | 18719/78504 [11:22:30<32:55:05,  1.98s/it]                                                           {'loss': 0.1464, 'grad_norm': 0.4564127027988434, 'learning_rate': 2.538915544987474e-05, 'epoch': 5.72}
 24%|██▍       | 18719/78504 [11:22:30<32:55:05,  1.98s/it] 24%|██▍       | 18720/78504 [11:22:31<31:37:29,  1.90s/it]                                                           {'loss': 0.0809, 'grad_norm': 0.32165905833244324, 'learning_rate': 2.53887308394548e-05, 'epoch': 5.72}
 24%|██▍       | 18720/78504 [11:22:31<31:37:29,  1.90s/it] 24%|██▍       | 18721/78504 [11:22:33<30:19:58,  1.83s/it]                                                           {'loss': 0.1727, 'grad_norm': 1.3963598012924194, 'learning_rate': 2.538830622903486e-05, 'epoch': 5.72}
 24%|██▍       | 18721/78504 [11:22:33<30:19:58,  1.83s/it] 24%|██▍       | 18722/78504 [11:22:35<28:54:30,  1.74s/it]                                                           {'loss': 0.178, 'grad_norm': 1.1916682720184326, 'learning_rate': 2.538788161861492e-05, 'epoch': 5.72}
 24%|██▍       | 18722/78504 [11:22:35<28:54:30,  1.74s/it] 24%|██▍       | 18723/78504 [11:22:36<27:19:45,  1.65s/it]                                                           {'loss': 0.1449, 'grad_norm': 0.5648320913314819, 'learning_rate': 2.5387457008194982e-05, 'epoch': 5.72}
 24%|██▍       | 18723/78504 [11:22:36<27:19:45,  1.65s/it] 24%|██▍       | 18724/78504 [11:22:37<26:09:16,  1.58s/it]                                                           {'loss': 0.1614, 'grad_norm': 2.3894715309143066, 'learning_rate': 2.538703239777504e-05, 'epoch': 5.72}
 24%|██▍       | 18724/78504 [11:22:37<26:09:16,  1.58s/it] 24%|██▍       | 18725/78504 [11:22:39<24:43:13,  1.49s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.750705361366272, 'learning_rate': 2.5386607787355103e-05, 'epoch': 5.72}
 24%|██▍       | 18725/78504 [11:22:39<24:43:13,  1.49s/it] 24%|██▍       | 18726/78504 [11:22:40<23:02:12,  1.39s/it]                                                           {'loss': 0.1641, 'grad_norm': 0.7667519450187683, 'learning_rate': 2.5386183176935162e-05, 'epoch': 5.72}
 24%|██▍       | 18726/78504 [11:22:40<23:02:12,  1.39s/it] 24%|██▍       | 18727/78504 [11:22:41<21:34:32,  1.30s/it]                                                           {'loss': 0.1763, 'grad_norm': 1.0993956327438354, 'learning_rate': 2.538575856651522e-05, 'epoch': 5.73}
 24%|██▍       | 18727/78504 [11:22:41<21:34:32,  1.30s/it] 24%|██▍       | 18728/78504 [11:22:42<20:01:20,  1.21s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.7744357585906982, 'learning_rate': 2.5385333956095283e-05, 'epoch': 5.73}
 24%|██▍       | 18728/78504 [11:22:42<20:01:20,  1.21s/it] 24%|██▍       | 18729/78504 [11:22:43<18:38:09,  1.12s/it]                                                           {'loss': 0.1675, 'grad_norm': 1.6051397323608398, 'learning_rate': 2.538490934567534e-05, 'epoch': 5.73}
 24%|██▍       | 18729/78504 [11:22:43<18:38:09,  1.12s/it] 24%|██▍       | 18730/78504 [11:22:44<16:55:50,  1.02s/it]                                                           {'loss': 0.2497, 'grad_norm': 1.3821619749069214, 'learning_rate': 2.5384484735255403e-05, 'epoch': 5.73}
 24%|██▍       | 18730/78504 [11:22:44<16:55:50,  1.02s/it] 24%|██▍       | 18731/78504 [11:22:52<54:23:00,  3.28s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.42585936188697815, 'learning_rate': 2.5384060124835462e-05, 'epoch': 5.73}
 24%|██▍       | 18731/78504 [11:22:52<54:23:00,  3.28s/it] 24%|██▍       | 18732/78504 [11:22:55<53:40:39,  3.23s/it]                                                           {'loss': 0.069, 'grad_norm': 0.18160048127174377, 'learning_rate': 2.5383635514415524e-05, 'epoch': 5.73}
 24%|██▍       | 18732/78504 [11:22:55<53:40:39,  3.23s/it] 24%|██▍       | 18733/78504 [11:22:58<52:34:11,  3.17s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.3113768398761749, 'learning_rate': 2.5383210903995583e-05, 'epoch': 5.73}
 24%|██▍       | 18733/78504 [11:22:58<52:34:11,  3.17s/it] 24%|██▍       | 18734/78504 [11:23:01<49:48:28,  3.00s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.3238016366958618, 'learning_rate': 2.5382786293575645e-05, 'epoch': 5.73}
 24%|██▍       | 18734/78504 [11:23:01<49:48:28,  3.00s/it] 24%|██▍       | 18735/78504 [11:23:03<46:34:28,  2.81s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.35528576374053955, 'learning_rate': 2.5382361683155704e-05, 'epoch': 5.73}
 24%|██▍       | 18735/78504 [11:23:03<46:34:28,  2.81s/it] 24%|██▍       | 18736/78504 [11:23:06<43:50:34,  2.64s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.21068421006202698, 'learning_rate': 2.5381937072735766e-05, 'epoch': 5.73}
 24%|██▍       | 18736/78504 [11:23:06<43:50:34,  2.64s/it] 24%|██▍       | 18737/78504 [11:23:08<42:13:52,  2.54s/it]                                                           {'loss': 0.064, 'grad_norm': 0.2149127870798111, 'learning_rate': 2.5381512462315824e-05, 'epoch': 5.73}
 24%|██▍       | 18737/78504 [11:23:08<42:13:52,  2.54s/it] 24%|██▍       | 18738/78504 [11:23:10<40:03:20,  2.41s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.46439245343208313, 'learning_rate': 2.5381087851895886e-05, 'epoch': 5.73}
 24%|██▍       | 18738/78504 [11:23:10<40:03:20,  2.41s/it] 24%|██▍       | 18739/78504 [11:23:12<38:08:19,  2.30s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.19368156790733337, 'learning_rate': 2.5380663241475945e-05, 'epoch': 5.73}
 24%|██▍       | 18739/78504 [11:23:12<38:08:19,  2.30s/it] 24%|██▍       | 18740/78504 [11:23:14<37:17:15,  2.25s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.2148621380329132, 'learning_rate': 2.5380238631056004e-05, 'epoch': 5.73}
 24%|██▍       | 18740/78504 [11:23:14<37:17:15,  2.25s/it] 24%|██▍       | 18741/78504 [11:23:16<36:02:20,  2.17s/it]                                                           {'loss': 0.0869, 'grad_norm': 0.6742950677871704, 'learning_rate': 2.5379814020636066e-05, 'epoch': 5.73}
 24%|██▍       | 18741/78504 [11:23:16<36:02:20,  2.17s/it] 24%|██▍       | 18742/78504 [11:23:18<34:48:21,  2.10s/it]                                                           {'loss': 0.0826, 'grad_norm': 1.2946544885635376, 'learning_rate': 2.5379389410216125e-05, 'epoch': 5.73}
 24%|██▍       | 18742/78504 [11:23:18<34:48:21,  2.10s/it] 24%|██▍       | 18743/78504 [11:23:20<33:40:53,  2.03s/it]                                                           {'loss': 0.0974, 'grad_norm': 0.452360600233078, 'learning_rate': 2.5378964799796187e-05, 'epoch': 5.73}
 24%|██▍       | 18743/78504 [11:23:20<33:40:53,  2.03s/it] 24%|██▍       | 18744/78504 [11:23:22<32:07:08,  1.93s/it]                                                           {'loss': 0.1487, 'grad_norm': 0.5160893797874451, 'learning_rate': 2.5378540189376245e-05, 'epoch': 5.73}
 24%|██▍       | 18744/78504 [11:23:22<32:07:08,  1.93s/it] 24%|██▍       | 18745/78504 [11:23:23<31:04:01,  1.87s/it]                                                           {'loss': 0.1186, 'grad_norm': 0.5799211263656616, 'learning_rate': 2.5378115578956308e-05, 'epoch': 5.73}
 24%|██▍       | 18745/78504 [11:23:23<31:04:01,  1.87s/it] 24%|██▍       | 18746/78504 [11:23:25<29:56:05,  1.80s/it]                                                           {'loss': 0.1339, 'grad_norm': 0.67337566614151, 'learning_rate': 2.5377690968536366e-05, 'epoch': 5.73}
 24%|██▍       | 18746/78504 [11:23:25<29:56:05,  1.80s/it] 24%|██▍       | 18747/78504 [11:23:27<28:38:58,  1.73s/it]                                                           {'loss': 0.164, 'grad_norm': 0.6090250015258789, 'learning_rate': 2.537726635811643e-05, 'epoch': 5.73}
 24%|██▍       | 18747/78504 [11:23:27<28:38:58,  1.73s/it] 24%|██▍       | 18748/78504 [11:23:28<27:21:01,  1.65s/it]                                                           {'loss': 0.1961, 'grad_norm': 0.674278974533081, 'learning_rate': 2.5376841747696487e-05, 'epoch': 5.73}
 24%|██▍       | 18748/78504 [11:23:28<27:21:01,  1.65s/it] 24%|██▍       | 18749/78504 [11:23:29<26:03:32,  1.57s/it]                                                           {'loss': 0.1449, 'grad_norm': 1.0088483095169067, 'learning_rate': 2.537641713727655e-05, 'epoch': 5.73}
 24%|██▍       | 18749/78504 [11:23:29<26:03:32,  1.57s/it] 24%|██▍       | 18750/78504 [11:23:31<24:37:26,  1.48s/it]                                                           {'loss': 0.1737, 'grad_norm': 1.0332586765289307, 'learning_rate': 2.537599252685661e-05, 'epoch': 5.73}
 24%|██▍       | 18750/78504 [11:23:31<24:37:26,  1.48s/it] 24%|██▍       | 18751/78504 [11:23:32<22:57:44,  1.38s/it]                                                           {'loss': 0.1816, 'grad_norm': 0.9113104343414307, 'learning_rate': 2.5375567916436673e-05, 'epoch': 5.73}
 24%|██▍       | 18751/78504 [11:23:32<22:57:44,  1.38s/it] 24%|██▍       | 18752/78504 [11:23:33<21:36:37,  1.30s/it]                                                           {'loss': 0.2065, 'grad_norm': 4.21523380279541, 'learning_rate': 2.5375143306016732e-05, 'epoch': 5.73}
 24%|██▍       | 18752/78504 [11:23:33<21:36:37,  1.30s/it] 24%|██▍       | 18753/78504 [11:23:34<20:23:43,  1.23s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.6503276824951172, 'learning_rate': 2.537471869559679e-05, 'epoch': 5.73}
 24%|██▍       | 18753/78504 [11:23:34<20:23:43,  1.23s/it] 24%|██▍       | 18754/78504 [11:23:35<18:56:52,  1.14s/it]                                                           {'loss': 0.2164, 'grad_norm': 1.099997639656067, 'learning_rate': 2.5374294085176853e-05, 'epoch': 5.73}
 24%|██▍       | 18754/78504 [11:23:35<18:56:52,  1.14s/it] 24%|██▍       | 18755/78504 [11:23:36<17:15:09,  1.04s/it]                                                           {'loss': 0.222, 'grad_norm': 3.9489545822143555, 'learning_rate': 2.537386947475691e-05, 'epoch': 5.73}
 24%|██▍       | 18755/78504 [11:23:36<17:15:09,  1.04s/it] 24%|██▍       | 18756/78504 [11:23:44<54:01:04,  3.25s/it]                                                           {'loss': 0.14, 'grad_norm': 0.7844131588935852, 'learning_rate': 2.5373444864336974e-05, 'epoch': 5.73}
 24%|██▍       | 18756/78504 [11:23:44<54:01:04,  3.25s/it] 24%|██▍       | 18757/78504 [11:23:48<54:28:11,  3.28s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.37239331007003784, 'learning_rate': 2.5373020253917032e-05, 'epoch': 5.73}
 24%|██▍       | 18757/78504 [11:23:48<54:28:11,  3.28s/it] 24%|██▍       | 18758/78504 [11:23:50<50:53:34,  3.07s/it]                                                           {'loss': 0.0733, 'grad_norm': 0.33701881766319275, 'learning_rate': 2.5372595643497094e-05, 'epoch': 5.73}
 24%|██▍       | 18758/78504 [11:23:50<50:53:34,  3.07s/it] 24%|██▍       | 18759/78504 [11:23:53<48:37:00,  2.93s/it]                                                           {'loss': 0.0638, 'grad_norm': 0.5243931412696838, 'learning_rate': 2.5372171033077153e-05, 'epoch': 5.73}
 24%|██▍       | 18759/78504 [11:23:53<48:37:00,  2.93s/it] 24%|██▍       | 18760/78504 [11:23:55<46:19:22,  2.79s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.6349968314170837, 'learning_rate': 2.5371746422657215e-05, 'epoch': 5.74}
 24%|██▍       | 18760/78504 [11:23:55<46:19:22,  2.79s/it] 24%|██▍       | 18761/78504 [11:23:58<44:31:27,  2.68s/it]                                                           {'loss': 0.051, 'grad_norm': 0.6161239147186279, 'learning_rate': 2.5371321812237274e-05, 'epoch': 5.74}
 24%|██▍       | 18761/78504 [11:23:58<44:31:27,  2.68s/it] 24%|██▍       | 18762/78504 [11:24:00<42:40:14,  2.57s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.39616847038269043, 'learning_rate': 2.5370897201817336e-05, 'epoch': 5.74}
 24%|██▍       | 18762/78504 [11:24:00<42:40:14,  2.57s/it] 24%|██▍       | 18763/78504 [11:24:02<40:17:25,  2.43s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.3635847866535187, 'learning_rate': 2.5370472591397395e-05, 'epoch': 5.74}
 24%|██▍       | 18763/78504 [11:24:02<40:17:25,  2.43s/it] 24%|██▍       | 18764/78504 [11:24:04<39:02:28,  2.35s/it]                                                           {'loss': 0.0894, 'grad_norm': 0.29994913935661316, 'learning_rate': 2.5370047980977457e-05, 'epoch': 5.74}
 24%|██▍       | 18764/78504 [11:24:04<39:02:28,  2.35s/it] 24%|██▍       | 18765/78504 [11:24:06<37:59:52,  2.29s/it]                                                           {'loss': 0.0768, 'grad_norm': 0.28734880685806274, 'learning_rate': 2.5369623370557515e-05, 'epoch': 5.74}
 24%|██▍       | 18765/78504 [11:24:06<37:59:52,  2.29s/it] 24%|██▍       | 18766/78504 [11:24:08<36:40:10,  2.21s/it]                                                           {'loss': 0.1448, 'grad_norm': 1.5063214302062988, 'learning_rate': 2.5369198760137574e-05, 'epoch': 5.74}
 24%|██▍       | 18766/78504 [11:24:08<36:40:10,  2.21s/it] 24%|██▍       | 18767/78504 [11:24:10<35:28:41,  2.14s/it]                                                           {'loss': 0.07, 'grad_norm': 0.3879759907722473, 'learning_rate': 2.5368774149717636e-05, 'epoch': 5.74}
 24%|██▍       | 18767/78504 [11:24:10<35:28:41,  2.14s/it] 24%|██▍       | 18768/78504 [11:24:12<34:07:01,  2.06s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.4678099751472473, 'learning_rate': 2.5368349539297695e-05, 'epoch': 5.74}
 24%|██▍       | 18768/78504 [11:24:12<34:07:01,  2.06s/it] 24%|██▍       | 18769/78504 [11:24:14<32:59:39,  1.99s/it]                                                           {'loss': 0.1501, 'grad_norm': 0.3531857132911682, 'learning_rate': 2.5367924928877757e-05, 'epoch': 5.74}
 24%|██▍       | 18769/78504 [11:24:14<32:59:39,  1.99s/it] 24%|██▍       | 18770/78504 [11:24:16<31:39:08,  1.91s/it]                                                           {'loss': 0.0979, 'grad_norm': 1.4715850353240967, 'learning_rate': 2.5367500318457816e-05, 'epoch': 5.74}
 24%|██▍       | 18770/78504 [11:24:16<31:39:08,  1.91s/it] 24%|██▍       | 18771/78504 [11:24:17<30:22:41,  1.83s/it]                                                           {'loss': 0.1362, 'grad_norm': 0.44359681010246277, 'learning_rate': 2.5367075708037878e-05, 'epoch': 5.74}
 24%|██▍       | 18771/78504 [11:24:17<30:22:41,  1.83s/it] 24%|██▍       | 18772/78504 [11:24:19<28:49:44,  1.74s/it]                                                           {'loss': 0.1369, 'grad_norm': 0.5759987235069275, 'learning_rate': 2.5366651097617936e-05, 'epoch': 5.74}
 24%|██▍       | 18772/78504 [11:24:19<28:49:44,  1.74s/it] 24%|██▍       | 18773/78504 [11:24:20<27:16:58,  1.64s/it]                                                           {'loss': 0.1847, 'grad_norm': 0.6020252704620361, 'learning_rate': 2.5366226487198e-05, 'epoch': 5.74}
 24%|██▍       | 18773/78504 [11:24:20<27:16:58,  1.64s/it] 24%|██▍       | 18774/78504 [11:24:22<26:06:46,  1.57s/it]                                                           {'loss': 0.163, 'grad_norm': 0.7975849509239197, 'learning_rate': 2.5365801876778057e-05, 'epoch': 5.74}
 24%|██▍       | 18774/78504 [11:24:22<26:06:46,  1.57s/it] 24%|██▍       | 18775/78504 [11:24:23<24:20:51,  1.47s/it]                                                           {'loss': 0.1832, 'grad_norm': 0.8849524855613708, 'learning_rate': 2.536537726635812e-05, 'epoch': 5.74}
 24%|██▍       | 18775/78504 [11:24:23<24:20:51,  1.47s/it] 24%|██▍       | 18776/78504 [11:24:24<22:41:07,  1.37s/it]                                                           {'loss': 0.1721, 'grad_norm': 2.2317609786987305, 'learning_rate': 2.5364952655938178e-05, 'epoch': 5.74}
 24%|██▍       | 18776/78504 [11:24:24<22:41:07,  1.37s/it] 24%|██▍       | 18777/78504 [11:24:25<21:18:32,  1.28s/it]                                                           {'loss': 0.1722, 'grad_norm': 1.1883492469787598, 'learning_rate': 2.5364528045518237e-05, 'epoch': 5.74}
 24%|██▍       | 18777/78504 [11:24:25<21:18:32,  1.28s/it] 24%|██▍       | 18778/78504 [11:24:26<19:47:23,  1.19s/it]                                                           {'loss': 0.183, 'grad_norm': 1.713629126548767, 'learning_rate': 2.53641034350983e-05, 'epoch': 5.74}
 24%|██▍       | 18778/78504 [11:24:26<19:47:23,  1.19s/it] 24%|██▍       | 18779/78504 [11:24:27<18:30:09,  1.12s/it]                                                           {'loss': 0.1723, 'grad_norm': 0.7916172742843628, 'learning_rate': 2.5363678824678358e-05, 'epoch': 5.74}
 24%|██▍       | 18779/78504 [11:24:27<18:30:09,  1.12s/it] 24%|██▍       | 18780/78504 [11:24:28<16:58:27,  1.02s/it]                                                           {'loss': 0.2762, 'grad_norm': 0.8513553142547607, 'learning_rate': 2.536325421425842e-05, 'epoch': 5.74}
 24%|██▍       | 18780/78504 [11:24:28<16:58:27,  1.02s/it] 24%|██▍       | 18781/78504 [11:24:37<57:23:53,  3.46s/it]                                                           {'loss': 0.116, 'grad_norm': 0.4374150037765503, 'learning_rate': 2.536282960383848e-05, 'epoch': 5.74}
 24%|██▍       | 18781/78504 [11:24:37<57:23:53,  3.46s/it] 24%|██▍       | 18782/78504 [11:24:40<55:21:08,  3.34s/it]                                                           {'loss': 0.0972, 'grad_norm': 0.3771440386772156, 'learning_rate': 2.536240499341854e-05, 'epoch': 5.74}
 24%|██▍       | 18782/78504 [11:24:40<55:21:08,  3.34s/it] 24%|██▍       | 18783/78504 [11:24:43<53:16:24,  3.21s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.2502720057964325, 'learning_rate': 2.53619803829986e-05, 'epoch': 5.74}
 24%|██▍       | 18783/78504 [11:24:43<53:16:24,  3.21s/it] 24%|██▍       | 18784/78504 [11:24:46<50:08:48,  3.02s/it]                                                           {'loss': 0.0545, 'grad_norm': 0.4300520718097687, 'learning_rate': 2.536155577257866e-05, 'epoch': 5.74}
 24%|██▍       | 18784/78504 [11:24:46<50:08:48,  3.02s/it] 24%|██▍       | 18785/78504 [11:24:48<47:29:33,  2.86s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.20979845523834229, 'learning_rate': 2.536113116215872e-05, 'epoch': 5.74}
 24%|██▍       | 18785/78504 [11:24:48<47:29:33,  2.86s/it] 24%|██▍       | 18786/78504 [11:24:51<45:25:29,  2.74s/it]                                                           {'loss': 0.0546, 'grad_norm': 0.24617557227611542, 'learning_rate': 2.5360706551738782e-05, 'epoch': 5.74}
 24%|██▍       | 18786/78504 [11:24:51<45:25:29,  2.74s/it] 24%|██▍       | 18787/78504 [11:24:53<43:17:59,  2.61s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.23765301704406738, 'learning_rate': 2.536028194131884e-05, 'epoch': 5.74}
 24%|██▍       | 18787/78504 [11:24:53<43:17:59,  2.61s/it] 24%|██▍       | 18788/78504 [11:24:55<41:45:52,  2.52s/it]                                                           {'loss': 0.0661, 'grad_norm': 0.7591007947921753, 'learning_rate': 2.5359857330898903e-05, 'epoch': 5.74}
 24%|██▍       | 18788/78504 [11:24:55<41:45:52,  2.52s/it] 24%|██▍       | 18789/78504 [11:24:57<40:06:41,  2.42s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.45873722434043884, 'learning_rate': 2.535943272047896e-05, 'epoch': 5.74}
 24%|██▍       | 18789/78504 [11:24:57<40:06:41,  2.42s/it] 24%|██▍       | 18790/78504 [11:25:00<38:48:51,  2.34s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.656512439250946, 'learning_rate': 2.535900811005902e-05, 'epoch': 5.74}
 24%|██▍       | 18790/78504 [11:25:00<38:48:51,  2.34s/it] 24%|██▍       | 18791/78504 [11:25:01<36:24:34,  2.20s/it]                                                           {'loss': 0.1042, 'grad_norm': 0.36748069524765015, 'learning_rate': 2.5358583499639082e-05, 'epoch': 5.74}
 24%|██▍       | 18791/78504 [11:25:01<36:24:34,  2.20s/it] 24%|██▍       | 18792/78504 [11:25:03<35:21:53,  2.13s/it]                                                           {'loss': 0.0673, 'grad_norm': 0.25042635202407837, 'learning_rate': 2.535815888921914e-05, 'epoch': 5.75}
 24%|██▍       | 18792/78504 [11:25:03<35:21:53,  2.13s/it] 24%|██▍       | 18793/78504 [11:25:05<34:16:46,  2.07s/it]                                                           {'loss': 0.1134, 'grad_norm': 0.3976706564426422, 'learning_rate': 2.5357734278799203e-05, 'epoch': 5.75}
 24%|██▍       | 18793/78504 [11:25:05<34:16:46,  2.07s/it] 24%|██▍       | 18794/78504 [11:25:07<33:27:08,  2.02s/it]                                                           {'loss': 0.0953, 'grad_norm': 1.3359887599945068, 'learning_rate': 2.5357309668379262e-05, 'epoch': 5.75}
 24%|██▍       | 18794/78504 [11:25:07<33:27:08,  2.02s/it] 24%|██▍       | 18795/78504 [11:25:09<32:12:13,  1.94s/it]                                                           {'loss': 0.1144, 'grad_norm': 0.5019357204437256, 'learning_rate': 2.5356885057959324e-05, 'epoch': 5.75}
 24%|██▍       | 18795/78504 [11:25:09<32:12:13,  1.94s/it] 24%|██▍       | 18796/78504 [11:25:11<30:23:39,  1.83s/it]                                                           {'loss': 0.1572, 'grad_norm': 0.5447941422462463, 'learning_rate': 2.5356460447539383e-05, 'epoch': 5.75}
 24%|██▍       | 18796/78504 [11:25:11<30:23:39,  1.83s/it] 24%|██▍       | 18797/78504 [11:25:12<28:56:23,  1.74s/it]                                                           {'loss': 0.1461, 'grad_norm': 1.3143339157104492, 'learning_rate': 2.5356035837119445e-05, 'epoch': 5.75}
 24%|██▍       | 18797/78504 [11:25:12<28:56:23,  1.74s/it] 24%|██▍       | 18798/78504 [11:25:14<27:48:31,  1.68s/it]                                                           {'loss': 0.128, 'grad_norm': 0.28046002984046936, 'learning_rate': 2.5355611226699503e-05, 'epoch': 5.75}
 24%|██▍       | 18798/78504 [11:25:14<27:48:31,  1.68s/it] 24%|██▍       | 18799/78504 [11:25:15<26:32:10,  1.60s/it]                                                           {'loss': 0.1887, 'grad_norm': 0.45387011766433716, 'learning_rate': 2.5355186616279565e-05, 'epoch': 5.75}
 24%|██▍       | 18799/78504 [11:25:15<26:32:10,  1.60s/it] 24%|██▍       | 18800/78504 [11:25:16<24:56:40,  1.50s/it]                                                           {'loss': 0.1848, 'grad_norm': 0.7848306894302368, 'learning_rate': 2.5354762005859624e-05, 'epoch': 5.75}
 24%|██▍       | 18800/78504 [11:25:16<24:56:40,  1.50s/it] 24%|██▍       | 18801/78504 [11:25:17<23:27:19,  1.41s/it]                                                           {'loss': 0.1629, 'grad_norm': 0.7976605296134949, 'learning_rate': 2.5354337395439686e-05, 'epoch': 5.75}
 24%|██▍       | 18801/78504 [11:25:18<23:27:19,  1.41s/it] 24%|██▍       | 18802/78504 [11:25:19<21:47:45,  1.31s/it]                                                           {'loss': 0.192, 'grad_norm': 1.1532093286514282, 'learning_rate': 2.5353912785019745e-05, 'epoch': 5.75}
 24%|██▍       | 18802/78504 [11:25:19<21:47:45,  1.31s/it] 24%|██▍       | 18803/78504 [11:25:20<20:30:49,  1.24s/it]                                                           {'loss': 0.1888, 'grad_norm': 0.9307479858398438, 'learning_rate': 2.5353488174599804e-05, 'epoch': 5.75}
 24%|██▍       | 18803/78504 [11:25:20<20:30:49,  1.24s/it] 24%|██▍       | 18804/78504 [11:25:21<18:57:56,  1.14s/it]                                                           {'loss': 0.1943, 'grad_norm': 0.8115317225456238, 'learning_rate': 2.5353063564179866e-05, 'epoch': 5.75}
 24%|██▍       | 18804/78504 [11:25:21<18:57:56,  1.14s/it] 24%|██▍       | 18805/78504 [11:25:21<16:59:24,  1.02s/it]                                                           {'loss': 0.1928, 'grad_norm': 0.7686141133308411, 'learning_rate': 2.5352638953759924e-05, 'epoch': 5.75}
 24%|██▍       | 18805/78504 [11:25:21<16:59:24,  1.02s/it] 24%|██▍       | 18806/78504 [11:25:31<59:50:34,  3.61s/it]                                                           {'loss': 0.1181, 'grad_norm': 0.32193225622177124, 'learning_rate': 2.5352214343339986e-05, 'epoch': 5.75}
 24%|██▍       | 18806/78504 [11:25:31<59:50:34,  3.61s/it] 24%|██▍       | 18807/78504 [11:25:34<58:34:40,  3.53s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.326969712972641, 'learning_rate': 2.5351789732920045e-05, 'epoch': 5.75}
 24%|██▍       | 18807/78504 [11:25:34<58:34:40,  3.53s/it] 24%|██▍       | 18808/78504 [11:25:37<53:45:07,  3.24s/it]                                                           {'loss': 0.1215, 'grad_norm': 0.31231093406677246, 'learning_rate': 2.5351365122500107e-05, 'epoch': 5.75}
 24%|██▍       | 18808/78504 [11:25:37<53:45:07,  3.24s/it] 24%|██▍       | 18809/78504 [11:25:39<50:36:56,  3.05s/it]                                                           {'loss': 0.0756, 'grad_norm': 0.23371127247810364, 'learning_rate': 2.5350940512080166e-05, 'epoch': 5.75}
 24%|██▍       | 18809/78504 [11:25:39<50:36:56,  3.05s/it] 24%|██▍       | 18810/78504 [11:25:42<47:41:57,  2.88s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.5120605230331421, 'learning_rate': 2.5350515901660228e-05, 'epoch': 5.75}
 24%|██▍       | 18810/78504 [11:25:42<47:41:57,  2.88s/it] 24%|██▍       | 18811/78504 [11:25:44<44:37:38,  2.69s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.20598354935646057, 'learning_rate': 2.5350091291240287e-05, 'epoch': 5.75}
 24%|██▍       | 18811/78504 [11:25:44<44:37:38,  2.69s/it] 24%|██▍       | 18812/78504 [11:25:47<42:46:25,  2.58s/it]                                                           {'loss': 0.0712, 'grad_norm': 0.2277086079120636, 'learning_rate': 2.534966668082035e-05, 'epoch': 5.75}
 24%|██▍       | 18812/78504 [11:25:47<42:46:25,  2.58s/it] 24%|██▍       | 18813/78504 [11:25:49<40:18:44,  2.43s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.15748584270477295, 'learning_rate': 2.5349242070400408e-05, 'epoch': 5.75}
 24%|██▍       | 18813/78504 [11:25:49<40:18:44,  2.43s/it] 24%|██▍       | 18814/78504 [11:25:51<39:04:17,  2.36s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.17930971086025238, 'learning_rate': 2.534881745998047e-05, 'epoch': 5.75}
 24%|██▍       | 18814/78504 [11:25:51<39:04:17,  2.36s/it] 24%|██▍       | 18815/78504 [11:25:53<38:00:09,  2.29s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.4311087131500244, 'learning_rate': 2.534839284956053e-05, 'epoch': 5.75}
 24%|██▍       | 18815/78504 [11:25:53<38:00:09,  2.29s/it] 24%|██▍       | 18816/78504 [11:25:55<36:38:00,  2.21s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.24363479018211365, 'learning_rate': 2.5347968239140587e-05, 'epoch': 5.75}
 24%|██▍       | 18816/78504 [11:25:55<36:38:00,  2.21s/it] 24%|██▍       | 18817/78504 [11:25:57<35:30:50,  2.14s/it]                                                           {'loss': 0.0959, 'grad_norm': 0.44765928387641907, 'learning_rate': 2.534754362872065e-05, 'epoch': 5.75}
 24%|██▍       | 18817/78504 [11:25:57<35:30:50,  2.14s/it] 24%|██▍       | 18818/78504 [11:25:59<34:14:49,  2.07s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.2419704794883728, 'learning_rate': 2.5347119018300708e-05, 'epoch': 5.75}
 24%|██▍       | 18818/78504 [11:25:59<34:14:49,  2.07s/it] 24%|██▍       | 18819/78504 [11:26:01<33:13:28,  2.00s/it]                                                           {'loss': 0.1307, 'grad_norm': 0.3888092339038849, 'learning_rate': 2.534669440788077e-05, 'epoch': 5.75}
 24%|██▍       | 18819/78504 [11:26:01<33:13:28,  2.00s/it] 24%|██▍       | 18820/78504 [11:26:02<31:29:52,  1.90s/it]                                                           {'loss': 0.1343, 'grad_norm': 0.4806535243988037, 'learning_rate': 2.534626979746083e-05, 'epoch': 5.75}
 24%|██▍       | 18820/78504 [11:26:02<31:29:52,  1.90s/it] 24%|██▍       | 18821/78504 [11:26:04<30:14:27,  1.82s/it]                                                           {'loss': 0.1265, 'grad_norm': 1.5253900289535522, 'learning_rate': 2.534584518704089e-05, 'epoch': 5.75}
 24%|██▍       | 18821/78504 [11:26:04<30:14:27,  1.82s/it] 24%|██▍       | 18822/78504 [11:26:05<28:42:32,  1.73s/it]                                                           {'loss': 0.1438, 'grad_norm': 0.9018454551696777, 'learning_rate': 2.534542057662095e-05, 'epoch': 5.75}
 24%|██▍       | 18822/78504 [11:26:06<28:42:32,  1.73s/it] 24%|██▍       | 18823/78504 [11:26:07<27:13:22,  1.64s/it]                                                           {'loss': 0.1414, 'grad_norm': 0.4314505457878113, 'learning_rate': 2.534499596620101e-05, 'epoch': 5.75}
 24%|██▍       | 18823/78504 [11:26:07<27:13:22,  1.64s/it] 24%|██▍       | 18824/78504 [11:26:08<26:03:10,  1.57s/it]                                                           {'loss': 0.1191, 'grad_norm': 0.34115785360336304, 'learning_rate': 2.534457135578107e-05, 'epoch': 5.75}
 24%|██▍       | 18824/78504 [11:26:08<26:03:10,  1.57s/it] 24%|██▍       | 18825/78504 [11:26:10<24:18:31,  1.47s/it]                                                           {'loss': 0.1573, 'grad_norm': 0.6110333204269409, 'learning_rate': 2.5344146745361132e-05, 'epoch': 5.76}
 24%|██▍       | 18825/78504 [11:26:10<24:18:31,  1.47s/it] 24%|██▍       | 18826/78504 [11:26:11<22:43:34,  1.37s/it]                                                           {'loss': 0.2053, 'grad_norm': 0.7248196601867676, 'learning_rate': 2.534372213494119e-05, 'epoch': 5.76}
 24%|██▍       | 18826/78504 [11:26:11<22:43:34,  1.37s/it] 24%|██▍       | 18827/78504 [11:26:12<21:25:58,  1.29s/it]                                                           {'loss': 0.1844, 'grad_norm': 1.5136675834655762, 'learning_rate': 2.5343297524521253e-05, 'epoch': 5.76}
 24%|██▍       | 18827/78504 [11:26:12<21:25:58,  1.29s/it] 24%|██▍       | 18828/78504 [11:26:13<19:57:32,  1.20s/it]                                                           {'loss': 0.2148, 'grad_norm': 0.9543635845184326, 'learning_rate': 2.5342872914101312e-05, 'epoch': 5.76}
 24%|██▍       | 18828/78504 [11:26:13<19:57:32,  1.20s/it] 24%|██▍       | 18829/78504 [11:26:14<18:37:50,  1.12s/it]                                                           {'loss': 0.1841, 'grad_norm': 0.7693895101547241, 'learning_rate': 2.534244830368137e-05, 'epoch': 5.76}
 24%|██▍       | 18829/78504 [11:26:14<18:37:50,  1.12s/it] 24%|██▍       | 18830/78504 [11:26:15<16:56:02,  1.02s/it]                                                           {'loss': 0.2716, 'grad_norm': 3.167778968811035, 'learning_rate': 2.5342023693261433e-05, 'epoch': 5.76}
 24%|██▍       | 18830/78504 [11:26:15<16:56:02,  1.02s/it] 24%|██▍       | 18831/78504 [11:26:22<48:12:23,  2.91s/it]                                                           {'loss': 0.1469, 'grad_norm': 0.8537558317184448, 'learning_rate': 2.534159908284149e-05, 'epoch': 5.76}
 24%|██▍       | 18831/78504 [11:26:22<48:12:23,  2.91s/it] 24%|██▍       | 18832/78504 [11:26:25<49:14:09,  2.97s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.1839110553264618, 'learning_rate': 2.5341174472421553e-05, 'epoch': 5.76}
 24%|██▍       | 18832/78504 [11:26:25<49:14:09,  2.97s/it] 24%|██▍       | 18833/78504 [11:26:28<49:27:22,  2.98s/it]                                                           {'loss': 0.0823, 'grad_norm': 0.3252720534801483, 'learning_rate': 2.5340749862001612e-05, 'epoch': 5.76}
 24%|██▍       | 18833/78504 [11:26:28<49:27:22,  2.98s/it] 24%|██▍       | 18834/78504 [11:26:31<47:28:57,  2.86s/it]                                                           {'loss': 0.0427, 'grad_norm': 0.2524643838405609, 'learning_rate': 2.5340325251581674e-05, 'epoch': 5.76}
 24%|██▍       | 18834/78504 [11:26:31<47:28:57,  2.86s/it] 24%|██▍       | 18835/78504 [11:26:33<45:35:50,  2.75s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.21003945171833038, 'learning_rate': 2.5339900641161733e-05, 'epoch': 5.76}
 24%|██▍       | 18835/78504 [11:26:33<45:35:50,  2.75s/it] 24%|██▍       | 18836/78504 [11:26:35<43:36:50,  2.63s/it]                                                           {'loss': 0.0588, 'grad_norm': 0.3303726613521576, 'learning_rate': 2.5339476030741795e-05, 'epoch': 5.76}
 24%|██▍       | 18836/78504 [11:26:35<43:36:50,  2.63s/it] 24%|██▍       | 18837/78504 [11:26:38<42:05:19,  2.54s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.3451198935508728, 'learning_rate': 2.5339051420321854e-05, 'epoch': 5.76}
 24%|██▍       | 18837/78504 [11:26:38<42:05:19,  2.54s/it] 24%|██▍       | 18838/78504 [11:26:40<39:49:28,  2.40s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.1759386956691742, 'learning_rate': 2.5338626809901916e-05, 'epoch': 5.76}
 24%|██▍       | 18838/78504 [11:26:40<39:49:28,  2.40s/it] 24%|██▍       | 18839/78504 [11:26:42<37:59:34,  2.29s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.2898235321044922, 'learning_rate': 2.5338202199481974e-05, 'epoch': 5.76}
 24%|██▍       | 18839/78504 [11:26:42<37:59:34,  2.29s/it] 24%|██▍       | 18840/78504 [11:26:44<37:11:14,  2.24s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.3507949113845825, 'learning_rate': 2.5337777589062037e-05, 'epoch': 5.76}
 24%|██▍       | 18840/78504 [11:26:44<37:11:14,  2.24s/it] 24%|██▍       | 18841/78504 [11:26:46<36:05:21,  2.18s/it]                                                           {'loss': 0.0898, 'grad_norm': 0.6107078194618225, 'learning_rate': 2.5337352978642095e-05, 'epoch': 5.76}
 24%|██▍       | 18841/78504 [11:26:46<36:05:21,  2.18s/it] 24%|██▍       | 18842/78504 [11:26:48<35:04:55,  2.12s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.4224831163883209, 'learning_rate': 2.5336928368222154e-05, 'epoch': 5.76}
 24%|██▍       | 18842/78504 [11:26:48<35:04:55,  2.12s/it] 24%|██▍       | 18843/78504 [11:26:50<33:47:20,  2.04s/it]                                                           {'loss': 0.0823, 'grad_norm': 0.9016759395599365, 'learning_rate': 2.5336503757802216e-05, 'epoch': 5.76}
 24%|██▍       | 18843/78504 [11:26:50<33:47:20,  2.04s/it] 24%|██▍       | 18844/78504 [11:26:52<32:48:35,  1.98s/it]                                                           {'loss': 0.1179, 'grad_norm': 0.4615282714366913, 'learning_rate': 2.5336079147382275e-05, 'epoch': 5.76}
 24%|██▍       | 18844/78504 [11:26:52<32:48:35,  1.98s/it] 24%|██▍       | 18845/78504 [11:26:53<31:33:35,  1.90s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.31622055172920227, 'learning_rate': 2.5335654536962337e-05, 'epoch': 5.76}
 24%|██▍       | 18845/78504 [11:26:53<31:33:35,  1.90s/it] 24%|██▍       | 18846/78504 [11:26:55<30:14:09,  1.82s/it]                                                           {'loss': 0.1439, 'grad_norm': 0.6754903793334961, 'learning_rate': 2.5335229926542395e-05, 'epoch': 5.76}
 24%|██▍       | 18846/78504 [11:26:55<30:14:09,  1.82s/it] 24%|██▍       | 18847/78504 [11:26:57<28:42:55,  1.73s/it]                                                           {'loss': 0.1365, 'grad_norm': 0.8080312013626099, 'learning_rate': 2.5334805316122458e-05, 'epoch': 5.76}
 24%|██▍       | 18847/78504 [11:26:57<28:42:55,  1.73s/it] 24%|██▍       | 18848/78504 [11:26:58<27:23:03,  1.65s/it]                                                           {'loss': 0.1641, 'grad_norm': 0.6984068751335144, 'learning_rate': 2.5334380705702516e-05, 'epoch': 5.76}
 24%|██▍       | 18848/78504 [11:26:58<27:23:03,  1.65s/it] 24%|██▍       | 18849/78504 [11:26:59<26:10:10,  1.58s/it]                                                           {'loss': 0.1484, 'grad_norm': 0.48402369022369385, 'learning_rate': 2.533395609528258e-05, 'epoch': 5.76}
 24%|██▍       | 18849/78504 [11:26:59<26:10:10,  1.58s/it] 24%|██▍       | 18850/78504 [11:27:01<24:40:00,  1.49s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.4612075984477997, 'learning_rate': 2.5333531484862637e-05, 'epoch': 5.76}
 24%|██▍       | 18850/78504 [11:27:01<24:40:00,  1.49s/it] 24%|██▍       | 18851/78504 [11:27:02<22:58:57,  1.39s/it]                                                           {'loss': 0.1512, 'grad_norm': 4.746153831481934, 'learning_rate': 2.53331068744427e-05, 'epoch': 5.76}
 24%|██▍       | 18851/78504 [11:27:02<22:58:57,  1.39s/it] 24%|██▍       | 18852/78504 [11:27:03<21:33:05,  1.30s/it]                                                           {'loss': 0.1877, 'grad_norm': 0.5038236975669861, 'learning_rate': 2.533268226402276e-05, 'epoch': 5.76}
 24%|██▍       | 18852/78504 [11:27:03<21:33:05,  1.30s/it] 24%|██▍       | 18853/78504 [11:27:04<20:18:18,  1.23s/it]                                                           {'loss': 0.2034, 'grad_norm': 3.492457151412964, 'learning_rate': 2.5332257653602823e-05, 'epoch': 5.76}
 24%|██▍       | 18853/78504 [11:27:04<20:18:18,  1.23s/it] 24%|██▍       | 18854/78504 [11:27:05<18:49:53,  1.14s/it]                                                           {'loss': 0.1947, 'grad_norm': 0.7143345475196838, 'learning_rate': 2.5331833043182882e-05, 'epoch': 5.76}
 24%|██▍       | 18854/78504 [11:27:05<18:49:53,  1.14s/it] 24%|██▍       | 18855/78504 [11:27:06<17:02:35,  1.03s/it]                                                           {'loss': 0.2628, 'grad_norm': 0.829811692237854, 'learning_rate': 2.533140843276294e-05, 'epoch': 5.76}
 24%|██▍       | 18855/78504 [11:27:06<17:02:35,  1.03s/it] 24%|██▍       | 18856/78504 [11:27:15<60:22:31,  3.64s/it]                                                           {'loss': 0.1791, 'grad_norm': 0.3414965271949768, 'learning_rate': 2.5330983822343003e-05, 'epoch': 5.76}
 24%|██▍       | 18856/78504 [11:27:15<60:22:31,  3.64s/it] 24%|██▍       | 18857/78504 [11:27:18<56:40:12,  3.42s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.20614656805992126, 'learning_rate': 2.533055921192306e-05, 'epoch': 5.76}
 24%|██▍       | 18857/78504 [11:27:18<56:40:12,  3.42s/it] 24%|██▍       | 18858/78504 [11:27:21<52:24:58,  3.16s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.2329728752374649, 'learning_rate': 2.5330134601503124e-05, 'epoch': 5.77}
 24%|██▍       | 18858/78504 [11:27:21<52:24:58,  3.16s/it] 24%|██▍       | 18859/78504 [11:27:24<49:39:18,  3.00s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.20066408812999725, 'learning_rate': 2.5329709991083182e-05, 'epoch': 5.77}
 24%|██▍       | 18859/78504 [11:27:24<49:39:18,  3.00s/it] 24%|██▍       | 18860/78504 [11:27:26<47:00:18,  2.84s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.20495189726352692, 'learning_rate': 2.5329285380663244e-05, 'epoch': 5.77}
 24%|██▍       | 18860/78504 [11:27:26<47:00:18,  2.84s/it] 24%|██▍       | 18861/78504 [11:27:28<44:08:54,  2.66s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.2586032450199127, 'learning_rate': 2.5328860770243303e-05, 'epoch': 5.77}
 24%|██▍       | 18861/78504 [11:27:28<44:08:54,  2.66s/it] 24%|██▍       | 18862/78504 [11:27:31<42:28:06,  2.56s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.31698352098464966, 'learning_rate': 2.5328436159823365e-05, 'epoch': 5.77}
 24%|██▍       | 18862/78504 [11:27:31<42:28:06,  2.56s/it] 24%|██▍       | 18863/78504 [11:27:33<40:06:32,  2.42s/it]                                                           {'loss': 0.07, 'grad_norm': 0.4558704197406769, 'learning_rate': 2.5328011549403424e-05, 'epoch': 5.77}
 24%|██▍       | 18863/78504 [11:27:33<40:06:32,  2.42s/it] 24%|██▍       | 18864/78504 [11:27:35<38:54:36,  2.35s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.30035656690597534, 'learning_rate': 2.5327586938983486e-05, 'epoch': 5.77}
 24%|██▍       | 18864/78504 [11:27:35<38:54:36,  2.35s/it] 24%|██▍       | 18865/78504 [11:27:37<37:52:29,  2.29s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.5590085983276367, 'learning_rate': 2.5327162328563545e-05, 'epoch': 5.77}
 24%|██▍       | 18865/78504 [11:27:37<37:52:29,  2.29s/it] 24%|██▍       | 18866/78504 [11:27:39<36:33:26,  2.21s/it]                                                           {'loss': 0.1112, 'grad_norm': 0.27112647891044617, 'learning_rate': 2.5326737718143607e-05, 'epoch': 5.77}
 24%|██▍       | 18866/78504 [11:27:39<36:33:26,  2.21s/it] 24%|██▍       | 18867/78504 [11:27:41<36:24:35,  2.20s/it]                                                           {'loss': 0.0706, 'grad_norm': 0.33696043491363525, 'learning_rate': 2.5326313107723665e-05, 'epoch': 5.77}
 24%|██▍       | 18867/78504 [11:27:41<36:24:35,  2.20s/it] 24%|██▍       | 18868/78504 [11:27:43<34:44:40,  2.10s/it]                                                           {'loss': 0.1095, 'grad_norm': 0.29441842436790466, 'learning_rate': 2.5325888497303724e-05, 'epoch': 5.77}
 24%|██▍       | 18868/78504 [11:27:43<34:44:40,  2.10s/it] 24%|██▍       | 18869/78504 [11:27:45<33:32:58,  2.03s/it]                                                           {'loss': 0.1204, 'grad_norm': 0.41394564509391785, 'learning_rate': 2.5325463886883786e-05, 'epoch': 5.77}
 24%|██▍       | 18869/78504 [11:27:45<33:32:58,  2.03s/it] 24%|██▍       | 18870/78504 [11:27:47<32:13:50,  1.95s/it]                                                           {'loss': 0.1204, 'grad_norm': 0.43144282698631287, 'learning_rate': 2.5325039276463845e-05, 'epoch': 5.77}
 24%|██▍       | 18870/78504 [11:27:47<32:13:50,  1.95s/it] 24%|██▍       | 18871/78504 [11:27:48<30:22:42,  1.83s/it]                                                           {'loss': 0.1176, 'grad_norm': 0.39037394523620605, 'learning_rate': 2.5324614666043907e-05, 'epoch': 5.77}
 24%|██▍       | 18871/78504 [11:27:48<30:22:42,  1.83s/it] 24%|██▍       | 18872/78504 [11:27:50<28:53:32,  1.74s/it]                                                           {'loss': 0.1308, 'grad_norm': 0.47552451491355896, 'learning_rate': 2.5324190055623966e-05, 'epoch': 5.77}
 24%|██▍       | 18872/78504 [11:27:50<28:53:32,  1.74s/it] 24%|██▍       | 18873/78504 [11:27:51<27:29:52,  1.66s/it]                                                           {'loss': 0.1599, 'grad_norm': 0.9562070965766907, 'learning_rate': 2.5323765445204028e-05, 'epoch': 5.77}
 24%|██▍       | 18873/78504 [11:27:51<27:29:52,  1.66s/it] 24%|██▍       | 18874/78504 [11:27:53<26:11:53,  1.58s/it]                                                           {'loss': 0.1291, 'grad_norm': 0.8005731105804443, 'learning_rate': 2.5323340834784087e-05, 'epoch': 5.77}
 24%|██▍       | 18874/78504 [11:27:53<26:11:53,  1.58s/it] 24%|██▍       | 18875/78504 [11:27:54<24:43:08,  1.49s/it]                                                           {'loss': 0.1618, 'grad_norm': 0.8874202370643616, 'learning_rate': 2.532291622436415e-05, 'epoch': 5.77}
 24%|██▍       | 18875/78504 [11:27:54<24:43:08,  1.49s/it] 24%|██▍       | 18876/78504 [11:27:55<23:00:01,  1.39s/it]                                                           {'loss': 0.1803, 'grad_norm': 0.5618204474449158, 'learning_rate': 2.5322491613944207e-05, 'epoch': 5.77}
 24%|██▍       | 18876/78504 [11:27:55<23:00:01,  1.39s/it] 24%|██▍       | 18877/78504 [11:27:56<21:32:21,  1.30s/it]                                                           {'loss': 0.2283, 'grad_norm': 1.2600722312927246, 'learning_rate': 2.532206700352427e-05, 'epoch': 5.77}
 24%|██▍       | 18877/78504 [11:27:56<21:32:21,  1.30s/it] 24%|██▍       | 18878/78504 [11:27:57<20:03:40,  1.21s/it]                                                           {'loss': 0.1929, 'grad_norm': 0.6381109952926636, 'learning_rate': 2.5321642393104328e-05, 'epoch': 5.77}
 24%|██▍       | 18878/78504 [11:27:57<20:03:40,  1.21s/it] 24%|██▍       | 18879/78504 [11:27:58<18:40:48,  1.13s/it]                                                           {'loss': 0.1898, 'grad_norm': 0.862105131149292, 'learning_rate': 2.532121778268439e-05, 'epoch': 5.77}
 24%|██▍       | 18879/78504 [11:27:58<18:40:48,  1.13s/it] 24%|██▍       | 18880/78504 [11:27:59<16:58:16,  1.02s/it]                                                           {'loss': 0.2147, 'grad_norm': 0.8265422582626343, 'learning_rate': 2.532079317226445e-05, 'epoch': 5.77}
 24%|██▍       | 18880/78504 [11:27:59<16:58:16,  1.02s/it] 24%|██▍       | 18881/78504 [11:28:07<53:47:45,  3.25s/it]                                                           {'loss': 0.1355, 'grad_norm': 0.3277219831943512, 'learning_rate': 2.5320368561844508e-05, 'epoch': 5.77}
 24%|██▍       | 18881/78504 [11:28:07<53:47:45,  3.25s/it] 24%|██▍       | 18882/78504 [11:28:10<53:13:11,  3.21s/it]                                                           {'loss': 0.073, 'grad_norm': 0.25864261388778687, 'learning_rate': 2.531994395142457e-05, 'epoch': 5.77}
 24%|██▍       | 18882/78504 [11:28:10<53:13:11,  3.21s/it] 24%|██▍       | 18883/78504 [11:28:13<51:45:29,  3.13s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.2800222933292389, 'learning_rate': 2.531951934100463e-05, 'epoch': 5.77}
 24%|██▍       | 18883/78504 [11:28:13<51:45:29,  3.13s/it] 24%|██▍       | 18884/78504 [11:28:16<49:02:16,  2.96s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.1677408218383789, 'learning_rate': 2.531909473058469e-05, 'epoch': 5.77}
 24%|██▍       | 18884/78504 [11:28:16<49:02:16,  2.96s/it] 24%|██▍       | 18885/78504 [11:28:18<46:40:21,  2.82s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.2656038701534271, 'learning_rate': 2.531867012016475e-05, 'epoch': 5.77}
 24%|██▍       | 18885/78504 [11:28:18<46:40:21,  2.82s/it] 24%|██▍       | 18886/78504 [11:28:21<44:43:17,  2.70s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.3900659680366516, 'learning_rate': 2.531824550974481e-05, 'epoch': 5.77}
 24%|██▍       | 18886/78504 [11:28:21<44:43:17,  2.70s/it] 24%|██▍       | 18887/78504 [11:28:23<42:49:31,  2.59s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.4004378616809845, 'learning_rate': 2.531782089932487e-05, 'epoch': 5.77}
 24%|██▍       | 18887/78504 [11:28:23<42:49:31,  2.59s/it] 24%|██▍       | 18888/78504 [11:28:25<40:29:01,  2.44s/it]                                                           {'loss': 0.0418, 'grad_norm': 0.1667684018611908, 'learning_rate': 2.5317396288904932e-05, 'epoch': 5.77}
 24%|██▍       | 18888/78504 [11:28:25<40:29:01,  2.44s/it] 24%|██▍       | 18889/78504 [11:28:27<39:10:33,  2.37s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.322361558675766, 'learning_rate': 2.531697167848499e-05, 'epoch': 5.77}
 24%|██▍       | 18889/78504 [11:28:27<39:10:33,  2.37s/it] 24%|██▍       | 18890/78504 [11:28:30<38:09:11,  2.30s/it]                                                           {'loss': 0.076, 'grad_norm': 0.5598129630088806, 'learning_rate': 2.5316547068065053e-05, 'epoch': 5.77}
 24%|██▍       | 18890/78504 [11:28:30<38:09:11,  2.30s/it] 24%|██▍       | 18891/78504 [11:28:32<36:46:56,  2.22s/it]                                                           {'loss': 0.0791, 'grad_norm': 1.0145994424819946, 'learning_rate': 2.531612245764511e-05, 'epoch': 5.78}
 24%|██▍       | 18891/78504 [11:28:32<36:46:56,  2.22s/it] 24%|██▍       | 18892/78504 [11:28:34<35:34:07,  2.15s/it]                                                           {'loss': 0.0907, 'grad_norm': 0.6317553520202637, 'learning_rate': 2.531569784722517e-05, 'epoch': 5.78}
 24%|██▍       | 18892/78504 [11:28:34<35:34:07,  2.15s/it] 24%|██▍       | 18893/78504 [11:28:36<34:16:17,  2.07s/it]                                                           {'loss': 0.0858, 'grad_norm': 0.41636255383491516, 'learning_rate': 2.5315273236805232e-05, 'epoch': 5.78}
 24%|██▍       | 18893/78504 [11:28:36<34:16:17,  2.07s/it] 24%|██▍       | 18894/78504 [11:28:37<33:15:02,  2.01s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.6325554251670837, 'learning_rate': 2.531484862638529e-05, 'epoch': 5.78}
 24%|██▍       | 18894/78504 [11:28:37<33:15:02,  2.01s/it] 24%|██▍       | 18895/78504 [11:28:39<32:00:42,  1.93s/it]                                                           {'loss': 0.1268, 'grad_norm': 0.4705307185649872, 'learning_rate': 2.5314424015965353e-05, 'epoch': 5.78}
 24%|██▍       | 18895/78504 [11:28:39<32:00:42,  1.93s/it] 24%|██▍       | 18896/78504 [11:28:41<30:15:09,  1.83s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.9056005477905273, 'learning_rate': 2.5313999405545412e-05, 'epoch': 5.78}
 24%|██▍       | 18896/78504 [11:28:41<30:15:09,  1.83s/it] 24%|██▍       | 18897/78504 [11:28:42<28:51:30,  1.74s/it]                                                           {'loss': 0.156, 'grad_norm': 0.8941135406494141, 'learning_rate': 2.5313574795125474e-05, 'epoch': 5.78}
 24%|██▍       | 18897/78504 [11:28:42<28:51:30,  1.74s/it] 24%|██▍       | 18898/78504 [11:28:44<27:42:09,  1.67s/it]                                                           {'loss': 0.1744, 'grad_norm': 0.38874688744544983, 'learning_rate': 2.5313150184705533e-05, 'epoch': 5.78}
 24%|██▍       | 18898/78504 [11:28:44<27:42:09,  1.67s/it] 24%|██▍       | 18899/78504 [11:28:45<26:17:43,  1.59s/it]                                                           {'loss': 0.1432, 'grad_norm': 1.7190274000167847, 'learning_rate': 2.5312725574285595e-05, 'epoch': 5.78}
 24%|██▍       | 18899/78504 [11:28:45<26:17:43,  1.59s/it] 24%|██▍       | 18900/78504 [11:28:46<24:47:49,  1.50s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.5902360677719116, 'learning_rate': 2.5312300963865653e-05, 'epoch': 5.78}
 24%|██▍       | 18900/78504 [11:28:46<24:47:49,  1.50s/it] 24%|██▍       | 18901/78504 [11:28:48<23:22:00,  1.41s/it]                                                           {'loss': 0.1733, 'grad_norm': 0.7914438247680664, 'learning_rate': 2.5311876353445715e-05, 'epoch': 5.78}
 24%|██▍       | 18901/78504 [11:28:48<23:22:00,  1.41s/it] 24%|██▍       | 18902/78504 [11:28:49<21:45:25,  1.31s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.8777830004692078, 'learning_rate': 2.5311451743025774e-05, 'epoch': 5.78}
 24%|██▍       | 18902/78504 [11:28:49<21:45:25,  1.31s/it] 24%|██▍       | 18903/78504 [11:28:50<20:26:46,  1.23s/it]                                                           {'loss': 0.1881, 'grad_norm': 1.1420667171478271, 'learning_rate': 2.5311027132605836e-05, 'epoch': 5.78}
 24%|██▍       | 18903/78504 [11:28:50<20:26:46,  1.23s/it] 24%|██▍       | 18904/78504 [11:28:51<18:53:18,  1.14s/it]                                                           {'loss': 0.1894, 'grad_norm': 1.0699865818023682, 'learning_rate': 2.5310602522185895e-05, 'epoch': 5.78}
 24%|██▍       | 18904/78504 [11:28:51<18:53:18,  1.14s/it] 24%|██▍       | 18905/78504 [11:28:52<17:12:20,  1.04s/it]                                                           {'loss': 0.2152, 'grad_norm': 1.6174259185791016, 'learning_rate': 2.5310177911765954e-05, 'epoch': 5.78}
 24%|██▍       | 18905/78504 [11:28:52<17:12:20,  1.04s/it] 24%|██▍       | 18906/78504 [11:29:01<59:21:40,  3.59s/it]                                                           {'loss': 0.1458, 'grad_norm': 0.670520007610321, 'learning_rate': 2.5309753301346016e-05, 'epoch': 5.78}
 24%|██▍       | 18906/78504 [11:29:01<59:21:40,  3.59s/it] 24%|██▍       | 18907/78504 [11:29:04<58:08:57,  3.51s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.23666508495807648, 'learning_rate': 2.5309328690926074e-05, 'epoch': 5.78}
 24%|██▍       | 18907/78504 [11:29:04<58:08:57,  3.51s/it] 24%|██▍       | 18908/78504 [11:29:07<53:25:43,  3.23s/it]                                                           {'loss': 0.057, 'grad_norm': 0.22801785171031952, 'learning_rate': 2.5308904080506137e-05, 'epoch': 5.78}
 24%|██▍       | 18908/78504 [11:29:07<53:25:43,  3.23s/it] 24%|██▍       | 18909/78504 [11:29:10<50:24:03,  3.04s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.2504537105560303, 'learning_rate': 2.5308479470086195e-05, 'epoch': 5.78}
 24%|██▍       | 18909/78504 [11:29:10<50:24:03,  3.04s/it] 24%|██▍       | 18910/78504 [11:29:12<47:30:43,  2.87s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.2130390703678131, 'learning_rate': 2.5308054859666257e-05, 'epoch': 5.78}
 24%|██▍       | 18910/78504 [11:29:12<47:30:43,  2.87s/it] 24%|██▍       | 18911/78504 [11:29:14<45:19:13,  2.74s/it]                                                           {'loss': 0.0363, 'grad_norm': 0.2526482343673706, 'learning_rate': 2.5307630249246316e-05, 'epoch': 5.78}
 24%|██▍       | 18911/78504 [11:29:14<45:19:13,  2.74s/it] 24%|██▍       | 18912/78504 [11:29:17<43:13:50,  2.61s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.14712397754192352, 'learning_rate': 2.5307205638826378e-05, 'epoch': 5.78}
 24%|██▍       | 18912/78504 [11:29:17<43:13:50,  2.61s/it] 24%|██▍       | 18913/78504 [11:29:19<40:42:41,  2.46s/it]                                                           {'loss': 0.0611, 'grad_norm': 0.3430447280406952, 'learning_rate': 2.5306781028406437e-05, 'epoch': 5.78}
 24%|██▍       | 18913/78504 [11:29:19<40:42:41,  2.46s/it] 24%|██▍       | 18914/78504 [11:29:21<39:20:24,  2.38s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.7500473260879517, 'learning_rate': 2.53063564179865e-05, 'epoch': 5.78}
 24%|██▍       | 18914/78504 [11:29:21<39:20:24,  2.38s/it] 24%|██▍       | 18915/78504 [11:29:23<38:11:01,  2.31s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.24898786842823029, 'learning_rate': 2.5305931807566558e-05, 'epoch': 5.78}
 24%|██▍       | 18915/78504 [11:29:23<38:11:01,  2.31s/it] 24%|██▍       | 18916/78504 [11:29:25<36:48:48,  2.22s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.4761553108692169, 'learning_rate': 2.530550719714662e-05, 'epoch': 5.78}
 24%|██▍       | 18916/78504 [11:29:25<36:48:48,  2.22s/it] 24%|██▍       | 18917/78504 [11:29:27<35:33:31,  2.15s/it]                                                           {'loss': 0.0572, 'grad_norm': 0.6318238377571106, 'learning_rate': 2.530508258672668e-05, 'epoch': 5.78}
 24%|██▍       | 18917/78504 [11:29:27<35:33:31,  2.15s/it] 24%|██▍       | 18918/78504 [11:29:29<34:06:44,  2.06s/it]                                                           {'loss': 0.0963, 'grad_norm': 0.26066383719444275, 'learning_rate': 2.5304657976306737e-05, 'epoch': 5.78}
 24%|██▍       | 18918/78504 [11:29:29<34:06:44,  2.06s/it] 24%|██▍       | 18919/78504 [11:29:31<32:23:01,  1.96s/it]                                                           {'loss': 0.1048, 'grad_norm': 0.3970194458961487, 'learning_rate': 2.53042333658868e-05, 'epoch': 5.78}
 24%|██▍       | 18919/78504 [11:29:31<32:23:01,  1.96s/it] 24%|██▍       | 18920/78504 [11:29:32<30:54:26,  1.87s/it]                                                           {'loss': 0.1287, 'grad_norm': 0.44255340099334717, 'learning_rate': 2.5303808755466858e-05, 'epoch': 5.78}
 24%|██▍       | 18920/78504 [11:29:32<30:54:26,  1.87s/it] 24%|██▍       | 18921/78504 [11:29:34<29:48:08,  1.80s/it]                                                           {'loss': 0.1347, 'grad_norm': 0.48706355690956116, 'learning_rate': 2.530338414504692e-05, 'epoch': 5.78}
 24%|██▍       | 18921/78504 [11:29:34<29:48:08,  1.80s/it] 24%|██▍       | 18922/78504 [11:29:36<28:20:35,  1.71s/it]                                                           {'loss': 0.1332, 'grad_norm': 0.37410861253738403, 'learning_rate': 2.530295953462698e-05, 'epoch': 5.78}
 24%|██▍       | 18922/78504 [11:29:36<28:20:35,  1.71s/it] 24%|██▍       | 18923/78504 [11:29:37<27:12:06,  1.64s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.37854301929473877, 'learning_rate': 2.530253492420704e-05, 'epoch': 5.79}
 24%|██▍       | 18923/78504 [11:29:37<27:12:06,  1.64s/it] 24%|██▍       | 18924/78504 [11:29:38<25:54:45,  1.57s/it]                                                           {'loss': 0.2081, 'grad_norm': 0.5308800339698792, 'learning_rate': 2.53021103137871e-05, 'epoch': 5.79}
 24%|██▍       | 18924/78504 [11:29:38<25:54:45,  1.57s/it] 24%|██▍       | 18925/78504 [11:29:40<24:31:56,  1.48s/it]                                                           {'loss': 0.1538, 'grad_norm': 0.6183987855911255, 'learning_rate': 2.530168570336716e-05, 'epoch': 5.79}
 24%|██▍       | 18925/78504 [11:29:40<24:31:56,  1.48s/it] 24%|██▍       | 18926/78504 [11:29:41<22:52:42,  1.38s/it]                                                           {'loss': 0.1715, 'grad_norm': 1.0505775213241577, 'learning_rate': 2.530126109294722e-05, 'epoch': 5.79}
 24%|██▍       | 18926/78504 [11:29:41<22:52:42,  1.38s/it] 24%|██▍       | 18927/78504 [11:29:42<21:29:27,  1.30s/it]                                                           {'loss': 0.2031, 'grad_norm': 1.4329453706741333, 'learning_rate': 2.5300836482527282e-05, 'epoch': 5.79}
 24%|██▍       | 18927/78504 [11:29:42<21:29:27,  1.30s/it] 24%|██▍       | 18928/78504 [11:29:43<19:58:13,  1.21s/it]                                                           {'loss': 0.1942, 'grad_norm': 1.1171510219573975, 'learning_rate': 2.530041187210734e-05, 'epoch': 5.79}
 24%|██▍       | 18928/78504 [11:29:43<19:58:13,  1.21s/it] 24%|██▍       | 18929/78504 [11:29:44<18:36:03,  1.12s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.8478264808654785, 'learning_rate': 2.5299987261687403e-05, 'epoch': 5.79}
 24%|██▍       | 18929/78504 [11:29:44<18:36:03,  1.12s/it] 24%|██▍       | 18930/78504 [11:29:45<16:54:20,  1.02s/it]                                                           {'loss': 0.2287, 'grad_norm': 1.5522254705429077, 'learning_rate': 2.5299562651267462e-05, 'epoch': 5.79}
 24%|██▍       | 18930/78504 [11:29:45<16:54:20,  1.02s/it] 24%|██▍       | 18931/78504 [11:29:52<45:31:54,  2.75s/it]                                                           {'loss': 0.1967, 'grad_norm': 1.3062740564346313, 'learning_rate': 2.529913804084752e-05, 'epoch': 5.79}
 24%|██▍       | 18931/78504 [11:29:52<45:31:54,  2.75s/it] 24%|██▍       | 18932/78504 [11:29:55<48:33:00,  2.93s/it]                                                           {'loss': 0.0741, 'grad_norm': 0.5778439044952393, 'learning_rate': 2.5298713430427583e-05, 'epoch': 5.79}
 24%|██▍       | 18932/78504 [11:29:55<48:33:00,  2.93s/it] 24%|██▍       | 18933/78504 [11:29:58<48:29:52,  2.93s/it]                                                           {'loss': 0.0495, 'grad_norm': 0.24916879832744598, 'learning_rate': 2.529828882000764e-05, 'epoch': 5.79}
 24%|██▍       | 18933/78504 [11:29:58<48:29:52,  2.93s/it] 24%|██▍       | 18934/78504 [11:30:00<46:47:12,  2.83s/it]                                                           {'loss': 0.056, 'grad_norm': 0.5904675722122192, 'learning_rate': 2.5297864209587703e-05, 'epoch': 5.79}
 24%|██▍       | 18934/78504 [11:30:00<46:47:12,  2.83s/it] 24%|██▍       | 18935/78504 [11:30:03<45:06:32,  2.73s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.4407442510128021, 'learning_rate': 2.5297439599167762e-05, 'epoch': 5.79}
 24%|██▍       | 18935/78504 [11:30:03<45:06:32,  2.73s/it] 24%|██▍       | 18936/78504 [11:30:05<42:49:16,  2.59s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.39067524671554565, 'learning_rate': 2.5297014988747824e-05, 'epoch': 5.79}
 24%|██▍       | 18936/78504 [11:30:05<42:49:16,  2.59s/it] 24%|██▍       | 18937/78504 [11:30:07<41:28:12,  2.51s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.25872525572776794, 'learning_rate': 2.5296590378327883e-05, 'epoch': 5.79}
 24%|██▍       | 18937/78504 [11:30:07<41:28:12,  2.51s/it] 24%|██▍       | 18938/78504 [11:30:10<39:25:15,  2.38s/it]                                                           {'loss': 0.0341, 'grad_norm': 0.173599511384964, 'learning_rate': 2.5296165767907945e-05, 'epoch': 5.79}
 24%|██▍       | 18938/78504 [11:30:10<39:25:15,  2.38s/it] 24%|██▍       | 18939/78504 [11:30:12<37:42:47,  2.28s/it]                                                           {'loss': 0.0987, 'grad_norm': 0.44443702697753906, 'learning_rate': 2.5295741157488004e-05, 'epoch': 5.79}
 24%|██▍       | 18939/78504 [11:30:12<37:42:47,  2.28s/it] 24%|██▍       | 18940/78504 [11:30:14<36:58:39,  2.23s/it]                                                           {'loss': 0.0506, 'grad_norm': 0.6055813431739807, 'learning_rate': 2.5295316547068066e-05, 'epoch': 5.79}
 24%|██▍       | 18940/78504 [11:30:14<36:58:39,  2.23s/it] 24%|██▍       | 18941/78504 [11:30:16<35:45:46,  2.16s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.3145870566368103, 'learning_rate': 2.5294891936648124e-05, 'epoch': 5.79}
 24%|██▍       | 18941/78504 [11:30:16<35:45:46,  2.16s/it] 24%|██▍       | 18942/78504 [11:30:18<33:59:35,  2.05s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.3207734525203705, 'learning_rate': 2.5294467326228187e-05, 'epoch': 5.79}
 24%|██▍       | 18942/78504 [11:30:18<33:59:35,  2.05s/it] 24%|██▍       | 18943/78504 [11:30:19<33:01:59,  2.00s/it]                                                           {'loss': 0.1201, 'grad_norm': 0.4654087722301483, 'learning_rate': 2.5294042715808245e-05, 'epoch': 5.79}
 24%|██▍       | 18943/78504 [11:30:19<33:01:59,  2.00s/it] 24%|██▍       | 18944/78504 [11:30:21<32:13:22,  1.95s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.7198963761329651, 'learning_rate': 2.5293618105388304e-05, 'epoch': 5.79}
 24%|██▍       | 18944/78504 [11:30:21<32:13:22,  1.95s/it] 24%|██▍       | 18945/78504 [11:30:23<31:08:22,  1.88s/it]                                                           {'loss': 0.1241, 'grad_norm': 0.7055400013923645, 'learning_rate': 2.5293193494968366e-05, 'epoch': 5.79}
 24%|██▍       | 18945/78504 [11:30:23<31:08:22,  1.88s/it] 24%|██▍       | 18946/78504 [11:30:25<29:55:58,  1.81s/it]                                                           {'loss': 0.169, 'grad_norm': 3.044607162475586, 'learning_rate': 2.5292768884548425e-05, 'epoch': 5.79}
 24%|██▍       | 18946/78504 [11:30:25<29:55:58,  1.81s/it] 24%|██▍       | 18947/78504 [11:30:26<28:37:05,  1.73s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.5567911863327026, 'learning_rate': 2.5292344274128487e-05, 'epoch': 5.79}
 24%|██▍       | 18947/78504 [11:30:26<28:37:05,  1.73s/it] 24%|██▍       | 18948/78504 [11:30:28<27:18:59,  1.65s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.4845536947250366, 'learning_rate': 2.5291919663708546e-05, 'epoch': 5.79}
 24%|██▍       | 18948/78504 [11:30:28<27:18:59,  1.65s/it] 24%|██▍       | 18949/78504 [11:30:29<25:58:19,  1.57s/it]                                                           {'loss': 0.1705, 'grad_norm': 1.097844123840332, 'learning_rate': 2.5291495053288608e-05, 'epoch': 5.79}
 24%|██▍       | 18949/78504 [11:30:29<25:58:19,  1.57s/it] 24%|██▍       | 18950/78504 [11:30:30<24:32:33,  1.48s/it]                                                           {'loss': 0.1614, 'grad_norm': 1.6470189094543457, 'learning_rate': 2.5291070442868666e-05, 'epoch': 5.79}
 24%|██▍       | 18950/78504 [11:30:30<24:32:33,  1.48s/it] 24%|██▍       | 18951/78504 [11:30:31<22:55:18,  1.39s/it]                                                           {'loss': 0.1957, 'grad_norm': 0.5869936943054199, 'learning_rate': 2.529064583244873e-05, 'epoch': 5.79}
 24%|██▍       | 18951/78504 [11:30:31<22:55:18,  1.39s/it] 24%|██▍       | 18952/78504 [11:30:33<21:34:33,  1.30s/it]                                                           {'loss': 0.1627, 'grad_norm': 0.9768716096878052, 'learning_rate': 2.5290221222028787e-05, 'epoch': 5.79}
 24%|██▍       | 18952/78504 [11:30:33<21:34:33,  1.30s/it] 24%|██▍       | 18953/78504 [11:30:34<20:02:29,  1.21s/it]                                                           {'loss': 0.1872, 'grad_norm': 2.1919949054718018, 'learning_rate': 2.528979661160885e-05, 'epoch': 5.79}
 24%|██▍       | 18953/78504 [11:30:34<20:02:29,  1.21s/it] 24%|██▍       | 18954/78504 [11:30:34<18:38:21,  1.13s/it]                                                           {'loss': 0.2129, 'grad_norm': 1.1712054014205933, 'learning_rate': 2.528937200118891e-05, 'epoch': 5.79}
 24%|██▍       | 18954/78504 [11:30:34<18:38:21,  1.13s/it] 24%|██▍       | 18955/78504 [11:30:35<16:54:17,  1.02s/it]                                                           {'loss': 0.2477, 'grad_norm': 4.111703872680664, 'learning_rate': 2.5288947390768973e-05, 'epoch': 5.79}
 24%|██▍       | 18955/78504 [11:30:35<16:54:17,  1.02s/it] 24%|██▍       | 18956/78504 [11:30:43<50:15:25,  3.04s/it]                                                           {'loss': 0.1275, 'grad_norm': 0.38109496235847473, 'learning_rate': 2.5288522780349032e-05, 'epoch': 5.8}
 24%|██▍       | 18956/78504 [11:30:43<50:15:25,  3.04s/it] 24%|██▍       | 18957/78504 [11:30:46<51:50:51,  3.13s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.3775770664215088, 'learning_rate': 2.528809816992909e-05, 'epoch': 5.8}
 24%|██▍       | 18957/78504 [11:30:46<51:50:51,  3.13s/it] 24%|██▍       | 18958/78504 [11:30:49<51:05:20,  3.09s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.49041876196861267, 'learning_rate': 2.5287673559509153e-05, 'epoch': 5.8}
 24%|██▍       | 18958/78504 [11:30:49<51:05:20,  3.09s/it] 24%|██▍       | 18959/78504 [11:30:52<48:34:54,  2.94s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.21796418726444244, 'learning_rate': 2.528724894908921e-05, 'epoch': 5.8}
 24%|██▍       | 18959/78504 [11:30:52<48:34:54,  2.94s/it] 24%|██▍       | 18960/78504 [11:30:54<46:15:13,  2.80s/it]                                                           {'loss': 0.0504, 'grad_norm': 0.24924777448177338, 'learning_rate': 2.5286824338669274e-05, 'epoch': 5.8}
 24%|██▍       | 18960/78504 [11:30:54<46:15:13,  2.80s/it] 24%|██▍       | 18961/78504 [11:30:57<43:34:51,  2.63s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.26013675332069397, 'learning_rate': 2.5286399728249332e-05, 'epoch': 5.8}
 24%|██▍       | 18961/78504 [11:30:57<43:34:51,  2.63s/it] 24%|██▍       | 18962/78504 [11:30:59<42:01:02,  2.54s/it]                                                           {'loss': 0.0871, 'grad_norm': 0.4554291367530823, 'learning_rate': 2.5285975117829394e-05, 'epoch': 5.8}
 24%|██▍       | 18962/78504 [11:30:59<42:01:02,  2.54s/it] 24%|██▍       | 18963/78504 [11:31:01<39:47:05,  2.41s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.3640006482601166, 'learning_rate': 2.5285550507409453e-05, 'epoch': 5.8}
 24%|██▍       | 18963/78504 [11:31:01<39:47:05,  2.41s/it] 24%|██▍       | 18964/78504 [11:31:03<37:54:05,  2.29s/it]                                                           {'loss': 0.0891, 'grad_norm': 0.30304598808288574, 'learning_rate': 2.5285125896989515e-05, 'epoch': 5.8}
 24%|██▍       | 18964/78504 [11:31:03<37:54:05,  2.29s/it] 24%|██▍       | 18965/78504 [11:31:05<37:06:43,  2.24s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.17942440509796143, 'learning_rate': 2.5284701286569574e-05, 'epoch': 5.8}
 24%|██▍       | 18965/78504 [11:31:05<37:06:43,  2.24s/it] 24%|██▍       | 18966/78504 [11:31:07<36:02:38,  2.18s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.45794129371643066, 'learning_rate': 2.5284276676149636e-05, 'epoch': 5.8}
 24%|██▍       | 18966/78504 [11:31:07<36:02:38,  2.18s/it] 24%|██▍       | 18967/78504 [11:31:09<35:01:32,  2.12s/it]                                                           {'loss': 0.089, 'grad_norm': 0.5885121822357178, 'learning_rate': 2.5283852065729695e-05, 'epoch': 5.8}
 24%|██▍       | 18967/78504 [11:31:09<35:01:32,  2.12s/it] 24%|██▍       | 18968/78504 [11:31:11<33:47:59,  2.04s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.33122238516807556, 'learning_rate': 2.5283427455309757e-05, 'epoch': 5.8}
 24%|██▍       | 18968/78504 [11:31:11<33:47:59,  2.04s/it] 24%|██▍       | 18969/78504 [11:31:13<32:55:14,  1.99s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.5281667113304138, 'learning_rate': 2.5283002844889815e-05, 'epoch': 5.8}
 24%|██▍       | 18969/78504 [11:31:13<32:55:14,  1.99s/it] 24%|██▍       | 18970/78504 [11:31:15<31:47:46,  1.92s/it]                                                           {'loss': 0.1127, 'grad_norm': 0.42964091897010803, 'learning_rate': 2.5282578234469874e-05, 'epoch': 5.8}
 24%|██▍       | 18970/78504 [11:31:15<31:47:46,  1.92s/it] 24%|██▍       | 18971/78504 [11:31:16<30:25:52,  1.84s/it]                                                           {'loss': 0.1443, 'grad_norm': 0.41967806220054626, 'learning_rate': 2.5282153624049936e-05, 'epoch': 5.8}
 24%|██▍       | 18971/78504 [11:31:16<30:25:52,  1.84s/it] 24%|██▍       | 18972/78504 [11:31:18<28:58:31,  1.75s/it]                                                           {'loss': 0.1619, 'grad_norm': 1.663765788078308, 'learning_rate': 2.5281729013629995e-05, 'epoch': 5.8}
 24%|██▍       | 18972/78504 [11:31:18<28:58:31,  1.75s/it] 24%|██▍       | 18973/78504 [11:31:19<27:46:10,  1.68s/it]                                                           {'loss': 0.1455, 'grad_norm': 3.932251453399658, 'learning_rate': 2.5281304403210057e-05, 'epoch': 5.8}
 24%|██▍       | 18973/78504 [11:31:19<27:46:10,  1.68s/it] 24%|██▍       | 18974/78504 [11:31:21<26:24:17,  1.60s/it]                                                           {'loss': 0.1587, 'grad_norm': 1.4487276077270508, 'learning_rate': 2.5280879792790116e-05, 'epoch': 5.8}
 24%|██▍       | 18974/78504 [11:31:21<26:24:17,  1.60s/it] 24%|██▍       | 18975/78504 [11:31:22<24:53:06,  1.50s/it]                                                           {'loss': 0.1699, 'grad_norm': 0.6820043921470642, 'learning_rate': 2.5280455182370178e-05, 'epoch': 5.8}
 24%|██▍       | 18975/78504 [11:31:22<24:53:06,  1.50s/it] 24%|██▍       | 18976/78504 [11:31:23<23:07:48,  1.40s/it]                                                           {'loss': 0.1427, 'grad_norm': 0.5740697383880615, 'learning_rate': 2.5280030571950237e-05, 'epoch': 5.8}
 24%|██▍       | 18976/78504 [11:31:23<23:07:48,  1.40s/it] 24%|██▍       | 18977/78504 [11:31:24<21:32:44,  1.30s/it]                                                           {'loss': 0.2086, 'grad_norm': 0.6840261816978455, 'learning_rate': 2.52796059615303e-05, 'epoch': 5.8}
 24%|██▍       | 18977/78504 [11:31:24<21:32:44,  1.30s/it] 24%|██▍       | 18978/78504 [11:31:25<20:16:31,  1.23s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.7194338440895081, 'learning_rate': 2.5279181351110357e-05, 'epoch': 5.8}
 24%|██▍       | 18978/78504 [11:31:25<20:16:31,  1.23s/it] 24%|██▍       | 18979/78504 [11:31:26<18:49:36,  1.14s/it]                                                           {'loss': 0.1725, 'grad_norm': 1.3484821319580078, 'learning_rate': 2.527875674069042e-05, 'epoch': 5.8}
 24%|██▍       | 18979/78504 [11:31:26<18:49:36,  1.14s/it] 24%|██▍       | 18980/78504 [11:31:27<17:01:41,  1.03s/it]                                                           {'loss': 0.277, 'grad_norm': 2.3443443775177, 'learning_rate': 2.5278332130270478e-05, 'epoch': 5.8}
 24%|██▍       | 18980/78504 [11:31:27<17:01:41,  1.03s/it] 24%|██▍       | 18981/78504 [11:31:37<62:03:51,  3.75s/it]                                                           {'loss': 0.1714, 'grad_norm': 0.3590095043182373, 'learning_rate': 2.527790751985054e-05, 'epoch': 5.8}
 24%|██▍       | 18981/78504 [11:31:37<62:03:51,  3.75s/it] 24%|██▍       | 18982/78504 [11:31:40<57:51:50,  3.50s/it]                                                           {'loss': 0.075, 'grad_norm': 0.38969406485557556, 'learning_rate': 2.52774829094306e-05, 'epoch': 5.8}
 24%|██▍       | 18982/78504 [11:31:40<57:51:50,  3.50s/it] 24%|██▍       | 18983/78504 [11:31:43<53:13:18,  3.22s/it]                                                           {'loss': 0.075, 'grad_norm': 0.21501465141773224, 'learning_rate': 2.5277058299010658e-05, 'epoch': 5.8}
 24%|██▍       | 18983/78504 [11:31:43<53:13:18,  3.22s/it] 24%|██▍       | 18984/78504 [11:31:45<50:01:08,  3.03s/it]                                                           {'loss': 0.053, 'grad_norm': 0.2878636419773102, 'learning_rate': 2.527663368859072e-05, 'epoch': 5.8}
 24%|██▍       | 18984/78504 [11:31:45<50:01:08,  3.03s/it] 24%|██▍       | 18985/78504 [11:31:48<47:20:47,  2.86s/it]                                                           {'loss': 0.0481, 'grad_norm': 0.21308860182762146, 'learning_rate': 2.527620907817078e-05, 'epoch': 5.8}
 24%|██▍       | 18985/78504 [11:31:48<47:20:47,  2.86s/it] 24%|██▍       | 18986/78504 [11:31:50<45:18:37,  2.74s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.24748508632183075, 'learning_rate': 2.527578446775084e-05, 'epoch': 5.8}
 24%|██▍       | 18986/78504 [11:31:50<45:18:37,  2.74s/it] 24%|██▍       | 18987/78504 [11:31:52<43:12:02,  2.61s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.41843605041503906, 'learning_rate': 2.52753598573309e-05, 'epoch': 5.8}
 24%|██▍       | 18987/78504 [11:31:53<43:12:02,  2.61s/it] 24%|██▍       | 18988/78504 [11:31:55<41:39:46,  2.52s/it]                                                           {'loss': 0.0875, 'grad_norm': 0.24623514711856842, 'learning_rate': 2.527493524691096e-05, 'epoch': 5.8}
 24%|██▍       | 18988/78504 [11:31:55<41:39:46,  2.52s/it] 24%|██▍       | 18989/78504 [11:31:57<40:02:52,  2.42s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.278006374835968, 'learning_rate': 2.527451063649102e-05, 'epoch': 5.81}
 24%|██▍       | 18989/78504 [11:31:57<40:02:52,  2.42s/it] 24%|██▍       | 18990/78504 [11:31:59<38:45:19,  2.34s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.27905043959617615, 'learning_rate': 2.5274086026071082e-05, 'epoch': 5.81}
 24%|██▍       | 18990/78504 [11:31:59<38:45:19,  2.34s/it] 24%|██▍       | 18991/78504 [11:32:01<36:24:51,  2.20s/it]                                                           {'loss': 0.076, 'grad_norm': 0.37358585000038147, 'learning_rate': 2.527366141565114e-05, 'epoch': 5.81}
 24%|██▍       | 18991/78504 [11:32:01<36:24:51,  2.20s/it] 24%|██▍       | 18992/78504 [11:32:03<35:18:05,  2.14s/it]                                                           {'loss': 0.108, 'grad_norm': 0.305586576461792, 'learning_rate': 2.5273236805231203e-05, 'epoch': 5.81}
 24%|██▍       | 18992/78504 [11:32:03<35:18:05,  2.14s/it] 24%|██▍       | 18993/78504 [11:32:05<34:13:30,  2.07s/it]                                                           {'loss': 0.0913, 'grad_norm': 0.8368573188781738, 'learning_rate': 2.527281219481126e-05, 'epoch': 5.81}
 24%|██▍       | 18993/78504 [11:32:05<34:13:30,  2.07s/it] 24%|██▍       | 18994/78504 [11:32:07<33:12:10,  2.01s/it]                                                           {'loss': 0.122, 'grad_norm': 0.41055214405059814, 'learning_rate': 2.5272387584391324e-05, 'epoch': 5.81}
 24%|██▍       | 18994/78504 [11:32:07<33:12:10,  2.01s/it] 24%|██▍       | 18995/78504 [11:32:09<31:57:44,  1.93s/it]                                                           {'loss': 0.1321, 'grad_norm': 0.49345529079437256, 'learning_rate': 2.5271962973971382e-05, 'epoch': 5.81}
 24%|██▍       | 18995/78504 [11:32:09<31:57:44,  1.93s/it] 24%|██▍       | 18996/78504 [11:32:10<30:10:17,  1.83s/it]                                                           {'loss': 0.1754, 'grad_norm': 2.291191577911377, 'learning_rate': 2.527153836355144e-05, 'epoch': 5.81}
 24%|██▍       | 18996/78504 [11:32:10<30:10:17,  1.83s/it] 24%|██▍       | 18997/78504 [11:32:12<28:46:19,  1.74s/it]                                                           {'loss': 0.1522, 'grad_norm': 0.7780249714851379, 'learning_rate': 2.5271113753131503e-05, 'epoch': 5.81}
 24%|██▍       | 18997/78504 [11:32:12<28:46:19,  1.74s/it] 24%|██▍       | 18998/78504 [11:32:13<27:25:04,  1.66s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.38399580121040344, 'learning_rate': 2.5270689142711562e-05, 'epoch': 5.81}
 24%|██▍       | 18998/78504 [11:32:13<27:25:04,  1.66s/it] 24%|██▍       | 18999/78504 [11:32:15<26:10:59,  1.58s/it]                                                           {'loss': 0.1802, 'grad_norm': 0.6040226817131042, 'learning_rate': 2.5270264532291624e-05, 'epoch': 5.81}
 24%|██▍       | 18999/78504 [11:32:15<26:10:59,  1.58s/it] 24%|██▍       | 19000/78504 [11:32:16<24:42:26,  1.49s/it]                                                           {'loss': 0.1789, 'grad_norm': 0.49119094014167786, 'learning_rate': 2.5269839921871683e-05, 'epoch': 5.81}
 24%|██▍       | 19000/78504 [11:32:16<24:42:26,  1.49s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.44it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.61it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.75it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.05it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.50it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.57it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.81it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.17it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.40it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.59it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.87it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.28it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                           
                                               [A{'eval_loss': 0.22853875160217285, 'eval_wer': 0.32423675316331946, 'eval_cer': 0.18776799450099832, 'eval_runtime': 19.1083, 'eval_samples_per_second': 237.489, 'eval_steps_per_second': 0.785, 'epoch': 5.81}
 24%|██▍       | 19000/78504 [11:33:21<24:42:26,  1.49s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-17000] due to args.save_total_limit
 24%|██▍       | 19001/78504 [11:33:37<419:05:09, 25.36s/it]                                                            {'loss': 0.159, 'grad_norm': 2.3270373344421387, 'learning_rate': 2.5269415311451745e-05, 'epoch': 5.81}
 24%|██▍       | 19001/78504 [11:33:37<419:05:09, 25.36s/it] 24%|██▍       | 19002/78504 [11:33:38<298:40:04, 18.07s/it]                                                            {'loss': 0.1971, 'grad_norm': 0.7855657935142517, 'learning_rate': 2.5268990701031803e-05, 'epoch': 5.81}
 24%|██▍       | 19002/78504 [11:33:38<298:40:04, 18.07s/it] 24%|██▍       | 19003/78504 [11:33:39<214:14:36, 12.96s/it]                                                            {'loss': 0.1919, 'grad_norm': 0.975879430770874, 'learning_rate': 2.5268566090611865e-05, 'epoch': 5.81}
 24%|██▍       | 19003/78504 [11:33:39<214:14:36, 12.96s/it] 24%|██▍       | 19004/78504 [11:33:40<154:34:52,  9.35s/it]                                                            {'loss': 0.163, 'grad_norm': 0.8335655927658081, 'learning_rate': 2.5268141480191924e-05, 'epoch': 5.81}
 24%|██▍       | 19004/78504 [11:33:40<154:34:52,  9.35s/it] 24%|██▍       | 19005/78504 [11:33:41<112:03:59,  6.78s/it]                                                            {'loss': 0.2724, 'grad_norm': 1.7097290754318237, 'learning_rate': 2.5267716869771986e-05, 'epoch': 5.81}
 24%|██▍       | 19005/78504 [11:33:41<112:03:59,  6.78s/it] 24%|██▍       | 19006/78504 [11:33:51<130:22:27,  7.89s/it]                                                            {'loss': 0.1358, 'grad_norm': 0.5645607113838196, 'learning_rate': 2.5267292259352045e-05, 'epoch': 5.81}
 24%|██▍       | 19006/78504 [11:33:51<130:22:27,  7.89s/it] 24%|██▍       | 19007/78504 [11:33:54<107:48:55,  6.52s/it]                                                            {'loss': 0.0792, 'grad_norm': 1.3197035789489746, 'learning_rate': 2.5266867648932104e-05, 'epoch': 5.81}
 24%|██▍       | 19007/78504 [11:33:54<107:48:55,  6.52s/it] 24%|██▍       | 19008/78504 [11:33:57<89:54:38,  5.44s/it]                                                            {'loss': 0.059, 'grad_norm': 0.2225322723388672, 'learning_rate': 2.5266443038512166e-05, 'epoch': 5.81}
 24%|██▍       | 19008/78504 [11:33:57<89:54:38,  5.44s/it] 24%|██▍       | 19009/78504 [11:34:00<75:41:11,  4.58s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.6353883147239685, 'learning_rate': 2.5266018428092224e-05, 'epoch': 5.81}
 24%|██▍       | 19009/78504 [11:34:00<75:41:11,  4.58s/it] 24%|██▍       | 19010/78504 [11:34:02<65:20:29,  3.95s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.367380291223526, 'learning_rate': 2.5265593817672287e-05, 'epoch': 5.81}
 24%|██▍       | 19010/78504 [11:34:02<65:20:29,  3.95s/it] 24%|██▍       | 19011/78504 [11:34:05<57:49:45,  3.50s/it]                                                           {'loss': 0.074, 'grad_norm': 0.3106071949005127, 'learning_rate': 2.5265169207252345e-05, 'epoch': 5.81}
 24%|██▍       | 19011/78504 [11:34:05<57:49:45,  3.50s/it] 24%|██▍       | 19012/78504 [11:34:07<51:56:58,  3.14s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.4566020965576172, 'learning_rate': 2.5264744596832407e-05, 'epoch': 5.81}
 24%|██▍       | 19012/78504 [11:34:07<51:56:58,  3.14s/it] 24%|██▍       | 19013/78504 [11:34:09<46:47:16,  2.83s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.19250476360321045, 'learning_rate': 2.5264319986412466e-05, 'epoch': 5.81}
 24%|██▍       | 19013/78504 [11:34:09<46:47:16,  2.83s/it] 24%|██▍       | 19014/78504 [11:34:11<43:34:19,  2.64s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.3424806296825409, 'learning_rate': 2.5263895375992528e-05, 'epoch': 5.81}
 24%|██▍       | 19014/78504 [11:34:12<43:34:19,  2.64s/it] 24%|██▍       | 19015/78504 [11:34:14<41:11:58,  2.49s/it]                                                           {'loss': 0.0437, 'grad_norm': 0.43680572509765625, 'learning_rate': 2.5263470765572587e-05, 'epoch': 5.81}
 24%|██▍       | 19015/78504 [11:34:14<41:11:58,  2.49s/it] 24%|██▍       | 19016/78504 [11:34:16<38:48:40,  2.35s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.2979128062725067, 'learning_rate': 2.526304615515265e-05, 'epoch': 5.81}
 24%|██▍       | 19016/78504 [11:34:16<38:48:40,  2.35s/it] 24%|██▍       | 19017/78504 [11:34:18<36:57:43,  2.24s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.39472833275794983, 'learning_rate': 2.5262621544732708e-05, 'epoch': 5.81}
 24%|██▍       | 19017/78504 [11:34:18<36:57:43,  2.24s/it] 24%|██▍       | 19018/78504 [11:34:20<35:23:31,  2.14s/it]                                                           {'loss': 0.092, 'grad_norm': 0.45670488476753235, 'learning_rate': 2.526219693431277e-05, 'epoch': 5.81}
 24%|██▍       | 19018/78504 [11:34:20<35:23:31,  2.14s/it] 24%|██▍       | 19019/78504 [11:34:21<33:54:34,  2.05s/it]                                                           {'loss': 0.1215, 'grad_norm': 1.7288717031478882, 'learning_rate': 2.526177232389283e-05, 'epoch': 5.81}
 24%|██▍       | 19019/78504 [11:34:21<33:54:34,  2.05s/it] 24%|██▍       | 19020/78504 [11:34:23<32:27:27,  1.96s/it]                                                           {'loss': 0.1238, 'grad_norm': 0.7363646626472473, 'learning_rate': 2.5261347713472887e-05, 'epoch': 5.81}
 24%|██▍       | 19020/78504 [11:34:23<32:27:27,  1.96s/it] 24%|██▍       | 19021/78504 [11:34:25<30:55:02,  1.87s/it]                                                           {'loss': 0.104, 'grad_norm': 0.48483535647392273, 'learning_rate': 2.526092310305295e-05, 'epoch': 5.82}
 24%|██▍       | 19021/78504 [11:34:25<30:55:02,  1.87s/it] 24%|██▍       | 19022/78504 [11:34:26<29:12:54,  1.77s/it]                                                           {'loss': 0.1461, 'grad_norm': 0.4868695139884949, 'learning_rate': 2.5260498492633008e-05, 'epoch': 5.82}
 24%|██▍       | 19022/78504 [11:34:26<29:12:54,  1.77s/it] 24%|██▍       | 19023/78504 [11:34:28<27:56:48,  1.69s/it]                                                           {'loss': 0.1457, 'grad_norm': 1.0249452590942383, 'learning_rate': 2.526007388221307e-05, 'epoch': 5.82}
 24%|██▍       | 19023/78504 [11:34:28<27:56:48,  1.69s/it] 24%|██▍       | 19024/78504 [11:34:29<26:33:50,  1.61s/it]                                                           {'loss': 0.1689, 'grad_norm': 0.9076442122459412, 'learning_rate': 2.525964927179313e-05, 'epoch': 5.82}
 24%|██▍       | 19024/78504 [11:34:29<26:33:50,  1.61s/it] 24%|██▍       | 19025/78504 [11:34:31<24:56:48,  1.51s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.8161860704421997, 'learning_rate': 2.525922466137319e-05, 'epoch': 5.82}
 24%|██▍       | 19025/78504 [11:34:31<24:56:48,  1.51s/it] 24%|██▍       | 19026/78504 [11:34:32<23:10:29,  1.40s/it]                                                           {'loss': 0.1832, 'grad_norm': 0.9297267198562622, 'learning_rate': 2.525880005095325e-05, 'epoch': 5.82}
 24%|██▍       | 19026/78504 [11:34:32<23:10:29,  1.40s/it] 24%|██▍       | 19027/78504 [11:34:33<21:34:21,  1.31s/it]                                                           {'loss': 0.1784, 'grad_norm': 0.6235979795455933, 'learning_rate': 2.525837544053331e-05, 'epoch': 5.82}
 24%|██▍       | 19027/78504 [11:34:33<21:34:21,  1.31s/it] 24%|██▍       | 19028/78504 [11:34:34<20:20:19,  1.23s/it]                                                           {'loss': 0.1654, 'grad_norm': 0.7704402804374695, 'learning_rate': 2.525795083011337e-05, 'epoch': 5.82}
 24%|██▍       | 19028/78504 [11:34:34<20:20:19,  1.23s/it] 24%|██▍       | 19029/78504 [11:34:35<18:47:19,  1.14s/it]                                                           {'loss': 0.1968, 'grad_norm': 0.5350661873817444, 'learning_rate': 2.5257526219693432e-05, 'epoch': 5.82}
 24%|██▍       | 19029/78504 [11:34:35<18:47:19,  1.14s/it] 24%|██▍       | 19030/78504 [11:34:36<17:02:35,  1.03s/it]                                                           {'loss': 0.2246, 'grad_norm': 1.5195696353912354, 'learning_rate': 2.525710160927349e-05, 'epoch': 5.82}
 24%|██▍       | 19030/78504 [11:34:36<17:02:35,  1.03s/it] 24%|██▍       | 19031/78504 [11:34:45<59:02:26,  3.57s/it]                                                           {'loss': 0.1956, 'grad_norm': 0.4375050365924835, 'learning_rate': 2.5256676998853553e-05, 'epoch': 5.82}
 24%|██▍       | 19031/78504 [11:34:45<59:02:26,  3.57s/it] 24%|██▍       | 19032/78504 [11:34:48<57:54:13,  3.51s/it]                                                           {'loss': 0.074, 'grad_norm': 0.3375566899776459, 'learning_rate': 2.5256252388433612e-05, 'epoch': 5.82}
 24%|██▍       | 19032/78504 [11:34:48<57:54:13,  3.51s/it] 24%|██▍       | 19033/78504 [11:34:51<53:13:36,  3.22s/it]                                                           {'loss': 0.0398, 'grad_norm': 0.12916818261146545, 'learning_rate': 2.525582777801367e-05, 'epoch': 5.82}
 24%|██▍       | 19033/78504 [11:34:51<53:13:36,  3.22s/it] 24%|██▍       | 19034/78504 [11:34:54<50:11:15,  3.04s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.39624398946762085, 'learning_rate': 2.5255403167593733e-05, 'epoch': 5.82}
 24%|██▍       | 19034/78504 [11:34:54<50:11:15,  3.04s/it] 24%|██▍       | 19035/78504 [11:34:56<47:19:51,  2.87s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.2191012054681778, 'learning_rate': 2.525497855717379e-05, 'epoch': 5.82}
 24%|██▍       | 19035/78504 [11:34:56<47:19:51,  2.87s/it] 24%|██▍       | 19036/78504 [11:34:58<44:21:14,  2.69s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.2024151086807251, 'learning_rate': 2.5254553946753853e-05, 'epoch': 5.82}
 24%|██▍       | 19036/78504 [11:34:58<44:21:14,  2.69s/it] 24%|██▍       | 19037/78504 [11:35:01<42:32:51,  2.58s/it]                                                           {'loss': 0.0431, 'grad_norm': 0.28345999121665955, 'learning_rate': 2.5254129336333912e-05, 'epoch': 5.82}
 24%|██▍       | 19037/78504 [11:35:01<42:32:51,  2.58s/it] 24%|██▍       | 19038/78504 [11:35:03<40:07:12,  2.43s/it]                                                           {'loss': 0.057, 'grad_norm': 0.46935129165649414, 'learning_rate': 2.5253704725913974e-05, 'epoch': 5.82}
 24%|██▍       | 19038/78504 [11:35:03<40:07:12,  2.43s/it] 24%|██▍       | 19039/78504 [11:35:05<38:07:03,  2.31s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.3655724823474884, 'learning_rate': 2.5253280115494033e-05, 'epoch': 5.82}
 24%|██▍       | 19039/78504 [11:35:05<38:07:03,  2.31s/it] 24%|██▍       | 19040/78504 [11:35:07<37:12:47,  2.25s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.1960141509771347, 'learning_rate': 2.5252855505074095e-05, 'epoch': 5.82}
 24%|██▍       | 19040/78504 [11:35:07<37:12:47,  2.25s/it] 24%|██▍       | 19041/78504 [11:35:09<36:05:10,  2.18s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.2857668101787567, 'learning_rate': 2.5252430894654154e-05, 'epoch': 5.82}
 24%|██▍       | 19041/78504 [11:35:09<36:05:10,  2.18s/it] 24%|██▍       | 19042/78504 [11:35:11<35:02:47,  2.12s/it]                                                           {'loss': 0.0948, 'grad_norm': 0.6011529564857483, 'learning_rate': 2.5252006284234216e-05, 'epoch': 5.82}
 24%|██▍       | 19042/78504 [11:35:11<35:02:47,  2.12s/it] 24%|██▍       | 19043/78504 [11:35:13<33:46:57,  2.05s/it]                                                           {'loss': 0.1009, 'grad_norm': 0.285253643989563, 'learning_rate': 2.5251581673814274e-05, 'epoch': 5.82}
 24%|██▍       | 19043/78504 [11:35:13<33:46:57,  2.05s/it] 24%|██▍       | 19044/78504 [11:35:14<32:06:20,  1.94s/it]                                                           {'loss': 0.0947, 'grad_norm': 0.2802004814147949, 'learning_rate': 2.5251157063394337e-05, 'epoch': 5.82}
 24%|██▍       | 19044/78504 [11:35:14<32:06:20,  1.94s/it] 24%|██▍       | 19045/78504 [11:35:16<31:12:50,  1.89s/it]                                                           {'loss': 0.1276, 'grad_norm': 0.6961274743080139, 'learning_rate': 2.5250732452974395e-05, 'epoch': 5.82}
 24%|██▍       | 19045/78504 [11:35:16<31:12:50,  1.89s/it] 24%|██▍       | 19046/78504 [11:35:18<29:58:50,  1.82s/it]                                                           {'loss': 0.1223, 'grad_norm': 0.9320313334465027, 'learning_rate': 2.5250307842554454e-05, 'epoch': 5.82}
 24%|██▍       | 19046/78504 [11:35:18<29:58:50,  1.82s/it] 24%|██▍       | 19047/78504 [11:35:19<28:31:52,  1.73s/it]                                                           {'loss': 0.1668, 'grad_norm': 0.7647895812988281, 'learning_rate': 2.5249883232134516e-05, 'epoch': 5.82}
 24%|██▍       | 19047/78504 [11:35:19<28:31:52,  1.73s/it] 24%|██▍       | 19048/78504 [11:35:21<27:15:53,  1.65s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.41568607091903687, 'learning_rate': 2.5249458621714575e-05, 'epoch': 5.82}
 24%|██▍       | 19048/78504 [11:35:21<27:15:53,  1.65s/it] 24%|██▍       | 19049/78504 [11:35:22<26:04:52,  1.58s/it]                                                           {'loss': 0.1732, 'grad_norm': 1.6566795110702515, 'learning_rate': 2.5249034011294637e-05, 'epoch': 5.82}
 24%|██▍       | 19049/78504 [11:35:22<26:04:52,  1.58s/it] 24%|██▍       | 19050/78504 [11:35:24<24:39:20,  1.49s/it]                                                           {'loss': 0.1847, 'grad_norm': 0.8483220934867859, 'learning_rate': 2.5248609400874696e-05, 'epoch': 5.82}
 24%|██▍       | 19050/78504 [11:35:24<24:39:20,  1.49s/it] 24%|██▍       | 19051/78504 [11:35:25<22:57:47,  1.39s/it]                                                           {'loss': 0.1742, 'grad_norm': 0.6394903063774109, 'learning_rate': 2.5248184790454758e-05, 'epoch': 5.82}
 24%|██▍       | 19051/78504 [11:35:25<22:57:47,  1.39s/it] 24%|██▍       | 19052/78504 [11:35:26<21:31:29,  1.30s/it]                                                           {'loss': 0.1749, 'grad_norm': 1.07952880859375, 'learning_rate': 2.5247760180034816e-05, 'epoch': 5.82}
 24%|██▍       | 19052/78504 [11:35:26<21:31:29,  1.30s/it] 24%|██▍       | 19053/78504 [11:35:27<20:14:02,  1.23s/it]                                                           {'loss': 0.1996, 'grad_norm': 1.6004570722579956, 'learning_rate': 2.524733556961488e-05, 'epoch': 5.82}
 24%|██▍       | 19053/78504 [11:35:27<20:14:02,  1.23s/it] 24%|██▍       | 19054/78504 [11:35:28<18:46:04,  1.14s/it]                                                           {'loss': 0.1781, 'grad_norm': 1.659911036491394, 'learning_rate': 2.5246910959194937e-05, 'epoch': 5.83}
 24%|██▍       | 19054/78504 [11:35:28<18:46:04,  1.14s/it] 24%|██▍       | 19055/78504 [11:35:29<17:00:56,  1.03s/it]                                                           {'loss': 0.237, 'grad_norm': 1.5110853910446167, 'learning_rate': 2.5246486348775e-05, 'epoch': 5.83}
 24%|██▍       | 19055/78504 [11:35:29<17:00:56,  1.03s/it] 24%|██▍       | 19056/78504 [11:35:38<57:07:42,  3.46s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.4132724106311798, 'learning_rate': 2.524606173835506e-05, 'epoch': 5.83}
 24%|██▍       | 19056/78504 [11:35:38<57:07:42,  3.46s/it] 24%|██▍       | 19057/78504 [11:35:41<56:38:12,  3.43s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.22147899866104126, 'learning_rate': 2.5245637127935123e-05, 'epoch': 5.83}
 24%|██▍       | 19057/78504 [11:35:41<56:38:12,  3.43s/it] 24%|██▍       | 19058/78504 [11:35:44<54:04:41,  3.27s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.20992162823677063, 'learning_rate': 2.5245212517515182e-05, 'epoch': 5.83}
 24%|██▍       | 19058/78504 [11:35:44<54:04:41,  3.27s/it] 24%|██▍       | 19059/78504 [11:35:47<50:36:15,  3.06s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.36981332302093506, 'learning_rate': 2.524478790709524e-05, 'epoch': 5.83}
 24%|██▍       | 19059/78504 [11:35:47<50:36:15,  3.06s/it] 24%|██▍       | 19060/78504 [11:35:49<47:44:32,  2.89s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.5727090835571289, 'learning_rate': 2.5244363296675303e-05, 'epoch': 5.83}
 24%|██▍       | 19060/78504 [11:35:49<47:44:32,  2.89s/it] 24%|██▍       | 19061/78504 [11:35:51<45:26:23,  2.75s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.9639095664024353, 'learning_rate': 2.524393868625536e-05, 'epoch': 5.83}
 24%|██▍       | 19061/78504 [11:35:51<45:26:23,  2.75s/it] 24%|██▍       | 19062/78504 [11:35:54<43:13:11,  2.62s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.7354093194007874, 'learning_rate': 2.5243514075835424e-05, 'epoch': 5.83}
 24%|██▍       | 19062/78504 [11:35:54<43:13:11,  2.62s/it] 24%|██▍       | 19063/78504 [11:35:56<40:41:12,  2.46s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.27539145946502686, 'learning_rate': 2.5243089465415482e-05, 'epoch': 5.83}
 24%|██▍       | 19063/78504 [11:35:56<40:41:12,  2.46s/it] 24%|██▍       | 19064/78504 [11:35:58<39:16:26,  2.38s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.23275572061538696, 'learning_rate': 2.5242664854995544e-05, 'epoch': 5.83}
 24%|██▍       | 19064/78504 [11:35:58<39:16:26,  2.38s/it] 24%|██▍       | 19065/78504 [11:36:00<38:03:43,  2.31s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.3700043261051178, 'learning_rate': 2.5242240244575603e-05, 'epoch': 5.83}
 24%|██▍       | 19065/78504 [11:36:00<38:03:43,  2.31s/it] 24%|██▍       | 19066/78504 [11:36:02<36:38:46,  2.22s/it]                                                           {'loss': 0.093, 'grad_norm': 0.3132288455963135, 'learning_rate': 2.5241815634155665e-05, 'epoch': 5.83}
 24%|██▍       | 19066/78504 [11:36:02<36:38:46,  2.22s/it] 24%|██▍       | 19067/78504 [11:36:04<35:27:05,  2.15s/it]                                                           {'loss': 0.0892, 'grad_norm': 0.5715323686599731, 'learning_rate': 2.5241391023735724e-05, 'epoch': 5.83}
 24%|██▍       | 19067/78504 [11:36:04<35:27:05,  2.15s/it] 24%|██▍       | 19068/78504 [11:36:06<33:59:07,  2.06s/it]                                                           {'loss': 0.0903, 'grad_norm': 0.4390237331390381, 'learning_rate': 2.5240966413315786e-05, 'epoch': 5.83}
 24%|██▍       | 19068/78504 [11:36:06<33:59:07,  2.06s/it] 24%|██▍       | 19069/78504 [11:36:08<32:20:25,  1.96s/it]                                                           {'loss': 0.1012, 'grad_norm': 0.6539603471755981, 'learning_rate': 2.5240541802895845e-05, 'epoch': 5.83}
 24%|██▍       | 19069/78504 [11:36:08<32:20:25,  1.96s/it] 24%|██▍       | 19070/78504 [11:36:09<31:22:09,  1.90s/it]                                                           {'loss': 0.1412, 'grad_norm': 0.47944071888923645, 'learning_rate': 2.5240117192475907e-05, 'epoch': 5.83}
 24%|██▍       | 19070/78504 [11:36:10<31:22:09,  1.90s/it] 24%|██▍       | 19071/78504 [11:36:11<30:03:47,  1.82s/it]                                                           {'loss': 0.1306, 'grad_norm': 0.3462805151939392, 'learning_rate': 2.5239692582055966e-05, 'epoch': 5.83}
 24%|██▍       | 19071/78504 [11:36:11<30:03:47,  1.82s/it] 24%|██▍       | 19072/78504 [11:36:13<28:32:39,  1.73s/it]                                                           {'loss': 0.1644, 'grad_norm': 0.7652830481529236, 'learning_rate': 2.5239267971636024e-05, 'epoch': 5.83}
 24%|██▍       | 19072/78504 [11:36:13<28:32:39,  1.73s/it] 24%|██▍       | 19073/78504 [11:36:14<27:17:00,  1.65s/it]                                                           {'loss': 0.1593, 'grad_norm': 0.9241788387298584, 'learning_rate': 2.5238843361216086e-05, 'epoch': 5.83}
 24%|██▍       | 19073/78504 [11:36:14<27:17:00,  1.65s/it] 24%|██▍       | 19074/78504 [11:36:16<26:04:21,  1.58s/it]                                                           {'loss': 0.1713, 'grad_norm': 1.1383323669433594, 'learning_rate': 2.5238418750796145e-05, 'epoch': 5.83}
 24%|██▍       | 19074/78504 [11:36:16<26:04:21,  1.58s/it] 24%|██▍       | 19075/78504 [11:36:17<24:15:11,  1.47s/it]                                                           {'loss': 0.1771, 'grad_norm': 1.3354840278625488, 'learning_rate': 2.5237994140376207e-05, 'epoch': 5.83}
 24%|██▍       | 19075/78504 [11:36:17<24:15:11,  1.47s/it] 24%|██▍       | 19076/78504 [11:36:18<22:40:32,  1.37s/it]                                                           {'loss': 0.1835, 'grad_norm': 1.3442927598953247, 'learning_rate': 2.5237569529956266e-05, 'epoch': 5.83}
 24%|██▍       | 19076/78504 [11:36:18<22:40:32,  1.37s/it] 24%|██▍       | 19077/78504 [11:36:19<21:16:55,  1.29s/it]                                                           {'loss': 0.1944, 'grad_norm': 1.012730360031128, 'learning_rate': 2.5237144919536328e-05, 'epoch': 5.83}
 24%|██▍       | 19077/78504 [11:36:19<21:16:55,  1.29s/it] 24%|██▍       | 19078/78504 [11:36:20<19:51:24,  1.20s/it]                                                           {'loss': 0.1909, 'grad_norm': 1.4650905132293701, 'learning_rate': 2.5236720309116387e-05, 'epoch': 5.83}
 24%|██▍       | 19078/78504 [11:36:20<19:51:24,  1.20s/it] 24%|██▍       | 19079/78504 [11:36:21<18:29:16,  1.12s/it]                                                           {'loss': 0.1995, 'grad_norm': 2.168118715286255, 'learning_rate': 2.523629569869645e-05, 'epoch': 5.83}
 24%|██▍       | 19079/78504 [11:36:21<18:29:16,  1.12s/it] 24%|██▍       | 19080/78504 [11:36:22<16:47:34,  1.02s/it]                                                           {'loss': 0.24, 'grad_norm': 1.8927019834518433, 'learning_rate': 2.5235871088276507e-05, 'epoch': 5.83}
 24%|██▍       | 19080/78504 [11:36:22<16:47:34,  1.02s/it] 24%|██▍       | 19081/78504 [11:36:32<60:52:36,  3.69s/it]                                                           {'loss': 0.1436, 'grad_norm': 0.5278323292732239, 'learning_rate': 2.523544647785657e-05, 'epoch': 5.83}
 24%|██▍       | 19081/78504 [11:36:32<60:52:36,  3.69s/it] 24%|██▍       | 19082/78504 [11:36:35<58:54:32,  3.57s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.4701160788536072, 'learning_rate': 2.5235021867436628e-05, 'epoch': 5.83}
 24%|██▍       | 19082/78504 [11:36:35<58:54:32,  3.57s/it] 24%|██▍       | 19083/78504 [11:36:38<56:06:29,  3.40s/it]                                                           {'loss': 0.0664, 'grad_norm': 1.4706735610961914, 'learning_rate': 2.523459725701669e-05, 'epoch': 5.83}
 24%|██▍       | 19083/78504 [11:36:38<56:06:29,  3.40s/it] 24%|██▍       | 19084/78504 [11:36:40<52:10:53,  3.16s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.2388773262500763, 'learning_rate': 2.523417264659675e-05, 'epoch': 5.83}
 24%|██▍       | 19084/78504 [11:36:41<52:10:53,  3.16s/it] 24%|██▍       | 19085/78504 [11:36:43<48:49:40,  2.96s/it]                                                           {'loss': 0.0486, 'grad_norm': 0.19922427833080292, 'learning_rate': 2.5233748036176808e-05, 'epoch': 5.83}
 24%|██▍       | 19085/78504 [11:36:43<48:49:40,  2.96s/it] 24%|██▍       | 19086/78504 [11:36:45<45:48:48,  2.78s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.2588753402233124, 'learning_rate': 2.523332342575687e-05, 'epoch': 5.83}
 24%|██▍       | 19086/78504 [11:36:45<45:48:48,  2.78s/it] 24%|██▍       | 19087/78504 [11:36:48<43:36:52,  2.64s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.23287342488765717, 'learning_rate': 2.523289881533693e-05, 'epoch': 5.84}
 24%|██▍       | 19087/78504 [11:36:48<43:36:52,  2.64s/it] 24%|██▍       | 19088/78504 [11:36:50<41:40:26,  2.53s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.6730877161026001, 'learning_rate': 2.523247420491699e-05, 'epoch': 5.84}
 24%|██▍       | 19088/78504 [11:36:50<41:40:26,  2.53s/it] 24%|██▍       | 19089/78504 [11:36:52<39:14:55,  2.38s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.4405491054058075, 'learning_rate': 2.523204959449705e-05, 'epoch': 5.84}
 24%|██▍       | 19089/78504 [11:36:52<39:14:55,  2.38s/it] 24%|██▍       | 19090/78504 [11:36:54<37:59:38,  2.30s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.7262604832649231, 'learning_rate': 2.523162498407711e-05, 'epoch': 5.84}
 24%|██▍       | 19090/78504 [11:36:54<37:59:38,  2.30s/it] 24%|██▍       | 19091/78504 [11:36:56<36:22:02,  2.20s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.5177577137947083, 'learning_rate': 2.523120037365717e-05, 'epoch': 5.84}
 24%|██▍       | 19091/78504 [11:36:56<36:22:02,  2.20s/it] 24%|██▍       | 19092/78504 [11:36:58<34:59:23,  2.12s/it]                                                           {'loss': 0.0721, 'grad_norm': 0.29227501153945923, 'learning_rate': 2.5230775763237232e-05, 'epoch': 5.84}
 24%|██▍       | 19092/78504 [11:36:58<34:59:23,  2.12s/it] 24%|██▍       | 19093/78504 [11:37:00<33:44:30,  2.04s/it]                                                           {'loss': 0.1515, 'grad_norm': 0.4623161852359772, 'learning_rate': 2.523035115281729e-05, 'epoch': 5.84}
 24%|██▍       | 19093/78504 [11:37:00<33:44:30,  2.04s/it] 24%|██▍       | 19094/78504 [11:37:02<32:06:51,  1.95s/it]                                                           {'loss': 0.127, 'grad_norm': 0.5352635383605957, 'learning_rate': 2.5229926542397353e-05, 'epoch': 5.84}
 24%|██▍       | 19094/78504 [11:37:02<32:06:51,  1.95s/it] 24%|██▍       | 19095/78504 [11:37:03<31:14:07,  1.89s/it]                                                           {'loss': 0.113, 'grad_norm': 0.3715769052505493, 'learning_rate': 2.522950193197741e-05, 'epoch': 5.84}
 24%|██▍       | 19095/78504 [11:37:03<31:14:07,  1.89s/it] 24%|██▍       | 19096/78504 [11:37:05<29:59:20,  1.82s/it]                                                           {'loss': 0.152, 'grad_norm': 0.4659007489681244, 'learning_rate': 2.5229077321557474e-05, 'epoch': 5.84}
 24%|██▍       | 19096/78504 [11:37:05<29:59:20,  1.82s/it] 24%|██▍       | 19097/78504 [11:37:06<28:28:34,  1.73s/it]                                                           {'loss': 0.1762, 'grad_norm': 0.6885432004928589, 'learning_rate': 2.5228652711137532e-05, 'epoch': 5.84}
 24%|██▍       | 19097/78504 [11:37:07<28:28:34,  1.73s/it] 24%|██▍       | 19098/78504 [11:37:08<27:00:09,  1.64s/it]                                                           {'loss': 0.16, 'grad_norm': 0.5305585265159607, 'learning_rate': 2.522822810071759e-05, 'epoch': 5.84}
 24%|██▍       | 19098/78504 [11:37:08<27:00:09,  1.64s/it] 24%|██▍       | 19099/78504 [11:37:09<25:52:45,  1.57s/it]                                                           {'loss': 0.1574, 'grad_norm': 0.8068288564682007, 'learning_rate': 2.5227803490297653e-05, 'epoch': 5.84}
 24%|██▍       | 19099/78504 [11:37:09<25:52:45,  1.57s/it] 24%|██▍       | 19100/78504 [11:37:11<24:27:59,  1.48s/it]                                                           {'loss': 0.1427, 'grad_norm': 0.6634947061538696, 'learning_rate': 2.5227378879877712e-05, 'epoch': 5.84}
 24%|██▍       | 19100/78504 [11:37:11<24:27:59,  1.48s/it] 24%|██▍       | 19101/78504 [11:37:12<22:46:23,  1.38s/it]                                                           {'loss': 0.1784, 'grad_norm': 1.227394700050354, 'learning_rate': 2.5226954269457774e-05, 'epoch': 5.84}
 24%|██▍       | 19101/78504 [11:37:12<22:46:23,  1.38s/it] 24%|██▍       | 19102/78504 [11:37:13<21:17:47,  1.29s/it]                                                           {'loss': 0.1756, 'grad_norm': 2.6164021492004395, 'learning_rate': 2.5226529659037833e-05, 'epoch': 5.84}
 24%|██▍       | 19102/78504 [11:37:13<21:17:47,  1.29s/it] 24%|██▍       | 19103/78504 [11:37:14<19:49:50,  1.20s/it]                                                           {'loss': 0.1824, 'grad_norm': 0.7215743660926819, 'learning_rate': 2.5226105048617895e-05, 'epoch': 5.84}
 24%|██▍       | 19103/78504 [11:37:14<19:49:50,  1.20s/it] 24%|██▍       | 19104/78504 [11:37:15<18:30:14,  1.12s/it]                                                           {'loss': 0.1879, 'grad_norm': 0.8042263984680176, 'learning_rate': 2.5225680438197953e-05, 'epoch': 5.84}
 24%|██▍       | 19104/78504 [11:37:15<18:30:14,  1.12s/it] 24%|██▍       | 19105/78504 [11:37:16<16:49:17,  1.02s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.6891629099845886, 'learning_rate': 2.5225255827778016e-05, 'epoch': 5.84}
 24%|██▍       | 19105/78504 [11:37:16<16:49:17,  1.02s/it] 24%|██▍       | 19106/78504 [11:37:24<53:10:59,  3.22s/it]                                                           {'loss': 0.1272, 'grad_norm': 0.3775773346424103, 'learning_rate': 2.5224831217358074e-05, 'epoch': 5.84}
 24%|██▍       | 19106/78504 [11:37:24<53:10:59,  3.22s/it] 24%|██▍       | 19107/78504 [11:37:27<52:43:12,  3.20s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.44594016671180725, 'learning_rate': 2.5224406606938136e-05, 'epoch': 5.84}
 24%|██▍       | 19107/78504 [11:37:27<52:43:12,  3.20s/it] 24%|██▍       | 19108/78504 [11:37:30<49:36:34,  3.01s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.3739071190357208, 'learning_rate': 2.5223981996518195e-05, 'epoch': 5.84}
 24%|██▍       | 19108/78504 [11:37:30<49:36:34,  3.01s/it] 24%|██▍       | 19109/78504 [11:37:32<47:28:13,  2.88s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.33262717723846436, 'learning_rate': 2.5223557386098257e-05, 'epoch': 5.84}
 24%|██▍       | 19109/78504 [11:37:32<47:28:13,  2.88s/it] 24%|██▍       | 19110/78504 [11:37:35<45:31:32,  2.76s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.1588488668203354, 'learning_rate': 2.5223132775678316e-05, 'epoch': 5.84}
 24%|██▍       | 19110/78504 [11:37:35<45:31:32,  2.76s/it] 24%|██▍       | 19111/78504 [11:37:37<43:54:21,  2.66s/it]                                                           {'loss': 0.0682, 'grad_norm': 1.830382227897644, 'learning_rate': 2.5222708165258374e-05, 'epoch': 5.84}
 24%|██▍       | 19111/78504 [11:37:37<43:54:21,  2.66s/it] 24%|██▍       | 19112/78504 [11:37:39<42:09:40,  2.56s/it]                                                           {'loss': 0.0444, 'grad_norm': 0.43648961186408997, 'learning_rate': 2.5222283554838437e-05, 'epoch': 5.84}
 24%|██▍       | 19112/78504 [11:37:39<42:09:40,  2.56s/it] 24%|██▍       | 19113/78504 [11:37:42<39:58:04,  2.42s/it]                                                           {'loss': 0.0757, 'grad_norm': 0.31787195801734924, 'learning_rate': 2.5221858944418495e-05, 'epoch': 5.84}
 24%|██▍       | 19113/78504 [11:37:42<39:58:04,  2.42s/it] 24%|██▍       | 19114/78504 [11:37:44<38:46:44,  2.35s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.512908935546875, 'learning_rate': 2.5221434333998557e-05, 'epoch': 5.84}
 24%|██▍       | 19114/78504 [11:37:44<38:46:44,  2.35s/it] 24%|██▍       | 19115/78504 [11:37:46<37:45:19,  2.29s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.24749788641929626, 'learning_rate': 2.5221009723578616e-05, 'epoch': 5.84}
 24%|██▍       | 19115/78504 [11:37:46<37:45:19,  2.29s/it] 24%|██▍       | 19116/78504 [11:37:48<35:37:52,  2.16s/it]                                                           {'loss': 0.0962, 'grad_norm': 1.184554100036621, 'learning_rate': 2.5220585113158678e-05, 'epoch': 5.84}
 24%|██▍       | 19116/78504 [11:37:48<35:37:52,  2.16s/it] 24%|██▍       | 19117/78504 [11:37:50<34:46:02,  2.11s/it]                                                           {'loss': 0.0756, 'grad_norm': 0.4225708246231079, 'learning_rate': 2.5220160502738737e-05, 'epoch': 5.84}
 24%|██▍       | 19117/78504 [11:37:50<34:46:02,  2.11s/it] 24%|██▍       | 19118/78504 [11:37:52<33:49:21,  2.05s/it]                                                           {'loss': 0.1165, 'grad_norm': 0.32628703117370605, 'learning_rate': 2.52197358923188e-05, 'epoch': 5.84}
 24%|██▍       | 19118/78504 [11:37:52<33:49:21,  2.05s/it] 24%|██▍       | 19119/78504 [11:37:53<32:53:50,  1.99s/it]                                                           {'loss': 0.1241, 'grad_norm': 0.34752553701400757, 'learning_rate': 2.5219311281898858e-05, 'epoch': 5.85}
 24%|██▍       | 19119/78504 [11:37:53<32:53:50,  1.99s/it] 24%|██▍       | 19120/78504 [11:37:55<31:45:38,  1.93s/it]                                                           {'loss': 0.1124, 'grad_norm': 0.37225770950317383, 'learning_rate': 2.521888667147892e-05, 'epoch': 5.85}
 24%|██▍       | 19120/78504 [11:37:55<31:45:38,  1.93s/it] 24%|██▍       | 19121/78504 [11:37:57<30:02:06,  1.82s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.7395799160003662, 'learning_rate': 2.521846206105898e-05, 'epoch': 5.85}
 24%|██▍       | 19121/78504 [11:37:57<30:02:06,  1.82s/it] 24%|██▍       | 19122/78504 [11:37:58<28:38:03,  1.74s/it]                                                           {'loss': 0.1535, 'grad_norm': 1.2141687870025635, 'learning_rate': 2.521803745063904e-05, 'epoch': 5.85}
 24%|██▍       | 19122/78504 [11:37:58<28:38:03,  1.74s/it] 24%|██▍       | 19123/78504 [11:38:00<27:18:30,  1.66s/it]                                                           {'loss': 0.1883, 'grad_norm': 0.6784619092941284, 'learning_rate': 2.52176128402191e-05, 'epoch': 5.85}
 24%|██▍       | 19123/78504 [11:38:00<27:18:30,  1.66s/it] 24%|██▍       | 19124/78504 [11:38:01<26:01:06,  1.58s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.6454549431800842, 'learning_rate': 2.5217188229799158e-05, 'epoch': 5.85}
 24%|██▍       | 19124/78504 [11:38:01<26:01:06,  1.58s/it] 24%|██▍       | 19125/78504 [11:38:02<24:32:22,  1.49s/it]                                                           {'loss': 0.1873, 'grad_norm': 1.1306620836257935, 'learning_rate': 2.521676361937922e-05, 'epoch': 5.85}
 24%|██▍       | 19125/78504 [11:38:03<24:32:22,  1.49s/it] 24%|██▍       | 19126/78504 [11:38:04<22:51:45,  1.39s/it]                                                           {'loss': 0.149, 'grad_norm': 0.898648202419281, 'learning_rate': 2.521633900895928e-05, 'epoch': 5.85}
 24%|██▍       | 19126/78504 [11:38:04<22:51:45,  1.39s/it] 24%|██▍       | 19127/78504 [11:38:05<21:28:03,  1.30s/it]                                                           {'loss': 0.1726, 'grad_norm': 0.5504564046859741, 'learning_rate': 2.521591439853934e-05, 'epoch': 5.85}
 24%|██▍       | 19127/78504 [11:38:05<21:28:03,  1.30s/it] 24%|██▍       | 19128/78504 [11:38:06<19:54:58,  1.21s/it]                                                           {'loss': 0.1918, 'grad_norm': 0.949518084526062, 'learning_rate': 2.52154897881194e-05, 'epoch': 5.85}
 24%|██▍       | 19128/78504 [11:38:06<19:54:58,  1.21s/it] 24%|██▍       | 19129/78504 [11:38:07<18:30:56,  1.12s/it]                                                           {'loss': 0.2515, 'grad_norm': 0.740281879901886, 'learning_rate': 2.521506517769946e-05, 'epoch': 5.85}
 24%|██▍       | 19129/78504 [11:38:07<18:30:56,  1.12s/it] 24%|██▍       | 19130/78504 [11:38:07<16:48:11,  1.02s/it]                                                           {'loss': 0.2091, 'grad_norm': 0.8913405537605286, 'learning_rate': 2.521464056727952e-05, 'epoch': 5.85}
 24%|██▍       | 19130/78504 [11:38:07<16:48:11,  1.02s/it] 24%|██▍       | 19131/78504 [11:38:16<56:34:00,  3.43s/it]                                                           {'loss': 0.1441, 'grad_norm': 0.42934450507164, 'learning_rate': 2.5214215956859582e-05, 'epoch': 5.85}
 24%|██▍       | 19131/78504 [11:38:16<56:34:00,  3.43s/it] 24%|██▍       | 19132/78504 [11:38:20<54:41:10,  3.32s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.1734764575958252, 'learning_rate': 2.521379134643964e-05, 'epoch': 5.85}
 24%|██▍       | 19132/78504 [11:38:20<54:41:10,  3.32s/it] 24%|██▍       | 19133/78504 [11:38:22<50:59:16,  3.09s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.21428875625133514, 'learning_rate': 2.5213366736019703e-05, 'epoch': 5.85}
 24%|██▍       | 19133/78504 [11:38:22<50:59:16,  3.09s/it] 24%|██▍       | 19134/78504 [11:38:25<48:34:37,  2.95s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.27588725090026855, 'learning_rate': 2.5212942125599762e-05, 'epoch': 5.85}
 24%|██▍       | 19134/78504 [11:38:25<48:34:37,  2.95s/it] 24%|██▍       | 19135/78504 [11:38:27<46:12:00,  2.80s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.1811354011297226, 'learning_rate': 2.521251751517982e-05, 'epoch': 5.85}
 24%|██▍       | 19135/78504 [11:38:27<46:12:00,  2.80s/it] 24%|██▍       | 19136/78504 [11:38:29<43:31:33,  2.64s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.23466862738132477, 'learning_rate': 2.5212092904759883e-05, 'epoch': 5.85}
 24%|██▍       | 19136/78504 [11:38:29<43:31:33,  2.64s/it] 24%|██▍       | 19137/78504 [11:38:32<41:56:21,  2.54s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.31790339946746826, 'learning_rate': 2.521166829433994e-05, 'epoch': 5.85}
 24%|██▍       | 19137/78504 [11:38:32<41:56:21,  2.54s/it] 24%|██▍       | 19138/78504 [11:38:34<39:47:03,  2.41s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.3903902769088745, 'learning_rate': 2.5211243683920003e-05, 'epoch': 5.85}
 24%|██▍       | 19138/78504 [11:38:34<39:47:03,  2.41s/it] 24%|██▍       | 19139/78504 [11:38:36<38:38:25,  2.34s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.22120127081871033, 'learning_rate': 2.5210819073500062e-05, 'epoch': 5.85}
 24%|██▍       | 19139/78504 [11:38:36<38:38:25,  2.34s/it] 24%|██▍       | 19140/78504 [11:38:38<37:39:25,  2.28s/it]                                                           {'loss': 0.059, 'grad_norm': 0.268729031085968, 'learning_rate': 2.5210394463080124e-05, 'epoch': 5.85}
 24%|██▍       | 19140/78504 [11:38:38<37:39:25,  2.28s/it] 24%|██▍       | 19141/78504 [11:38:40<36:21:01,  2.20s/it]                                                           {'loss': 0.0826, 'grad_norm': 0.5876834988594055, 'learning_rate': 2.5209969852660183e-05, 'epoch': 5.85}
 24%|██▍       | 19141/78504 [11:38:40<36:21:01,  2.20s/it] 24%|██▍       | 19142/78504 [11:38:42<35:13:50,  2.14s/it]                                                           {'loss': 0.0895, 'grad_norm': 0.3250431716442108, 'learning_rate': 2.5209545242240245e-05, 'epoch': 5.85}
 24%|██▍       | 19142/78504 [11:38:42<35:13:50,  2.14s/it] 24%|██▍       | 19143/78504 [11:38:44<33:51:48,  2.05s/it]                                                           {'loss': 0.0929, 'grad_norm': 0.44211533665657043, 'learning_rate': 2.5209120631820304e-05, 'epoch': 5.85}
 24%|██▍       | 19143/78504 [11:38:44<33:51:48,  2.05s/it] 24%|██▍       | 19144/78504 [11:38:46<32:55:13,  2.00s/it]                                                           {'loss': 0.1091, 'grad_norm': 0.6651122570037842, 'learning_rate': 2.5208696021400366e-05, 'epoch': 5.85}
 24%|██▍       | 19144/78504 [11:38:46<32:55:13,  2.00s/it] 24%|██▍       | 19145/78504 [11:38:48<31:34:58,  1.92s/it]                                                           {'loss': 0.1026, 'grad_norm': 0.35861867666244507, 'learning_rate': 2.5208271410980425e-05, 'epoch': 5.85}
 24%|██▍       | 19145/78504 [11:38:48<31:34:58,  1.92s/it] 24%|██▍       | 19146/78504 [11:38:49<30:14:16,  1.83s/it]                                                           {'loss': 0.118, 'grad_norm': 0.558383584022522, 'learning_rate': 2.5207846800560487e-05, 'epoch': 5.85}
 24%|██▍       | 19146/78504 [11:38:49<30:14:16,  1.83s/it] 24%|██▍       | 19147/78504 [11:38:51<28:47:20,  1.75s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.8575935363769531, 'learning_rate': 2.5207422190140545e-05, 'epoch': 5.85}
 24%|██▍       | 19147/78504 [11:38:51<28:47:20,  1.75s/it] 24%|██▍       | 19148/78504 [11:38:52<27:11:53,  1.65s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.5476775169372559, 'learning_rate': 2.5206997579720604e-05, 'epoch': 5.85}
 24%|██▍       | 19148/78504 [11:38:52<27:11:53,  1.65s/it] 24%|██▍       | 19149/78504 [11:38:54<26:06:21,  1.58s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.43560197949409485, 'learning_rate': 2.5206572969300666e-05, 'epoch': 5.85}
 24%|██▍       | 19149/78504 [11:38:54<26:06:21,  1.58s/it] 24%|██▍       | 19150/78504 [11:38:55<24:38:40,  1.49s/it]                                                           {'loss': 0.1716, 'grad_norm': 0.7842085957527161, 'learning_rate': 2.5206148358880725e-05, 'epoch': 5.85}
 24%|██▍       | 19150/78504 [11:38:55<24:38:40,  1.49s/it] 24%|██▍       | 19151/78504 [11:38:56<22:55:34,  1.39s/it]                                                           {'loss': 0.1914, 'grad_norm': 1.799959421157837, 'learning_rate': 2.5205723748460787e-05, 'epoch': 5.85}
 24%|██▍       | 19151/78504 [11:38:56<22:55:34,  1.39s/it] 24%|██▍       | 19152/78504 [11:38:57<21:27:37,  1.30s/it]                                                           {'loss': 0.1403, 'grad_norm': 0.6404722332954407, 'learning_rate': 2.5205299138040846e-05, 'epoch': 5.86}
 24%|██▍       | 19152/78504 [11:38:57<21:27:37,  1.30s/it] 24%|██▍       | 19153/78504 [11:38:58<19:56:36,  1.21s/it]                                                           {'loss': 0.1953, 'grad_norm': 1.0406317710876465, 'learning_rate': 2.5204874527620908e-05, 'epoch': 5.86}
 24%|██▍       | 19153/78504 [11:38:58<19:56:36,  1.21s/it] 24%|██▍       | 19154/78504 [11:38:59<18:36:23,  1.13s/it]                                                           {'loss': 0.2051, 'grad_norm': 0.7992905378341675, 'learning_rate': 2.5204449917200966e-05, 'epoch': 5.86}
 24%|██▍       | 19154/78504 [11:38:59<18:36:23,  1.13s/it] 24%|██▍       | 19155/78504 [11:39:00<16:55:27,  1.03s/it]                                                           {'loss': 0.2496, 'grad_norm': 2.247396230697632, 'learning_rate': 2.520402530678103e-05, 'epoch': 5.86}
 24%|██▍       | 19155/78504 [11:39:00<16:55:27,  1.03s/it] 24%|██▍       | 19156/78504 [11:39:08<50:17:31,  3.05s/it]                                                           {'loss': 0.1337, 'grad_norm': 13.158391952514648, 'learning_rate': 2.5203600696361087e-05, 'epoch': 5.86}
 24%|██▍       | 19156/78504 [11:39:08<50:17:31,  3.05s/it] 24%|██▍       | 19157/78504 [11:39:11<51:18:28,  3.11s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.20794111490249634, 'learning_rate': 2.520317608594115e-05, 'epoch': 5.86}
 24%|██▍       | 19157/78504 [11:39:11<51:18:28,  3.11s/it] 24%|██▍       | 19158/78504 [11:39:14<50:39:10,  3.07s/it]                                                           {'loss': 0.0662, 'grad_norm': 0.3728295862674713, 'learning_rate': 2.5202751475521208e-05, 'epoch': 5.86}
 24%|██▍       | 19158/78504 [11:39:14<50:39:10,  3.07s/it] 24%|██▍       | 19159/78504 [11:39:17<48:25:21,  2.94s/it]                                                           {'loss': 0.0576, 'grad_norm': 0.308743953704834, 'learning_rate': 2.520232686510127e-05, 'epoch': 5.86}
 24%|██▍       | 19159/78504 [11:39:17<48:25:21,  2.94s/it] 24%|██▍       | 19160/78504 [11:39:19<46:04:41,  2.80s/it]                                                           {'loss': 0.057, 'grad_norm': 0.20730572938919067, 'learning_rate': 2.5201902254681332e-05, 'epoch': 5.86}
 24%|██▍       | 19160/78504 [11:39:19<46:04:41,  2.80s/it] 24%|██▍       | 19161/78504 [11:39:21<43:28:15,  2.64s/it]                                                           {'loss': 0.0362, 'grad_norm': 0.2442288100719452, 'learning_rate': 2.520147764426139e-05, 'epoch': 5.86}
 24%|██▍       | 19161/78504 [11:39:21<43:28:15,  2.64s/it] 24%|██▍       | 19162/78504 [11:39:24<41:52:06,  2.54s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.26767146587371826, 'learning_rate': 2.5201053033841453e-05, 'epoch': 5.86}
 24%|██▍       | 19162/78504 [11:39:24<41:52:06,  2.54s/it] 24%|██▍       | 19163/78504 [11:39:26<39:43:18,  2.41s/it]                                                           {'loss': 0.0677, 'grad_norm': 0.4915364980697632, 'learning_rate': 2.520062842342151e-05, 'epoch': 5.86}
 24%|██▍       | 19163/78504 [11:39:26<39:43:18,  2.41s/it] 24%|██▍       | 19164/78504 [11:39:28<38:36:54,  2.34s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.30049729347229004, 'learning_rate': 2.5200203813001574e-05, 'epoch': 5.86}
 24%|██▍       | 19164/78504 [11:39:28<38:36:54,  2.34s/it] 24%|██▍       | 19165/78504 [11:39:30<37:42:10,  2.29s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.14985960721969604, 'learning_rate': 2.5199779202581632e-05, 'epoch': 5.86}
 24%|██▍       | 19165/78504 [11:39:30<37:42:10,  2.29s/it] 24%|██▍       | 19166/78504 [11:39:32<35:33:46,  2.16s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.8146577477455139, 'learning_rate': 2.5199354592161694e-05, 'epoch': 5.86}
 24%|██▍       | 19166/78504 [11:39:32<35:33:46,  2.16s/it] 24%|██▍       | 19167/78504 [11:39:34<34:42:58,  2.11s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.35704419016838074, 'learning_rate': 2.5198929981741753e-05, 'epoch': 5.86}
 24%|██▍       | 19167/78504 [11:39:34<34:42:58,  2.11s/it] 24%|██▍       | 19168/78504 [11:39:36<33:28:32,  2.03s/it]                                                           {'loss': 0.0716, 'grad_norm': 0.2989770770072937, 'learning_rate': 2.5198505371321815e-05, 'epoch': 5.86}
 24%|██▍       | 19168/78504 [11:39:36<33:28:32,  2.03s/it] 24%|██▍       | 19169/78504 [11:39:38<32:31:57,  1.97s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.44600850343704224, 'learning_rate': 2.5198080760901874e-05, 'epoch': 5.86}
 24%|██▍       | 19169/78504 [11:39:38<32:31:57,  1.97s/it] 24%|██▍       | 19170/78504 [11:39:39<31:17:04,  1.90s/it]                                                           {'loss': 0.0971, 'grad_norm': 0.44195276498794556, 'learning_rate': 2.5197656150481936e-05, 'epoch': 5.86}
 24%|██▍       | 19170/78504 [11:39:39<31:17:04,  1.90s/it] 24%|██▍       | 19171/78504 [11:39:41<30:02:51,  1.82s/it]                                                           {'loss': 0.1364, 'grad_norm': 0.4411501884460449, 'learning_rate': 2.5197231540061995e-05, 'epoch': 5.86}
 24%|██▍       | 19171/78504 [11:39:41<30:02:51,  1.82s/it] 24%|██▍       | 19172/78504 [11:39:42<28:39:30,  1.74s/it]                                                           {'loss': 0.1144, 'grad_norm': 0.502195417881012, 'learning_rate': 2.5196806929642057e-05, 'epoch': 5.86}
 24%|██▍       | 19172/78504 [11:39:43<28:39:30,  1.74s/it] 24%|██▍       | 19173/78504 [11:39:44<27:19:21,  1.66s/it]                                                           {'loss': 0.163, 'grad_norm': 0.8265092372894287, 'learning_rate': 2.5196382319222116e-05, 'epoch': 5.86}
 24%|██▍       | 19173/78504 [11:39:44<27:19:21,  1.66s/it] 24%|██▍       | 19174/78504 [11:39:45<25:53:48,  1.57s/it]                                                           {'loss': 0.1699, 'grad_norm': 0.7186024785041809, 'learning_rate': 2.5195957708802174e-05, 'epoch': 5.86}
 24%|██▍       | 19174/78504 [11:39:45<25:53:48,  1.57s/it] 24%|██▍       | 19175/78504 [11:39:47<24:26:45,  1.48s/it]                                                           {'loss': 0.1636, 'grad_norm': 1.8108114004135132, 'learning_rate': 2.5195533098382236e-05, 'epoch': 5.86}
 24%|██▍       | 19175/78504 [11:39:47<24:26:45,  1.48s/it] 24%|██▍       | 19176/78504 [11:39:48<22:47:52,  1.38s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.4530941843986511, 'learning_rate': 2.5195108487962295e-05, 'epoch': 5.86}
 24%|██▍       | 19176/78504 [11:39:48<22:47:52,  1.38s/it] 24%|██▍       | 19177/78504 [11:39:49<21:25:20,  1.30s/it]                                                           {'loss': 0.1659, 'grad_norm': 0.6948827505111694, 'learning_rate': 2.5194683877542357e-05, 'epoch': 5.86}
 24%|██▍       | 19177/78504 [11:39:49<21:25:20,  1.30s/it] 24%|██▍       | 19178/78504 [11:39:50<20:12:51,  1.23s/it]                                                           {'loss': 0.1704, 'grad_norm': 0.6085458397865295, 'learning_rate': 2.5194259267122416e-05, 'epoch': 5.86}
 24%|██▍       | 19178/78504 [11:39:50<20:12:51,  1.23s/it] 24%|██▍       | 19179/78504 [11:39:51<18:46:30,  1.14s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.995928168296814, 'learning_rate': 2.5193834656702478e-05, 'epoch': 5.86}
 24%|██▍       | 19179/78504 [11:39:51<18:46:30,  1.14s/it] 24%|██▍       | 19180/78504 [11:39:52<16:59:54,  1.03s/it]                                                           {'loss': 0.2475, 'grad_norm': 1.0410878658294678, 'learning_rate': 2.5193410046282537e-05, 'epoch': 5.86}
 24%|██▍       | 19180/78504 [11:39:52<16:59:54,  1.03s/it] 24%|██▍       | 19181/78504 [11:40:00<51:33:31,  3.13s/it]                                                           {'loss': 0.1704, 'grad_norm': 0.39201393723487854, 'learning_rate': 2.51929854358626e-05, 'epoch': 5.86}
 24%|██▍       | 19181/78504 [11:40:00<51:33:31,  3.13s/it] 24%|██▍       | 19182/78504 [11:40:03<51:28:12,  3.12s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.3216928541660309, 'learning_rate': 2.5192560825442657e-05, 'epoch': 5.86}
 24%|██▍       | 19182/78504 [11:40:03<51:28:12,  3.12s/it] 24%|██▍       | 19183/78504 [11:40:06<50:47:41,  3.08s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.16221840679645538, 'learning_rate': 2.519213621502272e-05, 'epoch': 5.86}
 24%|██▍       | 19183/78504 [11:40:06<50:47:41,  3.08s/it] 24%|██▍       | 19184/78504 [11:40:08<48:22:28,  2.94s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.18749643862247467, 'learning_rate': 2.5191711604602778e-05, 'epoch': 5.86}
 24%|██▍       | 19184/78504 [11:40:08<48:22:28,  2.94s/it] 24%|██▍       | 19185/78504 [11:40:11<46:09:26,  2.80s/it]                                                           {'loss': 0.0401, 'grad_norm': 0.8569106459617615, 'learning_rate': 2.519128699418284e-05, 'epoch': 5.87}
 24%|██▍       | 19185/78504 [11:40:11<46:09:26,  2.80s/it] 24%|██▍       | 19186/78504 [11:40:13<43:06:19,  2.62s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.14707133173942566, 'learning_rate': 2.51908623837629e-05, 'epoch': 5.87}
 24%|██▍       | 19186/78504 [11:40:13<43:06:19,  2.62s/it] 24%|██▍       | 19187/78504 [11:40:15<41:40:55,  2.53s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.2835550308227539, 'learning_rate': 2.5190437773342958e-05, 'epoch': 5.87}
 24%|██▍       | 19187/78504 [11:40:15<41:40:55,  2.53s/it] 24%|██▍       | 19188/78504 [11:40:18<40:21:18,  2.45s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.29077479243278503, 'learning_rate': 2.519001316292302e-05, 'epoch': 5.87}
 24%|██▍       | 19188/78504 [11:40:18<40:21:18,  2.45s/it] 24%|██▍       | 19189/78504 [11:40:20<39:03:23,  2.37s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.4437263011932373, 'learning_rate': 2.518958855250308e-05, 'epoch': 5.87}
 24%|██▍       | 19189/78504 [11:40:20<39:03:23,  2.37s/it] 24%|██▍       | 19190/78504 [11:40:22<37:53:49,  2.30s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.21729806065559387, 'learning_rate': 2.518916394208314e-05, 'epoch': 5.87}
 24%|██▍       | 19190/78504 [11:40:22<37:53:49,  2.30s/it] 24%|██▍       | 19191/78504 [11:40:24<36:19:58,  2.21s/it]                                                           {'loss': 0.0827, 'grad_norm': 0.6840935945510864, 'learning_rate': 2.51887393316632e-05, 'epoch': 5.87}
 24%|██▍       | 19191/78504 [11:40:24<36:19:58,  2.21s/it] 24%|██▍       | 19192/78504 [11:40:26<34:55:07,  2.12s/it]                                                           {'loss': 0.103, 'grad_norm': 0.3250899910926819, 'learning_rate': 2.518831472124326e-05, 'epoch': 5.87}
 24%|██▍       | 19192/78504 [11:40:26<34:55:07,  2.12s/it] 24%|██▍       | 19193/78504 [11:40:28<33:41:55,  2.05s/it]                                                           {'loss': 0.1134, 'grad_norm': 0.620754599571228, 'learning_rate': 2.518789011082332e-05, 'epoch': 5.87}
 24%|██▍       | 19193/78504 [11:40:28<33:41:55,  2.05s/it] 24%|██▍       | 19194/78504 [11:40:29<32:02:17,  1.94s/it]                                                           {'loss': 0.096, 'grad_norm': 0.5067532658576965, 'learning_rate': 2.5187465500403382e-05, 'epoch': 5.87}
 24%|██▍       | 19194/78504 [11:40:29<32:02:17,  1.94s/it] 24%|██▍       | 19195/78504 [11:40:31<31:09:39,  1.89s/it]                                                           {'loss': 0.117, 'grad_norm': 0.6893195509910583, 'learning_rate': 2.518704088998344e-05, 'epoch': 5.87}
 24%|██▍       | 19195/78504 [11:40:31<31:09:39,  1.89s/it] 24%|██▍       | 19196/78504 [11:40:33<29:55:33,  1.82s/it]                                                           {'loss': 0.136, 'grad_norm': 0.69980788230896, 'learning_rate': 2.5186616279563503e-05, 'epoch': 5.87}
 24%|██▍       | 19196/78504 [11:40:33<29:55:33,  1.82s/it] 24%|██▍       | 19197/78504 [11:40:34<28:34:20,  1.73s/it]                                                           {'loss': 0.1146, 'grad_norm': 2.030735969543457, 'learning_rate': 2.518619166914356e-05, 'epoch': 5.87}
 24%|██▍       | 19197/78504 [11:40:34<28:34:20,  1.73s/it] 24%|██▍       | 19198/78504 [11:40:36<27:00:31,  1.64s/it]                                                           {'loss': 0.1354, 'grad_norm': 1.1113120317459106, 'learning_rate': 2.5185767058723624e-05, 'epoch': 5.87}
 24%|██▍       | 19198/78504 [11:40:36<27:00:31,  1.64s/it] 24%|██▍       | 19199/78504 [11:40:37<25:56:17,  1.57s/it]                                                           {'loss': 0.1772, 'grad_norm': 1.6010582447052002, 'learning_rate': 2.5185342448303682e-05, 'epoch': 5.87}
 24%|██▍       | 19199/78504 [11:40:37<25:56:17,  1.57s/it] 24%|██▍       | 19200/78504 [11:40:38<24:13:44,  1.47s/it]                                                           {'loss': 0.2006, 'grad_norm': 2.5533130168914795, 'learning_rate': 2.518491783788374e-05, 'epoch': 5.87}
 24%|██▍       | 19200/78504 [11:40:38<24:13:44,  1.47s/it] 24%|██▍       | 19201/78504 [11:40:40<22:30:51,  1.37s/it]                                                           {'loss': 0.181, 'grad_norm': 1.50563383102417, 'learning_rate': 2.5184493227463803e-05, 'epoch': 5.87}
 24%|██▍       | 19201/78504 [11:40:40<22:30:51,  1.37s/it] 24%|██▍       | 19202/78504 [11:40:41<21:08:54,  1.28s/it]                                                           {'loss': 0.2325, 'grad_norm': 1.0427240133285522, 'learning_rate': 2.5184068617043862e-05, 'epoch': 5.87}
 24%|██▍       | 19202/78504 [11:40:41<21:08:54,  1.28s/it] 24%|██▍       | 19203/78504 [11:40:42<19:41:19,  1.20s/it]                                                           {'loss': 0.1565, 'grad_norm': 1.4093061685562134, 'learning_rate': 2.5183644006623924e-05, 'epoch': 5.87}
 24%|██▍       | 19203/78504 [11:40:42<19:41:19,  1.20s/it] 24%|██▍       | 19204/78504 [11:40:43<18:22:13,  1.12s/it]                                                           {'loss': 0.1782, 'grad_norm': 1.6389517784118652, 'learning_rate': 2.5183219396203983e-05, 'epoch': 5.87}
 24%|██▍       | 19204/78504 [11:40:43<18:22:13,  1.12s/it] 24%|██▍       | 19205/78504 [11:40:43<16:43:28,  1.02s/it]                                                           {'loss': 0.2118, 'grad_norm': 11.893939018249512, 'learning_rate': 2.5182794785784045e-05, 'epoch': 5.87}
 24%|██▍       | 19205/78504 [11:40:43<16:43:28,  1.02s/it] 24%|██▍       | 19206/78504 [11:40:52<53:20:59,  3.24s/it]                                                           {'loss': 0.1482, 'grad_norm': 0.4066401422023773, 'learning_rate': 2.5182370175364103e-05, 'epoch': 5.87}
 24%|██▍       | 19206/78504 [11:40:52<53:20:59,  3.24s/it] 24%|██▍       | 19207/78504 [11:40:55<52:49:37,  3.21s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.3811056911945343, 'learning_rate': 2.5181945564944166e-05, 'epoch': 5.87}
 24%|██▍       | 19207/78504 [11:40:55<52:49:37,  3.21s/it] 24%|██▍       | 19208/78504 [11:40:58<50:41:30,  3.08s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.2527361512184143, 'learning_rate': 2.5181520954524224e-05, 'epoch': 5.87}
 24%|██▍       | 19208/78504 [11:40:58<50:41:30,  3.08s/it] 24%|██▍       | 19209/78504 [11:41:00<48:24:11,  2.94s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.7376211285591125, 'learning_rate': 2.5181096344104286e-05, 'epoch': 5.87}
 24%|██▍       | 19209/78504 [11:41:00<48:24:11,  2.94s/it] 24%|██▍       | 19210/78504 [11:41:03<46:04:27,  2.80s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.28652825951576233, 'learning_rate': 2.5180671733684345e-05, 'epoch': 5.87}
 24%|██▍       | 19210/78504 [11:41:03<46:04:27,  2.80s/it] 24%|██▍       | 19211/78504 [11:41:05<43:26:08,  2.64s/it]                                                           {'loss': 0.072, 'grad_norm': 0.2226138561964035, 'learning_rate': 2.5180247123264407e-05, 'epoch': 5.87}
 24%|██▍       | 19211/78504 [11:41:05<43:26:08,  2.64s/it] 24%|██▍       | 19212/78504 [11:41:07<41:50:35,  2.54s/it]                                                           {'loss': 0.066, 'grad_norm': 0.2942057251930237, 'learning_rate': 2.5179822512844466e-05, 'epoch': 5.87}
 24%|██▍       | 19212/78504 [11:41:07<41:50:35,  2.54s/it] 24%|██▍       | 19213/78504 [11:41:09<39:41:12,  2.41s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.3146311044692993, 'learning_rate': 2.5179397902424525e-05, 'epoch': 5.87}
 24%|██▍       | 19213/78504 [11:41:09<39:41:12,  2.41s/it] 24%|██▍       | 19214/78504 [11:41:11<37:47:03,  2.29s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.2903156876564026, 'learning_rate': 2.5178973292004587e-05, 'epoch': 5.87}
 24%|██▍       | 19214/78504 [11:41:12<37:47:03,  2.29s/it] 24%|██▍       | 19215/78504 [11:41:14<37:03:10,  2.25s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.4358319640159607, 'learning_rate': 2.5178548681584645e-05, 'epoch': 5.87}
 24%|██▍       | 19215/78504 [11:41:14<37:03:10,  2.25s/it] 24%|██▍       | 19216/78504 [11:41:16<35:56:32,  2.18s/it]                                                           {'loss': 0.107, 'grad_norm': 0.412552148103714, 'learning_rate': 2.5178124071164707e-05, 'epoch': 5.87}
 24%|██▍       | 19216/78504 [11:41:16<35:56:32,  2.18s/it] 24%|██▍       | 19217/78504 [11:41:17<34:03:40,  2.07s/it]                                                           {'loss': 0.0971, 'grad_norm': 0.48161956667900085, 'learning_rate': 2.5177699460744766e-05, 'epoch': 5.87}
 24%|██▍       | 19217/78504 [11:41:17<34:03:40,  2.07s/it] 24%|██▍       | 19218/78504 [11:41:19<33:02:22,  2.01s/it]                                                           {'loss': 0.1095, 'grad_norm': 0.6414896845817566, 'learning_rate': 2.5177274850324828e-05, 'epoch': 5.88}
 24%|██▍       | 19218/78504 [11:41:19<33:02:22,  2.01s/it] 24%|██▍       | 19219/78504 [11:41:21<31:37:53,  1.92s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.5457608699798584, 'learning_rate': 2.5176850239904887e-05, 'epoch': 5.88}
 24%|██▍       | 19219/78504 [11:41:21<31:37:53,  1.92s/it] 24%|██▍       | 19220/78504 [11:41:23<30:53:00,  1.88s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.4220584034919739, 'learning_rate': 2.517642562948495e-05, 'epoch': 5.88}
 24%|██▍       | 19220/78504 [11:41:23<30:53:00,  1.88s/it] 24%|██▍       | 19221/78504 [11:41:24<29:19:48,  1.78s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.4292669892311096, 'learning_rate': 2.5176001019065008e-05, 'epoch': 5.88}
 24%|██▍       | 19221/78504 [11:41:24<29:19:48,  1.78s/it] 24%|██▍       | 19222/78504 [11:41:26<28:01:27,  1.70s/it]                                                           {'loss': 0.1912, 'grad_norm': 0.7266040444374084, 'learning_rate': 2.517557640864507e-05, 'epoch': 5.88}
 24%|██▍       | 19222/78504 [11:41:26<28:01:27,  1.70s/it] 24%|██▍       | 19223/78504 [11:41:27<26:53:53,  1.63s/it]                                                           {'loss': 0.1853, 'grad_norm': 0.9692152142524719, 'learning_rate': 2.517515179822513e-05, 'epoch': 5.88}
 24%|██▍       | 19223/78504 [11:41:27<26:53:53,  1.63s/it] 24%|██▍       | 19224/78504 [11:41:29<25:49:17,  1.57s/it]                                                           {'loss': 0.1647, 'grad_norm': 0.8977276086807251, 'learning_rate': 2.517472718780519e-05, 'epoch': 5.88}
 24%|██▍       | 19224/78504 [11:41:29<25:49:17,  1.57s/it] 24%|██▍       | 19225/78504 [11:41:30<24:07:44,  1.47s/it]                                                           {'loss': 0.1615, 'grad_norm': 0.7464172840118408, 'learning_rate': 2.517430257738525e-05, 'epoch': 5.88}
 24%|██▍       | 19225/78504 [11:41:30<24:07:44,  1.47s/it] 24%|██▍       | 19226/78504 [11:41:31<22:26:19,  1.36s/it]                                                           {'loss': 0.19, 'grad_norm': 0.5374807119369507, 'learning_rate': 2.5173877966965308e-05, 'epoch': 5.88}
 24%|██▍       | 19226/78504 [11:41:31<22:26:19,  1.36s/it] 24%|██▍       | 19227/78504 [11:41:32<21:08:03,  1.28s/it]                                                           {'loss': 0.1776, 'grad_norm': 0.7495740652084351, 'learning_rate': 2.517345335654537e-05, 'epoch': 5.88}
 24%|██▍       | 19227/78504 [11:41:32<21:08:03,  1.28s/it] 24%|██▍       | 19228/78504 [11:41:33<20:00:20,  1.22s/it]                                                           {'loss': 0.1768, 'grad_norm': 1.8599618673324585, 'learning_rate': 2.517302874612543e-05, 'epoch': 5.88}
 24%|██▍       | 19228/78504 [11:41:33<20:00:20,  1.22s/it] 24%|██▍       | 19229/78504 [11:41:34<18:37:12,  1.13s/it]                                                           {'loss': 0.1762, 'grad_norm': 1.3268779516220093, 'learning_rate': 2.517260413570549e-05, 'epoch': 5.88}
 24%|██▍       | 19229/78504 [11:41:34<18:37:12,  1.13s/it] 24%|██▍       | 19230/78504 [11:41:35<16:54:01,  1.03s/it]                                                           {'loss': 0.233, 'grad_norm': 1.166237711906433, 'learning_rate': 2.517217952528555e-05, 'epoch': 5.88}
 24%|██▍       | 19230/78504 [11:41:35<16:54:01,  1.03s/it] 24%|██▍       | 19231/78504 [11:41:43<51:51:54,  3.15s/it]                                                           {'loss': 0.1206, 'grad_norm': 0.2983999252319336, 'learning_rate': 2.517175491486561e-05, 'epoch': 5.88}
 24%|██▍       | 19231/78504 [11:41:43<51:51:54,  3.15s/it] 24%|██▍       | 19232/78504 [11:41:46<51:48:45,  3.15s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.4388585686683655, 'learning_rate': 2.517133030444567e-05, 'epoch': 5.88}
 24%|██▍       | 19232/78504 [11:41:46<51:48:45,  3.15s/it] 24%|██▍       | 19233/78504 [11:41:49<50:42:46,  3.08s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.3573589324951172, 'learning_rate': 2.5170905694025732e-05, 'epoch': 5.88}
 24%|██▍       | 19233/78504 [11:41:49<50:42:46,  3.08s/it] 25%|██▍       | 19234/78504 [11:41:52<48:14:37,  2.93s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.2884696424007416, 'learning_rate': 2.517048108360579e-05, 'epoch': 5.88}
 25%|██▍       | 19234/78504 [11:41:52<48:14:37,  2.93s/it] 25%|██▍       | 19235/78504 [11:41:54<46:05:11,  2.80s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.34900036454200745, 'learning_rate': 2.5170056473185853e-05, 'epoch': 5.88}
 25%|██▍       | 19235/78504 [11:41:54<46:05:11,  2.80s/it] 25%|██▍       | 19236/78504 [11:41:57<44:16:47,  2.69s/it]                                                           {'loss': 0.0466, 'grad_norm': 0.15725117921829224, 'learning_rate': 2.5169631862765912e-05, 'epoch': 5.88}
 25%|██▍       | 19236/78504 [11:41:57<44:16:47,  2.69s/it] 25%|██▍       | 19237/78504 [11:41:59<42:24:12,  2.58s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.38328707218170166, 'learning_rate': 2.5169207252345974e-05, 'epoch': 5.88}
 25%|██▍       | 19237/78504 [11:41:59<42:24:12,  2.58s/it] 25%|██▍       | 19238/78504 [11:42:01<40:04:01,  2.43s/it]                                                           {'loss': 0.0549, 'grad_norm': 0.1338314712047577, 'learning_rate': 2.5168782641926033e-05, 'epoch': 5.88}
 25%|██▍       | 19238/78504 [11:42:01<40:04:01,  2.43s/it] 25%|██▍       | 19239/78504 [11:42:03<38:06:20,  2.31s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.3749690353870392, 'learning_rate': 2.516835803150609e-05, 'epoch': 5.88}
 25%|██▍       | 19239/78504 [11:42:03<38:06:20,  2.31s/it] 25%|██▍       | 19240/78504 [11:42:05<37:13:58,  2.26s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.4031566381454468, 'learning_rate': 2.5167933421086153e-05, 'epoch': 5.88}
 25%|██▍       | 19240/78504 [11:42:05<37:13:58,  2.26s/it] 25%|██▍       | 19241/78504 [11:42:07<36:05:57,  2.19s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.26185858249664307, 'learning_rate': 2.5167508810666212e-05, 'epoch': 5.88}
 25%|██▍       | 19241/78504 [11:42:07<36:05:57,  2.19s/it] 25%|██▍       | 19242/78504 [11:42:09<35:00:14,  2.13s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.8116191625595093, 'learning_rate': 2.5167084200246274e-05, 'epoch': 5.88}
 25%|██▍       | 19242/78504 [11:42:09<35:00:14,  2.13s/it] 25%|██▍       | 19243/78504 [11:42:11<33:43:13,  2.05s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.4166949689388275, 'learning_rate': 2.5166659589826333e-05, 'epoch': 5.88}
 25%|██▍       | 19243/78504 [11:42:11<33:43:13,  2.05s/it] 25%|██▍       | 19244/78504 [11:42:13<32:39:41,  1.98s/it]                                                           {'loss': 0.0941, 'grad_norm': 0.5345158576965332, 'learning_rate': 2.5166234979406395e-05, 'epoch': 5.88}
 25%|██▍       | 19244/78504 [11:42:13<32:39:41,  1.98s/it] 25%|██▍       | 19245/78504 [11:42:15<31:23:27,  1.91s/it]                                                           {'loss': 0.1249, 'grad_norm': 0.9315260052680969, 'learning_rate': 2.5165810368986454e-05, 'epoch': 5.88}
 25%|██▍       | 19245/78504 [11:42:15<31:23:27,  1.91s/it] 25%|██▍       | 19246/78504 [11:42:16<30:06:51,  1.83s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.6645663976669312, 'learning_rate': 2.5165385758566516e-05, 'epoch': 5.88}
 25%|██▍       | 19246/78504 [11:42:16<30:06:51,  1.83s/it] 25%|██▍       | 19247/78504 [11:42:18<28:38:12,  1.74s/it]                                                           {'loss': 0.153, 'grad_norm': 1.4170652627944946, 'learning_rate': 2.5164961148146575e-05, 'epoch': 5.88}
 25%|██▍       | 19247/78504 [11:42:18<28:38:12,  1.74s/it] 25%|██▍       | 19248/78504 [11:42:19<27:18:56,  1.66s/it]                                                           {'loss': 0.1472, 'grad_norm': 1.309107780456543, 'learning_rate': 2.5164536537726637e-05, 'epoch': 5.88}
 25%|██▍       | 19248/78504 [11:42:19<27:18:56,  1.66s/it] 25%|██▍       | 19249/78504 [11:42:21<26:07:19,  1.59s/it]                                                           {'loss': 0.1578, 'grad_norm': 1.0216130018234253, 'learning_rate': 2.5164111927306695e-05, 'epoch': 5.88}
 25%|██▍       | 19249/78504 [11:42:21<26:07:19,  1.59s/it] 25%|██▍       | 19250/78504 [11:42:22<24:39:57,  1.50s/it]                                                           {'loss': 0.175, 'grad_norm': 0.5785285830497742, 'learning_rate': 2.5163687316886754e-05, 'epoch': 5.89}
 25%|██▍       | 19250/78504 [11:42:22<24:39:57,  1.50s/it] 25%|██▍       | 19251/78504 [11:42:23<22:57:03,  1.39s/it]                                                           {'loss': 0.1863, 'grad_norm': 0.8135616779327393, 'learning_rate': 2.5163262706466816e-05, 'epoch': 5.89}
 25%|██▍       | 19251/78504 [11:42:23<22:57:03,  1.39s/it] 25%|██▍       | 19252/78504 [11:42:24<21:29:53,  1.31s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.9957015514373779, 'learning_rate': 2.5162838096046875e-05, 'epoch': 5.89}
 25%|██▍       | 19252/78504 [11:42:24<21:29:53,  1.31s/it] 25%|██▍       | 19253/78504 [11:42:25<20:14:36,  1.23s/it]                                                           {'loss': 0.2112, 'grad_norm': 0.6178616285324097, 'learning_rate': 2.5162413485626937e-05, 'epoch': 5.89}
 25%|██▍       | 19253/78504 [11:42:25<20:14:36,  1.23s/it] 25%|██▍       | 19254/78504 [11:42:26<18:43:25,  1.14s/it]                                                           {'loss': 0.1716, 'grad_norm': 0.6888741850852966, 'learning_rate': 2.5161988875206996e-05, 'epoch': 5.89}
 25%|██▍       | 19254/78504 [11:42:26<18:43:25,  1.14s/it] 25%|██▍       | 19255/78504 [11:42:27<16:59:44,  1.03s/it]                                                           {'loss': 0.1584, 'grad_norm': 0.8947192430496216, 'learning_rate': 2.5161564264787058e-05, 'epoch': 5.89}
 25%|██▍       | 19255/78504 [11:42:27<16:59:44,  1.03s/it] 25%|██▍       | 19256/78504 [11:42:35<53:03:14,  3.22s/it]                                                           {'loss': 0.1397, 'grad_norm': 0.4479350745677948, 'learning_rate': 2.5161139654367116e-05, 'epoch': 5.89}
 25%|██▍       | 19256/78504 [11:42:35<53:03:14,  3.22s/it] 25%|██▍       | 19257/78504 [11:42:38<51:29:04,  3.13s/it]                                                           {'loss': 0.1047, 'grad_norm': 0.7320625185966492, 'learning_rate': 2.516071504394718e-05, 'epoch': 5.89}
 25%|██▍       | 19257/78504 [11:42:38<51:29:04,  3.13s/it] 25%|██▍       | 19258/78504 [11:42:41<50:27:43,  3.07s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.5740407109260559, 'learning_rate': 2.5160290433527237e-05, 'epoch': 5.89}
 25%|██▍       | 19258/78504 [11:42:41<50:27:43,  3.07s/it] 25%|██▍       | 19259/78504 [11:42:44<48:03:04,  2.92s/it]                                                           {'loss': 0.0405, 'grad_norm': 0.9562541842460632, 'learning_rate': 2.51598658231073e-05, 'epoch': 5.89}
 25%|██▍       | 19259/78504 [11:42:44<48:03:04,  2.92s/it] 25%|██▍       | 19260/78504 [11:42:46<45:56:46,  2.79s/it]                                                           {'loss': 0.0523, 'grad_norm': 0.2609972655773163, 'learning_rate': 2.5159441212687358e-05, 'epoch': 5.89}
 25%|██▍       | 19260/78504 [11:42:46<45:56:46,  2.79s/it] 25%|██▍       | 19261/78504 [11:42:49<44:14:22,  2.69s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.21863892674446106, 'learning_rate': 2.515901660226742e-05, 'epoch': 5.89}
 25%|██▍       | 19261/78504 [11:42:49<44:14:22,  2.69s/it] 25%|██▍       | 19262/78504 [11:42:51<42:25:43,  2.58s/it]                                                           {'loss': 0.0459, 'grad_norm': 0.2180890291929245, 'learning_rate': 2.5158591991847482e-05, 'epoch': 5.89}
 25%|██▍       | 19262/78504 [11:42:51<42:25:43,  2.58s/it] 25%|██▍       | 19263/78504 [11:42:53<41:02:29,  2.49s/it]                                                           {'loss': 0.069, 'grad_norm': 0.3501117527484894, 'learning_rate': 2.515816738142754e-05, 'epoch': 5.89}
 25%|██▍       | 19263/78504 [11:42:53<41:02:29,  2.49s/it] 25%|██▍       | 19264/78504 [11:42:56<39:32:56,  2.40s/it]                                                           {'loss': 0.0563, 'grad_norm': 0.31091558933258057, 'learning_rate': 2.5157742771007603e-05, 'epoch': 5.89}
 25%|██▍       | 19264/78504 [11:42:56<39:32:56,  2.40s/it] 25%|██▍       | 19265/78504 [11:42:58<38:23:32,  2.33s/it]                                                           {'loss': 0.0806, 'grad_norm': 0.2636590898036957, 'learning_rate': 2.515731816058766e-05, 'epoch': 5.89}
 25%|██▍       | 19265/78504 [11:42:58<38:23:32,  2.33s/it] 25%|██▍       | 19266/78504 [11:43:00<36:05:22,  2.19s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.6053327322006226, 'learning_rate': 2.5156893550167724e-05, 'epoch': 5.89}
 25%|██▍       | 19266/78504 [11:43:00<36:05:22,  2.19s/it] 25%|██▍       | 19267/78504 [11:43:02<35:05:24,  2.13s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.18837866187095642, 'learning_rate': 2.5156468939747782e-05, 'epoch': 5.89}
 25%|██▍       | 19267/78504 [11:43:02<35:05:24,  2.13s/it] 25%|██▍       | 19268/78504 [11:43:04<34:02:02,  2.07s/it]                                                           {'loss': 0.1418, 'grad_norm': 0.639278769493103, 'learning_rate': 2.5156044329327844e-05, 'epoch': 5.89}
 25%|██▍       | 19268/78504 [11:43:04<34:02:02,  2.07s/it] 25%|██▍       | 19269/78504 [11:43:05<33:06:08,  2.01s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.6608238816261292, 'learning_rate': 2.5155619718907903e-05, 'epoch': 5.89}
 25%|██▍       | 19269/78504 [11:43:05<33:06:08,  2.01s/it] 25%|██▍       | 19270/78504 [11:43:07<31:53:20,  1.94s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.7016557455062866, 'learning_rate': 2.5155195108487965e-05, 'epoch': 5.89}
 25%|██▍       | 19270/78504 [11:43:07<31:53:20,  1.94s/it] 25%|██▍       | 19271/78504 [11:43:09<30:07:55,  1.83s/it]                                                           {'loss': 0.112, 'grad_norm': 0.5010502338409424, 'learning_rate': 2.5154770498068024e-05, 'epoch': 5.89}
 25%|██▍       | 19271/78504 [11:43:09<30:07:55,  1.83s/it] 25%|██▍       | 19272/78504 [11:43:10<28:40:30,  1.74s/it]                                                           {'loss': 0.1396, 'grad_norm': 0.9330998063087463, 'learning_rate': 2.5154345887648086e-05, 'epoch': 5.89}
 25%|██▍       | 19272/78504 [11:43:10<28:40:30,  1.74s/it] 25%|██▍       | 19273/78504 [11:43:12<27:33:55,  1.68s/it]                                                           {'loss': 0.1768, 'grad_norm': 0.9307645559310913, 'learning_rate': 2.5153921277228145e-05, 'epoch': 5.89}
 25%|██▍       | 19273/78504 [11:43:12<27:33:55,  1.68s/it] 25%|██▍       | 19274/78504 [11:43:13<26:17:41,  1.60s/it]                                                           {'loss': 0.1849, 'grad_norm': 0.9150912761688232, 'learning_rate': 2.5153496666808207e-05, 'epoch': 5.89}
 25%|██▍       | 19274/78504 [11:43:13<26:17:41,  1.60s/it] 25%|██▍       | 19275/78504 [11:43:14<24:47:14,  1.51s/it]                                                           {'loss': 0.1441, 'grad_norm': 0.47753071784973145, 'learning_rate': 2.5153072056388266e-05, 'epoch': 5.89}
 25%|██▍       | 19275/78504 [11:43:15<24:47:14,  1.51s/it] 25%|██▍       | 19276/78504 [11:43:16<22:58:47,  1.40s/it]                                                           {'loss': 0.1585, 'grad_norm': 0.665471076965332, 'learning_rate': 2.5152647445968324e-05, 'epoch': 5.89}
 25%|██▍       | 19276/78504 [11:43:16<22:58:47,  1.40s/it] 25%|██▍       | 19277/78504 [11:43:17<21:29:35,  1.31s/it]                                                           {'loss': 0.168, 'grad_norm': 1.7375291585922241, 'learning_rate': 2.5152222835548386e-05, 'epoch': 5.89}
 25%|██▍       | 19277/78504 [11:43:17<21:29:35,  1.31s/it] 25%|██▍       | 19278/78504 [11:43:18<20:18:53,  1.23s/it]                                                           {'loss': 0.1822, 'grad_norm': 0.7155013084411621, 'learning_rate': 2.5151798225128445e-05, 'epoch': 5.89}
 25%|██▍       | 19278/78504 [11:43:18<20:18:53,  1.23s/it] 25%|██▍       | 19279/78504 [11:43:19<18:48:09,  1.14s/it]                                                           {'loss': 0.2206, 'grad_norm': 0.9998350143432617, 'learning_rate': 2.5151373614708507e-05, 'epoch': 5.89}
 25%|██▍       | 19279/78504 [11:43:19<18:48:09,  1.14s/it] 25%|██▍       | 19280/78504 [11:43:20<17:01:25,  1.03s/it]                                                           {'loss': 0.1915, 'grad_norm': 0.8713080883026123, 'learning_rate': 2.5150949004288566e-05, 'epoch': 5.89}
 25%|██▍       | 19280/78504 [11:43:20<17:01:25,  1.03s/it] 25%|██▍       | 19281/78504 [11:43:28<54:30:44,  3.31s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.402566134929657, 'learning_rate': 2.5150524393868628e-05, 'epoch': 5.89}
 25%|██▍       | 19281/78504 [11:43:28<54:30:44,  3.31s/it] 25%|██▍       | 19282/78504 [11:43:31<54:42:03,  3.33s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.22498957812786102, 'learning_rate': 2.5150099783448687e-05, 'epoch': 5.89}
 25%|██▍       | 19282/78504 [11:43:32<54:42:03,  3.33s/it] 25%|██▍       | 19283/78504 [11:43:35<53:08:43,  3.23s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.3202205300331116, 'learning_rate': 2.514967517302875e-05, 'epoch': 5.9}
 25%|██▍       | 19283/78504 [11:43:35<53:08:43,  3.23s/it] 25%|██▍       | 19284/78504 [11:43:37<49:57:26,  3.04s/it]                                                           {'loss': 0.0406, 'grad_norm': 0.6852295398712158, 'learning_rate': 2.5149250562608807e-05, 'epoch': 5.9}
 25%|██▍       | 19284/78504 [11:43:37<49:57:26,  3.04s/it] 25%|██▍       | 19285/78504 [11:43:40<47:13:40,  2.87s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.19600075483322144, 'learning_rate': 2.514882595218887e-05, 'epoch': 5.9}
 25%|██▍       | 19285/78504 [11:43:40<47:13:40,  2.87s/it] 25%|██▍       | 19286/78504 [11:43:42<44:40:42,  2.72s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.449668824672699, 'learning_rate': 2.5148401341768928e-05, 'epoch': 5.9}
 25%|██▍       | 19286/78504 [11:43:42<44:40:42,  2.72s/it] 25%|██▍       | 19287/78504 [11:43:44<42:45:05,  2.60s/it]                                                           {'loss': 0.0419, 'grad_norm': 0.65451580286026, 'learning_rate': 2.514797673134899e-05, 'epoch': 5.9}
 25%|██▍       | 19287/78504 [11:43:44<42:45:05,  2.60s/it] 25%|██▍       | 19288/78504 [11:43:46<40:13:19,  2.45s/it]                                                           {'loss': 0.0547, 'grad_norm': 0.19185805320739746, 'learning_rate': 2.514755212092905e-05, 'epoch': 5.9}
 25%|██▍       | 19288/78504 [11:43:46<40:13:19,  2.45s/it] 25%|██▍       | 19289/78504 [11:43:48<38:07:41,  2.32s/it]                                                           {'loss': 0.0853, 'grad_norm': 0.7627127170562744, 'learning_rate': 2.5147127510509108e-05, 'epoch': 5.9}
 25%|██▍       | 19289/78504 [11:43:48<38:07:41,  2.32s/it] 25%|██▍       | 19290/78504 [11:43:51<37:14:29,  2.26s/it]                                                           {'loss': 0.07, 'grad_norm': 0.4129268527030945, 'learning_rate': 2.514670290008917e-05, 'epoch': 5.9}
 25%|██▍       | 19290/78504 [11:43:51<37:14:29,  2.26s/it] 25%|██▍       | 19291/78504 [11:43:53<36:03:52,  2.19s/it]                                                           {'loss': 0.0863, 'grad_norm': 0.3280611038208008, 'learning_rate': 2.514627828966923e-05, 'epoch': 5.9}
 25%|██▍       | 19291/78504 [11:43:53<36:03:52,  2.19s/it] 25%|██▍       | 19292/78504 [11:43:55<34:59:40,  2.13s/it]                                                           {'loss': 0.0985, 'grad_norm': 0.3465743362903595, 'learning_rate': 2.514585367924929e-05, 'epoch': 5.9}
 25%|██▍       | 19292/78504 [11:43:55<34:59:40,  2.13s/it] 25%|██▍       | 19293/78504 [11:43:56<33:49:36,  2.06s/it]                                                           {'loss': 0.1193, 'grad_norm': 0.501606822013855, 'learning_rate': 2.514542906882935e-05, 'epoch': 5.9}
 25%|██▍       | 19293/78504 [11:43:56<33:49:36,  2.06s/it] 25%|██▍       | 19294/78504 [11:43:58<32:54:43,  2.00s/it]                                                           {'loss': 0.151, 'grad_norm': 0.9035157561302185, 'learning_rate': 2.514500445840941e-05, 'epoch': 5.9}
 25%|██▍       | 19294/78504 [11:43:58<32:54:43,  2.00s/it] 25%|██▍       | 19295/78504 [11:44:00<31:43:10,  1.93s/it]                                                           {'loss': 0.117, 'grad_norm': 0.9730497002601624, 'learning_rate': 2.514457984798947e-05, 'epoch': 5.9}
 25%|██▍       | 19295/78504 [11:44:00<31:43:10,  1.93s/it] 25%|██▍       | 19296/78504 [11:44:02<30:21:58,  1.85s/it]                                                           {'loss': 0.1206, 'grad_norm': 0.6614850163459778, 'learning_rate': 2.5144155237569532e-05, 'epoch': 5.9}
 25%|██▍       | 19296/78504 [11:44:02<30:21:58,  1.85s/it] 25%|██▍       | 19297/78504 [11:44:03<28:53:35,  1.76s/it]                                                           {'loss': 0.152, 'grad_norm': 0.8110998868942261, 'learning_rate': 2.514373062714959e-05, 'epoch': 5.9}
 25%|██▍       | 19297/78504 [11:44:03<28:53:35,  1.76s/it] 25%|██▍       | 19298/78504 [11:44:05<27:39:05,  1.68s/it]                                                           {'loss': 0.1565, 'grad_norm': 0.7681334018707275, 'learning_rate': 2.5143306016729653e-05, 'epoch': 5.9}
 25%|██▍       | 19298/78504 [11:44:05<27:39:05,  1.68s/it] 25%|██▍       | 19299/78504 [11:44:06<26:12:48,  1.59s/it]                                                           {'loss': 0.1915, 'grad_norm': 0.7729600071907043, 'learning_rate': 2.514288140630971e-05, 'epoch': 5.9}
 25%|██▍       | 19299/78504 [11:44:06<26:12:48,  1.59s/it] 25%|██▍       | 19300/78504 [11:44:07<24:42:55,  1.50s/it]                                                           {'loss': 0.1933, 'grad_norm': 0.9222761392593384, 'learning_rate': 2.5142456795889774e-05, 'epoch': 5.9}
 25%|██▍       | 19300/78504 [11:44:07<24:42:55,  1.50s/it] 25%|██▍       | 19301/78504 [11:44:09<22:58:18,  1.40s/it]                                                           {'loss': 0.1736, 'grad_norm': 0.7130700945854187, 'learning_rate': 2.5142032185469832e-05, 'epoch': 5.9}
 25%|██▍       | 19301/78504 [11:44:09<22:58:18,  1.40s/it] 25%|██▍       | 19302/78504 [11:44:10<21:29:19,  1.31s/it]                                                           {'loss': 0.1882, 'grad_norm': 1.4368807077407837, 'learning_rate': 2.514160757504989e-05, 'epoch': 5.9}
 25%|██▍       | 19302/78504 [11:44:10<21:29:19,  1.31s/it] 25%|██▍       | 19303/78504 [11:44:11<19:53:42,  1.21s/it]                                                           {'loss': 0.1756, 'grad_norm': 1.806085467338562, 'learning_rate': 2.5141182964629953e-05, 'epoch': 5.9}
 25%|██▍       | 19303/78504 [11:44:11<19:53:42,  1.21s/it] 25%|██▍       | 19304/78504 [11:44:12<18:31:11,  1.13s/it]                                                           {'loss': 0.1924, 'grad_norm': 0.947275698184967, 'learning_rate': 2.5140758354210012e-05, 'epoch': 5.9}
 25%|██▍       | 19304/78504 [11:44:12<18:31:11,  1.13s/it] 25%|██▍       | 19305/78504 [11:44:12<16:51:21,  1.03s/it]                                                           {'loss': 0.2524, 'grad_norm': 1.2720612287521362, 'learning_rate': 2.5140333743790074e-05, 'epoch': 5.9}
 25%|██▍       | 19305/78504 [11:44:12<16:51:21,  1.03s/it] 25%|██▍       | 19306/78504 [11:44:21<56:08:45,  3.41s/it]                                                           {'loss': 0.1412, 'grad_norm': 0.627963125705719, 'learning_rate': 2.5139909133370133e-05, 'epoch': 5.9}
 25%|██▍       | 19306/78504 [11:44:21<56:08:45,  3.41s/it] 25%|██▍       | 19307/78504 [11:44:25<55:49:01,  3.39s/it]                                                           {'loss': 0.104, 'grad_norm': 0.2680966854095459, 'learning_rate': 2.5139484522950195e-05, 'epoch': 5.9}
 25%|██▍       | 19307/78504 [11:44:25<55:49:01,  3.39s/it] 25%|██▍       | 19308/78504 [11:44:28<53:26:54,  3.25s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.2798987030982971, 'learning_rate': 2.5139059912530253e-05, 'epoch': 5.9}
 25%|██▍       | 19308/78504 [11:44:28<53:26:54,  3.25s/it] 25%|██▍       | 19309/78504 [11:44:30<50:07:35,  3.05s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.18553538620471954, 'learning_rate': 2.5138635302110316e-05, 'epoch': 5.9}
 25%|██▍       | 19309/78504 [11:44:30<50:07:35,  3.05s/it] 25%|██▍       | 19310/78504 [11:44:33<47:14:56,  2.87s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.37357980012893677, 'learning_rate': 2.5138210691690374e-05, 'epoch': 5.9}
 25%|██▍       | 19310/78504 [11:44:33<47:14:56,  2.87s/it] 25%|██▍       | 19311/78504 [11:44:35<45:01:47,  2.74s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.39201727509498596, 'learning_rate': 2.5137786081270436e-05, 'epoch': 5.9}
 25%|██▍       | 19311/78504 [11:44:35<45:01:47,  2.74s/it] 25%|██▍       | 19312/78504 [11:44:37<42:55:47,  2.61s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.24874450266361237, 'learning_rate': 2.5137361470850495e-05, 'epoch': 5.9}
 25%|██▍       | 19312/78504 [11:44:37<42:55:47,  2.61s/it] 25%|██▍       | 19313/78504 [11:44:40<41:25:14,  2.52s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.24979637563228607, 'learning_rate': 2.5136936860430557e-05, 'epoch': 5.9}
 25%|██▍       | 19313/78504 [11:44:40<41:25:14,  2.52s/it] 25%|██▍       | 19314/78504 [11:44:42<39:49:23,  2.42s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.3114820122718811, 'learning_rate': 2.5136512250010616e-05, 'epoch': 5.9}
 25%|██▍       | 19314/78504 [11:44:42<39:49:23,  2.42s/it] 25%|██▍       | 19315/78504 [11:44:44<39:37:25,  2.41s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.31115126609802246, 'learning_rate': 2.5136087639590675e-05, 'epoch': 5.9}
 25%|██▍       | 19315/78504 [11:44:44<39:37:25,  2.41s/it] 25%|██▍       | 19316/78504 [11:44:46<36:57:50,  2.25s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.28700152039527893, 'learning_rate': 2.5135663029170737e-05, 'epoch': 5.91}
 25%|██▍       | 19316/78504 [11:44:46<36:57:50,  2.25s/it] 25%|██▍       | 19317/78504 [11:44:48<35:40:11,  2.17s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.3071611225605011, 'learning_rate': 2.5135238418750795e-05, 'epoch': 5.91}
 25%|██▍       | 19317/78504 [11:44:48<35:40:11,  2.17s/it] 25%|██▍       | 19318/78504 [11:44:50<34:24:00,  2.09s/it]                                                           {'loss': 0.0806, 'grad_norm': 0.3638869822025299, 'learning_rate': 2.5134813808330857e-05, 'epoch': 5.91}
 25%|██▍       | 19318/78504 [11:44:50<34:24:00,  2.09s/it] 25%|██▍       | 19319/78504 [11:44:52<33:22:43,  2.03s/it]                                                           {'loss': 0.1115, 'grad_norm': 0.907365620136261, 'learning_rate': 2.5134389197910916e-05, 'epoch': 5.91}
 25%|██▍       | 19319/78504 [11:44:52<33:22:43,  2.03s/it] 25%|██▍       | 19320/78504 [11:44:54<32:02:03,  1.95s/it]                                                           {'loss': 0.1345, 'grad_norm': 0.5328813791275024, 'learning_rate': 2.5133964587490978e-05, 'epoch': 5.91}
 25%|██▍       | 19320/78504 [11:44:54<32:02:03,  1.95s/it] 25%|██▍       | 19321/78504 [11:44:55<30:09:57,  1.83s/it]                                                           {'loss': 0.1443, 'grad_norm': 0.5128492116928101, 'learning_rate': 2.5133539977071037e-05, 'epoch': 5.91}
 25%|██▍       | 19321/78504 [11:44:55<30:09:57,  1.83s/it] 25%|██▍       | 19322/78504 [11:44:57<28:44:21,  1.75s/it]                                                           {'loss': 0.1638, 'grad_norm': 0.4374108612537384, 'learning_rate': 2.51331153666511e-05, 'epoch': 5.91}
 25%|██▍       | 19322/78504 [11:44:57<28:44:21,  1.75s/it] 25%|██▍       | 19323/78504 [11:44:58<27:20:06,  1.66s/it]                                                           {'loss': 0.1754, 'grad_norm': 0.871762752532959, 'learning_rate': 2.5132690756231158e-05, 'epoch': 5.91}
 25%|██▍       | 19323/78504 [11:44:58<27:20:06,  1.66s/it] 25%|██▍       | 19324/78504 [11:45:00<26:00:13,  1.58s/it]                                                           {'loss': 0.1724, 'grad_norm': 0.7301279306411743, 'learning_rate': 2.513226614581122e-05, 'epoch': 5.91}
 25%|██▍       | 19324/78504 [11:45:00<26:00:13,  1.58s/it] 25%|██▍       | 19325/78504 [11:45:01<24:30:26,  1.49s/it]                                                           {'loss': 0.1634, 'grad_norm': 0.5457285642623901, 'learning_rate': 2.513184153539128e-05, 'epoch': 5.91}
 25%|██▍       | 19325/78504 [11:45:01<24:30:26,  1.49s/it] 25%|██▍       | 19326/78504 [11:45:02<22:50:36,  1.39s/it]                                                           {'loss': 0.1614, 'grad_norm': 0.7590218782424927, 'learning_rate': 2.513141692497134e-05, 'epoch': 5.91}
 25%|██▍       | 19326/78504 [11:45:02<22:50:36,  1.39s/it] 25%|██▍       | 19327/78504 [11:45:03<21:22:26,  1.30s/it]                                                           {'loss': 0.1692, 'grad_norm': 0.61636883020401, 'learning_rate': 2.51309923145514e-05, 'epoch': 5.91}
 25%|██▍       | 19327/78504 [11:45:03<21:22:26,  1.30s/it] 25%|██▍       | 19328/78504 [11:45:04<19:52:44,  1.21s/it]                                                           {'loss': 0.2008, 'grad_norm': 3.4559507369995117, 'learning_rate': 2.5130567704131458e-05, 'epoch': 5.91}
 25%|██▍       | 19328/78504 [11:45:04<19:52:44,  1.21s/it] 25%|██▍       | 19329/78504 [11:45:05<18:27:24,  1.12s/it]                                                           {'loss': 0.1896, 'grad_norm': 0.9150338172912598, 'learning_rate': 2.513014309371152e-05, 'epoch': 5.91}
 25%|██▍       | 19329/78504 [11:45:05<18:27:24,  1.12s/it] 25%|██▍       | 19330/78504 [11:45:06<16:45:07,  1.02s/it]                                                           {'loss': 0.2297, 'grad_norm': 2.7075281143188477, 'learning_rate': 2.512971848329158e-05, 'epoch': 5.91}
 25%|██▍       | 19330/78504 [11:45:06<16:45:07,  1.02s/it] 25%|██▍       | 19331/78504 [11:45:14<52:22:31,  3.19s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.36220529675483704, 'learning_rate': 2.512929387287164e-05, 'epoch': 5.91}
 25%|██▍       | 19331/78504 [11:45:14<52:22:31,  3.19s/it] 25%|██▍       | 19332/78504 [11:45:17<52:00:12,  3.16s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.2881115972995758, 'learning_rate': 2.51288692624517e-05, 'epoch': 5.91}
 25%|██▍       | 19332/78504 [11:45:17<52:00:12,  3.16s/it] 25%|██▍       | 19333/78504 [11:45:20<51:17:04,  3.12s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.25197121500968933, 'learning_rate': 2.512844465203176e-05, 'epoch': 5.91}
 25%|██▍       | 19333/78504 [11:45:20<51:17:04,  3.12s/it] 25%|██▍       | 19334/78504 [11:45:23<48:46:21,  2.97s/it]                                                           {'loss': 0.0576, 'grad_norm': 0.2380155324935913, 'learning_rate': 2.512802004161182e-05, 'epoch': 5.91}
 25%|██▍       | 19334/78504 [11:45:23<48:46:21,  2.97s/it] 25%|██▍       | 19335/78504 [11:45:25<46:18:54,  2.82s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.3455945551395416, 'learning_rate': 2.5127595431191882e-05, 'epoch': 5.91}
 25%|██▍       | 19335/78504 [11:45:25<46:18:54,  2.82s/it] 25%|██▍       | 19336/78504 [11:45:28<43:33:30,  2.65s/it]                                                           {'loss': 0.039, 'grad_norm': 0.3227989971637726, 'learning_rate': 2.512717082077194e-05, 'epoch': 5.91}
 25%|██▍       | 19336/78504 [11:45:28<43:33:30,  2.65s/it] 25%|██▍       | 19337/78504 [11:45:30<41:54:42,  2.55s/it]                                                           {'loss': 0.062, 'grad_norm': 0.195307195186615, 'learning_rate': 2.5126746210352003e-05, 'epoch': 5.91}
 25%|██▍       | 19337/78504 [11:45:30<41:54:42,  2.55s/it] 25%|██▍       | 19338/78504 [11:45:32<40:28:22,  2.46s/it]                                                           {'loss': 0.076, 'grad_norm': 0.3111739456653595, 'learning_rate': 2.5126321599932062e-05, 'epoch': 5.91}
 25%|██▍       | 19338/78504 [11:45:32<40:28:22,  2.46s/it] 25%|██▍       | 19339/78504 [11:45:34<39:09:53,  2.38s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.28251972794532776, 'learning_rate': 2.5125896989512124e-05, 'epoch': 5.91}
 25%|██▍       | 19339/78504 [11:45:34<39:09:53,  2.38s/it] 25%|██▍       | 19340/78504 [11:45:37<38:04:16,  2.32s/it]                                                           {'loss': 0.0727, 'grad_norm': 1.0548479557037354, 'learning_rate': 2.5125472379092183e-05, 'epoch': 5.91}
 25%|██▍       | 19340/78504 [11:45:37<38:04:16,  2.32s/it] 25%|██▍       | 19341/78504 [11:45:38<35:46:58,  2.18s/it]                                                           {'loss': 0.0734, 'grad_norm': 2.009272336959839, 'learning_rate': 2.512504776867224e-05, 'epoch': 5.91}
 25%|██▍       | 19341/78504 [11:45:38<35:46:58,  2.18s/it] 25%|██▍       | 19342/78504 [11:45:40<34:50:03,  2.12s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.3186144530773163, 'learning_rate': 2.5124623158252303e-05, 'epoch': 5.91}
 25%|██▍       | 19342/78504 [11:45:40<34:50:03,  2.12s/it] 25%|██▍       | 19343/78504 [11:45:42<33:52:37,  2.06s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.21302063763141632, 'learning_rate': 2.5124198547832362e-05, 'epoch': 5.91}
 25%|██▍       | 19343/78504 [11:45:42<33:52:37,  2.06s/it] 25%|██▍       | 19344/78504 [11:45:44<32:57:45,  2.01s/it]                                                           {'loss': 0.1051, 'grad_norm': 0.43608367443084717, 'learning_rate': 2.5123773937412424e-05, 'epoch': 5.91}
 25%|██▍       | 19344/78504 [11:45:44<32:57:45,  2.01s/it] 25%|██▍       | 19345/78504 [11:45:46<31:46:28,  1.93s/it]                                                           {'loss': 0.1275, 'grad_norm': 0.7218865752220154, 'learning_rate': 2.5123349326992483e-05, 'epoch': 5.91}
 25%|██▍       | 19345/78504 [11:45:46<31:46:28,  1.93s/it] 25%|██▍       | 19346/78504 [11:45:48<30:02:50,  1.83s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.7283331751823425, 'learning_rate': 2.5122924716572545e-05, 'epoch': 5.91}
 25%|██▍       | 19346/78504 [11:45:48<30:02:50,  1.83s/it] 25%|██▍       | 19347/78504 [11:45:49<28:36:38,  1.74s/it]                                                           {'loss': 0.1188, 'grad_norm': 0.6846649050712585, 'learning_rate': 2.5122500106152604e-05, 'epoch': 5.91}
 25%|██▍       | 19347/78504 [11:45:49<28:36:38,  1.74s/it] 25%|██▍       | 19348/78504 [11:45:51<27:15:28,  1.66s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.7272336483001709, 'learning_rate': 2.5122075495732666e-05, 'epoch': 5.92}
 25%|██▍       | 19348/78504 [11:45:51<27:15:28,  1.66s/it] 25%|██▍       | 19349/78504 [11:45:52<25:59:19,  1.58s/it]                                                           {'loss': 0.1548, 'grad_norm': 1.6203926801681519, 'learning_rate': 2.5121650885312725e-05, 'epoch': 5.92}
 25%|██▍       | 19349/78504 [11:45:52<25:59:19,  1.58s/it] 25%|██▍       | 19350/78504 [11:45:53<24:30:46,  1.49s/it]                                                           {'loss': 0.1934, 'grad_norm': 0.6680417060852051, 'learning_rate': 2.5121226274892787e-05, 'epoch': 5.92}
 25%|██▍       | 19350/78504 [11:45:53<24:30:46,  1.49s/it] 25%|██▍       | 19351/78504 [11:45:54<22:49:37,  1.39s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.7587728500366211, 'learning_rate': 2.5120801664472845e-05, 'epoch': 5.92}
 25%|██▍       | 19351/78504 [11:45:54<22:49:37,  1.39s/it] 25%|██▍       | 19352/78504 [11:45:55<21:19:45,  1.30s/it]                                                           {'loss': 0.1815, 'grad_norm': 1.5187528133392334, 'learning_rate': 2.5120377054052907e-05, 'epoch': 5.92}
 25%|██▍       | 19352/78504 [11:45:55<21:19:45,  1.30s/it] 25%|██▍       | 19353/78504 [11:45:56<20:08:17,  1.23s/it]                                                           {'loss': 0.2122, 'grad_norm': 0.7287006378173828, 'learning_rate': 2.5119952443632966e-05, 'epoch': 5.92}
 25%|██▍       | 19353/78504 [11:45:57<20:08:17,  1.23s/it] 25%|██▍       | 19354/78504 [11:45:57<18:41:19,  1.14s/it]                                                           {'loss': 0.2347, 'grad_norm': 1.0378364324569702, 'learning_rate': 2.5119527833213025e-05, 'epoch': 5.92}
 25%|██▍       | 19354/78504 [11:45:57<18:41:19,  1.14s/it] 25%|██▍       | 19355/78504 [11:45:58<17:02:03,  1.04s/it]                                                           {'loss': 0.2351, 'grad_norm': 1.0599008798599243, 'learning_rate': 2.5119103222793087e-05, 'epoch': 5.92}
 25%|██▍       | 19355/78504 [11:45:58<17:02:03,  1.04s/it] 25%|██▍       | 19356/78504 [11:46:07<53:58:26,  3.29s/it]                                                           {'loss': 0.1611, 'grad_norm': 0.45212435722351074, 'learning_rate': 2.5118678612373146e-05, 'epoch': 5.92}
 25%|██▍       | 19356/78504 [11:46:07<53:58:26,  3.29s/it] 25%|██▍       | 19357/78504 [11:46:10<54:18:59,  3.31s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.30199187994003296, 'learning_rate': 2.5118254001953208e-05, 'epoch': 5.92}
 25%|██▍       | 19357/78504 [11:46:10<54:18:59,  3.31s/it] 25%|██▍       | 19358/78504 [11:46:13<52:23:40,  3.19s/it]                                                           {'loss': 0.0429, 'grad_norm': 0.28145214915275574, 'learning_rate': 2.5117829391533266e-05, 'epoch': 5.92}
 25%|██▍       | 19358/78504 [11:46:13<52:23:40,  3.19s/it] 25%|██▍       | 19359/78504 [11:46:16<49:27:12,  3.01s/it]                                                           {'loss': 0.0832, 'grad_norm': 0.6468340754508972, 'learning_rate': 2.511740478111333e-05, 'epoch': 5.92}
 25%|██▍       | 19359/78504 [11:46:16<49:27:12,  3.01s/it] 25%|██▍       | 19360/78504 [11:46:18<46:52:26,  2.85s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.3356952369213104, 'learning_rate': 2.5116980170693387e-05, 'epoch': 5.92}
 25%|██▍       | 19360/78504 [11:46:18<46:52:26,  2.85s/it] 25%|██▍       | 19361/78504 [11:46:21<44:54:31,  2.73s/it]                                                           {'loss': 0.0396, 'grad_norm': 0.11755373328924179, 'learning_rate': 2.511655556027345e-05, 'epoch': 5.92}
 25%|██▍       | 19361/78504 [11:46:21<44:54:31,  2.73s/it] 25%|██▍       | 19362/78504 [11:46:23<43:00:43,  2.62s/it]                                                           {'loss': 0.0458, 'grad_norm': 0.33308470249176025, 'learning_rate': 2.5116130949853508e-05, 'epoch': 5.92}
 25%|██▍       | 19362/78504 [11:46:23<43:00:43,  2.62s/it] 25%|██▍       | 19363/78504 [11:46:25<41:26:38,  2.52s/it]                                                           {'loss': 0.1077, 'grad_norm': 0.36584314703941345, 'learning_rate': 2.511570633943357e-05, 'epoch': 5.92}
 25%|██▍       | 19363/78504 [11:46:25<41:26:38,  2.52s/it] 25%|██▍       | 19364/78504 [11:46:27<39:48:24,  2.42s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.33288946747779846, 'learning_rate': 2.5115281729013632e-05, 'epoch': 5.92}
 25%|██▍       | 19364/78504 [11:46:27<39:48:24,  2.42s/it] 25%|██▍       | 19365/78504 [11:46:30<38:24:22,  2.34s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.4057868421077728, 'learning_rate': 2.511485711859369e-05, 'epoch': 5.92}
 25%|██▍       | 19365/78504 [11:46:30<38:24:22,  2.34s/it] 25%|██▍       | 19366/78504 [11:46:31<36:07:41,  2.20s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.23282670974731445, 'learning_rate': 2.5114432508173753e-05, 'epoch': 5.92}
 25%|██▍       | 19366/78504 [11:46:31<36:07:41,  2.20s/it] 25%|██▍       | 19367/78504 [11:46:33<35:02:23,  2.13s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.5698826909065247, 'learning_rate': 2.511400789775381e-05, 'epoch': 5.92}
 25%|██▍       | 19367/78504 [11:46:33<35:02:23,  2.13s/it] 25%|██▍       | 19368/78504 [11:46:35<33:58:37,  2.07s/it]                                                           {'loss': 0.0791, 'grad_norm': 0.3565516471862793, 'learning_rate': 2.5113583287333874e-05, 'epoch': 5.92}
 25%|██▍       | 19368/78504 [11:46:35<33:58:37,  2.07s/it] 25%|██▍       | 19369/78504 [11:46:37<32:58:05,  2.01s/it]                                                           {'loss': 0.0858, 'grad_norm': 0.2896840572357178, 'learning_rate': 2.5113158676913932e-05, 'epoch': 5.92}
 25%|██▍       | 19369/78504 [11:46:37<32:58:05,  2.01s/it] 25%|██▍       | 19370/78504 [11:46:39<31:45:33,  1.93s/it]                                                           {'loss': 0.1123, 'grad_norm': 0.3069559633731842, 'learning_rate': 2.5112734066493995e-05, 'epoch': 5.92}
 25%|██▍       | 19370/78504 [11:46:39<31:45:33,  1.93s/it] 25%|██▍       | 19371/78504 [11:46:41<29:59:48,  1.83s/it]                                                           {'loss': 0.1237, 'grad_norm': 0.34320345520973206, 'learning_rate': 2.5112309456074053e-05, 'epoch': 5.92}
 25%|██▍       | 19371/78504 [11:46:41<29:59:48,  1.83s/it] 25%|██▍       | 19372/78504 [11:46:42<28:26:21,  1.73s/it]                                                           {'loss': 0.1717, 'grad_norm': 0.5666184425354004, 'learning_rate': 2.5111884845654115e-05, 'epoch': 5.92}
 25%|██▍       | 19372/78504 [11:46:42<28:26:21,  1.73s/it] 25%|██▍       | 19373/78504 [11:46:44<27:20:24,  1.66s/it]                                                           {'loss': 0.1451, 'grad_norm': 1.459834098815918, 'learning_rate': 2.5111460235234174e-05, 'epoch': 5.92}
 25%|██▍       | 19373/78504 [11:46:44<27:20:24,  1.66s/it] 25%|██▍       | 19374/78504 [11:46:45<25:57:10,  1.58s/it]                                                           {'loss': 0.1451, 'grad_norm': 0.8346847891807556, 'learning_rate': 2.5111035624814236e-05, 'epoch': 5.92}
 25%|██▍       | 19374/78504 [11:46:45<25:57:10,  1.58s/it] 25%|██▍       | 19375/78504 [11:46:46<24:29:57,  1.49s/it]                                                           {'loss': 0.1883, 'grad_norm': 0.5670163631439209, 'learning_rate': 2.5110611014394295e-05, 'epoch': 5.92}
 25%|██▍       | 19375/78504 [11:46:46<24:29:57,  1.49s/it] 25%|██▍       | 19376/78504 [11:46:47<22:49:47,  1.39s/it]                                                           {'loss': 0.1732, 'grad_norm': 0.9293971061706543, 'learning_rate': 2.5110186403974357e-05, 'epoch': 5.92}
 25%|██▍       | 19376/78504 [11:46:47<22:49:47,  1.39s/it] 25%|██▍       | 19377/78504 [11:46:48<21:25:41,  1.30s/it]                                                           {'loss': 0.178, 'grad_norm': 1.2193454504013062, 'learning_rate': 2.5109761793554416e-05, 'epoch': 5.92}
 25%|██▍       | 19377/78504 [11:46:48<21:25:41,  1.30s/it] 25%|██▍       | 19378/78504 [11:46:49<19:53:14,  1.21s/it]                                                           {'loss': 0.1734, 'grad_norm': 1.7837120294570923, 'learning_rate': 2.5109337183134474e-05, 'epoch': 5.92}
 25%|██▍       | 19378/78504 [11:46:49<19:53:14,  1.21s/it] 25%|██▍       | 19379/78504 [11:46:50<18:29:47,  1.13s/it]                                                           {'loss': 0.1673, 'grad_norm': 1.0031510591506958, 'learning_rate': 2.5108912572714536e-05, 'epoch': 5.92}
 25%|██▍       | 19379/78504 [11:46:50<18:29:47,  1.13s/it] 25%|██▍       | 19380/78504 [11:46:51<16:53:46,  1.03s/it]                                                           {'loss': 0.2535, 'grad_norm': 1.4230597019195557, 'learning_rate': 2.5108487962294595e-05, 'epoch': 5.92}
 25%|██▍       | 19380/78504 [11:46:51<16:53:46,  1.03s/it] 25%|██▍       | 19381/78504 [11:47:01<61:36:28,  3.75s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.3675248920917511, 'learning_rate': 2.5108063351874657e-05, 'epoch': 5.93}
 25%|██▍       | 19381/78504 [11:47:01<61:36:28,  3.75s/it] 25%|██▍       | 19382/78504 [11:47:05<59:10:25,  3.60s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.19947801530361176, 'learning_rate': 2.5107638741454716e-05, 'epoch': 5.93}
 25%|██▍       | 19382/78504 [11:47:05<59:10:25,  3.60s/it] 25%|██▍       | 19383/78504 [11:47:08<56:03:28,  3.41s/it]                                                           {'loss': 0.0859, 'grad_norm': 0.19140473008155823, 'learning_rate': 2.5107214131034778e-05, 'epoch': 5.93}
 25%|██▍       | 19383/78504 [11:47:08<56:03:28,  3.41s/it] 25%|██▍       | 19384/78504 [11:47:10<51:59:55,  3.17s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.22323618829250336, 'learning_rate': 2.5106789520614837e-05, 'epoch': 5.93}
 25%|██▍       | 19384/78504 [11:47:10<51:59:55,  3.17s/it] 25%|██▍       | 19385/78504 [11:47:12<47:59:08,  2.92s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.21633540093898773, 'learning_rate': 2.51063649101949e-05, 'epoch': 5.93}
 25%|██▍       | 19385/78504 [11:47:12<47:59:08,  2.92s/it] 25%|██▍       | 19386/78504 [11:47:15<44:43:14,  2.72s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.27341073751449585, 'learning_rate': 2.5105940299774957e-05, 'epoch': 5.93}
 25%|██▍       | 19386/78504 [11:47:15<44:43:14,  2.72s/it] 25%|██▍       | 19387/78504 [11:47:17<42:44:14,  2.60s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.1573062688112259, 'learning_rate': 2.510551568935502e-05, 'epoch': 5.93}
 25%|██▍       | 19387/78504 [11:47:17<42:44:14,  2.60s/it] 25%|██▍       | 19388/78504 [11:47:19<40:10:36,  2.45s/it]                                                           {'loss': 0.0473, 'grad_norm': 0.5726405382156372, 'learning_rate': 2.5105091078935078e-05, 'epoch': 5.93}
 25%|██▍       | 19388/78504 [11:47:19<40:10:36,  2.45s/it] 25%|██▍       | 19389/78504 [11:47:21<38:07:03,  2.32s/it]                                                           {'loss': 0.0725, 'grad_norm': 0.32459163665771484, 'learning_rate': 2.510466646851514e-05, 'epoch': 5.93}
 25%|██▍       | 19389/78504 [11:47:21<38:07:03,  2.32s/it] 25%|██▍       | 19390/78504 [11:47:23<37:09:29,  2.26s/it]                                                           {'loss': 0.0595, 'grad_norm': 1.3135948181152344, 'learning_rate': 2.51042418580952e-05, 'epoch': 5.93}
 25%|██▍       | 19390/78504 [11:47:23<37:09:29,  2.26s/it] 25%|██▍       | 19391/78504 [11:47:25<35:59:53,  2.19s/it]                                                           {'loss': 0.0792, 'grad_norm': 0.5969603657722473, 'learning_rate': 2.5103817247675258e-05, 'epoch': 5.93}
 25%|██▍       | 19391/78504 [11:47:25<35:59:53,  2.19s/it] 25%|██▍       | 19392/78504 [11:47:27<34:58:12,  2.13s/it]                                                           {'loss': 0.0617, 'grad_norm': 1.018286108970642, 'learning_rate': 2.510339263725532e-05, 'epoch': 5.93}
 25%|██▍       | 19392/78504 [11:47:27<34:58:12,  2.13s/it] 25%|██▍       | 19393/78504 [11:47:29<33:45:51,  2.06s/it]                                                           {'loss': 0.1052, 'grad_norm': 0.3703102767467499, 'learning_rate': 2.510296802683538e-05, 'epoch': 5.93}
 25%|██▍       | 19393/78504 [11:47:29<33:45:51,  2.06s/it] 25%|██▍       | 19394/78504 [11:47:31<32:50:19,  2.00s/it]                                                           {'loss': 0.1218, 'grad_norm': 0.40961623191833496, 'learning_rate': 2.510254341641544e-05, 'epoch': 5.93}
 25%|██▍       | 19394/78504 [11:47:31<32:50:19,  2.00s/it] 25%|██▍       | 19395/78504 [11:47:33<31:39:20,  1.93s/it]                                                           {'loss': 0.1264, 'grad_norm': 0.4647846817970276, 'learning_rate': 2.51021188059955e-05, 'epoch': 5.93}
 25%|██▍       | 19395/78504 [11:47:33<31:39:20,  1.93s/it] 25%|██▍       | 19396/78504 [11:47:34<29:54:14,  1.82s/it]                                                           {'loss': 0.1233, 'grad_norm': 0.5654824376106262, 'learning_rate': 2.510169419557556e-05, 'epoch': 5.93}
 25%|██▍       | 19396/78504 [11:47:34<29:54:14,  1.82s/it] 25%|██▍       | 19397/78504 [11:47:36<28:33:31,  1.74s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.4264219105243683, 'learning_rate': 2.510126958515562e-05, 'epoch': 5.93}
 25%|██▍       | 19397/78504 [11:47:36<28:33:31,  1.74s/it] 25%|██▍       | 19398/78504 [11:47:37<27:13:23,  1.66s/it]                                                           {'loss': 0.1798, 'grad_norm': 0.41914093494415283, 'learning_rate': 2.5100844974735682e-05, 'epoch': 5.93}
 25%|██▍       | 19398/78504 [11:47:37<27:13:23,  1.66s/it] 25%|██▍       | 19399/78504 [11:47:39<26:03:32,  1.59s/it]                                                           {'loss': 0.1703, 'grad_norm': 7.2592058181762695, 'learning_rate': 2.510042036431574e-05, 'epoch': 5.93}
 25%|██▍       | 19399/78504 [11:47:39<26:03:32,  1.59s/it] 25%|██▍       | 19400/78504 [11:47:40<24:32:10,  1.49s/it]                                                           {'loss': 0.1891, 'grad_norm': 1.0752229690551758, 'learning_rate': 2.5099995753895803e-05, 'epoch': 5.93}
 25%|██▍       | 19400/78504 [11:47:40<24:32:10,  1.49s/it] 25%|██▍       | 19401/78504 [11:47:41<22:51:05,  1.39s/it]                                                           {'loss': 0.1858, 'grad_norm': 1.420858383178711, 'learning_rate': 2.509957114347586e-05, 'epoch': 5.93}
 25%|██▍       | 19401/78504 [11:47:41<22:51:05,  1.39s/it] 25%|██▍       | 19402/78504 [11:47:42<21:25:42,  1.31s/it]                                                           {'loss': 0.1695, 'grad_norm': 0.9295209050178528, 'learning_rate': 2.5099146533055924e-05, 'epoch': 5.93}
 25%|██▍       | 19402/78504 [11:47:42<21:25:42,  1.31s/it] 25%|██▍       | 19403/78504 [11:47:43<19:56:52,  1.22s/it]                                                           {'loss': 0.198, 'grad_norm': 0.5501106977462769, 'learning_rate': 2.5098721922635982e-05, 'epoch': 5.93}
 25%|██▍       | 19403/78504 [11:47:43<19:56:52,  1.22s/it] 25%|██▍       | 19404/78504 [11:47:44<18:35:02,  1.13s/it]                                                           {'loss': 0.1988, 'grad_norm': 1.4369579553604126, 'learning_rate': 2.509829731221604e-05, 'epoch': 5.93}
 25%|██▍       | 19404/78504 [11:47:44<18:35:02,  1.13s/it] 25%|██▍       | 19405/78504 [11:47:45<16:48:34,  1.02s/it]                                                           {'loss': 0.2265, 'grad_norm': 1.1379343271255493, 'learning_rate': 2.5097872701796103e-05, 'epoch': 5.93}
 25%|██▍       | 19405/78504 [11:47:45<16:48:34,  1.02s/it] 25%|██▍       | 19406/78504 [11:47:54<57:24:44,  3.50s/it]                                                           {'loss': 0.15, 'grad_norm': 0.47468113899230957, 'learning_rate': 2.5097448091376162e-05, 'epoch': 5.93}
 25%|██▍       | 19406/78504 [11:47:54<57:24:44,  3.50s/it] 25%|██▍       | 19407/78504 [11:47:57<55:36:01,  3.39s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.49036866426467896, 'learning_rate': 2.5097023480956224e-05, 'epoch': 5.93}
 25%|██▍       | 19407/78504 [11:47:57<55:36:01,  3.39s/it] 25%|██▍       | 19408/78504 [11:48:00<51:34:34,  3.14s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.2539461851119995, 'learning_rate': 2.5096598870536283e-05, 'epoch': 5.93}
 25%|██▍       | 19408/78504 [11:48:00<51:34:34,  3.14s/it] 25%|██▍       | 19409/78504 [11:48:03<48:58:22,  2.98s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.5319697260856628, 'learning_rate': 2.5096174260116345e-05, 'epoch': 5.93}
 25%|██▍       | 19409/78504 [11:48:03<48:58:22,  2.98s/it] 25%|██▍       | 19410/78504 [11:48:05<46:32:16,  2.84s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.1978350281715393, 'learning_rate': 2.5095749649696404e-05, 'epoch': 5.93}
 25%|██▍       | 19410/78504 [11:48:05<46:32:16,  2.84s/it] 25%|██▍       | 19411/78504 [11:48:07<44:08:47,  2.69s/it]                                                           {'loss': 0.0473, 'grad_norm': 0.18242834508419037, 'learning_rate': 2.5095325039276466e-05, 'epoch': 5.93}
 25%|██▍       | 19411/78504 [11:48:08<44:08:47,  2.69s/it] 25%|██▍       | 19412/78504 [11:48:10<42:21:18,  2.58s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.28807616233825684, 'learning_rate': 2.5094900428856524e-05, 'epoch': 5.93}
 25%|██▍       | 19412/78504 [11:48:10<42:21:18,  2.58s/it] 25%|██▍       | 19413/78504 [11:48:12<39:44:50,  2.42s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.25577840209007263, 'learning_rate': 2.5094475818436586e-05, 'epoch': 5.93}
 25%|██▍       | 19413/78504 [11:48:12<39:44:50,  2.42s/it] 25%|██▍       | 19414/78504 [11:48:14<38:33:27,  2.35s/it]                                                           {'loss': 0.0801, 'grad_norm': 0.3416120707988739, 'learning_rate': 2.5094051208016645e-05, 'epoch': 5.94}
 25%|██▍       | 19414/78504 [11:48:14<38:33:27,  2.35s/it] 25%|██▍       | 19415/78504 [11:48:16<36:30:24,  2.22s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.257282555103302, 'learning_rate': 2.5093626597596707e-05, 'epoch': 5.94}
 25%|██▍       | 19415/78504 [11:48:16<36:30:24,  2.22s/it] 25%|██▍       | 19416/78504 [11:48:18<35:17:45,  2.15s/it]                                                           {'loss': 0.0898, 'grad_norm': 0.33939364552497864, 'learning_rate': 2.5093201987176766e-05, 'epoch': 5.94}
 25%|██▍       | 19416/78504 [11:48:18<35:17:45,  2.15s/it] 25%|██▍       | 19417/78504 [11:48:20<34:10:02,  2.08s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.3091033399105072, 'learning_rate': 2.5092777376756825e-05, 'epoch': 5.94}
 25%|██▍       | 19417/78504 [11:48:20<34:10:02,  2.08s/it] 25%|██▍       | 19418/78504 [11:48:22<33:13:14,  2.02s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.3817943036556244, 'learning_rate': 2.5092352766336887e-05, 'epoch': 5.94}
 25%|██▍       | 19418/78504 [11:48:22<33:13:14,  2.02s/it] 25%|██▍       | 19419/78504 [11:48:23<31:34:05,  1.92s/it]                                                           {'loss': 0.0871, 'grad_norm': 0.44353994727134705, 'learning_rate': 2.5091928155916945e-05, 'epoch': 5.94}
 25%|██▍       | 19419/78504 [11:48:23<31:34:05,  1.92s/it] 25%|██▍       | 19420/78504 [11:48:25<30:49:23,  1.88s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.8078013062477112, 'learning_rate': 2.5091503545497007e-05, 'epoch': 5.94}
 25%|██▍       | 19420/78504 [11:48:25<30:49:23,  1.88s/it] 25%|██▍       | 19421/78504 [11:48:27<29:40:29,  1.81s/it]                                                           {'loss': 0.1425, 'grad_norm': 0.6397669315338135, 'learning_rate': 2.5091078935077066e-05, 'epoch': 5.94}
 25%|██▍       | 19421/78504 [11:48:27<29:40:29,  1.81s/it] 25%|██▍       | 19422/78504 [11:48:28<28:14:48,  1.72s/it]                                                           {'loss': 0.155, 'grad_norm': 1.0873156785964966, 'learning_rate': 2.5090654324657128e-05, 'epoch': 5.94}
 25%|██▍       | 19422/78504 [11:48:28<28:14:48,  1.72s/it] 25%|██▍       | 19423/78504 [11:48:30<27:00:04,  1.65s/it]                                                           {'loss': 0.1488, 'grad_norm': 0.8075398206710815, 'learning_rate': 2.5090229714237187e-05, 'epoch': 5.94}
 25%|██▍       | 19423/78504 [11:48:30<27:00:04,  1.65s/it] 25%|██▍       | 19424/78504 [11:48:31<25:53:27,  1.58s/it]                                                           {'loss': 0.1762, 'grad_norm': 0.40754443407058716, 'learning_rate': 2.508980510381725e-05, 'epoch': 5.94}
 25%|██▍       | 19424/78504 [11:48:31<25:53:27,  1.58s/it] 25%|██▍       | 19425/78504 [11:48:33<24:28:20,  1.49s/it]                                                           {'loss': 0.2397, 'grad_norm': 0.5978090167045593, 'learning_rate': 2.5089380493397308e-05, 'epoch': 5.94}
 25%|██▍       | 19425/78504 [11:48:33<24:28:20,  1.49s/it] 25%|██▍       | 19426/78504 [11:48:34<22:41:58,  1.38s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.5942800641059875, 'learning_rate': 2.508895588297737e-05, 'epoch': 5.94}
 25%|██▍       | 19426/78504 [11:48:34<22:41:58,  1.38s/it] 25%|██▍       | 19427/78504 [11:48:35<21:13:20,  1.29s/it]                                                           {'loss': 0.1761, 'grad_norm': 2.3426904678344727, 'learning_rate': 2.508853127255743e-05, 'epoch': 5.94}
 25%|██▍       | 19427/78504 [11:48:35<21:13:20,  1.29s/it] 25%|██▍       | 19428/78504 [11:48:36<19:43:21,  1.20s/it]                                                           {'loss': 0.1585, 'grad_norm': 1.195210576057434, 'learning_rate': 2.508810666213749e-05, 'epoch': 5.94}
 25%|██▍       | 19428/78504 [11:48:36<19:43:21,  1.20s/it] 25%|██▍       | 19429/78504 [11:48:37<18:26:34,  1.12s/it]                                                           {'loss': 0.1599, 'grad_norm': 0.8649086356163025, 'learning_rate': 2.508768205171755e-05, 'epoch': 5.94}
 25%|██▍       | 19429/78504 [11:48:37<18:26:34,  1.12s/it] 25%|██▍       | 19430/78504 [11:48:37<16:46:53,  1.02s/it]                                                           {'loss': 0.2577, 'grad_norm': 1.195273756980896, 'learning_rate': 2.5087257441297608e-05, 'epoch': 5.94}
 25%|██▍       | 19430/78504 [11:48:38<16:46:53,  1.02s/it] 25%|██▍       | 19431/78504 [11:48:46<54:41:34,  3.33s/it]                                                           {'loss': 0.1241, 'grad_norm': 0.2626422047615051, 'learning_rate': 2.508683283087767e-05, 'epoch': 5.94}
 25%|██▍       | 19431/78504 [11:48:46<54:41:34,  3.33s/it] 25%|██▍       | 19432/78504 [11:48:49<53:19:02,  3.25s/it]                                                           {'loss': 0.0809, 'grad_norm': 0.4111546277999878, 'learning_rate': 2.508640822045773e-05, 'epoch': 5.94}
 25%|██▍       | 19432/78504 [11:48:49<53:19:02,  3.25s/it] 25%|██▍       | 19433/78504 [11:48:52<49:54:33,  3.04s/it]                                                           {'loss': 0.068, 'grad_norm': 0.23813453316688538, 'learning_rate': 2.508598361003779e-05, 'epoch': 5.94}
 25%|██▍       | 19433/78504 [11:48:52<49:54:33,  3.04s/it] 25%|██▍       | 19434/78504 [11:48:54<47:48:53,  2.91s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.2558896541595459, 'learning_rate': 2.508555899961785e-05, 'epoch': 5.94}
 25%|██▍       | 19434/78504 [11:48:54<47:48:53,  2.91s/it] 25%|██▍       | 19435/78504 [11:48:57<45:35:19,  2.78s/it]                                                           {'loss': 0.0743, 'grad_norm': 0.9077708721160889, 'learning_rate': 2.508513438919791e-05, 'epoch': 5.94}
 25%|██▍       | 19435/78504 [11:48:57<45:35:19,  2.78s/it] 25%|██▍       | 19436/78504 [11:48:59<43:52:04,  2.67s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.21459341049194336, 'learning_rate': 2.508470977877797e-05, 'epoch': 5.94}
 25%|██▍       | 19436/78504 [11:48:59<43:52:04,  2.67s/it] 25%|██▍       | 19437/78504 [11:49:02<42:04:57,  2.56s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.24791236221790314, 'learning_rate': 2.5084285168358032e-05, 'epoch': 5.94}
 25%|██▍       | 19437/78504 [11:49:02<42:04:57,  2.56s/it] 25%|██▍       | 19438/78504 [11:49:04<39:50:05,  2.43s/it]                                                           {'loss': 0.0505, 'grad_norm': 0.1933252066373825, 'learning_rate': 2.508386055793809e-05, 'epoch': 5.94}
 25%|██▍       | 19438/78504 [11:49:04<39:50:05,  2.43s/it] 25%|██▍       | 19439/78504 [11:49:06<38:37:38,  2.35s/it]                                                           {'loss': 0.0652, 'grad_norm': 0.3054386079311371, 'learning_rate': 2.5083435947518153e-05, 'epoch': 5.94}
 25%|██▍       | 19439/78504 [11:49:06<38:37:38,  2.35s/it] 25%|██▍       | 19440/78504 [11:49:08<37:33:45,  2.29s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.2071492075920105, 'learning_rate': 2.5083011337098212e-05, 'epoch': 5.94}
 25%|██▍       | 19440/78504 [11:49:08<37:33:45,  2.29s/it] 25%|██▍       | 19441/78504 [11:49:10<36:14:20,  2.21s/it]                                                           {'loss': 0.0926, 'grad_norm': 0.46436700224876404, 'learning_rate': 2.5082586726678274e-05, 'epoch': 5.94}
 25%|██▍       | 19441/78504 [11:49:10<36:14:20,  2.21s/it] 25%|██▍       | 19442/78504 [11:49:12<35:05:53,  2.14s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.3790648579597473, 'learning_rate': 2.5082162116258333e-05, 'epoch': 5.94}
 25%|██▍       | 19442/78504 [11:49:12<35:05:53,  2.14s/it] 25%|██▍       | 19443/78504 [11:49:14<33:42:43,  2.05s/it]                                                           {'loss': 0.1084, 'grad_norm': 0.4102518558502197, 'learning_rate': 2.508173750583839e-05, 'epoch': 5.94}
 25%|██▍       | 19443/78504 [11:49:14<33:42:43,  2.05s/it] 25%|██▍       | 19444/78504 [11:49:16<32:41:32,  1.99s/it]                                                           {'loss': 0.0995, 'grad_norm': 0.9612168073654175, 'learning_rate': 2.5081312895418454e-05, 'epoch': 5.94}
 25%|██▍       | 19444/78504 [11:49:16<32:41:32,  1.99s/it] 25%|██▍       | 19445/78504 [11:49:18<31:24:09,  1.91s/it]                                                           {'loss': 0.1082, 'grad_norm': 0.3008677065372467, 'learning_rate': 2.5080888284998512e-05, 'epoch': 5.94}
 25%|██▍       | 19445/78504 [11:49:18<31:24:09,  1.91s/it] 25%|██▍       | 19446/78504 [11:49:19<30:02:18,  1.83s/it]                                                           {'loss': 0.138, 'grad_norm': 0.6368591785430908, 'learning_rate': 2.5080463674578574e-05, 'epoch': 5.94}
 25%|██▍       | 19446/78504 [11:49:19<30:02:18,  1.83s/it] 25%|██▍       | 19447/78504 [11:49:21<28:31:07,  1.74s/it]                                                           {'loss': 0.1313, 'grad_norm': 0.8449358344078064, 'learning_rate': 2.5080039064158633e-05, 'epoch': 5.95}
 25%|██▍       | 19447/78504 [11:49:21<28:31:07,  1.74s/it] 25%|██▍       | 19448/78504 [11:49:22<27:13:05,  1.66s/it]                                                           {'loss': 0.1567, 'grad_norm': 1.951158046722412, 'learning_rate': 2.5079614453738695e-05, 'epoch': 5.95}
 25%|██▍       | 19448/78504 [11:49:22<27:13:05,  1.66s/it] 25%|██▍       | 19449/78504 [11:49:24<26:02:54,  1.59s/it]                                                           {'loss': 0.147, 'grad_norm': 0.4118245542049408, 'learning_rate': 2.5079189843318754e-05, 'epoch': 5.95}
 25%|██▍       | 19449/78504 [11:49:24<26:02:54,  1.59s/it] 25%|██▍       | 19450/78504 [11:49:25<24:32:04,  1.50s/it]                                                           {'loss': 0.1941, 'grad_norm': 0.5540169477462769, 'learning_rate': 2.5078765232898816e-05, 'epoch': 5.95}
 25%|██▍       | 19450/78504 [11:49:25<24:32:04,  1.50s/it] 25%|██▍       | 19451/78504 [11:49:26<22:52:08,  1.39s/it]                                                           {'loss': 0.2104, 'grad_norm': 0.8751447796821594, 'learning_rate': 2.5078340622478875e-05, 'epoch': 5.95}
 25%|██▍       | 19451/78504 [11:49:26<22:52:08,  1.39s/it] 25%|██▍       | 19452/78504 [11:49:27<21:22:54,  1.30s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.7560058236122131, 'learning_rate': 2.5077916012058937e-05, 'epoch': 5.95}
 25%|██▍       | 19452/78504 [11:49:27<21:22:54,  1.30s/it] 25%|██▍       | 19453/78504 [11:49:28<20:07:53,  1.23s/it]                                                           {'loss': 0.1418, 'grad_norm': 0.8436893224716187, 'learning_rate': 2.5077491401638995e-05, 'epoch': 5.95}
 25%|██▍       | 19453/78504 [11:49:28<20:07:53,  1.23s/it] 25%|██▍       | 19454/78504 [11:49:29<18:37:36,  1.14s/it]                                                           {'loss': 0.1728, 'grad_norm': 0.9279645085334778, 'learning_rate': 2.5077066791219057e-05, 'epoch': 5.95}
 25%|██▍       | 19454/78504 [11:49:29<18:37:36,  1.14s/it] 25%|██▍       | 19455/78504 [11:49:30<16:51:12,  1.03s/it]                                                           {'loss': 0.2104, 'grad_norm': 1.17820405960083, 'learning_rate': 2.5076642180799116e-05, 'epoch': 5.95}
 25%|██▍       | 19455/78504 [11:49:30<16:51:12,  1.03s/it] 25%|██▍       | 19456/78504 [11:49:39<57:25:24,  3.50s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.6803661584854126, 'learning_rate': 2.5076217570379175e-05, 'epoch': 5.95}
 25%|██▍       | 19456/78504 [11:49:39<57:25:24,  3.50s/it] 25%|██▍       | 19457/78504 [11:49:42<55:36:26,  3.39s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.29643911123275757, 'learning_rate': 2.5075792959959237e-05, 'epoch': 5.95}
 25%|██▍       | 19457/78504 [11:49:42<55:36:26,  3.39s/it] 25%|██▍       | 19458/78504 [11:49:45<53:46:03,  3.28s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.2178429663181305, 'learning_rate': 2.5075368349539296e-05, 'epoch': 5.95}
 25%|██▍       | 19458/78504 [11:49:45<53:46:03,  3.28s/it] 25%|██▍       | 19459/78504 [11:49:48<50:28:12,  3.08s/it]                                                           {'loss': 0.0414, 'grad_norm': 0.21246430277824402, 'learning_rate': 2.5074943739119358e-05, 'epoch': 5.95}
 25%|██▍       | 19459/78504 [11:49:48<50:28:12,  3.08s/it] 25%|██▍       | 19460/78504 [11:49:50<47:27:35,  2.89s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.21281498670578003, 'learning_rate': 2.5074519128699416e-05, 'epoch': 5.95}
 25%|██▍       | 19460/78504 [11:49:50<47:27:35,  2.89s/it] 25%|██▍       | 19461/78504 [11:49:53<44:19:31,  2.70s/it]                                                           {'loss': 0.0244, 'grad_norm': 2.660342216491699, 'learning_rate': 2.507409451827948e-05, 'epoch': 5.95}
 25%|██▍       | 19461/78504 [11:49:53<44:19:31,  2.70s/it] 25%|██▍       | 19462/78504 [11:49:55<42:25:30,  2.59s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.1632928103208542, 'learning_rate': 2.5073669907859537e-05, 'epoch': 5.95}
 25%|██▍       | 19462/78504 [11:49:55<42:25:30,  2.59s/it] 25%|██▍       | 19463/78504 [11:49:57<40:05:57,  2.45s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.18873877823352814, 'learning_rate': 2.50732452974396e-05, 'epoch': 5.95}
 25%|██▍       | 19463/78504 [11:49:57<40:05:57,  2.45s/it] 25%|██▍       | 19464/78504 [11:49:59<38:47:03,  2.36s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.4006464183330536, 'learning_rate': 2.5072820687019658e-05, 'epoch': 5.95}
 25%|██▍       | 19464/78504 [11:49:59<38:47:03,  2.36s/it] 25%|██▍       | 19465/78504 [11:50:01<38:16:56,  2.33s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.3766739070415497, 'learning_rate': 2.507239607659972e-05, 'epoch': 5.95}
 25%|██▍       | 19465/78504 [11:50:01<38:16:56,  2.33s/it] 25%|██▍       | 19466/78504 [11:50:03<36:44:42,  2.24s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.5194097757339478, 'learning_rate': 2.5071971466179782e-05, 'epoch': 5.95}
 25%|██▍       | 19466/78504 [11:50:04<36:44:42,  2.24s/it] 25%|██▍       | 19467/78504 [11:50:05<35:29:00,  2.16s/it]                                                           {'loss': 0.07, 'grad_norm': 0.4886767268180847, 'learning_rate': 2.5071546855759844e-05, 'epoch': 5.95}
 25%|██▍       | 19467/78504 [11:50:05<35:29:00,  2.16s/it] 25%|██▍       | 19468/78504 [11:50:07<34:01:27,  2.07s/it]                                                           {'loss': 0.0791, 'grad_norm': 0.6606088280677795, 'learning_rate': 2.5071122245339903e-05, 'epoch': 5.95}
 25%|██▍       | 19468/78504 [11:50:07<34:01:27,  2.07s/it] 25%|██▍       | 19469/78504 [11:50:09<32:57:37,  2.01s/it]                                                           {'loss': 0.1267, 'grad_norm': 0.399305522441864, 'learning_rate': 2.507069763491996e-05, 'epoch': 5.95}
 25%|██▍       | 19469/78504 [11:50:09<32:57:37,  2.01s/it] 25%|██▍       | 19470/78504 [11:50:11<31:45:19,  1.94s/it]                                                           {'loss': 0.1051, 'grad_norm': 0.5723254084587097, 'learning_rate': 2.5070273024500024e-05, 'epoch': 5.95}
 25%|██▍       | 19470/78504 [11:50:11<31:45:19,  1.94s/it] 25%|██▍       | 19471/78504 [11:50:13<30:18:46,  1.85s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.40713366866111755, 'learning_rate': 2.5069848414080082e-05, 'epoch': 5.95}
 25%|██▍       | 19471/78504 [11:50:13<30:18:46,  1.85s/it] 25%|██▍       | 19472/78504 [11:50:14<28:46:40,  1.75s/it]                                                           {'loss': 0.139, 'grad_norm': 0.7184001207351685, 'learning_rate': 2.5069423803660145e-05, 'epoch': 5.95}
 25%|██▍       | 19472/78504 [11:50:14<28:46:40,  1.75s/it] 25%|██▍       | 19473/78504 [11:50:16<27:22:00,  1.67s/it]                                                           {'loss': 0.1855, 'grad_norm': 0.7897038459777832, 'learning_rate': 2.5068999193240203e-05, 'epoch': 5.95}
 25%|██▍       | 19473/78504 [11:50:16<27:22:00,  1.67s/it] 25%|██▍       | 19474/78504 [11:50:17<26:03:02,  1.59s/it]                                                           {'loss': 0.1514, 'grad_norm': 0.7129080891609192, 'learning_rate': 2.5068574582820265e-05, 'epoch': 5.95}
 25%|██▍       | 19474/78504 [11:50:17<26:03:02,  1.59s/it] 25%|██▍       | 19475/78504 [11:50:18<24:34:03,  1.50s/it]                                                           {'loss': 0.1673, 'grad_norm': 0.5329235196113586, 'learning_rate': 2.5068149972400324e-05, 'epoch': 5.95}
 25%|██▍       | 19475/78504 [11:50:18<24:34:03,  1.50s/it] 25%|██▍       | 19476/78504 [11:50:19<22:50:50,  1.39s/it]                                                           {'loss': 0.1584, 'grad_norm': 0.6728454828262329, 'learning_rate': 2.5067725361980386e-05, 'epoch': 5.95}
 25%|██▍       | 19476/78504 [11:50:19<22:50:50,  1.39s/it] 25%|██▍       | 19477/78504 [11:50:21<21:23:33,  1.30s/it]                                                           {'loss': 0.1817, 'grad_norm': 0.8235107064247131, 'learning_rate': 2.5067300751560445e-05, 'epoch': 5.95}
 25%|██▍       | 19477/78504 [11:50:21<21:23:33,  1.30s/it] 25%|██▍       | 19478/78504 [11:50:22<19:54:06,  1.21s/it]                                                           {'loss': 0.1817, 'grad_norm': 1.392313003540039, 'learning_rate': 2.5066876141140507e-05, 'epoch': 5.95}
 25%|██▍       | 19478/78504 [11:50:22<19:54:06,  1.21s/it] 25%|██▍       | 19479/78504 [11:50:22<18:32:46,  1.13s/it]                                                           {'loss': 0.19, 'grad_norm': 1.2992238998413086, 'learning_rate': 2.5066451530720566e-05, 'epoch': 5.96}
 25%|██▍       | 19479/78504 [11:50:23<18:32:46,  1.13s/it] 25%|██▍       | 19480/78504 [11:50:23<16:52:21,  1.03s/it]                                                           {'loss': 0.212, 'grad_norm': 3.1591720581054688, 'learning_rate': 2.5066026920300624e-05, 'epoch': 5.96}
 25%|██▍       | 19480/78504 [11:50:23<16:52:21,  1.03s/it] 25%|██▍       | 19481/78504 [11:50:33<59:03:06,  3.60s/it]                                                           {'loss': 0.1559, 'grad_norm': 0.4253385365009308, 'learning_rate': 2.5065602309880686e-05, 'epoch': 5.96}
 25%|██▍       | 19481/78504 [11:50:33<59:03:06,  3.60s/it] 25%|██▍       | 19482/78504 [11:50:36<56:44:48,  3.46s/it]                                                           {'loss': 0.0773, 'grad_norm': 0.29594868421554565, 'learning_rate': 2.5065177699460745e-05, 'epoch': 5.96}
 25%|██▍       | 19482/78504 [11:50:36<56:44:48,  3.46s/it] 25%|██▍       | 19483/78504 [11:50:39<54:22:52,  3.32s/it]                                                           {'loss': 0.0716, 'grad_norm': 0.312350332736969, 'learning_rate': 2.5064753089040807e-05, 'epoch': 5.96}
 25%|██▍       | 19483/78504 [11:50:39<54:22:52,  3.32s/it] 25%|██▍       | 19484/78504 [11:50:42<50:54:42,  3.11s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.19218643009662628, 'learning_rate': 2.5064328478620866e-05, 'epoch': 5.96}
 25%|██▍       | 19484/78504 [11:50:42<50:54:42,  3.11s/it] 25%|██▍       | 19485/78504 [11:50:44<47:13:31,  2.88s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.29431799054145813, 'learning_rate': 2.5063903868200928e-05, 'epoch': 5.96}
 25%|██▍       | 19485/78504 [11:50:44<47:13:31,  2.88s/it] 25%|██▍       | 19486/78504 [11:50:46<44:09:49,  2.69s/it]                                                           {'loss': 0.0469, 'grad_norm': 0.16936875879764557, 'learning_rate': 2.5063479257780987e-05, 'epoch': 5.96}
 25%|██▍       | 19486/78504 [11:50:46<44:09:49,  2.69s/it] 25%|██▍       | 19487/78504 [11:50:49<42:17:40,  2.58s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.28364893794059753, 'learning_rate': 2.506305464736105e-05, 'epoch': 5.96}
 25%|██▍       | 19487/78504 [11:50:49<42:17:40,  2.58s/it] 25%|██▍       | 19488/78504 [11:50:51<39:55:23,  2.44s/it]                                                           {'loss': 0.053, 'grad_norm': 0.21639122068881989, 'learning_rate': 2.5062630036941107e-05, 'epoch': 5.96}
 25%|██▍       | 19488/78504 [11:50:51<39:55:23,  2.44s/it] 25%|██▍       | 19489/78504 [11:50:53<37:55:42,  2.31s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.5864650011062622, 'learning_rate': 2.506220542652117e-05, 'epoch': 5.96}
 25%|██▍       | 19489/78504 [11:50:53<37:55:42,  2.31s/it] 25%|██▍       | 19490/78504 [11:50:55<37:03:03,  2.26s/it]                                                           {'loss': 0.0559, 'grad_norm': 0.4236242175102234, 'learning_rate': 2.5061780816101228e-05, 'epoch': 5.96}
 25%|██▍       | 19490/78504 [11:50:55<37:03:03,  2.26s/it] 25%|██▍       | 19491/78504 [11:50:57<35:40:44,  2.18s/it]                                                           {'loss': 0.0825, 'grad_norm': 0.44452521204948425, 'learning_rate': 2.506135620568129e-05, 'epoch': 5.96}
 25%|██▍       | 19491/78504 [11:50:57<35:40:44,  2.18s/it] 25%|██▍       | 19492/78504 [11:50:59<34:23:09,  2.10s/it]                                                           {'loss': 0.0942, 'grad_norm': 0.39763736724853516, 'learning_rate': 2.506093159526135e-05, 'epoch': 5.96}
 25%|██▍       | 19492/78504 [11:50:59<34:23:09,  2.10s/it] 25%|██▍       | 19493/78504 [11:51:01<33:22:24,  2.04s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.4829461872577667, 'learning_rate': 2.5060506984841408e-05, 'epoch': 5.96}
 25%|██▍       | 19493/78504 [11:51:01<33:22:24,  2.04s/it] 25%|██▍       | 19494/78504 [11:51:02<31:31:32,  1.92s/it]                                                           {'loss': 0.0899, 'grad_norm': 0.5648297667503357, 'learning_rate': 2.506008237442147e-05, 'epoch': 5.96}
 25%|██▍       | 19494/78504 [11:51:02<31:31:32,  1.92s/it] 25%|██▍       | 19495/78504 [11:51:04<30:45:40,  1.88s/it]                                                           {'loss': 0.1304, 'grad_norm': 0.42947840690612793, 'learning_rate': 2.505965776400153e-05, 'epoch': 5.96}
 25%|██▍       | 19495/78504 [11:51:04<30:45:40,  1.88s/it] 25%|██▍       | 19496/78504 [11:51:06<29:06:22,  1.78s/it]                                                           {'loss': 0.1425, 'grad_norm': 0.7985420823097229, 'learning_rate': 2.505923315358159e-05, 'epoch': 5.96}
 25%|██▍       | 19496/78504 [11:51:06<29:06:22,  1.78s/it] 25%|██▍       | 19497/78504 [11:51:07<27:38:11,  1.69s/it]                                                           {'loss': 0.1856, 'grad_norm': 0.7140769958496094, 'learning_rate': 2.505880854316165e-05, 'epoch': 5.96}
 25%|██▍       | 19497/78504 [11:51:07<27:38:11,  1.69s/it] 25%|██▍       | 19498/78504 [11:51:08<26:32:37,  1.62s/it]                                                           {'loss': 0.1408, 'grad_norm': 1.8104345798492432, 'learning_rate': 2.505838393274171e-05, 'epoch': 5.96}
 25%|██▍       | 19498/78504 [11:51:09<26:32:37,  1.62s/it] 25%|██▍       | 19499/78504 [11:51:10<24:49:23,  1.51s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.9748376607894897, 'learning_rate': 2.505795932232177e-05, 'epoch': 5.96}
 25%|██▍       | 19499/78504 [11:51:10<24:49:23,  1.51s/it] 25%|██▍       | 19500/78504 [11:51:11<23:25:19,  1.43s/it]                                                           {'loss': 0.1388, 'grad_norm': 1.2011680603027344, 'learning_rate': 2.5057534711901832e-05, 'epoch': 5.96}
 25%|██▍       | 19500/78504 [11:51:11<23:25:19,  1.43s/it] 25%|██▍       | 19501/78504 [11:51:12<22:04:36,  1.35s/it]                                                           {'loss': 0.1568, 'grad_norm': 0.7899913787841797, 'learning_rate': 2.505711010148189e-05, 'epoch': 5.96}
 25%|██▍       | 19501/78504 [11:51:12<22:04:36,  1.35s/it] 25%|██▍       | 19502/78504 [11:51:13<20:36:41,  1.26s/it]                                                           {'loss': 0.2034, 'grad_norm': 2.6257717609405518, 'learning_rate': 2.5056685491061953e-05, 'epoch': 5.96}
 25%|██▍       | 19502/78504 [11:51:13<20:36:41,  1.26s/it] 25%|██▍       | 19503/78504 [11:51:14<19:15:07,  1.17s/it]                                                           {'loss': 0.1417, 'grad_norm': 0.7968435287475586, 'learning_rate': 2.505626088064201e-05, 'epoch': 5.96}
 25%|██▍       | 19503/78504 [11:51:14<19:15:07,  1.17s/it] 25%|██▍       | 19504/78504 [11:51:15<18:03:06,  1.10s/it]                                                           {'loss': 0.1895, 'grad_norm': 1.2439836263656616, 'learning_rate': 2.5055836270222074e-05, 'epoch': 5.96}
 25%|██▍       | 19504/78504 [11:51:15<18:03:06,  1.10s/it] 25%|██▍       | 19505/78504 [11:51:16<16:31:20,  1.01s/it]                                                           {'loss': 0.282, 'grad_norm': 1.2923780679702759, 'learning_rate': 2.5055411659802132e-05, 'epoch': 5.96}
 25%|██▍       | 19505/78504 [11:51:16<16:31:20,  1.01s/it] 25%|██▍       | 19506/78504 [11:51:24<51:13:08,  3.13s/it]                                                           {'loss': 0.1151, 'grad_norm': 0.4747266471385956, 'learning_rate': 2.505498704938219e-05, 'epoch': 5.96}
 25%|██▍       | 19506/78504 [11:51:24<51:13:08,  3.13s/it] 25%|██▍       | 19507/78504 [11:51:27<52:03:29,  3.18s/it]                                                           {'loss': 0.0916, 'grad_norm': 0.7225367426872253, 'learning_rate': 2.5054562438962253e-05, 'epoch': 5.96}
 25%|██▍       | 19507/78504 [11:51:27<52:03:29,  3.18s/it] 25%|██▍       | 19508/78504 [11:51:30<49:03:35,  2.99s/it]                                                           {'loss': 0.0814, 'grad_norm': 0.34366586804389954, 'learning_rate': 2.5054137828542312e-05, 'epoch': 5.96}
 25%|██▍       | 19508/78504 [11:51:30<49:03:35,  2.99s/it] 25%|██▍       | 19509/78504 [11:51:32<47:09:34,  2.88s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.21903009712696075, 'learning_rate': 2.5053713218122374e-05, 'epoch': 5.96}
 25%|██▍       | 19509/78504 [11:51:32<47:09:34,  2.88s/it] 25%|██▍       | 19510/78504 [11:51:35<44:34:43,  2.72s/it]                                                           {'loss': 0.062, 'grad_norm': 0.37310582399368286, 'learning_rate': 2.5053288607702433e-05, 'epoch': 5.96}
 25%|██▍       | 19510/78504 [11:51:35<44:34:43,  2.72s/it] 25%|██▍       | 19511/78504 [11:51:37<42:44:51,  2.61s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.32283973693847656, 'learning_rate': 2.5052863997282495e-05, 'epoch': 5.96}
 25%|██▍       | 19511/78504 [11:51:37<42:44:51,  2.61s/it] 25%|██▍       | 19512/78504 [11:51:39<41:22:00,  2.52s/it]                                                           {'loss': 0.0545, 'grad_norm': 0.4085811376571655, 'learning_rate': 2.5052439386862554e-05, 'epoch': 5.97}
 25%|██▍       | 19512/78504 [11:51:39<41:22:00,  2.52s/it] 25%|██▍       | 19513/78504 [11:51:42<40:01:46,  2.44s/it]                                                           {'loss': 0.0455, 'grad_norm': 1.0053119659423828, 'learning_rate': 2.5052014776442616e-05, 'epoch': 5.97}
 25%|██▍       | 19513/78504 [11:51:42<40:01:46,  2.44s/it] 25%|██▍       | 19514/78504 [11:51:44<37:56:43,  2.32s/it]                                                           {'loss': 0.0748, 'grad_norm': 1.1231598854064941, 'learning_rate': 2.5051590166022674e-05, 'epoch': 5.97}
 25%|██▍       | 19514/78504 [11:51:44<37:56:43,  2.32s/it] 25%|██▍       | 19515/78504 [11:51:46<37:03:15,  2.26s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.9664137959480286, 'learning_rate': 2.5051165555602736e-05, 'epoch': 5.97}
 25%|██▍       | 19515/78504 [11:51:46<37:03:15,  2.26s/it] 25%|██▍       | 19516/78504 [11:51:48<35:44:14,  2.18s/it]                                                           {'loss': 0.0853, 'grad_norm': 0.7626085877418518, 'learning_rate': 2.5050740945182795e-05, 'epoch': 5.97}
 25%|██▍       | 19516/78504 [11:51:48<35:44:14,  2.18s/it] 25%|██▍       | 19517/78504 [11:51:50<34:29:18,  2.10s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.2925960421562195, 'learning_rate': 2.5050316334762857e-05, 'epoch': 5.97}
 25%|██▍       | 19517/78504 [11:51:50<34:29:18,  2.10s/it] 25%|██▍       | 19518/78504 [11:51:52<33:21:38,  2.04s/it]                                                           {'loss': 0.095, 'grad_norm': 0.30214470624923706, 'learning_rate': 2.5049891724342916e-05, 'epoch': 5.97}
 25%|██▍       | 19518/78504 [11:51:52<33:21:38,  2.04s/it] 25%|██▍       | 19519/78504 [11:51:53<31:36:24,  1.93s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.5817774534225464, 'learning_rate': 2.5049467113922975e-05, 'epoch': 5.97}
 25%|██▍       | 19519/78504 [11:51:53<31:36:24,  1.93s/it] 25%|██▍       | 19520/78504 [11:51:55<30:50:05,  1.88s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.46605759859085083, 'learning_rate': 2.5049042503503037e-05, 'epoch': 5.97}
 25%|██▍       | 19520/78504 [11:51:55<30:50:05,  1.88s/it] 25%|██▍       | 19521/78504 [11:51:57<29:41:12,  1.81s/it]                                                           {'loss': 0.1233, 'grad_norm': 0.3735159635543823, 'learning_rate': 2.5048617893083095e-05, 'epoch': 5.97}
 25%|██▍       | 19521/78504 [11:51:57<29:41:12,  1.81s/it] 25%|██▍       | 19522/78504 [11:51:58<28:14:27,  1.72s/it]                                                           {'loss': 0.1454, 'grad_norm': 0.5422471165657043, 'learning_rate': 2.5048193282663157e-05, 'epoch': 5.97}
 25%|██▍       | 19522/78504 [11:51:58<28:14:27,  1.72s/it] 25%|██▍       | 19523/78504 [11:52:00<26:42:05,  1.63s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.5181217193603516, 'learning_rate': 2.5047768672243216e-05, 'epoch': 5.97}
 25%|██▍       | 19523/78504 [11:52:00<26:42:05,  1.63s/it] 25%|██▍       | 19524/78504 [11:52:01<25:37:36,  1.56s/it]                                                           {'loss': 0.1727, 'grad_norm': 6.312695026397705, 'learning_rate': 2.5047344061823278e-05, 'epoch': 5.97}
 25%|██▍       | 19524/78504 [11:52:01<25:37:36,  1.56s/it] 25%|██▍       | 19525/78504 [11:52:02<23:57:31,  1.46s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.5697810649871826, 'learning_rate': 2.5046919451403337e-05, 'epoch': 5.97}
 25%|██▍       | 19525/78504 [11:52:02<23:57:31,  1.46s/it] 25%|██▍       | 19526/78504 [11:52:03<22:24:46,  1.37s/it]                                                           {'loss': 0.1827, 'grad_norm': 1.0555455684661865, 'learning_rate': 2.50464948409834e-05, 'epoch': 5.97}
 25%|██▍       | 19526/78504 [11:52:04<22:24:46,  1.37s/it] 25%|██▍       | 19527/78504 [11:52:05<21:03:14,  1.29s/it]                                                           {'loss': 0.1634, 'grad_norm': 0.9553812146186829, 'learning_rate': 2.5046070230563458e-05, 'epoch': 5.97}
 25%|██▍       | 19527/78504 [11:52:05<21:03:14,  1.29s/it] 25%|██▍       | 19528/78504 [11:52:06<19:35:16,  1.20s/it]                                                           {'loss': 0.1969, 'grad_norm': 0.7828571200370789, 'learning_rate': 2.504564562014352e-05, 'epoch': 5.97}
 25%|██▍       | 19528/78504 [11:52:06<19:35:16,  1.20s/it] 25%|██▍       | 19529/78504 [11:52:06<18:17:12,  1.12s/it]                                                           {'loss': 0.2292, 'grad_norm': 1.2816498279571533, 'learning_rate': 2.504522100972358e-05, 'epoch': 5.97}
 25%|██▍       | 19529/78504 [11:52:07<18:17:12,  1.12s/it] 25%|██▍       | 19530/78504 [11:52:07<16:33:36,  1.01s/it]                                                           {'loss': 0.2117, 'grad_norm': 11.549436569213867, 'learning_rate': 2.504479639930364e-05, 'epoch': 5.97}
 25%|██▍       | 19530/78504 [11:52:07<16:33:36,  1.01s/it] 25%|██▍       | 19531/78504 [11:52:17<61:39:31,  3.76s/it]                                                           {'loss': 0.1401, 'grad_norm': 0.8092071413993835, 'learning_rate': 2.50443717888837e-05, 'epoch': 5.97}
 25%|██▍       | 19531/78504 [11:52:17<61:39:31,  3.76s/it] 25%|██▍       | 19532/78504 [11:52:21<58:31:41,  3.57s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.32458874583244324, 'learning_rate': 2.5043947178463758e-05, 'epoch': 5.97}
 25%|██▍       | 19532/78504 [11:52:21<58:31:41,  3.57s/it] 25%|██▍       | 19533/78504 [11:52:23<53:35:28,  3.27s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.2091149389743805, 'learning_rate': 2.504352256804382e-05, 'epoch': 5.97}
 25%|██▍       | 19533/78504 [11:52:23<53:35:28,  3.27s/it] 25%|██▍       | 19534/78504 [11:52:26<50:07:37,  3.06s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.4134000837802887, 'learning_rate': 2.504309795762388e-05, 'epoch': 5.97}
 25%|██▍       | 19534/78504 [11:52:26<50:07:37,  3.06s/it] 25%|██▍       | 19535/78504 [11:52:28<47:18:19,  2.89s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.29373034834861755, 'learning_rate': 2.504267334720394e-05, 'epoch': 5.97}
 25%|██▍       | 19535/78504 [11:52:28<47:18:19,  2.89s/it] 25%|██▍       | 19536/78504 [11:52:31<45:02:46,  2.75s/it]                                                           {'loss': 0.07, 'grad_norm': 0.25158095359802246, 'learning_rate': 2.5042248736784e-05, 'epoch': 5.97}
 25%|██▍       | 19536/78504 [11:52:31<45:02:46,  2.75s/it] 25%|██▍       | 19537/78504 [11:52:33<43:03:15,  2.63s/it]                                                           {'loss': 0.0315, 'grad_norm': 0.26633065938949585, 'learning_rate': 2.5041824126364062e-05, 'epoch': 5.97}
 25%|██▍       | 19537/78504 [11:52:33<43:03:15,  2.63s/it] 25%|██▍       | 19538/78504 [11:52:35<41:28:14,  2.53s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.3357628285884857, 'learning_rate': 2.504139951594412e-05, 'epoch': 5.97}
 25%|██▍       | 19538/78504 [11:52:35<41:28:14,  2.53s/it] 25%|██▍       | 19539/78504 [11:52:37<39:42:20,  2.42s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.4296885132789612, 'learning_rate': 2.5040974905524182e-05, 'epoch': 5.97}
 25%|██▍       | 19539/78504 [11:52:37<39:42:20,  2.42s/it] 25%|██▍       | 19540/78504 [11:52:40<38:24:51,  2.35s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.3028337359428406, 'learning_rate': 2.504055029510424e-05, 'epoch': 5.97}
 25%|██▍       | 19540/78504 [11:52:40<38:24:51,  2.35s/it] 25%|██▍       | 19541/78504 [11:52:41<35:59:44,  2.20s/it]                                                           {'loss': 0.0965, 'grad_norm': 0.25244998931884766, 'learning_rate': 2.5040125684684303e-05, 'epoch': 5.97}
 25%|██▍       | 19541/78504 [11:52:41<35:59:44,  2.20s/it] 25%|██▍       | 19542/78504 [11:52:43<34:54:21,  2.13s/it]                                                           {'loss': 0.0621, 'grad_norm': 1.3188005685806274, 'learning_rate': 2.5039701074264362e-05, 'epoch': 5.97}
 25%|██▍       | 19542/78504 [11:52:43<34:54:21,  2.13s/it] 25%|██▍       | 19543/78504 [11:52:45<33:52:08,  2.07s/it]                                                           {'loss': 0.0842, 'grad_norm': 0.6112147569656372, 'learning_rate': 2.5039276463844424e-05, 'epoch': 5.97}
 25%|██▍       | 19543/78504 [11:52:45<33:52:08,  2.07s/it] 25%|██▍       | 19544/78504 [11:52:47<32:50:53,  2.01s/it]                                                           {'loss': 0.0906, 'grad_norm': 1.105160117149353, 'learning_rate': 2.5038851853424483e-05, 'epoch': 5.97}
 25%|██▍       | 19544/78504 [11:52:47<32:50:53,  2.01s/it] 25%|██▍       | 19545/78504 [11:52:49<31:34:56,  1.93s/it]                                                           {'loss': 0.1087, 'grad_norm': 1.2796275615692139, 'learning_rate': 2.503842724300454e-05, 'epoch': 5.98}
 25%|██▍       | 19545/78504 [11:52:49<31:34:56,  1.93s/it] 25%|██▍       | 19546/78504 [11:52:51<29:50:48,  1.82s/it]                                                           {'loss': 0.1255, 'grad_norm': 0.5073051452636719, 'learning_rate': 2.5038002632584604e-05, 'epoch': 5.98}
 25%|██▍       | 19546/78504 [11:52:51<29:50:48,  1.82s/it] 25%|██▍       | 19547/78504 [11:52:52<28:17:46,  1.73s/it]                                                           {'loss': 0.1419, 'grad_norm': 0.45870164036750793, 'learning_rate': 2.5037578022164662e-05, 'epoch': 5.98}
 25%|██▍       | 19547/78504 [11:52:52<28:17:46,  1.73s/it] 25%|██▍       | 19548/78504 [11:52:54<27:13:42,  1.66s/it]                                                           {'loss': 0.1466, 'grad_norm': 0.7691488862037659, 'learning_rate': 2.5037153411744724e-05, 'epoch': 5.98}
 25%|██▍       | 19548/78504 [11:52:54<27:13:42,  1.66s/it] 25%|██▍       | 19549/78504 [11:52:55<25:58:06,  1.59s/it]                                                           {'loss': 0.1214, 'grad_norm': 0.4717442989349365, 'learning_rate': 2.5036728801324783e-05, 'epoch': 5.98}
 25%|██▍       | 19549/78504 [11:52:55<25:58:06,  1.59s/it] 25%|██▍       | 19550/78504 [11:52:56<24:28:03,  1.49s/it]                                                           {'loss': 0.1872, 'grad_norm': 0.7199065685272217, 'learning_rate': 2.5036304190904845e-05, 'epoch': 5.98}
 25%|██▍       | 19550/78504 [11:52:56<24:28:03,  1.49s/it] 25%|██▍       | 19551/78504 [11:52:57<22:45:09,  1.39s/it]                                                           {'loss': 0.1563, 'grad_norm': 0.7708861827850342, 'learning_rate': 2.5035879580484904e-05, 'epoch': 5.98}
 25%|██▍       | 19551/78504 [11:52:57<22:45:09,  1.39s/it] 25%|██▍       | 19552/78504 [11:52:58<21:16:06,  1.30s/it]                                                           {'loss': 0.1879, 'grad_norm': 0.8596890568733215, 'learning_rate': 2.5035454970064966e-05, 'epoch': 5.98}
 25%|██▍       | 19552/78504 [11:52:58<21:16:06,  1.30s/it] 25%|██▍       | 19553/78504 [11:53:00<19:57:47,  1.22s/it]                                                           {'loss': 0.1629, 'grad_norm': 1.019743800163269, 'learning_rate': 2.5035030359645025e-05, 'epoch': 5.98}
 25%|██▍       | 19553/78504 [11:53:00<19:57:47,  1.22s/it] 25%|██▍       | 19554/78504 [11:53:00<18:27:58,  1.13s/it]                                                           {'loss': 0.2052, 'grad_norm': 4.502157211303711, 'learning_rate': 2.5034605749225087e-05, 'epoch': 5.98}
 25%|██▍       | 19554/78504 [11:53:00<18:27:58,  1.13s/it] 25%|██▍       | 19555/78504 [11:53:01<16:46:06,  1.02s/it]                                                           {'loss': 0.2525, 'grad_norm': 1.8829307556152344, 'learning_rate': 2.5034181138805145e-05, 'epoch': 5.98}
 25%|██▍       | 19555/78504 [11:53:01<16:46:06,  1.02s/it] 25%|██▍       | 19556/78504 [11:53:11<58:27:32,  3.57s/it]                                                           {'loss': 0.1344, 'grad_norm': 0.8420386910438538, 'learning_rate': 2.5033756528385207e-05, 'epoch': 5.98}
 25%|██▍       | 19556/78504 [11:53:11<58:27:32,  3.57s/it] 25%|██▍       | 19557/78504 [11:53:14<56:11:59,  3.43s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.2856535315513611, 'learning_rate': 2.5033331917965266e-05, 'epoch': 5.98}
 25%|██▍       | 19557/78504 [11:53:14<56:11:59,  3.43s/it] 25%|██▍       | 19558/78504 [11:53:17<53:57:25,  3.30s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.28210267424583435, 'learning_rate': 2.5032907307545325e-05, 'epoch': 5.98}
 25%|██▍       | 19558/78504 [11:53:17<53:57:25,  3.30s/it] 25%|██▍       | 19559/78504 [11:53:19<50:35:26,  3.09s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.28120824694633484, 'learning_rate': 2.5032482697125387e-05, 'epoch': 5.98}
 25%|██▍       | 19559/78504 [11:53:19<50:35:26,  3.09s/it] 25%|██▍       | 19560/78504 [11:53:22<47:28:20,  2.90s/it]                                                           {'loss': 0.045, 'grad_norm': 0.18178091943264008, 'learning_rate': 2.5032058086705446e-05, 'epoch': 5.98}
 25%|██▍       | 19560/78504 [11:53:22<47:28:20,  2.90s/it] 25%|██▍       | 19561/78504 [11:53:24<44:20:09,  2.71s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.28960031270980835, 'learning_rate': 2.5031633476285508e-05, 'epoch': 5.98}
 25%|██▍       | 19561/78504 [11:53:24<44:20:09,  2.71s/it] 25%|██▍       | 19562/78504 [11:53:26<42:22:48,  2.59s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.2327905148267746, 'learning_rate': 2.5031208865865566e-05, 'epoch': 5.98}
 25%|██▍       | 19562/78504 [11:53:26<42:22:48,  2.59s/it] 25%|██▍       | 19563/78504 [11:53:29<39:54:40,  2.44s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.18513278663158417, 'learning_rate': 2.503078425544563e-05, 'epoch': 5.98}
 25%|██▍       | 19563/78504 [11:53:29<39:54:40,  2.44s/it] 25%|██▍       | 19564/78504 [11:53:31<38:38:28,  2.36s/it]                                                           {'loss': 0.0844, 'grad_norm': 0.22318772971630096, 'learning_rate': 2.5030359645025687e-05, 'epoch': 5.98}
 25%|██▍       | 19564/78504 [11:53:31<38:38:28,  2.36s/it] 25%|██▍       | 19565/78504 [11:53:33<37:38:48,  2.30s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.21850377321243286, 'learning_rate': 2.502993503460575e-05, 'epoch': 5.98}
 25%|██▍       | 19565/78504 [11:53:33<37:38:48,  2.30s/it] 25%|██▍       | 19566/78504 [11:53:35<36:16:42,  2.22s/it]                                                           {'loss': 0.1053, 'grad_norm': 0.5177920460700989, 'learning_rate': 2.5029510424185808e-05, 'epoch': 5.98}
 25%|██▍       | 19566/78504 [11:53:35<36:16:42,  2.22s/it] 25%|██▍       | 19567/78504 [11:53:37<35:07:14,  2.15s/it]                                                           {'loss': 0.0903, 'grad_norm': 0.44628655910491943, 'learning_rate': 2.502908581376587e-05, 'epoch': 5.98}
 25%|██▍       | 19567/78504 [11:53:37<35:07:14,  2.15s/it] 25%|██▍       | 19568/78504 [11:53:39<33:46:41,  2.06s/it]                                                           {'loss': 0.0699, 'grad_norm': 0.43890196084976196, 'learning_rate': 2.5028661203345932e-05, 'epoch': 5.98}
 25%|██▍       | 19568/78504 [11:53:39<33:46:41,  2.06s/it] 25%|██▍       | 19569/78504 [11:53:41<32:45:52,  2.00s/it]                                                           {'loss': 0.1446, 'grad_norm': 0.528836190700531, 'learning_rate': 2.5028236592925994e-05, 'epoch': 5.98}
 25%|██▍       | 19569/78504 [11:53:41<32:45:52,  2.00s/it] 25%|██▍       | 19570/78504 [11:53:42<31:33:17,  1.93s/it]                                                           {'loss': 0.1196, 'grad_norm': 1.7460819482803345, 'learning_rate': 2.5027811982506053e-05, 'epoch': 5.98}
 25%|██▍       | 19570/78504 [11:53:42<31:33:17,  1.93s/it] 25%|██▍       | 19571/78504 [11:53:44<30:08:38,  1.84s/it]                                                           {'loss': 0.1561, 'grad_norm': 14.803101539611816, 'learning_rate': 2.5027387372086112e-05, 'epoch': 5.98}
 25%|██▍       | 19571/78504 [11:53:44<30:08:38,  1.84s/it] 25%|██▍       | 19572/78504 [11:53:46<28:37:57,  1.75s/it]                                                           {'loss': 0.1778, 'grad_norm': 0.7834157943725586, 'learning_rate': 2.5026962761666174e-05, 'epoch': 5.98}
 25%|██▍       | 19572/78504 [11:53:46<28:37:57,  1.75s/it] 25%|██▍       | 19573/78504 [11:53:47<27:27:36,  1.68s/it]                                                           {'loss': 0.2116, 'grad_norm': 0.6418386101722717, 'learning_rate': 2.5026538151246232e-05, 'epoch': 5.98}
 25%|██▍       | 19573/78504 [11:53:47<27:27:36,  1.68s/it] 25%|██▍       | 19574/78504 [11:53:48<26:02:01,  1.59s/it]                                                           {'loss': 0.1744, 'grad_norm': 1.1294807195663452, 'learning_rate': 2.5026113540826295e-05, 'epoch': 5.98}
 25%|██▍       | 19574/78504 [11:53:48<26:02:01,  1.59s/it] 25%|██▍       | 19575/78504 [11:53:50<24:29:24,  1.50s/it]                                                           {'loss': 0.1908, 'grad_norm': 0.7583065629005432, 'learning_rate': 2.5025688930406353e-05, 'epoch': 5.98}
 25%|██▍       | 19575/78504 [11:53:50<24:29:24,  1.50s/it] 25%|██▍       | 19576/78504 [11:53:51<22:45:27,  1.39s/it]                                                           {'loss': 0.1528, 'grad_norm': 2.665764570236206, 'learning_rate': 2.5025264319986415e-05, 'epoch': 5.98}
 25%|██▍       | 19576/78504 [11:53:51<22:45:27,  1.39s/it] 25%|██▍       | 19577/78504 [11:53:52<21:14:49,  1.30s/it]                                                           {'loss': 0.1778, 'grad_norm': 0.7799127697944641, 'learning_rate': 2.5024839709566474e-05, 'epoch': 5.99}
 25%|██▍       | 19577/78504 [11:53:52<21:14:49,  1.30s/it] 25%|██▍       | 19578/78504 [11:53:53<19:59:11,  1.22s/it]                                                           {'loss': 0.1621, 'grad_norm': 1.3619141578674316, 'learning_rate': 2.5024415099146536e-05, 'epoch': 5.99}
 25%|██▍       | 19578/78504 [11:53:53<19:59:11,  1.22s/it] 25%|██▍       | 19579/78504 [11:53:54<18:30:31,  1.13s/it]                                                           {'loss': 0.1626, 'grad_norm': 0.6861135363578796, 'learning_rate': 2.5023990488726595e-05, 'epoch': 5.99}
 25%|██▍       | 19579/78504 [11:53:54<18:30:31,  1.13s/it] 25%|██▍       | 19580/78504 [11:53:55<16:45:24,  1.02s/it]                                                           {'loss': 0.2781, 'grad_norm': 1.0758802890777588, 'learning_rate': 2.5023565878306657e-05, 'epoch': 5.99}
 25%|██▍       | 19580/78504 [11:53:55<16:45:24,  1.02s/it] 25%|██▍       | 19581/78504 [11:54:04<57:00:37,  3.48s/it]                                                           {'loss': 0.1355, 'grad_norm': 0.5714113712310791, 'learning_rate': 2.5023141267886716e-05, 'epoch': 5.99}
 25%|██▍       | 19581/78504 [11:54:04<57:00:37,  3.48s/it] 25%|██▍       | 19582/78504 [11:54:07<55:10:15,  3.37s/it]                                                           {'loss': 0.0858, 'grad_norm': 0.22001738846302032, 'learning_rate': 2.5022716657466778e-05, 'epoch': 5.99}
 25%|██▍       | 19582/78504 [11:54:07<55:10:15,  3.37s/it] 25%|██▍       | 19583/78504 [11:54:10<53:25:13,  3.26s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.6732701063156128, 'learning_rate': 2.5022292047046836e-05, 'epoch': 5.99}
 25%|██▍       | 19583/78504 [11:54:10<53:25:13,  3.26s/it] 25%|██▍       | 19584/78504 [11:54:12<49:14:32,  3.01s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.5018265843391418, 'learning_rate': 2.5021867436626895e-05, 'epoch': 5.99}
 25%|██▍       | 19584/78504 [11:54:12<49:14:32,  3.01s/it] 25%|██▍       | 19585/78504 [11:54:15<46:36:01,  2.85s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.19145376980304718, 'learning_rate': 2.5021442826206957e-05, 'epoch': 5.99}
 25%|██▍       | 19585/78504 [11:54:15<46:36:01,  2.85s/it] 25%|██▍       | 19586/78504 [11:54:17<44:31:13,  2.72s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.326712042093277, 'learning_rate': 2.5021018215787016e-05, 'epoch': 5.99}
 25%|██▍       | 19586/78504 [11:54:17<44:31:13,  2.72s/it] 25%|██▍       | 19587/78504 [11:54:20<42:30:10,  2.60s/it]                                                           {'loss': 0.0499, 'grad_norm': 0.4448851943016052, 'learning_rate': 2.5020593605367078e-05, 'epoch': 5.99}
 25%|██▍       | 19587/78504 [11:54:20<42:30:10,  2.60s/it] 25%|██▍       | 19588/78504 [11:54:22<40:06:07,  2.45s/it]                                                           {'loss': 0.0559, 'grad_norm': 0.2647816240787506, 'learning_rate': 2.5020168994947137e-05, 'epoch': 5.99}
 25%|██▍       | 19588/78504 [11:54:22<40:06:07,  2.45s/it] 25%|██▍       | 19589/78504 [11:54:24<38:46:59,  2.37s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.7183878421783447, 'learning_rate': 2.50197443845272e-05, 'epoch': 5.99}
 25%|██▍       | 19589/78504 [11:54:24<38:46:59,  2.37s/it] 25%|██▍       | 19590/78504 [11:54:26<37:47:43,  2.31s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.47890540957450867, 'learning_rate': 2.5019319774107258e-05, 'epoch': 5.99}
 25%|██▍       | 19590/78504 [11:54:26<37:47:43,  2.31s/it] 25%|██▍       | 19591/78504 [11:54:28<35:31:25,  2.17s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.32270529866218567, 'learning_rate': 2.501889516368732e-05, 'epoch': 5.99}
 25%|██▍       | 19591/78504 [11:54:28<35:31:25,  2.17s/it] 25%|██▍       | 19592/78504 [11:54:30<34:36:30,  2.11s/it]                                                           {'loss': 0.096, 'grad_norm': 0.4088325798511505, 'learning_rate': 2.5018470553267378e-05, 'epoch': 5.99}
 25%|██▍       | 19592/78504 [11:54:30<34:36:30,  2.11s/it] 25%|██▍       | 19593/78504 [11:54:32<33:37:43,  2.06s/it]                                                           {'loss': 0.1076, 'grad_norm': 0.34805288910865784, 'learning_rate': 2.501804594284744e-05, 'epoch': 5.99}
 25%|██▍       | 19593/78504 [11:54:32<33:37:43,  2.06s/it] 25%|██▍       | 19594/78504 [11:54:34<32:39:06,  2.00s/it]                                                           {'loss': 0.1411, 'grad_norm': 0.7529622316360474, 'learning_rate': 2.50176213324275e-05, 'epoch': 5.99}
 25%|██▍       | 19594/78504 [11:54:34<32:39:06,  2.00s/it] 25%|██▍       | 19595/78504 [11:54:35<31:28:53,  1.92s/it]                                                           {'loss': 0.118, 'grad_norm': 0.394332617521286, 'learning_rate': 2.501719672200756e-05, 'epoch': 5.99}
 25%|██▍       | 19595/78504 [11:54:35<31:28:53,  1.92s/it] 25%|██▍       | 19596/78504 [11:54:37<29:49:41,  1.82s/it]                                                           {'loss': 0.0916, 'grad_norm': 0.43290090560913086, 'learning_rate': 2.501677211158762e-05, 'epoch': 5.99}
 25%|██▍       | 19596/78504 [11:54:37<29:49:41,  1.82s/it] 25%|██▍       | 19597/78504 [11:54:39<28:13:40,  1.73s/it]                                                           {'loss': 0.1445, 'grad_norm': 0.877945601940155, 'learning_rate': 2.501634750116768e-05, 'epoch': 5.99}
 25%|██▍       | 19597/78504 [11:54:39<28:13:40,  1.73s/it] 25%|██▍       | 19598/78504 [11:54:40<27:08:44,  1.66s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.42660650610923767, 'learning_rate': 2.501592289074774e-05, 'epoch': 5.99}
 25%|██▍       | 19598/78504 [11:54:40<27:08:44,  1.66s/it] 25%|██▍       | 19599/78504 [11:54:41<25:56:31,  1.59s/it]                                                           {'loss': 0.1495, 'grad_norm': 0.5819357633590698, 'learning_rate': 2.50154982803278e-05, 'epoch': 5.99}
 25%|██▍       | 19599/78504 [11:54:41<25:56:31,  1.59s/it] 25%|██▍       | 19600/78504 [11:54:43<24:26:26,  1.49s/it]                                                           {'loss': 0.1421, 'grad_norm': 1.1735187768936157, 'learning_rate': 2.501507366990786e-05, 'epoch': 5.99}
 25%|██▍       | 19600/78504 [11:54:43<24:26:26,  1.49s/it] 25%|██▍       | 19601/78504 [11:54:44<22:57:55,  1.40s/it]                                                           {'loss': 0.1937, 'grad_norm': 1.3237652778625488, 'learning_rate': 2.501464905948792e-05, 'epoch': 5.99}
 25%|██▍       | 19601/78504 [11:54:44<22:57:55,  1.40s/it] 25%|██▍       | 19602/78504 [11:54:45<21:20:38,  1.30s/it]                                                           {'loss': 0.1741, 'grad_norm': 1.955494999885559, 'learning_rate': 2.5014224449067982e-05, 'epoch': 5.99}
 25%|██▍       | 19602/78504 [11:54:45<21:20:38,  1.30s/it] 25%|██▍       | 19603/78504 [11:54:46<20:02:23,  1.22s/it]                                                           {'loss': 0.1766, 'grad_norm': 1.2559304237365723, 'learning_rate': 2.501379983864804e-05, 'epoch': 5.99}
 25%|██▍       | 19603/78504 [11:54:46<20:02:23,  1.22s/it] 25%|██▍       | 19604/78504 [11:54:47<18:33:33,  1.13s/it]                                                           {'loss': 0.184, 'grad_norm': 0.6370802521705627, 'learning_rate': 2.5013375228228103e-05, 'epoch': 5.99}
 25%|██▍       | 19604/78504 [11:54:47<18:33:33,  1.13s/it] 25%|██▍       | 19605/78504 [11:54:48<16:48:11,  1.03s/it]                                                           {'loss': 0.2139, 'grad_norm': 1.8884328603744507, 'learning_rate': 2.5012950617808162e-05, 'epoch': 5.99}
 25%|██▍       | 19605/78504 [11:54:48<16:48:11,  1.03s/it] 25%|██▍       | 19606/78504 [11:54:57<57:54:16,  3.54s/it]                                                           {'loss': 0.1537, 'grad_norm': 0.4733698070049286, 'learning_rate': 2.5012526007388224e-05, 'epoch': 5.99}
 25%|██▍       | 19606/78504 [11:54:57<57:54:16,  3.54s/it] 25%|██▍       | 19607/78504 [11:55:00<56:24:39,  3.45s/it]                                                           {'loss': 0.1036, 'grad_norm': 0.31924986839294434, 'learning_rate': 2.5012101396968283e-05, 'epoch': 5.99}
 25%|██▍       | 19607/78504 [11:55:00<56:24:39,  3.45s/it] 25%|██▍       | 19608/78504 [11:55:03<53:48:20,  3.29s/it]                                                           {'loss': 0.0477, 'grad_norm': 0.24746398627758026, 'learning_rate': 2.501167678654834e-05, 'epoch': 5.99}
 25%|██▍       | 19608/78504 [11:55:03<53:48:20,  3.29s/it] 25%|██▍       | 19609/78504 [11:55:06<49:50:12,  3.05s/it]                                                           {'loss': 0.0482, 'grad_norm': 0.31354594230651855, 'learning_rate': 2.5011252176128403e-05, 'epoch': 5.99}
 25%|██▍       | 19609/78504 [11:55:06<49:50:12,  3.05s/it] 25%|██▍       | 19610/78504 [11:55:08<46:52:23,  2.87s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.13765211403369904, 'learning_rate': 2.5010827565708462e-05, 'epoch': 6.0}
 25%|██▍       | 19610/78504 [11:55:08<46:52:23,  2.87s/it] 25%|██▍       | 19611/78504 [11:55:10<44:04:24,  2.69s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.2699909806251526, 'learning_rate': 2.5010402955288524e-05, 'epoch': 6.0}
 25%|██▍       | 19611/78504 [11:55:11<44:04:24,  2.69s/it] 25%|██▍       | 19612/78504 [11:55:13<41:54:15,  2.56s/it]                                                           {'loss': 0.0708, 'grad_norm': 0.20700767636299133, 'learning_rate': 2.5009978344868583e-05, 'epoch': 6.0}
 25%|██▍       | 19612/78504 [11:55:13<41:54:15,  2.56s/it] 25%|██▍       | 19613/78504 [11:55:15<40:01:16,  2.45s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.4271169602870941, 'learning_rate': 2.5009553734448645e-05, 'epoch': 6.0}
 25%|██▍       | 19613/78504 [11:55:15<40:01:16,  2.45s/it] 25%|██▍       | 19614/78504 [11:55:17<37:05:32,  2.27s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.4340328574180603, 'learning_rate': 2.5009129124028704e-05, 'epoch': 6.0}
 25%|██▍       | 19614/78504 [11:55:17<37:05:32,  2.27s/it] 25%|██▍       | 19615/78504 [11:55:19<35:39:50,  2.18s/it]                                                           {'loss': 0.0907, 'grad_norm': 0.3136501610279083, 'learning_rate': 2.5008704513608766e-05, 'epoch': 6.0}
 25%|██▍       | 19615/78504 [11:55:19<35:39:50,  2.18s/it] 25%|██▍       | 19616/78504 [11:55:21<34:05:19,  2.08s/it]                                                           {'loss': 0.081, 'grad_norm': 0.2974627912044525, 'learning_rate': 2.5008279903188824e-05, 'epoch': 6.0}
 25%|██▍       | 19616/78504 [11:55:21<34:05:19,  2.08s/it] 25%|██▍       | 19617/78504 [11:55:22<32:47:08,  2.00s/it]                                                           {'loss': 0.1113, 'grad_norm': 0.40147215127944946, 'learning_rate': 2.5007855292768886e-05, 'epoch': 6.0}
 25%|██▍       | 19617/78504 [11:55:22<32:47:08,  2.00s/it] 25%|██▍       | 19618/78504 [11:55:24<31:20:08,  1.92s/it]                                                           {'loss': 0.1069, 'grad_norm': 0.4122265875339508, 'learning_rate': 2.5007430682348945e-05, 'epoch': 6.0}
 25%|██▍       | 19618/78504 [11:55:24<31:20:08,  1.92s/it] 25%|██▍       | 19619/78504 [11:55:26<29:28:35,  1.80s/it]                                                           {'loss': 0.1585, 'grad_norm': 0.6440460085868835, 'learning_rate': 2.5007006071929007e-05, 'epoch': 6.0}
 25%|██▍       | 19619/78504 [11:55:26<29:28:35,  1.80s/it] 25%|██▍       | 19620/78504 [11:55:27<27:46:10,  1.70s/it]                                                           {'loss': 0.1467, 'grad_norm': 0.45459091663360596, 'learning_rate': 2.5006581461509066e-05, 'epoch': 6.0}
 25%|██▍       | 19620/78504 [11:55:27<27:46:10,  1.70s/it] 25%|██▍       | 19621/78504 [11:55:29<26:21:01,  1.61s/it]                                                           {'loss': 0.1558, 'grad_norm': 0.7922104001045227, 'learning_rate': 2.5006156851089125e-05, 'epoch': 6.0}
 25%|██▍       | 19621/78504 [11:55:29<26:21:01,  1.61s/it] 25%|██▍       | 19622/78504 [11:55:30<24:22:13,  1.49s/it]                                                           {'loss': 0.1813, 'grad_norm': 0.5950323939323425, 'learning_rate': 2.5005732240669187e-05, 'epoch': 6.0}
 25%|██▍       | 19622/78504 [11:55:30<24:22:13,  1.49s/it] 25%|██▍       | 19623/78504 [11:55:31<22:20:24,  1.37s/it]                                                           {'loss': 0.1949, 'grad_norm': 1.681985855102539, 'learning_rate': 2.5005307630249245e-05, 'epoch': 6.0}
 25%|██▍       | 19623/78504 [11:55:31<22:20:24,  1.37s/it] 25%|██▍       | 19624/78504 [11:55:32<20:27:21,  1.25s/it]                                                           {'loss': 0.1664, 'grad_norm': 1.9843248128890991, 'learning_rate': 2.5004883019829308e-05, 'epoch': 6.0}
 25%|██▍       | 19624/78504 [11:55:32<20:27:21,  1.25s/it] 25%|██▍       | 19625/78504 [11:55:33<18:33:04,  1.13s/it]                                                           {'loss': 0.2272, 'grad_norm': 1.6840102672576904, 'learning_rate': 2.5004458409409366e-05, 'epoch': 6.0}
 25%|██▍       | 19625/78504 [11:55:33<18:33:04,  1.13s/it] 25%|██▌       | 19626/78504 [11:55:45<74:40:29,  4.57s/it]                                                           {'loss': 0.2045, 'grad_norm': 1.1381633281707764, 'learning_rate': 2.5004033798989428e-05, 'epoch': 6.0}
 25%|██▌       | 19626/78504 [11:55:45<74:40:29,  4.57s/it] 25%|██▌       | 19627/78504 [11:56:12<184:47:58, 11.30s/it]                                                            {'loss': 0.1524, 'grad_norm': 0.34952595829963684, 'learning_rate': 2.5003609188569487e-05, 'epoch': 6.0}
 25%|██▌       | 19627/78504 [11:56:12<184:47:58, 11.30s/it] 25%|██▌       | 19628/78504 [11:56:15<143:34:53,  8.78s/it]                                                            {'loss': 0.0741, 'grad_norm': 0.2995494306087494, 'learning_rate': 2.500318457814955e-05, 'epoch': 6.0}
 25%|██▌       | 19628/78504 [11:56:15<143:34:53,  8.78s/it] 25%|██▌       | 19629/78504 [11:56:18<114:03:35,  6.97s/it]                                                            {'loss': 0.0604, 'grad_norm': 0.17897705733776093, 'learning_rate': 2.5002759967729608e-05, 'epoch': 6.0}
 25%|██▌       | 19629/78504 [11:56:18<114:03:35,  6.97s/it] 25%|██▌       | 19630/78504 [11:56:21<92:39:22,  5.67s/it]                                                            {'loss': 0.0497, 'grad_norm': 0.2088368535041809, 'learning_rate': 2.500233535730967e-05, 'epoch': 6.0}
 25%|██▌       | 19630/78504 [11:56:21<92:39:22,  5.67s/it] 25%|██▌       | 19631/78504 [11:56:23<76:55:24,  4.70s/it]                                                           {'loss': 0.0437, 'grad_norm': 0.9484440684318542, 'learning_rate': 2.500191074688973e-05, 'epoch': 6.0}
 25%|██▌       | 19631/78504 [11:56:23<76:55:24,  4.70s/it] 25%|██▌       | 19632/78504 [11:56:25<64:55:44,  3.97s/it]                                                           {'loss': 0.0352, 'grad_norm': 0.12535977363586426, 'learning_rate': 2.500148613646979e-05, 'epoch': 6.0}
 25%|██▌       | 19632/78504 [11:56:25<64:55:44,  3.97s/it] 25%|██▌       | 19633/78504 [11:56:28<56:45:27,  3.47s/it]                                                           {'loss': 0.0549, 'grad_norm': 0.22380635142326355, 'learning_rate': 2.500106152604985e-05, 'epoch': 6.0}
 25%|██▌       | 19633/78504 [11:56:28<56:45:27,  3.47s/it] 25%|██▌       | 19634/78504 [11:56:30<50:02:14,  3.06s/it]                                                           {'loss': 0.0999, 'grad_norm': 0.4616662859916687, 'learning_rate': 2.5000636915629908e-05, 'epoch': 6.0}
 25%|██▌       | 19634/78504 [11:56:30<50:02:14,  3.06s/it] 25%|██▌       | 19635/78504 [11:56:32<45:43:50,  2.80s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.31804221868515015, 'learning_rate': 2.500021230520997e-05, 'epoch': 6.0}
 25%|██▌       | 19635/78504 [11:56:32<45:43:50,  2.80s/it] 25%|██▌       | 19636/78504 [11:56:34<42:35:52,  2.61s/it]                                                           {'loss': 0.0471, 'grad_norm': 0.5451232194900513, 'learning_rate': 2.499978769479003e-05, 'epoch': 6.0}
 25%|██▌       | 19636/78504 [11:56:34<42:35:52,  2.61s/it] 25%|██▌       | 19637/78504 [11:56:36<39:45:05,  2.43s/it]                                                           {'loss': 0.1081, 'grad_norm': 0.2553704082965851, 'learning_rate': 2.499936308437009e-05, 'epoch': 6.0}
 25%|██▌       | 19637/78504 [11:56:36<39:45:05,  2.43s/it] 25%|██▌       | 19638/78504 [11:56:38<37:31:43,  2.30s/it]                                                           {'loss': 0.0899, 'grad_norm': 0.26924532651901245, 'learning_rate': 2.499893847395015e-05, 'epoch': 6.0}
 25%|██▌       | 19638/78504 [11:56:38<37:31:43,  2.30s/it] 25%|██▌       | 19639/78504 [11:56:40<35:39:09,  2.18s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.5008813142776489, 'learning_rate': 2.4998513863530212e-05, 'epoch': 6.0}
 25%|██▌       | 19639/78504 [11:56:40<35:39:09,  2.18s/it] 25%|██▌       | 19640/78504 [11:56:42<34:05:09,  2.08s/it]                                                           {'loss': 0.1235, 'grad_norm': 0.4848710000514984, 'learning_rate': 2.499808925311027e-05, 'epoch': 6.0}
 25%|██▌       | 19640/78504 [11:56:42<34:05:09,  2.08s/it] 25%|██▌       | 19641/78504 [11:56:43<32:17:27,  1.97s/it]                                                           {'loss': 0.1149, 'grad_norm': 0.388339102268219, 'learning_rate': 2.4997664642690333e-05, 'epoch': 6.0}
 25%|██▌       | 19641/78504 [11:56:44<32:17:27,  1.97s/it] 25%|██▌       | 19642/78504 [11:56:45<30:38:41,  1.87s/it]                                                           {'loss': 0.1356, 'grad_norm': 0.6681573390960693, 'learning_rate': 2.499724003227039e-05, 'epoch': 6.0}
 25%|██▌       | 19642/78504 [11:56:45<30:38:41,  1.87s/it] 25%|██▌       | 19643/78504 [11:56:47<28:53:43,  1.77s/it]                                                           {'loss': 0.1667, 'grad_norm': 2.147925853729248, 'learning_rate': 2.4996815421850453e-05, 'epoch': 6.01}
 25%|██▌       | 19643/78504 [11:56:47<28:53:43,  1.77s/it] 25%|██▌       | 19644/78504 [11:56:48<27:15:53,  1.67s/it]                                                           {'loss': 0.1673, 'grad_norm': 0.7772433161735535, 'learning_rate': 2.4996390811430512e-05, 'epoch': 6.01}
 25%|██▌       | 19644/78504 [11:56:48<27:15:53,  1.67s/it] 25%|██▌       | 19645/78504 [11:56:49<26:02:18,  1.59s/it]                                                           {'loss': 0.1618, 'grad_norm': 0.48681193590164185, 'learning_rate': 2.4995966201010574e-05, 'epoch': 6.01}
 25%|██▌       | 19645/78504 [11:56:50<26:02:18,  1.59s/it] 25%|██▌       | 19646/78504 [11:56:51<24:12:57,  1.48s/it]                                                           {'loss': 0.1581, 'grad_norm': 0.6073489189147949, 'learning_rate': 2.4995541590590633e-05, 'epoch': 6.01}
 25%|██▌       | 19646/78504 [11:56:51<24:12:57,  1.48s/it] 25%|██▌       | 19647/78504 [11:56:52<22:29:55,  1.38s/it]                                                           {'loss': 0.1496, 'grad_norm': 0.4532187879085541, 'learning_rate': 2.499511698017069e-05, 'epoch': 6.01}
 25%|██▌       | 19647/78504 [11:56:52<22:29:55,  1.38s/it] 25%|██▌       | 19648/78504 [11:56:53<21:08:16,  1.29s/it]                                                           {'loss': 0.1834, 'grad_norm': 0.9044231176376343, 'learning_rate': 2.4994692369750754e-05, 'epoch': 6.01}
 25%|██▌       | 19648/78504 [11:56:53<21:08:16,  1.29s/it] 25%|██▌       | 19649/78504 [11:56:54<19:41:06,  1.20s/it]                                                           {'loss': 0.1862, 'grad_norm': 1.0255244970321655, 'learning_rate': 2.4994267759330812e-05, 'epoch': 6.01}
 25%|██▌       | 19649/78504 [11:56:54<19:41:06,  1.20s/it] 25%|██▌       | 19650/78504 [11:56:55<18:22:45,  1.12s/it]                                                           {'loss': 0.2057, 'grad_norm': 1.41958487033844, 'learning_rate': 2.4993843148910874e-05, 'epoch': 6.01}
 25%|██▌       | 19650/78504 [11:56:55<18:22:45,  1.12s/it] 25%|██▌       | 19651/78504 [11:56:56<16:39:28,  1.02s/it]                                                           {'loss': 0.2864, 'grad_norm': 1.3323336839675903, 'learning_rate': 2.4993418538490933e-05, 'epoch': 6.01}
 25%|██▌       | 19651/78504 [11:56:56<16:39:28,  1.02s/it] 25%|██▌       | 19652/78504 [11:57:05<57:44:13,  3.53s/it]                                                           {'loss': 0.1217, 'grad_norm': 0.287812739610672, 'learning_rate': 2.4992993928070995e-05, 'epoch': 6.01}
 25%|██▌       | 19652/78504 [11:57:05<57:44:13,  3.53s/it] 25%|██▌       | 19653/78504 [11:57:08<55:33:32,  3.40s/it]                                                           {'loss': 0.0791, 'grad_norm': 0.24882523715496063, 'learning_rate': 2.4992569317651054e-05, 'epoch': 6.01}
 25%|██▌       | 19653/78504 [11:57:08<55:33:32,  3.40s/it] 25%|██▌       | 19654/78504 [11:57:11<52:30:09,  3.21s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.4178329110145569, 'learning_rate': 2.4992144707231116e-05, 'epoch': 6.01}
 25%|██▌       | 19654/78504 [11:57:11<52:30:09,  3.21s/it] 25%|██▌       | 19655/78504 [11:57:13<48:34:16,  2.97s/it]                                                           {'loss': 0.0794, 'grad_norm': 0.16728951036930084, 'learning_rate': 2.4991720096811175e-05, 'epoch': 6.01}
 25%|██▌       | 19655/78504 [11:57:13<48:34:16,  2.97s/it] 25%|██▌       | 19656/78504 [11:57:16<46:06:57,  2.82s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.30056172609329224, 'learning_rate': 2.4991295486391237e-05, 'epoch': 6.01}
 25%|██▌       | 19656/78504 [11:57:16<46:06:57,  2.82s/it] 25%|██▌       | 19657/78504 [11:57:18<44:09:54,  2.70s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.17148078978061676, 'learning_rate': 2.4990870875971295e-05, 'epoch': 6.01}
 25%|██▌       | 19657/78504 [11:57:18<44:09:54,  2.70s/it] 25%|██▌       | 19658/78504 [11:57:21<42:16:19,  2.59s/it]                                                           {'loss': 0.0438, 'grad_norm': 0.31725725531578064, 'learning_rate': 2.4990446265551358e-05, 'epoch': 6.01}
 25%|██▌       | 19658/78504 [11:57:21<42:16:19,  2.59s/it] 25%|██▌       | 19659/78504 [11:57:23<40:52:44,  2.50s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.18021926283836365, 'learning_rate': 2.4990021655131416e-05, 'epoch': 6.01}
 25%|██▌       | 19659/78504 [11:57:23<40:52:44,  2.50s/it] 25%|██▌       | 19660/78504 [11:57:25<39:20:16,  2.41s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.26388242840766907, 'learning_rate': 2.4989597044711475e-05, 'epoch': 6.01}
 25%|██▌       | 19660/78504 [11:57:25<39:20:16,  2.41s/it] 25%|██▌       | 19661/78504 [11:57:27<38:09:14,  2.33s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.24389494955539703, 'learning_rate': 2.4989172434291537e-05, 'epoch': 6.01}
 25%|██▌       | 19661/78504 [11:57:27<38:09:14,  2.33s/it] 25%|██▌       | 19662/78504 [11:57:29<35:46:36,  2.19s/it]                                                           {'loss': 0.0993, 'grad_norm': 0.5069573521614075, 'learning_rate': 2.4988747823871596e-05, 'epoch': 6.01}
 25%|██▌       | 19662/78504 [11:57:29<35:46:36,  2.19s/it] 25%|██▌       | 19663/78504 [11:57:31<34:44:15,  2.13s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.4760988652706146, 'learning_rate': 2.4988323213451658e-05, 'epoch': 6.01}
 25%|██▌       | 19663/78504 [11:57:31<34:44:15,  2.13s/it] 25%|██▌       | 19664/78504 [11:57:33<33:42:34,  2.06s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.25795963406562805, 'learning_rate': 2.4987898603031716e-05, 'epoch': 6.01}
 25%|██▌       | 19664/78504 [11:57:33<33:42:34,  2.06s/it] 25%|██▌       | 19665/78504 [11:57:35<32:47:53,  2.01s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.2391241490840912, 'learning_rate': 2.498747399261178e-05, 'epoch': 6.01}
 25%|██▌       | 19665/78504 [11:57:35<32:47:53,  2.01s/it] 25%|██▌       | 19666/78504 [11:57:37<31:36:35,  1.93s/it]                                                           {'loss': 0.1151, 'grad_norm': 0.5070210695266724, 'learning_rate': 2.4987049382191837e-05, 'epoch': 6.01}
 25%|██▌       | 19666/78504 [11:57:37<31:36:35,  1.93s/it] 25%|██▌       | 19667/78504 [11:57:38<29:51:40,  1.83s/it]                                                           {'loss': 0.1102, 'grad_norm': 0.5113363265991211, 'learning_rate': 2.49866247717719e-05, 'epoch': 6.01}
 25%|██▌       | 19667/78504 [11:57:38<29:51:40,  1.83s/it] 25%|██▌       | 19668/78504 [11:57:40<28:26:48,  1.74s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.33754050731658936, 'learning_rate': 2.4986200161351958e-05, 'epoch': 6.01}
 25%|██▌       | 19668/78504 [11:57:40<28:26:48,  1.74s/it] 25%|██▌       | 19669/78504 [11:57:41<27:19:10,  1.67s/it]                                                           {'loss': 0.1397, 'grad_norm': 0.6806614995002747, 'learning_rate': 2.498577555093202e-05, 'epoch': 6.01}
 25%|██▌       | 19669/78504 [11:57:41<27:19:10,  1.67s/it] 25%|██▌       | 19670/78504 [11:57:43<25:56:29,  1.59s/it]                                                           {'loss': 0.1388, 'grad_norm': 0.37392884492874146, 'learning_rate': 2.4985350940512082e-05, 'epoch': 6.01}
 25%|██▌       | 19670/78504 [11:57:43<25:56:29,  1.59s/it] 25%|██▌       | 19671/78504 [11:57:44<24:25:46,  1.49s/it]                                                           {'loss': 0.1469, 'grad_norm': 0.8566163778305054, 'learning_rate': 2.4984926330092144e-05, 'epoch': 6.01}
 25%|██▌       | 19671/78504 [11:57:44<24:25:46,  1.49s/it] 25%|██▌       | 19672/78504 [11:57:45<22:44:01,  1.39s/it]                                                           {'loss': 0.1532, 'grad_norm': 0.8546872138977051, 'learning_rate': 2.4984501719672203e-05, 'epoch': 6.01}
 25%|██▌       | 19672/78504 [11:57:45<22:44:01,  1.39s/it] 25%|██▌       | 19673/78504 [11:57:46<21:17:29,  1.30s/it]                                                           {'loss': 0.1762, 'grad_norm': 1.4943913221359253, 'learning_rate': 2.4984077109252262e-05, 'epoch': 6.01}
 25%|██▌       | 19673/78504 [11:57:46<21:17:29,  1.30s/it] 25%|██▌       | 19674/78504 [11:57:47<20:01:46,  1.23s/it]                                                           {'loss': 0.1703, 'grad_norm': 1.196723461151123, 'learning_rate': 2.4983652498832324e-05, 'epoch': 6.01}
 25%|██▌       | 19674/78504 [11:57:47<20:01:46,  1.23s/it] 25%|██▌       | 19675/78504 [11:57:48<18:34:11,  1.14s/it]                                                           {'loss': 0.175, 'grad_norm': 2.7256839275360107, 'learning_rate': 2.4983227888412383e-05, 'epoch': 6.01}
 25%|██▌       | 19675/78504 [11:57:48<18:34:11,  1.14s/it] 25%|██▌       | 19676/78504 [11:57:49<16:56:13,  1.04s/it]                                                           {'loss': 0.2013, 'grad_norm': 0.9685139656066895, 'learning_rate': 2.4982803277992445e-05, 'epoch': 6.02}
 25%|██▌       | 19676/78504 [11:57:49<16:56:13,  1.04s/it] 25%|██▌       | 19677/78504 [11:57:59<59:27:37,  3.64s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.37462419271469116, 'learning_rate': 2.4982378667572503e-05, 'epoch': 6.02}
 25%|██▌       | 19677/78504 [11:57:59<59:27:37,  3.64s/it] 25%|██▌       | 19678/78504 [11:58:02<56:56:49,  3.49s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.2824888229370117, 'learning_rate': 2.4981954057152565e-05, 'epoch': 6.02}
 25%|██▌       | 19678/78504 [11:58:02<56:56:49,  3.49s/it] 25%|██▌       | 19679/78504 [11:58:05<54:11:07,  3.32s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.9086729884147644, 'learning_rate': 2.4981529446732624e-05, 'epoch': 6.02}
 25%|██▌       | 19679/78504 [11:58:05<54:11:07,  3.32s/it] 25%|██▌       | 19680/78504 [11:58:07<49:46:34,  3.05s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.2181077003479004, 'learning_rate': 2.4981104836312686e-05, 'epoch': 6.02}
 25%|██▌       | 19680/78504 [11:58:07<49:46:34,  3.05s/it] 25%|██▌       | 19681/78504 [11:58:10<47:01:11,  2.88s/it]                                                           {'loss': 0.072, 'grad_norm': 0.5027155876159668, 'learning_rate': 2.4980680225892745e-05, 'epoch': 6.02}
 25%|██▌       | 19681/78504 [11:58:10<47:01:11,  2.88s/it] 25%|██▌       | 19682/78504 [11:58:12<44:48:04,  2.74s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.2302534133195877, 'learning_rate': 2.4980255615472807e-05, 'epoch': 6.02}
 25%|██▌       | 19682/78504 [11:58:12<44:48:04,  2.74s/it] 25%|██▌       | 19683/78504 [11:58:14<42:39:58,  2.61s/it]                                                           {'loss': 0.0365, 'grad_norm': 0.14662078022956848, 'learning_rate': 2.4979831005052866e-05, 'epoch': 6.02}
 25%|██▌       | 19683/78504 [11:58:14<42:39:58,  2.61s/it] 25%|██▌       | 19684/78504 [11:58:16<40:11:58,  2.46s/it]                                                           {'loss': 0.05, 'grad_norm': 0.24089466035366058, 'learning_rate': 2.4979406394632928e-05, 'epoch': 6.02}
 25%|██▌       | 19684/78504 [11:58:16<40:11:58,  2.46s/it] 25%|██▌       | 19685/78504 [11:58:19<38:48:30,  2.38s/it]                                                           {'loss': 0.0482, 'grad_norm': 0.28180450201034546, 'learning_rate': 2.4978981784212986e-05, 'epoch': 6.02}
 25%|██▌       | 19685/78504 [11:58:19<38:48:30,  2.38s/it] 25%|██▌       | 19686/78504 [11:58:21<37:46:56,  2.31s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.2690946161746979, 'learning_rate': 2.4978557173793045e-05, 'epoch': 6.02}
 25%|██▌       | 19686/78504 [11:58:21<37:46:56,  2.31s/it] 25%|██▌       | 19687/78504 [11:58:23<36:23:15,  2.23s/it]                                                           {'loss': 0.0897, 'grad_norm': 1.0741316080093384, 'learning_rate': 2.4978132563373107e-05, 'epoch': 6.02}
 25%|██▌       | 19687/78504 [11:58:23<36:23:15,  2.23s/it] 25%|██▌       | 19688/78504 [11:58:25<35:06:49,  2.15s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.3193904459476471, 'learning_rate': 2.4977707952953166e-05, 'epoch': 6.02}
 25%|██▌       | 19688/78504 [11:58:25<35:06:49,  2.15s/it] 25%|██▌       | 19689/78504 [11:58:27<33:47:47,  2.07s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.34909215569496155, 'learning_rate': 2.4977283342533228e-05, 'epoch': 6.02}
 25%|██▌       | 19689/78504 [11:58:27<33:47:47,  2.07s/it] 25%|██▌       | 19690/78504 [11:58:28<32:51:00,  2.01s/it]                                                           {'loss': 0.1382, 'grad_norm': 2.0530853271484375, 'learning_rate': 2.4976858732113287e-05, 'epoch': 6.02}
 25%|██▌       | 19690/78504 [11:58:29<32:51:00,  2.01s/it] 25%|██▌       | 19691/78504 [11:58:30<31:37:25,  1.94s/it]                                                           {'loss': 0.1318, 'grad_norm': 0.5125149488449097, 'learning_rate': 2.497643412169335e-05, 'epoch': 6.02}
 25%|██▌       | 19691/78504 [11:58:30<31:37:25,  1.94s/it] 25%|██▌       | 19692/78504 [11:58:32<30:16:08,  1.85s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.4957102835178375, 'learning_rate': 2.4976009511273408e-05, 'epoch': 6.02}
 25%|██▌       | 19692/78504 [11:58:32<30:16:08,  1.85s/it] 25%|██▌       | 19693/78504 [11:58:33<28:43:14,  1.76s/it]                                                           {'loss': 0.1422, 'grad_norm': 0.7164099216461182, 'learning_rate': 2.497558490085347e-05, 'epoch': 6.02}
 25%|██▌       | 19693/78504 [11:58:33<28:43:14,  1.76s/it] 25%|██▌       | 19694/78504 [11:58:35<27:18:25,  1.67s/it]                                                           {'loss': 0.1666, 'grad_norm': 1.0956158638000488, 'learning_rate': 2.497516029043353e-05, 'epoch': 6.02}
 25%|██▌       | 19694/78504 [11:58:35<27:18:25,  1.67s/it] 25%|██▌       | 19695/78504 [11:58:36<25:59:29,  1.59s/it]                                                           {'loss': 0.1445, 'grad_norm': 0.5561614036560059, 'learning_rate': 2.497473568001359e-05, 'epoch': 6.02}
 25%|██▌       | 19695/78504 [11:58:36<25:59:29,  1.59s/it] 25%|██▌       | 19696/78504 [11:58:38<24:30:44,  1.50s/it]                                                           {'loss': 0.1613, 'grad_norm': 0.5434489250183105, 'learning_rate': 2.497431106959365e-05, 'epoch': 6.02}
 25%|██▌       | 19696/78504 [11:58:38<24:30:44,  1.50s/it] 25%|██▌       | 19697/78504 [11:58:39<22:48:40,  1.40s/it]                                                           {'loss': 0.1682, 'grad_norm': 0.45424774289131165, 'learning_rate': 2.497388645917371e-05, 'epoch': 6.02}
 25%|██▌       | 19697/78504 [11:58:39<22:48:40,  1.40s/it] 25%|██▌       | 19698/78504 [11:58:40<21:19:17,  1.31s/it]                                                           {'loss': 0.2052, 'grad_norm': 0.7786252498626709, 'learning_rate': 2.497346184875377e-05, 'epoch': 6.02}
 25%|██▌       | 19698/78504 [11:58:40<21:19:17,  1.31s/it] 25%|██▌       | 19699/78504 [11:58:41<19:48:28,  1.21s/it]                                                           {'loss': 0.1977, 'grad_norm': 2.7799439430236816, 'learning_rate': 2.497303723833383e-05, 'epoch': 6.02}
 25%|██▌       | 19699/78504 [11:58:41<19:48:28,  1.21s/it] 25%|██▌       | 19700/78504 [11:58:42<18:25:58,  1.13s/it]                                                           {'loss': 0.1973, 'grad_norm': 1.1755698919296265, 'learning_rate': 2.497261262791389e-05, 'epoch': 6.02}
 25%|██▌       | 19700/78504 [11:58:42<18:25:58,  1.13s/it] 25%|██▌       | 19701/78504 [11:58:43<16:44:46,  1.03s/it]                                                           {'loss': 0.2472, 'grad_norm': 3.7342851161956787, 'learning_rate': 2.497218801749395e-05, 'epoch': 6.02}
 25%|██▌       | 19701/78504 [11:58:43<16:44:46,  1.03s/it] 25%|██▌       | 19702/78504 [11:58:51<55:09:02,  3.38s/it]                                                           {'loss': 0.1547, 'grad_norm': 0.42324861884117126, 'learning_rate': 2.497176340707401e-05, 'epoch': 6.02}
 25%|██▌       | 19702/78504 [11:58:51<55:09:02,  3.38s/it] 25%|██▌       | 19703/78504 [11:58:55<53:59:01,  3.31s/it]                                                           {'loss': 0.0773, 'grad_norm': 0.3137890100479126, 'learning_rate': 2.497133879665407e-05, 'epoch': 6.02}
 25%|██▌       | 19703/78504 [11:58:55<53:59:01,  3.31s/it] 25%|██▌       | 19704/78504 [11:58:58<52:34:11,  3.22s/it]                                                           {'loss': 0.0906, 'grad_norm': 0.3793846070766449, 'learning_rate': 2.4970914186234132e-05, 'epoch': 6.02}
 25%|██▌       | 19704/78504 [11:58:58<52:34:11,  3.22s/it] 25%|██▌       | 19705/78504 [11:59:00<49:36:54,  3.04s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.36400285363197327, 'learning_rate': 2.497048957581419e-05, 'epoch': 6.02}
 25%|██▌       | 19705/78504 [11:59:00<49:36:54,  3.04s/it] 25%|██▌       | 19706/78504 [11:59:03<46:17:24,  2.83s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.18969549238681793, 'learning_rate': 2.4970064965394253e-05, 'epoch': 6.02}
 25%|██▌       | 19706/78504 [11:59:03<46:17:24,  2.83s/it] 25%|██▌       | 19707/78504 [11:59:05<43:28:49,  2.66s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.25845181941986084, 'learning_rate': 2.4969640354974312e-05, 'epoch': 6.02}
 25%|██▌       | 19707/78504 [11:59:05<43:28:49,  2.66s/it] 25%|██▌       | 19708/78504 [11:59:07<41:50:36,  2.56s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.2271837294101715, 'learning_rate': 2.4969215744554374e-05, 'epoch': 6.03}
 25%|██▌       | 19708/78504 [11:59:07<41:50:36,  2.56s/it] 25%|██▌       | 19709/78504 [11:59:09<39:29:25,  2.42s/it]                                                           {'loss': 0.0501, 'grad_norm': 0.577528715133667, 'learning_rate': 2.4968791134134433e-05, 'epoch': 6.03}
 25%|██▌       | 19709/78504 [11:59:09<39:29:25,  2.42s/it] 25%|██▌       | 19710/78504 [11:59:11<38:20:38,  2.35s/it]                                                           {'loss': 0.0704, 'grad_norm': 0.33606410026550293, 'learning_rate': 2.4968366523714495e-05, 'epoch': 6.03}
 25%|██▌       | 19710/78504 [11:59:11<38:20:38,  2.35s/it] 25%|██▌       | 19711/78504 [11:59:14<37:20:28,  2.29s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.4328300952911377, 'learning_rate': 2.4967941913294553e-05, 'epoch': 6.03}
 25%|██▌       | 19711/78504 [11:59:14<37:20:28,  2.29s/it] 25%|██▌       | 19712/78504 [11:59:16<35:52:43,  2.20s/it]                                                           {'loss': 0.0977, 'grad_norm': 0.5989173054695129, 'learning_rate': 2.4967517302874612e-05, 'epoch': 6.03}
 25%|██▌       | 19712/78504 [11:59:16<35:52:43,  2.20s/it] 25%|██▌       | 19713/78504 [11:59:18<34:50:25,  2.13s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.48202064633369446, 'learning_rate': 2.4967092692454674e-05, 'epoch': 6.03}
 25%|██▌       | 19713/78504 [11:59:18<34:50:25,  2.13s/it] 25%|██▌       | 19714/78504 [11:59:19<33:29:24,  2.05s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.3836113214492798, 'learning_rate': 2.4966668082034733e-05, 'epoch': 6.03}
 25%|██▌       | 19714/78504 [11:59:19<33:29:24,  2.05s/it] 25%|██▌       | 19715/78504 [11:59:21<32:29:38,  1.99s/it]                                                           {'loss': 0.0965, 'grad_norm': 0.3378424644470215, 'learning_rate': 2.4966243471614795e-05, 'epoch': 6.03}
 25%|██▌       | 19715/78504 [11:59:21<32:29:38,  1.99s/it] 25%|██▌       | 19716/78504 [11:59:23<31:26:18,  1.93s/it]                                                           {'loss': 0.1113, 'grad_norm': 0.6236023306846619, 'learning_rate': 2.4965818861194854e-05, 'epoch': 6.03}
 25%|██▌       | 19716/78504 [11:59:23<31:26:18,  1.93s/it] 25%|██▌       | 19717/78504 [11:59:25<30:03:26,  1.84s/it]                                                           {'loss': 0.1351, 'grad_norm': 0.9040539860725403, 'learning_rate': 2.4965394250774916e-05, 'epoch': 6.03}
 25%|██▌       | 19717/78504 [11:59:25<30:03:26,  1.84s/it] 25%|██▌       | 19718/78504 [11:59:26<28:35:41,  1.75s/it]                                                           {'loss': 0.1458, 'grad_norm': 0.5101187229156494, 'learning_rate': 2.4964969640354974e-05, 'epoch': 6.03}
 25%|██▌       | 19718/78504 [11:59:26<28:35:41,  1.75s/it] 25%|██▌       | 19719/78504 [11:59:28<27:13:40,  1.67s/it]                                                           {'loss': 0.1296, 'grad_norm': 0.5186773538589478, 'learning_rate': 2.4964545029935036e-05, 'epoch': 6.03}
 25%|██▌       | 19719/78504 [11:59:28<27:13:40,  1.67s/it] 25%|██▌       | 19720/78504 [11:59:29<25:55:47,  1.59s/it]                                                           {'loss': 0.1618, 'grad_norm': 0.9947389364242554, 'learning_rate': 2.4964120419515095e-05, 'epoch': 6.03}
 25%|██▌       | 19720/78504 [11:59:29<25:55:47,  1.59s/it] 25%|██▌       | 19721/78504 [11:59:30<24:25:27,  1.50s/it]                                                           {'loss': 0.1556, 'grad_norm': 0.9769911766052246, 'learning_rate': 2.4963695809095157e-05, 'epoch': 6.03}
 25%|██▌       | 19721/78504 [11:59:30<24:25:27,  1.50s/it] 25%|██▌       | 19722/78504 [11:59:31<22:36:12,  1.38s/it]                                                           {'loss': 0.129, 'grad_norm': 0.7994919419288635, 'learning_rate': 2.4963271198675216e-05, 'epoch': 6.03}
 25%|██▌       | 19722/78504 [11:59:31<22:36:12,  1.38s/it] 25%|██▌       | 19723/78504 [11:59:33<21:11:50,  1.30s/it]                                                           {'loss': 0.1812, 'grad_norm': 1.4712209701538086, 'learning_rate': 2.4962846588255275e-05, 'epoch': 6.03}
 25%|██▌       | 19723/78504 [11:59:33<21:11:50,  1.30s/it] 25%|██▌       | 19724/78504 [11:59:34<20:25:30,  1.25s/it]                                                           {'loss': 0.171, 'grad_norm': 2.7065675258636475, 'learning_rate': 2.4962421977835337e-05, 'epoch': 6.03}
 25%|██▌       | 19724/78504 [11:59:34<20:25:30,  1.25s/it] 25%|██▌       | 19725/78504 [11:59:35<18:57:00,  1.16s/it]                                                           {'loss': 0.2103, 'grad_norm': 2.243659734725952, 'learning_rate': 2.4961997367415395e-05, 'epoch': 6.03}
 25%|██▌       | 19725/78504 [11:59:35<18:57:00,  1.16s/it] 25%|██▌       | 19726/78504 [11:59:35<17:04:10,  1.05s/it]                                                           {'loss': 0.2299, 'grad_norm': 2.3423871994018555, 'learning_rate': 2.4961572756995458e-05, 'epoch': 6.03}
 25%|██▌       | 19726/78504 [11:59:35<17:04:10,  1.05s/it] 25%|██▌       | 19727/78504 [11:59:45<57:16:45,  3.51s/it]                                                           {'loss': 0.1284, 'grad_norm': 0.749951958656311, 'learning_rate': 2.4961148146575516e-05, 'epoch': 6.03}
 25%|██▌       | 19727/78504 [11:59:45<57:16:45,  3.51s/it] 25%|██▌       | 19728/78504 [11:59:48<55:07:25,  3.38s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.266623318195343, 'learning_rate': 2.496072353615558e-05, 'epoch': 6.03}
 25%|██▌       | 19728/78504 [11:59:48<55:07:25,  3.38s/it] 25%|██▌       | 19729/78504 [11:59:50<51:09:00,  3.13s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.2954595983028412, 'learning_rate': 2.4960298925735637e-05, 'epoch': 6.03}
 25%|██▌       | 19729/78504 [11:59:50<51:09:00,  3.13s/it] 25%|██▌       | 19730/78504 [11:59:53<48:34:27,  2.98s/it]                                                           {'loss': 0.041, 'grad_norm': 0.2384815365076065, 'learning_rate': 2.49598743153157e-05, 'epoch': 6.03}
 25%|██▌       | 19730/78504 [11:59:53<48:34:27,  2.98s/it] 25%|██▌       | 19731/78504 [11:59:55<46:05:11,  2.82s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.18361565470695496, 'learning_rate': 2.4959449704895758e-05, 'epoch': 6.03}
 25%|██▌       | 19731/78504 [11:59:55<46:05:11,  2.82s/it] 25%|██▌       | 19732/78504 [11:59:58<43:19:56,  2.65s/it]                                                           {'loss': 0.0547, 'grad_norm': 0.5082542896270752, 'learning_rate': 2.495902509447582e-05, 'epoch': 6.03}
 25%|██▌       | 19732/78504 [11:59:58<43:19:56,  2.65s/it] 25%|██▌       | 19733/78504 [12:00:00<41:38:41,  2.55s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.14404518902301788, 'learning_rate': 2.495860048405588e-05, 'epoch': 6.03}
 25%|██▌       | 19733/78504 [12:00:00<41:38:41,  2.55s/it] 25%|██▌       | 19734/78504 [12:00:02<40:27:25,  2.48s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.20602881908416748, 'learning_rate': 2.495817587363594e-05, 'epoch': 6.03}
 25%|██▌       | 19734/78504 [12:00:02<40:27:25,  2.48s/it] 25%|██▌       | 19735/78504 [12:00:04<38:58:53,  2.39s/it]                                                           {'loss': 0.0387, 'grad_norm': 0.9228920340538025, 'learning_rate': 2.4957751263216e-05, 'epoch': 6.03}
 25%|██▌       | 19735/78504 [12:00:04<38:58:53,  2.39s/it] 25%|██▌       | 19736/78504 [12:00:07<37:54:50,  2.32s/it]                                                           {'loss': 0.056, 'grad_norm': 0.4560678005218506, 'learning_rate': 2.4957326652796058e-05, 'epoch': 6.03}
 25%|██▌       | 19736/78504 [12:00:07<37:54:50,  2.32s/it] 25%|██▌       | 19737/78504 [12:00:09<36:28:08,  2.23s/it]                                                           {'loss': 0.083, 'grad_norm': 0.2667970061302185, 'learning_rate': 2.495690204237612e-05, 'epoch': 6.03}
 25%|██▌       | 19737/78504 [12:00:09<36:28:08,  2.23s/it] 25%|██▌       | 19738/78504 [12:00:11<35:11:32,  2.16s/it]                                                           {'loss': 0.0893, 'grad_norm': 0.3759712874889374, 'learning_rate': 2.495647743195618e-05, 'epoch': 6.03}
 25%|██▌       | 19738/78504 [12:00:11<35:11:32,  2.16s/it] 25%|██▌       | 19739/78504 [12:00:12<33:47:06,  2.07s/it]                                                           {'loss': 0.0869, 'grad_norm': 0.4735567569732666, 'learning_rate': 2.495605282153624e-05, 'epoch': 6.03}
 25%|██▌       | 19739/78504 [12:00:13<33:47:06,  2.07s/it] 25%|██▌       | 19740/78504 [12:00:14<32:48:51,  2.01s/it]                                                           {'loss': 0.1068, 'grad_norm': 0.5290672779083252, 'learning_rate': 2.49556282111163e-05, 'epoch': 6.03}
 25%|██▌       | 19740/78504 [12:00:14<32:48:51,  2.01s/it] 25%|██▌       | 19741/78504 [12:00:16<31:35:10,  1.94s/it]                                                           {'loss': 0.093, 'grad_norm': 0.5540738701820374, 'learning_rate': 2.4955203600696362e-05, 'epoch': 6.04}
 25%|██▌       | 19741/78504 [12:00:16<31:35:10,  1.94s/it] 25%|██▌       | 19742/78504 [12:00:18<30:11:15,  1.85s/it]                                                           {'loss': 0.144, 'grad_norm': 0.9901629090309143, 'learning_rate': 2.495477899027642e-05, 'epoch': 6.04}
 25%|██▌       | 19742/78504 [12:00:18<30:11:15,  1.85s/it] 25%|██▌       | 19743/78504 [12:00:19<28:41:44,  1.76s/it]                                                           {'loss': 0.123, 'grad_norm': 0.7805847525596619, 'learning_rate': 2.4954354379856483e-05, 'epoch': 6.04}
 25%|██▌       | 19743/78504 [12:00:19<28:41:44,  1.76s/it] 25%|██▌       | 19744/78504 [12:00:21<27:15:19,  1.67s/it]                                                           {'loss': 0.1498, 'grad_norm': 0.5085725784301758, 'learning_rate': 2.495392976943654e-05, 'epoch': 6.04}
 25%|██▌       | 19744/78504 [12:00:21<27:15:19,  1.67s/it] 25%|██▌       | 19745/78504 [12:00:22<25:57:09,  1.59s/it]                                                           {'loss': 0.1417, 'grad_norm': 2.349203109741211, 'learning_rate': 2.4953505159016603e-05, 'epoch': 6.04}
 25%|██▌       | 19745/78504 [12:00:22<25:57:09,  1.59s/it] 25%|██▌       | 19746/78504 [12:00:23<24:28:08,  1.50s/it]                                                           {'loss': 0.1751, 'grad_norm': 0.6316443085670471, 'learning_rate': 2.4953080548596662e-05, 'epoch': 6.04}
 25%|██▌       | 19746/78504 [12:00:23<24:28:08,  1.50s/it] 25%|██▌       | 19747/78504 [12:00:25<22:46:41,  1.40s/it]                                                           {'loss': 0.1862, 'grad_norm': 2.451103925704956, 'learning_rate': 2.4952655938176724e-05, 'epoch': 6.04}
 25%|██▌       | 19747/78504 [12:00:25<22:46:41,  1.40s/it] 25%|██▌       | 19748/78504 [12:00:26<21:18:39,  1.31s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.5679850578308105, 'learning_rate': 2.4952231327756783e-05, 'epoch': 6.04}
 25%|██▌       | 19748/78504 [12:00:26<21:18:39,  1.31s/it] 25%|██▌       | 19749/78504 [12:00:27<19:48:19,  1.21s/it]                                                           {'loss': 0.1907, 'grad_norm': 0.8942867517471313, 'learning_rate': 2.495180671733684e-05, 'epoch': 6.04}
 25%|██▌       | 19749/78504 [12:00:27<19:48:19,  1.21s/it] 25%|██▌       | 19750/78504 [12:00:28<18:27:47,  1.13s/it]                                                           {'loss': 0.1995, 'grad_norm': 2.3785934448242188, 'learning_rate': 2.4951382106916904e-05, 'epoch': 6.04}
 25%|██▌       | 19750/78504 [12:00:28<18:27:47,  1.13s/it] 25%|██▌       | 19751/78504 [12:00:28<16:44:52,  1.03s/it]                                                           {'loss': 0.2144, 'grad_norm': 1.1997150182724, 'learning_rate': 2.4950957496496962e-05, 'epoch': 6.04}
 25%|██▌       | 19751/78504 [12:00:28<16:44:52,  1.03s/it] 25%|██▌       | 19752/78504 [12:00:38<58:21:23,  3.58s/it]                                                           {'loss': 0.1269, 'grad_norm': 0.43878063559532166, 'learning_rate': 2.4950532886077024e-05, 'epoch': 6.04}
 25%|██▌       | 19752/78504 [12:00:38<58:21:23,  3.58s/it] 25%|██▌       | 19753/78504 [12:00:41<57:15:15,  3.51s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.19527341425418854, 'learning_rate': 2.4950108275657083e-05, 'epoch': 6.04}
 25%|██▌       | 19753/78504 [12:00:41<57:15:15,  3.51s/it] 25%|██▌       | 19754/78504 [12:00:44<52:37:44,  3.22s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.15989787876605988, 'learning_rate': 2.4949683665237145e-05, 'epoch': 6.04}
 25%|██▌       | 19754/78504 [12:00:44<52:37:44,  3.22s/it] 25%|██▌       | 19755/78504 [12:00:46<49:36:52,  3.04s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.2767657935619354, 'learning_rate': 2.4949259054817204e-05, 'epoch': 6.04}
 25%|██▌       | 19755/78504 [12:00:47<49:36:52,  3.04s/it] 25%|██▌       | 19756/78504 [12:00:49<46:14:27,  2.83s/it]                                                           {'loss': 0.0372, 'grad_norm': 0.17647336423397064, 'learning_rate': 2.4948834444397266e-05, 'epoch': 6.04}
 25%|██▌       | 19756/78504 [12:00:49<46:14:27,  2.83s/it] 25%|██▌       | 19757/78504 [12:00:51<43:27:36,  2.66s/it]                                                           {'loss': 0.0568, 'grad_norm': 0.3467719852924347, 'learning_rate': 2.4948409833977325e-05, 'epoch': 6.04}
 25%|██▌       | 19757/78504 [12:00:51<43:27:36,  2.66s/it] 25%|██▌       | 19758/78504 [12:00:53<41:48:16,  2.56s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.2675173580646515, 'learning_rate': 2.4947985223557387e-05, 'epoch': 6.04}
 25%|██▌       | 19758/78504 [12:00:53<41:48:16,  2.56s/it] 25%|██▌       | 19759/78504 [12:00:56<39:30:44,  2.42s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.1708517223596573, 'learning_rate': 2.4947560613137445e-05, 'epoch': 6.04}
 25%|██▌       | 19759/78504 [12:00:56<39:30:44,  2.42s/it] 25%|██▌       | 19760/78504 [12:00:58<37:36:37,  2.30s/it]                                                           {'loss': 0.0975, 'grad_norm': 0.3023242652416229, 'learning_rate': 2.4947136002717508e-05, 'epoch': 6.04}
 25%|██▌       | 19760/78504 [12:00:58<37:36:37,  2.30s/it] 25%|██▌       | 19761/78504 [12:01:00<36:47:06,  2.25s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.2691199779510498, 'learning_rate': 2.4946711392297566e-05, 'epoch': 6.04}
 25%|██▌       | 19761/78504 [12:01:00<36:47:06,  2.25s/it] 25%|██▌       | 19762/78504 [12:01:02<35:41:28,  2.19s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.25243616104125977, 'learning_rate': 2.4946286781877625e-05, 'epoch': 6.04}
 25%|██▌       | 19762/78504 [12:01:02<35:41:28,  2.19s/it] 25%|██▌       | 19763/78504 [12:01:04<34:38:17,  2.12s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.2543877959251404, 'learning_rate': 2.4945862171457687e-05, 'epoch': 6.04}
 25%|██▌       | 19763/78504 [12:01:04<34:38:17,  2.12s/it] 25%|██▌       | 19764/78504 [12:01:06<33:21:51,  2.04s/it]                                                           {'loss': 0.0901, 'grad_norm': 1.8872523307800293, 'learning_rate': 2.4945437561037746e-05, 'epoch': 6.04}
 25%|██▌       | 19764/78504 [12:01:06<33:21:51,  2.04s/it] 25%|██▌       | 19765/78504 [12:01:07<32:21:19,  1.98s/it]                                                           {'loss': 0.096, 'grad_norm': 0.3511504530906677, 'learning_rate': 2.4945012950617808e-05, 'epoch': 6.04}
 25%|██▌       | 19765/78504 [12:01:07<32:21:19,  1.98s/it] 25%|██▌       | 19766/78504 [12:01:09<30:47:29,  1.89s/it]                                                           {'loss': 0.1115, 'grad_norm': 0.496861070394516, 'learning_rate': 2.4944588340197867e-05, 'epoch': 6.04}
 25%|██▌       | 19766/78504 [12:01:09<30:47:29,  1.89s/it] 25%|██▌       | 19767/78504 [12:01:11<29:34:32,  1.81s/it]                                                           {'loss': 0.1153, 'grad_norm': 1.546974778175354, 'learning_rate': 2.494416372977793e-05, 'epoch': 6.04}
 25%|██▌       | 19767/78504 [12:01:11<29:34:32,  1.81s/it] 25%|██▌       | 19768/78504 [12:01:12<28:08:32,  1.72s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.6918210387229919, 'learning_rate': 2.4943739119357987e-05, 'epoch': 6.04}
 25%|██▌       | 19768/78504 [12:01:12<28:08:32,  1.72s/it] 25%|██▌       | 19769/78504 [12:01:14<26:55:48,  1.65s/it]                                                           {'loss': 0.1484, 'grad_norm': 1.2330892086029053, 'learning_rate': 2.494331450893805e-05, 'epoch': 6.04}
 25%|██▌       | 19769/78504 [12:01:14<26:55:48,  1.65s/it] 25%|██▌       | 19770/78504 [12:01:15<25:47:22,  1.58s/it]                                                           {'loss': 0.1517, 'grad_norm': 0.9603457450866699, 'learning_rate': 2.4942889898518108e-05, 'epoch': 6.04}
 25%|██▌       | 19770/78504 [12:01:15<25:47:22,  1.58s/it] 25%|██▌       | 19771/78504 [12:01:16<24:20:20,  1.49s/it]                                                           {'loss': 0.1235, 'grad_norm': 0.6684256196022034, 'learning_rate': 2.494246528809817e-05, 'epoch': 6.04}
 25%|██▌       | 19771/78504 [12:01:16<24:20:20,  1.49s/it] 25%|██▌       | 19772/78504 [12:01:18<22:41:32,  1.39s/it]                                                           {'loss': 0.1992, 'grad_norm': 3.0305638313293457, 'learning_rate': 2.4942040677678232e-05, 'epoch': 6.04}
 25%|██▌       | 19772/78504 [12:01:18<22:41:32,  1.39s/it] 25%|██▌       | 19773/78504 [12:01:19<21:14:55,  1.30s/it]                                                           {'loss': 0.1709, 'grad_norm': 0.9363853335380554, 'learning_rate': 2.4941616067258294e-05, 'epoch': 6.04}
 25%|██▌       | 19773/78504 [12:01:19<21:14:55,  1.30s/it] 25%|██▌       | 19774/78504 [12:01:20<19:46:38,  1.21s/it]                                                           {'loss': 0.2289, 'grad_norm': 1.250166893005371, 'learning_rate': 2.4941191456838353e-05, 'epoch': 6.05}
 25%|██▌       | 19774/78504 [12:01:20<19:46:38,  1.21s/it] 25%|██▌       | 19775/78504 [12:01:21<18:22:56,  1.13s/it]                                                           {'loss': 0.1791, 'grad_norm': 0.9464903473854065, 'learning_rate': 2.4940766846418412e-05, 'epoch': 6.05}
 25%|██▌       | 19775/78504 [12:01:21<18:22:56,  1.13s/it] 25%|██▌       | 19776/78504 [12:01:21<16:41:43,  1.02s/it]                                                           {'loss': 0.226, 'grad_norm': 0.9455187320709229, 'learning_rate': 2.4940342235998474e-05, 'epoch': 6.05}
 25%|██▌       | 19776/78504 [12:01:21<16:41:43,  1.02s/it] 25%|██▌       | 19777/78504 [12:01:32<63:06:44,  3.87s/it]                                                           {'loss': 0.141, 'grad_norm': 0.4738786220550537, 'learning_rate': 2.4939917625578533e-05, 'epoch': 6.05}
 25%|██▌       | 19777/78504 [12:01:32<63:06:44,  3.87s/it] 25%|██▌       | 19778/78504 [12:01:35<60:33:44,  3.71s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.3402746617794037, 'learning_rate': 2.4939493015158595e-05, 'epoch': 6.05}
 25%|██▌       | 19778/78504 [12:01:35<60:33:44,  3.71s/it] 25%|██▌       | 19779/78504 [12:01:38<54:56:32,  3.37s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.41399553418159485, 'learning_rate': 2.4939068404738653e-05, 'epoch': 6.05}
 25%|██▌       | 19779/78504 [12:01:38<54:56:32,  3.37s/it] 25%|██▌       | 19780/78504 [12:01:40<51:15:21,  3.14s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.20001734793186188, 'learning_rate': 2.4938643794318715e-05, 'epoch': 6.05}
 25%|██▌       | 19780/78504 [12:01:40<51:15:21,  3.14s/it] 25%|██▌       | 19781/78504 [12:01:43<47:57:57,  2.94s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.18454477190971375, 'learning_rate': 2.4938219183898774e-05, 'epoch': 6.05}
 25%|██▌       | 19781/78504 [12:01:43<47:57:57,  2.94s/it] 25%|██▌       | 19782/78504 [12:01:45<44:40:46,  2.74s/it]                                                           {'loss': 0.0387, 'grad_norm': 0.46053823828697205, 'learning_rate': 2.4937794573478836e-05, 'epoch': 6.05}
 25%|██▌       | 19782/78504 [12:01:45<44:40:46,  2.74s/it] 25%|██▌       | 19783/78504 [12:01:47<42:35:57,  2.61s/it]                                                           {'loss': 0.0765, 'grad_norm': 1.17256498336792, 'learning_rate': 2.4937369963058895e-05, 'epoch': 6.05}
 25%|██▌       | 19783/78504 [12:01:47<42:35:57,  2.61s/it] 25%|██▌       | 19784/78504 [12:01:50<40:02:09,  2.45s/it]                                                           {'loss': 0.0422, 'grad_norm': 0.34308114647865295, 'learning_rate': 2.4936945352638957e-05, 'epoch': 6.05}
 25%|██▌       | 19784/78504 [12:01:50<40:02:09,  2.45s/it] 25%|██▌       | 19785/78504 [12:01:52<38:42:53,  2.37s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.3065820336341858, 'learning_rate': 2.4936520742219016e-05, 'epoch': 6.05}
 25%|██▌       | 19785/78504 [12:01:52<38:42:53,  2.37s/it] 25%|██▌       | 19786/78504 [12:01:54<37:33:39,  2.30s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.5873053073883057, 'learning_rate': 2.4936096131799078e-05, 'epoch': 6.05}
 25%|██▌       | 19786/78504 [12:01:54<37:33:39,  2.30s/it] 25%|██▌       | 19787/78504 [12:01:56<36:12:04,  2.22s/it]                                                           {'loss': 0.1312, 'grad_norm': 1.4158662557601929, 'learning_rate': 2.4935671521379136e-05, 'epoch': 6.05}
 25%|██▌       | 19787/78504 [12:01:56<36:12:04,  2.22s/it] 25%|██▌       | 19788/78504 [12:01:58<35:02:04,  2.15s/it]                                                           {'loss': 0.0935, 'grad_norm': 0.43408331274986267, 'learning_rate': 2.4935246910959195e-05, 'epoch': 6.05}
 25%|██▌       | 19788/78504 [12:01:58<35:02:04,  2.15s/it] 25%|██▌       | 19789/78504 [12:02:00<33:37:05,  2.06s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.26505404710769653, 'learning_rate': 2.4934822300539257e-05, 'epoch': 6.05}
 25%|██▌       | 19789/78504 [12:02:00<33:37:05,  2.06s/it] 25%|██▌       | 19790/78504 [12:02:02<32:42:58,  2.01s/it]                                                           {'loss': 0.1194, 'grad_norm': 0.43603190779685974, 'learning_rate': 2.4934397690119316e-05, 'epoch': 6.05}
 25%|██▌       | 19790/78504 [12:02:02<32:42:58,  2.01s/it] 25%|██▌       | 19791/78504 [12:02:03<31:00:53,  1.90s/it]                                                           {'loss': 0.1206, 'grad_norm': 0.8014103174209595, 'learning_rate': 2.4933973079699378e-05, 'epoch': 6.05}
 25%|██▌       | 19791/78504 [12:02:03<31:00:53,  1.90s/it] 25%|██▌       | 19792/78504 [12:02:05<29:43:31,  1.82s/it]                                                           {'loss': 0.172, 'grad_norm': 0.753441333770752, 'learning_rate': 2.4933548469279437e-05, 'epoch': 6.05}
 25%|██▌       | 19792/78504 [12:02:05<29:43:31,  1.82s/it] 25%|██▌       | 19793/78504 [12:02:06<28:24:19,  1.74s/it]                                                           {'loss': 0.1219, 'grad_norm': 0.6911348104476929, 'learning_rate': 2.49331238588595e-05, 'epoch': 6.05}
 25%|██▌       | 19793/78504 [12:02:06<28:24:19,  1.74s/it] 25%|██▌       | 19794/78504 [12:02:08<26:53:35,  1.65s/it]                                                           {'loss': 0.1459, 'grad_norm': 1.0179394483566284, 'learning_rate': 2.4932699248439558e-05, 'epoch': 6.05}
 25%|██▌       | 19794/78504 [12:02:08<26:53:35,  1.65s/it] 25%|██▌       | 19795/78504 [12:02:09<25:44:03,  1.58s/it]                                                           {'loss': 0.165, 'grad_norm': 1.9344879388809204, 'learning_rate': 2.493227463801962e-05, 'epoch': 6.05}
 25%|██▌       | 19795/78504 [12:02:09<25:44:03,  1.58s/it] 25%|██▌       | 19796/78504 [12:02:11<24:17:08,  1.49s/it]                                                           {'loss': 0.1779, 'grad_norm': 1.6405668258666992, 'learning_rate': 2.493185002759968e-05, 'epoch': 6.05}
 25%|██▌       | 19796/78504 [12:02:11<24:17:08,  1.49s/it] 25%|██▌       | 19797/78504 [12:02:12<22:38:14,  1.39s/it]                                                           {'loss': 0.1494, 'grad_norm': 2.2410714626312256, 'learning_rate': 2.493142541717974e-05, 'epoch': 6.05}
 25%|██▌       | 19797/78504 [12:02:12<22:38:14,  1.39s/it] 25%|██▌       | 19798/78504 [12:02:13<21:14:38,  1.30s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.4794202744960785, 'learning_rate': 2.49310008067598e-05, 'epoch': 6.05}
 25%|██▌       | 19798/78504 [12:02:13<21:14:38,  1.30s/it] 25%|██▌       | 19799/78504 [12:02:14<19:45:58,  1.21s/it]                                                           {'loss': 0.1598, 'grad_norm': 0.9932767748832703, 'learning_rate': 2.493057619633986e-05, 'epoch': 6.05}
 25%|██▌       | 19799/78504 [12:02:14<19:45:58,  1.21s/it] 25%|██▌       | 19800/78504 [12:02:15<18:24:24,  1.13s/it]                                                           {'loss': 0.1612, 'grad_norm': 1.390828013420105, 'learning_rate': 2.493015158591992e-05, 'epoch': 6.05}
 25%|██▌       | 19800/78504 [12:02:15<18:24:24,  1.13s/it] 25%|██▌       | 19801/78504 [12:02:16<16:41:44,  1.02s/it]                                                           {'loss': 0.1972, 'grad_norm': 1.5844480991363525, 'learning_rate': 2.492972697549998e-05, 'epoch': 6.05}
 25%|██▌       | 19801/78504 [12:02:16<16:41:44,  1.02s/it] 25%|██▌       | 19802/78504 [12:02:23<50:09:24,  3.08s/it]                                                           {'loss': 0.1447, 'grad_norm': 0.43144652247428894, 'learning_rate': 2.492930236508004e-05, 'epoch': 6.05}
 25%|██▌       | 19802/78504 [12:02:23<50:09:24,  3.08s/it] 25%|██▌       | 19803/78504 [12:02:27<50:19:26,  3.09s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.17638416588306427, 'learning_rate': 2.49288777546601e-05, 'epoch': 6.05}
 25%|██▌       | 19803/78504 [12:02:27<50:19:26,  3.09s/it] 25%|██▌       | 19804/78504 [12:02:30<49:58:45,  3.07s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.8418397903442383, 'learning_rate': 2.492845314424016e-05, 'epoch': 6.05}
 25%|██▌       | 19804/78504 [12:02:30<49:58:45,  3.07s/it] 25%|██▌       | 19805/78504 [12:02:32<46:46:18,  2.87s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.45638126134872437, 'learning_rate': 2.492802853382022e-05, 'epoch': 6.05}
 25%|██▌       | 19805/78504 [12:02:32<46:46:18,  2.87s/it] 25%|██▌       | 19806/78504 [12:02:34<44:48:20,  2.75s/it]                                                           {'loss': 0.0542, 'grad_norm': 0.14947156608104706, 'learning_rate': 2.4927603923400282e-05, 'epoch': 6.06}
 25%|██▌       | 19806/78504 [12:02:34<44:48:20,  2.75s/it] 25%|██▌       | 19807/78504 [12:02:37<42:23:45,  2.60s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.500843346118927, 'learning_rate': 2.492717931298034e-05, 'epoch': 6.06}
 25%|██▌       | 19807/78504 [12:02:37<42:23:45,  2.60s/it] 25%|██▌       | 19808/78504 [12:02:39<40:58:22,  2.51s/it]                                                           {'loss': 0.0531, 'grad_norm': 1.773140549659729, 'learning_rate': 2.4926754702560403e-05, 'epoch': 6.06}
 25%|██▌       | 19808/78504 [12:02:39<40:58:22,  2.51s/it] 25%|██▌       | 19809/78504 [12:02:41<38:53:08,  2.39s/it]                                                           {'loss': 0.0585, 'grad_norm': 0.9463527202606201, 'learning_rate': 2.4926330092140462e-05, 'epoch': 6.06}
 25%|██▌       | 19809/78504 [12:02:41<38:53:08,  2.39s/it] 25%|██▌       | 19810/78504 [12:02:43<37:53:03,  2.32s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.541976273059845, 'learning_rate': 2.4925905481720524e-05, 'epoch': 6.06}
 25%|██▌       | 19810/78504 [12:02:43<37:53:03,  2.32s/it] 25%|██▌       | 19811/78504 [12:02:45<37:09:11,  2.28s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.5023859143257141, 'learning_rate': 2.4925480871300583e-05, 'epoch': 6.06}
 25%|██▌       | 19811/78504 [12:02:45<37:09:11,  2.28s/it] 25%|██▌       | 19812/78504 [12:02:47<35:04:34,  2.15s/it]                                                           {'loss': 0.0721, 'grad_norm': 0.3275667428970337, 'learning_rate': 2.4925056260880645e-05, 'epoch': 6.06}
 25%|██▌       | 19812/78504 [12:02:47<35:04:34,  2.15s/it] 25%|██▌       | 19813/78504 [12:02:49<34:13:42,  2.10s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.2444440722465515, 'learning_rate': 2.4924631650460703e-05, 'epoch': 6.06}
 25%|██▌       | 19813/78504 [12:02:49<34:13:42,  2.10s/it] 25%|██▌       | 19814/78504 [12:02:51<33:20:52,  2.05s/it]                                                           {'loss': 0.077, 'grad_norm': 0.3330933749675751, 'learning_rate': 2.4924207040040762e-05, 'epoch': 6.06}
 25%|██▌       | 19814/78504 [12:02:51<33:20:52,  2.05s/it] 25%|██▌       | 19815/78504 [12:02:53<32:38:10,  2.00s/it]                                                           {'loss': 0.1072, 'grad_norm': 0.3769465684890747, 'learning_rate': 2.4923782429620824e-05, 'epoch': 6.06}
 25%|██▌       | 19815/78504 [12:02:53<32:38:10,  2.00s/it] 25%|██▌       | 19816/78504 [12:02:55<31:26:53,  1.93s/it]                                                           {'loss': 0.1163, 'grad_norm': 0.5746341943740845, 'learning_rate': 2.4923357819200883e-05, 'epoch': 6.06}
 25%|██▌       | 19816/78504 [12:02:55<31:26:53,  1.93s/it] 25%|██▌       | 19817/78504 [12:02:56<30:05:50,  1.85s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.5680860280990601, 'learning_rate': 2.4922933208780945e-05, 'epoch': 6.06}
 25%|██▌       | 19817/78504 [12:02:57<30:05:50,  1.85s/it] 25%|██▌       | 19818/78504 [12:02:58<28:36:13,  1.75s/it]                                                           {'loss': 0.154, 'grad_norm': 0.4831336736679077, 'learning_rate': 2.4922508598361004e-05, 'epoch': 6.06}
 25%|██▌       | 19818/78504 [12:02:58<28:36:13,  1.75s/it] 25%|██▌       | 19819/78504 [12:03:00<27:10:35,  1.67s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.6971529126167297, 'learning_rate': 2.4922083987941066e-05, 'epoch': 6.06}
 25%|██▌       | 19819/78504 [12:03:00<27:10:35,  1.67s/it] 25%|██▌       | 19820/78504 [12:03:01<25:48:27,  1.58s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.5299879908561707, 'learning_rate': 2.4921659377521124e-05, 'epoch': 6.06}
 25%|██▌       | 19820/78504 [12:03:01<25:48:27,  1.58s/it] 25%|██▌       | 19821/78504 [12:03:02<24:21:49,  1.49s/it]                                                           {'loss': 0.1534, 'grad_norm': 0.47773125767707825, 'learning_rate': 2.4921234767101187e-05, 'epoch': 6.06}
 25%|██▌       | 19821/78504 [12:03:02<24:21:49,  1.49s/it] 25%|██▌       | 19822/78504 [12:03:03<22:39:55,  1.39s/it]                                                           {'loss': 0.1741, 'grad_norm': 1.2608202695846558, 'learning_rate': 2.4920810156681245e-05, 'epoch': 6.06}
 25%|██▌       | 19822/78504 [12:03:03<22:39:55,  1.39s/it] 25%|██▌       | 19823/78504 [12:03:04<21:12:55,  1.30s/it]                                                           {'loss': 0.1738, 'grad_norm': 1.481078028678894, 'learning_rate': 2.4920385546261307e-05, 'epoch': 6.06}
 25%|██▌       | 19823/78504 [12:03:04<21:12:55,  1.30s/it] 25%|██▌       | 19824/78504 [12:03:05<19:41:32,  1.21s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.9232473373413086, 'learning_rate': 2.4919960935841366e-05, 'epoch': 6.06}
 25%|██▌       | 19824/78504 [12:03:05<19:41:32,  1.21s/it] 25%|██▌       | 19825/78504 [12:03:06<18:20:25,  1.13s/it]                                                           {'loss': 0.1538, 'grad_norm': 0.9329032301902771, 'learning_rate': 2.4919536325421428e-05, 'epoch': 6.06}
 25%|██▌       | 19825/78504 [12:03:06<18:20:25,  1.13s/it] 25%|██▌       | 19826/78504 [12:03:07<16:39:25,  1.02s/it]                                                           {'loss': 0.2318, 'grad_norm': 3.004714012145996, 'learning_rate': 2.4919111715001487e-05, 'epoch': 6.06}
 25%|██▌       | 19826/78504 [12:03:07<16:39:25,  1.02s/it] 25%|██▌       | 19827/78504 [12:03:17<61:03:35,  3.75s/it]                                                           {'loss': 0.1217, 'grad_norm': 0.36691975593566895, 'learning_rate': 2.4918687104581545e-05, 'epoch': 6.06}
 25%|██▌       | 19827/78504 [12:03:17<61:03:35,  3.75s/it] 25%|██▌       | 19828/78504 [12:03:21<59:08:01,  3.63s/it]                                                           {'loss': 0.0668, 'grad_norm': 0.19279059767723083, 'learning_rate': 2.4918262494161608e-05, 'epoch': 6.06}
 25%|██▌       | 19828/78504 [12:03:21<59:08:01,  3.63s/it] 25%|██▌       | 19829/78504 [12:03:24<56:04:52,  3.44s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.1994250863790512, 'learning_rate': 2.4917837883741666e-05, 'epoch': 6.06}
 25%|██▌       | 19829/78504 [12:03:24<56:04:52,  3.44s/it] 25%|██▌       | 19830/78504 [12:03:26<52:00:41,  3.19s/it]                                                           {'loss': 0.06, 'grad_norm': 0.17671608924865723, 'learning_rate': 2.491741327332173e-05, 'epoch': 6.06}
 25%|██▌       | 19830/78504 [12:03:26<52:00:41,  3.19s/it] 25%|██▌       | 19831/78504 [12:03:29<47:54:27,  2.94s/it]                                                           {'loss': 0.0505, 'grad_norm': 0.22143885493278503, 'learning_rate': 2.4916988662901787e-05, 'epoch': 6.06}
 25%|██▌       | 19831/78504 [12:03:29<47:54:27,  2.94s/it] 25%|██▌       | 19832/78504 [12:03:31<44:34:57,  2.74s/it]                                                           {'loss': 0.0655, 'grad_norm': 1.8278026580810547, 'learning_rate': 2.491656405248185e-05, 'epoch': 6.06}
 25%|██▌       | 19832/78504 [12:03:31<44:34:57,  2.74s/it] 25%|██▌       | 19833/78504 [12:03:33<42:34:08,  2.61s/it]                                                           {'loss': 0.054, 'grad_norm': 0.381874680519104, 'learning_rate': 2.4916139442061908e-05, 'epoch': 6.06}
 25%|██▌       | 19833/78504 [12:03:33<42:34:08,  2.61s/it] 25%|██▌       | 19834/78504 [12:03:35<40:00:29,  2.45s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.6876820921897888, 'learning_rate': 2.491571483164197e-05, 'epoch': 6.06}
 25%|██▌       | 19834/78504 [12:03:35<40:00:29,  2.45s/it] 25%|██▌       | 19835/78504 [12:03:37<38:39:43,  2.37s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.30713239312171936, 'learning_rate': 2.491529022122203e-05, 'epoch': 6.06}
 25%|██▌       | 19835/78504 [12:03:37<38:39:43,  2.37s/it] 25%|██▌       | 19836/78504 [12:03:40<37:31:13,  2.30s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.3278258740901947, 'learning_rate': 2.491486561080209e-05, 'epoch': 6.06}
 25%|██▌       | 19836/78504 [12:03:40<37:31:13,  2.30s/it] 25%|██▌       | 19837/78504 [12:03:42<36:13:24,  2.22s/it]                                                           {'loss': 0.0867, 'grad_norm': 0.604788064956665, 'learning_rate': 2.491444100038215e-05, 'epoch': 6.06}
 25%|██▌       | 19837/78504 [12:03:42<36:13:24,  2.22s/it] 25%|██▌       | 19838/78504 [12:03:44<35:02:10,  2.15s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.29718002676963806, 'learning_rate': 2.4914016389962208e-05, 'epoch': 6.06}
 25%|██▌       | 19838/78504 [12:03:44<35:02:10,  2.15s/it] 25%|██▌       | 19839/78504 [12:03:45<33:37:50,  2.06s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.22023062407970428, 'learning_rate': 2.491359177954227e-05, 'epoch': 6.07}
 25%|██▌       | 19839/78504 [12:03:45<33:37:50,  2.06s/it] 25%|██▌       | 19840/78504 [12:03:47<32:40:18,  2.00s/it]                                                           {'loss': 0.1128, 'grad_norm': 0.3811971843242645, 'learning_rate': 2.491316716912233e-05, 'epoch': 6.07}
 25%|██▌       | 19840/78504 [12:03:47<32:40:18,  2.00s/it] 25%|██▌       | 19841/78504 [12:03:49<31:31:29,  1.93s/it]                                                           {'loss': 0.1012, 'grad_norm': 0.4026639461517334, 'learning_rate': 2.491274255870239e-05, 'epoch': 6.07}
 25%|██▌       | 19841/78504 [12:03:49<31:31:29,  1.93s/it] 25%|██▌       | 19842/78504 [12:03:51<30:12:14,  1.85s/it]                                                           {'loss': 0.1514, 'grad_norm': 0.6640880703926086, 'learning_rate': 2.491231794828245e-05, 'epoch': 6.07}
 25%|██▌       | 19842/78504 [12:03:51<30:12:14,  1.85s/it] 25%|██▌       | 19843/78504 [12:03:52<28:41:37,  1.76s/it]                                                           {'loss': 0.129, 'grad_norm': 0.6493112444877625, 'learning_rate': 2.4911893337862512e-05, 'epoch': 6.07}
 25%|██▌       | 19843/78504 [12:03:52<28:41:37,  1.76s/it] 25%|██▌       | 19844/78504 [12:03:54<27:15:22,  1.67s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.5000889897346497, 'learning_rate': 2.491146872744257e-05, 'epoch': 6.07}
 25%|██▌       | 19844/78504 [12:03:54<27:15:22,  1.67s/it] 25%|██▌       | 19845/78504 [12:03:55<26:02:34,  1.60s/it]                                                           {'loss': 0.1476, 'grad_norm': 0.42486119270324707, 'learning_rate': 2.4911044117022633e-05, 'epoch': 6.07}
 25%|██▌       | 19845/78504 [12:03:55<26:02:34,  1.60s/it] 25%|██▌       | 19846/78504 [12:03:56<24:29:21,  1.50s/it]                                                           {'loss': 0.1411, 'grad_norm': 0.6946542859077454, 'learning_rate': 2.491061950660269e-05, 'epoch': 6.07}
 25%|██▌       | 19846/78504 [12:03:56<24:29:21,  1.50s/it] 25%|██▌       | 19847/78504 [12:03:58<22:47:24,  1.40s/it]                                                           {'loss': 0.1221, 'grad_norm': 0.5544107556343079, 'learning_rate': 2.4910194896182753e-05, 'epoch': 6.07}
 25%|██▌       | 19847/78504 [12:03:58<22:47:24,  1.40s/it] 25%|██▌       | 19848/78504 [12:03:59<21:18:34,  1.31s/it]                                                           {'loss': 0.1838, 'grad_norm': 0.6024075746536255, 'learning_rate': 2.4909770285762812e-05, 'epoch': 6.07}
 25%|██▌       | 19848/78504 [12:03:59<21:18:34,  1.31s/it] 25%|██▌       | 19849/78504 [12:04:00<20:03:50,  1.23s/it]                                                           {'loss': 0.1949, 'grad_norm': 1.319591760635376, 'learning_rate': 2.4909345675342874e-05, 'epoch': 6.07}
 25%|██▌       | 19849/78504 [12:04:00<20:03:50,  1.23s/it] 25%|██▌       | 19850/78504 [12:04:01<18:33:39,  1.14s/it]                                                           {'loss': 0.1782, 'grad_norm': 0.8768177032470703, 'learning_rate': 2.4908921064922933e-05, 'epoch': 6.07}
 25%|██▌       | 19850/78504 [12:04:01<18:33:39,  1.14s/it] 25%|██▌       | 19851/78504 [12:04:01<16:55:45,  1.04s/it]                                                           {'loss': 0.2144, 'grad_norm': 1.6386322975158691, 'learning_rate': 2.490849645450299e-05, 'epoch': 6.07}
 25%|██▌       | 19851/78504 [12:04:01<16:55:45,  1.04s/it] 25%|██▌       | 19852/78504 [12:04:11<58:23:45,  3.58s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.40137630701065063, 'learning_rate': 2.4908071844083054e-05, 'epoch': 6.07}
 25%|██▌       | 19852/78504 [12:04:11<58:23:45,  3.58s/it] 25%|██▌       | 19853/78504 [12:04:14<56:08:14,  3.45s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.17534969747066498, 'learning_rate': 2.4907647233663112e-05, 'epoch': 6.07}
 25%|██▌       | 19853/78504 [12:04:14<56:08:14,  3.45s/it] 25%|██▌       | 19854/78504 [12:04:17<53:51:32,  3.31s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.21559211611747742, 'learning_rate': 2.4907222623243174e-05, 'epoch': 6.07}
 25%|██▌       | 19854/78504 [12:04:17<53:51:32,  3.31s/it] 25%|██▌       | 19855/78504 [12:04:20<50:29:01,  3.10s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.12090151757001877, 'learning_rate': 2.4906798012823233e-05, 'epoch': 6.07}
 25%|██▌       | 19855/78504 [12:04:20<50:29:01,  3.10s/it] 25%|██▌       | 19856/78504 [12:04:22<47:22:57,  2.91s/it]                                                           {'loss': 0.0453, 'grad_norm': 0.18735161423683167, 'learning_rate': 2.4906373402403295e-05, 'epoch': 6.07}
 25%|██▌       | 19856/78504 [12:04:22<47:22:57,  2.91s/it] 25%|██▌       | 19857/78504 [12:04:24<44:13:28,  2.71s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.28165388107299805, 'learning_rate': 2.4905948791983354e-05, 'epoch': 6.07}
 25%|██▌       | 19857/78504 [12:04:24<44:13:28,  2.71s/it] 25%|██▌       | 19858/78504 [12:04:27<42:15:46,  2.59s/it]                                                           {'loss': 0.065, 'grad_norm': 0.8542152047157288, 'learning_rate': 2.4905524181563416e-05, 'epoch': 6.07}
 25%|██▌       | 19858/78504 [12:04:27<42:15:46,  2.59s/it] 25%|██▌       | 19859/78504 [12:04:29<39:52:26,  2.45s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.32240030169487, 'learning_rate': 2.4905099571143475e-05, 'epoch': 6.07}
 25%|██▌       | 19859/78504 [12:04:29<39:52:26,  2.45s/it] 25%|██▌       | 19860/78504 [12:04:31<38:34:21,  2.37s/it]                                                           {'loss': 0.109, 'grad_norm': 0.3412214517593384, 'learning_rate': 2.4904674960723537e-05, 'epoch': 6.07}
 25%|██▌       | 19860/78504 [12:04:31<38:34:21,  2.37s/it] 25%|██▌       | 19861/78504 [12:04:33<37:32:50,  2.30s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.3560123145580292, 'learning_rate': 2.4904250350303595e-05, 'epoch': 6.07}
 25%|██▌       | 19861/78504 [12:04:33<37:32:50,  2.30s/it] 25%|██▌       | 19862/78504 [12:04:35<35:20:12,  2.17s/it]                                                           {'loss': 0.0949, 'grad_norm': 0.3535694479942322, 'learning_rate': 2.4903825739883658e-05, 'epoch': 6.07}
 25%|██▌       | 19862/78504 [12:04:35<35:20:12,  2.17s/it] 25%|██▌       | 19863/78504 [12:04:37<34:26:47,  2.11s/it]                                                           {'loss': 0.0523, 'grad_norm': 0.29662221670150757, 'learning_rate': 2.4903401129463716e-05, 'epoch': 6.07}
 25%|██▌       | 19863/78504 [12:04:37<34:26:47,  2.11s/it] 25%|██▌       | 19864/78504 [12:04:39<33:27:46,  2.05s/it]                                                           {'loss': 0.0706, 'grad_norm': 0.28648024797439575, 'learning_rate': 2.4902976519043775e-05, 'epoch': 6.07}
 25%|██▌       | 19864/78504 [12:04:39<33:27:46,  2.05s/it] 25%|██▌       | 19865/78504 [12:04:41<32:32:09,  2.00s/it]                                                           {'loss': 0.1296, 'grad_norm': 0.4250667095184326, 'learning_rate': 2.4902551908623837e-05, 'epoch': 6.07}
 25%|██▌       | 19865/78504 [12:04:41<32:32:09,  2.00s/it] 25%|██▌       | 19866/78504 [12:04:43<31:22:41,  1.93s/it]                                                           {'loss': 0.1109, 'grad_norm': 0.5882096290588379, 'learning_rate': 2.4902127298203896e-05, 'epoch': 6.07}
 25%|██▌       | 19866/78504 [12:04:43<31:22:41,  1.93s/it] 25%|██▌       | 19867/78504 [12:04:44<29:38:46,  1.82s/it]                                                           {'loss': 0.15, 'grad_norm': 1.104628562927246, 'learning_rate': 2.4901702687783958e-05, 'epoch': 6.07}
 25%|██▌       | 19867/78504 [12:04:44<29:38:46,  1.82s/it] 25%|██▌       | 19868/78504 [12:04:46<28:14:29,  1.73s/it]                                                           {'loss': 0.1437, 'grad_norm': 0.7408469915390015, 'learning_rate': 2.4901278077364017e-05, 'epoch': 6.07}
 25%|██▌       | 19868/78504 [12:04:46<28:14:29,  1.73s/it] 25%|██▌       | 19869/78504 [12:04:47<26:57:02,  1.65s/it]                                                           {'loss': 0.1406, 'grad_norm': 0.5308287739753723, 'learning_rate': 2.490085346694408e-05, 'epoch': 6.07}
 25%|██▌       | 19869/78504 [12:04:47<26:57:02,  1.65s/it] 25%|██▌       | 19870/78504 [12:04:49<25:46:08,  1.58s/it]                                                           {'loss': 0.1521, 'grad_norm': 0.7462009191513062, 'learning_rate': 2.4900428856524137e-05, 'epoch': 6.07}
 25%|██▌       | 19870/78504 [12:04:49<25:46:08,  1.58s/it] 25%|██▌       | 19871/78504 [12:04:50<24:15:41,  1.49s/it]                                                           {'loss': 0.1541, 'grad_norm': 1.3398385047912598, 'learning_rate': 2.49000042461042e-05, 'epoch': 6.07}
 25%|██▌       | 19871/78504 [12:04:50<24:15:41,  1.49s/it] 25%|██▌       | 19872/78504 [12:04:51<22:35:14,  1.39s/it]                                                           {'loss': 0.1727, 'grad_norm': 0.808414101600647, 'learning_rate': 2.4899579635684258e-05, 'epoch': 6.08}
 25%|██▌       | 19872/78504 [12:04:51<22:35:14,  1.39s/it] 25%|██▌       | 19873/78504 [12:04:52<21:12:17,  1.30s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.5440101623535156, 'learning_rate': 2.489915502526432e-05, 'epoch': 6.08}
 25%|██▌       | 19873/78504 [12:04:52<21:12:17,  1.30s/it] 25%|██▌       | 19874/78504 [12:04:53<19:59:24,  1.23s/it]                                                           {'loss': 0.1892, 'grad_norm': 0.7239301800727844, 'learning_rate': 2.4898730414844382e-05, 'epoch': 6.08}
 25%|██▌       | 19874/78504 [12:04:53<19:59:24,  1.23s/it] 25%|██▌       | 19875/78504 [12:04:54<18:32:37,  1.14s/it]                                                           {'loss': 0.185, 'grad_norm': 1.8097336292266846, 'learning_rate': 2.4898305804424444e-05, 'epoch': 6.08}
 25%|██▌       | 19875/78504 [12:04:54<18:32:37,  1.14s/it] 25%|██▌       | 19876/78504 [12:04:55<16:42:34,  1.03s/it]                                                           {'loss': 0.2367, 'grad_norm': 1.2732813358306885, 'learning_rate': 2.4897881194004503e-05, 'epoch': 6.08}
 25%|██▌       | 19876/78504 [12:04:55<16:42:34,  1.03s/it] 25%|██▌       | 19877/78504 [12:05:03<51:16:20,  3.15s/it]                                                           {'loss': 0.1315, 'grad_norm': 0.6691729426383972, 'learning_rate': 2.4897456583584562e-05, 'epoch': 6.08}
 25%|██▌       | 19877/78504 [12:05:03<51:16:20,  3.15s/it] 25%|██▌       | 19878/78504 [12:05:06<52:14:41,  3.21s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.5767754912376404, 'learning_rate': 2.4897031973164624e-05, 'epoch': 6.08}
 25%|██▌       | 19878/78504 [12:05:06<52:14:41,  3.21s/it] 25%|██▌       | 19879/78504 [12:05:09<50:48:49,  3.12s/it]                                                           {'loss': 0.066, 'grad_norm': 0.2968657612800598, 'learning_rate': 2.4896607362744683e-05, 'epoch': 6.08}
 25%|██▌       | 19879/78504 [12:05:09<50:48:49,  3.12s/it] 25%|██▌       | 19880/78504 [12:05:12<48:08:51,  2.96s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.18441042304039001, 'learning_rate': 2.4896182752324745e-05, 'epoch': 6.08}
 25%|██▌       | 19880/78504 [12:05:12<48:08:51,  2.96s/it] 25%|██▌       | 19881/78504 [12:05:14<45:45:54,  2.81s/it]                                                           {'loss': 0.063, 'grad_norm': 0.1822187453508377, 'learning_rate': 2.4895758141904803e-05, 'epoch': 6.08}
 25%|██▌       | 19881/78504 [12:05:14<45:45:54,  2.81s/it] 25%|██▌       | 19882/78504 [12:05:17<43:06:12,  2.65s/it]                                                           {'loss': 0.0329, 'grad_norm': 0.1468658149242401, 'learning_rate': 2.4895333531484865e-05, 'epoch': 6.08}
 25%|██▌       | 19882/78504 [12:05:17<43:06:12,  2.65s/it] 25%|██▌       | 19883/78504 [12:05:19<41:28:15,  2.55s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.3944590985774994, 'learning_rate': 2.4894908921064924e-05, 'epoch': 6.08}
 25%|██▌       | 19883/78504 [12:05:19<41:28:15,  2.55s/it] 25%|██▌       | 19884/78504 [12:05:21<39:20:56,  2.42s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.15712283551692963, 'learning_rate': 2.4894484310644986e-05, 'epoch': 6.08}
 25%|██▌       | 19884/78504 [12:05:21<39:20:56,  2.42s/it] 25%|██▌       | 19885/78504 [12:05:23<38:10:02,  2.34s/it]                                                           {'loss': 0.0482, 'grad_norm': 0.2002270668745041, 'learning_rate': 2.4894059700225045e-05, 'epoch': 6.08}
 25%|██▌       | 19885/78504 [12:05:23<38:10:02,  2.34s/it] 25%|██▌       | 19886/78504 [12:05:25<37:10:57,  2.28s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.19557620584964752, 'learning_rate': 2.4893635089805107e-05, 'epoch': 6.08}
 25%|██▌       | 19886/78504 [12:05:25<37:10:57,  2.28s/it] 25%|██▌       | 19887/78504 [12:05:27<36:15:31,  2.23s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.24094459414482117, 'learning_rate': 2.4893210479385166e-05, 'epoch': 6.08}
 25%|██▌       | 19887/78504 [12:05:27<36:15:31,  2.23s/it] 25%|██▌       | 19888/78504 [12:05:29<34:59:27,  2.15s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.25817742943763733, 'learning_rate': 2.4892785868965228e-05, 'epoch': 6.08}
 25%|██▌       | 19888/78504 [12:05:29<34:59:27,  2.15s/it] 25%|██▌       | 19889/78504 [12:05:31<33:34:53,  2.06s/it]                                                           {'loss': 0.1027, 'grad_norm': 0.4193473160266876, 'learning_rate': 2.4892361258545287e-05, 'epoch': 6.08}
 25%|██▌       | 19889/78504 [12:05:31<33:34:53,  2.06s/it] 25%|██▌       | 19890/78504 [12:05:33<31:52:58,  1.96s/it]                                                           {'loss': 0.0992, 'grad_norm': 0.221846804022789, 'learning_rate': 2.4891936648125345e-05, 'epoch': 6.08}
 25%|██▌       | 19890/78504 [12:05:33<31:52:58,  1.96s/it] 25%|██▌       | 19891/78504 [12:05:35<30:23:39,  1.87s/it]                                                           {'loss': 0.1077, 'grad_norm': 0.3911884129047394, 'learning_rate': 2.4891512037705407e-05, 'epoch': 6.08}
 25%|██▌       | 19891/78504 [12:05:35<30:23:39,  1.87s/it] 25%|██▌       | 19892/78504 [12:05:36<29:18:29,  1.80s/it]                                                           {'loss': 0.1288, 'grad_norm': 0.33835628628730774, 'learning_rate': 2.4891087427285466e-05, 'epoch': 6.08}
 25%|██▌       | 19892/78504 [12:05:36<29:18:29,  1.80s/it] 25%|██▌       | 19893/78504 [12:05:38<28:05:54,  1.73s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.6224759221076965, 'learning_rate': 2.4890662816865528e-05, 'epoch': 6.08}
 25%|██▌       | 19893/78504 [12:05:38<28:05:54,  1.73s/it] 25%|██▌       | 19894/78504 [12:05:39<26:48:42,  1.65s/it]                                                           {'loss': 0.1304, 'grad_norm': 0.8952966332435608, 'learning_rate': 2.4890238206445587e-05, 'epoch': 6.08}
 25%|██▌       | 19894/78504 [12:05:39<26:48:42,  1.65s/it] 25%|██▌       | 19895/78504 [12:05:41<25:40:59,  1.58s/it]                                                           {'loss': 0.1682, 'grad_norm': 0.6202644109725952, 'learning_rate': 2.488981359602565e-05, 'epoch': 6.08}
 25%|██▌       | 19895/78504 [12:05:41<25:40:59,  1.58s/it] 25%|██▌       | 19896/78504 [12:05:42<23:56:27,  1.47s/it]                                                           {'loss': 0.187, 'grad_norm': 0.6069774627685547, 'learning_rate': 2.4889388985605708e-05, 'epoch': 6.08}
 25%|██▌       | 19896/78504 [12:05:42<23:56:27,  1.47s/it] 25%|██▌       | 19897/78504 [12:05:43<22:24:12,  1.38s/it]                                                           {'loss': 0.1895, 'grad_norm': 0.8295747637748718, 'learning_rate': 2.488896437518577e-05, 'epoch': 6.08}
 25%|██▌       | 19897/78504 [12:05:43<22:24:12,  1.38s/it] 25%|██▌       | 19898/78504 [12:05:44<21:02:38,  1.29s/it]                                                           {'loss': 0.1586, 'grad_norm': 0.4835392236709595, 'learning_rate': 2.488853976476583e-05, 'epoch': 6.08}
 25%|██▌       | 19898/78504 [12:05:44<21:02:38,  1.29s/it] 25%|██▌       | 19899/78504 [12:05:45<19:50:37,  1.22s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.5007269382476807, 'learning_rate': 2.488811515434589e-05, 'epoch': 6.08}
 25%|██▌       | 19899/78504 [12:05:45<19:50:37,  1.22s/it] 25%|██▌       | 19900/78504 [12:05:46<18:27:27,  1.13s/it]                                                           {'loss': 0.1644, 'grad_norm': 5.311293125152588, 'learning_rate': 2.488769054392595e-05, 'epoch': 6.08}
 25%|██▌       | 19900/78504 [12:05:46<18:27:27,  1.13s/it] 25%|██▌       | 19901/78504 [12:05:47<16:50:42,  1.03s/it]                                                           {'loss': 0.203, 'grad_norm': 1.0553345680236816, 'learning_rate': 2.488726593350601e-05, 'epoch': 6.08}
 25%|██▌       | 19901/78504 [12:05:47<16:50:42,  1.03s/it] 25%|██▌       | 19902/78504 [12:05:54<47:45:03,  2.93s/it]                                                           {'loss': 0.1333, 'grad_norm': 0.3781841993331909, 'learning_rate': 2.488684132308607e-05, 'epoch': 6.08}
 25%|██▌       | 19902/78504 [12:05:54<47:45:03,  2.93s/it] 25%|██▌       | 19903/78504 [12:05:58<49:48:20,  3.06s/it]                                                           {'loss': 0.077, 'grad_norm': 0.18943357467651367, 'learning_rate': 2.488641671266613e-05, 'epoch': 6.08}
 25%|██▌       | 19903/78504 [12:05:58<49:48:20,  3.06s/it] 25%|██▌       | 19904/78504 [12:06:00<47:22:12,  2.91s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.3493582606315613, 'learning_rate': 2.488599210224619e-05, 'epoch': 6.08}
 25%|██▌       | 19904/78504 [12:06:00<47:22:12,  2.91s/it] 25%|██▌       | 19905/78504 [12:06:03<45:42:20,  2.81s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.2636881172657013, 'learning_rate': 2.488556749182625e-05, 'epoch': 6.09}
 25%|██▌       | 19905/78504 [12:06:03<45:42:20,  2.81s/it] 25%|██▌       | 19906/78504 [12:06:05<44:02:34,  2.71s/it]                                                           {'loss': 0.0285, 'grad_norm': 0.5306391716003418, 'learning_rate': 2.488514288140631e-05, 'epoch': 6.09}
 25%|██▌       | 19906/78504 [12:06:05<44:02:34,  2.71s/it] 25%|██▌       | 19907/78504 [12:06:08<42:40:51,  2.62s/it]                                                           {'loss': 0.065, 'grad_norm': 0.30418357253074646, 'learning_rate': 2.488471827098637e-05, 'epoch': 6.09}
 25%|██▌       | 19907/78504 [12:06:08<42:40:51,  2.62s/it] 25%|██▌       | 19908/78504 [12:06:10<41:11:01,  2.53s/it]                                                           {'loss': 0.053, 'grad_norm': 0.40167877078056335, 'learning_rate': 2.4884293660566432e-05, 'epoch': 6.09}
 25%|██▌       | 19908/78504 [12:06:10<41:11:01,  2.53s/it] 25%|██▌       | 19909/78504 [12:06:12<39:01:06,  2.40s/it]                                                           {'loss': 0.0546, 'grad_norm': 0.30347880721092224, 'learning_rate': 2.488386905014649e-05, 'epoch': 6.09}
 25%|██▌       | 19909/78504 [12:06:12<39:01:06,  2.40s/it] 25%|██▌       | 19910/78504 [12:06:14<37:56:21,  2.33s/it]                                                           {'loss': 0.0556, 'grad_norm': 1.325457215309143, 'learning_rate': 2.4883444439726553e-05, 'epoch': 6.09}
 25%|██▌       | 19910/78504 [12:06:14<37:56:21,  2.33s/it] 25%|██▌       | 19911/78504 [12:06:16<37:07:02,  2.28s/it]                                                           {'loss': 0.046, 'grad_norm': 0.31938791275024414, 'learning_rate': 2.4883019829306612e-05, 'epoch': 6.09}
 25%|██▌       | 19911/78504 [12:06:16<37:07:02,  2.28s/it] 25%|██▌       | 19912/78504 [12:06:18<35:00:57,  2.15s/it]                                                           {'loss': 0.0931, 'grad_norm': 1.9249578714370728, 'learning_rate': 2.4882595218886674e-05, 'epoch': 6.09}
 25%|██▌       | 19912/78504 [12:06:18<35:00:57,  2.15s/it] 25%|██▌       | 19913/78504 [12:06:20<34:10:59,  2.10s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.1830013394355774, 'learning_rate': 2.4882170608466733e-05, 'epoch': 6.09}
 25%|██▌       | 19913/78504 [12:06:20<34:10:59,  2.10s/it] 25%|██▌       | 19914/78504 [12:06:22<33:07:08,  2.03s/it]                                                           {'loss': 0.0921, 'grad_norm': 0.2424648106098175, 'learning_rate': 2.4881745998046795e-05, 'epoch': 6.09}
 25%|██▌       | 19914/78504 [12:06:22<33:07:08,  2.03s/it] 25%|██▌       | 19915/78504 [12:06:24<32:15:47,  1.98s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.4016853868961334, 'learning_rate': 2.4881321387626853e-05, 'epoch': 6.09}
 25%|██▌       | 19915/78504 [12:06:24<32:15:47,  1.98s/it] 25%|██▌       | 19916/78504 [12:06:26<31:11:37,  1.92s/it]                                                           {'loss': 0.1305, 'grad_norm': 0.7585169076919556, 'learning_rate': 2.4880896777206912e-05, 'epoch': 6.09}
 25%|██▌       | 19916/78504 [12:06:26<31:11:37,  1.92s/it] 25%|██▌       | 19917/78504 [12:06:27<29:55:25,  1.84s/it]                                                           {'loss': 0.1423, 'grad_norm': 0.6287317872047424, 'learning_rate': 2.4880472166786974e-05, 'epoch': 6.09}
 25%|██▌       | 19917/78504 [12:06:27<29:55:25,  1.84s/it] 25%|██▌       | 19918/78504 [12:06:29<28:28:17,  1.75s/it]                                                           {'loss': 0.1295, 'grad_norm': 0.5696415305137634, 'learning_rate': 2.4880047556367033e-05, 'epoch': 6.09}
 25%|██▌       | 19918/78504 [12:06:29<28:28:17,  1.75s/it] 25%|██▌       | 19919/78504 [12:06:30<27:04:10,  1.66s/it]                                                           {'loss': 0.1315, 'grad_norm': 0.6140748262405396, 'learning_rate': 2.4879622945947095e-05, 'epoch': 6.09}
 25%|██▌       | 19919/78504 [12:06:30<27:04:10,  1.66s/it] 25%|██▌       | 19920/78504 [12:06:32<25:45:43,  1.58s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.6834477186203003, 'learning_rate': 2.4879198335527154e-05, 'epoch': 6.09}
 25%|██▌       | 19920/78504 [12:06:32<25:45:43,  1.58s/it] 25%|██▌       | 19921/78504 [12:06:33<24:17:17,  1.49s/it]                                                           {'loss': 0.1939, 'grad_norm': 0.5184687972068787, 'learning_rate': 2.4878773725107216e-05, 'epoch': 6.09}
 25%|██▌       | 19921/78504 [12:06:33<24:17:17,  1.49s/it] 25%|██▌       | 19922/78504 [12:06:34<22:35:11,  1.39s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.6512826085090637, 'learning_rate': 2.4878349114687274e-05, 'epoch': 6.09}
 25%|██▌       | 19922/78504 [12:06:34<22:35:11,  1.39s/it] 25%|██▌       | 19923/78504 [12:06:35<21:08:58,  1.30s/it]                                                           {'loss': 0.1739, 'grad_norm': 1.5190485715866089, 'learning_rate': 2.4877924504267337e-05, 'epoch': 6.09}
 25%|██▌       | 19923/78504 [12:06:35<21:08:58,  1.30s/it] 25%|██▌       | 19924/78504 [12:06:36<19:56:41,  1.23s/it]                                                           {'loss': 0.1626, 'grad_norm': 1.1432491540908813, 'learning_rate': 2.4877499893847395e-05, 'epoch': 6.09}
 25%|██▌       | 19924/78504 [12:06:36<19:56:41,  1.23s/it] 25%|██▌       | 19925/78504 [12:06:37<18:32:16,  1.14s/it]                                                           {'loss': 0.1918, 'grad_norm': 1.1763533353805542, 'learning_rate': 2.4877075283427457e-05, 'epoch': 6.09}
 25%|██▌       | 19925/78504 [12:06:37<18:32:16,  1.14s/it] 25%|██▌       | 19926/78504 [12:06:38<16:52:36,  1.04s/it]                                                           {'loss': 0.1736, 'grad_norm': 0.6478255987167358, 'learning_rate': 2.4876650673007516e-05, 'epoch': 6.09}
 25%|██▌       | 19926/78504 [12:06:38<16:52:36,  1.04s/it] 25%|██▌       | 19927/78504 [12:06:47<57:00:34,  3.50s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.4107470214366913, 'learning_rate': 2.4876226062587578e-05, 'epoch': 6.09}
 25%|██▌       | 19927/78504 [12:06:47<57:00:34,  3.50s/it] 25%|██▌       | 19928/78504 [12:06:50<54:03:45,  3.32s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.3474617600440979, 'learning_rate': 2.4875801452167637e-05, 'epoch': 6.09}
 25%|██▌       | 19928/78504 [12:06:50<54:03:45,  3.32s/it] 25%|██▌       | 19929/78504 [12:06:53<52:04:19,  3.20s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.19752146303653717, 'learning_rate': 2.4875376841747696e-05, 'epoch': 6.09}
 25%|██▌       | 19929/78504 [12:06:53<52:04:19,  3.20s/it] 25%|██▌       | 19930/78504 [12:06:56<49:01:03,  3.01s/it]                                                           {'loss': 0.0534, 'grad_norm': 0.18005865812301636, 'learning_rate': 2.4874952231327758e-05, 'epoch': 6.09}
 25%|██▌       | 19930/78504 [12:06:56<49:01:03,  3.01s/it] 25%|██▌       | 19931/78504 [12:06:58<46:26:21,  2.85s/it]                                                           {'loss': 0.0308, 'grad_norm': 0.1684458702802658, 'learning_rate': 2.4874527620907816e-05, 'epoch': 6.09}
 25%|██▌       | 19931/78504 [12:06:58<46:26:21,  2.85s/it] 25%|██▌       | 19932/78504 [12:07:01<44:27:56,  2.73s/it]                                                           {'loss': 0.0567, 'grad_norm': 1.1553531885147095, 'learning_rate': 2.487410301048788e-05, 'epoch': 6.09}
 25%|██▌       | 19932/78504 [12:07:01<44:27:56,  2.73s/it] 25%|██▌       | 19933/78504 [12:07:03<42:22:34,  2.60s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.33901405334472656, 'learning_rate': 2.4873678400067937e-05, 'epoch': 6.09}
 25%|██▌       | 19933/78504 [12:07:03<42:22:34,  2.60s/it] 25%|██▌       | 19934/78504 [12:07:05<39:59:09,  2.46s/it]                                                           {'loss': 0.0677, 'grad_norm': 0.29207420349121094, 'learning_rate': 2.4873253789648e-05, 'epoch': 6.09}
 25%|██▌       | 19934/78504 [12:07:05<39:59:09,  2.46s/it] 25%|██▌       | 19935/78504 [12:07:07<38:38:55,  2.38s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.34399598836898804, 'learning_rate': 2.4872829179228058e-05, 'epoch': 6.09}
 25%|██▌       | 19935/78504 [12:07:07<38:38:55,  2.38s/it] 25%|██▌       | 19936/78504 [12:07:09<37:29:57,  2.30s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.26935985684394836, 'learning_rate': 2.487240456880812e-05, 'epoch': 6.09}
 25%|██▌       | 19936/78504 [12:07:09<37:29:57,  2.30s/it] 25%|██▌       | 19937/78504 [12:07:11<36:10:01,  2.22s/it]                                                           {'loss': 0.0836, 'grad_norm': 0.2906731367111206, 'learning_rate': 2.487197995838818e-05, 'epoch': 6.1}
 25%|██▌       | 19937/78504 [12:07:11<36:10:01,  2.22s/it] 25%|██▌       | 19938/78504 [12:07:13<34:55:50,  2.15s/it]                                                           {'loss': 0.0724, 'grad_norm': 1.903587818145752, 'learning_rate': 2.487155534796824e-05, 'epoch': 6.1}
 25%|██▌       | 19938/78504 [12:07:13<34:55:50,  2.15s/it] 25%|██▌       | 19939/78504 [12:07:15<33:50:12,  2.08s/it]                                                           {'loss': 0.0677, 'grad_norm': 0.5834397077560425, 'learning_rate': 2.48711307375483e-05, 'epoch': 6.1}
 25%|██▌       | 19939/78504 [12:07:15<33:50:12,  2.08s/it] 25%|██▌       | 19940/78504 [12:07:17<32:48:32,  2.02s/it]                                                           {'loss': 0.1433, 'grad_norm': 0.6854841113090515, 'learning_rate': 2.487070612712836e-05, 'epoch': 6.1}
 25%|██▌       | 19940/78504 [12:07:17<32:48:32,  2.02s/it] 25%|██▌       | 19941/78504 [12:07:19<31:33:33,  1.94s/it]                                                           {'loss': 0.094, 'grad_norm': 0.5331303477287292, 'learning_rate': 2.487028151670842e-05, 'epoch': 6.1}
 25%|██▌       | 19941/78504 [12:07:19<31:33:33,  1.94s/it] 25%|██▌       | 19942/78504 [12:07:21<30:06:16,  1.85s/it]                                                           {'loss': 0.1291, 'grad_norm': 0.4218860864639282, 'learning_rate': 2.486985690628848e-05, 'epoch': 6.1}
 25%|██▌       | 19942/78504 [12:07:21<30:06:16,  1.85s/it] 25%|██▌       | 19943/78504 [12:07:22<28:35:49,  1.76s/it]                                                           {'loss': 0.1637, 'grad_norm': 1.2486780881881714, 'learning_rate': 2.486943229586854e-05, 'epoch': 6.1}
 25%|██▌       | 19943/78504 [12:07:22<28:35:49,  1.76s/it] 25%|██▌       | 19944/78504 [12:07:24<27:11:08,  1.67s/it]                                                           {'loss': 0.1519, 'grad_norm': 1.419704794883728, 'learning_rate': 2.48690076854486e-05, 'epoch': 6.1}
 25%|██▌       | 19944/78504 [12:07:24<27:11:08,  1.67s/it] 25%|██▌       | 19945/78504 [12:07:25<25:55:54,  1.59s/it]                                                           {'loss': 0.1408, 'grad_norm': 0.5460822582244873, 'learning_rate': 2.4868583075028662e-05, 'epoch': 6.1}
 25%|██▌       | 19945/78504 [12:07:25<25:55:54,  1.59s/it] 25%|██▌       | 19946/78504 [12:07:26<24:27:03,  1.50s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.7606019377708435, 'learning_rate': 2.486815846460872e-05, 'epoch': 6.1}
 25%|██▌       | 19946/78504 [12:07:26<24:27:03,  1.50s/it] 25%|██▌       | 19947/78504 [12:07:27<22:42:49,  1.40s/it]                                                           {'loss': 0.1537, 'grad_norm': 0.43589282035827637, 'learning_rate': 2.4867733854188783e-05, 'epoch': 6.1}
 25%|██▌       | 19947/78504 [12:07:27<22:42:49,  1.40s/it] 25%|██▌       | 19948/78504 [12:07:29<21:19:29,  1.31s/it]                                                           {'loss': 0.1668, 'grad_norm': 3.147671937942505, 'learning_rate': 2.486730924376884e-05, 'epoch': 6.1}
 25%|██▌       | 19948/78504 [12:07:29<21:19:29,  1.31s/it] 25%|██▌       | 19949/78504 [12:07:30<20:02:11,  1.23s/it]                                                           {'loss': 0.1612, 'grad_norm': 0.9603869318962097, 'learning_rate': 2.4866884633348903e-05, 'epoch': 6.1}
 25%|██▌       | 19949/78504 [12:07:30<20:02:11,  1.23s/it] 25%|██▌       | 19950/78504 [12:07:31<18:36:33,  1.14s/it]                                                           {'loss': 0.1757, 'grad_norm': 1.0561351776123047, 'learning_rate': 2.4866460022928962e-05, 'epoch': 6.1}
 25%|██▌       | 19950/78504 [12:07:31<18:36:33,  1.14s/it] 25%|██▌       | 19951/78504 [12:07:31<16:52:53,  1.04s/it]                                                           {'loss': 0.1951, 'grad_norm': 2.0390894412994385, 'learning_rate': 2.4866035412509024e-05, 'epoch': 6.1}
 25%|██▌       | 19951/78504 [12:07:31<16:52:53,  1.04s/it] 25%|██▌       | 19952/78504 [12:07:40<53:27:06,  3.29s/it]                                                           {'loss': 0.1288, 'grad_norm': 0.5840420126914978, 'learning_rate': 2.4865610802089083e-05, 'epoch': 6.1}
 25%|██▌       | 19952/78504 [12:07:40<53:27:06,  3.29s/it] 25%|██▌       | 19953/78504 [12:07:43<52:26:22,  3.22s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.32540029287338257, 'learning_rate': 2.486518619166914e-05, 'epoch': 6.1}
 25%|██▌       | 19953/78504 [12:07:43<52:26:22,  3.22s/it] 25%|██▌       | 19954/78504 [12:07:46<51:23:33,  3.16s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.25858598947525024, 'learning_rate': 2.4864761581249204e-05, 'epoch': 6.1}
 25%|██▌       | 19954/78504 [12:07:46<51:23:33,  3.16s/it] 25%|██▌       | 19955/78504 [12:07:49<48:44:45,  3.00s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.5324111580848694, 'learning_rate': 2.4864336970829262e-05, 'epoch': 6.1}
 25%|██▌       | 19955/78504 [12:07:49<48:44:45,  3.00s/it] 25%|██▌       | 19956/78504 [12:07:51<46:10:36,  2.84s/it]                                                           {'loss': 0.0462, 'grad_norm': 0.19806672632694244, 'learning_rate': 2.4863912360409324e-05, 'epoch': 6.1}
 25%|██▌       | 19956/78504 [12:07:51<46:10:36,  2.84s/it] 25%|██▌       | 19957/78504 [12:07:53<43:21:01,  2.67s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.4267543852329254, 'learning_rate': 2.4863487749989383e-05, 'epoch': 6.1}
 25%|██▌       | 19957/78504 [12:07:53<43:21:01,  2.67s/it] 25%|██▌       | 19958/78504 [12:07:56<41:39:14,  2.56s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.42229020595550537, 'learning_rate': 2.4863063139569445e-05, 'epoch': 6.1}
 25%|██▌       | 19958/78504 [12:07:56<41:39:14,  2.56s/it] 25%|██▌       | 19959/78504 [12:07:58<39:27:57,  2.43s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.31061115860939026, 'learning_rate': 2.4862638529149504e-05, 'epoch': 6.1}
 25%|██▌       | 19959/78504 [12:07:58<39:27:57,  2.43s/it] 25%|██▌       | 19960/78504 [12:08:00<38:16:28,  2.35s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.2036275714635849, 'learning_rate': 2.4862213918729566e-05, 'epoch': 6.1}
 25%|██▌       | 19960/78504 [12:08:00<38:16:28,  2.35s/it] 25%|██▌       | 19961/78504 [12:08:02<37:20:49,  2.30s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.2506101131439209, 'learning_rate': 2.4861789308309625e-05, 'epoch': 6.1}
 25%|██▌       | 19961/78504 [12:08:02<37:20:49,  2.30s/it] 25%|██▌       | 19962/78504 [12:08:04<35:10:21,  2.16s/it]                                                           {'loss': 0.092, 'grad_norm': 0.2963463068008423, 'learning_rate': 2.4861364697889687e-05, 'epoch': 6.1}
 25%|██▌       | 19962/78504 [12:08:04<35:10:21,  2.16s/it] 25%|██▌       | 19963/78504 [12:08:06<34:18:22,  2.11s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.3584853410720825, 'learning_rate': 2.4860940087469746e-05, 'epoch': 6.1}
 25%|██▌       | 19963/78504 [12:08:06<34:18:22,  2.11s/it] 25%|██▌       | 19964/78504 [12:08:08<33:23:02,  2.05s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.30029886960983276, 'learning_rate': 2.4860515477049808e-05, 'epoch': 6.1}
 25%|██▌       | 19964/78504 [12:08:08<33:23:02,  2.05s/it] 25%|██▌       | 19965/78504 [12:08:10<32:30:58,  2.00s/it]                                                           {'loss': 0.1131, 'grad_norm': 0.410064697265625, 'learning_rate': 2.4860090866629866e-05, 'epoch': 6.1}
 25%|██▌       | 19965/78504 [12:08:10<32:30:58,  2.00s/it] 25%|██▌       | 19966/78504 [12:08:11<31:24:14,  1.93s/it]                                                           {'loss': 0.0979, 'grad_norm': 0.4744073748588562, 'learning_rate': 2.4859666256209925e-05, 'epoch': 6.1}
 25%|██▌       | 19966/78504 [12:08:12<31:24:14,  1.93s/it] 25%|██▌       | 19967/78504 [12:08:13<29:40:01,  1.82s/it]                                                           {'loss': 0.13, 'grad_norm': 0.6344954371452332, 'learning_rate': 2.4859241645789987e-05, 'epoch': 6.1}
 25%|██▌       | 19967/78504 [12:08:13<29:40:01,  1.82s/it] 25%|██▌       | 19968/78504 [12:08:15<28:16:49,  1.74s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.739997923374176, 'learning_rate': 2.4858817035370046e-05, 'epoch': 6.1}
 25%|██▌       | 19968/78504 [12:08:15<28:16:49,  1.74s/it] 25%|██▌       | 19969/78504 [12:08:16<26:59:58,  1.66s/it]                                                           {'loss': 0.1793, 'grad_norm': 0.8400346636772156, 'learning_rate': 2.4858392424950108e-05, 'epoch': 6.1}
 25%|██▌       | 19969/78504 [12:08:16<26:59:58,  1.66s/it] 25%|██▌       | 19970/78504 [12:08:17<25:46:09,  1.58s/it]                                                           {'loss': 0.1728, 'grad_norm': 0.9937939643859863, 'learning_rate': 2.4857967814530167e-05, 'epoch': 6.11}
 25%|██▌       | 19970/78504 [12:08:18<25:46:09,  1.58s/it] 25%|██▌       | 19971/78504 [12:08:19<24:15:28,  1.49s/it]                                                           {'loss': 0.1691, 'grad_norm': 1.13655424118042, 'learning_rate': 2.485754320411023e-05, 'epoch': 6.11}
 25%|██▌       | 19971/78504 [12:08:19<24:15:28,  1.49s/it] 25%|██▌       | 19972/78504 [12:08:20<22:35:28,  1.39s/it]                                                           {'loss': 0.1535, 'grad_norm': 0.7149106860160828, 'learning_rate': 2.4857118593690287e-05, 'epoch': 6.11}
 25%|██▌       | 19972/78504 [12:08:20<22:35:28,  1.39s/it] 25%|██▌       | 19973/78504 [12:08:21<21:10:05,  1.30s/it]                                                           {'loss': 0.1627, 'grad_norm': 1.8682109117507935, 'learning_rate': 2.485669398327035e-05, 'epoch': 6.11}
 25%|██▌       | 19973/78504 [12:08:21<21:10:05,  1.30s/it] 25%|██▌       | 19974/78504 [12:08:22<19:40:06,  1.21s/it]                                                           {'loss': 0.1605, 'grad_norm': 0.9349708557128906, 'learning_rate': 2.4856269372850408e-05, 'epoch': 6.11}
 25%|██▌       | 19974/78504 [12:08:22<19:40:06,  1.21s/it] 25%|██▌       | 19975/78504 [12:08:23<18:18:57,  1.13s/it]                                                           {'loss': 0.1849, 'grad_norm': 3.0610692501068115, 'learning_rate': 2.485584476243047e-05, 'epoch': 6.11}
 25%|██▌       | 19975/78504 [12:08:23<18:18:57,  1.13s/it] 25%|██▌       | 19976/78504 [12:08:24<16:39:29,  1.02s/it]                                                           {'loss': 0.1821, 'grad_norm': 1.691949725151062, 'learning_rate': 2.485542015201053e-05, 'epoch': 6.11}
 25%|██▌       | 19976/78504 [12:08:24<16:39:29,  1.02s/it] 25%|██▌       | 19977/78504 [12:08:32<52:45:19,  3.24s/it]                                                           {'loss': 0.1435, 'grad_norm': 0.48088592290878296, 'learning_rate': 2.485499554159059e-05, 'epoch': 6.11}
 25%|██▌       | 19977/78504 [12:08:32<52:45:19,  3.24s/it] 25%|██▌       | 19978/78504 [12:08:36<53:20:06,  3.28s/it]                                                           {'loss': 0.0866, 'grad_norm': 1.1346766948699951, 'learning_rate': 2.4854570931170653e-05, 'epoch': 6.11}
 25%|██▌       | 19978/78504 [12:08:36<53:20:06,  3.28s/it] 25%|██▌       | 19979/78504 [12:08:38<51:51:28,  3.19s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.6547658443450928, 'learning_rate': 2.4854146320750712e-05, 'epoch': 6.11}
 25%|██▌       | 19979/78504 [12:08:39<51:51:28,  3.19s/it] 25%|██▌       | 19980/78504 [12:08:41<48:54:24,  3.01s/it]                                                           {'loss': 0.0522, 'grad_norm': 0.2037203460931778, 'learning_rate': 2.4853721710330774e-05, 'epoch': 6.11}
 25%|██▌       | 19980/78504 [12:08:41<48:54:24,  3.01s/it] 25%|██▌       | 19981/78504 [12:08:44<46:21:43,  2.85s/it]                                                           {'loss': 0.044, 'grad_norm': 0.1902245432138443, 'learning_rate': 2.4853297099910833e-05, 'epoch': 6.11}
 25%|██▌       | 19981/78504 [12:08:44<46:21:43,  2.85s/it] 25%|██▌       | 19982/78504 [12:08:46<43:56:57,  2.70s/it]                                                           {'loss': 0.06, 'grad_norm': 0.578431248664856, 'learning_rate': 2.4852872489490895e-05, 'epoch': 6.11}
 25%|██▌       | 19982/78504 [12:08:46<43:56:57,  2.70s/it] 25%|██▌       | 19983/78504 [12:08:48<42:07:06,  2.59s/it]                                                           {'loss': 0.0329, 'grad_norm': 1.2664282321929932, 'learning_rate': 2.4852447879070953e-05, 'epoch': 6.11}
 25%|██▌       | 19983/78504 [12:08:48<42:07:06,  2.59s/it] 25%|██▌       | 19984/78504 [12:08:51<40:28:44,  2.49s/it]                                                           {'loss': 0.0376, 'grad_norm': 0.12993751466274261, 'learning_rate': 2.4852023268651015e-05, 'epoch': 6.11}
 25%|██▌       | 19984/78504 [12:08:51<40:28:44,  2.49s/it] 25%|██▌       | 19985/78504 [12:08:53<39:00:27,  2.40s/it]                                                           {'loss': 0.0699, 'grad_norm': 0.4201193153858185, 'learning_rate': 2.4851598658231074e-05, 'epoch': 6.11}
 25%|██▌       | 19985/78504 [12:08:53<39:00:27,  2.40s/it] 25%|██▌       | 19986/78504 [12:08:55<37:46:47,  2.32s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.3284445106983185, 'learning_rate': 2.4851174047811136e-05, 'epoch': 6.11}
 25%|██▌       | 19986/78504 [12:08:55<37:46:47,  2.32s/it] 25%|██▌       | 19987/78504 [12:08:57<36:06:54,  2.22s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.869158923625946, 'learning_rate': 2.4850749437391195e-05, 'epoch': 6.11}
 25%|██▌       | 19987/78504 [12:08:57<36:06:54,  2.22s/it] 25%|██▌       | 19988/78504 [12:08:59<34:36:52,  2.13s/it]                                                           {'loss': 0.054, 'grad_norm': 0.7455506920814514, 'learning_rate': 2.4850324826971257e-05, 'epoch': 6.11}
 25%|██▌       | 19988/78504 [12:08:59<34:36:52,  2.13s/it] 25%|██▌       | 19989/78504 [12:09:01<33:22:03,  2.05s/it]                                                           {'loss': 0.0957, 'grad_norm': 1.1545263528823853, 'learning_rate': 2.4849900216551316e-05, 'epoch': 6.11}
 25%|██▌       | 19989/78504 [12:09:01<33:22:03,  2.05s/it] 25%|██▌       | 19990/78504 [12:09:02<32:22:54,  1.99s/it]                                                           {'loss': 0.1145, 'grad_norm': 0.46228376030921936, 'learning_rate': 2.4849475606131378e-05, 'epoch': 6.11}
 25%|██▌       | 19990/78504 [12:09:02<32:22:54,  1.99s/it] 25%|██▌       | 19991/78504 [12:09:04<31:18:10,  1.93s/it]                                                           {'loss': 0.1184, 'grad_norm': 0.48746687173843384, 'learning_rate': 2.4849050995711437e-05, 'epoch': 6.11}
 25%|██▌       | 19991/78504 [12:09:04<31:18:10,  1.93s/it] 25%|██▌       | 19992/78504 [12:09:06<29:56:04,  1.84s/it]                                                           {'loss': 0.1555, 'grad_norm': 0.6009523868560791, 'learning_rate': 2.4848626385291495e-05, 'epoch': 6.11}
 25%|██▌       | 19992/78504 [12:09:06<29:56:04,  1.84s/it] 25%|██▌       | 19993/78504 [12:09:07<28:23:17,  1.75s/it]                                                           {'loss': 0.2024, 'grad_norm': 0.6588444709777832, 'learning_rate': 2.4848201774871557e-05, 'epoch': 6.11}
 25%|██▌       | 19993/78504 [12:09:07<28:23:17,  1.75s/it] 25%|██▌       | 19994/78504 [12:09:09<26:49:24,  1.65s/it]                                                           {'loss': 0.1988, 'grad_norm': 0.514028787612915, 'learning_rate': 2.4847777164451616e-05, 'epoch': 6.11}
 25%|██▌       | 19994/78504 [12:09:09<26:49:24,  1.65s/it] 25%|██▌       | 19995/78504 [12:09:10<25:38:14,  1.58s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.7283613085746765, 'learning_rate': 2.4847352554031678e-05, 'epoch': 6.11}
 25%|██▌       | 19995/78504 [12:09:10<25:38:14,  1.58s/it] 25%|██▌       | 19996/78504 [12:09:12<24:12:23,  1.49s/it]                                                           {'loss': 0.183, 'grad_norm': 1.2133303880691528, 'learning_rate': 2.4846927943611737e-05, 'epoch': 6.11}
 25%|██▌       | 19996/78504 [12:09:12<24:12:23,  1.49s/it] 25%|██▌       | 19997/78504 [12:09:13<22:25:56,  1.38s/it]                                                           {'loss': 0.1694, 'grad_norm': 0.912172794342041, 'learning_rate': 2.48465033331918e-05, 'epoch': 6.11}
 25%|██▌       | 19997/78504 [12:09:13<22:25:56,  1.38s/it] 25%|██▌       | 19998/78504 [12:09:14<21:00:52,  1.29s/it]                                                           {'loss': 0.1842, 'grad_norm': 0.9513779282569885, 'learning_rate': 2.4846078722771858e-05, 'epoch': 6.11}
 25%|██▌       | 19998/78504 [12:09:14<21:00:52,  1.29s/it] 25%|██▌       | 19999/78504 [12:09:15<19:31:25,  1.20s/it]                                                           {'loss': 0.2147, 'grad_norm': 2.020568609237671, 'learning_rate': 2.484565411235192e-05, 'epoch': 6.11}
 25%|██▌       | 19999/78504 [12:09:15<19:31:25,  1.20s/it] 25%|██▌       | 20000/78504 [12:09:16<18:12:27,  1.12s/it]                                                           {'loss': 0.2498, 'grad_norm': 1.0235761404037476, 'learning_rate': 2.484522950193198e-05, 'epoch': 6.11}
 25%|██▌       | 20000/78504 [12:09:16<18:12:27,  1.12s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.60it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.75it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.77it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.87it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.17it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.62it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.73it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.08it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.42it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.55it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.84it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.26it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                           
                                               [A{'eval_loss': 0.22898529469966888, 'eval_wer': 0.3290969525990894, 'eval_cer': 0.18867358406162374, 'eval_runtime': 19.0149, 'eval_samples_per_second': 238.655, 'eval_steps_per_second': 0.789, 'epoch': 6.11}
 25%|██▌       | 20000/78504 [12:10:20<18:12:27,  1.12s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-20000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-18000] due to args.save_total_limit
 25%|██▌       | 20001/78504 [12:10:36<403:27:11, 24.83s/it]                                                            {'loss': 0.2028, 'grad_norm': 1.2547979354858398, 'learning_rate': 2.484480489151204e-05, 'epoch': 6.11}
 25%|██▌       | 20001/78504 [12:10:36<403:27:11, 24.83s/it] 25%|██▌       | 20002/78504 [12:10:43<316:00:55, 19.45s/it]                                                            {'loss': 0.1321, 'grad_norm': 0.3573864698410034, 'learning_rate': 2.48443802810921e-05, 'epoch': 6.11}
 25%|██▌       | 20002/78504 [12:10:43<316:00:55, 19.45s/it] 25%|██▌       | 20003/78504 [12:10:46<237:29:59, 14.62s/it]                                                            {'loss': 0.0886, 'grad_norm': 0.2522013783454895, 'learning_rate': 2.484395567067216e-05, 'epoch': 6.12}
 25%|██▌       | 20003/78504 [12:10:46<237:29:59, 14.62s/it] 25%|██▌       | 20004/78504 [12:10:49<180:28:21, 11.11s/it]                                                            {'loss': 0.0651, 'grad_norm': 0.4584152102470398, 'learning_rate': 2.484353106025222e-05, 'epoch': 6.12}
 25%|██▌       | 20004/78504 [12:10:49<180:28:21, 11.11s/it] 25%|██▌       | 20005/78504 [12:10:52<138:52:41,  8.55s/it]                                                            {'loss': 0.0537, 'grad_norm': 0.3608650267124176, 'learning_rate': 2.484310644983228e-05, 'epoch': 6.12}
 25%|██▌       | 20005/78504 [12:10:52<138:52:41,  8.55s/it] 25%|██▌       | 20006/78504 [12:10:54<109:19:51,  6.73s/it]                                                            {'loss': 0.037, 'grad_norm': 0.17288556694984436, 'learning_rate': 2.484268183941234e-05, 'epoch': 6.12}
 25%|██▌       | 20006/78504 [12:10:54<109:19:51,  6.73s/it] 25%|██▌       | 20007/78504 [12:10:56<88:26:11,  5.44s/it]                                                            {'loss': 0.04, 'grad_norm': 0.6777356863021851, 'learning_rate': 2.48422572289924e-05, 'epoch': 6.12}
 25%|██▌       | 20007/78504 [12:10:56<88:26:11,  5.44s/it] 25%|██▌       | 20008/78504 [12:10:59<73:11:23,  4.50s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.19145022332668304, 'learning_rate': 2.484183261857246e-05, 'epoch': 6.12}
 25%|██▌       | 20008/78504 [12:10:59<73:11:23,  4.50s/it] 25%|██▌       | 20009/78504 [12:11:01<61:30:07,  3.79s/it]                                                           {'loss': 0.0738, 'grad_norm': 0.7982898950576782, 'learning_rate': 2.484140800815252e-05, 'epoch': 6.12}
 25%|██▌       | 20009/78504 [12:11:01<61:30:07,  3.79s/it] 25%|██▌       | 20010/78504 [12:11:03<53:41:59,  3.30s/it]                                                           {'loss': 0.0708, 'grad_norm': 0.3078325688838959, 'learning_rate': 2.4840983397732582e-05, 'epoch': 6.12}
 25%|██▌       | 20010/78504 [12:11:03<53:41:59,  3.30s/it] 25%|██▌       | 20011/78504 [12:11:05<47:59:18,  2.95s/it]                                                           {'loss': 0.063, 'grad_norm': 0.1905602216720581, 'learning_rate': 2.484055878731264e-05, 'epoch': 6.12}
 25%|██▌       | 20011/78504 [12:11:05<47:59:18,  2.95s/it] 25%|██▌       | 20012/78504 [12:11:07<43:25:30,  2.67s/it]                                                           {'loss': 0.0819, 'grad_norm': 1.7849355936050415, 'learning_rate': 2.4840134176892703e-05, 'epoch': 6.12}
 25%|██▌       | 20012/78504 [12:11:07<43:25:30,  2.67s/it] 25%|██▌       | 20013/78504 [12:11:09<39:59:45,  2.46s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.2498578578233719, 'learning_rate': 2.4839709566472762e-05, 'epoch': 6.12}
 25%|██▌       | 20013/78504 [12:11:09<39:59:45,  2.46s/it] 25%|██▌       | 20014/78504 [12:11:11<37:11:01,  2.29s/it]                                                           {'loss': 0.0938, 'grad_norm': 0.5292383432388306, 'learning_rate': 2.4839284956052824e-05, 'epoch': 6.12}
 25%|██▌       | 20014/78504 [12:11:11<37:11:01,  2.29s/it] 25%|██▌       | 20015/78504 [12:11:13<35:03:16,  2.16s/it]                                                           {'loss': 0.1431, 'grad_norm': 1.4859169721603394, 'learning_rate': 2.4838860345632883e-05, 'epoch': 6.12}
 25%|██▌       | 20015/78504 [12:11:13<35:03:16,  2.16s/it] 25%|██▌       | 20016/78504 [12:11:15<32:55:23,  2.03s/it]                                                           {'loss': 0.1372, 'grad_norm': 0.5185948014259338, 'learning_rate': 2.4838435735212945e-05, 'epoch': 6.12}
 25%|██▌       | 20016/78504 [12:11:15<32:55:23,  2.03s/it] 25%|██▌       | 20017/78504 [12:11:16<31:02:24,  1.91s/it]                                                           {'loss': 0.1459, 'grad_norm': 0.9317001700401306, 'learning_rate': 2.4838011124793003e-05, 'epoch': 6.12}
 25%|██▌       | 20017/78504 [12:11:16<31:02:24,  1.91s/it] 25%|██▌       | 20018/78504 [12:11:18<29:15:04,  1.80s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.9072756767272949, 'learning_rate': 2.4837586514373062e-05, 'epoch': 6.12}
 25%|██▌       | 20018/78504 [12:11:18<29:15:04,  1.80s/it] 26%|██▌       | 20019/78504 [12:11:19<27:38:05,  1.70s/it]                                                           {'loss': 0.15, 'grad_norm': 0.385139137506485, 'learning_rate': 2.4837161903953124e-05, 'epoch': 6.12}
 26%|██▌       | 20019/78504 [12:11:19<27:38:05,  1.70s/it] 26%|██▌       | 20020/78504 [12:11:21<26:13:44,  1.61s/it]                                                           {'loss': 0.1477, 'grad_norm': 0.9279235005378723, 'learning_rate': 2.4836737293533183e-05, 'epoch': 6.12}
 26%|██▌       | 20020/78504 [12:11:21<26:13:44,  1.61s/it] 26%|██▌       | 20021/78504 [12:11:22<24:34:34,  1.51s/it]                                                           {'loss': 0.1946, 'grad_norm': 0.6589357256889343, 'learning_rate': 2.4836312683113245e-05, 'epoch': 6.12}
 26%|██▌       | 20021/78504 [12:11:22<24:34:34,  1.51s/it] 26%|██▌       | 20022/78504 [12:11:23<22:48:53,  1.40s/it]                                                           {'loss': 0.1623, 'grad_norm': 1.8496410846710205, 'learning_rate': 2.4835888072693304e-05, 'epoch': 6.12}
 26%|██▌       | 20022/78504 [12:11:23<22:48:53,  1.40s/it] 26%|██▌       | 20023/78504 [12:11:24<21:13:29,  1.31s/it]                                                           {'loss': 0.1485, 'grad_norm': 0.7936557531356812, 'learning_rate': 2.4835463462273366e-05, 'epoch': 6.12}
 26%|██▌       | 20023/78504 [12:11:24<21:13:29,  1.31s/it] 26%|██▌       | 20024/78504 [12:11:25<19:58:37,  1.23s/it]                                                           {'loss': 0.172, 'grad_norm': 0.9255039691925049, 'learning_rate': 2.4835038851853424e-05, 'epoch': 6.12}
 26%|██▌       | 20024/78504 [12:11:25<19:58:37,  1.23s/it] 26%|██▌       | 20025/78504 [12:11:26<18:29:26,  1.14s/it]                                                           {'loss': 0.2215, 'grad_norm': 0.9961348176002502, 'learning_rate': 2.4834614241433487e-05, 'epoch': 6.12}
 26%|██▌       | 20025/78504 [12:11:26<18:29:26,  1.14s/it] 26%|██▌       | 20026/78504 [12:11:27<16:48:00,  1.03s/it]                                                           {'loss': 0.1927, 'grad_norm': 4.02610445022583, 'learning_rate': 2.4834189631013545e-05, 'epoch': 6.12}
 26%|██▌       | 20026/78504 [12:11:27<16:48:00,  1.03s/it] 26%|██▌       | 20027/78504 [12:11:36<54:46:09,  3.37s/it]                                                           {'loss': 0.1316, 'grad_norm': 0.5254974961280823, 'learning_rate': 2.4833765020593607e-05, 'epoch': 6.12}
 26%|██▌       | 20027/78504 [12:11:36<54:46:09,  3.37s/it] 26%|██▌       | 20028/78504 [12:11:39<53:36:21,  3.30s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.43087247014045715, 'learning_rate': 2.4833340410173666e-05, 'epoch': 6.12}
 26%|██▌       | 20028/78504 [12:11:39<53:36:21,  3.30s/it] 26%|██▌       | 20029/78504 [12:11:42<52:10:54,  3.21s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.19606365263462067, 'learning_rate': 2.4832915799753728e-05, 'epoch': 6.12}
 26%|██▌       | 20029/78504 [12:11:42<52:10:54,  3.21s/it] 26%|██▌       | 20030/78504 [12:11:44<48:15:29,  2.97s/it]                                                           {'loss': 0.052, 'grad_norm': 0.45763981342315674, 'learning_rate': 2.4832491189333787e-05, 'epoch': 6.12}
 26%|██▌       | 20030/78504 [12:11:44<48:15:29,  2.97s/it] 26%|██▌       | 20031/78504 [12:11:47<45:49:12,  2.82s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.17534081637859344, 'learning_rate': 2.4832066578913846e-05, 'epoch': 6.12}
 26%|██▌       | 20031/78504 [12:11:47<45:49:12,  2.82s/it] 26%|██▌       | 20032/78504 [12:11:49<43:51:27,  2.70s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.35705211758613586, 'learning_rate': 2.4831641968493908e-05, 'epoch': 6.12}
 26%|██▌       | 20032/78504 [12:11:49<43:51:27,  2.70s/it] 26%|██▌       | 20033/78504 [12:11:52<41:59:50,  2.59s/it]                                                           {'loss': 0.0413, 'grad_norm': 0.22972489893436432, 'learning_rate': 2.4831217358073966e-05, 'epoch': 6.12}
 26%|██▌       | 20033/78504 [12:11:52<41:59:50,  2.59s/it] 26%|██▌       | 20034/78504 [12:11:54<39:33:56,  2.44s/it]                                                           {'loss': 0.0506, 'grad_norm': 0.5749980807304382, 'learning_rate': 2.483079274765403e-05, 'epoch': 6.12}
 26%|██▌       | 20034/78504 [12:11:54<39:33:56,  2.44s/it] 26%|██▌       | 20035/78504 [12:11:56<37:34:20,  2.31s/it]                                                           {'loss': 0.0766, 'grad_norm': 0.4807780086994171, 'learning_rate': 2.4830368137234087e-05, 'epoch': 6.13}
 26%|██▌       | 20035/78504 [12:11:56<37:34:20,  2.31s/it] 26%|██▌       | 20036/78504 [12:11:58<36:43:49,  2.26s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.4539906978607178, 'learning_rate': 2.482994352681415e-05, 'epoch': 6.13}
 26%|██▌       | 20036/78504 [12:11:58<36:43:49,  2.26s/it] 26%|██▌       | 20037/78504 [12:12:00<35:32:58,  2.19s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.18951162695884705, 'learning_rate': 2.4829518916394208e-05, 'epoch': 6.13}
 26%|██▌       | 20037/78504 [12:12:00<35:32:58,  2.19s/it] 26%|██▌       | 20038/78504 [12:12:02<34:31:29,  2.13s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.37651053071022034, 'learning_rate': 2.482909430597427e-05, 'epoch': 6.13}
 26%|██▌       | 20038/78504 [12:12:02<34:31:29,  2.13s/it] 26%|██▌       | 20039/78504 [12:12:04<33:13:25,  2.05s/it]                                                           {'loss': 0.1166, 'grad_norm': 0.34798187017440796, 'learning_rate': 2.482866969555433e-05, 'epoch': 6.13}
 26%|██▌       | 20039/78504 [12:12:04<33:13:25,  2.05s/it] 26%|██▌       | 20040/78504 [12:12:06<32:10:51,  1.98s/it]                                                           {'loss': 0.119, 'grad_norm': 0.31354188919067383, 'learning_rate': 2.482824508513439e-05, 'epoch': 6.13}
 26%|██▌       | 20040/78504 [12:12:06<32:10:51,  1.98s/it] 26%|██▌       | 20041/78504 [12:12:07<30:57:25,  1.91s/it]                                                           {'loss': 0.1272, 'grad_norm': 0.4313022494316101, 'learning_rate': 2.482782047471445e-05, 'epoch': 6.13}
 26%|██▌       | 20041/78504 [12:12:07<30:57:25,  1.91s/it] 26%|██▌       | 20042/78504 [12:12:09<29:40:19,  1.83s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.4057951867580414, 'learning_rate': 2.482739586429451e-05, 'epoch': 6.13}
 26%|██▌       | 20042/78504 [12:12:09<29:40:19,  1.83s/it] 26%|██▌       | 20043/78504 [12:12:10<28:09:00,  1.73s/it]                                                           {'loss': 0.1541, 'grad_norm': 0.4876025915145874, 'learning_rate': 2.482697125387457e-05, 'epoch': 6.13}
 26%|██▌       | 20043/78504 [12:12:10<28:09:00,  1.73s/it] 26%|██▌       | 20044/78504 [12:12:12<26:39:47,  1.64s/it]                                                           {'loss': 0.1729, 'grad_norm': 0.6185230612754822, 'learning_rate': 2.482654664345463e-05, 'epoch': 6.13}
 26%|██▌       | 20044/78504 [12:12:12<26:39:47,  1.64s/it] 26%|██▌       | 20045/78504 [12:12:13<25:34:29,  1.57s/it]                                                           {'loss': 0.175, 'grad_norm': 0.6111595034599304, 'learning_rate': 2.482612203303469e-05, 'epoch': 6.13}
 26%|██▌       | 20045/78504 [12:12:13<25:34:29,  1.57s/it] 26%|██▌       | 20046/78504 [12:12:15<24:09:47,  1.49s/it]                                                           {'loss': 0.1627, 'grad_norm': 0.5053378343582153, 'learning_rate': 2.482569742261475e-05, 'epoch': 6.13}
 26%|██▌       | 20046/78504 [12:12:15<24:09:47,  1.49s/it] 26%|██▌       | 20047/78504 [12:12:16<22:32:34,  1.39s/it]                                                           {'loss': 0.1556, 'grad_norm': 1.4949229955673218, 'learning_rate': 2.4825272812194812e-05, 'epoch': 6.13}
 26%|██▌       | 20047/78504 [12:12:16<22:32:34,  1.39s/it] 26%|██▌       | 20048/78504 [12:12:17<21:04:23,  1.30s/it]                                                           {'loss': 0.1423, 'grad_norm': 1.9458024501800537, 'learning_rate': 2.482484820177487e-05, 'epoch': 6.13}
 26%|██▌       | 20048/78504 [12:12:17<21:04:23,  1.30s/it] 26%|██▌       | 20049/78504 [12:12:18<19:37:06,  1.21s/it]                                                           {'loss': 0.2013, 'grad_norm': 1.2721468210220337, 'learning_rate': 2.4824423591354933e-05, 'epoch': 6.13}
 26%|██▌       | 20049/78504 [12:12:18<19:37:06,  1.21s/it] 26%|██▌       | 20050/78504 [12:12:19<18:16:28,  1.13s/it]                                                           {'loss': 0.1799, 'grad_norm': 1.4745368957519531, 'learning_rate': 2.482399898093499e-05, 'epoch': 6.13}
 26%|██▌       | 20050/78504 [12:12:19<18:16:28,  1.13s/it] 26%|██▌       | 20051/78504 [12:12:19<16:27:25,  1.01s/it]                                                           {'loss': 0.186, 'grad_norm': 1.9840422868728638, 'learning_rate': 2.4823574370515053e-05, 'epoch': 6.13}
 26%|██▌       | 20051/78504 [12:12:19<16:27:25,  1.01s/it] 26%|██▌       | 20052/78504 [12:12:27<48:55:59,  3.01s/it]                                                           {'loss': 0.1243, 'grad_norm': 0.2885703146457672, 'learning_rate': 2.4823149760095112e-05, 'epoch': 6.13}
 26%|██▌       | 20052/78504 [12:12:27<48:55:59,  3.01s/it] 26%|██▌       | 20053/78504 [12:12:30<50:18:57,  3.10s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.397899329662323, 'learning_rate': 2.4822725149675174e-05, 'epoch': 6.13}
 26%|██▌       | 20053/78504 [12:12:30<50:18:57,  3.10s/it] 26%|██▌       | 20054/78504 [12:12:33<49:54:17,  3.07s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.19123125076293945, 'learning_rate': 2.4822300539255233e-05, 'epoch': 6.13}
 26%|██▌       | 20054/78504 [12:12:33<49:54:17,  3.07s/it] 26%|██▌       | 20055/78504 [12:12:36<47:38:54,  2.93s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.28262609243392944, 'learning_rate': 2.4821875928835295e-05, 'epoch': 6.13}
 26%|██▌       | 20055/78504 [12:12:36<47:38:54,  2.93s/it] 26%|██▌       | 20056/78504 [12:12:39<45:20:52,  2.79s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.32557299733161926, 'learning_rate': 2.4821451318415354e-05, 'epoch': 6.13}
 26%|██▌       | 20056/78504 [12:12:39<45:20:52,  2.79s/it] 26%|██▌       | 20057/78504 [12:12:41<42:46:56,  2.64s/it]                                                           {'loss': 0.0321, 'grad_norm': 0.19462990760803223, 'learning_rate': 2.4821026707995412e-05, 'epoch': 6.13}
 26%|██▌       | 20057/78504 [12:12:41<42:46:56,  2.64s/it] 26%|██▌       | 20058/78504 [12:12:43<41:12:36,  2.54s/it]                                                           {'loss': 0.0522, 'grad_norm': 0.2688189446926117, 'learning_rate': 2.4820602097575474e-05, 'epoch': 6.13}
 26%|██▌       | 20058/78504 [12:12:43<41:12:36,  2.54s/it] 26%|██▌       | 20059/78504 [12:12:45<39:07:19,  2.41s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.23523059487342834, 'learning_rate': 2.4820177487155533e-05, 'epoch': 6.13}
 26%|██▌       | 20059/78504 [12:12:45<39:07:19,  2.41s/it] 26%|██▌       | 20060/78504 [12:12:47<38:01:44,  2.34s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.229433074593544, 'learning_rate': 2.4819752876735595e-05, 'epoch': 6.13}
 26%|██▌       | 20060/78504 [12:12:47<38:01:44,  2.34s/it] 26%|██▌       | 20061/78504 [12:12:50<37:07:51,  2.29s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.24379856884479523, 'learning_rate': 2.4819328266315654e-05, 'epoch': 6.13}
 26%|██▌       | 20061/78504 [12:12:50<37:07:51,  2.29s/it] 26%|██▌       | 20062/78504 [12:12:52<35:54:10,  2.21s/it]                                                           {'loss': 0.0833, 'grad_norm': 1.0900676250457764, 'learning_rate': 2.4818903655895716e-05, 'epoch': 6.13}
 26%|██▌       | 20062/78504 [12:12:52<35:54:10,  2.21s/it] 26%|██▌       | 20063/78504 [12:12:54<34:46:26,  2.14s/it]                                                           {'loss': 0.0984, 'grad_norm': 1.153342843055725, 'learning_rate': 2.4818479045475775e-05, 'epoch': 6.13}
 26%|██▌       | 20063/78504 [12:12:54<34:46:26,  2.14s/it] 26%|██▌       | 20064/78504 [12:12:55<33:29:07,  2.06s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.4444144666194916, 'learning_rate': 2.4818054435055837e-05, 'epoch': 6.13}
 26%|██▌       | 20064/78504 [12:12:55<33:29:07,  2.06s/it] 26%|██▌       | 20065/78504 [12:12:57<32:32:46,  2.00s/it]                                                           {'loss': 0.1342, 'grad_norm': 2.719917058944702, 'learning_rate': 2.4817629824635896e-05, 'epoch': 6.13}
 26%|██▌       | 20065/78504 [12:12:57<32:32:46,  2.00s/it] 26%|██▌       | 20066/78504 [12:12:59<31:22:05,  1.93s/it]                                                           {'loss': 0.0953, 'grad_norm': 0.45973753929138184, 'learning_rate': 2.4817205214215958e-05, 'epoch': 6.13}
 26%|██▌       | 20066/78504 [12:12:59<31:22:05,  1.93s/it] 26%|██▌       | 20067/78504 [12:13:01<29:35:56,  1.82s/it]                                                           {'loss': 0.1266, 'grad_norm': 1.5075887441635132, 'learning_rate': 2.4816780603796016e-05, 'epoch': 6.13}
 26%|██▌       | 20067/78504 [12:13:01<29:35:56,  1.82s/it] 26%|██▌       | 20068/78504 [12:13:02<28:16:07,  1.74s/it]                                                           {'loss': 0.1279, 'grad_norm': 2.6875383853912354, 'learning_rate': 2.4816355993376075e-05, 'epoch': 6.14}
 26%|██▌       | 20068/78504 [12:13:02<28:16:07,  1.74s/it] 26%|██▌       | 20069/78504 [12:13:04<27:09:17,  1.67s/it]                                                           {'loss': 0.1435, 'grad_norm': 1.0308547019958496, 'learning_rate': 2.4815931382956137e-05, 'epoch': 6.14}
 26%|██▌       | 20069/78504 [12:13:04<27:09:17,  1.67s/it] 26%|██▌       | 20070/78504 [12:13:05<25:51:47,  1.59s/it]                                                           {'loss': 0.1726, 'grad_norm': 1.358459711074829, 'learning_rate': 2.4815506772536196e-05, 'epoch': 6.14}
 26%|██▌       | 20070/78504 [12:13:05<25:51:47,  1.59s/it] 26%|██▌       | 20071/78504 [12:13:06<24:18:05,  1.50s/it]                                                           {'loss': 0.2297, 'grad_norm': 12.8378324508667, 'learning_rate': 2.4815082162116258e-05, 'epoch': 6.14}
 26%|██▌       | 20071/78504 [12:13:06<24:18:05,  1.50s/it] 26%|██▌       | 20072/78504 [12:13:08<22:36:24,  1.39s/it]                                                           {'loss': 0.1869, 'grad_norm': 2.2743887901306152, 'learning_rate': 2.4814657551696317e-05, 'epoch': 6.14}
 26%|██▌       | 20072/78504 [12:13:08<22:36:24,  1.39s/it] 26%|██▌       | 20073/78504 [12:13:09<21:09:00,  1.30s/it]                                                           {'loss': 0.1552, 'grad_norm': 1.2718961238861084, 'learning_rate': 2.481423294127638e-05, 'epoch': 6.14}
 26%|██▌       | 20073/78504 [12:13:09<21:09:00,  1.30s/it] 26%|██▌       | 20074/78504 [12:13:10<19:37:14,  1.21s/it]                                                           {'loss': 0.1746, 'grad_norm': 0.9508559107780457, 'learning_rate': 2.4813808330856437e-05, 'epoch': 6.14}
 26%|██▌       | 20074/78504 [12:13:10<19:37:14,  1.21s/it] 26%|██▌       | 20075/78504 [12:13:11<18:15:20,  1.12s/it]                                                           {'loss': 0.1606, 'grad_norm': 1.2071402072906494, 'learning_rate': 2.48133837204365e-05, 'epoch': 6.14}
 26%|██▌       | 20075/78504 [12:13:11<18:15:20,  1.12s/it] 26%|██▌       | 20076/78504 [12:13:11<16:32:52,  1.02s/it]                                                           {'loss': 0.2458, 'grad_norm': 1.7062819004058838, 'learning_rate': 2.4812959110016558e-05, 'epoch': 6.14}
 26%|██▌       | 20076/78504 [12:13:11<16:32:52,  1.02s/it] 26%|██▌       | 20077/78504 [12:13:20<53:34:42,  3.30s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.38832446932792664, 'learning_rate': 2.481253449959662e-05, 'epoch': 6.14}
 26%|██▌       | 20077/78504 [12:13:20<53:34:42,  3.30s/it] 26%|██▌       | 20078/78504 [12:13:23<53:36:27,  3.30s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.3766445815563202, 'learning_rate': 2.481210988917668e-05, 'epoch': 6.14}
 26%|██▌       | 20078/78504 [12:13:23<53:36:27,  3.30s/it] 26%|██▌       | 20079/78504 [12:13:26<52:01:17,  3.21s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.4837579131126404, 'learning_rate': 2.481168527875674e-05, 'epoch': 6.14}
 26%|██▌       | 20079/78504 [12:13:26<52:01:17,  3.21s/it] 26%|██▌       | 20080/78504 [12:13:29<48:59:52,  3.02s/it]                                                           {'loss': 0.0514, 'grad_norm': 1.7309014797210693, 'learning_rate': 2.4811260668336803e-05, 'epoch': 6.14}
 26%|██▌       | 20080/78504 [12:13:29<48:59:52,  3.02s/it] 26%|██▌       | 20081/78504 [12:13:31<46:25:58,  2.86s/it]                                                           {'loss': 0.064, 'grad_norm': 1.0511382818222046, 'learning_rate': 2.4810836057916862e-05, 'epoch': 6.14}
 26%|██▌       | 20081/78504 [12:13:31<46:25:58,  2.86s/it] 26%|██▌       | 20082/78504 [12:13:34<43:57:11,  2.71s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.22710208594799042, 'learning_rate': 2.4810411447496924e-05, 'epoch': 6.14}
 26%|██▌       | 20082/78504 [12:13:34<43:57:11,  2.71s/it] 26%|██▌       | 20083/78504 [12:13:36<42:06:12,  2.59s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.2142905443906784, 'learning_rate': 2.4809986837076983e-05, 'epoch': 6.14}
 26%|██▌       | 20083/78504 [12:13:36<42:06:12,  2.59s/it] 26%|██▌       | 20084/78504 [12:13:38<39:41:38,  2.45s/it]                                                           {'loss': 0.0449, 'grad_norm': 0.22528788447380066, 'learning_rate': 2.4809562226657045e-05, 'epoch': 6.14}
 26%|██▌       | 20084/78504 [12:13:38<39:41:38,  2.45s/it] 26%|██▌       | 20085/78504 [12:13:40<37:40:17,  2.32s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.30468952655792236, 'learning_rate': 2.4809137616237103e-05, 'epoch': 6.14}
 26%|██▌       | 20085/78504 [12:13:40<37:40:17,  2.32s/it] 26%|██▌       | 20086/78504 [12:13:42<36:45:58,  2.27s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.32673898339271545, 'learning_rate': 2.4808713005817166e-05, 'epoch': 6.14}
 26%|██▌       | 20086/78504 [12:13:42<36:45:58,  2.27s/it] 26%|██▌       | 20087/78504 [12:13:44<35:26:02,  2.18s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.39549100399017334, 'learning_rate': 2.4808288395397224e-05, 'epoch': 6.14}
 26%|██▌       | 20087/78504 [12:13:44<35:26:02,  2.18s/it] 26%|██▌       | 20088/78504 [12:13:46<34:09:03,  2.10s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.3479348421096802, 'learning_rate': 2.4807863784977286e-05, 'epoch': 6.14}
 26%|██▌       | 20088/78504 [12:13:46<34:09:03,  2.10s/it] 26%|██▌       | 20089/78504 [12:13:48<32:59:38,  2.03s/it]                                                           {'loss': 0.0891, 'grad_norm': 0.5725882649421692, 'learning_rate': 2.4807439174557345e-05, 'epoch': 6.14}
 26%|██▌       | 20089/78504 [12:13:48<32:59:38,  2.03s/it] 26%|██▌       | 20090/78504 [12:13:50<31:27:10,  1.94s/it]                                                           {'loss': 0.0983, 'grad_norm': 0.7765361666679382, 'learning_rate': 2.4807014564137407e-05, 'epoch': 6.14}
 26%|██▌       | 20090/78504 [12:13:50<31:27:10,  1.94s/it] 26%|██▌       | 20091/78504 [12:13:51<30:04:05,  1.85s/it]                                                           {'loss': 0.1118, 'grad_norm': 1.6028186082839966, 'learning_rate': 2.4806589953717466e-05, 'epoch': 6.14}
 26%|██▌       | 20091/78504 [12:13:51<30:04:05,  1.85s/it] 26%|██▌       | 20092/78504 [12:13:53<29:01:35,  1.79s/it]                                                           {'loss': 0.158, 'grad_norm': 0.7016972303390503, 'learning_rate': 2.4806165343297528e-05, 'epoch': 6.14}
 26%|██▌       | 20092/78504 [12:13:53<29:01:35,  1.79s/it] 26%|██▌       | 20093/78504 [12:13:55<27:43:11,  1.71s/it]                                                           {'loss': 0.1476, 'grad_norm': 0.3718530237674713, 'learning_rate': 2.4805740732877587e-05, 'epoch': 6.14}
 26%|██▌       | 20093/78504 [12:13:55<27:43:11,  1.71s/it] 26%|██▌       | 20094/78504 [12:13:56<26:32:59,  1.64s/it]                                                           {'loss': 0.1636, 'grad_norm': 1.1421587467193604, 'learning_rate': 2.4805316122457645e-05, 'epoch': 6.14}
 26%|██▌       | 20094/78504 [12:13:56<26:32:59,  1.64s/it] 26%|██▌       | 20095/78504 [12:13:57<25:32:25,  1.57s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.48134684562683105, 'learning_rate': 2.4804891512037707e-05, 'epoch': 6.14}
 26%|██▌       | 20095/78504 [12:13:57<25:32:25,  1.57s/it] 26%|██▌       | 20096/78504 [12:13:59<24:11:33,  1.49s/it]                                                           {'loss': 0.1764, 'grad_norm': 0.6081392765045166, 'learning_rate': 2.4804466901617766e-05, 'epoch': 6.14}
 26%|██▌       | 20096/78504 [12:13:59<24:11:33,  1.49s/it] 26%|██▌       | 20097/78504 [12:14:00<22:31:00,  1.39s/it]                                                           {'loss': 0.1909, 'grad_norm': 1.2247326374053955, 'learning_rate': 2.4804042291197828e-05, 'epoch': 6.14}
 26%|██▌       | 20097/78504 [12:14:00<22:31:00,  1.39s/it] 26%|██▌       | 20098/78504 [12:14:01<21:03:35,  1.30s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.6731672286987305, 'learning_rate': 2.4803617680777887e-05, 'epoch': 6.14}
 26%|██▌       | 20098/78504 [12:14:01<21:03:35,  1.30s/it] 26%|██▌       | 20099/78504 [12:14:02<19:53:00,  1.23s/it]                                                           {'loss': 0.153, 'grad_norm': 0.9438702464103699, 'learning_rate': 2.480319307035795e-05, 'epoch': 6.14}
 26%|██▌       | 20099/78504 [12:14:02<19:53:00,  1.23s/it] 26%|██▌       | 20100/78504 [12:14:03<18:28:31,  1.14s/it]                                                           {'loss': 0.1753, 'grad_norm': 0.7976147532463074, 'learning_rate': 2.4802768459938008e-05, 'epoch': 6.14}
 26%|██▌       | 20100/78504 [12:14:03<18:28:31,  1.14s/it] 26%|██▌       | 20101/78504 [12:14:04<16:50:19,  1.04s/it]                                                           {'loss': 0.2032, 'grad_norm': 2.526564359664917, 'learning_rate': 2.480234384951807e-05, 'epoch': 6.15}
 26%|██▌       | 20101/78504 [12:14:04<16:50:19,  1.04s/it] 26%|██▌       | 20102/78504 [12:14:12<52:18:50,  3.22s/it]                                                           {'loss': 0.1493, 'grad_norm': 0.5862466096878052, 'learning_rate': 2.480191923909813e-05, 'epoch': 6.15}
 26%|██▌       | 20102/78504 [12:14:12<52:18:50,  3.22s/it] 26%|██▌       | 20103/78504 [12:14:15<51:51:59,  3.20s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.2493760585784912, 'learning_rate': 2.480149462867819e-05, 'epoch': 6.15}
 26%|██▌       | 20103/78504 [12:14:15<51:51:59,  3.20s/it] 26%|██▌       | 20104/78504 [12:14:18<50:58:26,  3.14s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.40468549728393555, 'learning_rate': 2.480107001825825e-05, 'epoch': 6.15}
 26%|██▌       | 20104/78504 [12:14:18<50:58:26,  3.14s/it] 26%|██▌       | 20105/78504 [12:14:21<48:24:26,  2.98s/it]                                                           {'loss': 0.0459, 'grad_norm': 0.14847777783870697, 'learning_rate': 2.480064540783831e-05, 'epoch': 6.15}
 26%|██▌       | 20105/78504 [12:14:21<48:24:26,  2.98s/it] 26%|██▌       | 20106/78504 [12:14:23<45:19:07,  2.79s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.3227570950984955, 'learning_rate': 2.480022079741837e-05, 'epoch': 6.15}
 26%|██▌       | 20106/78504 [12:14:23<45:19:07,  2.79s/it] 26%|██▌       | 20107/78504 [12:14:25<42:42:43,  2.63s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.3809252679347992, 'learning_rate': 2.479979618699843e-05, 'epoch': 6.15}
 26%|██▌       | 20107/78504 [12:14:26<42:42:43,  2.63s/it] 26%|██▌       | 20108/78504 [12:14:28<41:08:49,  2.54s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.26486828923225403, 'learning_rate': 2.479937157657849e-05, 'epoch': 6.15}
 26%|██▌       | 20108/78504 [12:14:28<41:08:49,  2.54s/it] 26%|██▌       | 20109/78504 [12:14:30<38:57:57,  2.40s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.26664048433303833, 'learning_rate': 2.479894696615855e-05, 'epoch': 6.15}
 26%|██▌       | 20109/78504 [12:14:30<38:57:57,  2.40s/it] 26%|██▌       | 20110/78504 [12:14:32<37:57:28,  2.34s/it]                                                           {'loss': 0.0934, 'grad_norm': 0.3954389989376068, 'learning_rate': 2.479852235573861e-05, 'epoch': 6.15}
 26%|██▌       | 20110/78504 [12:14:32<37:57:28,  2.34s/it] 26%|██▌       | 20111/78504 [12:14:34<36:57:49,  2.28s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.3424180746078491, 'learning_rate': 2.479809774531867e-05, 'epoch': 6.15}
 26%|██▌       | 20111/78504 [12:14:34<36:57:49,  2.28s/it] 26%|██▌       | 20112/78504 [12:14:36<35:31:05,  2.19s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.5172868371009827, 'learning_rate': 2.4797673134898732e-05, 'epoch': 6.15}
 26%|██▌       | 20112/78504 [12:14:36<35:31:05,  2.19s/it] 26%|██▌       | 20113/78504 [12:14:38<34:11:36,  2.11s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.34510165452957153, 'learning_rate': 2.479724852447879e-05, 'epoch': 6.15}
 26%|██▌       | 20113/78504 [12:14:38<34:11:36,  2.11s/it] 26%|██▌       | 20114/78504 [12:14:40<33:06:04,  2.04s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.6055574417114258, 'learning_rate': 2.4796823914058853e-05, 'epoch': 6.15}
 26%|██▌       | 20114/78504 [12:14:40<33:06:04,  2.04s/it] 26%|██▌       | 20115/78504 [12:14:42<31:15:23,  1.93s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.7596948146820068, 'learning_rate': 2.4796399303638912e-05, 'epoch': 6.15}
 26%|██▌       | 20115/78504 [12:14:42<31:15:23,  1.93s/it] 26%|██▌       | 20116/78504 [12:14:43<30:30:37,  1.88s/it]                                                           {'loss': 0.1337, 'grad_norm': 0.6818168759346008, 'learning_rate': 2.4795974693218974e-05, 'epoch': 6.15}
 26%|██▌       | 20116/78504 [12:14:43<30:30:37,  1.88s/it] 26%|██▌       | 20117/78504 [12:14:45<29:18:50,  1.81s/it]                                                           {'loss': 0.1154, 'grad_norm': 0.73282390832901, 'learning_rate': 2.4795550082799033e-05, 'epoch': 6.15}
 26%|██▌       | 20117/78504 [12:14:45<29:18:50,  1.81s/it] 26%|██▌       | 20118/78504 [12:14:47<27:53:32,  1.72s/it]                                                           {'loss': 0.1252, 'grad_norm': 1.3488432168960571, 'learning_rate': 2.4795125472379095e-05, 'epoch': 6.15}
 26%|██▌       | 20118/78504 [12:14:47<27:53:32,  1.72s/it] 26%|██▌       | 20119/78504 [12:14:48<26:24:46,  1.63s/it]                                                           {'loss': 0.145, 'grad_norm': 0.3932856023311615, 'learning_rate': 2.4794700861959153e-05, 'epoch': 6.15}
 26%|██▌       | 20119/78504 [12:14:48<26:24:46,  1.63s/it] 26%|██▌       | 20120/78504 [12:14:49<25:21:04,  1.56s/it]                                                           {'loss': 0.1951, 'grad_norm': 0.7178389430046082, 'learning_rate': 2.4794276251539212e-05, 'epoch': 6.15}
 26%|██▌       | 20120/78504 [12:14:49<25:21:04,  1.56s/it] 26%|██▌       | 20121/78504 [12:14:51<23:39:24,  1.46s/it]                                                           {'loss': 0.1671, 'grad_norm': 1.585100769996643, 'learning_rate': 2.4793851641119274e-05, 'epoch': 6.15}
 26%|██▌       | 20121/78504 [12:14:51<23:39:24,  1.46s/it] 26%|██▌       | 20122/78504 [12:14:52<22:03:23,  1.36s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.7396789193153381, 'learning_rate': 2.4793427030699333e-05, 'epoch': 6.15}
 26%|██▌       | 20122/78504 [12:14:52<22:03:23,  1.36s/it] 26%|██▌       | 20123/78504 [12:14:53<20:50:28,  1.29s/it]                                                           {'loss': 0.1626, 'grad_norm': 1.4580085277557373, 'learning_rate': 2.4793002420279395e-05, 'epoch': 6.15}
 26%|██▌       | 20123/78504 [12:14:53<20:50:28,  1.29s/it] 26%|██▌       | 20124/78504 [12:14:54<19:22:41,  1.19s/it]                                                           {'loss': 0.1559, 'grad_norm': 2.7738986015319824, 'learning_rate': 2.4792577809859454e-05, 'epoch': 6.15}
 26%|██▌       | 20124/78504 [12:14:54<19:22:41,  1.19s/it] 26%|██▌       | 20125/78504 [12:14:55<18:10:09,  1.12s/it]                                                           {'loss': 0.1743, 'grad_norm': 1.3182408809661865, 'learning_rate': 2.4792153199439516e-05, 'epoch': 6.15}
 26%|██▌       | 20125/78504 [12:14:55<18:10:09,  1.12s/it] 26%|██▌       | 20126/78504 [12:14:56<16:28:44,  1.02s/it]                                                           {'loss': 0.2052, 'grad_norm': 2.207758903503418, 'learning_rate': 2.4791728589019575e-05, 'epoch': 6.15}
 26%|██▌       | 20126/78504 [12:14:56<16:28:44,  1.02s/it] 26%|██▌       | 20127/78504 [12:15:03<50:04:56,  3.09s/it]                                                           {'loss': 0.1171, 'grad_norm': 0.4596731662750244, 'learning_rate': 2.4791303978599637e-05, 'epoch': 6.15}
 26%|██▌       | 20127/78504 [12:15:04<50:04:56,  3.09s/it] 26%|██▌       | 20128/78504 [12:15:07<50:53:18,  3.14s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.1942089945077896, 'learning_rate': 2.4790879368179695e-05, 'epoch': 6.15}
 26%|██▌       | 20128/78504 [12:15:07<50:53:18,  3.14s/it] 26%|██▌       | 20129/78504 [12:15:10<50:17:20,  3.10s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.18716222047805786, 'learning_rate': 2.4790454757759757e-05, 'epoch': 6.15}
 26%|██▌       | 20129/78504 [12:15:10<50:17:20,  3.10s/it] 26%|██▌       | 20130/78504 [12:15:12<47:54:09,  2.95s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.21345117688179016, 'learning_rate': 2.4790030147339816e-05, 'epoch': 6.15}
 26%|██▌       | 20130/78504 [12:15:12<47:54:09,  2.95s/it] 26%|██▌       | 20131/78504 [12:15:15<45:30:15,  2.81s/it]                                                           {'loss': 0.0547, 'grad_norm': 0.5924190878868103, 'learning_rate': 2.4789605536919878e-05, 'epoch': 6.15}
 26%|██▌       | 20131/78504 [12:15:15<45:30:15,  2.81s/it] 26%|██▌       | 20132/78504 [12:15:17<42:48:58,  2.64s/it]                                                           {'loss': 0.0382, 'grad_norm': 0.2695184051990509, 'learning_rate': 2.4789180926499937e-05, 'epoch': 6.15}
 26%|██▌       | 20132/78504 [12:15:17<42:48:58,  2.64s/it] 26%|██▌       | 20133/78504 [12:15:19<41:12:51,  2.54s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.35957202315330505, 'learning_rate': 2.4788756316079996e-05, 'epoch': 6.15}
 26%|██▌       | 20133/78504 [12:15:19<41:12:51,  2.54s/it] 26%|██▌       | 20134/78504 [12:15:22<39:05:20,  2.41s/it]                                                           {'loss': 0.0367, 'grad_norm': 0.8777598142623901, 'learning_rate': 2.4788331705660058e-05, 'epoch': 6.16}
 26%|██▌       | 20134/78504 [12:15:22<39:05:20,  2.41s/it] 26%|██▌       | 20135/78504 [12:15:24<37:56:52,  2.34s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.3967845141887665, 'learning_rate': 2.4787907095240116e-05, 'epoch': 6.16}
 26%|██▌       | 20135/78504 [12:15:24<37:56:52,  2.34s/it] 26%|██▌       | 20136/78504 [12:15:26<36:57:55,  2.28s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.29549726843833923, 'learning_rate': 2.478748248482018e-05, 'epoch': 6.16}
 26%|██▌       | 20136/78504 [12:15:26<36:57:55,  2.28s/it] 26%|██▌       | 20137/78504 [12:15:28<35:41:29,  2.20s/it]                                                           {'loss': 0.073, 'grad_norm': 0.3033007085323334, 'learning_rate': 2.4787057874400237e-05, 'epoch': 6.16}
 26%|██▌       | 20137/78504 [12:15:28<35:41:29,  2.20s/it] 26%|██▌       | 20138/78504 [12:15:30<34:34:03,  2.13s/it]                                                           {'loss': 0.0585, 'grad_norm': 0.9561851024627686, 'learning_rate': 2.47866332639803e-05, 'epoch': 6.16}
 26%|██▌       | 20138/78504 [12:15:30<34:34:03,  2.13s/it] 26%|██▌       | 20139/78504 [12:15:32<33:15:17,  2.05s/it]                                                           {'loss': 0.1067, 'grad_norm': 1.0223305225372314, 'learning_rate': 2.4786208653560358e-05, 'epoch': 6.16}
 26%|██▌       | 20139/78504 [12:15:32<33:15:17,  2.05s/it] 26%|██▌       | 20140/78504 [12:15:33<31:37:47,  1.95s/it]                                                           {'loss': 0.1032, 'grad_norm': 0.4633241891860962, 'learning_rate': 2.478578404314042e-05, 'epoch': 6.16}
 26%|██▌       | 20140/78504 [12:15:33<31:37:47,  1.95s/it] 26%|██▌       | 20141/78504 [12:15:35<30:30:12,  1.88s/it]                                                           {'loss': 0.1105, 'grad_norm': 2.452773332595825, 'learning_rate': 2.478535943272048e-05, 'epoch': 6.16}
 26%|██▌       | 20141/78504 [12:15:35<30:30:12,  1.88s/it] 26%|██▌       | 20142/78504 [12:15:37<29:21:18,  1.81s/it]                                                           {'loss': 0.1194, 'grad_norm': 0.9274468421936035, 'learning_rate': 2.478493482230054e-05, 'epoch': 6.16}
 26%|██▌       | 20142/78504 [12:15:37<29:21:18,  1.81s/it] 26%|██▌       | 20143/78504 [12:15:38<28:02:29,  1.73s/it]                                                           {'loss': 0.139, 'grad_norm': 0.8864976167678833, 'learning_rate': 2.47845102118806e-05, 'epoch': 6.16}
 26%|██▌       | 20143/78504 [12:15:38<28:02:29,  1.73s/it] 26%|██▌       | 20144/78504 [12:15:40<26:45:28,  1.65s/it]                                                           {'loss': 0.1459, 'grad_norm': 0.5005914568901062, 'learning_rate': 2.478408560146066e-05, 'epoch': 6.16}
 26%|██▌       | 20144/78504 [12:15:40<26:45:28,  1.65s/it] 26%|██▌       | 20145/78504 [12:15:41<25:36:28,  1.58s/it]                                                           {'loss': 0.1278, 'grad_norm': 1.0965567827224731, 'learning_rate': 2.478366099104072e-05, 'epoch': 6.16}
 26%|██▌       | 20145/78504 [12:15:41<25:36:28,  1.58s/it] 26%|██▌       | 20146/78504 [12:15:42<24:10:41,  1.49s/it]                                                           {'loss': 0.2094, 'grad_norm': 1.031868815422058, 'learning_rate': 2.478323638062078e-05, 'epoch': 6.16}
 26%|██▌       | 20146/78504 [12:15:42<24:10:41,  1.49s/it] 26%|██▌       | 20147/78504 [12:15:44<22:29:33,  1.39s/it]                                                           {'loss': 0.1409, 'grad_norm': 1.5783618688583374, 'learning_rate': 2.478281177020084e-05, 'epoch': 6.16}
 26%|██▌       | 20147/78504 [12:15:44<22:29:33,  1.39s/it] 26%|██▌       | 20148/78504 [12:15:45<21:06:54,  1.30s/it]                                                           {'loss': 0.182, 'grad_norm': 0.676652193069458, 'learning_rate': 2.47823871597809e-05, 'epoch': 6.16}
 26%|██▌       | 20148/78504 [12:15:45<21:06:54,  1.30s/it] 26%|██▌       | 20149/78504 [12:15:46<19:51:27,  1.23s/it]                                                           {'loss': 0.1545, 'grad_norm': 0.7211918234825134, 'learning_rate': 2.4781962549360962e-05, 'epoch': 6.16}
 26%|██▌       | 20149/78504 [12:15:46<19:51:27,  1.23s/it] 26%|██▌       | 20150/78504 [12:15:47<18:25:56,  1.14s/it]                                                           {'loss': 0.1784, 'grad_norm': 1.4745007753372192, 'learning_rate': 2.478153793894102e-05, 'epoch': 6.16}
 26%|██▌       | 20150/78504 [12:15:47<18:25:56,  1.14s/it] 26%|██▌       | 20151/78504 [12:15:47<16:44:23,  1.03s/it]                                                           {'loss': 0.2012, 'grad_norm': 1.1542949676513672, 'learning_rate': 2.4781113328521083e-05, 'epoch': 6.16}
 26%|██▌       | 20151/78504 [12:15:48<16:44:23,  1.03s/it] 26%|██▌       | 20152/78504 [12:15:55<50:17:24,  3.10s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.46301695704460144, 'learning_rate': 2.478068871810114e-05, 'epoch': 6.16}
 26%|██▌       | 20152/78504 [12:15:55<50:17:24,  3.10s/it] 26%|██▌       | 20153/78504 [12:15:58<50:08:31,  3.09s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.23654909431934357, 'learning_rate': 2.4780264107681203e-05, 'epoch': 6.16}
 26%|██▌       | 20153/78504 [12:15:59<50:08:31,  3.09s/it] 26%|██▌       | 20154/78504 [12:16:01<47:33:43,  2.93s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.17184892296791077, 'learning_rate': 2.4779839497261262e-05, 'epoch': 6.16}
 26%|██▌       | 20154/78504 [12:16:01<47:33:43,  2.93s/it] 26%|██▌       | 20155/78504 [12:16:03<44:38:06,  2.75s/it]                                                           {'loss': 0.052, 'grad_norm': 0.6853874325752258, 'learning_rate': 2.4779414886841324e-05, 'epoch': 6.16}
 26%|██▌       | 20155/78504 [12:16:03<44:38:06,  2.75s/it] 26%|██▌       | 20156/78504 [12:16:06<43:13:59,  2.67s/it]                                                           {'loss': 0.0429, 'grad_norm': 0.15484920144081116, 'learning_rate': 2.4778990276421383e-05, 'epoch': 6.16}
 26%|██▌       | 20156/78504 [12:16:06<43:13:59,  2.67s/it] 26%|██▌       | 20157/78504 [12:16:08<41:41:17,  2.57s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.24733856320381165, 'learning_rate': 2.4778565666001445e-05, 'epoch': 6.16}
 26%|██▌       | 20157/78504 [12:16:08<41:41:17,  2.57s/it] 26%|██▌       | 20158/78504 [12:16:11<40:31:19,  2.50s/it]                                                           {'loss': 0.0469, 'grad_norm': 0.3381647765636444, 'learning_rate': 2.4778141055581504e-05, 'epoch': 6.16}
 26%|██▌       | 20158/78504 [12:16:11<40:31:19,  2.50s/it] 26%|██▌       | 20159/78504 [12:16:13<38:30:24,  2.38s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.22932559251785278, 'learning_rate': 2.4777716445161562e-05, 'epoch': 6.16}
 26%|██▌       | 20159/78504 [12:16:13<38:30:24,  2.38s/it] 26%|██▌       | 20160/78504 [12:16:15<36:48:39,  2.27s/it]                                                           {'loss': 0.0814, 'grad_norm': 1.1800395250320435, 'learning_rate': 2.4777291834741625e-05, 'epoch': 6.16}
 26%|██▌       | 20160/78504 [12:16:15<36:48:39,  2.27s/it] 26%|██▌       | 20161/78504 [12:16:17<36:09:53,  2.23s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.4484797418117523, 'learning_rate': 2.4776867224321683e-05, 'epoch': 6.16}
 26%|██▌       | 20161/78504 [12:16:17<36:09:53,  2.23s/it] 26%|██▌       | 20162/78504 [12:16:19<34:59:32,  2.16s/it]                                                           {'loss': 0.0908, 'grad_norm': 0.42320960760116577, 'learning_rate': 2.4776442613901745e-05, 'epoch': 6.16}
 26%|██▌       | 20162/78504 [12:16:19<34:59:32,  2.16s/it] 26%|██▌       | 20163/78504 [12:16:21<34:09:15,  2.11s/it]                                                           {'loss': 0.0769, 'grad_norm': 0.5567547678947449, 'learning_rate': 2.4776018003481804e-05, 'epoch': 6.16}
 26%|██▌       | 20163/78504 [12:16:21<34:09:15,  2.11s/it] 26%|██▌       | 20164/78504 [12:16:23<32:57:19,  2.03s/it]                                                           {'loss': 0.105, 'grad_norm': 0.9069399833679199, 'learning_rate': 2.4775593393061866e-05, 'epoch': 6.16}
 26%|██▌       | 20164/78504 [12:16:23<32:57:19,  2.03s/it] 26%|██▌       | 20165/78504 [12:16:24<32:00:10,  1.97s/it]                                                           {'loss': 0.123, 'grad_norm': 0.7071782350540161, 'learning_rate': 2.4775168782641925e-05, 'epoch': 6.16}
 26%|██▌       | 20165/78504 [12:16:24<32:00:10,  1.97s/it] 26%|██▌       | 20166/78504 [12:16:26<30:50:07,  1.90s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.30127501487731934, 'learning_rate': 2.4774744172221987e-05, 'epoch': 6.17}
 26%|██▌       | 20166/78504 [12:16:26<30:50:07,  1.90s/it] 26%|██▌       | 20167/78504 [12:16:28<29:35:45,  1.83s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.3987311124801636, 'learning_rate': 2.4774319561802046e-05, 'epoch': 6.17}
 26%|██▌       | 20167/78504 [12:16:28<29:35:45,  1.83s/it] 26%|██▌       | 20168/78504 [12:16:29<28:05:21,  1.73s/it]                                                           {'loss': 0.1465, 'grad_norm': 0.41334062814712524, 'learning_rate': 2.4773894951382108e-05, 'epoch': 6.17}
 26%|██▌       | 20168/78504 [12:16:29<28:05:21,  1.73s/it] 26%|██▌       | 20169/78504 [12:16:31<26:29:37,  1.64s/it]                                                           {'loss': 0.1369, 'grad_norm': 0.4757171869277954, 'learning_rate': 2.4773470340962166e-05, 'epoch': 6.17}
 26%|██▌       | 20169/78504 [12:16:31<26:29:37,  1.64s/it] 26%|██▌       | 20170/78504 [12:16:32<25:27:25,  1.57s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.7952318787574768, 'learning_rate': 2.477304573054223e-05, 'epoch': 6.17}
 26%|██▌       | 20170/78504 [12:16:32<25:27:25,  1.57s/it] 26%|██▌       | 20171/78504 [12:16:33<23:45:51,  1.47s/it]                                                           {'loss': 0.1802, 'grad_norm': 3.015622615814209, 'learning_rate': 2.4772621120122287e-05, 'epoch': 6.17}
 26%|██▌       | 20171/78504 [12:16:33<23:45:51,  1.47s/it] 26%|██▌       | 20172/78504 [12:16:35<22:08:23,  1.37s/it]                                                           {'loss': 0.1517, 'grad_norm': 0.6810576319694519, 'learning_rate': 2.4772196509702346e-05, 'epoch': 6.17}
 26%|██▌       | 20172/78504 [12:16:35<22:08:23,  1.37s/it] 26%|██▌       | 20173/78504 [12:16:36<20:48:42,  1.28s/it]                                                           {'loss': 0.1633, 'grad_norm': 1.1769286394119263, 'learning_rate': 2.4771771899282408e-05, 'epoch': 6.17}
 26%|██▌       | 20173/78504 [12:16:36<20:48:42,  1.28s/it] 26%|██▌       | 20174/78504 [12:16:37<19:23:21,  1.20s/it]                                                           {'loss': 0.1826, 'grad_norm': 0.8638617992401123, 'learning_rate': 2.4771347288862467e-05, 'epoch': 6.17}
 26%|██▌       | 20174/78504 [12:16:37<19:23:21,  1.20s/it] 26%|██▌       | 20175/78504 [12:16:38<18:04:13,  1.12s/it]                                                           {'loss': 0.167, 'grad_norm': 1.1985764503479004, 'learning_rate': 2.477092267844253e-05, 'epoch': 6.17}
 26%|██▌       | 20175/78504 [12:16:38<18:04:13,  1.12s/it] 26%|██▌       | 20176/78504 [12:16:38<16:27:02,  1.02s/it]                                                           {'loss': 0.1918, 'grad_norm': 1.9234542846679688, 'learning_rate': 2.4770498068022587e-05, 'epoch': 6.17}
 26%|██▌       | 20176/78504 [12:16:38<16:27:02,  1.02s/it] 26%|██▌       | 20177/78504 [12:16:47<52:26:58,  3.24s/it]                                                           {'loss': 0.1329, 'grad_norm': 0.3582899272441864, 'learning_rate': 2.477007345760265e-05, 'epoch': 6.17}
 26%|██▌       | 20177/78504 [12:16:47<52:26:58,  3.24s/it] 26%|██▌       | 20178/78504 [12:16:50<51:50:06,  3.20s/it]                                                           {'loss': 0.08, 'grad_norm': 0.3255607783794403, 'learning_rate': 2.4769648847182708e-05, 'epoch': 6.17}
 26%|██▌       | 20178/78504 [12:16:50<51:50:06,  3.20s/it] 26%|██▌       | 20179/78504 [12:16:53<50:44:43,  3.13s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.22057455778121948, 'learning_rate': 2.476922423676277e-05, 'epoch': 6.17}
 26%|██▌       | 20179/78504 [12:16:53<50:44:43,  3.13s/it] 26%|██▌       | 20180/78504 [12:16:55<48:06:16,  2.97s/it]                                                           {'loss': 0.0447, 'grad_norm': 0.17923881113529205, 'learning_rate': 2.476879962634283e-05, 'epoch': 6.17}
 26%|██▌       | 20180/78504 [12:16:55<48:06:16,  2.97s/it] 26%|██▌       | 20181/78504 [12:16:58<45:32:07,  2.81s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.33315160870552063, 'learning_rate': 2.476837501592289e-05, 'epoch': 6.17}
 26%|██▌       | 20181/78504 [12:16:58<45:32:07,  2.81s/it] 26%|██▌       | 20182/78504 [12:17:00<43:20:42,  2.68s/it]                                                           {'loss': 0.0585, 'grad_norm': 0.5757232904434204, 'learning_rate': 2.4767950405502953e-05, 'epoch': 6.17}
 26%|██▌       | 20182/78504 [12:17:00<43:20:42,  2.68s/it] 26%|██▌       | 20183/78504 [12:17:03<41:39:56,  2.57s/it]                                                           {'loss': 0.0329, 'grad_norm': 0.18154026567935944, 'learning_rate': 2.4767525795083015e-05, 'epoch': 6.17}
 26%|██▌       | 20183/78504 [12:17:03<41:39:56,  2.57s/it] 26%|██▌       | 20184/78504 [12:17:05<39:17:47,  2.43s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.269721657037735, 'learning_rate': 2.4767101184663074e-05, 'epoch': 6.17}
 26%|██▌       | 20184/78504 [12:17:05<39:17:47,  2.43s/it] 26%|██▌       | 20185/78504 [12:17:07<38:09:57,  2.36s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.32140469551086426, 'learning_rate': 2.4766676574243133e-05, 'epoch': 6.17}
 26%|██▌       | 20185/78504 [12:17:07<38:09:57,  2.36s/it] 26%|██▌       | 20186/78504 [12:17:09<37:02:56,  2.29s/it]                                                           {'loss': 0.0546, 'grad_norm': 0.2949029803276062, 'learning_rate': 2.4766251963823195e-05, 'epoch': 6.17}
 26%|██▌       | 20186/78504 [12:17:09<37:02:56,  2.29s/it] 26%|██▌       | 20187/78504 [12:17:11<35:44:55,  2.21s/it]                                                           {'loss': 0.0957, 'grad_norm': 0.6139920353889465, 'learning_rate': 2.4765827353403253e-05, 'epoch': 6.17}
 26%|██▌       | 20187/78504 [12:17:11<35:44:55,  2.21s/it] 26%|██▌       | 20188/78504 [12:17:13<34:37:11,  2.14s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.37113186717033386, 'learning_rate': 2.4765402742983316e-05, 'epoch': 6.17}
 26%|██▌       | 20188/78504 [12:17:13<34:37:11,  2.14s/it] 26%|██▌       | 20189/78504 [12:17:15<33:16:06,  2.05s/it]                                                           {'loss': 0.0937, 'grad_norm': 0.3969821631908417, 'learning_rate': 2.4764978132563374e-05, 'epoch': 6.17}
 26%|██▌       | 20189/78504 [12:17:15<33:16:06,  2.05s/it] 26%|██▌       | 20190/78504 [12:17:17<32:13:46,  1.99s/it]                                                           {'loss': 0.1123, 'grad_norm': 0.49632489681243896, 'learning_rate': 2.4764553522143436e-05, 'epoch': 6.17}
 26%|██▌       | 20190/78504 [12:17:17<32:13:46,  1.99s/it] 26%|██▌       | 20191/78504 [12:17:18<31:10:10,  1.92s/it]                                                           {'loss': 0.1145, 'grad_norm': 0.5312902331352234, 'learning_rate': 2.4764128911723495e-05, 'epoch': 6.17}
 26%|██▌       | 20191/78504 [12:17:18<31:10:10,  1.92s/it] 26%|██▌       | 20192/78504 [12:17:20<29:49:22,  1.84s/it]                                                           {'loss': 0.14, 'grad_norm': 0.3676295280456543, 'learning_rate': 2.4763704301303557e-05, 'epoch': 6.17}
 26%|██▌       | 20192/78504 [12:17:20<29:49:22,  1.84s/it] 26%|██▌       | 20193/78504 [12:17:22<28:23:30,  1.75s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.5329541563987732, 'learning_rate': 2.4763279690883616e-05, 'epoch': 6.17}
 26%|██▌       | 20193/78504 [12:17:22<28:23:30,  1.75s/it] 26%|██▌       | 20194/78504 [12:17:23<26:59:53,  1.67s/it]                                                           {'loss': 0.1573, 'grad_norm': 1.453994870185852, 'learning_rate': 2.4762855080463678e-05, 'epoch': 6.17}
 26%|██▌       | 20194/78504 [12:17:23<26:59:53,  1.67s/it] 26%|██▌       | 20195/78504 [12:17:24<25:41:36,  1.59s/it]                                                           {'loss': 0.1236, 'grad_norm': 0.7711138129234314, 'learning_rate': 2.4762430470043737e-05, 'epoch': 6.17}
 26%|██▌       | 20195/78504 [12:17:25<25:41:36,  1.59s/it] 26%|██▌       | 20196/78504 [12:17:26<24:12:43,  1.49s/it]                                                           {'loss': 0.1784, 'grad_norm': 2.3496155738830566, 'learning_rate': 2.4762005859623795e-05, 'epoch': 6.17}
 26%|██▌       | 20196/78504 [12:17:26<24:12:43,  1.49s/it] 26%|██▌       | 20197/78504 [12:17:27<22:31:35,  1.39s/it]                                                           {'loss': 0.1751, 'grad_norm': 0.5918294191360474, 'learning_rate': 2.4761581249203857e-05, 'epoch': 6.17}
 26%|██▌       | 20197/78504 [12:17:27<22:31:35,  1.39s/it] 26%|██▌       | 20198/78504 [12:17:28<21:07:39,  1.30s/it]                                                           {'loss': 0.1436, 'grad_norm': 0.8149284720420837, 'learning_rate': 2.4761156638783916e-05, 'epoch': 6.17}
 26%|██▌       | 20198/78504 [12:17:28<21:07:39,  1.30s/it] 26%|██▌       | 20199/78504 [12:17:29<19:37:33,  1.21s/it]                                                           {'loss': 0.1786, 'grad_norm': 0.9209536910057068, 'learning_rate': 2.4760732028363978e-05, 'epoch': 6.18}
 26%|██▌       | 20199/78504 [12:17:29<19:37:33,  1.21s/it] 26%|██▌       | 20200/78504 [12:17:30<18:17:35,  1.13s/it]                                                           {'loss': 0.1868, 'grad_norm': 0.7016799449920654, 'learning_rate': 2.4760307417944037e-05, 'epoch': 6.18}
 26%|██▌       | 20200/78504 [12:17:30<18:17:35,  1.13s/it] 26%|██▌       | 20201/78504 [12:17:31<16:27:47,  1.02s/it]                                                           {'loss': 0.2085, 'grad_norm': 1.2125885486602783, 'learning_rate': 2.47598828075241e-05, 'epoch': 6.18}
 26%|██▌       | 20201/78504 [12:17:31<16:27:47,  1.02s/it] 26%|██▌       | 20202/78504 [12:17:39<52:58:19,  3.27s/it]                                                           {'loss': 0.1271, 'grad_norm': 0.4991765022277832, 'learning_rate': 2.4759458197104158e-05, 'epoch': 6.18}
 26%|██▌       | 20202/78504 [12:17:39<52:58:19,  3.27s/it] 26%|██▌       | 20203/78504 [12:17:42<52:00:43,  3.21s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.3573283851146698, 'learning_rate': 2.475903358668422e-05, 'epoch': 6.18}
 26%|██▌       | 20203/78504 [12:17:42<52:00:43,  3.21s/it] 26%|██▌       | 20204/78504 [12:17:45<48:52:04,  3.02s/it]                                                           {'loss': 0.0743, 'grad_norm': 0.4796690046787262, 'learning_rate': 2.475860897626428e-05, 'epoch': 6.18}
 26%|██▌       | 20204/78504 [12:17:45<48:52:04,  3.02s/it] 26%|██▌       | 20205/78504 [12:17:47<46:53:31,  2.90s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.25219032168388367, 'learning_rate': 2.475818436584434e-05, 'epoch': 6.18}
 26%|██▌       | 20205/78504 [12:17:48<46:53:31,  2.90s/it] 26%|██▌       | 20206/78504 [12:17:50<44:48:50,  2.77s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.2673010528087616, 'learning_rate': 2.47577597554244e-05, 'epoch': 6.18}
 26%|██▌       | 20206/78504 [12:17:50<44:48:50,  2.77s/it] 26%|██▌       | 20207/78504 [12:17:52<42:22:21,  2.62s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.2365383803844452, 'learning_rate': 2.475733514500446e-05, 'epoch': 6.18}
 26%|██▌       | 20207/78504 [12:17:52<42:22:21,  2.62s/it] 26%|██▌       | 20208/78504 [12:17:55<40:54:42,  2.53s/it]                                                           {'loss': 0.046, 'grad_norm': 0.2932113707065582, 'learning_rate': 2.475691053458452e-05, 'epoch': 6.18}
 26%|██▌       | 20208/78504 [12:17:55<40:54:42,  2.53s/it] 26%|██▌       | 20209/78504 [12:17:57<38:47:28,  2.40s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.18076029419898987, 'learning_rate': 2.475648592416458e-05, 'epoch': 6.18}
 26%|██▌       | 20209/78504 [12:17:57<38:47:28,  2.40s/it] 26%|██▌       | 20210/78504 [12:17:59<36:57:28,  2.28s/it]                                                           {'loss': 0.0776, 'grad_norm': 19.174489974975586, 'learning_rate': 2.475606131374464e-05, 'epoch': 6.18}
 26%|██▌       | 20210/78504 [12:17:59<36:57:28,  2.28s/it] 26%|██▌       | 20211/78504 [12:18:01<36:16:09,  2.24s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.3176775872707367, 'learning_rate': 2.47556367033247e-05, 'epoch': 6.18}
 26%|██▌       | 20211/78504 [12:18:01<36:16:09,  2.24s/it] 26%|██▌       | 20212/78504 [12:18:03<35:12:57,  2.17s/it]                                                           {'loss': 0.0954, 'grad_norm': 0.43118345737457275, 'learning_rate': 2.475521209290476e-05, 'epoch': 6.18}
 26%|██▌       | 20212/78504 [12:18:03<35:12:57,  2.17s/it] 26%|██▌       | 20213/78504 [12:18:05<33:56:41,  2.10s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.2538415789604187, 'learning_rate': 2.475478748248482e-05, 'epoch': 6.18}
 26%|██▌       | 20213/78504 [12:18:05<33:56:41,  2.10s/it] 26%|██▌       | 20214/78504 [12:18:07<32:50:46,  2.03s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.6249674558639526, 'learning_rate': 2.4754362872064882e-05, 'epoch': 6.18}
 26%|██▌       | 20214/78504 [12:18:07<32:50:46,  2.03s/it] 26%|██▌       | 20215/78504 [12:18:08<31:56:25,  1.97s/it]                                                           {'loss': 0.1154, 'grad_norm': 0.781885027885437, 'learning_rate': 2.475393826164494e-05, 'epoch': 6.18}
 26%|██▌       | 20215/78504 [12:18:08<31:56:25,  1.97s/it] 26%|██▌       | 20216/78504 [12:18:10<30:24:38,  1.88s/it]                                                           {'loss': 0.1272, 'grad_norm': 0.7962324619293213, 'learning_rate': 2.4753513651225003e-05, 'epoch': 6.18}
 26%|██▌       | 20216/78504 [12:18:10<30:24:38,  1.88s/it] 26%|██▌       | 20217/78504 [12:18:12<29:14:48,  1.81s/it]                                                           {'loss': 0.1153, 'grad_norm': 0.7083433270454407, 'learning_rate': 2.4753089040805062e-05, 'epoch': 6.18}
 26%|██▌       | 20217/78504 [12:18:12<29:14:48,  1.81s/it] 26%|██▌       | 20218/78504 [12:18:13<27:50:26,  1.72s/it]                                                           {'loss': 0.1321, 'grad_norm': 2.552975654602051, 'learning_rate': 2.4752664430385124e-05, 'epoch': 6.18}
 26%|██▌       | 20218/78504 [12:18:13<27:50:26,  1.72s/it] 26%|██▌       | 20219/78504 [12:18:15<26:37:12,  1.64s/it]                                                           {'loss': 0.1271, 'grad_norm': 0.5999229550361633, 'learning_rate': 2.4752239819965183e-05, 'epoch': 6.18}
 26%|██▌       | 20219/78504 [12:18:15<26:37:12,  1.64s/it] 26%|██▌       | 20220/78504 [12:18:16<25:31:17,  1.58s/it]                                                           {'loss': 0.1359, 'grad_norm': 0.5960456132888794, 'learning_rate': 2.4751815209545245e-05, 'epoch': 6.18}
 26%|██▌       | 20220/78504 [12:18:16<25:31:17,  1.58s/it] 26%|██▌       | 20221/78504 [12:18:17<24:04:48,  1.49s/it]                                                           {'loss': 0.1318, 'grad_norm': 0.35781851410865784, 'learning_rate': 2.4751390599125303e-05, 'epoch': 6.18}
 26%|██▌       | 20221/78504 [12:18:17<24:04:48,  1.49s/it] 26%|██▌       | 20222/78504 [12:18:19<22:28:17,  1.39s/it]                                                           {'loss': 0.1814, 'grad_norm': 1.110703468322754, 'learning_rate': 2.4750965988705362e-05, 'epoch': 6.18}
 26%|██▌       | 20222/78504 [12:18:19<22:28:17,  1.39s/it] 26%|██▌       | 20223/78504 [12:18:20<21:02:05,  1.30s/it]                                                           {'loss': 0.2047, 'grad_norm': 1.2965927124023438, 'learning_rate': 2.4750541378285424e-05, 'epoch': 6.18}
 26%|██▌       | 20223/78504 [12:18:20<21:02:05,  1.30s/it] 26%|██▌       | 20224/78504 [12:18:21<19:47:13,  1.22s/it]                                                           {'loss': 0.1886, 'grad_norm': 1.7790979146957397, 'learning_rate': 2.4750116767865483e-05, 'epoch': 6.18}
 26%|██▌       | 20224/78504 [12:18:21<19:47:13,  1.22s/it] 26%|██▌       | 20225/78504 [12:18:22<18:22:22,  1.13s/it]                                                           {'loss': 0.2047, 'grad_norm': 6.327579021453857, 'learning_rate': 2.4749692157445545e-05, 'epoch': 6.18}
 26%|██▌       | 20225/78504 [12:18:22<18:22:22,  1.13s/it] 26%|██▌       | 20226/78504 [12:18:22<16:38:17,  1.03s/it]                                                           {'loss': 0.234, 'grad_norm': 1.880335807800293, 'learning_rate': 2.4749267547025604e-05, 'epoch': 6.18}
 26%|██▌       | 20226/78504 [12:18:22<16:38:17,  1.03s/it] 26%|██▌       | 20227/78504 [12:18:30<49:25:53,  3.05s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.305472195148468, 'learning_rate': 2.4748842936605666e-05, 'epoch': 6.18}
 26%|██▌       | 20227/78504 [12:18:30<49:25:53,  3.05s/it] 26%|██▌       | 20228/78504 [12:18:33<50:24:39,  3.11s/it]                                                           {'loss': 0.0697, 'grad_norm': 0.24218297004699707, 'learning_rate': 2.4748418326185725e-05, 'epoch': 6.18}
 26%|██▌       | 20228/78504 [12:18:33<50:24:39,  3.11s/it] 26%|██▌       | 20229/78504 [12:18:36<49:44:17,  3.07s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.24553491175174713, 'learning_rate': 2.4747993715765787e-05, 'epoch': 6.18}
 26%|██▌       | 20229/78504 [12:18:36<49:44:17,  3.07s/it] 26%|██▌       | 20230/78504 [12:18:39<47:22:47,  2.93s/it]                                                           {'loss': 0.0462, 'grad_norm': 0.3771705627441406, 'learning_rate': 2.4747569105345845e-05, 'epoch': 6.18}
 26%|██▌       | 20230/78504 [12:18:39<47:22:47,  2.93s/it] 26%|██▌       | 20231/78504 [12:18:41<44:35:53,  2.76s/it]                                                           {'loss': 0.0499, 'grad_norm': 0.16506467759609222, 'learning_rate': 2.4747144494925907e-05, 'epoch': 6.18}
 26%|██▌       | 20231/78504 [12:18:41<44:35:53,  2.76s/it] 26%|██▌       | 20232/78504 [12:18:44<42:08:57,  2.60s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.2945798933506012, 'learning_rate': 2.4746719884505966e-05, 'epoch': 6.19}
 26%|██▌       | 20232/78504 [12:18:44<42:08:57,  2.60s/it] 26%|██▌       | 20233/78504 [12:18:46<40:47:54,  2.52s/it]                                                           {'loss': 0.069, 'grad_norm': 0.4549633860588074, 'learning_rate': 2.4746295274086028e-05, 'epoch': 6.19}
 26%|██▌       | 20233/78504 [12:18:46<40:47:54,  2.52s/it] 26%|██▌       | 20234/78504 [12:18:48<38:40:02,  2.39s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.2400166094303131, 'learning_rate': 2.4745870663666087e-05, 'epoch': 6.19}
 26%|██▌       | 20234/78504 [12:18:48<38:40:02,  2.39s/it] 26%|██▌       | 20235/78504 [12:18:50<37:40:54,  2.33s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.2049706131219864, 'learning_rate': 2.4745446053246146e-05, 'epoch': 6.19}
 26%|██▌       | 20235/78504 [12:18:50<37:40:54,  2.33s/it] 26%|██▌       | 20236/78504 [12:18:52<36:44:44,  2.27s/it]                                                           {'loss': 0.0485, 'grad_norm': 0.21390201151371002, 'learning_rate': 2.4745021442826208e-05, 'epoch': 6.19}
 26%|██▌       | 20236/78504 [12:18:52<36:44:44,  2.27s/it] 26%|██▌       | 20237/78504 [12:18:54<35:32:13,  2.20s/it]                                                           {'loss': 0.0636, 'grad_norm': 0.3643645942211151, 'learning_rate': 2.4744596832406266e-05, 'epoch': 6.19}
 26%|██▌       | 20237/78504 [12:18:54<35:32:13,  2.20s/it] 26%|██▌       | 20238/78504 [12:18:56<34:30:18,  2.13s/it]                                                           {'loss': 0.1111, 'grad_norm': 0.4589006006717682, 'learning_rate': 2.474417222198633e-05, 'epoch': 6.19}
 26%|██▌       | 20238/78504 [12:18:56<34:30:18,  2.13s/it] 26%|██▌       | 20239/78504 [12:18:58<33:12:48,  2.05s/it]                                                           {'loss': 0.0792, 'grad_norm': 0.2854933440685272, 'learning_rate': 2.4743747611566387e-05, 'epoch': 6.19}
 26%|██▌       | 20239/78504 [12:18:58<33:12:48,  2.05s/it] 26%|██▌       | 20240/78504 [12:19:00<32:11:35,  1.99s/it]                                                           {'loss': 0.128, 'grad_norm': 0.9229062795639038, 'learning_rate': 2.474332300114645e-05, 'epoch': 6.19}
 26%|██▌       | 20240/78504 [12:19:00<32:11:35,  1.99s/it] 26%|██▌       | 20241/78504 [12:19:02<30:57:46,  1.91s/it]                                                           {'loss': 0.1303, 'grad_norm': 0.7534128427505493, 'learning_rate': 2.4742898390726508e-05, 'epoch': 6.19}
 26%|██▌       | 20241/78504 [12:19:02<30:57:46,  1.91s/it] 26%|██▌       | 20242/78504 [12:19:03<29:39:16,  1.83s/it]                                                           {'loss': 0.125, 'grad_norm': 0.4578711986541748, 'learning_rate': 2.474247378030657e-05, 'epoch': 6.19}
 26%|██▌       | 20242/78504 [12:19:03<29:39:16,  1.83s/it] 26%|██▌       | 20243/78504 [12:19:05<28:14:01,  1.74s/it]                                                           {'loss': 0.116, 'grad_norm': 1.9258586168289185, 'learning_rate': 2.474204916988663e-05, 'epoch': 6.19}
 26%|██▌       | 20243/78504 [12:19:05<28:14:01,  1.74s/it] 26%|██▌       | 20244/78504 [12:19:06<26:41:13,  1.65s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.48379313945770264, 'learning_rate': 2.474162455946669e-05, 'epoch': 6.19}
 26%|██▌       | 20244/78504 [12:19:06<26:41:13,  1.65s/it] 26%|██▌       | 20245/78504 [12:19:08<25:33:43,  1.58s/it]                                                           {'loss': 0.1764, 'grad_norm': 1.5178927183151245, 'learning_rate': 2.474119994904675e-05, 'epoch': 6.19}
 26%|██▌       | 20245/78504 [12:19:08<25:33:43,  1.58s/it] 26%|██▌       | 20246/78504 [12:19:09<24:05:07,  1.49s/it]                                                           {'loss': 0.1455, 'grad_norm': 0.4633564352989197, 'learning_rate': 2.474077533862681e-05, 'epoch': 6.19}
 26%|██▌       | 20246/78504 [12:19:09<24:05:07,  1.49s/it] 26%|██▌       | 20247/78504 [12:19:10<22:24:38,  1.38s/it]                                                           {'loss': 0.1966, 'grad_norm': 0.4652079939842224, 'learning_rate': 2.474035072820687e-05, 'epoch': 6.19}
 26%|██▌       | 20247/78504 [12:19:10<22:24:38,  1.38s/it] 26%|██▌       | 20248/78504 [12:19:11<21:02:19,  1.30s/it]                                                           {'loss': 0.182, 'grad_norm': 1.40357506275177, 'learning_rate': 2.473992611778693e-05, 'epoch': 6.19}
 26%|██▌       | 20248/78504 [12:19:11<21:02:19,  1.30s/it] 26%|██▌       | 20249/78504 [12:19:12<19:34:27,  1.21s/it]                                                           {'loss': 0.1665, 'grad_norm': 0.9409819841384888, 'learning_rate': 2.473950150736699e-05, 'epoch': 6.19}
 26%|██▌       | 20249/78504 [12:19:12<19:34:27,  1.21s/it] 26%|██▌       | 20250/78504 [12:19:13<18:13:56,  1.13s/it]                                                           {'loss': 0.2059, 'grad_norm': 0.749186098575592, 'learning_rate': 2.473907689694705e-05, 'epoch': 6.19}
 26%|██▌       | 20250/78504 [12:19:13<18:13:56,  1.13s/it] 26%|██▌       | 20251/78504 [12:19:14<16:34:12,  1.02s/it]                                                           {'loss': 0.2004, 'grad_norm': 1.1089478731155396, 'learning_rate': 2.4738652286527112e-05, 'epoch': 6.19}
 26%|██▌       | 20251/78504 [12:19:14<16:34:12,  1.02s/it] 26%|██▌       | 20252/78504 [12:19:24<59:01:16,  3.65s/it]                                                           {'loss': 0.1439, 'grad_norm': 0.3464609980583191, 'learning_rate': 2.473822767610717e-05, 'epoch': 6.19}
 26%|██▌       | 20252/78504 [12:19:24<59:01:16,  3.65s/it] 26%|██▌       | 20253/78504 [12:19:27<56:12:54,  3.47s/it]                                                           {'loss': 0.0762, 'grad_norm': 0.5277817845344543, 'learning_rate': 2.4737803065687233e-05, 'epoch': 6.19}
 26%|██▌       | 20253/78504 [12:19:27<56:12:54,  3.47s/it] 26%|██▌       | 20254/78504 [12:19:30<53:31:39,  3.31s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.17343983054161072, 'learning_rate': 2.473737845526729e-05, 'epoch': 6.19}
 26%|██▌       | 20254/78504 [12:19:30<53:31:39,  3.31s/it] 26%|██▌       | 20255/78504 [12:19:32<49:33:13,  3.06s/it]                                                           {'loss': 0.0871, 'grad_norm': 0.24818333983421326, 'learning_rate': 2.4736953844847353e-05, 'epoch': 6.19}
 26%|██▌       | 20255/78504 [12:19:32<49:33:13,  3.06s/it] 26%|██▌       | 20256/78504 [12:19:35<46:45:46,  2.89s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.6048958897590637, 'learning_rate': 2.4736529234427412e-05, 'epoch': 6.19}
 26%|██▌       | 20256/78504 [12:19:35<46:45:46,  2.89s/it] 26%|██▌       | 20257/78504 [12:19:37<44:29:00,  2.75s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.179742693901062, 'learning_rate': 2.4736104624007474e-05, 'epoch': 6.19}
 26%|██▌       | 20257/78504 [12:19:37<44:29:00,  2.75s/it] 26%|██▌       | 20258/78504 [12:19:40<42:21:22,  2.62s/it]                                                           {'loss': 0.0636, 'grad_norm': 6.514947414398193, 'learning_rate': 2.4735680013587533e-05, 'epoch': 6.19}
 26%|██▌       | 20258/78504 [12:19:40<42:21:22,  2.62s/it] 26%|██▌       | 20259/78504 [12:19:42<39:53:52,  2.47s/it]                                                           {'loss': 0.0772, 'grad_norm': 0.898047149181366, 'learning_rate': 2.4735255403167595e-05, 'epoch': 6.19}
 26%|██▌       | 20259/78504 [12:19:42<39:53:52,  2.47s/it] 26%|██▌       | 20260/78504 [12:19:44<38:30:06,  2.38s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.4281521737575531, 'learning_rate': 2.4734830792747654e-05, 'epoch': 6.19}
 26%|██▌       | 20260/78504 [12:19:44<38:30:06,  2.38s/it] 26%|██▌       | 20261/78504 [12:19:46<37:19:46,  2.31s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.2294282466173172, 'learning_rate': 2.4734406182327712e-05, 'epoch': 6.19}
 26%|██▌       | 20261/78504 [12:19:46<37:19:46,  2.31s/it] 26%|██▌       | 20262/78504 [12:19:48<35:56:59,  2.22s/it]                                                           {'loss': 0.069, 'grad_norm': 0.28275278210639954, 'learning_rate': 2.4733981571907775e-05, 'epoch': 6.19}
 26%|██▌       | 20262/78504 [12:19:48<35:56:59,  2.22s/it] 26%|██▌       | 20263/78504 [12:19:50<34:44:43,  2.15s/it]                                                           {'loss': 0.0529, 'grad_norm': 1.383967399597168, 'learning_rate': 2.4733556961487833e-05, 'epoch': 6.19}
 26%|██▌       | 20263/78504 [12:19:50<34:44:43,  2.15s/it] 26%|██▌       | 20264/78504 [12:19:52<33:22:09,  2.06s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.34884849190711975, 'learning_rate': 2.4733132351067895e-05, 'epoch': 6.2}
 26%|██▌       | 20264/78504 [12:19:52<33:22:09,  2.06s/it] 26%|██▌       | 20265/78504 [12:19:54<32:16:35,  2.00s/it]                                                           {'loss': 0.1048, 'grad_norm': 0.6759428977966309, 'learning_rate': 2.4732707740647954e-05, 'epoch': 6.2}
 26%|██▌       | 20265/78504 [12:19:54<32:16:35,  2.00s/it] 26%|██▌       | 20266/78504 [12:19:55<30:59:09,  1.92s/it]                                                           {'loss': 0.0921, 'grad_norm': 1.746781349182129, 'learning_rate': 2.4732283130228016e-05, 'epoch': 6.2}
 26%|██▌       | 20266/78504 [12:19:55<30:59:09,  1.92s/it] 26%|██▌       | 20267/78504 [12:19:57<29:39:50,  1.83s/it]                                                           {'loss': 0.1583, 'grad_norm': 1.0125584602355957, 'learning_rate': 2.4731858519808075e-05, 'epoch': 6.2}
 26%|██▌       | 20267/78504 [12:19:57<29:39:50,  1.83s/it] 26%|██▌       | 20268/78504 [12:19:59<28:13:41,  1.74s/it]                                                           {'loss': 0.1137, 'grad_norm': 0.6413965225219727, 'learning_rate': 2.4731433909388137e-05, 'epoch': 6.2}
 26%|██▌       | 20268/78504 [12:19:59<28:13:41,  1.74s/it] 26%|██▌       | 20269/78504 [12:20:00<26:50:17,  1.66s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.4849487245082855, 'learning_rate': 2.4731009298968196e-05, 'epoch': 6.2}
 26%|██▌       | 20269/78504 [12:20:00<26:50:17,  1.66s/it] 26%|██▌       | 20270/78504 [12:20:01<25:38:39,  1.59s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.5380329489707947, 'learning_rate': 2.4730584688548258e-05, 'epoch': 6.2}
 26%|██▌       | 20270/78504 [12:20:01<25:38:39,  1.59s/it] 26%|██▌       | 20271/78504 [12:20:03<24:10:50,  1.49s/it]                                                           {'loss': 0.1788, 'grad_norm': 1.119619369506836, 'learning_rate': 2.4730160078128316e-05, 'epoch': 6.2}
 26%|██▌       | 20271/78504 [12:20:03<24:10:50,  1.49s/it] 26%|██▌       | 20272/78504 [12:20:04<22:31:29,  1.39s/it]                                                           {'loss': 0.164, 'grad_norm': 0.6747249364852905, 'learning_rate': 2.472973546770838e-05, 'epoch': 6.2}
 26%|██▌       | 20272/78504 [12:20:04<22:31:29,  1.39s/it] 26%|██▌       | 20273/78504 [12:20:05<21:04:03,  1.30s/it]                                                           {'loss': 0.2003, 'grad_norm': 1.9542324542999268, 'learning_rate': 2.4729310857288437e-05, 'epoch': 6.2}
 26%|██▌       | 20273/78504 [12:20:05<21:04:03,  1.30s/it] 26%|██▌       | 20274/78504 [12:20:06<19:51:33,  1.23s/it]                                                           {'loss': 0.1334, 'grad_norm': 1.247698187828064, 'learning_rate': 2.4728886246868496e-05, 'epoch': 6.2}
 26%|██▌       | 20274/78504 [12:20:06<19:51:33,  1.23s/it] 26%|██▌       | 20275/78504 [12:20:07<18:25:40,  1.14s/it]                                                           {'loss': 0.1841, 'grad_norm': 1.8968443870544434, 'learning_rate': 2.4728461636448558e-05, 'epoch': 6.2}
 26%|██▌       | 20275/78504 [12:20:07<18:25:40,  1.14s/it] 26%|██▌       | 20276/78504 [12:20:08<16:46:54,  1.04s/it]                                                           {'loss': 0.2135, 'grad_norm': 1.875147819519043, 'learning_rate': 2.4728037026028617e-05, 'epoch': 6.2}
 26%|██▌       | 20276/78504 [12:20:08<16:46:54,  1.04s/it] 26%|██▌       | 20277/78504 [12:20:15<47:54:45,  2.96s/it]                                                           {'loss': 0.1262, 'grad_norm': 0.3943915069103241, 'learning_rate': 2.472761241560868e-05, 'epoch': 6.2}
 26%|██▌       | 20277/78504 [12:20:15<47:54:45,  2.96s/it] 26%|██▌       | 20278/78504 [12:20:18<48:43:47,  3.01s/it]                                                           {'loss': 0.0741, 'grad_norm': 0.6918339729309082, 'learning_rate': 2.4727187805188737e-05, 'epoch': 6.2}
 26%|██▌       | 20278/78504 [12:20:18<48:43:47,  3.01s/it] 26%|██▌       | 20279/78504 [12:20:21<48:35:59,  3.00s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.5521054863929749, 'learning_rate': 2.47267631947688e-05, 'epoch': 6.2}
 26%|██▌       | 20279/78504 [12:20:21<48:35:59,  3.00s/it] 26%|██▌       | 20280/78504 [12:20:24<46:44:52,  2.89s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.2903653383255005, 'learning_rate': 2.4726338584348858e-05, 'epoch': 6.2}
 26%|██▌       | 20280/78504 [12:20:24<46:44:52,  2.89s/it] 26%|██▌       | 20281/78504 [12:20:26<44:09:15,  2.73s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.21777872741222382, 'learning_rate': 2.472591397392892e-05, 'epoch': 6.2}
 26%|██▌       | 20281/78504 [12:20:26<44:09:15,  2.73s/it] 26%|██▌       | 20282/78504 [12:20:29<41:53:41,  2.59s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.21777355670928955, 'learning_rate': 2.472548936350898e-05, 'epoch': 6.2}
 26%|██▌       | 20282/78504 [12:20:29<41:53:41,  2.59s/it] 26%|██▌       | 20283/78504 [12:20:31<40:33:00,  2.51s/it]                                                           {'loss': 0.0386, 'grad_norm': 2.189793825149536, 'learning_rate': 2.472506475308904e-05, 'epoch': 6.2}
 26%|██▌       | 20283/78504 [12:20:31<40:33:00,  2.51s/it] 26%|██▌       | 20284/78504 [12:20:33<38:30:51,  2.38s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.5332350134849548, 'learning_rate': 2.4724640142669103e-05, 'epoch': 6.2}
 26%|██▌       | 20284/78504 [12:20:33<38:30:51,  2.38s/it] 26%|██▌       | 20285/78504 [12:20:35<37:33:31,  2.32s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.48060232400894165, 'learning_rate': 2.4724215532249165e-05, 'epoch': 6.2}
 26%|██▌       | 20285/78504 [12:20:35<37:33:31,  2.32s/it] 26%|██▌       | 20286/78504 [12:20:37<36:41:11,  2.27s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.4529995322227478, 'learning_rate': 2.4723790921829224e-05, 'epoch': 6.2}
 26%|██▌       | 20286/78504 [12:20:37<36:41:11,  2.27s/it] 26%|██▌       | 20287/78504 [12:20:39<35:29:33,  2.19s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.3075523376464844, 'learning_rate': 2.4723366311409283e-05, 'epoch': 6.2}
 26%|██▌       | 20287/78504 [12:20:39<35:29:33,  2.19s/it] 26%|██▌       | 20288/78504 [12:20:41<34:26:58,  2.13s/it]                                                           {'loss': 0.1044, 'grad_norm': 0.4020178020000458, 'learning_rate': 2.4722941700989345e-05, 'epoch': 6.2}
 26%|██▌       | 20288/78504 [12:20:41<34:26:58,  2.13s/it] 26%|██▌       | 20289/78504 [12:20:43<33:13:37,  2.05s/it]                                                           {'loss': 0.0839, 'grad_norm': 0.559368371963501, 'learning_rate': 2.4722517090569403e-05, 'epoch': 6.2}
 26%|██▌       | 20289/78504 [12:20:43<33:13:37,  2.05s/it] 26%|██▌       | 20290/78504 [12:20:45<32:17:53,  2.00s/it]                                                           {'loss': 0.1216, 'grad_norm': 0.5567466616630554, 'learning_rate': 2.4722092480149466e-05, 'epoch': 6.2}
 26%|██▌       | 20290/78504 [12:20:45<32:17:53,  2.00s/it] 26%|██▌       | 20291/78504 [12:20:47<31:10:22,  1.93s/it]                                                           {'loss': 0.1398, 'grad_norm': 0.7004779577255249, 'learning_rate': 2.4721667869729524e-05, 'epoch': 6.2}
 26%|██▌       | 20291/78504 [12:20:47<31:10:22,  1.93s/it] 26%|██▌       | 20292/78504 [12:20:48<29:50:44,  1.85s/it]                                                           {'loss': 0.1531, 'grad_norm': 0.9349180459976196, 'learning_rate': 2.4721243259309586e-05, 'epoch': 6.2}
 26%|██▌       | 20292/78504 [12:20:48<29:50:44,  1.85s/it] 26%|██▌       | 20293/78504 [12:20:50<28:23:52,  1.76s/it]                                                           {'loss': 0.1267, 'grad_norm': 0.8051888942718506, 'learning_rate': 2.4720818648889645e-05, 'epoch': 6.2}
 26%|██▌       | 20293/78504 [12:20:50<28:23:52,  1.76s/it] 26%|██▌       | 20294/78504 [12:20:51<26:58:43,  1.67s/it]                                                           {'loss': 0.1522, 'grad_norm': 0.5031418204307556, 'learning_rate': 2.4720394038469707e-05, 'epoch': 6.2}
 26%|██▌       | 20294/78504 [12:20:52<26:58:43,  1.67s/it] 26%|██▌       | 20295/78504 [12:20:53<25:40:23,  1.59s/it]                                                           {'loss': 0.1492, 'grad_norm': 0.6306962966918945, 'learning_rate': 2.4719969428049766e-05, 'epoch': 6.2}
 26%|██▌       | 20295/78504 [12:20:53<25:40:23,  1.59s/it] 26%|██▌       | 20296/78504 [12:20:54<24:10:27,  1.50s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.6830251812934875, 'learning_rate': 2.4719544817629828e-05, 'epoch': 6.2}
 26%|██▌       | 20296/78504 [12:20:54<24:10:27,  1.50s/it] 26%|██▌       | 20297/78504 [12:20:55<22:29:49,  1.39s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.8635686039924622, 'learning_rate': 2.4719120207209887e-05, 'epoch': 6.21}
 26%|██▌       | 20297/78504 [12:20:55<22:29:49,  1.39s/it] 26%|██▌       | 20298/78504 [12:20:56<21:03:30,  1.30s/it]                                                           {'loss': 0.1705, 'grad_norm': 1.1389591693878174, 'learning_rate': 2.471869559678995e-05, 'epoch': 6.21}
 26%|██▌       | 20298/78504 [12:20:56<21:03:30,  1.30s/it] 26%|██▌       | 20299/78504 [12:20:57<19:50:39,  1.23s/it]                                                           {'loss': 0.1631, 'grad_norm': 1.3800934553146362, 'learning_rate': 2.4718270986370007e-05, 'epoch': 6.21}
 26%|██▌       | 20299/78504 [12:20:57<19:50:39,  1.23s/it] 26%|██▌       | 20300/78504 [12:20:58<18:25:22,  1.14s/it]                                                           {'loss': 0.189, 'grad_norm': 0.8757414817810059, 'learning_rate': 2.4717846375950066e-05, 'epoch': 6.21}
 26%|██▌       | 20300/78504 [12:20:58<18:25:22,  1.14s/it] 26%|██▌       | 20301/78504 [12:20:59<16:46:47,  1.04s/it]                                                           {'loss': 0.2421, 'grad_norm': 2.3627359867095947, 'learning_rate': 2.4717421765530128e-05, 'epoch': 6.21}
 26%|██▌       | 20301/78504 [12:20:59<16:46:47,  1.04s/it] 26%|██▌       | 20302/78504 [12:21:09<57:21:27,  3.55s/it]                                                           {'loss': 0.1424, 'grad_norm': 0.4976535737514496, 'learning_rate': 2.4716997155110187e-05, 'epoch': 6.21}
 26%|██▌       | 20302/78504 [12:21:09<57:21:27,  3.55s/it] 26%|██▌       | 20303/78504 [12:21:12<55:21:23,  3.42s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.32796710729599, 'learning_rate': 2.471657254469025e-05, 'epoch': 6.21}
 26%|██▌       | 20303/78504 [12:21:12<55:21:23,  3.42s/it] 26%|██▌       | 20304/78504 [12:21:15<53:01:55,  3.28s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.47776225209236145, 'learning_rate': 2.4716147934270308e-05, 'epoch': 6.21}
 26%|██▌       | 20304/78504 [12:21:15<53:01:55,  3.28s/it] 26%|██▌       | 20305/78504 [12:21:17<49:36:15,  3.07s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.7580615878105164, 'learning_rate': 2.471572332385037e-05, 'epoch': 6.21}
 26%|██▌       | 20305/78504 [12:21:17<49:36:15,  3.07s/it] 26%|██▌       | 20306/78504 [12:21:20<46:47:16,  2.89s/it]                                                           {'loss': 0.0458, 'grad_norm': 1.521399736404419, 'learning_rate': 2.471529871343043e-05, 'epoch': 6.21}
 26%|██▌       | 20306/78504 [12:21:20<46:47:16,  2.89s/it] 26%|██▌       | 20307/78504 [12:21:22<44:37:38,  2.76s/it]                                                           {'loss': 0.0462, 'grad_norm': 0.42115673422813416, 'learning_rate': 2.471487410301049e-05, 'epoch': 6.21}
 26%|██▌       | 20307/78504 [12:21:22<44:37:38,  2.76s/it] 26%|██▌       | 20308/78504 [12:21:25<42:40:52,  2.64s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.27821221947669983, 'learning_rate': 2.471444949259055e-05, 'epoch': 6.21}
 26%|██▌       | 20308/78504 [12:21:25<42:40:52,  2.64s/it] 26%|██▌       | 20309/78504 [12:21:27<41:06:54,  2.54s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.4424527883529663, 'learning_rate': 2.471402488217061e-05, 'epoch': 6.21}
 26%|██▌       | 20309/78504 [12:21:27<41:06:54,  2.54s/it] 26%|██▌       | 20310/78504 [12:21:29<39:25:23,  2.44s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.5357734560966492, 'learning_rate': 2.471360027175067e-05, 'epoch': 6.21}
 26%|██▌       | 20310/78504 [12:21:29<39:25:23,  2.44s/it] 26%|██▌       | 20311/78504 [12:21:31<38:06:12,  2.36s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.4614108204841614, 'learning_rate': 2.471317566133073e-05, 'epoch': 6.21}
 26%|██▌       | 20311/78504 [12:21:31<38:06:12,  2.36s/it] 26%|██▌       | 20312/78504 [12:21:33<36:01:16,  2.23s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.37310779094696045, 'learning_rate': 2.471275105091079e-05, 'epoch': 6.21}
 26%|██▌       | 20312/78504 [12:21:33<36:01:16,  2.23s/it] 26%|██▌       | 20313/78504 [12:21:35<34:52:44,  2.16s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.7252302765846252, 'learning_rate': 2.471232644049085e-05, 'epoch': 6.21}
 26%|██▌       | 20313/78504 [12:21:35<34:52:44,  2.16s/it] 26%|██▌       | 20314/78504 [12:21:37<33:06:21,  2.05s/it]                                                           {'loss': 0.1094, 'grad_norm': 0.952415406703949, 'learning_rate': 2.471190183007091e-05, 'epoch': 6.21}
 26%|██▌       | 20314/78504 [12:21:37<33:06:21,  2.05s/it] 26%|██▌       | 20315/78504 [12:21:39<32:15:50,  2.00s/it]                                                           {'loss': 0.1029, 'grad_norm': 0.48074832558631897, 'learning_rate': 2.471147721965097e-05, 'epoch': 6.21}
 26%|██▌       | 20315/78504 [12:21:39<32:15:50,  2.00s/it] 26%|██▌       | 20316/78504 [12:21:41<31:27:38,  1.95s/it]                                                           {'loss': 0.108, 'grad_norm': 0.3620920777320862, 'learning_rate': 2.4711052609231032e-05, 'epoch': 6.21}
 26%|██▌       | 20316/78504 [12:21:41<31:27:38,  1.95s/it] 26%|██▌       | 20317/78504 [12:21:42<29:57:57,  1.85s/it]                                                           {'loss': 0.1207, 'grad_norm': 0.8033514022827148, 'learning_rate': 2.471062799881109e-05, 'epoch': 6.21}
 26%|██▌       | 20317/78504 [12:21:42<29:57:57,  1.85s/it] 26%|██▌       | 20318/78504 [12:21:44<28:26:44,  1.76s/it]                                                           {'loss': 0.165, 'grad_norm': 2.7571237087249756, 'learning_rate': 2.4710203388391153e-05, 'epoch': 6.21}
 26%|██▌       | 20318/78504 [12:21:44<28:26:44,  1.76s/it] 26%|██▌       | 20319/78504 [12:21:45<27:14:45,  1.69s/it]                                                           {'loss': 0.1431, 'grad_norm': 1.9437448978424072, 'learning_rate': 2.4709778777971212e-05, 'epoch': 6.21}
 26%|██▌       | 20319/78504 [12:21:45<27:14:45,  1.69s/it] 26%|██▌       | 20320/78504 [12:21:47<25:48:09,  1.60s/it]                                                           {'loss': 0.1594, 'grad_norm': 0.47176235914230347, 'learning_rate': 2.4709354167551274e-05, 'epoch': 6.21}
 26%|██▌       | 20320/78504 [12:21:47<25:48:09,  1.60s/it] 26%|██▌       | 20321/78504 [12:21:48<24:18:03,  1.50s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.7748541235923767, 'learning_rate': 2.4708929557131333e-05, 'epoch': 6.21}
 26%|██▌       | 20321/78504 [12:21:48<24:18:03,  1.50s/it] 26%|██▌       | 20322/78504 [12:21:49<22:33:27,  1.40s/it]                                                           {'loss': 0.1667, 'grad_norm': 2.09682297706604, 'learning_rate': 2.4708504946711395e-05, 'epoch': 6.21}
 26%|██▌       | 20322/78504 [12:21:49<22:33:27,  1.40s/it] 26%|██▌       | 20323/78504 [12:21:50<21:03:03,  1.30s/it]                                                           {'loss': 0.1784, 'grad_norm': 1.5884188413619995, 'learning_rate': 2.4708080336291454e-05, 'epoch': 6.21}
 26%|██▌       | 20323/78504 [12:21:50<21:03:03,  1.30s/it] 26%|██▌       | 20324/78504 [12:21:51<19:49:21,  1.23s/it]                                                           {'loss': 0.2034, 'grad_norm': 1.2436048984527588, 'learning_rate': 2.4707655725871512e-05, 'epoch': 6.21}
 26%|██▌       | 20324/78504 [12:21:51<19:49:21,  1.23s/it] 26%|██▌       | 20325/78504 [12:21:52<18:24:32,  1.14s/it]                                                           {'loss': 0.1985, 'grad_norm': 1.0126806497573853, 'learning_rate': 2.4707231115451574e-05, 'epoch': 6.21}
 26%|██▌       | 20325/78504 [12:21:52<18:24:32,  1.14s/it] 26%|██▌       | 20326/78504 [12:21:53<16:39:33,  1.03s/it]                                                           {'loss': 0.2087, 'grad_norm': 0.9211768507957458, 'learning_rate': 2.4706806505031633e-05, 'epoch': 6.21}
 26%|██▌       | 20326/78504 [12:21:53<16:39:33,  1.03s/it] 26%|██▌       | 20327/78504 [12:22:02<53:27:56,  3.31s/it]                                                           {'loss': 0.1309, 'grad_norm': 0.468448668718338, 'learning_rate': 2.4706381894611695e-05, 'epoch': 6.21}
 26%|██▌       | 20327/78504 [12:22:02<53:27:56,  3.31s/it] 26%|██▌       | 20328/78504 [12:22:05<52:37:39,  3.26s/it]                                                           {'loss': 0.0769, 'grad_norm': 2.9734864234924316, 'learning_rate': 2.4705957284191754e-05, 'epoch': 6.21}
 26%|██▌       | 20328/78504 [12:22:05<52:37:39,  3.26s/it] 26%|██▌       | 20329/78504 [12:22:08<51:27:11,  3.18s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.4350382089614868, 'learning_rate': 2.4705532673771816e-05, 'epoch': 6.21}
 26%|██▌       | 20329/78504 [12:22:08<51:27:11,  3.18s/it] 26%|██▌       | 20330/78504 [12:22:10<48:41:58,  3.01s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.7325553894042969, 'learning_rate': 2.4705108063351875e-05, 'epoch': 6.22}
 26%|██▌       | 20330/78504 [12:22:10<48:41:58,  3.01s/it] 26%|██▌       | 20331/78504 [12:22:13<46:01:03,  2.85s/it]                                                           {'loss': 0.0578, 'grad_norm': 0.17086546123027802, 'learning_rate': 2.4704683452931937e-05, 'epoch': 6.22}
 26%|██▌       | 20331/78504 [12:22:13<46:01:03,  2.85s/it] 26%|██▌       | 20332/78504 [12:22:15<43:10:40,  2.67s/it]                                                           {'loss': 0.053, 'grad_norm': 0.1995551884174347, 'learning_rate': 2.4704258842511995e-05, 'epoch': 6.22}
 26%|██▌       | 20332/78504 [12:22:15<43:10:40,  2.67s/it] 26%|██▌       | 20333/78504 [12:22:17<41:26:17,  2.56s/it]                                                           {'loss': 0.0717, 'grad_norm': 0.9328352808952332, 'learning_rate': 2.4703834232092057e-05, 'epoch': 6.22}
 26%|██▌       | 20333/78504 [12:22:17<41:26:17,  2.56s/it] 26%|██▌       | 20334/78504 [12:22:20<39:14:04,  2.43s/it]                                                           {'loss': 0.0394, 'grad_norm': 0.19965557754039764, 'learning_rate': 2.4703409621672116e-05, 'epoch': 6.22}
 26%|██▌       | 20334/78504 [12:22:20<39:14:04,  2.43s/it] 26%|██▌       | 20335/78504 [12:22:22<38:02:32,  2.35s/it]                                                           {'loss': 0.0791, 'grad_norm': 1.0501383543014526, 'learning_rate': 2.4702985011252178e-05, 'epoch': 6.22}
 26%|██▌       | 20335/78504 [12:22:22<38:02:32,  2.35s/it] 26%|██▌       | 20336/78504 [12:22:24<36:59:36,  2.29s/it]                                                           {'loss': 0.0859, 'grad_norm': 0.24805772304534912, 'learning_rate': 2.4702560400832237e-05, 'epoch': 6.22}
 26%|██▌       | 20336/78504 [12:22:24<36:59:36,  2.29s/it] 26%|██▌       | 20337/78504 [12:22:26<34:54:14,  2.16s/it]                                                           {'loss': 0.1034, 'grad_norm': 0.5678126811981201, 'learning_rate': 2.4702135790412296e-05, 'epoch': 6.22}
 26%|██▌       | 20337/78504 [12:22:26<34:54:14,  2.16s/it] 26%|██▌       | 20338/78504 [12:22:28<34:02:28,  2.11s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.32150399684906006, 'learning_rate': 2.4701711179992358e-05, 'epoch': 6.22}
 26%|██▌       | 20338/78504 [12:22:28<34:02:28,  2.11s/it] 26%|██▌       | 20339/78504 [12:22:30<33:09:01,  2.05s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.48797255754470825, 'learning_rate': 2.4701286569572416e-05, 'epoch': 6.22}
 26%|██▌       | 20339/78504 [12:22:30<33:09:01,  2.05s/it] 26%|██▌       | 20340/78504 [12:22:31<32:16:16,  2.00s/it]                                                           {'loss': 0.1201, 'grad_norm': 0.47549283504486084, 'learning_rate': 2.470086195915248e-05, 'epoch': 6.22}
 26%|██▌       | 20340/78504 [12:22:32<32:16:16,  2.00s/it] 26%|██▌       | 20341/78504 [12:22:33<31:09:23,  1.93s/it]                                                           {'loss': 0.1078, 'grad_norm': 0.7120321989059448, 'learning_rate': 2.4700437348732537e-05, 'epoch': 6.22}
 26%|██▌       | 20341/78504 [12:22:33<31:09:23,  1.93s/it] 26%|██▌       | 20342/78504 [12:22:35<29:48:41,  1.85s/it]                                                           {'loss': 0.1247, 'grad_norm': 0.7800975441932678, 'learning_rate': 2.47000127383126e-05, 'epoch': 6.22}
 26%|██▌       | 20342/78504 [12:22:35<29:48:41,  1.85s/it] 26%|██▌       | 20343/78504 [12:22:36<28:21:45,  1.76s/it]                                                           {'loss': 0.1185, 'grad_norm': 0.8157461285591125, 'learning_rate': 2.4699588127892658e-05, 'epoch': 6.22}
 26%|██▌       | 20343/78504 [12:22:36<28:21:45,  1.76s/it] 26%|██▌       | 20344/78504 [12:22:38<26:59:45,  1.67s/it]                                                           {'loss': 0.1857, 'grad_norm': 0.8764286637306213, 'learning_rate': 2.469916351747272e-05, 'epoch': 6.22}
 26%|██▌       | 20344/78504 [12:22:38<26:59:45,  1.67s/it] 26%|██▌       | 20345/78504 [12:22:39<25:46:19,  1.60s/it]                                                           {'loss': 0.1959, 'grad_norm': 0.8343998789787292, 'learning_rate': 2.469873890705278e-05, 'epoch': 6.22}
 26%|██▌       | 20345/78504 [12:22:39<25:46:19,  1.60s/it] 26%|██▌       | 20346/78504 [12:22:41<24:16:55,  1.50s/it]                                                           {'loss': 0.1451, 'grad_norm': 1.2634660005569458, 'learning_rate': 2.469831429663284e-05, 'epoch': 6.22}
 26%|██▌       | 20346/78504 [12:22:41<24:16:55,  1.50s/it] 26%|██▌       | 20347/78504 [12:22:42<22:29:34,  1.39s/it]                                                           {'loss': 0.1661, 'grad_norm': 3.563753843307495, 'learning_rate': 2.46978896862129e-05, 'epoch': 6.22}
 26%|██▌       | 20347/78504 [12:22:42<22:29:34,  1.39s/it] 26%|██▌       | 20348/78504 [12:22:43<21:06:28,  1.31s/it]                                                           {'loss': 0.2206, 'grad_norm': 1.0946975946426392, 'learning_rate': 2.469746507579296e-05, 'epoch': 6.22}
 26%|██▌       | 20348/78504 [12:22:43<21:06:28,  1.31s/it] 26%|██▌       | 20349/78504 [12:22:44<19:51:01,  1.23s/it]                                                           {'loss': 0.1679, 'grad_norm': 6.346890449523926, 'learning_rate': 2.469704046537302e-05, 'epoch': 6.22}
 26%|██▌       | 20349/78504 [12:22:44<19:51:01,  1.23s/it] 26%|██▌       | 20350/78504 [12:22:45<18:24:47,  1.14s/it]                                                           {'loss': 0.1688, 'grad_norm': 1.3643969297409058, 'learning_rate': 2.469661585495308e-05, 'epoch': 6.22}
 26%|██▌       | 20350/78504 [12:22:45<18:24:47,  1.14s/it] 26%|██▌       | 20351/78504 [12:22:46<16:41:28,  1.03s/it]                                                           {'loss': 0.2188, 'grad_norm': 3.7358057498931885, 'learning_rate': 2.469619124453314e-05, 'epoch': 6.22}
 26%|██▌       | 20351/78504 [12:22:46<16:41:28,  1.03s/it] 26%|██▌       | 20352/78504 [12:22:54<53:34:20,  3.32s/it]                                                           {'loss': 0.1315, 'grad_norm': 0.8019737601280212, 'learning_rate': 2.46957666341132e-05, 'epoch': 6.22}
 26%|██▌       | 20352/78504 [12:22:54<53:34:20,  3.32s/it] 26%|██▌       | 20353/78504 [12:22:57<52:41:23,  3.26s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.294727623462677, 'learning_rate': 2.4695342023693262e-05, 'epoch': 6.22}
 26%|██▌       | 20353/78504 [12:22:57<52:41:23,  3.26s/it] 26%|██▌       | 20354/78504 [12:23:00<51:30:24,  3.19s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.2841339409351349, 'learning_rate': 2.469491741327332e-05, 'epoch': 6.22}
 26%|██▌       | 20354/78504 [12:23:00<51:30:24,  3.19s/it] 26%|██▌       | 20355/78504 [12:23:03<48:42:50,  3.02s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.3266289532184601, 'learning_rate': 2.4694492802853383e-05, 'epoch': 6.22}
 26%|██▌       | 20355/78504 [12:23:03<48:42:50,  3.02s/it] 26%|██▌       | 20356/78504 [12:23:06<46:02:57,  2.85s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.33084091544151306, 'learning_rate': 2.469406819243344e-05, 'epoch': 6.22}
 26%|██▌       | 20356/78504 [12:23:06<46:02:57,  2.85s/it] 26%|██▌       | 20357/78504 [12:23:08<43:13:50,  2.68s/it]                                                           {'loss': 0.0375, 'grad_norm': 0.15423481166362762, 'learning_rate': 2.4693643582013504e-05, 'epoch': 6.22}
 26%|██▌       | 20357/78504 [12:23:08<43:13:50,  2.68s/it] 26%|██▌       | 20358/78504 [12:23:10<41:29:34,  2.57s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.17553012073040009, 'learning_rate': 2.4693218971593562e-05, 'epoch': 6.22}
 26%|██▌       | 20358/78504 [12:23:10<41:29:34,  2.57s/it] 26%|██▌       | 20359/78504 [12:23:12<39:10:19,  2.43s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.3865848481655121, 'learning_rate': 2.4692794361173624e-05, 'epoch': 6.22}
 26%|██▌       | 20359/78504 [12:23:12<39:10:19,  2.43s/it] 26%|██▌       | 20360/78504 [12:23:14<37:17:46,  2.31s/it]                                                           {'loss': 0.0836, 'grad_norm': 0.24709106981754303, 'learning_rate': 2.4692369750753683e-05, 'epoch': 6.22}
 26%|██▌       | 20360/78504 [12:23:14<37:17:46,  2.31s/it] 26%|██▌       | 20361/78504 [12:23:16<36:27:50,  2.26s/it]                                                           {'loss': 0.0686, 'grad_norm': 1.2337173223495483, 'learning_rate': 2.4691945140333745e-05, 'epoch': 6.22}
 26%|██▌       | 20361/78504 [12:23:16<36:27:50,  2.26s/it] 26%|██▌       | 20362/78504 [12:23:18<35:09:18,  2.18s/it]                                                           {'loss': 0.099, 'grad_norm': 0.43926841020584106, 'learning_rate': 2.4691520529913804e-05, 'epoch': 6.23}
 26%|██▌       | 20362/78504 [12:23:18<35:09:18,  2.18s/it] 26%|██▌       | 20363/78504 [12:23:20<33:19:55,  2.06s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.6429024338722229, 'learning_rate': 2.4691095919493862e-05, 'epoch': 6.23}
 26%|██▌       | 20363/78504 [12:23:20<33:19:55,  2.06s/it] 26%|██▌       | 20364/78504 [12:23:22<32:21:49,  2.00s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.33768510818481445, 'learning_rate': 2.4690671309073925e-05, 'epoch': 6.23}
 26%|██▌       | 20364/78504 [12:23:22<32:21:49,  2.00s/it] 26%|██▌       | 20365/78504 [12:23:24<31:36:05,  1.96s/it]                                                           {'loss': 0.129, 'grad_norm': 0.5089166164398193, 'learning_rate': 2.4690246698653983e-05, 'epoch': 6.23}
 26%|██▌       | 20365/78504 [12:23:24<31:36:05,  1.96s/it] 26%|██▌       | 20366/78504 [12:23:26<30:43:07,  1.90s/it]                                                           {'loss': 0.1247, 'grad_norm': 0.856375515460968, 'learning_rate': 2.4689822088234045e-05, 'epoch': 6.23}
 26%|██▌       | 20366/78504 [12:23:26<30:43:07,  1.90s/it] 26%|██▌       | 20367/78504 [12:23:27<29:28:04,  1.82s/it]                                                           {'loss': 0.1024, 'grad_norm': 2.171257495880127, 'learning_rate': 2.4689397477814104e-05, 'epoch': 6.23}
 26%|██▌       | 20367/78504 [12:23:27<29:28:04,  1.82s/it] 26%|██▌       | 20368/78504 [12:23:29<27:58:01,  1.73s/it]                                                           {'loss': 0.1438, 'grad_norm': 2.108734369277954, 'learning_rate': 2.4688972867394166e-05, 'epoch': 6.23}
 26%|██▌       | 20368/78504 [12:23:29<27:58:01,  1.73s/it] 26%|██▌       | 20369/78504 [12:23:30<26:42:14,  1.65s/it]                                                           {'loss': 0.1471, 'grad_norm': 0.9025638699531555, 'learning_rate': 2.4688548256974225e-05, 'epoch': 6.23}
 26%|██▌       | 20369/78504 [12:23:30<26:42:14,  1.65s/it] 26%|██▌       | 20370/78504 [12:23:32<25:32:52,  1.58s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.6141025424003601, 'learning_rate': 2.4688123646554287e-05, 'epoch': 6.23}
 26%|██▌       | 20370/78504 [12:23:32<25:32:52,  1.58s/it] 26%|██▌       | 20371/78504 [12:23:33<24:06:04,  1.49s/it]                                                           {'loss': 0.1423, 'grad_norm': 0.4326651096343994, 'learning_rate': 2.4687699036134346e-05, 'epoch': 6.23}
 26%|██▌       | 20371/78504 [12:23:33<24:06:04,  1.49s/it] 26%|██▌       | 20372/78504 [12:23:34<22:25:24,  1.39s/it]                                                           {'loss': 0.1897, 'grad_norm': 1.9154560565948486, 'learning_rate': 2.4687274425714408e-05, 'epoch': 6.23}
 26%|██▌       | 20372/78504 [12:23:34<22:25:24,  1.39s/it] 26%|██▌       | 20373/78504 [12:23:35<20:58:37,  1.30s/it]                                                           {'loss': 0.1759, 'grad_norm': 0.8144353628158569, 'learning_rate': 2.4686849815294466e-05, 'epoch': 6.23}
 26%|██▌       | 20373/78504 [12:23:35<20:58:37,  1.30s/it] 26%|██▌       | 20374/78504 [12:23:36<19:46:08,  1.22s/it]                                                           {'loss': 0.1969, 'grad_norm': 3.4713642597198486, 'learning_rate': 2.468642520487453e-05, 'epoch': 6.23}
 26%|██▌       | 20374/78504 [12:23:36<19:46:08,  1.22s/it] 26%|██▌       | 20375/78504 [12:23:37<18:58:31,  1.18s/it]                                                           {'loss': 0.2051, 'grad_norm': 0.7728306651115417, 'learning_rate': 2.4686000594454587e-05, 'epoch': 6.23}
 26%|██▌       | 20375/78504 [12:23:37<18:58:31,  1.18s/it] 26%|██▌       | 20376/78504 [12:23:38<17:04:37,  1.06s/it]                                                           {'loss': 0.2062, 'grad_norm': 1.1823674440383911, 'learning_rate': 2.4685575984034646e-05, 'epoch': 6.23}
 26%|██▌       | 20376/78504 [12:23:38<17:04:37,  1.06s/it] 26%|██▌       | 20377/78504 [12:23:45<45:28:07,  2.82s/it]                                                           {'loss': 0.2329, 'grad_norm': 0.5330361723899841, 'learning_rate': 2.4685151373614708e-05, 'epoch': 6.23}
 26%|██▌       | 20377/78504 [12:23:45<45:28:07,  2.82s/it] 26%|██▌       | 20378/78504 [12:23:48<46:56:13,  2.91s/it]                                                           {'loss': 0.0843, 'grad_norm': 0.37567320466041565, 'learning_rate': 2.4684726763194767e-05, 'epoch': 6.23}
 26%|██▌       | 20378/78504 [12:23:48<46:56:13,  2.91s/it] 26%|██▌       | 20379/78504 [12:23:51<47:18:17,  2.93s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.24004384875297546, 'learning_rate': 2.468430215277483e-05, 'epoch': 6.23}
 26%|██▌       | 20379/78504 [12:23:51<47:18:17,  2.93s/it] 26%|██▌       | 20380/78504 [12:23:54<45:41:12,  2.83s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.31485190987586975, 'learning_rate': 2.4683877542354887e-05, 'epoch': 6.23}
 26%|██▌       | 20380/78504 [12:23:54<45:41:12,  2.83s/it] 26%|██▌       | 20381/78504 [12:23:56<43:24:38,  2.69s/it]                                                           {'loss': 0.0399, 'grad_norm': 0.4025113880634308, 'learning_rate': 2.468345293193495e-05, 'epoch': 6.23}
 26%|██▌       | 20381/78504 [12:23:56<43:24:38,  2.69s/it] 26%|██▌       | 20382/78504 [12:23:58<41:21:04,  2.56s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.3457639217376709, 'learning_rate': 2.4683028321515008e-05, 'epoch': 6.23}
 26%|██▌       | 20382/78504 [12:23:58<41:21:04,  2.56s/it] 26%|██▌       | 20383/78504 [12:24:01<40:10:48,  2.49s/it]                                                           {'loss': 0.0405, 'grad_norm': 0.28959396481513977, 'learning_rate': 2.468260371109507e-05, 'epoch': 6.23}
 26%|██▌       | 20383/78504 [12:24:01<40:10:48,  2.49s/it] 26%|██▌       | 20384/78504 [12:24:03<38:16:21,  2.37s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.2906443774700165, 'learning_rate': 2.468217910067513e-05, 'epoch': 6.23}
 26%|██▌       | 20384/78504 [12:24:03<38:16:21,  2.37s/it] 26%|██▌       | 20385/78504 [12:24:05<36:38:00,  2.27s/it]                                                           {'loss': 0.0715, 'grad_norm': 0.4155977964401245, 'learning_rate': 2.468175449025519e-05, 'epoch': 6.23}
 26%|██▌       | 20385/78504 [12:24:05<36:38:00,  2.27s/it] 26%|██▌       | 20386/78504 [12:24:07<35:58:04,  2.23s/it]                                                           {'loss': 0.0666, 'grad_norm': 1.1568701267242432, 'learning_rate': 2.4681329879835253e-05, 'epoch': 6.23}
 26%|██▌       | 20386/78504 [12:24:07<35:58:04,  2.23s/it] 26%|██▌       | 20387/78504 [12:24:09<35:00:50,  2.17s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.47581946849823, 'learning_rate': 2.4680905269415315e-05, 'epoch': 6.23}
 26%|██▌       | 20387/78504 [12:24:09<35:00:50,  2.17s/it] 26%|██▌       | 20388/78504 [12:24:11<34:04:44,  2.11s/it]                                                           {'loss': 0.088, 'grad_norm': 0.32814714312553406, 'learning_rate': 2.4680480658995374e-05, 'epoch': 6.23}
 26%|██▌       | 20388/78504 [12:24:11<34:04:44,  2.11s/it] 26%|██▌       | 20389/78504 [12:24:13<32:52:31,  2.04s/it]                                                           {'loss': 0.0827, 'grad_norm': 0.6214190125465393, 'learning_rate': 2.4680056048575433e-05, 'epoch': 6.23}
 26%|██▌       | 20389/78504 [12:24:13<32:52:31,  2.04s/it] 26%|██▌       | 20390/78504 [12:24:15<31:22:58,  1.94s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.4383259117603302, 'learning_rate': 2.4679631438155495e-05, 'epoch': 6.23}
 26%|██▌       | 20390/78504 [12:24:15<31:22:58,  1.94s/it] 26%|██▌       | 20391/78504 [12:24:16<30:03:51,  1.86s/it]                                                           {'loss': 0.1103, 'grad_norm': 0.7100869417190552, 'learning_rate': 2.4679206827735554e-05, 'epoch': 6.23}
 26%|██▌       | 20391/78504 [12:24:16<30:03:51,  1.86s/it] 26%|██▌       | 20392/78504 [12:24:18<28:59:46,  1.80s/it]                                                           {'loss': 0.1148, 'grad_norm': 0.4185184836387634, 'learning_rate': 2.4678782217315616e-05, 'epoch': 6.23}
 26%|██▌       | 20392/78504 [12:24:18<28:59:46,  1.80s/it] 26%|██▌       | 20393/78504 [12:24:19<27:40:35,  1.71s/it]                                                           {'loss': 0.1537, 'grad_norm': 2.1383917331695557, 'learning_rate': 2.4678357606895674e-05, 'epoch': 6.23}
 26%|██▌       | 20393/78504 [12:24:19<27:40:35,  1.71s/it] 26%|██▌       | 20394/78504 [12:24:21<26:31:05,  1.64s/it]                                                           {'loss': 0.188, 'grad_norm': 0.6003685593605042, 'learning_rate': 2.4677932996475736e-05, 'epoch': 6.23}
 26%|██▌       | 20394/78504 [12:24:21<26:31:05,  1.64s/it] 26%|██▌       | 20395/78504 [12:24:22<25:25:43,  1.58s/it]                                                           {'loss': 0.1876, 'grad_norm': 0.9529579281806946, 'learning_rate': 2.4677508386055795e-05, 'epoch': 6.24}
 26%|██▌       | 20395/78504 [12:24:22<25:25:43,  1.58s/it] 26%|██▌       | 20396/78504 [12:24:24<23:59:48,  1.49s/it]                                                           {'loss': 0.1464, 'grad_norm': 0.8564022183418274, 'learning_rate': 2.4677083775635857e-05, 'epoch': 6.24}
 26%|██▌       | 20396/78504 [12:24:24<23:59:48,  1.49s/it] 26%|██▌       | 20397/78504 [12:24:25<22:20:41,  1.38s/it]                                                           {'loss': 0.1642, 'grad_norm': 0.9400513768196106, 'learning_rate': 2.4676659165215916e-05, 'epoch': 6.24}
 26%|██▌       | 20397/78504 [12:24:25<22:20:41,  1.38s/it] 26%|██▌       | 20398/78504 [12:24:26<20:55:45,  1.30s/it]                                                           {'loss': 0.164, 'grad_norm': 0.7940175533294678, 'learning_rate': 2.4676234554795978e-05, 'epoch': 6.24}
 26%|██▌       | 20398/78504 [12:24:26<20:55:45,  1.30s/it] 26%|██▌       | 20399/78504 [12:24:27<19:45:06,  1.22s/it]                                                           {'loss': 0.1855, 'grad_norm': 1.1054922342300415, 'learning_rate': 2.4675809944376037e-05, 'epoch': 6.24}
 26%|██▌       | 20399/78504 [12:24:27<19:45:06,  1.22s/it] 26%|██▌       | 20400/78504 [12:24:28<18:22:39,  1.14s/it]                                                           {'loss': 0.2094, 'grad_norm': 2.535687208175659, 'learning_rate': 2.46753853339561e-05, 'epoch': 6.24}
 26%|██▌       | 20400/78504 [12:24:28<18:22:39,  1.14s/it] 26%|██▌       | 20401/78504 [12:24:29<16:43:16,  1.04s/it]                                                           {'loss': 0.2242, 'grad_norm': 6.577815532684326, 'learning_rate': 2.4674960723536157e-05, 'epoch': 6.24}
 26%|██▌       | 20401/78504 [12:24:29<16:43:16,  1.04s/it] 26%|██▌       | 20402/78504 [12:24:38<58:45:14,  3.64s/it]                                                           {'loss': 0.1586, 'grad_norm': 0.5669596195220947, 'learning_rate': 2.4674536113116216e-05, 'epoch': 6.24}
 26%|██▌       | 20402/78504 [12:24:38<58:45:14,  3.64s/it] 26%|██▌       | 20403/78504 [12:24:41<56:01:38,  3.47s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.251908540725708, 'learning_rate': 2.4674111502696278e-05, 'epoch': 6.24}
 26%|██▌       | 20403/78504 [12:24:41<56:01:38,  3.47s/it] 26%|██▌       | 20404/78504 [12:24:44<53:22:00,  3.31s/it]                                                           {'loss': 0.0513, 'grad_norm': 1.5923668146133423, 'learning_rate': 2.4673686892276337e-05, 'epoch': 6.24}
 26%|██▌       | 20404/78504 [12:24:44<53:22:00,  3.31s/it] 26%|██▌       | 20405/78504 [12:24:47<49:49:42,  3.09s/it]                                                           {'loss': 0.0504, 'grad_norm': 0.2648613452911377, 'learning_rate': 2.46732622818564e-05, 'epoch': 6.24}
 26%|██▌       | 20405/78504 [12:24:47<49:49:42,  3.09s/it] 26%|██▌       | 20406/78504 [12:24:49<46:57:23,  2.91s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.16591887176036835, 'learning_rate': 2.4672837671436458e-05, 'epoch': 6.24}
 26%|██▌       | 20406/78504 [12:24:49<46:57:23,  2.91s/it] 26%|██▌       | 20407/78504 [12:24:52<44:42:41,  2.77s/it]                                                           {'loss': 0.06, 'grad_norm': 0.3671473562717438, 'learning_rate': 2.467241306101652e-05, 'epoch': 6.24}
 26%|██▌       | 20407/78504 [12:24:52<44:42:41,  2.77s/it] 26%|██▌       | 20408/78504 [12:24:54<42:42:25,  2.65s/it]                                                           {'loss': 0.0456, 'grad_norm': 0.3575999140739441, 'learning_rate': 2.467198845059658e-05, 'epoch': 6.24}
 26%|██▌       | 20408/78504 [12:24:54<42:42:25,  2.65s/it] 26%|██▌       | 20409/78504 [12:24:56<41:00:26,  2.54s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.18171587586402893, 'learning_rate': 2.467156384017664e-05, 'epoch': 6.24}
 26%|██▌       | 20409/78504 [12:24:56<41:00:26,  2.54s/it] 26%|██▌       | 20410/78504 [12:24:59<39:19:14,  2.44s/it]                                                           {'loss': 0.0543, 'grad_norm': 0.9433700442314148, 'learning_rate': 2.46711392297567e-05, 'epoch': 6.24}
 26%|██▌       | 20410/78504 [12:24:59<39:19:14,  2.44s/it] 26%|██▌       | 20411/78504 [12:25:01<38:01:26,  2.36s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.5618821978569031, 'learning_rate': 2.467071461933676e-05, 'epoch': 6.24}
 26%|██▌       | 20411/78504 [12:25:01<38:01:26,  2.36s/it] 26%|██▌       | 20412/78504 [12:25:03<35:39:19,  2.21s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.43723753094673157, 'learning_rate': 2.467029000891682e-05, 'epoch': 6.24}
 26%|██▌       | 20412/78504 [12:25:03<35:39:19,  2.21s/it] 26%|██▌       | 20413/78504 [12:25:05<34:34:47,  2.14s/it]                                                           {'loss': 0.0458, 'grad_norm': 0.1724397987127304, 'learning_rate': 2.4669865398496882e-05, 'epoch': 6.24}
 26%|██▌       | 20413/78504 [12:25:05<34:34:47,  2.14s/it] 26%|██▌       | 20414/78504 [12:25:07<33:31:26,  2.08s/it]                                                           {'loss': 0.0869, 'grad_norm': 0.3042412996292114, 'learning_rate': 2.466944078807694e-05, 'epoch': 6.24}
 26%|██▌       | 20414/78504 [12:25:07<33:31:26,  2.08s/it] 26%|██▌       | 20415/78504 [12:25:08<32:32:05,  2.02s/it]                                                           {'loss': 0.1245, 'grad_norm': 0.795559287071228, 'learning_rate': 2.4669016177657e-05, 'epoch': 6.24}
 26%|██▌       | 20415/78504 [12:25:08<32:32:05,  2.02s/it] 26%|██▌       | 20416/78504 [12:25:10<31:19:02,  1.94s/it]                                                           {'loss': 0.1234, 'grad_norm': 0.4103502035140991, 'learning_rate': 2.466859156723706e-05, 'epoch': 6.24}
 26%|██▌       | 20416/78504 [12:25:10<31:19:02,  1.94s/it] 26%|██▌       | 20417/78504 [12:25:12<29:35:14,  1.83s/it]                                                           {'loss': 0.1214, 'grad_norm': 0.6305211782455444, 'learning_rate': 2.466816695681712e-05, 'epoch': 6.24}
 26%|██▌       | 20417/78504 [12:25:12<29:35:14,  1.83s/it] 26%|██▌       | 20418/78504 [12:25:13<28:08:50,  1.74s/it]                                                           {'loss': 0.1707, 'grad_norm': 0.6498208045959473, 'learning_rate': 2.4667742346397182e-05, 'epoch': 6.24}
 26%|██▌       | 20418/78504 [12:25:13<28:08:50,  1.74s/it] 26%|██▌       | 20419/78504 [12:25:15<27:02:18,  1.68s/it]                                                           {'loss': 0.1417, 'grad_norm': 0.4978840947151184, 'learning_rate': 2.466731773597724e-05, 'epoch': 6.24}
 26%|██▌       | 20419/78504 [12:25:15<27:02:18,  1.68s/it] 26%|██▌       | 20420/78504 [12:25:16<25:39:14,  1.59s/it]                                                           {'loss': 0.2007, 'grad_norm': 1.135201096534729, 'learning_rate': 2.4666893125557303e-05, 'epoch': 6.24}
 26%|██▌       | 20420/78504 [12:25:16<25:39:14,  1.59s/it] 26%|██▌       | 20421/78504 [12:25:18<24:08:56,  1.50s/it]                                                           {'loss': 0.1525, 'grad_norm': 0.5574920773506165, 'learning_rate': 2.4666468515137362e-05, 'epoch': 6.24}
 26%|██▌       | 20421/78504 [12:25:18<24:08:56,  1.50s/it] 26%|██▌       | 20422/78504 [12:25:19<22:26:45,  1.39s/it]                                                           {'loss': 0.2022, 'grad_norm': 0.7807177305221558, 'learning_rate': 2.4666043904717424e-05, 'epoch': 6.24}
 26%|██▌       | 20422/78504 [12:25:19<22:26:45,  1.39s/it] 26%|██▌       | 20423/78504 [12:25:20<21:00:45,  1.30s/it]                                                           {'loss': 0.1553, 'grad_norm': 0.917242705821991, 'learning_rate': 2.4665619294297483e-05, 'epoch': 6.24}
 26%|██▌       | 20423/78504 [12:25:20<21:00:45,  1.30s/it] 26%|██▌       | 20424/78504 [12:25:21<19:47:37,  1.23s/it]                                                           {'loss': 0.1955, 'grad_norm': 2.0076963901519775, 'learning_rate': 2.4665194683877545e-05, 'epoch': 6.24}
 26%|██▌       | 20424/78504 [12:25:21<19:47:37,  1.23s/it] 26%|██▌       | 20425/78504 [12:25:22<18:22:49,  1.14s/it]                                                           {'loss': 0.1648, 'grad_norm': 0.8111322522163391, 'learning_rate': 2.4664770073457604e-05, 'epoch': 6.24}
 26%|██▌       | 20425/78504 [12:25:22<18:22:49,  1.14s/it] 26%|██▌       | 20426/78504 [12:25:23<16:38:35,  1.03s/it]                                                           {'loss': 0.2431, 'grad_norm': 1.671962022781372, 'learning_rate': 2.4664345463037662e-05, 'epoch': 6.24}
 26%|██▌       | 20426/78504 [12:25:23<16:38:35,  1.03s/it] 26%|██▌       | 20427/78504 [12:25:31<51:01:20,  3.16s/it]                                                           {'loss': 0.1281, 'grad_norm': 0.530168890953064, 'learning_rate': 2.4663920852617724e-05, 'epoch': 6.24}
 26%|██▌       | 20427/78504 [12:25:31<51:01:20,  3.16s/it] 26%|██▌       | 20428/78504 [12:25:34<51:41:47,  3.20s/it]                                                           {'loss': 0.0966, 'grad_norm': 0.31049084663391113, 'learning_rate': 2.4663496242197783e-05, 'epoch': 6.25}
 26%|██▌       | 20428/78504 [12:25:34<51:41:47,  3.20s/it] 26%|██▌       | 20429/78504 [12:25:37<50:35:20,  3.14s/it]                                                           {'loss': 0.0973, 'grad_norm': 0.70224928855896, 'learning_rate': 2.4663071631777845e-05, 'epoch': 6.25}
 26%|██▌       | 20429/78504 [12:25:37<50:35:20,  3.14s/it] 26%|██▌       | 20430/78504 [12:25:40<47:57:12,  2.97s/it]                                                           {'loss': 0.0426, 'grad_norm': 0.5096299648284912, 'learning_rate': 2.4662647021357904e-05, 'epoch': 6.25}
 26%|██▌       | 20430/78504 [12:25:40<47:57:12,  2.97s/it] 26%|██▌       | 20431/78504 [12:25:42<45:35:49,  2.83s/it]                                                           {'loss': 0.054, 'grad_norm': 0.4333474040031433, 'learning_rate': 2.4662222410937966e-05, 'epoch': 6.25}
 26%|██▌       | 20431/78504 [12:25:42<45:35:49,  2.83s/it] 26%|██▌       | 20432/78504 [12:25:44<43:18:35,  2.68s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.2833002209663391, 'learning_rate': 2.4661797800518025e-05, 'epoch': 6.25}
 26%|██▌       | 20432/78504 [12:25:44<43:18:35,  2.68s/it] 26%|██▌       | 20433/78504 [12:25:47<41:34:51,  2.58s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.5185602903366089, 'learning_rate': 2.4661373190098087e-05, 'epoch': 6.25}
 26%|██▌       | 20433/78504 [12:25:47<41:34:51,  2.58s/it] 26%|██▌       | 20434/78504 [12:25:49<39:14:40,  2.43s/it]                                                           {'loss': 0.0699, 'grad_norm': 0.6193782687187195, 'learning_rate': 2.4660948579678145e-05, 'epoch': 6.25}
 26%|██▌       | 20434/78504 [12:25:49<39:14:40,  2.43s/it] 26%|██▌       | 20435/78504 [12:25:51<38:04:53,  2.36s/it]                                                           {'loss': 0.0928, 'grad_norm': 0.6355588436126709, 'learning_rate': 2.4660523969258207e-05, 'epoch': 6.25}
 26%|██▌       | 20435/78504 [12:25:51<38:04:53,  2.36s/it] 26%|██▌       | 20436/78504 [12:25:53<36:57:59,  2.29s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.973335862159729, 'learning_rate': 2.4660099358838266e-05, 'epoch': 6.25}
 26%|██▌       | 20436/78504 [12:25:53<36:57:59,  2.29s/it] 26%|██▌       | 20437/78504 [12:25:55<35:32:11,  2.20s/it]                                                           {'loss': 0.096, 'grad_norm': 0.3475862741470337, 'learning_rate': 2.4659674748418328e-05, 'epoch': 6.25}
 26%|██▌       | 20437/78504 [12:25:55<35:32:11,  2.20s/it] 26%|██▌       | 20438/78504 [12:25:57<33:34:50,  2.08s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.26958906650543213, 'learning_rate': 2.4659250137998387e-05, 'epoch': 6.25}
 26%|██▌       | 20438/78504 [12:25:57<33:34:50,  2.08s/it] 26%|██▌       | 20439/78504 [12:25:59<32:29:43,  2.01s/it]                                                           {'loss': 0.1027, 'grad_norm': 1.1396828889846802, 'learning_rate': 2.4658825527578446e-05, 'epoch': 6.25}
 26%|██▌       | 20439/78504 [12:25:59<32:29:43,  2.01s/it] 26%|██▌       | 20440/78504 [12:26:01<31:39:48,  1.96s/it]                                                           {'loss': 0.1041, 'grad_norm': 0.577954888343811, 'learning_rate': 2.4658400917158508e-05, 'epoch': 6.25}
 26%|██▌       | 20440/78504 [12:26:01<31:39:48,  1.96s/it] 26%|██▌       | 20441/78504 [12:26:02<30:29:42,  1.89s/it]                                                           {'loss': 0.1109, 'grad_norm': 0.4021517038345337, 'learning_rate': 2.4657976306738566e-05, 'epoch': 6.25}
 26%|██▌       | 20441/78504 [12:26:02<30:29:42,  1.89s/it] 26%|██▌       | 20442/78504 [12:26:04<29:15:51,  1.81s/it]                                                           {'loss': 0.1193, 'grad_norm': 0.33919593691825867, 'learning_rate': 2.465755169631863e-05, 'epoch': 6.25}
 26%|██▌       | 20442/78504 [12:26:04<29:15:51,  1.81s/it] 26%|██▌       | 20443/78504 [12:26:06<27:57:53,  1.73s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.30558836460113525, 'learning_rate': 2.4657127085898687e-05, 'epoch': 6.25}
 26%|██▌       | 20443/78504 [12:26:06<27:57:53,  1.73s/it] 26%|██▌       | 20444/78504 [12:26:07<26:39:53,  1.65s/it]                                                           {'loss': 0.1828, 'grad_norm': 1.13478422164917, 'learning_rate': 2.465670247547875e-05, 'epoch': 6.25}
 26%|██▌       | 20444/78504 [12:26:07<26:39:53,  1.65s/it] 26%|██▌       | 20445/78504 [12:26:08<25:22:50,  1.57s/it]                                                           {'loss': 0.1791, 'grad_norm': 0.750201940536499, 'learning_rate': 2.4656277865058808e-05, 'epoch': 6.25}
 26%|██▌       | 20445/78504 [12:26:08<25:22:50,  1.57s/it] 26%|██▌       | 20446/78504 [12:26:10<23:58:29,  1.49s/it]                                                           {'loss': 0.1812, 'grad_norm': 0.5285910367965698, 'learning_rate': 2.465585325463887e-05, 'epoch': 6.25}
 26%|██▌       | 20446/78504 [12:26:10<23:58:29,  1.49s/it] 26%|██▌       | 20447/78504 [12:26:11<22:20:50,  1.39s/it]                                                           {'loss': 0.1477, 'grad_norm': 1.8283168077468872, 'learning_rate': 2.465542864421893e-05, 'epoch': 6.25}
 26%|██▌       | 20447/78504 [12:26:11<22:20:50,  1.39s/it] 26%|██▌       | 20448/78504 [12:26:12<20:55:54,  1.30s/it]                                                           {'loss': 0.1783, 'grad_norm': 0.849952220916748, 'learning_rate': 2.465500403379899e-05, 'epoch': 6.25}
 26%|██▌       | 20448/78504 [12:26:12<20:55:54,  1.30s/it] 26%|██▌       | 20449/78504 [12:26:13<19:43:28,  1.22s/it]                                                           {'loss': 0.2151, 'grad_norm': 1.9097341299057007, 'learning_rate': 2.465457942337905e-05, 'epoch': 6.25}
 26%|██▌       | 20449/78504 [12:26:13<19:43:28,  1.22s/it] 26%|██▌       | 20450/78504 [12:26:14<18:17:11,  1.13s/it]                                                           {'loss': 0.2013, 'grad_norm': 2.980550765991211, 'learning_rate': 2.465415481295911e-05, 'epoch': 6.25}
 26%|██▌       | 20450/78504 [12:26:14<18:17:11,  1.13s/it] 26%|██▌       | 20451/78504 [12:26:15<16:33:44,  1.03s/it]                                                           {'loss': 0.2161, 'grad_norm': 1.2095954418182373, 'learning_rate': 2.465373020253917e-05, 'epoch': 6.25}
 26%|██▌       | 20451/78504 [12:26:15<16:33:44,  1.03s/it] 26%|██▌       | 20452/78504 [12:26:23<50:58:58,  3.16s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.5546583533287048, 'learning_rate': 2.465330559211923e-05, 'epoch': 6.25}
 26%|██▌       | 20452/78504 [12:26:23<50:58:58,  3.16s/it] 26%|██▌       | 20453/78504 [12:26:26<50:44:20,  3.15s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.357021301984787, 'learning_rate': 2.465288098169929e-05, 'epoch': 6.25}
 26%|██▌       | 20453/78504 [12:26:26<50:44:20,  3.15s/it] 26%|██▌       | 20454/78504 [12:26:29<49:58:18,  3.10s/it]                                                           {'loss': 0.1049, 'grad_norm': 0.878466784954071, 'learning_rate': 2.465245637127935e-05, 'epoch': 6.25}
 26%|██▌       | 20454/78504 [12:26:29<49:58:18,  3.10s/it] 26%|██▌       | 20455/78504 [12:26:32<47:36:57,  2.95s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.2155127376317978, 'learning_rate': 2.4652031760859412e-05, 'epoch': 6.25}
 26%|██▌       | 20455/78504 [12:26:32<47:36:57,  2.95s/it] 26%|██▌       | 20456/78504 [12:26:34<45:15:22,  2.81s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.6554815769195557, 'learning_rate': 2.465160715043947e-05, 'epoch': 6.25}
 26%|██▌       | 20456/78504 [12:26:34<45:15:22,  2.81s/it] 26%|██▌       | 20457/78504 [12:26:36<42:38:10,  2.64s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.31401634216308594, 'learning_rate': 2.4651182540019533e-05, 'epoch': 6.25}
 26%|██▌       | 20457/78504 [12:26:36<42:38:10,  2.64s/it] 26%|██▌       | 20458/78504 [12:26:39<41:01:58,  2.54s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.35591956973075867, 'learning_rate': 2.465075792959959e-05, 'epoch': 6.25}
 26%|██▌       | 20458/78504 [12:26:39<41:01:58,  2.54s/it] 26%|██▌       | 20459/78504 [12:26:41<38:54:54,  2.41s/it]                                                           {'loss': 0.0979, 'grad_norm': 0.28896448016166687, 'learning_rate': 2.4650333319179654e-05, 'epoch': 6.25}
 26%|██▌       | 20459/78504 [12:26:41<38:54:54,  2.41s/it] 26%|██▌       | 20460/78504 [12:26:43<37:46:16,  2.34s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.5964662432670593, 'learning_rate': 2.4649908708759712e-05, 'epoch': 6.25}
 26%|██▌       | 20460/78504 [12:26:43<37:46:16,  2.34s/it] 26%|██▌       | 20461/78504 [12:26:45<36:55:11,  2.29s/it]                                                           {'loss': 0.065, 'grad_norm': 1.6005606651306152, 'learning_rate': 2.4649484098339774e-05, 'epoch': 6.26}
 26%|██▌       | 20461/78504 [12:26:45<36:55:11,  2.29s/it] 26%|██▌       | 20462/78504 [12:26:47<35:36:42,  2.21s/it]                                                           {'loss': 0.1008, 'grad_norm': 2.3987035751342773, 'learning_rate': 2.4649059487919833e-05, 'epoch': 6.26}
 26%|██▌       | 20462/78504 [12:26:47<35:36:42,  2.21s/it] 26%|██▌       | 20463/78504 [12:26:49<34:29:37,  2.14s/it]                                                           {'loss': 0.0638, 'grad_norm': 0.2599339187145233, 'learning_rate': 2.4648634877499895e-05, 'epoch': 6.26}
 26%|██▌       | 20463/78504 [12:26:49<34:29:37,  2.14s/it] 26%|██▌       | 20464/78504 [12:26:51<33:59:45,  2.11s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.6531580090522766, 'learning_rate': 2.4648210267079954e-05, 'epoch': 6.26}
 26%|██▌       | 20464/78504 [12:26:51<33:59:45,  2.11s/it] 26%|██▌       | 20465/78504 [12:26:53<32:48:11,  2.03s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.46375197172164917, 'learning_rate': 2.4647785656660013e-05, 'epoch': 6.26}
 26%|██▌       | 20465/78504 [12:26:53<32:48:11,  2.03s/it] 26%|██▌       | 20466/78504 [12:26:55<31:30:04,  1.95s/it]                                                           {'loss': 0.1384, 'grad_norm': 0.7840709090232849, 'learning_rate': 2.4647361046240075e-05, 'epoch': 6.26}
 26%|██▌       | 20466/78504 [12:26:55<31:30:04,  1.95s/it] 26%|██▌       | 20467/78504 [12:26:56<30:01:25,  1.86s/it]                                                           {'loss': 0.1504, 'grad_norm': 0.36975187063217163, 'learning_rate': 2.4646936435820133e-05, 'epoch': 6.26}
 26%|██▌       | 20467/78504 [12:26:56<30:01:25,  1.86s/it] 26%|██▌       | 20468/78504 [12:26:58<28:26:33,  1.76s/it]                                                           {'loss': 0.1489, 'grad_norm': 1.101265549659729, 'learning_rate': 2.4646511825400195e-05, 'epoch': 6.26}
 26%|██▌       | 20468/78504 [12:26:58<28:26:33,  1.76s/it] 26%|██▌       | 20469/78504 [12:26:59<27:00:21,  1.68s/it]                                                           {'loss': 0.1715, 'grad_norm': 0.4178028106689453, 'learning_rate': 2.4646087214980254e-05, 'epoch': 6.26}
 26%|██▌       | 20469/78504 [12:26:59<27:00:21,  1.68s/it] 26%|██▌       | 20470/78504 [12:27:01<25:45:36,  1.60s/it]                                                           {'loss': 0.1623, 'grad_norm': 0.7832471132278442, 'learning_rate': 2.4645662604560316e-05, 'epoch': 6.26}
 26%|██▌       | 20470/78504 [12:27:01<25:45:36,  1.60s/it] 26%|██▌       | 20471/78504 [12:27:02<24:16:10,  1.51s/it]                                                           {'loss': 0.1643, 'grad_norm': 0.7726292610168457, 'learning_rate': 2.4645237994140375e-05, 'epoch': 6.26}
 26%|██▌       | 20471/78504 [12:27:02<24:16:10,  1.51s/it] 26%|██▌       | 20472/78504 [12:27:03<22:30:51,  1.40s/it]                                                           {'loss': 0.1887, 'grad_norm': 0.7250409126281738, 'learning_rate': 2.4644813383720437e-05, 'epoch': 6.26}
 26%|██▌       | 20472/78504 [12:27:03<22:30:51,  1.40s/it] 26%|██▌       | 20473/78504 [12:27:04<21:01:05,  1.30s/it]                                                           {'loss': 0.1824, 'grad_norm': 1.2560112476348877, 'learning_rate': 2.4644388773300496e-05, 'epoch': 6.26}
 26%|██▌       | 20473/78504 [12:27:04<21:01:05,  1.30s/it] 26%|██▌       | 20474/78504 [12:27:05<19:50:45,  1.23s/it]                                                           {'loss': 0.1577, 'grad_norm': 17.838964462280273, 'learning_rate': 2.4643964162880558e-05, 'epoch': 6.26}
 26%|██▌       | 20474/78504 [12:27:05<19:50:45,  1.23s/it] 26%|██▌       | 20475/78504 [12:27:06<18:25:44,  1.14s/it]                                                           {'loss': 0.1675, 'grad_norm': 2.5190422534942627, 'learning_rate': 2.4643539552460616e-05, 'epoch': 6.26}
 26%|██▌       | 20475/78504 [12:27:06<18:25:44,  1.14s/it] 26%|██▌       | 20476/78504 [12:27:07<16:40:36,  1.03s/it]                                                           {'loss': 0.2486, 'grad_norm': 2.486232042312622, 'learning_rate': 2.464311494204068e-05, 'epoch': 6.26}
 26%|██▌       | 20476/78504 [12:27:07<16:40:36,  1.03s/it] 26%|██▌       | 20477/78504 [12:27:15<51:56:19,  3.22s/it]                                                           {'loss': 0.1228, 'grad_norm': 0.38996395468711853, 'learning_rate': 2.4642690331620737e-05, 'epoch': 6.26}
 26%|██▌       | 20477/78504 [12:27:15<51:56:19,  3.22s/it] 26%|██▌       | 20478/78504 [12:27:18<51:32:06,  3.20s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.18455414474010468, 'learning_rate': 2.4642265721200796e-05, 'epoch': 6.26}
 26%|██▌       | 20478/78504 [12:27:19<51:32:06,  3.20s/it] 26%|██▌       | 20479/78504 [12:27:21<50:10:52,  3.11s/it]                                                           {'loss': 0.0806, 'grad_norm': 0.37149757146835327, 'learning_rate': 2.4641841110780858e-05, 'epoch': 6.26}
 26%|██▌       | 20479/78504 [12:27:21<50:10:52,  3.11s/it] 26%|██▌       | 20480/78504 [12:27:24<46:51:38,  2.91s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.8032139539718628, 'learning_rate': 2.4641416500360917e-05, 'epoch': 6.26}
 26%|██▌       | 20480/78504 [12:27:24<46:51:38,  2.91s/it] 26%|██▌       | 20481/78504 [12:27:26<44:44:43,  2.78s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.27390196919441223, 'learning_rate': 2.464099188994098e-05, 'epoch': 6.26}
 26%|██▌       | 20481/78504 [12:27:26<44:44:43,  2.78s/it] 26%|██▌       | 20482/78504 [12:27:29<43:04:54,  2.67s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.21533255279064178, 'learning_rate': 2.4640567279521038e-05, 'epoch': 6.26}
 26%|██▌       | 20482/78504 [12:27:29<43:04:54,  2.67s/it] 26%|██▌       | 20483/78504 [12:27:31<41:19:21,  2.56s/it]                                                           {'loss': 0.044, 'grad_norm': 0.23303869366645813, 'learning_rate': 2.46401426691011e-05, 'epoch': 6.26}
 26%|██▌       | 20483/78504 [12:27:31<41:19:21,  2.56s/it] 26%|██▌       | 20484/78504 [12:27:33<39:08:33,  2.43s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.3563937246799469, 'learning_rate': 2.463971805868116e-05, 'epoch': 6.26}
 26%|██▌       | 20484/78504 [12:27:33<39:08:33,  2.43s/it] 26%|██▌       | 20485/78504 [12:27:35<37:57:59,  2.36s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.2558675706386566, 'learning_rate': 2.463929344826122e-05, 'epoch': 6.26}
 26%|██▌       | 20485/78504 [12:27:35<37:57:59,  2.36s/it] 26%|██▌       | 20486/78504 [12:27:38<37:01:50,  2.30s/it]                                                           {'loss': 0.0814, 'grad_norm': 0.2855742871761322, 'learning_rate': 2.463886883784128e-05, 'epoch': 6.26}
 26%|██▌       | 20486/78504 [12:27:38<37:01:50,  2.30s/it] 26%|██▌       | 20487/78504 [12:27:39<35:00:14,  2.17s/it]                                                           {'loss': 0.0773, 'grad_norm': 1.0314935445785522, 'learning_rate': 2.463844422742134e-05, 'epoch': 6.26}
 26%|██▌       | 20487/78504 [12:27:39<35:00:14,  2.17s/it] 26%|██▌       | 20488/78504 [12:27:41<34:02:52,  2.11s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.5812258124351501, 'learning_rate': 2.4638019617001403e-05, 'epoch': 6.26}
 26%|██▌       | 20488/78504 [12:27:41<34:02:52,  2.11s/it] 26%|██▌       | 20489/78504 [12:27:43<33:07:34,  2.06s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.47934162616729736, 'learning_rate': 2.4637595006581465e-05, 'epoch': 6.26}
 26%|██▌       | 20489/78504 [12:27:43<33:07:34,  2.06s/it] 26%|██▌       | 20490/78504 [12:27:45<32:17:06,  2.00s/it]                                                           {'loss': 0.0992, 'grad_norm': 0.4094822108745575, 'learning_rate': 2.4637170396161524e-05, 'epoch': 6.26}
 26%|██▌       | 20490/78504 [12:27:45<32:17:06,  2.00s/it] 26%|██▌       | 20491/78504 [12:27:47<31:08:02,  1.93s/it]                                                           {'loss': 0.1004, 'grad_norm': 0.32210662961006165, 'learning_rate': 2.4636745785741583e-05, 'epoch': 6.26}
 26%|██▌       | 20491/78504 [12:27:47<31:08:02,  1.93s/it] 26%|██▌       | 20492/78504 [12:27:49<29:26:16,  1.83s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.3991433084011078, 'learning_rate': 2.4636321175321645e-05, 'epoch': 6.26}
 26%|██▌       | 20492/78504 [12:27:49<29:26:16,  1.83s/it] 26%|██▌       | 20493/78504 [12:27:50<27:55:14,  1.73s/it]                                                           {'loss': 0.1522, 'grad_norm': 1.300249695777893, 'learning_rate': 2.4635896564901704e-05, 'epoch': 6.27}
 26%|██▌       | 20493/78504 [12:27:50<27:55:14,  1.73s/it] 26%|██▌       | 20494/78504 [12:27:52<26:51:28,  1.67s/it]                                                           {'loss': 0.1414, 'grad_norm': 3.147094488143921, 'learning_rate': 2.4635471954481766e-05, 'epoch': 6.27}
 26%|██▌       | 20494/78504 [12:27:52<26:51:28,  1.67s/it] 26%|██▌       | 20495/78504 [12:27:53<25:29:57,  1.58s/it]                                                           {'loss': 0.1838, 'grad_norm': 1.2231025695800781, 'learning_rate': 2.4635047344061824e-05, 'epoch': 6.27}
 26%|██▌       | 20495/78504 [12:27:53<25:29:57,  1.58s/it] 26%|██▌       | 20496/78504 [12:27:54<24:03:42,  1.49s/it]                                                           {'loss': 0.1731, 'grad_norm': 4.264914512634277, 'learning_rate': 2.4634622733641886e-05, 'epoch': 6.27}
 26%|██▌       | 20496/78504 [12:27:54<24:03:42,  1.49s/it] 26%|██▌       | 20497/78504 [12:27:55<22:24:55,  1.39s/it]                                                           {'loss': 0.1808, 'grad_norm': 1.781532883644104, 'learning_rate': 2.4634198123221945e-05, 'epoch': 6.27}
 26%|██▌       | 20497/78504 [12:27:55<22:24:55,  1.39s/it] 26%|██▌       | 20498/78504 [12:27:56<20:57:57,  1.30s/it]                                                           {'loss': 0.1894, 'grad_norm': 4.431701183319092, 'learning_rate': 2.4633773512802007e-05, 'epoch': 6.27}
 26%|██▌       | 20498/78504 [12:27:56<20:57:57,  1.30s/it] 26%|██▌       | 20499/78504 [12:27:58<19:45:16,  1.23s/it]                                                           {'loss': 0.1837, 'grad_norm': 0.6199817657470703, 'learning_rate': 2.4633348902382066e-05, 'epoch': 6.27}
 26%|██▌       | 20499/78504 [12:27:58<19:45:16,  1.23s/it] 26%|██▌       | 20500/78504 [12:27:58<18:17:13,  1.13s/it]                                                           {'loss': 0.1684, 'grad_norm': 0.9559866189956665, 'learning_rate': 2.4632924291962128e-05, 'epoch': 6.27}
 26%|██▌       | 20500/78504 [12:27:58<18:17:13,  1.13s/it] 26%|██▌       | 20501/78504 [12:27:59<16:40:01,  1.03s/it]                                                           {'loss': 0.2236, 'grad_norm': 0.8026087880134583, 'learning_rate': 2.4632499681542187e-05, 'epoch': 6.27}
 26%|██▌       | 20501/78504 [12:27:59<16:40:01,  1.03s/it] 26%|██▌       | 20502/78504 [12:28:08<55:25:04,  3.44s/it]                                                           {'loss': 0.139, 'grad_norm': 0.5169669985771179, 'learning_rate': 2.463207507112225e-05, 'epoch': 6.27}
 26%|██▌       | 20502/78504 [12:28:08<55:25:04,  3.44s/it] 26%|██▌       | 20503/78504 [12:28:11<53:50:00,  3.34s/it]                                                           {'loss': 0.1034, 'grad_norm': 0.5535604953765869, 'learning_rate': 2.4631650460702307e-05, 'epoch': 6.27}
 26%|██▌       | 20503/78504 [12:28:11<53:50:00,  3.34s/it] 26%|██▌       | 20504/78504 [12:28:14<52:15:31,  3.24s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.44175973534584045, 'learning_rate': 2.4631225850282366e-05, 'epoch': 6.27}
 26%|██▌       | 20504/78504 [12:28:14<52:15:31,  3.24s/it] 26%|██▌       | 20505/78504 [12:28:17<49:13:12,  3.06s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.5184630751609802, 'learning_rate': 2.4630801239862428e-05, 'epoch': 6.27}
 26%|██▌       | 20505/78504 [12:28:17<49:13:12,  3.06s/it] 26%|██▌       | 20506/78504 [12:28:19<46:23:28,  2.88s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.2202775627374649, 'learning_rate': 2.4630376629442487e-05, 'epoch': 6.27}
 26%|██▌       | 20506/78504 [12:28:20<46:23:28,  2.88s/it] 26%|██▌       | 20507/78504 [12:28:22<43:24:15,  2.69s/it]                                                           {'loss': 0.0834, 'grad_norm': 1.5866072177886963, 'learning_rate': 2.462995201902255e-05, 'epoch': 6.27}
 26%|██▌       | 20507/78504 [12:28:22<43:24:15,  2.69s/it] 26%|██▌       | 20508/78504 [12:28:24<41:34:41,  2.58s/it]                                                           {'loss': 0.0811, 'grad_norm': 0.6425320506095886, 'learning_rate': 2.4629527408602608e-05, 'epoch': 6.27}
 26%|██▌       | 20508/78504 [12:28:24<41:34:41,  2.58s/it] 26%|██▌       | 20509/78504 [12:28:26<39:17:08,  2.44s/it]                                                           {'loss': 0.0723, 'grad_norm': 0.2666257619857788, 'learning_rate': 2.462910279818267e-05, 'epoch': 6.27}
 26%|██▌       | 20509/78504 [12:28:26<39:17:08,  2.44s/it] 26%|██▌       | 20510/78504 [12:28:28<38:02:20,  2.36s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.4337107837200165, 'learning_rate': 2.462867818776273e-05, 'epoch': 6.27}
 26%|██▌       | 20510/78504 [12:28:28<38:02:20,  2.36s/it] 26%|██▌       | 20511/78504 [12:28:31<36:59:22,  2.30s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.23916378617286682, 'learning_rate': 2.462825357734279e-05, 'epoch': 6.27}
 26%|██▌       | 20511/78504 [12:28:31<36:59:22,  2.30s/it] 26%|██▌       | 20512/78504 [12:28:33<35:40:32,  2.21s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.39709213376045227, 'learning_rate': 2.462782896692285e-05, 'epoch': 6.27}
 26%|██▌       | 20512/78504 [12:28:33<35:40:32,  2.21s/it] 26%|██▌       | 20513/78504 [12:28:35<34:34:14,  2.15s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.2951914668083191, 'learning_rate': 2.462740435650291e-05, 'epoch': 6.27}
 26%|██▌       | 20513/78504 [12:28:35<34:34:14,  2.15s/it] 26%|██▌       | 20514/78504 [12:28:36<33:12:59,  2.06s/it]                                                           {'loss': 0.1002, 'grad_norm': 0.5491182208061218, 'learning_rate': 2.462697974608297e-05, 'epoch': 6.27}
 26%|██▌       | 20514/78504 [12:28:36<33:12:59,  2.06s/it] 26%|██▌       | 20515/78504 [12:28:38<31:32:46,  1.96s/it]                                                           {'loss': 0.1234, 'grad_norm': 0.7246773838996887, 'learning_rate': 2.4626555135663032e-05, 'epoch': 6.27}
 26%|██▌       | 20515/78504 [12:28:38<31:32:46,  1.96s/it] 26%|██▌       | 20516/78504 [12:28:40<30:38:08,  1.90s/it]                                                           {'loss': 0.1128, 'grad_norm': 1.0907995700836182, 'learning_rate': 2.462613052524309e-05, 'epoch': 6.27}
 26%|██▌       | 20516/78504 [12:28:40<30:38:08,  1.90s/it] 26%|██▌       | 20517/78504 [12:28:42<29:21:53,  1.82s/it]                                                           {'loss': 0.1084, 'grad_norm': 0.9849863052368164, 'learning_rate': 2.462570591482315e-05, 'epoch': 6.27}
 26%|██▌       | 20517/78504 [12:28:42<29:21:53,  1.82s/it] 26%|██▌       | 20518/78504 [12:28:43<27:52:31,  1.73s/it]                                                           {'loss': 0.1698, 'grad_norm': 0.7069827318191528, 'learning_rate': 2.4625281304403212e-05, 'epoch': 6.27}
 26%|██▌       | 20518/78504 [12:28:43<27:52:31,  1.73s/it] 26%|██▌       | 20519/78504 [12:28:44<26:25:09,  1.64s/it]                                                           {'loss': 0.1555, 'grad_norm': 0.9225093722343445, 'learning_rate': 2.462485669398327e-05, 'epoch': 6.27}
 26%|██▌       | 20519/78504 [12:28:44<26:25:09,  1.64s/it] 26%|██▌       | 20520/78504 [12:28:46<25:19:38,  1.57s/it]                                                           {'loss': 0.1819, 'grad_norm': 0.6662130355834961, 'learning_rate': 2.4624432083563332e-05, 'epoch': 6.27}
 26%|██▌       | 20520/78504 [12:28:46<25:19:38,  1.57s/it] 26%|██▌       | 20521/78504 [12:28:47<23:57:14,  1.49s/it]                                                           {'loss': 0.1746, 'grad_norm': 2.3405823707580566, 'learning_rate': 2.462400747314339e-05, 'epoch': 6.27}
 26%|██▌       | 20521/78504 [12:28:47<23:57:14,  1.49s/it] 26%|██▌       | 20522/78504 [12:28:48<22:18:37,  1.39s/it]                                                           {'loss': 0.145, 'grad_norm': 0.7264167070388794, 'learning_rate': 2.4623582862723453e-05, 'epoch': 6.27}
 26%|██▌       | 20522/78504 [12:28:48<22:18:37,  1.39s/it] 26%|██▌       | 20523/78504 [12:28:49<20:56:55,  1.30s/it]                                                           {'loss': 0.1559, 'grad_norm': 0.8808690309524536, 'learning_rate': 2.4623158252303512e-05, 'epoch': 6.27}
 26%|██▌       | 20523/78504 [12:28:49<20:56:55,  1.30s/it] 26%|██▌       | 20524/78504 [12:28:50<19:46:24,  1.23s/it]                                                           {'loss': 0.1647, 'grad_norm': 1.1378982067108154, 'learning_rate': 2.4622733641883574e-05, 'epoch': 6.27}
 26%|██▌       | 20524/78504 [12:28:50<19:46:24,  1.23s/it] 26%|██▌       | 20525/78504 [12:28:51<18:22:46,  1.14s/it]                                                           {'loss': 0.1912, 'grad_norm': 1.0388157367706299, 'learning_rate': 2.4622309031463633e-05, 'epoch': 6.27}
 26%|██▌       | 20525/78504 [12:28:51<18:22:46,  1.14s/it] 26%|██▌       | 20526/78504 [12:28:52<16:37:50,  1.03s/it]                                                           {'loss': 0.1958, 'grad_norm': 2.374178409576416, 'learning_rate': 2.4621884421043695e-05, 'epoch': 6.28}
 26%|██▌       | 20526/78504 [12:28:52<16:37:50,  1.03s/it] 26%|██▌       | 20527/78504 [12:29:01<54:29:35,  3.38s/it]                                                           {'loss': 0.1526, 'grad_norm': 0.38017863035202026, 'learning_rate': 2.4621459810623754e-05, 'epoch': 6.28}
 26%|██▌       | 20527/78504 [12:29:01<54:29:35,  3.38s/it] 26%|██▌       | 20528/78504 [12:29:04<52:11:24,  3.24s/it]                                                           {'loss': 0.0889, 'grad_norm': 0.2916736304759979, 'learning_rate': 2.4621035200203816e-05, 'epoch': 6.28}
 26%|██▌       | 20528/78504 [12:29:04<52:11:24,  3.24s/it] 26%|██▌       | 20529/78504 [12:29:07<50:39:02,  3.15s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.5035272240638733, 'learning_rate': 2.4620610589783874e-05, 'epoch': 6.28}
 26%|██▌       | 20529/78504 [12:29:07<50:39:02,  3.15s/it] 26%|██▌       | 20530/78504 [12:29:09<47:54:24,  2.97s/it]                                                           {'loss': 0.0617, 'grad_norm': 2.2162024974823, 'learning_rate': 2.4620185979363933e-05, 'epoch': 6.28}
 26%|██▌       | 20530/78504 [12:29:09<47:54:24,  2.97s/it] 26%|██▌       | 20531/78504 [12:29:12<45:33:48,  2.83s/it]                                                           {'loss': 0.0456, 'grad_norm': 0.22445549070835114, 'learning_rate': 2.4619761368943995e-05, 'epoch': 6.28}
 26%|██▌       | 20531/78504 [12:29:12<45:33:48,  2.83s/it] 26%|██▌       | 20532/78504 [12:29:14<43:45:15,  2.72s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.2082822173833847, 'learning_rate': 2.4619336758524054e-05, 'epoch': 6.28}
 26%|██▌       | 20532/78504 [12:29:14<43:45:15,  2.72s/it] 26%|██▌       | 20533/78504 [12:29:17<41:49:33,  2.60s/it]                                                           {'loss': 0.0473, 'grad_norm': 0.3477279841899872, 'learning_rate': 2.4618912148104116e-05, 'epoch': 6.28}
 26%|██▌       | 20533/78504 [12:29:17<41:49:33,  2.60s/it] 26%|██▌       | 20534/78504 [12:29:19<40:25:45,  2.51s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.3551945686340332, 'learning_rate': 2.4618487537684175e-05, 'epoch': 6.28}
 26%|██▌       | 20534/78504 [12:29:19<40:25:45,  2.51s/it] 26%|██▌       | 20535/78504 [12:29:21<38:53:48,  2.42s/it]                                                           {'loss': 0.067, 'grad_norm': 0.44842466711997986, 'learning_rate': 2.4618062927264237e-05, 'epoch': 6.28}
 26%|██▌       | 20535/78504 [12:29:21<38:53:48,  2.42s/it] 26%|██▌       | 20536/78504 [12:29:23<37:41:19,  2.34s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.2340509593486786, 'learning_rate': 2.4617638316844295e-05, 'epoch': 6.28}
 26%|██▌       | 20536/78504 [12:29:23<37:41:19,  2.34s/it] 26%|██▌       | 20537/78504 [12:29:25<35:20:53,  2.20s/it]                                                           {'loss': 0.0786, 'grad_norm': 0.41659513115882874, 'learning_rate': 2.4617213706424357e-05, 'epoch': 6.28}
 26%|██▌       | 20537/78504 [12:29:25<35:20:53,  2.20s/it] 26%|██▌       | 20538/78504 [12:29:27<34:16:25,  2.13s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.8422670960426331, 'learning_rate': 2.4616789096004416e-05, 'epoch': 6.28}
 26%|██▌       | 20538/78504 [12:29:27<34:16:25,  2.13s/it] 26%|██▌       | 20539/78504 [12:29:29<33:07:01,  2.06s/it]                                                           {'loss': 0.0821, 'grad_norm': 0.8786563873291016, 'learning_rate': 2.4616364485584478e-05, 'epoch': 6.28}
 26%|██▌       | 20539/78504 [12:29:29<33:07:01,  2.06s/it] 26%|██▌       | 20540/78504 [12:29:31<32:09:51,  2.00s/it]                                                           {'loss': 0.1293, 'grad_norm': 0.6427392959594727, 'learning_rate': 2.4615939875164537e-05, 'epoch': 6.28}
 26%|██▌       | 20540/78504 [12:29:31<32:09:51,  2.00s/it] 26%|██▌       | 20541/78504 [12:29:33<31:01:33,  1.93s/it]                                                           {'loss': 0.1298, 'grad_norm': 1.0062838792800903, 'learning_rate': 2.4615515264744596e-05, 'epoch': 6.28}
 26%|██▌       | 20541/78504 [12:29:33<31:01:33,  1.93s/it] 26%|██▌       | 20542/78504 [12:29:34<29:44:04,  1.85s/it]                                                           {'loss': 0.153, 'grad_norm': 0.5200824737548828, 'learning_rate': 2.4615090654324658e-05, 'epoch': 6.28}
 26%|██▌       | 20542/78504 [12:29:34<29:44:04,  1.85s/it] 26%|██▌       | 20543/78504 [12:29:36<28:15:08,  1.75s/it]                                                           {'loss': 0.1631, 'grad_norm': 0.5701680183410645, 'learning_rate': 2.4614666043904716e-05, 'epoch': 6.28}
 26%|██▌       | 20543/78504 [12:29:36<28:15:08,  1.75s/it] 26%|██▌       | 20544/78504 [12:29:37<26:38:44,  1.66s/it]                                                           {'loss': 0.1787, 'grad_norm': 0.603046715259552, 'learning_rate': 2.461424143348478e-05, 'epoch': 6.28}
 26%|██▌       | 20544/78504 [12:29:37<26:38:44,  1.66s/it] 26%|██▌       | 20545/78504 [12:29:39<25:26:59,  1.58s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.8817220330238342, 'learning_rate': 2.4613816823064837e-05, 'epoch': 6.28}
 26%|██▌       | 20545/78504 [12:29:39<25:26:59,  1.58s/it] 26%|██▌       | 20546/78504 [12:29:40<23:43:03,  1.47s/it]                                                           {'loss': 0.175, 'grad_norm': 0.9578282833099365, 'learning_rate': 2.46133922126449e-05, 'epoch': 6.28}
 26%|██▌       | 20546/78504 [12:29:40<23:43:03,  1.47s/it] 26%|██▌       | 20547/78504 [12:29:41<22:05:39,  1.37s/it]                                                           {'loss': 0.1768, 'grad_norm': 0.7770274877548218, 'learning_rate': 2.4612967602224958e-05, 'epoch': 6.28}
 26%|██▌       | 20547/78504 [12:29:41<22:05:39,  1.37s/it] 26%|██▌       | 20548/78504 [12:29:42<20:45:39,  1.29s/it]                                                           {'loss': 0.1702, 'grad_norm': 0.5808359980583191, 'learning_rate': 2.461254299180502e-05, 'epoch': 6.28}
 26%|██▌       | 20548/78504 [12:29:42<20:45:39,  1.29s/it] 26%|██▌       | 20549/78504 [12:29:43<19:17:27,  1.20s/it]                                                           {'loss': 0.2104, 'grad_norm': 1.485681176185608, 'learning_rate': 2.461211838138508e-05, 'epoch': 6.28}
 26%|██▌       | 20549/78504 [12:29:43<19:17:27,  1.20s/it] 26%|██▌       | 20550/78504 [12:29:44<17:57:58,  1.12s/it]                                                           {'loss': 0.2005, 'grad_norm': 1.1663455963134766, 'learning_rate': 2.461169377096514e-05, 'epoch': 6.28}
 26%|██▌       | 20550/78504 [12:29:44<17:57:58,  1.12s/it] 26%|██▌       | 20551/78504 [12:29:45<16:20:41,  1.02s/it]                                                           {'loss': 0.2762, 'grad_norm': 3.701110601425171, 'learning_rate': 2.46112691605452e-05, 'epoch': 6.28}
 26%|██▌       | 20551/78504 [12:29:45<16:20:41,  1.02s/it] 26%|██▌       | 20552/78504 [12:29:54<54:15:25,  3.37s/it]                                                           {'loss': 0.1414, 'grad_norm': 0.5110062956809998, 'learning_rate': 2.4610844550125262e-05, 'epoch': 6.28}
 26%|██▌       | 20552/78504 [12:29:54<54:15:25,  3.37s/it] 26%|██▌       | 20553/78504 [12:29:57<54:10:23,  3.37s/it]                                                           {'loss': 0.0831, 'grad_norm': 1.519737720489502, 'learning_rate': 2.461041993970532e-05, 'epoch': 6.28}
 26%|██▌       | 20553/78504 [12:29:57<54:10:23,  3.37s/it] 26%|██▌       | 20554/78504 [12:30:00<52:00:34,  3.23s/it]                                                           {'loss': 0.0776, 'grad_norm': 0.5599533319473267, 'learning_rate': 2.460999532928538e-05, 'epoch': 6.28}
 26%|██▌       | 20554/78504 [12:30:00<52:00:34,  3.23s/it] 26%|██▌       | 20555/78504 [12:30:03<48:50:35,  3.03s/it]                                                           {'loss': 0.0478, 'grad_norm': 0.3613547384738922, 'learning_rate': 2.460957071886544e-05, 'epoch': 6.28}
 26%|██▌       | 20555/78504 [12:30:03<48:50:35,  3.03s/it] 26%|██▌       | 20556/78504 [12:30:05<46:11:55,  2.87s/it]                                                           {'loss': 0.0437, 'grad_norm': 0.257935494184494, 'learning_rate': 2.46091461084455e-05, 'epoch': 6.28}
 26%|██▌       | 20556/78504 [12:30:05<46:11:55,  2.87s/it] 26%|██▌       | 20557/78504 [12:30:08<44:03:14,  2.74s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.21573634445667267, 'learning_rate': 2.4608721498025562e-05, 'epoch': 6.28}
 26%|██▌       | 20557/78504 [12:30:08<44:03:14,  2.74s/it] 26%|██▌       | 20558/78504 [12:30:10<41:58:41,  2.61s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.2586638033390045, 'learning_rate': 2.460829688760562e-05, 'epoch': 6.28}
 26%|██▌       | 20558/78504 [12:30:10<41:58:41,  2.61s/it] 26%|██▌       | 20559/78504 [12:30:12<39:34:27,  2.46s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.4912983477115631, 'learning_rate': 2.4607872277185683e-05, 'epoch': 6.29}
 26%|██▌       | 20559/78504 [12:30:12<39:34:27,  2.46s/it] 26%|██▌       | 20560/78504 [12:30:14<38:13:28,  2.37s/it]                                                           {'loss': 0.0466, 'grad_norm': 1.028978943824768, 'learning_rate': 2.460744766676574e-05, 'epoch': 6.29}
 26%|██▌       | 20560/78504 [12:30:14<38:13:28,  2.37s/it] 26%|██▌       | 20561/78504 [12:30:16<37:11:03,  2.31s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.32856065034866333, 'learning_rate': 2.4607023056345804e-05, 'epoch': 6.29}
 26%|██▌       | 20561/78504 [12:30:16<37:11:03,  2.31s/it] 26%|██▌       | 20562/78504 [12:30:18<35:04:08,  2.18s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.30250054597854614, 'learning_rate': 2.4606598445925862e-05, 'epoch': 6.29}
 26%|██▌       | 20562/78504 [12:30:18<35:04:08,  2.18s/it] 26%|██▌       | 20563/78504 [12:30:20<34:12:15,  2.13s/it]                                                           {'loss': 0.1104, 'grad_norm': 0.5031628608703613, 'learning_rate': 2.4606173835505924e-05, 'epoch': 6.29}
 26%|██▌       | 20563/78504 [12:30:20<34:12:15,  2.13s/it] 26%|██▌       | 20564/78504 [12:30:22<33:10:44,  2.06s/it]                                                           {'loss': 0.1201, 'grad_norm': 0.7825090885162354, 'learning_rate': 2.4605749225085983e-05, 'epoch': 6.29}
 26%|██▌       | 20564/78504 [12:30:22<33:10:44,  2.06s/it] 26%|██▌       | 20565/78504 [12:30:24<32:18:55,  2.01s/it]                                                           {'loss': 0.1084, 'grad_norm': 0.48126354813575745, 'learning_rate': 2.4605324614666045e-05, 'epoch': 6.29}
 26%|██▌       | 20565/78504 [12:30:24<32:18:55,  2.01s/it] 26%|██▌       | 20566/78504 [12:30:26<31:08:08,  1.93s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.8235324025154114, 'learning_rate': 2.4604900004246104e-05, 'epoch': 6.29}
 26%|██▌       | 20566/78504 [12:30:26<31:08:08,  1.93s/it] 26%|██▌       | 20567/78504 [12:30:27<29:43:30,  1.85s/it]                                                           {'loss': 0.1393, 'grad_norm': 1.2460702657699585, 'learning_rate': 2.4604475393826163e-05, 'epoch': 6.29}
 26%|██▌       | 20567/78504 [12:30:27<29:43:30,  1.85s/it] 26%|██▌       | 20568/78504 [12:30:29<28:15:27,  1.76s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.5433230996131897, 'learning_rate': 2.4604050783406225e-05, 'epoch': 6.29}
 26%|██▌       | 20568/78504 [12:30:29<28:15:27,  1.76s/it] 26%|██▌       | 20569/78504 [12:30:30<27:06:14,  1.68s/it]                                                           {'loss': 0.1844, 'grad_norm': 1.5368655920028687, 'learning_rate': 2.4603626172986283e-05, 'epoch': 6.29}
 26%|██▌       | 20569/78504 [12:30:30<27:06:14,  1.68s/it] 26%|██▌       | 20570/78504 [12:30:32<25:46:57,  1.60s/it]                                                           {'loss': 0.2008, 'grad_norm': 2.4901227951049805, 'learning_rate': 2.4603201562566345e-05, 'epoch': 6.29}
 26%|██▌       | 20570/78504 [12:30:32<25:46:57,  1.60s/it] 26%|██▌       | 20571/78504 [12:30:33<24:15:12,  1.51s/it]                                                           {'loss': 0.1814, 'grad_norm': 1.2130221128463745, 'learning_rate': 2.4602776952146404e-05, 'epoch': 6.29}
 26%|██▌       | 20571/78504 [12:30:33<24:15:12,  1.51s/it] 26%|██▌       | 20572/78504 [12:30:34<22:31:15,  1.40s/it]                                                           {'loss': 0.1724, 'grad_norm': 1.7252039909362793, 'learning_rate': 2.4602352341726466e-05, 'epoch': 6.29}
 26%|██▌       | 20572/78504 [12:30:34<22:31:15,  1.40s/it] 26%|██▌       | 20573/78504 [12:30:35<21:05:00,  1.31s/it]                                                           {'loss': 0.1732, 'grad_norm': 1.013859510421753, 'learning_rate': 2.4601927731306525e-05, 'epoch': 6.29}
 26%|██▌       | 20573/78504 [12:30:35<21:05:00,  1.31s/it] 26%|██▌       | 20574/78504 [12:30:36<19:50:36,  1.23s/it]                                                           {'loss': 0.2275, 'grad_norm': 1.4870346784591675, 'learning_rate': 2.4601503120886587e-05, 'epoch': 6.29}
 26%|██▌       | 20574/78504 [12:30:36<19:50:36,  1.23s/it] 26%|██▌       | 20575/78504 [12:30:37<18:22:39,  1.14s/it]                                                           {'loss': 0.2415, 'grad_norm': 1.3030496835708618, 'learning_rate': 2.4601078510466646e-05, 'epoch': 6.29}
 26%|██▌       | 20575/78504 [12:30:37<18:22:39,  1.14s/it] 26%|██▌       | 20576/78504 [12:30:38<16:37:23,  1.03s/it]                                                           {'loss': 0.2182, 'grad_norm': 0.9679726362228394, 'learning_rate': 2.4600653900046708e-05, 'epoch': 6.29}
 26%|██▌       | 20576/78504 [12:30:38<16:37:23,  1.03s/it] 26%|██▌       | 20577/78504 [12:30:45<43:36:17,  2.71s/it]                                                           {'loss': 0.1506, 'grad_norm': 0.8472238183021545, 'learning_rate': 2.4600229289626766e-05, 'epoch': 6.29}
 26%|██▌       | 20577/78504 [12:30:45<43:36:17,  2.71s/it] 26%|██▌       | 20578/78504 [12:30:48<45:40:54,  2.84s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.5921621322631836, 'learning_rate': 2.459980467920683e-05, 'epoch': 6.29}
 26%|██▌       | 20578/78504 [12:30:48<45:40:54,  2.84s/it] 26%|██▌       | 20579/78504 [12:30:50<44:23:42,  2.76s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.5565490126609802, 'learning_rate': 2.4599380068786887e-05, 'epoch': 6.29}
 26%|██▌       | 20579/78504 [12:30:50<44:23:42,  2.76s/it] 26%|██▌       | 20580/78504 [12:30:53<42:46:04,  2.66s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.3953445553779602, 'learning_rate': 2.4598955458366946e-05, 'epoch': 6.29}
 26%|██▌       | 20580/78504 [12:30:53<42:46:04,  2.66s/it] 26%|██▌       | 20581/78504 [12:30:55<41:51:45,  2.60s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.14287282526493073, 'learning_rate': 2.4598530847947008e-05, 'epoch': 6.29}
 26%|██▌       | 20581/78504 [12:30:55<41:51:45,  2.60s/it] 26%|██▌       | 20582/78504 [12:30:58<41:08:16,  2.56s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.7322268486022949, 'learning_rate': 2.4598106237527067e-05, 'epoch': 6.29}
 26%|██▌       | 20582/78504 [12:30:58<41:08:16,  2.56s/it] 26%|██▌       | 20583/78504 [12:31:00<39:58:10,  2.48s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.22059392929077148, 'learning_rate': 2.459768162710713e-05, 'epoch': 6.29}
 26%|██▌       | 20583/78504 [12:31:00<39:58:10,  2.48s/it] 26%|██▌       | 20584/78504 [12:31:02<39:06:05,  2.43s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.2099466472864151, 'learning_rate': 2.4597257016687188e-05, 'epoch': 6.29}
 26%|██▌       | 20584/78504 [12:31:02<39:06:05,  2.43s/it] 26%|██▌       | 20585/78504 [12:31:05<37:56:41,  2.36s/it]                                                           {'loss': 0.0666, 'grad_norm': 1.0382838249206543, 'learning_rate': 2.459683240626725e-05, 'epoch': 6.29}
 26%|██▌       | 20585/78504 [12:31:05<37:56:41,  2.36s/it] 26%|██▌       | 20586/78504 [12:31:07<36:58:37,  2.30s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.39644548296928406, 'learning_rate': 2.459640779584731e-05, 'epoch': 6.29}
 26%|██▌       | 20586/78504 [12:31:07<36:58:37,  2.30s/it] 26%|██▌       | 20587/78504 [12:31:09<34:55:45,  2.17s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.3076232671737671, 'learning_rate': 2.459598318542737e-05, 'epoch': 6.29}
 26%|██▌       | 20587/78504 [12:31:09<34:55:45,  2.17s/it] 26%|██▌       | 20588/78504 [12:31:11<34:02:19,  2.12s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.3773645758628845, 'learning_rate': 2.459555857500743e-05, 'epoch': 6.29}
 26%|██▌       | 20588/78504 [12:31:11<34:02:19,  2.12s/it] 26%|██▌       | 20589/78504 [12:31:13<32:54:58,  2.05s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.33619147539138794, 'learning_rate': 2.459513396458749e-05, 'epoch': 6.29}
 26%|██▌       | 20589/78504 [12:31:13<32:54:58,  2.05s/it] 26%|██▌       | 20590/78504 [12:31:14<32:03:34,  1.99s/it]                                                           {'loss': 0.095, 'grad_norm': 0.5117653608322144, 'learning_rate': 2.4594709354167553e-05, 'epoch': 6.29}
 26%|██▌       | 20590/78504 [12:31:14<32:03:34,  1.99s/it] 26%|██▌       | 20591/78504 [12:31:16<30:55:35,  1.92s/it]                                                           {'loss': 0.1023, 'grad_norm': 0.5010021924972534, 'learning_rate': 2.4594284743747615e-05, 'epoch': 6.3}
 26%|██▌       | 20591/78504 [12:31:16<30:55:35,  1.92s/it] 26%|██▌       | 20592/78504 [12:31:18<29:34:39,  1.84s/it]                                                           {'loss': 0.1313, 'grad_norm': 0.7011531591415405, 'learning_rate': 2.4593860133327674e-05, 'epoch': 6.3}
 26%|██▌       | 20592/78504 [12:31:18<29:34:39,  1.84s/it] 26%|██▌       | 20593/78504 [12:31:19<28:08:27,  1.75s/it]                                                           {'loss': 0.1378, 'grad_norm': 0.5661648511886597, 'learning_rate': 2.4593435522907733e-05, 'epoch': 6.3}
 26%|██▌       | 20593/78504 [12:31:19<28:08:27,  1.75s/it] 26%|██▌       | 20594/78504 [12:31:21<26:47:34,  1.67s/it]                                                           {'loss': 0.1592, 'grad_norm': 0.940248966217041, 'learning_rate': 2.4593010912487795e-05, 'epoch': 6.3}
 26%|██▌       | 20594/78504 [12:31:21<26:47:34,  1.67s/it] 26%|██▌       | 20595/78504 [12:31:22<25:35:46,  1.59s/it]                                                           {'loss': 0.1264, 'grad_norm': 0.5201418995857239, 'learning_rate': 2.4592586302067854e-05, 'epoch': 6.3}
 26%|██▌       | 20595/78504 [12:31:22<25:35:46,  1.59s/it] 26%|██▌       | 20596/78504 [12:31:24<24:07:00,  1.50s/it]                                                           {'loss': 0.157, 'grad_norm': 1.1981229782104492, 'learning_rate': 2.4592161691647916e-05, 'epoch': 6.3}
 26%|██▌       | 20596/78504 [12:31:24<24:07:00,  1.50s/it] 26%|██▌       | 20597/78504 [12:31:25<22:42:13,  1.41s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.626494824886322, 'learning_rate': 2.4591737081227974e-05, 'epoch': 6.3}
 26%|██▌       | 20597/78504 [12:31:25<22:42:13,  1.41s/it] 26%|██▌       | 20598/78504 [12:31:26<21:09:57,  1.32s/it]                                                           {'loss': 0.1704, 'grad_norm': 0.9556162357330322, 'learning_rate': 2.4591312470808036e-05, 'epoch': 6.3}
 26%|██▌       | 20598/78504 [12:31:26<21:09:57,  1.32s/it] 26%|██▌       | 20599/78504 [12:31:27<19:53:43,  1.24s/it]                                                           {'loss': 0.1672, 'grad_norm': 1.36262845993042, 'learning_rate': 2.4590887860388095e-05, 'epoch': 6.3}
 26%|██▌       | 20599/78504 [12:31:27<19:53:43,  1.24s/it] 26%|██▌       | 20600/78504 [12:31:28<18:20:58,  1.14s/it]                                                           {'loss': 0.2065, 'grad_norm': 1.3679521083831787, 'learning_rate': 2.4590463249968157e-05, 'epoch': 6.3}
 26%|██▌       | 20600/78504 [12:31:28<18:20:58,  1.14s/it] 26%|██▌       | 20601/78504 [12:31:29<16:40:30,  1.04s/it]                                                           {'loss': 0.2026, 'grad_norm': 3.951383352279663, 'learning_rate': 2.4590038639548216e-05, 'epoch': 6.3}
 26%|██▌       | 20601/78504 [12:31:29<16:40:30,  1.04s/it] 26%|██▌       | 20602/78504 [12:31:36<47:12:37,  2.94s/it]                                                           {'loss': 0.1346, 'grad_norm': 0.2837997078895569, 'learning_rate': 2.4589614029128278e-05, 'epoch': 6.3}
 26%|██▌       | 20602/78504 [12:31:36<47:12:37,  2.94s/it] 26%|██▌       | 20603/78504 [12:31:39<48:58:14,  3.04s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.23962466418743134, 'learning_rate': 2.4589189418708337e-05, 'epoch': 6.3}
 26%|██▌       | 20603/78504 [12:31:39<48:58:14,  3.04s/it] 26%|██▌       | 20604/78504 [12:31:42<48:40:59,  3.03s/it]                                                           {'loss': 0.1082, 'grad_norm': 0.5052900314331055, 'learning_rate': 2.45887648082884e-05, 'epoch': 6.3}
 26%|██▌       | 20604/78504 [12:31:42<48:40:59,  3.03s/it] 26%|██▌       | 20605/78504 [12:31:45<46:39:41,  2.90s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.4810147285461426, 'learning_rate': 2.4588340197868458e-05, 'epoch': 6.3}
 26%|██▌       | 20605/78504 [12:31:45<46:39:41,  2.90s/it] 26%|██▌       | 20606/78504 [12:31:47<44:35:00,  2.77s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.5401982665061951, 'learning_rate': 2.4587915587448516e-05, 'epoch': 6.3}
 26%|██▌       | 20606/78504 [12:31:47<44:35:00,  2.77s/it] 26%|██▌       | 20607/78504 [12:31:50<42:55:16,  2.67s/it]                                                           {'loss': 0.045, 'grad_norm': 0.19769784808158875, 'learning_rate': 2.458749097702858e-05, 'epoch': 6.3}
 26%|██▌       | 20607/78504 [12:31:50<42:55:16,  2.67s/it] 26%|██▋       | 20608/78504 [12:31:52<41:13:05,  2.56s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.5537563562393188, 'learning_rate': 2.4587066366608637e-05, 'epoch': 6.3}
 26%|██▋       | 20608/78504 [12:31:52<41:13:05,  2.56s/it] 26%|██▋       | 20609/78504 [12:31:54<39:58:30,  2.49s/it]                                                           {'loss': 0.0572, 'grad_norm': 0.8241945505142212, 'learning_rate': 2.45866417561887e-05, 'epoch': 6.3}
 26%|██▋       | 20609/78504 [12:31:54<39:58:30,  2.49s/it] 26%|██▋       | 20610/78504 [12:31:57<38:29:24,  2.39s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.3160577416419983, 'learning_rate': 2.4586217145768758e-05, 'epoch': 6.3}
 26%|██▋       | 20610/78504 [12:31:57<38:29:24,  2.39s/it] 26%|██▋       | 20611/78504 [12:31:59<37:25:26,  2.33s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.3463614583015442, 'learning_rate': 2.458579253534882e-05, 'epoch': 6.3}
 26%|██▋       | 20611/78504 [12:31:59<37:25:26,  2.33s/it] 26%|██▋       | 20612/78504 [12:32:01<35:07:13,  2.18s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.970562756061554, 'learning_rate': 2.458536792492888e-05, 'epoch': 6.3}
 26%|██▋       | 20612/78504 [12:32:01<35:07:13,  2.18s/it] 26%|██▋       | 20613/78504 [12:32:03<34:11:08,  2.13s/it]                                                           {'loss': 0.0764, 'grad_norm': 0.4095824956893921, 'learning_rate': 2.458494331450894e-05, 'epoch': 6.3}
 26%|██▋       | 20613/78504 [12:32:03<34:11:08,  2.13s/it] 26%|██▋       | 20614/78504 [12:32:04<32:55:52,  2.05s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.3340032994747162, 'learning_rate': 2.4584518704089e-05, 'epoch': 6.3}
 26%|██▋       | 20614/78504 [12:32:04<32:55:52,  2.05s/it] 26%|██▋       | 20615/78504 [12:32:06<31:54:27,  1.98s/it]                                                           {'loss': 0.1265, 'grad_norm': 0.5890899300575256, 'learning_rate': 2.458409409366906e-05, 'epoch': 6.3}
 26%|██▋       | 20615/78504 [12:32:06<31:54:27,  1.98s/it] 26%|██▋       | 20616/78504 [12:32:08<30:55:22,  1.92s/it]                                                           {'loss': 0.099, 'grad_norm': 0.4970606863498688, 'learning_rate': 2.458366948324912e-05, 'epoch': 6.3}
 26%|██▋       | 20616/78504 [12:32:08<30:55:22,  1.92s/it] 26%|██▋       | 20617/78504 [12:32:10<29:35:14,  1.84s/it]                                                           {'loss': 0.1473, 'grad_norm': 0.5350572466850281, 'learning_rate': 2.4583244872829182e-05, 'epoch': 6.3}
 26%|██▋       | 20617/78504 [12:32:10<29:35:14,  1.84s/it] 26%|██▋       | 20618/78504 [12:32:11<28:07:58,  1.75s/it]                                                           {'loss': 0.1574, 'grad_norm': 1.008342981338501, 'learning_rate': 2.458282026240924e-05, 'epoch': 6.3}
 26%|██▋       | 20618/78504 [12:32:11<28:07:58,  1.75s/it] 26%|██▋       | 20619/78504 [12:32:13<26:45:38,  1.66s/it]                                                           {'loss': 0.1447, 'grad_norm': 0.7805175185203552, 'learning_rate': 2.45823956519893e-05, 'epoch': 6.3}
 26%|██▋       | 20619/78504 [12:32:13<26:45:38,  1.66s/it] 26%|██▋       | 20620/78504 [12:32:14<25:28:09,  1.58s/it]                                                           {'loss': 0.168, 'grad_norm': 0.8615054488182068, 'learning_rate': 2.4581971041569362e-05, 'epoch': 6.3}
 26%|██▋       | 20620/78504 [12:32:14<25:28:09,  1.58s/it] 26%|██▋       | 20621/78504 [12:32:15<24:04:44,  1.50s/it]                                                           {'loss': 0.1564, 'grad_norm': 1.2642954587936401, 'learning_rate': 2.458154643114942e-05, 'epoch': 6.3}
 26%|██▋       | 20621/78504 [12:32:15<24:04:44,  1.50s/it] 26%|██▋       | 20622/78504 [12:32:16<22:19:49,  1.39s/it]                                                           {'loss': 0.1439, 'grad_norm': 0.9221076369285583, 'learning_rate': 2.4581121820729483e-05, 'epoch': 6.3}
 26%|██▋       | 20622/78504 [12:32:17<22:19:49,  1.39s/it] 26%|██▋       | 20623/78504 [12:32:18<20:54:32,  1.30s/it]                                                           {'loss': 0.21, 'grad_norm': 0.9218765497207642, 'learning_rate': 2.458069721030954e-05, 'epoch': 6.3}
 26%|██▋       | 20623/78504 [12:32:18<20:54:32,  1.30s/it] 26%|██▋       | 20624/78504 [12:32:19<19:40:00,  1.22s/it]                                                           {'loss': 0.1822, 'grad_norm': 0.8245738744735718, 'learning_rate': 2.4580272599889603e-05, 'epoch': 6.31}
 26%|██▋       | 20624/78504 [12:32:19<19:40:00,  1.22s/it] 26%|██▋       | 20625/78504 [12:32:20<18:14:04,  1.13s/it]                                                           {'loss': 0.1802, 'grad_norm': 0.8447156548500061, 'learning_rate': 2.4579847989469662e-05, 'epoch': 6.31}
 26%|██▋       | 20625/78504 [12:32:20<18:14:04,  1.13s/it] 26%|██▋       | 20626/78504 [12:32:20<16:25:31,  1.02s/it]                                                           {'loss': 0.2252, 'grad_norm': 1.2079252004623413, 'learning_rate': 2.4579423379049724e-05, 'epoch': 6.31}
 26%|██▋       | 20626/78504 [12:32:20<16:25:31,  1.02s/it] 26%|██▋       | 20627/78504 [12:32:30<57:58:51,  3.61s/it]                                                           {'loss': 0.1383, 'grad_norm': 0.35744717717170715, 'learning_rate': 2.4578998768629783e-05, 'epoch': 6.31}
 26%|██▋       | 20627/78504 [12:32:30<57:58:51,  3.61s/it] 26%|██▋       | 20628/78504 [12:32:33<55:42:02,  3.46s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.5224502682685852, 'learning_rate': 2.4578574158209845e-05, 'epoch': 6.31}
 26%|██▋       | 20628/78504 [12:32:33<55:42:02,  3.46s/it] 26%|██▋       | 20629/78504 [12:32:36<53:31:39,  3.33s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.3353728950023651, 'learning_rate': 2.4578149547789904e-05, 'epoch': 6.31}
 26%|██▋       | 20629/78504 [12:32:36<53:31:39,  3.33s/it] 26%|██▋       | 20630/78504 [12:32:39<49:53:20,  3.10s/it]                                                           {'loss': 0.056, 'grad_norm': 0.22134660184383392, 'learning_rate': 2.4577724937369966e-05, 'epoch': 6.31}
 26%|██▋       | 20630/78504 [12:32:39<49:53:20,  3.10s/it] 26%|██▋       | 20631/78504 [12:32:41<46:50:19,  2.91s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.32569220662117004, 'learning_rate': 2.4577300326950024e-05, 'epoch': 6.31}
 26%|██▋       | 20631/78504 [12:32:41<46:50:19,  2.91s/it] 26%|██▋       | 20632/78504 [12:32:43<43:42:29,  2.72s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.18778513371944427, 'learning_rate': 2.4576875716530083e-05, 'epoch': 6.31}
 26%|██▋       | 20632/78504 [12:32:43<43:42:29,  2.72s/it] 26%|██▋       | 20633/78504 [12:32:46<41:45:10,  2.60s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.28508737683296204, 'learning_rate': 2.4576451106110145e-05, 'epoch': 6.31}
 26%|██▋       | 20633/78504 [12:32:46<41:45:10,  2.60s/it] 26%|██▋       | 20634/78504 [12:32:48<39:27:02,  2.45s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.273972749710083, 'learning_rate': 2.4576026495690204e-05, 'epoch': 6.31}
 26%|██▋       | 20634/78504 [12:32:48<39:27:02,  2.45s/it] 26%|██▋       | 20635/78504 [12:32:50<38:07:23,  2.37s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.3331663906574249, 'learning_rate': 2.4575601885270266e-05, 'epoch': 6.31}
 26%|██▋       | 20635/78504 [12:32:50<38:07:23,  2.37s/it] 26%|██▋       | 20636/78504 [12:32:52<37:02:06,  2.30s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.5940147042274475, 'learning_rate': 2.4575177274850325e-05, 'epoch': 6.31}
 26%|██▋       | 20636/78504 [12:32:52<37:02:06,  2.30s/it] 26%|██▋       | 20637/78504 [12:32:54<35:42:15,  2.22s/it]                                                           {'loss': 0.085, 'grad_norm': 0.23327326774597168, 'learning_rate': 2.4574752664430387e-05, 'epoch': 6.31}
 26%|██▋       | 20637/78504 [12:32:54<35:42:15,  2.22s/it] 26%|██▋       | 20638/78504 [12:32:56<33:38:19,  2.09s/it]                                                           {'loss': 0.0915, 'grad_norm': 0.27928027510643005, 'learning_rate': 2.4574328054010445e-05, 'epoch': 6.31}
 26%|██▋       | 20638/78504 [12:32:56<33:38:19,  2.09s/it] 26%|██▋       | 20639/78504 [12:32:58<32:30:11,  2.02s/it]                                                           {'loss': 0.0841, 'grad_norm': 1.98115873336792, 'learning_rate': 2.4573903443590508e-05, 'epoch': 6.31}
 26%|██▋       | 20639/78504 [12:32:58<32:30:11,  2.02s/it] 26%|██▋       | 20640/78504 [12:33:00<31:39:41,  1.97s/it]                                                           {'loss': 0.0902, 'grad_norm': 0.42020612955093384, 'learning_rate': 2.4573478833170566e-05, 'epoch': 6.31}
 26%|██▋       | 20640/78504 [12:33:00<31:39:41,  1.97s/it] 26%|██▋       | 20641/78504 [12:33:01<30:39:24,  1.91s/it]                                                           {'loss': 0.1308, 'grad_norm': 0.5758538246154785, 'learning_rate': 2.457305422275063e-05, 'epoch': 6.31}
 26%|██▋       | 20641/78504 [12:33:01<30:39:24,  1.91s/it] 26%|██▋       | 20642/78504 [12:33:03<29:23:48,  1.83s/it]                                                           {'loss': 0.1226, 'grad_norm': 0.3528634011745453, 'learning_rate': 2.4572629612330687e-05, 'epoch': 6.31}
 26%|██▋       | 20642/78504 [12:33:03<29:23:48,  1.83s/it] 26%|██▋       | 20643/78504 [12:33:05<27:54:22,  1.74s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.5203597545623779, 'learning_rate': 2.457220500191075e-05, 'epoch': 6.31}
 26%|██▋       | 20643/78504 [12:33:05<27:54:22,  1.74s/it] 26%|██▋       | 20644/78504 [12:33:06<26:26:55,  1.65s/it]                                                           {'loss': 0.152, 'grad_norm': 0.4377926290035248, 'learning_rate': 2.4571780391490808e-05, 'epoch': 6.31}
 26%|██▋       | 20644/78504 [12:33:06<26:26:55,  1.65s/it] 26%|██▋       | 20645/78504 [12:33:07<25:18:18,  1.57s/it]                                                           {'loss': 0.1368, 'grad_norm': 2.1450998783111572, 'learning_rate': 2.4571355781070867e-05, 'epoch': 6.31}
 26%|██▋       | 20645/78504 [12:33:07<25:18:18,  1.57s/it] 26%|██▋       | 20646/78504 [12:33:09<23:53:59,  1.49s/it]                                                           {'loss': 0.173, 'grad_norm': 0.9800832271575928, 'learning_rate': 2.457093117065093e-05, 'epoch': 6.31}
 26%|██▋       | 20646/78504 [12:33:09<23:53:59,  1.49s/it] 26%|██▋       | 20647/78504 [12:33:10<22:10:40,  1.38s/it]                                                           {'loss': 0.1517, 'grad_norm': 1.5519853830337524, 'learning_rate': 2.4570506560230987e-05, 'epoch': 6.31}
 26%|██▋       | 20647/78504 [12:33:10<22:10:40,  1.38s/it] 26%|██▋       | 20648/78504 [12:33:11<20:48:42,  1.29s/it]                                                           {'loss': 0.1604, 'grad_norm': 1.508379578590393, 'learning_rate': 2.457008194981105e-05, 'epoch': 6.31}
 26%|██▋       | 20648/78504 [12:33:11<20:48:42,  1.29s/it] 26%|██▋       | 20649/78504 [12:33:12<19:19:06,  1.20s/it]                                                           {'loss': 0.1553, 'grad_norm': 1.1199580430984497, 'learning_rate': 2.4569657339391108e-05, 'epoch': 6.31}
 26%|██▋       | 20649/78504 [12:33:12<19:19:06,  1.20s/it] 26%|██▋       | 20650/78504 [12:33:13<17:58:22,  1.12s/it]                                                           {'loss': 0.2098, 'grad_norm': 1.0097436904907227, 'learning_rate': 2.456923272897117e-05, 'epoch': 6.31}
 26%|██▋       | 20650/78504 [12:33:13<17:58:22,  1.12s/it] 26%|██▋       | 20651/78504 [12:33:14<16:25:06,  1.02s/it]                                                           {'loss': 0.2263, 'grad_norm': 1.8226103782653809, 'learning_rate': 2.456880811855123e-05, 'epoch': 6.31}
 26%|██▋       | 20651/78504 [12:33:14<16:25:06,  1.02s/it] 26%|██▋       | 20652/78504 [12:33:22<51:39:18,  3.21s/it]                                                           {'loss': 0.1465, 'grad_norm': 0.4581280052661896, 'learning_rate': 2.456838350813129e-05, 'epoch': 6.31}
 26%|██▋       | 20652/78504 [12:33:22<51:39:18,  3.21s/it] 26%|██▋       | 20653/78504 [12:33:25<51:50:46,  3.23s/it]                                                           {'loss': 0.0905, 'grad_norm': 0.6009646058082581, 'learning_rate': 2.456795889771135e-05, 'epoch': 6.31}
 26%|██▋       | 20653/78504 [12:33:25<51:50:46,  3.23s/it] 26%|██▋       | 20654/78504 [12:33:28<50:39:33,  3.15s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.3219684958457947, 'learning_rate': 2.4567534287291412e-05, 'epoch': 6.31}
 26%|██▋       | 20654/78504 [12:33:28<50:39:33,  3.15s/it] 26%|██▋       | 20655/78504 [12:33:31<47:07:25,  2.93s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.20476704835891724, 'learning_rate': 2.456710967687147e-05, 'epoch': 6.31}
 26%|██▋       | 20655/78504 [12:33:31<47:07:25,  2.93s/it] 26%|██▋       | 20656/78504 [12:33:33<44:55:13,  2.80s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.21086819469928741, 'learning_rate': 2.4566685066451533e-05, 'epoch': 6.31}
 26%|██▋       | 20656/78504 [12:33:33<44:55:13,  2.80s/it] 26%|██▋       | 20657/78504 [12:33:36<43:07:55,  2.68s/it]                                                           {'loss': 0.0373, 'grad_norm': 0.332366406917572, 'learning_rate': 2.456626045603159e-05, 'epoch': 6.32}
 26%|██▋       | 20657/78504 [12:33:36<43:07:55,  2.68s/it] 26%|██▋       | 20658/78504 [12:33:38<41:23:12,  2.58s/it]                                                           {'loss': 0.052, 'grad_norm': 0.18618114292621613, 'learning_rate': 2.456583584561165e-05, 'epoch': 6.32}
 26%|██▋       | 20658/78504 [12:33:38<41:23:12,  2.58s/it] 26%|██▋       | 20659/78504 [12:33:40<39:03:46,  2.43s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.23005954921245575, 'learning_rate': 2.4565411235191712e-05, 'epoch': 6.32}
 26%|██▋       | 20659/78504 [12:33:40<39:03:46,  2.43s/it] 26%|██▋       | 20660/78504 [12:33:42<37:52:50,  2.36s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.3353956341743469, 'learning_rate': 2.456498662477177e-05, 'epoch': 6.32}
 26%|██▋       | 20660/78504 [12:33:42<37:52:50,  2.36s/it] 26%|██▋       | 20661/78504 [12:33:44<36:52:04,  2.29s/it]                                                           {'loss': 0.0563, 'grad_norm': 0.2813246548175812, 'learning_rate': 2.4564562014351833e-05, 'epoch': 6.32}
 26%|██▋       | 20661/78504 [12:33:44<36:52:04,  2.29s/it] 26%|██▋       | 20662/78504 [12:33:46<35:22:45,  2.20s/it]                                                           {'loss': 0.0966, 'grad_norm': 0.5143972635269165, 'learning_rate': 2.456413740393189e-05, 'epoch': 6.32}
 26%|██▋       | 20662/78504 [12:33:46<35:22:45,  2.20s/it] 26%|██▋       | 20663/78504 [12:33:48<34:19:35,  2.14s/it]                                                           {'loss': 0.0757, 'grad_norm': 0.3341114819049835, 'learning_rate': 2.4563712793511954e-05, 'epoch': 6.32}
 26%|██▋       | 20663/78504 [12:33:48<34:19:35,  2.14s/it] 26%|██▋       | 20664/78504 [12:33:50<33:02:21,  2.06s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.35507798194885254, 'learning_rate': 2.4563288183092012e-05, 'epoch': 6.32}
 26%|██▋       | 20664/78504 [12:33:50<33:02:21,  2.06s/it] 26%|██▋       | 20665/78504 [12:33:52<32:00:10,  1.99s/it]                                                           {'loss': 0.1226, 'grad_norm': 0.9922248721122742, 'learning_rate': 2.4562863572672074e-05, 'epoch': 6.32}
 26%|██▋       | 20665/78504 [12:33:52<32:00:10,  1.99s/it] 26%|██▋       | 20666/78504 [12:33:54<30:56:30,  1.93s/it]                                                           {'loss': 0.0967, 'grad_norm': 0.4807116985321045, 'learning_rate': 2.4562438962252133e-05, 'epoch': 6.32}
 26%|██▋       | 20666/78504 [12:33:54<30:56:30,  1.93s/it] 26%|██▋       | 20667/78504 [12:33:55<29:36:52,  1.84s/it]                                                           {'loss': 0.1273, 'grad_norm': 0.9948383569717407, 'learning_rate': 2.4562014351832195e-05, 'epoch': 6.32}
 26%|██▋       | 20667/78504 [12:33:55<29:36:52,  1.84s/it] 26%|██▋       | 20668/78504 [12:33:57<28:07:49,  1.75s/it]                                                           {'loss': 0.1348, 'grad_norm': 0.360777884721756, 'learning_rate': 2.4561589741412254e-05, 'epoch': 6.32}
 26%|██▋       | 20668/78504 [12:33:57<28:07:49,  1.75s/it] 26%|██▋       | 20669/78504 [12:33:58<26:46:06,  1.67s/it]                                                           {'loss': 0.1451, 'grad_norm': 0.38129696249961853, 'learning_rate': 2.4561165130992313e-05, 'epoch': 6.32}
 26%|██▋       | 20669/78504 [12:33:58<26:46:06,  1.67s/it] 26%|██▋       | 20670/78504 [12:34:00<25:28:43,  1.59s/it]                                                           {'loss': 0.1839, 'grad_norm': 0.5303404927253723, 'learning_rate': 2.4560740520572375e-05, 'epoch': 6.32}
 26%|██▋       | 20670/78504 [12:34:00<25:28:43,  1.59s/it] 26%|██▋       | 20671/78504 [12:34:01<24:00:24,  1.49s/it]                                                           {'loss': 0.1717, 'grad_norm': 0.8339914083480835, 'learning_rate': 2.4560315910152433e-05, 'epoch': 6.32}
 26%|██▋       | 20671/78504 [12:34:01<24:00:24,  1.49s/it] 26%|██▋       | 20672/78504 [12:34:02<22:19:34,  1.39s/it]                                                           {'loss': 0.1501, 'grad_norm': 1.5652018785476685, 'learning_rate': 2.4559891299732495e-05, 'epoch': 6.32}
 26%|██▋       | 20672/78504 [12:34:02<22:19:34,  1.39s/it] 26%|██▋       | 20673/78504 [12:34:03<20:54:31,  1.30s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.7208895087242126, 'learning_rate': 2.4559466689312554e-05, 'epoch': 6.32}
 26%|██▋       | 20673/78504 [12:34:03<20:54:31,  1.30s/it] 26%|██▋       | 20674/78504 [12:34:04<19:42:18,  1.23s/it]                                                           {'loss': 0.1708, 'grad_norm': 1.7053261995315552, 'learning_rate': 2.4559042078892616e-05, 'epoch': 6.32}
 26%|██▋       | 20674/78504 [12:34:04<19:42:18,  1.23s/it] 26%|██▋       | 20675/78504 [12:34:05<18:18:20,  1.14s/it]                                                           {'loss': 0.2237, 'grad_norm': 2.1989877223968506, 'learning_rate': 2.4558617468472675e-05, 'epoch': 6.32}
 26%|██▋       | 20675/78504 [12:34:05<18:18:20,  1.14s/it] 26%|██▋       | 20676/78504 [12:34:06<16:36:29,  1.03s/it]                                                           {'loss': 0.2243, 'grad_norm': 0.9788371324539185, 'learning_rate': 2.4558192858052737e-05, 'epoch': 6.32}
 26%|██▋       | 20676/78504 [12:34:06<16:36:29,  1.03s/it] 26%|██▋       | 20677/78504 [12:34:15<52:14:51,  3.25s/it]                                                           {'loss': 0.1352, 'grad_norm': 0.4325160086154938, 'learning_rate': 2.4557768247632796e-05, 'epoch': 6.32}
 26%|██▋       | 20677/78504 [12:34:15<52:14:51,  3.25s/it] 26%|██▋       | 20678/78504 [12:34:18<52:42:22,  3.28s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.39763376116752625, 'learning_rate': 2.4557343637212858e-05, 'epoch': 6.32}
 26%|██▋       | 20678/78504 [12:34:18<52:42:22,  3.28s/it] 26%|██▋       | 20679/78504 [12:34:20<49:15:04,  3.07s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.20961564779281616, 'learning_rate': 2.4556919026792917e-05, 'epoch': 6.32}
 26%|██▋       | 20679/78504 [12:34:20<49:15:04,  3.07s/it] 26%|██▋       | 20680/78504 [12:34:23<47:03:34,  2.93s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.39249399304389954, 'learning_rate': 2.455649441637298e-05, 'epoch': 6.32}
 26%|██▋       | 20680/78504 [12:34:23<47:03:34,  2.93s/it] 26%|██▋       | 20681/78504 [12:34:26<44:49:30,  2.79s/it]                                                           {'loss': 0.0523, 'grad_norm': 0.31461864709854126, 'learning_rate': 2.4556069805953037e-05, 'epoch': 6.32}
 26%|██▋       | 20681/78504 [12:34:26<44:49:30,  2.79s/it] 26%|██▋       | 20682/78504 [12:34:28<42:18:43,  2.63s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.3155258297920227, 'learning_rate': 2.4555645195533096e-05, 'epoch': 6.32}
 26%|██▋       | 20682/78504 [12:34:28<42:18:43,  2.63s/it] 26%|██▋       | 20683/78504 [12:34:30<40:43:54,  2.54s/it]                                                           {'loss': 0.0424, 'grad_norm': 0.1866508275270462, 'learning_rate': 2.4555220585113158e-05, 'epoch': 6.32}
 26%|██▋       | 20683/78504 [12:34:30<40:43:54,  2.54s/it] 26%|██▋       | 20684/78504 [12:34:32<38:42:04,  2.41s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.35070833563804626, 'learning_rate': 2.4554795974693217e-05, 'epoch': 6.32}
 26%|██▋       | 20684/78504 [12:34:32<38:42:04,  2.41s/it] 26%|██▋       | 20685/78504 [12:34:34<36:53:02,  2.30s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.9568943977355957, 'learning_rate': 2.455437136427328e-05, 'epoch': 6.32}
 26%|██▋       | 20685/78504 [12:34:34<36:53:02,  2.30s/it] 26%|██▋       | 20686/78504 [12:34:36<36:07:05,  2.25s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.45156583189964294, 'learning_rate': 2.4553946753853338e-05, 'epoch': 6.32}
 26%|██▋       | 20686/78504 [12:34:36<36:07:05,  2.25s/it] 26%|██▋       | 20687/78504 [12:34:38<35:01:54,  2.18s/it]                                                           {'loss': 0.1364, 'grad_norm': 0.4691314697265625, 'learning_rate': 2.45535221434334e-05, 'epoch': 6.32}
 26%|██▋       | 20687/78504 [12:34:38<35:01:54,  2.18s/it] 26%|██▋       | 20688/78504 [12:34:40<34:02:56,  2.12s/it]                                                           {'loss': 0.076, 'grad_norm': 0.3992782235145569, 'learning_rate': 2.455309753301346e-05, 'epoch': 6.32}
 26%|██▋       | 20688/78504 [12:34:40<34:02:56,  2.12s/it] 26%|██▋       | 20689/78504 [12:34:42<33:05:06,  2.06s/it]                                                           {'loss': 0.0807, 'grad_norm': 0.21582773327827454, 'learning_rate': 2.455267292259352e-05, 'epoch': 6.32}
 26%|██▋       | 20689/78504 [12:34:42<33:05:06,  2.06s/it] 26%|██▋       | 20690/78504 [12:34:44<32:07:38,  2.00s/it]                                                           {'loss': 0.114, 'grad_norm': 0.6696636080741882, 'learning_rate': 2.455224831217358e-05, 'epoch': 6.33}
 26%|██▋       | 20690/78504 [12:34:44<32:07:38,  2.00s/it] 26%|██▋       | 20691/78504 [12:34:46<30:56:34,  1.93s/it]                                                           {'loss': 0.1076, 'grad_norm': 0.43466562032699585, 'learning_rate': 2.455182370175364e-05, 'epoch': 6.33}
 26%|██▋       | 20691/78504 [12:34:46<30:56:34,  1.93s/it] 26%|██▋       | 20692/78504 [12:34:48<29:35:36,  1.84s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.4800623059272766, 'learning_rate': 2.4551399091333703e-05, 'epoch': 6.33}
 26%|██▋       | 20692/78504 [12:34:48<29:35:36,  1.84s/it] 26%|██▋       | 20693/78504 [12:34:49<28:08:10,  1.75s/it]                                                           {'loss': 0.1244, 'grad_norm': 0.4984884560108185, 'learning_rate': 2.4550974480913765e-05, 'epoch': 6.33}
 26%|██▋       | 20693/78504 [12:34:49<28:08:10,  1.75s/it] 26%|██▋       | 20694/78504 [12:34:51<26:46:14,  1.67s/it]                                                           {'loss': 0.1488, 'grad_norm': 0.730692446231842, 'learning_rate': 2.4550549870493824e-05, 'epoch': 6.33}
 26%|██▋       | 20694/78504 [12:34:51<26:46:14,  1.67s/it] 26%|██▋       | 20695/78504 [12:34:52<25:26:29,  1.58s/it]                                                           {'loss': 0.1822, 'grad_norm': 0.5954033732414246, 'learning_rate': 2.4550125260073883e-05, 'epoch': 6.33}
 26%|██▋       | 20695/78504 [12:34:52<25:26:29,  1.58s/it] 26%|██▋       | 20696/78504 [12:34:53<23:59:14,  1.49s/it]                                                           {'loss': 0.1643, 'grad_norm': 0.6148799657821655, 'learning_rate': 2.4549700649653945e-05, 'epoch': 6.33}
 26%|██▋       | 20696/78504 [12:34:53<23:59:14,  1.49s/it] 26%|██▋       | 20697/78504 [12:34:54<22:19:46,  1.39s/it]                                                           {'loss': 0.1451, 'grad_norm': 0.808568000793457, 'learning_rate': 2.4549276039234004e-05, 'epoch': 6.33}
 26%|██▋       | 20697/78504 [12:34:54<22:19:46,  1.39s/it] 26%|██▋       | 20698/78504 [12:34:56<20:56:01,  1.30s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.4807569086551666, 'learning_rate': 2.4548851428814066e-05, 'epoch': 6.33}
 26%|██▋       | 20698/78504 [12:34:56<20:56:01,  1.30s/it] 26%|██▋       | 20699/78504 [12:34:57<19:22:47,  1.21s/it]                                                           {'loss': 0.174, 'grad_norm': 0.930526614189148, 'learning_rate': 2.4548426818394124e-05, 'epoch': 6.33}
 26%|██▋       | 20699/78504 [12:34:57<19:22:47,  1.21s/it] 26%|██▋       | 20700/78504 [12:34:57<18:03:26,  1.12s/it]                                                           {'loss': 0.1877, 'grad_norm': 1.6664994955062866, 'learning_rate': 2.4548002207974186e-05, 'epoch': 6.33}
 26%|██▋       | 20700/78504 [12:34:57<18:03:26,  1.12s/it] 26%|██▋       | 20701/78504 [12:34:58<16:24:42,  1.02s/it]                                                           {'loss': 0.2723, 'grad_norm': 0.9991376996040344, 'learning_rate': 2.4547577597554245e-05, 'epoch': 6.33}
 26%|██▋       | 20701/78504 [12:34:58<16:24:42,  1.02s/it] 26%|██▋       | 20702/78504 [12:35:07<52:04:39,  3.24s/it]                                                           {'loss': 0.1233, 'grad_norm': 0.5056381821632385, 'learning_rate': 2.4547152987134307e-05, 'epoch': 6.33}
 26%|██▋       | 20702/78504 [12:35:07<52:04:39,  3.24s/it] 26%|██▋       | 20703/78504 [12:35:10<51:08:29,  3.19s/it]                                                           {'loss': 0.1002, 'grad_norm': 0.24575479328632355, 'learning_rate': 2.4546728376714366e-05, 'epoch': 6.33}
 26%|██▋       | 20703/78504 [12:35:10<51:08:29,  3.19s/it] 26%|██▋       | 20704/78504 [12:35:13<50:18:48,  3.13s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.712785005569458, 'learning_rate': 2.4546303766294428e-05, 'epoch': 6.33}
 26%|██▋       | 20704/78504 [12:35:13<50:18:48,  3.13s/it] 26%|██▋       | 20705/78504 [12:35:15<47:47:23,  2.98s/it]                                                           {'loss': 0.0388, 'grad_norm': 0.26045116782188416, 'learning_rate': 2.4545879155874487e-05, 'epoch': 6.33}
 26%|██▋       | 20705/78504 [12:35:15<47:47:23,  2.98s/it] 26%|██▋       | 20706/78504 [12:35:18<45:20:55,  2.82s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.2323751002550125, 'learning_rate': 2.454545454545455e-05, 'epoch': 6.33}
 26%|██▋       | 20706/78504 [12:35:18<45:20:55,  2.82s/it] 26%|██▋       | 20707/78504 [12:35:20<43:24:44,  2.70s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.11217483133077621, 'learning_rate': 2.4545029935034608e-05, 'epoch': 6.33}
 26%|██▋       | 20707/78504 [12:35:20<43:24:44,  2.70s/it] 26%|██▋       | 20708/78504 [12:35:23<41:32:53,  2.59s/it]                                                           {'loss': 0.063, 'grad_norm': 0.42428502440452576, 'learning_rate': 2.4544605324614666e-05, 'epoch': 6.33}
 26%|██▋       | 20708/78504 [12:35:23<41:32:53,  2.59s/it] 26%|██▋       | 20709/78504 [12:35:25<39:08:35,  2.44s/it]                                                           {'loss': 0.045, 'grad_norm': 0.16802555322647095, 'learning_rate': 2.454418071419473e-05, 'epoch': 6.33}
 26%|██▋       | 20709/78504 [12:35:25<39:08:35,  2.44s/it] 26%|██▋       | 20710/78504 [12:35:27<37:53:37,  2.36s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.20309320092201233, 'learning_rate': 2.4543756103774787e-05, 'epoch': 6.33}
 26%|██▋       | 20710/78504 [12:35:27<37:53:37,  2.36s/it] 26%|██▋       | 20711/78504 [12:35:29<36:51:19,  2.30s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.5917788743972778, 'learning_rate': 2.454333149335485e-05, 'epoch': 6.33}
 26%|██▋       | 20711/78504 [12:35:29<36:51:19,  2.30s/it] 26%|██▋       | 20712/78504 [12:35:31<35:31:39,  2.21s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.3148867189884186, 'learning_rate': 2.4542906882934908e-05, 'epoch': 6.33}
 26%|██▋       | 20712/78504 [12:35:31<35:31:39,  2.21s/it] 26%|██▋       | 20713/78504 [12:35:33<33:30:36,  2.09s/it]                                                           {'loss': 0.0968, 'grad_norm': 1.3999415636062622, 'learning_rate': 2.454248227251497e-05, 'epoch': 6.33}
 26%|██▋       | 20713/78504 [12:35:33<33:30:36,  2.09s/it] 26%|██▋       | 20714/78504 [12:35:35<32:25:19,  2.02s/it]                                                           {'loss': 0.1202, 'grad_norm': 0.7691846489906311, 'learning_rate': 2.454205766209503e-05, 'epoch': 6.33}
 26%|██▋       | 20714/78504 [12:35:35<32:25:19,  2.02s/it] 26%|██▋       | 20715/78504 [12:35:36<30:58:20,  1.93s/it]                                                           {'loss': 0.0949, 'grad_norm': 0.3591379225254059, 'learning_rate': 2.454163305167509e-05, 'epoch': 6.33}
 26%|██▋       | 20715/78504 [12:35:36<30:58:20,  1.93s/it] 26%|██▋       | 20716/78504 [12:35:38<30:10:05,  1.88s/it]                                                           {'loss': 0.1215, 'grad_norm': 0.4425278902053833, 'learning_rate': 2.454120844125515e-05, 'epoch': 6.33}
 26%|██▋       | 20716/78504 [12:35:38<30:10:05,  1.88s/it] 26%|██▋       | 20717/78504 [12:35:40<29:01:34,  1.81s/it]                                                           {'loss': 0.1613, 'grad_norm': 0.7344486117362976, 'learning_rate': 2.454078383083521e-05, 'epoch': 6.33}
 26%|██▋       | 20717/78504 [12:35:40<29:01:34,  1.81s/it] 26%|██▋       | 20718/78504 [12:35:41<27:36:34,  1.72s/it]                                                           {'loss': 0.1513, 'grad_norm': 0.37918445467948914, 'learning_rate': 2.454035922041527e-05, 'epoch': 6.33}
 26%|██▋       | 20718/78504 [12:35:41<27:36:34,  1.72s/it] 26%|██▋       | 20719/78504 [12:35:43<26:11:26,  1.63s/it]                                                           {'loss': 0.1305, 'grad_norm': 0.8392148613929749, 'learning_rate': 2.4539934609995332e-05, 'epoch': 6.33}
 26%|██▋       | 20719/78504 [12:35:43<26:11:26,  1.63s/it] 26%|██▋       | 20720/78504 [12:35:44<25:06:38,  1.56s/it]                                                           {'loss': 0.1377, 'grad_norm': 0.9530242681503296, 'learning_rate': 2.453950999957539e-05, 'epoch': 6.33}
 26%|██▋       | 20720/78504 [12:35:44<25:06:38,  1.56s/it] 26%|██▋       | 20721/78504 [12:35:45<23:26:28,  1.46s/it]                                                           {'loss': 0.1379, 'grad_norm': 0.8755111694335938, 'learning_rate': 2.453908538915545e-05, 'epoch': 6.33}
 26%|██▋       | 20721/78504 [12:35:45<23:26:28,  1.46s/it] 26%|██▋       | 20722/78504 [12:35:46<22:01:46,  1.37s/it]                                                           {'loss': 0.1687, 'grad_norm': 2.222134590148926, 'learning_rate': 2.4538660778735512e-05, 'epoch': 6.34}
 26%|██▋       | 20722/78504 [12:35:46<22:01:46,  1.37s/it] 26%|██▋       | 20723/78504 [12:35:48<20:38:54,  1.29s/it]                                                           {'loss': 0.2013, 'grad_norm': 1.2035216093063354, 'learning_rate': 2.453823616831557e-05, 'epoch': 6.34}
 26%|██▋       | 20723/78504 [12:35:48<20:38:54,  1.29s/it] 26%|██▋       | 20724/78504 [12:35:49<19:15:07,  1.20s/it]                                                           {'loss': 0.1775, 'grad_norm': 3.0631656646728516, 'learning_rate': 2.4537811557895633e-05, 'epoch': 6.34}
 26%|██▋       | 20724/78504 [12:35:49<19:15:07,  1.20s/it] 26%|██▋       | 20725/78504 [12:35:50<18:00:35,  1.12s/it]                                                           {'loss': 0.1893, 'grad_norm': 2.9048237800598145, 'learning_rate': 2.453738694747569e-05, 'epoch': 6.34}
 26%|██▋       | 20725/78504 [12:35:50<18:00:35,  1.12s/it] 26%|██▋       | 20726/78504 [12:35:50<17:18:38,  1.08s/it]                                                           {'loss': 0.2678, 'grad_norm': 2.0024354457855225, 'learning_rate': 2.4536962337055753e-05, 'epoch': 6.34}
 26%|██▋       | 20726/78504 [12:35:50<17:18:38,  1.08s/it] 26%|██▋       | 20727/78504 [12:35:58<50:00:26,  3.12s/it]                                                           {'loss': 0.1313, 'grad_norm': 0.4606305658817291, 'learning_rate': 2.4536537726635812e-05, 'epoch': 6.34}
 26%|██▋       | 20727/78504 [12:35:58<50:00:26,  3.12s/it] 26%|██▋       | 20728/78504 [12:36:01<49:49:47,  3.10s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.6858883500099182, 'learning_rate': 2.4536113116215874e-05, 'epoch': 6.34}
 26%|██▋       | 20728/78504 [12:36:01<49:49:47,  3.10s/it] 26%|██▋       | 20729/78504 [12:36:04<49:21:21,  3.08s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.252150297164917, 'learning_rate': 2.4535688505795933e-05, 'epoch': 6.34}
 26%|██▋       | 20729/78504 [12:36:04<49:21:21,  3.08s/it] 26%|██▋       | 20730/78504 [12:36:07<47:08:25,  2.94s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.29252558946609497, 'learning_rate': 2.4535263895375995e-05, 'epoch': 6.34}
 26%|██▋       | 20730/78504 [12:36:07<47:08:25,  2.94s/it] 26%|██▋       | 20731/78504 [12:36:10<44:51:23,  2.80s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.2432592362165451, 'learning_rate': 2.4534839284956054e-05, 'epoch': 6.34}
 26%|██▋       | 20731/78504 [12:36:10<44:51:23,  2.80s/it] 26%|██▋       | 20732/78504 [12:36:12<42:21:02,  2.64s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.3308227062225342, 'learning_rate': 2.4534414674536116e-05, 'epoch': 6.34}
 26%|██▋       | 20732/78504 [12:36:12<42:21:02,  2.64s/it] 26%|██▋       | 20733/78504 [12:36:14<40:47:29,  2.54s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.4596160054206848, 'learning_rate': 2.4533990064116174e-05, 'epoch': 6.34}
 26%|██▋       | 20733/78504 [12:36:14<40:47:29,  2.54s/it] 26%|██▋       | 20734/78504 [12:36:16<38:42:31,  2.41s/it]                                                           {'loss': 0.0389, 'grad_norm': 0.1775357723236084, 'learning_rate': 2.4533565453696233e-05, 'epoch': 6.34}
 26%|██▋       | 20734/78504 [12:36:16<38:42:31,  2.41s/it] 26%|██▋       | 20735/78504 [12:36:18<37:36:47,  2.34s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.301155149936676, 'learning_rate': 2.4533140843276295e-05, 'epoch': 6.34}
 26%|██▋       | 20735/78504 [12:36:18<37:36:47,  2.34s/it] 26%|██▋       | 20736/78504 [12:36:21<36:37:18,  2.28s/it]                                                           {'loss': 0.0759, 'grad_norm': 1.173912763595581, 'learning_rate': 2.4532716232856354e-05, 'epoch': 6.34}
 26%|██▋       | 20736/78504 [12:36:21<36:37:18,  2.28s/it] 26%|██▋       | 20737/78504 [12:36:23<35:20:39,  2.20s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.6503285765647888, 'learning_rate': 2.4532291622436416e-05, 'epoch': 6.34}
 26%|██▋       | 20737/78504 [12:36:23<35:20:39,  2.20s/it] 26%|██▋       | 20738/78504 [12:36:25<34:15:47,  2.14s/it]                                                           {'loss': 0.0965, 'grad_norm': 0.22250650823116302, 'learning_rate': 2.4531867012016475e-05, 'epoch': 6.34}
 26%|██▋       | 20738/78504 [12:36:25<34:15:47,  2.14s/it] 26%|██▋       | 20739/78504 [12:36:26<32:58:12,  2.05s/it]                                                           {'loss': 0.0936, 'grad_norm': 0.35069698095321655, 'learning_rate': 2.4531442401596537e-05, 'epoch': 6.34}
 26%|██▋       | 20739/78504 [12:36:26<32:58:12,  2.05s/it] 26%|██▋       | 20740/78504 [12:36:28<32:02:52,  2.00s/it]                                                           {'loss': 0.143, 'grad_norm': 0.8836945295333862, 'learning_rate': 2.4531017791176595e-05, 'epoch': 6.34}
 26%|██▋       | 20740/78504 [12:36:28<32:02:52,  2.00s/it] 26%|██▋       | 20741/78504 [12:36:30<30:44:04,  1.92s/it]                                                           {'loss': 0.0915, 'grad_norm': 0.894981324672699, 'learning_rate': 2.4530593180756658e-05, 'epoch': 6.34}
 26%|██▋       | 20741/78504 [12:36:30<30:44:04,  1.92s/it] 26%|██▋       | 20742/78504 [12:36:32<29:24:48,  1.83s/it]                                                           {'loss': 0.134, 'grad_norm': 0.35233303904533386, 'learning_rate': 2.4530168570336716e-05, 'epoch': 6.34}
 26%|██▋       | 20742/78504 [12:36:32<29:24:48,  1.83s/it] 26%|██▋       | 20743/78504 [12:36:33<28:02:10,  1.75s/it]                                                           {'loss': 0.1609, 'grad_norm': 1.5254148244857788, 'learning_rate': 2.452974395991678e-05, 'epoch': 6.34}
 26%|██▋       | 20743/78504 [12:36:33<28:02:10,  1.75s/it] 26%|██▋       | 20744/78504 [12:36:35<26:39:49,  1.66s/it]                                                           {'loss': 0.1462, 'grad_norm': 2.1809418201446533, 'learning_rate': 2.4529319349496837e-05, 'epoch': 6.34}
 26%|██▋       | 20744/78504 [12:36:35<26:39:49,  1.66s/it] 26%|██▋       | 20745/78504 [12:36:36<25:27:25,  1.59s/it]                                                           {'loss': 0.1651, 'grad_norm': 0.7249935269355774, 'learning_rate': 2.45288947390769e-05, 'epoch': 6.34}
 26%|██▋       | 20745/78504 [12:36:36<25:27:25,  1.59s/it] 26%|██▋       | 20746/78504 [12:36:37<23:39:23,  1.47s/it]                                                           {'loss': 0.1714, 'grad_norm': 0.6359952092170715, 'learning_rate': 2.4528470128656958e-05, 'epoch': 6.34}
 26%|██▋       | 20746/78504 [12:36:37<23:39:23,  1.47s/it] 26%|██▋       | 20747/78504 [12:36:38<22:06:22,  1.38s/it]                                                           {'loss': 0.1768, 'grad_norm': 1.4797629117965698, 'learning_rate': 2.4528045518237017e-05, 'epoch': 6.34}
 26%|██▋       | 20747/78504 [12:36:38<22:06:22,  1.38s/it] 26%|██▋       | 20748/78504 [12:36:40<20:45:24,  1.29s/it]                                                           {'loss': 0.1703, 'grad_norm': 0.7335125803947449, 'learning_rate': 2.452762090781708e-05, 'epoch': 6.34}
 26%|██▋       | 20748/78504 [12:36:40<20:45:24,  1.29s/it] 26%|██▋       | 20749/78504 [12:36:41<19:39:31,  1.23s/it]                                                           {'loss': 0.1895, 'grad_norm': 3.1622724533081055, 'learning_rate': 2.4527196297397137e-05, 'epoch': 6.34}
 26%|██▋       | 20749/78504 [12:36:41<19:39:31,  1.23s/it] 26%|██▋       | 20750/78504 [12:36:41<18:12:53,  1.14s/it]                                                           {'loss': 0.2027, 'grad_norm': 0.7952778935432434, 'learning_rate': 2.45267716869772e-05, 'epoch': 6.34}
 26%|██▋       | 20750/78504 [12:36:42<18:12:53,  1.14s/it] 26%|██▋       | 20751/78504 [12:36:42<16:29:11,  1.03s/it]                                                           {'loss': 0.2534, 'grad_norm': 1.5136553049087524, 'learning_rate': 2.4526347076557258e-05, 'epoch': 6.34}
 26%|██▋       | 20751/78504 [12:36:42<16:29:11,  1.03s/it] 26%|██▋       | 20752/78504 [12:36:50<50:36:20,  3.15s/it]                                                           {'loss': 0.1391, 'grad_norm': 0.5944880247116089, 'learning_rate': 2.452592246613732e-05, 'epoch': 6.34}
 26%|██▋       | 20752/78504 [12:36:50<50:36:20,  3.15s/it] 26%|██▋       | 20753/78504 [12:36:54<51:04:43,  3.18s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.18037955462932587, 'learning_rate': 2.452549785571738e-05, 'epoch': 6.34}
 26%|██▋       | 20753/78504 [12:36:54<51:04:43,  3.18s/it] 26%|██▋       | 20754/78504 [12:36:57<50:15:23,  3.13s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.32461684942245483, 'learning_rate': 2.452507324529744e-05, 'epoch': 6.34}
 26%|██▋       | 20754/78504 [12:36:57<50:15:23,  3.13s/it] 26%|██▋       | 20755/78504 [12:36:59<47:43:32,  2.98s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.193599671125412, 'learning_rate': 2.45246486348775e-05, 'epoch': 6.35}
 26%|██▋       | 20755/78504 [12:36:59<47:43:32,  2.98s/it] 26%|██▋       | 20756/78504 [12:37:02<45:17:35,  2.82s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.9051923155784607, 'learning_rate': 2.4524224024457562e-05, 'epoch': 6.35}
 26%|██▋       | 20756/78504 [12:37:02<45:17:35,  2.82s/it] 26%|██▋       | 20757/78504 [12:37:04<42:34:04,  2.65s/it]                                                           {'loss': 0.0435, 'grad_norm': 0.7588847279548645, 'learning_rate': 2.452379941403762e-05, 'epoch': 6.35}
 26%|██▋       | 20757/78504 [12:37:04<42:34:04,  2.65s/it] 26%|██▋       | 20758/78504 [12:37:06<40:56:10,  2.55s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.4420318901538849, 'learning_rate': 2.4523374803617683e-05, 'epoch': 6.35}
 26%|██▋       | 20758/78504 [12:37:06<40:56:10,  2.55s/it] 26%|██▋       | 20759/78504 [12:37:08<38:42:47,  2.41s/it]                                                           {'loss': 0.0436, 'grad_norm': 0.8531930446624756, 'learning_rate': 2.452295019319774e-05, 'epoch': 6.35}
 26%|██▋       | 20759/78504 [12:37:08<38:42:47,  2.41s/it] 26%|██▋       | 20760/78504 [12:37:10<36:50:50,  2.30s/it]                                                           {'loss': 0.079, 'grad_norm': 0.33859848976135254, 'learning_rate': 2.45225255827778e-05, 'epoch': 6.35}
 26%|██▋       | 20760/78504 [12:37:10<36:50:50,  2.30s/it] 26%|██▋       | 20761/78504 [12:37:13<36:04:16,  2.25s/it]                                                           {'loss': 0.053, 'grad_norm': 1.8424781560897827, 'learning_rate': 2.4522100972357862e-05, 'epoch': 6.35}
 26%|██▋       | 20761/78504 [12:37:13<36:04:16,  2.25s/it] 26%|██▋       | 20762/78504 [12:37:15<34:50:53,  2.17s/it]                                                           {'loss': 0.0854, 'grad_norm': 0.42021453380584717, 'learning_rate': 2.452167636193792e-05, 'epoch': 6.35}
 26%|██▋       | 20762/78504 [12:37:15<34:50:53,  2.17s/it] 26%|██▋       | 20763/78504 [12:37:16<33:04:22,  2.06s/it]                                                           {'loss': 0.094, 'grad_norm': 0.7745544910430908, 'learning_rate': 2.4521251751517983e-05, 'epoch': 6.35}
 26%|██▋       | 20763/78504 [12:37:16<33:04:22,  2.06s/it] 26%|██▋       | 20764/78504 [12:37:18<32:06:27,  2.00s/it]                                                           {'loss': 0.1036, 'grad_norm': 0.6826174259185791, 'learning_rate': 2.452082714109804e-05, 'epoch': 6.35}
 26%|██▋       | 20764/78504 [12:37:18<32:06:27,  2.00s/it] 26%|██▋       | 20765/78504 [12:37:20<30:45:32,  1.92s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.41461485624313354, 'learning_rate': 2.4520402530678104e-05, 'epoch': 6.35}
 26%|██▋       | 20765/78504 [12:37:20<30:45:32,  1.92s/it] 26%|██▋       | 20766/78504 [12:37:22<30:00:22,  1.87s/it]                                                           {'loss': 0.1255, 'grad_norm': 0.46224361658096313, 'learning_rate': 2.4519977920258162e-05, 'epoch': 6.35}
 26%|██▋       | 20766/78504 [12:37:22<30:00:22,  1.87s/it] 26%|██▋       | 20767/78504 [12:37:23<28:51:48,  1.80s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.7324396967887878, 'learning_rate': 2.4519553309838224e-05, 'epoch': 6.35}
 26%|██▋       | 20767/78504 [12:37:23<28:51:48,  1.80s/it] 26%|██▋       | 20768/78504 [12:37:25<27:33:12,  1.72s/it]                                                           {'loss': 0.1419, 'grad_norm': 0.4478324055671692, 'learning_rate': 2.4519128699418283e-05, 'epoch': 6.35}
 26%|██▋       | 20768/78504 [12:37:25<27:33:12,  1.72s/it] 26%|██▋       | 20769/78504 [12:37:26<26:22:51,  1.64s/it]                                                           {'loss': 0.1592, 'grad_norm': 1.0068215131759644, 'learning_rate': 2.4518704088998345e-05, 'epoch': 6.35}
 26%|██▋       | 20769/78504 [12:37:26<26:22:51,  1.64s/it] 26%|██▋       | 20770/78504 [12:37:28<25:20:11,  1.58s/it]                                                           {'loss': 0.2058, 'grad_norm': 0.8977115750312805, 'learning_rate': 2.4518279478578404e-05, 'epoch': 6.35}
 26%|██▋       | 20770/78504 [12:37:28<25:20:11,  1.58s/it] 26%|██▋       | 20771/78504 [12:37:29<23:56:06,  1.49s/it]                                                           {'loss': 0.167, 'grad_norm': 0.8925197720527649, 'learning_rate': 2.4517854868158466e-05, 'epoch': 6.35}
 26%|██▋       | 20771/78504 [12:37:29<23:56:06,  1.49s/it] 26%|██▋       | 20772/78504 [12:37:30<22:17:16,  1.39s/it]                                                           {'loss': 0.1556, 'grad_norm': 0.7771360874176025, 'learning_rate': 2.4517430257738525e-05, 'epoch': 6.35}
 26%|██▋       | 20772/78504 [12:37:30<22:17:16,  1.39s/it] 26%|██▋       | 20773/78504 [12:37:31<20:54:03,  1.30s/it]                                                           {'loss': 0.1699, 'grad_norm': 1.0169256925582886, 'learning_rate': 2.4517005647318583e-05, 'epoch': 6.35}
 26%|██▋       | 20773/78504 [12:37:31<20:54:03,  1.30s/it] 26%|██▋       | 20774/78504 [12:37:32<19:41:38,  1.23s/it]                                                           {'loss': 0.1904, 'grad_norm': 0.9958142042160034, 'learning_rate': 2.4516581036898645e-05, 'epoch': 6.35}
 26%|██▋       | 20774/78504 [12:37:32<19:41:38,  1.23s/it] 26%|██▋       | 20775/78504 [12:37:33<18:20:40,  1.14s/it]                                                           {'loss': 0.1852, 'grad_norm': 1.563978672027588, 'learning_rate': 2.4516156426478704e-05, 'epoch': 6.35}
 26%|██▋       | 20775/78504 [12:37:33<18:20:40,  1.14s/it] 26%|██▋       | 20776/78504 [12:37:34<16:27:02,  1.03s/it]                                                           {'loss': 0.2279, 'grad_norm': 1.5779340267181396, 'learning_rate': 2.4515731816058766e-05, 'epoch': 6.35}
 26%|██▋       | 20776/78504 [12:37:34<16:27:02,  1.03s/it] 26%|██▋       | 20777/78504 [12:37:43<56:44:14,  3.54s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.47913533449172974, 'learning_rate': 2.4515307205638825e-05, 'epoch': 6.35}
 26%|██▋       | 20777/78504 [12:37:43<56:44:14,  3.54s/it] 26%|██▋       | 20778/78504 [12:37:46<53:41:03,  3.35s/it]                                                           {'loss': 0.0922, 'grad_norm': 0.29675450921058655, 'learning_rate': 2.4514882595218887e-05, 'epoch': 6.35}
 26%|██▋       | 20778/78504 [12:37:46<53:41:03,  3.35s/it] 26%|██▋       | 20779/78504 [12:37:49<51:38:39,  3.22s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.33241361379623413, 'learning_rate': 2.4514457984798946e-05, 'epoch': 6.35}
 26%|██▋       | 20779/78504 [12:37:49<51:38:39,  3.22s/it] 26%|██▋       | 20780/78504 [12:37:52<47:47:45,  2.98s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.2878945469856262, 'learning_rate': 2.4514033374379008e-05, 'epoch': 6.35}
 26%|██▋       | 20780/78504 [12:37:52<47:47:45,  2.98s/it] 26%|██▋       | 20781/78504 [12:37:54<45:25:12,  2.83s/it]                                                           {'loss': 0.0523, 'grad_norm': 0.5336966514587402, 'learning_rate': 2.4513608763959067e-05, 'epoch': 6.35}
 26%|██▋       | 20781/78504 [12:37:54<45:25:12,  2.83s/it] 26%|██▋       | 20782/78504 [12:37:57<43:36:42,  2.72s/it]                                                           {'loss': 0.0759, 'grad_norm': 0.2831367254257202, 'learning_rate': 2.451318415353913e-05, 'epoch': 6.35}
 26%|██▋       | 20782/78504 [12:37:57<43:36:42,  2.72s/it] 26%|██▋       | 20783/78504 [12:37:59<41:38:38,  2.60s/it]                                                           {'loss': 0.0522, 'grad_norm': 0.6436519026756287, 'learning_rate': 2.4512759543119187e-05, 'epoch': 6.35}
 26%|██▋       | 20783/78504 [12:37:59<41:38:38,  2.60s/it] 26%|██▋       | 20784/78504 [12:38:01<39:21:32,  2.45s/it]                                                           {'loss': 0.0922, 'grad_norm': 0.4807453453540802, 'learning_rate': 2.4512334932699246e-05, 'epoch': 6.35}
 26%|██▋       | 20784/78504 [12:38:01<39:21:32,  2.45s/it] 26%|██▋       | 20785/78504 [12:38:03<38:02:44,  2.37s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.21853721141815186, 'learning_rate': 2.4511910322279308e-05, 'epoch': 6.35}
 26%|██▋       | 20785/78504 [12:38:03<38:02:44,  2.37s/it] 26%|██▋       | 20786/78504 [12:38:05<36:56:15,  2.30s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.25355514883995056, 'learning_rate': 2.4511485711859367e-05, 'epoch': 6.35}
 26%|██▋       | 20786/78504 [12:38:05<36:56:15,  2.30s/it] 26%|██▋       | 20787/78504 [12:38:07<35:35:01,  2.22s/it]                                                           {'loss': 0.087, 'grad_norm': 0.35892587900161743, 'learning_rate': 2.451106110143943e-05, 'epoch': 6.35}
 26%|██▋       | 20787/78504 [12:38:07<35:35:01,  2.22s/it] 26%|██▋       | 20788/78504 [12:38:09<34:24:51,  2.15s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.2573871910572052, 'learning_rate': 2.4510636491019488e-05, 'epoch': 6.36}
 26%|██▋       | 20788/78504 [12:38:09<34:24:51,  2.15s/it] 26%|██▋       | 20789/78504 [12:38:11<33:19:34,  2.08s/it]                                                           {'loss': 0.09, 'grad_norm': 0.444635808467865, 'learning_rate': 2.451021188059955e-05, 'epoch': 6.36}
 26%|██▋       | 20789/78504 [12:38:11<33:19:34,  2.08s/it] 26%|██▋       | 20790/78504 [12:38:13<32:18:28,  2.02s/it]                                                           {'loss': 0.1107, 'grad_norm': 0.5155428647994995, 'learning_rate': 2.450978727017961e-05, 'epoch': 6.36}
 26%|██▋       | 20790/78504 [12:38:13<32:18:28,  2.02s/it] 26%|██▋       | 20791/78504 [12:38:15<31:04:48,  1.94s/it]                                                           {'loss': 0.1055, 'grad_norm': 1.15459406375885, 'learning_rate': 2.450936265975967e-05, 'epoch': 6.36}
 26%|██▋       | 20791/78504 [12:38:15<31:04:48,  1.94s/it] 26%|██▋       | 20792/78504 [12:38:17<29:41:08,  1.85s/it]                                                           {'loss': 0.1346, 'grad_norm': 1.2904051542282104, 'learning_rate': 2.450893804933973e-05, 'epoch': 6.36}
 26%|██▋       | 20792/78504 [12:38:17<29:41:08,  1.85s/it] 26%|██▋       | 20793/78504 [12:38:18<28:04:52,  1.75s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.6227739453315735, 'learning_rate': 2.450851343891979e-05, 'epoch': 6.36}
 26%|██▋       | 20793/78504 [12:38:18<28:04:52,  1.75s/it] 26%|██▋       | 20794/78504 [12:38:20<26:45:21,  1.67s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.9869690537452698, 'learning_rate': 2.450808882849985e-05, 'epoch': 6.36}
 26%|██▋       | 20794/78504 [12:38:20<26:45:21,  1.67s/it] 26%|██▋       | 20795/78504 [12:38:21<25:19:47,  1.58s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.746314525604248, 'learning_rate': 2.4507664218079912e-05, 'epoch': 6.36}
 26%|██▋       | 20795/78504 [12:38:21<25:19:47,  1.58s/it] 26%|██▋       | 20796/78504 [12:38:22<23:56:43,  1.49s/it]                                                           {'loss': 0.1968, 'grad_norm': 0.612938404083252, 'learning_rate': 2.4507239607659974e-05, 'epoch': 6.36}
 26%|██▋       | 20796/78504 [12:38:22<23:56:43,  1.49s/it] 26%|██▋       | 20797/78504 [12:38:23<22:16:52,  1.39s/it]                                                           {'loss': 0.1601, 'grad_norm': 1.0481189489364624, 'learning_rate': 2.4506814997240033e-05, 'epoch': 6.36}
 26%|██▋       | 20797/78504 [12:38:23<22:16:52,  1.39s/it] 26%|██▋       | 20798/78504 [12:38:25<20:54:19,  1.30s/it]                                                           {'loss': 0.1592, 'grad_norm': 0.8710691332817078, 'learning_rate': 2.4506390386820095e-05, 'epoch': 6.36}
 26%|██▋       | 20798/78504 [12:38:25<20:54:19,  1.30s/it] 26%|██▋       | 20799/78504 [12:38:26<19:39:10,  1.23s/it]                                                           {'loss': 0.1833, 'grad_norm': 0.7082776427268982, 'learning_rate': 2.4505965776400154e-05, 'epoch': 6.36}
 26%|██▋       | 20799/78504 [12:38:26<19:39:10,  1.23s/it] 26%|██▋       | 20800/78504 [12:38:26<18:12:59,  1.14s/it]                                                           {'loss': 0.1659, 'grad_norm': 1.2541494369506836, 'learning_rate': 2.4505541165980216e-05, 'epoch': 6.36}
 26%|██▋       | 20800/78504 [12:38:27<18:12:59,  1.14s/it] 26%|██▋       | 20801/78504 [12:38:27<16:30:09,  1.03s/it]                                                           {'loss': 0.2303, 'grad_norm': 2.1047730445861816, 'learning_rate': 2.4505116555560274e-05, 'epoch': 6.36}
 26%|██▋       | 20801/78504 [12:38:27<16:30:09,  1.03s/it] 26%|██▋       | 20802/78504 [12:38:36<55:54:48,  3.49s/it]                                                           {'loss': 0.1571, 'grad_norm': 0.48106300830841064, 'learning_rate': 2.4504691945140337e-05, 'epoch': 6.36}
 26%|██▋       | 20802/78504 [12:38:37<55:54:48,  3.49s/it] 26%|██▋       | 20803/78504 [12:38:40<53:56:16,  3.37s/it]                                                           {'loss': 0.0896, 'grad_norm': 0.7652716040611267, 'learning_rate': 2.4504267334720395e-05, 'epoch': 6.36}
 26%|██▋       | 20803/78504 [12:38:40<53:56:16,  3.37s/it] 27%|██▋       | 20804/78504 [12:38:42<51:46:59,  3.23s/it]                                                           {'loss': 0.0902, 'grad_norm': 0.44108498096466064, 'learning_rate': 2.4503842724300457e-05, 'epoch': 6.36}
 27%|██▋       | 20804/78504 [12:38:43<51:46:59,  3.23s/it] 27%|██▋       | 20805/78504 [12:38:45<48:38:20,  3.03s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.14487072825431824, 'learning_rate': 2.4503418113880516e-05, 'epoch': 6.36}
 27%|██▋       | 20805/78504 [12:38:45<48:38:20,  3.03s/it] 27%|██▋       | 20806/78504 [12:38:48<45:56:47,  2.87s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.26723524928092957, 'learning_rate': 2.4502993503460578e-05, 'epoch': 6.36}
 27%|██▋       | 20806/78504 [12:38:48<45:56:47,  2.87s/it] 27%|██▋       | 20807/78504 [12:38:50<43:49:26,  2.73s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.6172659397125244, 'learning_rate': 2.4502568893040637e-05, 'epoch': 6.36}
 27%|██▋       | 20807/78504 [12:38:50<43:49:26,  2.73s/it] 27%|██▋       | 20808/78504 [12:38:52<41:48:32,  2.61s/it]                                                           {'loss': 0.0473, 'grad_norm': 0.18334268033504486, 'learning_rate': 2.45021442826207e-05, 'epoch': 6.36}
 27%|██▋       | 20808/78504 [12:38:52<41:48:32,  2.61s/it] 27%|██▋       | 20809/78504 [12:38:54<39:26:00,  2.46s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.3601658046245575, 'learning_rate': 2.4501719672200758e-05, 'epoch': 6.36}
 27%|██▋       | 20809/78504 [12:38:54<39:26:00,  2.46s/it] 27%|██▋       | 20810/78504 [12:38:57<38:06:40,  2.38s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.24478258192539215, 'learning_rate': 2.4501295061780816e-05, 'epoch': 6.36}
 27%|██▋       | 20810/78504 [12:38:57<38:06:40,  2.38s/it] 27%|██▋       | 20811/78504 [12:38:59<36:59:26,  2.31s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.1743299514055252, 'learning_rate': 2.450087045136088e-05, 'epoch': 6.36}
 27%|██▋       | 20811/78504 [12:38:59<36:59:26,  2.31s/it] 27%|██▋       | 20812/78504 [12:39:01<35:40:12,  2.23s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.201565682888031, 'learning_rate': 2.4500445840940937e-05, 'epoch': 6.36}
 27%|██▋       | 20812/78504 [12:39:01<35:40:12,  2.23s/it] 27%|██▋       | 20813/78504 [12:39:03<34:30:37,  2.15s/it]                                                           {'loss': 0.085, 'grad_norm': 1.6817764043807983, 'learning_rate': 2.4500021230521e-05, 'epoch': 6.36}
 27%|██▋       | 20813/78504 [12:39:03<34:30:37,  2.15s/it] 27%|██▋       | 20814/78504 [12:39:05<33:06:24,  2.07s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.2865011692047119, 'learning_rate': 2.4499596620101058e-05, 'epoch': 6.36}
 27%|██▋       | 20814/78504 [12:39:05<33:06:24,  2.07s/it] 27%|██▋       | 20815/78504 [12:39:06<32:09:01,  2.01s/it]                                                           {'loss': 0.1188, 'grad_norm': 1.1337571144104004, 'learning_rate': 2.449917200968112e-05, 'epoch': 6.36}
 27%|██▋       | 20815/78504 [12:39:06<32:09:01,  2.01s/it] 27%|██▋       | 20816/78504 [12:39:08<30:46:04,  1.92s/it]                                                           {'loss': 0.0948, 'grad_norm': 0.7490277290344238, 'learning_rate': 2.449874739926118e-05, 'epoch': 6.36}
 27%|██▋       | 20816/78504 [12:39:08<30:46:04,  1.92s/it] 27%|██▋       | 20817/78504 [12:39:10<29:28:45,  1.84s/it]                                                           {'loss': 0.1351, 'grad_norm': 0.6772965788841248, 'learning_rate': 2.449832278884124e-05, 'epoch': 6.36}
 27%|██▋       | 20817/78504 [12:39:10<29:28:45,  1.84s/it] 27%|██▋       | 20818/78504 [12:39:11<27:54:31,  1.74s/it]                                                           {'loss': 0.1329, 'grad_norm': 0.67130047082901, 'learning_rate': 2.44978981784213e-05, 'epoch': 6.36}
 27%|██▋       | 20818/78504 [12:39:11<27:54:31,  1.74s/it] 27%|██▋       | 20819/78504 [12:39:13<26:25:24,  1.65s/it]                                                           {'loss': 0.1373, 'grad_norm': 0.5600557923316956, 'learning_rate': 2.449747356800136e-05, 'epoch': 6.36}
 27%|██▋       | 20819/78504 [12:39:13<26:25:24,  1.65s/it] 27%|██▋       | 20820/78504 [12:39:14<25:20:50,  1.58s/it]                                                           {'loss': 0.1858, 'grad_norm': 0.7295796275138855, 'learning_rate': 2.449704895758142e-05, 'epoch': 6.37}
 27%|██▋       | 20820/78504 [12:39:14<25:20:50,  1.58s/it] 27%|██▋       | 20821/78504 [12:39:16<23:57:14,  1.49s/it]                                                           {'loss': 0.1718, 'grad_norm': 0.5538411140441895, 'learning_rate': 2.4496624347161482e-05, 'epoch': 6.37}
 27%|██▋       | 20821/78504 [12:39:16<23:57:14,  1.49s/it] 27%|██▋       | 20822/78504 [12:39:17<22:17:45,  1.39s/it]                                                           {'loss': 0.1529, 'grad_norm': 2.0557425022125244, 'learning_rate': 2.449619973674154e-05, 'epoch': 6.37}
 27%|██▋       | 20822/78504 [12:39:17<22:17:45,  1.39s/it] 27%|██▋       | 20823/78504 [12:39:18<20:54:56,  1.31s/it]                                                           {'loss': 0.18, 'grad_norm': 1.2598568201065063, 'learning_rate': 2.44957751263216e-05, 'epoch': 6.37}
 27%|██▋       | 20823/78504 [12:39:18<20:54:56,  1.31s/it] 27%|██▋       | 20824/78504 [12:39:19<19:43:41,  1.23s/it]                                                           {'loss': 0.1769, 'grad_norm': 1.1065735816955566, 'learning_rate': 2.4495350515901662e-05, 'epoch': 6.37}
 27%|██▋       | 20824/78504 [12:39:19<19:43:41,  1.23s/it] 27%|██▋       | 20825/78504 [12:39:20<18:19:22,  1.14s/it]                                                           {'loss': 0.1542, 'grad_norm': 0.6158260107040405, 'learning_rate': 2.449492590548172e-05, 'epoch': 6.37}
 27%|██▋       | 20825/78504 [12:39:20<18:19:22,  1.14s/it] 27%|██▋       | 20826/78504 [12:39:21<16:25:32,  1.03s/it]                                                           {'loss': 0.2732, 'grad_norm': 3.604067802429199, 'learning_rate': 2.4494501295061783e-05, 'epoch': 6.37}
 27%|██▋       | 20826/78504 [12:39:21<16:25:32,  1.03s/it] 27%|██▋       | 20827/78504 [12:39:30<56:40:19,  3.54s/it]                                                           {'loss': 0.1425, 'grad_norm': 0.3545355796813965, 'learning_rate': 2.449407668464184e-05, 'epoch': 6.37}
 27%|██▋       | 20827/78504 [12:39:30<56:40:19,  3.54s/it] 27%|██▋       | 20828/78504 [12:39:33<53:39:33,  3.35s/it]                                                           {'loss': 0.0969, 'grad_norm': 0.34290552139282227, 'learning_rate': 2.4493652074221903e-05, 'epoch': 6.37}
 27%|██▋       | 20828/78504 [12:39:33<53:39:33,  3.35s/it] 27%|██▋       | 20829/78504 [12:39:36<50:55:31,  3.18s/it]                                                           {'loss': 0.059, 'grad_norm': 0.5364081859588623, 'learning_rate': 2.4493227463801962e-05, 'epoch': 6.37}
 27%|██▋       | 20829/78504 [12:39:36<50:55:31,  3.18s/it] 27%|██▋       | 20830/78504 [12:39:38<47:15:40,  2.95s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.22025887668132782, 'learning_rate': 2.4492802853382024e-05, 'epoch': 6.37}
 27%|██▋       | 20830/78504 [12:39:38<47:15:40,  2.95s/it] 27%|██▋       | 20831/78504 [12:39:40<44:58:16,  2.81s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.45138081908226013, 'learning_rate': 2.4492378242962083e-05, 'epoch': 6.37}
 27%|██▋       | 20831/78504 [12:39:41<44:58:16,  2.81s/it] 27%|██▋       | 20832/78504 [12:39:43<42:22:01,  2.64s/it]                                                           {'loss': 0.0443, 'grad_norm': 0.29509344696998596, 'learning_rate': 2.4491953632542145e-05, 'epoch': 6.37}
 27%|██▋       | 20832/78504 [12:39:43<42:22:01,  2.64s/it] 27%|██▋       | 20833/78504 [12:39:45<40:47:19,  2.55s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.7519261837005615, 'learning_rate': 2.4491529022122204e-05, 'epoch': 6.37}
 27%|██▋       | 20833/78504 [12:39:45<40:47:19,  2.55s/it] 27%|██▋       | 20834/78504 [12:39:47<38:37:35,  2.41s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.2366943359375, 'learning_rate': 2.4491104411702266e-05, 'epoch': 6.37}
 27%|██▋       | 20834/78504 [12:39:47<38:37:35,  2.41s/it] 27%|██▋       | 20835/78504 [12:39:49<37:31:42,  2.34s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.7248708009719849, 'learning_rate': 2.4490679801282324e-05, 'epoch': 6.37}
 27%|██▋       | 20835/78504 [12:39:49<37:31:42,  2.34s/it] 27%|██▋       | 20836/78504 [12:39:52<36:40:52,  2.29s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.4046768248081207, 'learning_rate': 2.4490255190862383e-05, 'epoch': 6.37}
 27%|██▋       | 20836/78504 [12:39:52<36:40:52,  2.29s/it] 27%|██▋       | 20837/78504 [12:39:53<34:37:05,  2.16s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.6326362490653992, 'learning_rate': 2.4489830580442445e-05, 'epoch': 6.37}
 27%|██▋       | 20837/78504 [12:39:53<34:37:05,  2.16s/it] 27%|██▋       | 20838/78504 [12:39:55<33:45:02,  2.11s/it]                                                           {'loss': 0.0764, 'grad_norm': 0.6660568118095398, 'learning_rate': 2.4489405970022504e-05, 'epoch': 6.37}
 27%|██▋       | 20838/78504 [12:39:55<33:45:02,  2.11s/it] 27%|██▋       | 20839/78504 [12:39:57<32:34:55,  2.03s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.5228462815284729, 'learning_rate': 2.4488981359602566e-05, 'epoch': 6.37}
 27%|██▋       | 20839/78504 [12:39:57<32:34:55,  2.03s/it] 27%|██▋       | 20840/78504 [12:39:59<31:38:51,  1.98s/it]                                                           {'loss': 0.139, 'grad_norm': 1.2988239526748657, 'learning_rate': 2.4488556749182625e-05, 'epoch': 6.37}
 27%|██▋       | 20840/78504 [12:39:59<31:38:51,  1.98s/it] 27%|██▋       | 20841/78504 [12:40:01<30:05:35,  1.88s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.5169496536254883, 'learning_rate': 2.4488132138762687e-05, 'epoch': 6.37}
 27%|██▋       | 20841/78504 [12:40:01<30:05:35,  1.88s/it] 27%|██▋       | 20842/78504 [12:40:02<28:59:12,  1.81s/it]                                                           {'loss': 0.1359, 'grad_norm': 0.9262478351593018, 'learning_rate': 2.4487707528342745e-05, 'epoch': 6.37}
 27%|██▋       | 20842/78504 [12:40:02<28:59:12,  1.81s/it] 27%|██▋       | 20843/78504 [12:40:04<27:43:16,  1.73s/it]                                                           {'loss': 0.1927, 'grad_norm': 0.42597657442092896, 'learning_rate': 2.4487282917922808e-05, 'epoch': 6.37}
 27%|██▋       | 20843/78504 [12:40:04<27:43:16,  1.73s/it] 27%|██▋       | 20844/78504 [12:40:05<26:14:17,  1.64s/it]                                                           {'loss': 0.1342, 'grad_norm': 0.8654471039772034, 'learning_rate': 2.4486858307502866e-05, 'epoch': 6.37}
 27%|██▋       | 20844/78504 [12:40:05<26:14:17,  1.64s/it] 27%|██▋       | 20845/78504 [12:40:07<25:07:57,  1.57s/it]                                                           {'loss': 0.1697, 'grad_norm': 0.9644010663032532, 'learning_rate': 2.448643369708293e-05, 'epoch': 6.37}
 27%|██▋       | 20845/78504 [12:40:07<25:07:57,  1.57s/it] 27%|██▋       | 20846/78504 [12:40:08<23:46:31,  1.48s/it]                                                           {'loss': 0.2122, 'grad_norm': 0.9850157499313354, 'learning_rate': 2.4486009086662987e-05, 'epoch': 6.37}
 27%|██▋       | 20846/78504 [12:40:08<23:46:31,  1.48s/it] 27%|██▋       | 20847/78504 [12:40:09<22:10:17,  1.38s/it]                                                           {'loss': 0.1656, 'grad_norm': 0.9532856941223145, 'learning_rate': 2.448558447624305e-05, 'epoch': 6.37}
 27%|██▋       | 20847/78504 [12:40:09<22:10:17,  1.38s/it] 27%|██▋       | 20848/78504 [12:40:10<20:47:18,  1.30s/it]                                                           {'loss': 0.1798, 'grad_norm': 0.9923420548439026, 'learning_rate': 2.4485159865823108e-05, 'epoch': 6.37}
 27%|██▋       | 20848/78504 [12:40:10<20:47:18,  1.30s/it] 27%|██▋       | 20849/78504 [12:40:11<19:34:47,  1.22s/it]                                                           {'loss': 0.1582, 'grad_norm': 0.9938650727272034, 'learning_rate': 2.4484735255403167e-05, 'epoch': 6.37}
 27%|██▋       | 20849/78504 [12:40:11<19:34:47,  1.22s/it] 27%|██▋       | 20850/78504 [12:40:12<18:11:52,  1.14s/it]                                                           {'loss': 0.1749, 'grad_norm': 0.8436753749847412, 'learning_rate': 2.448431064498323e-05, 'epoch': 6.37}
 27%|██▋       | 20850/78504 [12:40:12<18:11:52,  1.14s/it] 27%|██▋       | 20851/78504 [12:40:13<16:30:44,  1.03s/it]                                                           {'loss': 0.2199, 'grad_norm': 1.0561366081237793, 'learning_rate': 2.4483886034563287e-05, 'epoch': 6.37}
 27%|██▋       | 20851/78504 [12:40:13<16:30:44,  1.03s/it] 27%|██▋       | 20852/78504 [12:40:21<51:54:27,  3.24s/it]                                                           {'loss': 0.1148, 'grad_norm': 0.6752643585205078, 'learning_rate': 2.448346142414335e-05, 'epoch': 6.37}
 27%|██▋       | 20852/78504 [12:40:21<51:54:27,  3.24s/it] 27%|██▋       | 20853/78504 [12:40:25<51:54:45,  3.24s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.38259372115135193, 'learning_rate': 2.4483036813723408e-05, 'epoch': 6.38}
 27%|██▋       | 20853/78504 [12:40:25<51:54:45,  3.24s/it] 27%|██▋       | 20854/78504 [12:40:28<50:30:09,  3.15s/it]                                                           {'loss': 0.0559, 'grad_norm': 0.8574398159980774, 'learning_rate': 2.448261220330347e-05, 'epoch': 6.38}
 27%|██▋       | 20854/78504 [12:40:28<50:30:09,  3.15s/it] 27%|██▋       | 20855/78504 [12:40:30<47:48:12,  2.99s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.6379141807556152, 'learning_rate': 2.448218759288353e-05, 'epoch': 6.38}
 27%|██▋       | 20855/78504 [12:40:30<47:48:12,  2.99s/it] 27%|██▋       | 20856/78504 [12:40:33<45:25:35,  2.84s/it]                                                           {'loss': 0.0311, 'grad_norm': 0.16213653981685638, 'learning_rate': 2.448176298246359e-05, 'epoch': 6.38}
 27%|██▋       | 20856/78504 [12:40:33<45:25:35,  2.84s/it] 27%|██▋       | 20857/78504 [12:40:35<42:18:19,  2.64s/it]                                                           {'loss': 0.0858, 'grad_norm': 0.5738499164581299, 'learning_rate': 2.448133837204365e-05, 'epoch': 6.38}
 27%|██▋       | 20857/78504 [12:40:35<42:18:19,  2.64s/it] 27%|██▋       | 20858/78504 [12:40:37<40:49:08,  2.55s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.48762479424476624, 'learning_rate': 2.4480913761623712e-05, 'epoch': 6.38}
 27%|██▋       | 20858/78504 [12:40:37<40:49:08,  2.55s/it] 27%|██▋       | 20859/78504 [12:40:39<38:36:33,  2.41s/it]                                                           {'loss': 0.0414, 'grad_norm': 0.19697903096675873, 'learning_rate': 2.448048915120377e-05, 'epoch': 6.38}
 27%|██▋       | 20859/78504 [12:40:39<38:36:33,  2.41s/it] 27%|██▋       | 20860/78504 [12:40:41<37:25:21,  2.34s/it]                                                           {'loss': 0.068, 'grad_norm': 0.3272898197174072, 'learning_rate': 2.4480064540783833e-05, 'epoch': 6.38}
 27%|██▋       | 20860/78504 [12:40:42<37:25:21,  2.34s/it] 27%|██▋       | 20861/78504 [12:40:44<36:30:40,  2.28s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.4670545160770416, 'learning_rate': 2.447963993036389e-05, 'epoch': 6.38}
 27%|██▋       | 20861/78504 [12:40:44<36:30:40,  2.28s/it] 27%|██▋       | 20862/78504 [12:40:46<35:05:11,  2.19s/it]                                                           {'loss': 0.105, 'grad_norm': 0.4414689540863037, 'learning_rate': 2.447921531994395e-05, 'epoch': 6.38}
 27%|██▋       | 20862/78504 [12:40:46<35:05:11,  2.19s/it] 27%|██▋       | 20863/78504 [12:40:48<33:48:39,  2.11s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.2731935977935791, 'learning_rate': 2.4478790709524012e-05, 'epoch': 6.38}
 27%|██▋       | 20863/78504 [12:40:48<33:48:39,  2.11s/it] 27%|██▋       | 20864/78504 [12:40:49<32:38:42,  2.04s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.3282011151313782, 'learning_rate': 2.447836609910407e-05, 'epoch': 6.38}
 27%|██▋       | 20864/78504 [12:40:49<32:38:42,  2.04s/it] 27%|██▋       | 20865/78504 [12:40:51<31:42:41,  1.98s/it]                                                           {'loss': 0.0896, 'grad_norm': 2.73058819770813, 'learning_rate': 2.4477941488684133e-05, 'epoch': 6.38}
 27%|██▋       | 20865/78504 [12:40:51<31:42:41,  1.98s/it] 27%|██▋       | 20866/78504 [12:40:53<30:43:06,  1.92s/it]                                                           {'loss': 0.127, 'grad_norm': 0.6785876750946045, 'learning_rate': 2.447751687826419e-05, 'epoch': 6.38}
 27%|██▋       | 20866/78504 [12:40:53<30:43:06,  1.92s/it] 27%|██▋       | 20867/78504 [12:40:55<29:23:11,  1.84s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.46412205696105957, 'learning_rate': 2.4477092267844254e-05, 'epoch': 6.38}
 27%|██▋       | 20867/78504 [12:40:55<29:23:11,  1.84s/it] 27%|██▋       | 20868/78504 [12:40:56<27:51:46,  1.74s/it]                                                           {'loss': 0.1521, 'grad_norm': 0.7207449674606323, 'learning_rate': 2.4476667657424312e-05, 'epoch': 6.38}
 27%|██▋       | 20868/78504 [12:40:56<27:51:46,  1.74s/it] 27%|██▋       | 20869/78504 [12:40:58<26:22:58,  1.65s/it]                                                           {'loss': 0.1508, 'grad_norm': 0.7529546618461609, 'learning_rate': 2.4476243047004374e-05, 'epoch': 6.38}
 27%|██▋       | 20869/78504 [12:40:58<26:22:58,  1.65s/it] 27%|██▋       | 20870/78504 [12:40:59<25:15:14,  1.58s/it]                                                           {'loss': 0.1871, 'grad_norm': 1.1604433059692383, 'learning_rate': 2.4475818436584433e-05, 'epoch': 6.38}
 27%|██▋       | 20870/78504 [12:40:59<25:15:14,  1.58s/it] 27%|██▋       | 20871/78504 [12:41:00<23:30:35,  1.47s/it]                                                           {'loss': 0.1978, 'grad_norm': 0.6885167956352234, 'learning_rate': 2.4475393826164495e-05, 'epoch': 6.38}
 27%|██▋       | 20871/78504 [12:41:00<23:30:35,  1.47s/it] 27%|██▋       | 20872/78504 [12:41:01<21:51:19,  1.37s/it]                                                           {'loss': 0.1497, 'grad_norm': 1.1538333892822266, 'learning_rate': 2.4474969215744554e-05, 'epoch': 6.38}
 27%|██▋       | 20872/78504 [12:41:01<21:51:19,  1.37s/it] 27%|██▋       | 20873/78504 [12:41:02<20:33:17,  1.28s/it]                                                           {'loss': 0.1705, 'grad_norm': 0.6469218730926514, 'learning_rate': 2.4474544605324616e-05, 'epoch': 6.38}
 27%|██▋       | 20873/78504 [12:41:02<20:33:17,  1.28s/it] 27%|██▋       | 20874/78504 [12:41:04<19:26:09,  1.21s/it]                                                           {'loss': 0.1643, 'grad_norm': 0.9707721471786499, 'learning_rate': 2.4474119994904675e-05, 'epoch': 6.38}
 27%|██▋       | 20874/78504 [12:41:04<19:26:09,  1.21s/it] 27%|██▋       | 20875/78504 [12:41:04<18:03:51,  1.13s/it]                                                           {'loss': 0.2088, 'grad_norm': 0.6740341782569885, 'learning_rate': 2.4473695384484733e-05, 'epoch': 6.38}
 27%|██▋       | 20875/78504 [12:41:04<18:03:51,  1.13s/it] 27%|██▋       | 20876/78504 [12:41:05<16:24:34,  1.03s/it]                                                           {'loss': 0.2795, 'grad_norm': 4.004771709442139, 'learning_rate': 2.4473270774064796e-05, 'epoch': 6.38}
 27%|██▋       | 20876/78504 [12:41:05<16:24:34,  1.03s/it] 27%|██▋       | 20877/78504 [12:41:13<46:36:20,  2.91s/it]                                                           {'loss': 0.124, 'grad_norm': 0.9554669857025146, 'learning_rate': 2.4472846163644854e-05, 'epoch': 6.38}
 27%|██▋       | 20877/78504 [12:41:13<46:36:20,  2.91s/it] 27%|██▋       | 20878/78504 [12:41:16<47:35:18,  2.97s/it]                                                           {'loss': 0.0717, 'grad_norm': 0.22563211619853973, 'learning_rate': 2.4472421553224916e-05, 'epoch': 6.38}
 27%|██▋       | 20878/78504 [12:41:16<47:35:18,  2.97s/it] 27%|██▋       | 20879/78504 [12:41:19<47:46:37,  2.98s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.4400072395801544, 'learning_rate': 2.4471996942804975e-05, 'epoch': 6.38}
 27%|██▋       | 20879/78504 [12:41:19<47:46:37,  2.98s/it] 27%|██▋       | 20880/78504 [12:41:21<45:52:55,  2.87s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.22288772463798523, 'learning_rate': 2.4471572332385037e-05, 'epoch': 6.38}
 27%|██▋       | 20880/78504 [12:41:21<45:52:55,  2.87s/it] 27%|██▋       | 20881/78504 [12:41:24<43:56:41,  2.75s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.6335301995277405, 'learning_rate': 2.4471147721965096e-05, 'epoch': 6.38}
 27%|██▋       | 20881/78504 [12:41:24<43:56:41,  2.75s/it] 27%|██▋       | 20882/78504 [12:41:26<41:38:45,  2.60s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.29078352451324463, 'learning_rate': 2.4470723111545158e-05, 'epoch': 6.38}
 27%|██▋       | 20882/78504 [12:41:26<41:38:45,  2.60s/it] 27%|██▋       | 20883/78504 [12:41:28<40:17:49,  2.52s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.9629629850387573, 'learning_rate': 2.4470298501125217e-05, 'epoch': 6.38}
 27%|██▋       | 20883/78504 [12:41:28<40:17:49,  2.52s/it] 27%|██▋       | 20884/78504 [12:41:30<38:14:54,  2.39s/it]                                                           {'loss': 0.0444, 'grad_norm': 0.15762904286384583, 'learning_rate': 2.446987389070528e-05, 'epoch': 6.38}
 27%|██▋       | 20884/78504 [12:41:30<38:14:54,  2.39s/it] 27%|██▋       | 20885/78504 [12:41:33<37:17:11,  2.33s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.3288898766040802, 'learning_rate': 2.4469449280285337e-05, 'epoch': 6.38}
 27%|██▋       | 20885/78504 [12:41:33<37:17:11,  2.33s/it] 27%|██▋       | 20886/78504 [12:41:35<36:22:21,  2.27s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.2522473633289337, 'learning_rate': 2.44690246698654e-05, 'epoch': 6.39}
 27%|██▋       | 20886/78504 [12:41:35<36:22:21,  2.27s/it] 27%|██▋       | 20887/78504 [12:41:37<35:12:06,  2.20s/it]                                                           {'loss': 0.0982, 'grad_norm': 0.40743783116340637, 'learning_rate': 2.4468600059445458e-05, 'epoch': 6.39}
 27%|██▋       | 20887/78504 [12:41:37<35:12:06,  2.20s/it] 27%|██▋       | 20888/78504 [12:41:39<34:08:06,  2.13s/it]                                                           {'loss': 0.0771, 'grad_norm': 1.1068310737609863, 'learning_rate': 2.4468175449025517e-05, 'epoch': 6.39}
 27%|██▋       | 20888/78504 [12:41:39<34:08:06,  2.13s/it] 27%|██▋       | 20889/78504 [12:41:41<33:06:13,  2.07s/it]                                                           {'loss': 0.1148, 'grad_norm': 0.2642365097999573, 'learning_rate': 2.446775083860558e-05, 'epoch': 6.39}
 27%|██▋       | 20889/78504 [12:41:41<33:06:13,  2.07s/it] 27%|██▋       | 20890/78504 [12:41:43<32:12:24,  2.01s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.4598744809627533, 'learning_rate': 2.4467326228185638e-05, 'epoch': 6.39}
 27%|██▋       | 20890/78504 [12:41:43<32:12:24,  2.01s/it] 27%|██▋       | 20891/78504 [12:41:44<31:00:21,  1.94s/it]                                                           {'loss': 0.1197, 'grad_norm': 0.8053269386291504, 'learning_rate': 2.44669016177657e-05, 'epoch': 6.39}
 27%|██▋       | 20891/78504 [12:41:44<31:00:21,  1.94s/it] 27%|██▋       | 20892/78504 [12:41:46<29:35:07,  1.85s/it]                                                           {'loss': 0.1323, 'grad_norm': 0.7563912868499756, 'learning_rate': 2.446647700734576e-05, 'epoch': 6.39}
 27%|██▋       | 20892/78504 [12:41:46<29:35:07,  1.85s/it] 27%|██▋       | 20893/78504 [12:41:47<28:00:58,  1.75s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.40227070450782776, 'learning_rate': 2.446605239692582e-05, 'epoch': 6.39}
 27%|██▋       | 20893/78504 [12:41:47<28:00:58,  1.75s/it] 27%|██▋       | 20894/78504 [12:41:49<26:53:20,  1.68s/it]                                                           {'loss': 0.1564, 'grad_norm': 1.0295498371124268, 'learning_rate': 2.446562778650588e-05, 'epoch': 6.39}
 27%|██▋       | 20894/78504 [12:41:49<26:53:20,  1.68s/it] 27%|██▋       | 20895/78504 [12:41:50<25:36:11,  1.60s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.5338943600654602, 'learning_rate': 2.446520317608594e-05, 'epoch': 6.39}
 27%|██▋       | 20895/78504 [12:41:50<25:36:11,  1.60s/it] 27%|██▋       | 20896/78504 [12:41:52<24:06:56,  1.51s/it]                                                           {'loss': 0.1666, 'grad_norm': 0.6048856973648071, 'learning_rate': 2.4464778565666e-05, 'epoch': 6.39}
 27%|██▋       | 20896/78504 [12:41:52<24:06:56,  1.51s/it] 27%|██▋       | 20897/78504 [12:41:53<22:24:38,  1.40s/it]                                                           {'loss': 0.1865, 'grad_norm': 0.7623575329780579, 'learning_rate': 2.4464353955246062e-05, 'epoch': 6.39}
 27%|██▋       | 20897/78504 [12:41:53<22:24:38,  1.40s/it] 27%|██▋       | 20898/78504 [12:41:54<20:57:37,  1.31s/it]                                                           {'loss': 0.1771, 'grad_norm': 1.2240349054336548, 'learning_rate': 2.4463929344826124e-05, 'epoch': 6.39}
 27%|██▋       | 20898/78504 [12:41:54<20:57:37,  1.31s/it] 27%|██▋       | 20899/78504 [12:41:55<19:42:18,  1.23s/it]                                                           {'loss': 0.1766, 'grad_norm': 0.5403316020965576, 'learning_rate': 2.4463504734406183e-05, 'epoch': 6.39}
 27%|██▋       | 20899/78504 [12:41:55<19:42:18,  1.23s/it] 27%|██▋       | 20900/78504 [12:41:56<18:13:00,  1.14s/it]                                                           {'loss': 0.1696, 'grad_norm': 0.9294285178184509, 'learning_rate': 2.4463080123986245e-05, 'epoch': 6.39}
 27%|██▋       | 20900/78504 [12:41:56<18:13:00,  1.14s/it] 27%|██▋       | 20901/78504 [12:41:57<16:30:05,  1.03s/it]                                                           {'loss': 0.2068, 'grad_norm': 1.5928575992584229, 'learning_rate': 2.4462655513566304e-05, 'epoch': 6.39}
 27%|██▋       | 20901/78504 [12:41:57<16:30:05,  1.03s/it] 27%|██▋       | 20902/78504 [12:42:04<47:21:07,  2.96s/it]                                                           {'loss': 0.1273, 'grad_norm': 0.4389861226081848, 'learning_rate': 2.4462230903146366e-05, 'epoch': 6.39}
 27%|██▋       | 20902/78504 [12:42:04<47:21:07,  2.96s/it] 27%|██▋       | 20903/78504 [12:42:07<48:58:38,  3.06s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.18371862173080444, 'learning_rate': 2.4461806292726424e-05, 'epoch': 6.39}
 27%|██▋       | 20903/78504 [12:42:07<48:58:38,  3.06s/it] 27%|██▋       | 20904/78504 [12:42:10<48:36:11,  3.04s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.4088149964809418, 'learning_rate': 2.4461381682306487e-05, 'epoch': 6.39}
 27%|██▋       | 20904/78504 [12:42:10<48:36:11,  3.04s/it] 27%|██▋       | 20905/78504 [12:42:13<46:32:42,  2.91s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.2643793225288391, 'learning_rate': 2.4460957071886545e-05, 'epoch': 6.39}
 27%|██▋       | 20905/78504 [12:42:13<46:32:42,  2.91s/it] 27%|██▋       | 20906/78504 [12:42:16<44:26:24,  2.78s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.1651867777109146, 'learning_rate': 2.4460532461466607e-05, 'epoch': 6.39}
 27%|██▋       | 20906/78504 [12:42:16<44:26:24,  2.78s/it] 27%|██▋       | 20907/78504 [12:42:18<41:58:01,  2.62s/it]                                                           {'loss': 0.0343, 'grad_norm': 0.24067145586013794, 'learning_rate': 2.4460107851046666e-05, 'epoch': 6.39}
 27%|██▋       | 20907/78504 [12:42:18<41:58:01,  2.62s/it] 27%|██▋       | 20908/78504 [12:42:20<40:29:18,  2.53s/it]                                                           {'loss': 0.0743, 'grad_norm': 0.30842170119285583, 'learning_rate': 2.4459683240626728e-05, 'epoch': 6.39}
 27%|██▋       | 20908/78504 [12:42:20<40:29:18,  2.53s/it] 27%|██▋       | 20909/78504 [12:42:22<38:24:46,  2.40s/it]                                                           {'loss': 0.0466, 'grad_norm': 0.2775842845439911, 'learning_rate': 2.4459258630206787e-05, 'epoch': 6.39}
 27%|██▋       | 20909/78504 [12:42:22<38:24:46,  2.40s/it] 27%|██▋       | 20910/78504 [12:42:24<37:19:29,  2.33s/it]                                                           {'loss': 0.0737, 'grad_norm': 1.0951910018920898, 'learning_rate': 2.445883401978685e-05, 'epoch': 6.39}
 27%|██▋       | 20910/78504 [12:42:24<37:19:29,  2.33s/it] 27%|██▋       | 20911/78504 [12:42:27<36:33:14,  2.28s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.43480005860328674, 'learning_rate': 2.4458409409366908e-05, 'epoch': 6.39}
 27%|██▋       | 20911/78504 [12:42:27<36:33:14,  2.28s/it] 27%|██▋       | 20912/78504 [12:42:29<35:18:01,  2.21s/it]                                                           {'loss': 0.1166, 'grad_norm': 0.6323080062866211, 'learning_rate': 2.4457984798946966e-05, 'epoch': 6.39}
 27%|██▋       | 20912/78504 [12:42:29<35:18:01,  2.21s/it] 27%|██▋       | 20913/78504 [12:42:31<34:13:08,  2.14s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.2505916655063629, 'learning_rate': 2.445756018852703e-05, 'epoch': 6.39}
 27%|██▋       | 20913/78504 [12:42:31<34:13:08,  2.14s/it] 27%|██▋       | 20914/78504 [12:42:32<33:09:33,  2.07s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.2705225944519043, 'learning_rate': 2.4457135578107087e-05, 'epoch': 6.39}
 27%|██▋       | 20914/78504 [12:42:32<33:09:33,  2.07s/it] 27%|██▋       | 20915/78504 [12:42:34<32:07:47,  2.01s/it]                                                           {'loss': 0.1164, 'grad_norm': 0.4187723696231842, 'learning_rate': 2.445671096768715e-05, 'epoch': 6.39}
 27%|██▋       | 20915/78504 [12:42:34<32:07:47,  2.01s/it] 27%|██▋       | 20916/78504 [12:42:36<30:56:54,  1.93s/it]                                                           {'loss': 0.1174, 'grad_norm': 0.5521932244300842, 'learning_rate': 2.4456286357267208e-05, 'epoch': 6.39}
 27%|██▋       | 20916/78504 [12:42:36<30:56:54,  1.93s/it] 27%|██▋       | 20917/78504 [12:42:38<29:36:13,  1.85s/it]                                                           {'loss': 0.1305, 'grad_norm': 0.820152223110199, 'learning_rate': 2.445586174684727e-05, 'epoch': 6.39}
 27%|██▋       | 20917/78504 [12:42:38<29:36:13,  1.85s/it] 27%|██▋       | 20918/78504 [12:42:39<28:05:26,  1.76s/it]                                                           {'loss': 0.1485, 'grad_norm': 0.5626426935195923, 'learning_rate': 2.445543713642733e-05, 'epoch': 6.39}
 27%|██▋       | 20918/78504 [12:42:39<28:05:26,  1.76s/it] 27%|██▋       | 20919/78504 [12:42:41<26:40:37,  1.67s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.4893423020839691, 'learning_rate': 2.445501252600739e-05, 'epoch': 6.4}
 27%|██▋       | 20919/78504 [12:42:41<26:40:37,  1.67s/it] 27%|██▋       | 20920/78504 [12:42:42<25:22:33,  1.59s/it]                                                           {'loss': 0.1577, 'grad_norm': 1.0744307041168213, 'learning_rate': 2.445458791558745e-05, 'epoch': 6.4}
 27%|██▋       | 20920/78504 [12:42:42<25:22:33,  1.59s/it] 27%|██▋       | 20921/78504 [12:42:43<23:55:27,  1.50s/it]                                                           {'loss': 0.1917, 'grad_norm': 1.0428416728973389, 'learning_rate': 2.445416330516751e-05, 'epoch': 6.4}
 27%|██▋       | 20921/78504 [12:42:43<23:55:27,  1.50s/it] 27%|██▋       | 20922/78504 [12:42:45<22:15:33,  1.39s/it]                                                           {'loss': 0.1863, 'grad_norm': 0.792060911655426, 'learning_rate': 2.445373869474757e-05, 'epoch': 6.4}
 27%|██▋       | 20922/78504 [12:42:45<22:15:33,  1.39s/it] 27%|██▋       | 20923/78504 [12:42:46<20:49:05,  1.30s/it]                                                           {'loss': 0.1877, 'grad_norm': 0.6615444421768188, 'learning_rate': 2.4453314084327632e-05, 'epoch': 6.4}
 27%|██▋       | 20923/78504 [12:42:46<20:49:05,  1.30s/it] 27%|██▋       | 20924/78504 [12:42:47<19:23:17,  1.21s/it]                                                           {'loss': 0.1908, 'grad_norm': 3.0174639225006104, 'learning_rate': 2.445288947390769e-05, 'epoch': 6.4}
 27%|██▋       | 20924/78504 [12:42:47<19:23:17,  1.21s/it] 27%|██▋       | 20925/78504 [12:42:48<18:02:57,  1.13s/it]                                                           {'loss': 0.2222, 'grad_norm': 2.803884744644165, 'learning_rate': 2.445246486348775e-05, 'epoch': 6.4}
 27%|██▋       | 20925/78504 [12:42:48<18:02:57,  1.13s/it] 27%|██▋       | 20926/78504 [12:42:48<16:24:21,  1.03s/it]                                                           {'loss': 0.2077, 'grad_norm': 1.2058576345443726, 'learning_rate': 2.4452040253067812e-05, 'epoch': 6.4}
 27%|██▋       | 20926/78504 [12:42:48<16:24:21,  1.03s/it] 27%|██▋       | 20927/78504 [12:42:57<54:55:41,  3.43s/it]                                                           {'loss': 0.123, 'grad_norm': 0.34948837757110596, 'learning_rate': 2.445161564264787e-05, 'epoch': 6.4}
 27%|██▋       | 20927/78504 [12:42:57<54:55:41,  3.43s/it] 27%|██▋       | 20928/78504 [12:43:01<54:19:03,  3.40s/it]                                                           {'loss': 0.0708, 'grad_norm': 0.5455261468887329, 'learning_rate': 2.4451191032227933e-05, 'epoch': 6.4}
 27%|██▋       | 20928/78504 [12:43:01<54:19:03,  3.40s/it] 27%|██▋       | 20929/78504 [12:43:04<52:27:40,  3.28s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.3028753697872162, 'learning_rate': 2.445076642180799e-05, 'epoch': 6.4}
 27%|██▋       | 20929/78504 [12:43:04<52:27:40,  3.28s/it] 27%|██▋       | 20930/78504 [12:43:06<49:08:20,  3.07s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.3303554952144623, 'learning_rate': 2.4450341811388053e-05, 'epoch': 6.4}
 27%|██▋       | 20930/78504 [12:43:06<49:08:20,  3.07s/it] 27%|██▋       | 20931/78504 [12:43:09<46:12:24,  2.89s/it]                                                           {'loss': 0.054, 'grad_norm': 0.1941302865743637, 'learning_rate': 2.4449917200968112e-05, 'epoch': 6.4}
 27%|██▋       | 20931/78504 [12:43:09<46:12:24,  2.89s/it] 27%|██▋       | 20932/78504 [12:43:11<43:12:30,  2.70s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.33486422896385193, 'learning_rate': 2.4449492590548174e-05, 'epoch': 6.4}
 27%|██▋       | 20932/78504 [12:43:11<43:12:30,  2.70s/it] 27%|██▋       | 20933/78504 [12:43:13<41:23:48,  2.59s/it]                                                           {'loss': 0.0391, 'grad_norm': 2.237304449081421, 'learning_rate': 2.4449067980128233e-05, 'epoch': 6.4}
 27%|██▋       | 20933/78504 [12:43:13<41:23:48,  2.59s/it] 27%|██▋       | 20934/78504 [12:43:15<39:01:29,  2.44s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.2167193442583084, 'learning_rate': 2.4448643369708295e-05, 'epoch': 6.4}
 27%|██▋       | 20934/78504 [12:43:15<39:01:29,  2.44s/it] 27%|██▋       | 20935/78504 [12:43:18<37:50:41,  2.37s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.7899556159973145, 'learning_rate': 2.4448218759288354e-05, 'epoch': 6.4}
 27%|██▋       | 20935/78504 [12:43:18<37:50:41,  2.37s/it] 27%|██▋       | 20936/78504 [12:43:20<36:43:50,  2.30s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.5321210026741028, 'learning_rate': 2.4447794148868416e-05, 'epoch': 6.4}
 27%|██▋       | 20936/78504 [12:43:20<36:43:50,  2.30s/it] 27%|██▋       | 20937/78504 [12:43:22<35:15:33,  2.20s/it]                                                           {'loss': 0.0978, 'grad_norm': 0.4954352080821991, 'learning_rate': 2.4447369538448474e-05, 'epoch': 6.4}
 27%|██▋       | 20937/78504 [12:43:22<35:15:33,  2.20s/it] 27%|██▋       | 20938/78504 [12:43:24<33:53:09,  2.12s/it]                                                           {'loss': 0.107, 'grad_norm': 0.8271102905273438, 'learning_rate': 2.4446944928028533e-05, 'epoch': 6.4}
 27%|██▋       | 20938/78504 [12:43:24<33:53:09,  2.12s/it] 27%|██▋       | 20939/78504 [12:43:26<32:42:19,  2.05s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.23471355438232422, 'learning_rate': 2.4446520317608595e-05, 'epoch': 6.4}
 27%|██▋       | 20939/78504 [12:43:26<32:42:19,  2.05s/it] 27%|██▋       | 20940/78504 [12:43:27<31:40:07,  1.98s/it]                                                           {'loss': 0.1064, 'grad_norm': 0.5535313487052917, 'learning_rate': 2.4446095707188654e-05, 'epoch': 6.4}
 27%|██▋       | 20940/78504 [12:43:27<31:40:07,  1.98s/it] 27%|██▋       | 20941/78504 [12:43:29<30:39:03,  1.92s/it]                                                           {'loss': 0.1368, 'grad_norm': 0.9927694201469421, 'learning_rate': 2.4445671096768716e-05, 'epoch': 6.4}
 27%|██▋       | 20941/78504 [12:43:29<30:39:03,  1.92s/it] 27%|██▋       | 20942/78504 [12:43:31<29:18:34,  1.83s/it]                                                           {'loss': 0.1348, 'grad_norm': 0.5947354435920715, 'learning_rate': 2.4445246486348775e-05, 'epoch': 6.4}
 27%|██▋       | 20942/78504 [12:43:31<29:18:34,  1.83s/it] 27%|██▋       | 20943/78504 [12:43:32<27:54:11,  1.75s/it]                                                           {'loss': 0.1458, 'grad_norm': 0.7741236090660095, 'learning_rate': 2.4444821875928837e-05, 'epoch': 6.4}
 27%|██▋       | 20943/78504 [12:43:32<27:54:11,  1.75s/it] 27%|██▋       | 20944/78504 [12:43:34<26:34:44,  1.66s/it]                                                           {'loss': 0.1626, 'grad_norm': 1.5347063541412354, 'learning_rate': 2.4444397265508896e-05, 'epoch': 6.4}
 27%|██▋       | 20944/78504 [12:43:34<26:34:44,  1.66s/it] 27%|██▋       | 20945/78504 [12:43:35<25:23:41,  1.59s/it]                                                           {'loss': 0.1674, 'grad_norm': 0.4697580635547638, 'learning_rate': 2.4443972655088958e-05, 'epoch': 6.4}
 27%|██▋       | 20945/78504 [12:43:35<25:23:41,  1.59s/it] 27%|██▋       | 20946/78504 [12:43:37<23:56:27,  1.50s/it]                                                           {'loss': 0.1731, 'grad_norm': 0.8594868183135986, 'learning_rate': 2.4443548044669016e-05, 'epoch': 6.4}
 27%|██▋       | 20946/78504 [12:43:37<23:56:27,  1.50s/it] 27%|██▋       | 20947/78504 [12:43:38<22:17:37,  1.39s/it]                                                           {'loss': 0.1829, 'grad_norm': 0.8566654324531555, 'learning_rate': 2.444312343424908e-05, 'epoch': 6.4}
 27%|██▋       | 20947/78504 [12:43:38<22:17:37,  1.39s/it] 27%|██▋       | 20948/78504 [12:43:39<20:51:48,  1.30s/it]                                                           {'loss': 0.1875, 'grad_norm': 0.840917706489563, 'learning_rate': 2.4442698823829137e-05, 'epoch': 6.4}
 27%|██▋       | 20948/78504 [12:43:39<20:51:48,  1.30s/it] 27%|██▋       | 20949/78504 [12:43:40<19:20:57,  1.21s/it]                                                           {'loss': 0.178, 'grad_norm': 2.012878179550171, 'learning_rate': 2.44422742134092e-05, 'epoch': 6.4}
 27%|██▋       | 20949/78504 [12:43:40<19:20:57,  1.21s/it] 27%|██▋       | 20950/78504 [12:43:41<18:00:43,  1.13s/it]                                                           {'loss': 0.1991, 'grad_norm': 0.996599555015564, 'learning_rate': 2.4441849602989258e-05, 'epoch': 6.4}
 27%|██▋       | 20950/78504 [12:43:41<18:00:43,  1.13s/it] 27%|██▋       | 20951/78504 [12:43:42<16:28:31,  1.03s/it]                                                           {'loss': 0.2642, 'grad_norm': 2.073925733566284, 'learning_rate': 2.4441424992569317e-05, 'epoch': 6.41}
 27%|██▋       | 20951/78504 [12:43:42<16:28:31,  1.03s/it] 27%|██▋       | 20952/78504 [12:43:52<60:00:38,  3.75s/it]                                                           {'loss': 0.124, 'grad_norm': 0.4770854711532593, 'learning_rate': 2.444100038214938e-05, 'epoch': 6.41}
 27%|██▋       | 20952/78504 [12:43:52<60:00:38,  3.75s/it] 27%|██▋       | 20953/78504 [12:43:55<57:39:07,  3.61s/it]                                                           {'loss': 0.0926, 'grad_norm': 1.6834198236465454, 'learning_rate': 2.4440575771729437e-05, 'epoch': 6.41}
 27%|██▋       | 20953/78504 [12:43:55<57:39:07,  3.61s/it] 27%|██▋       | 20954/78504 [12:43:58<54:38:32,  3.42s/it]                                                           {'loss': 0.0647, 'grad_norm': 1.2110487222671509, 'learning_rate': 2.44401511613095e-05, 'epoch': 6.41}
 27%|██▋       | 20954/78504 [12:43:58<54:38:32,  3.42s/it] 27%|██▋       | 20955/78504 [12:44:00<50:47:53,  3.18s/it]                                                           {'loss': 0.0705, 'grad_norm': 0.8055396676063538, 'learning_rate': 2.4439726550889558e-05, 'epoch': 6.41}
 27%|██▋       | 20955/78504 [12:44:00<50:47:53,  3.18s/it] 27%|██▋       | 20956/78504 [12:44:03<47:21:59,  2.96s/it]                                                           {'loss': 0.0478, 'grad_norm': 0.2481374591588974, 'learning_rate': 2.443930194046962e-05, 'epoch': 6.41}
 27%|██▋       | 20956/78504 [12:44:03<47:21:59,  2.96s/it] 27%|██▋       | 20957/78504 [12:44:05<44:02:05,  2.75s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.3532992899417877, 'learning_rate': 2.443887733004968e-05, 'epoch': 6.41}
 27%|██▋       | 20957/78504 [12:44:05<44:02:05,  2.75s/it] 27%|██▋       | 20958/78504 [12:44:08<41:59:15,  2.63s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.40429946780204773, 'learning_rate': 2.443845271962974e-05, 'epoch': 6.41}
 27%|██▋       | 20958/78504 [12:44:08<41:59:15,  2.63s/it] 27%|██▋       | 20959/78504 [12:44:10<39:25:34,  2.47s/it]                                                           {'loss': 0.071, 'grad_norm': 0.8092073798179626, 'learning_rate': 2.44380281092098e-05, 'epoch': 6.41}
 27%|██▋       | 20959/78504 [12:44:10<39:25:34,  2.47s/it] 27%|██▋       | 20960/78504 [12:44:12<37:20:23,  2.34s/it]                                                           {'loss': 0.0741, 'grad_norm': 0.25486835837364197, 'learning_rate': 2.4437603498789862e-05, 'epoch': 6.41}
 27%|██▋       | 20960/78504 [12:44:12<37:20:23,  2.34s/it] 27%|██▋       | 20961/78504 [12:44:14<36:21:32,  2.27s/it]                                                           {'loss': 0.0421, 'grad_norm': 0.24176417291164398, 'learning_rate': 2.443717888836992e-05, 'epoch': 6.41}
 27%|██▋       | 20961/78504 [12:44:14<36:21:32,  2.27s/it] 27%|██▋       | 20962/78504 [12:44:16<35:11:30,  2.20s/it]                                                           {'loss': 0.087, 'grad_norm': 1.0445218086242676, 'learning_rate': 2.4436754277949983e-05, 'epoch': 6.41}
 27%|██▋       | 20962/78504 [12:44:16<35:11:30,  2.20s/it] 27%|██▋       | 20963/78504 [12:44:18<34:07:58,  2.14s/it]                                                           {'loss': 0.0715, 'grad_norm': 0.25016719102859497, 'learning_rate': 2.443632966753004e-05, 'epoch': 6.41}
 27%|██▋       | 20963/78504 [12:44:18<34:07:58,  2.14s/it] 27%|██▋       | 20964/78504 [12:44:20<32:47:47,  2.05s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.5545873045921326, 'learning_rate': 2.44359050571101e-05, 'epoch': 6.41}
 27%|██▋       | 20964/78504 [12:44:20<32:47:47,  2.05s/it] 27%|██▋       | 20965/78504 [12:44:22<31:55:40,  2.00s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.4359446167945862, 'learning_rate': 2.4435480446690162e-05, 'epoch': 6.41}
 27%|██▋       | 20965/78504 [12:44:22<31:55:40,  2.00s/it] 27%|██▋       | 20966/78504 [12:44:23<30:46:38,  1.93s/it]                                                           {'loss': 0.1338, 'grad_norm': 0.9792553186416626, 'learning_rate': 2.443505583627022e-05, 'epoch': 6.41}
 27%|██▋       | 20966/78504 [12:44:23<30:46:38,  1.93s/it] 27%|██▋       | 20967/78504 [12:44:25<29:07:27,  1.82s/it]                                                           {'loss': 0.108, 'grad_norm': 1.0446492433547974, 'learning_rate': 2.4434631225850283e-05, 'epoch': 6.41}
 27%|██▋       | 20967/78504 [12:44:25<29:07:27,  1.82s/it] 27%|██▋       | 20968/78504 [12:44:26<27:47:32,  1.74s/it]                                                           {'loss': 0.1793, 'grad_norm': 0.6228029131889343, 'learning_rate': 2.443420661543034e-05, 'epoch': 6.41}
 27%|██▋       | 20968/78504 [12:44:26<27:47:32,  1.74s/it] 27%|██▋       | 20969/78504 [12:44:28<26:30:07,  1.66s/it]                                                           {'loss': 0.1443, 'grad_norm': 0.4919849932193756, 'learning_rate': 2.4433782005010404e-05, 'epoch': 6.41}
 27%|██▋       | 20969/78504 [12:44:28<26:30:07,  1.66s/it] 27%|██▋       | 20970/78504 [12:44:29<25:13:30,  1.58s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.7031140923500061, 'learning_rate': 2.4433357394590462e-05, 'epoch': 6.41}
 27%|██▋       | 20970/78504 [12:44:29<25:13:30,  1.58s/it] 27%|██▋       | 20971/78504 [12:44:31<23:51:09,  1.49s/it]                                                           {'loss': 0.151, 'grad_norm': 0.589214026927948, 'learning_rate': 2.4432932784170524e-05, 'epoch': 6.41}
 27%|██▋       | 20971/78504 [12:44:31<23:51:09,  1.49s/it] 27%|██▋       | 20972/78504 [12:44:32<22:15:04,  1.39s/it]                                                           {'loss': 0.1722, 'grad_norm': 0.8298421502113342, 'learning_rate': 2.4432508173750583e-05, 'epoch': 6.41}
 27%|██▋       | 20972/78504 [12:44:32<22:15:04,  1.39s/it] 27%|██▋       | 20973/78504 [12:44:33<20:49:49,  1.30s/it]                                                           {'loss': 0.1682, 'grad_norm': 0.6949973702430725, 'learning_rate': 2.4432083563330645e-05, 'epoch': 6.41}
 27%|██▋       | 20973/78504 [12:44:33<20:49:49,  1.30s/it] 27%|██▋       | 20974/78504 [12:44:34<19:20:20,  1.21s/it]                                                           {'loss': 0.1936, 'grad_norm': 1.1325324773788452, 'learning_rate': 2.4431658952910704e-05, 'epoch': 6.41}
 27%|██▋       | 20974/78504 [12:44:34<19:20:20,  1.21s/it] 27%|██▋       | 20975/78504 [12:44:35<18:00:40,  1.13s/it]                                                           {'loss': 0.1696, 'grad_norm': 0.7531071901321411, 'learning_rate': 2.4431234342490766e-05, 'epoch': 6.41}
 27%|██▋       | 20975/78504 [12:44:35<18:00:40,  1.13s/it] 27%|██▋       | 20976/78504 [12:44:36<16:22:22,  1.02s/it]                                                           {'loss': 0.233, 'grad_norm': 1.4907678365707397, 'learning_rate': 2.4430809732070825e-05, 'epoch': 6.41}
 27%|██▋       | 20976/78504 [12:44:36<16:22:22,  1.02s/it] 27%|██▋       | 20977/78504 [12:44:44<53:21:46,  3.34s/it]                                                           {'loss': 0.1811, 'grad_norm': 0.4583301544189453, 'learning_rate': 2.4430385121650883e-05, 'epoch': 6.41}
 27%|██▋       | 20977/78504 [12:44:44<53:21:46,  3.34s/it] 27%|██▋       | 20978/78504 [12:44:48<53:09:47,  3.33s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.3427920639514923, 'learning_rate': 2.4429960511230946e-05, 'epoch': 6.41}
 27%|██▋       | 20978/78504 [12:44:48<53:09:47,  3.33s/it] 27%|██▋       | 20979/78504 [12:44:51<51:40:18,  3.23s/it]                                                           {'loss': 0.0815, 'grad_norm': 1.3025399446487427, 'learning_rate': 2.4429535900811004e-05, 'epoch': 6.41}
 27%|██▋       | 20979/78504 [12:44:51<51:40:18,  3.23s/it] 27%|██▋       | 20980/78504 [12:44:53<48:29:00,  3.03s/it]                                                           {'loss': 0.04, 'grad_norm': 0.5231608748435974, 'learning_rate': 2.4429111290391066e-05, 'epoch': 6.41}
 27%|██▋       | 20980/78504 [12:44:53<48:29:00,  3.03s/it] 27%|██▋       | 20981/78504 [12:44:56<45:48:56,  2.87s/it]                                                           {'loss': 0.0351, 'grad_norm': 0.14207690954208374, 'learning_rate': 2.4428686679971125e-05, 'epoch': 6.41}
 27%|██▋       | 20981/78504 [12:44:56<45:48:56,  2.87s/it] 27%|██▋       | 20982/78504 [12:44:58<43:42:15,  2.74s/it]                                                           {'loss': 0.0422, 'grad_norm': 0.24199821054935455, 'learning_rate': 2.4428262069551187e-05, 'epoch': 6.41}
 27%|██▋       | 20982/78504 [12:44:58<43:42:15,  2.74s/it] 27%|██▋       | 20983/78504 [12:45:00<41:41:41,  2.61s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.1719154715538025, 'learning_rate': 2.4427837459131246e-05, 'epoch': 6.41}
 27%|██▋       | 20983/78504 [12:45:00<41:41:41,  2.61s/it] 27%|██▋       | 20984/78504 [12:45:02<39:20:06,  2.46s/it]                                                           {'loss': 0.069, 'grad_norm': 0.20321805775165558, 'learning_rate': 2.4427412848711308e-05, 'epoch': 6.42}
 27%|██▋       | 20984/78504 [12:45:03<39:20:06,  2.46s/it] 27%|██▋       | 20985/78504 [12:45:05<38:00:29,  2.38s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.29996562004089355, 'learning_rate': 2.4426988238291367e-05, 'epoch': 6.42}
 27%|██▋       | 20985/78504 [12:45:05<38:00:29,  2.38s/it] 27%|██▋       | 20986/78504 [12:45:07<36:53:39,  2.31s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.86492919921875, 'learning_rate': 2.442656362787143e-05, 'epoch': 6.42}
 27%|██▋       | 20986/78504 [12:45:07<36:53:39,  2.31s/it] 27%|██▋       | 20987/78504 [12:45:09<35:33:39,  2.23s/it]                                                           {'loss': 0.0628, 'grad_norm': 1.0349539518356323, 'learning_rate': 2.4426139017451487e-05, 'epoch': 6.42}
 27%|██▋       | 20987/78504 [12:45:09<35:33:39,  2.23s/it] 27%|██▋       | 20988/78504 [12:45:11<34:23:24,  2.15s/it]                                                           {'loss': 0.0719, 'grad_norm': 0.4135187566280365, 'learning_rate': 2.442571440703155e-05, 'epoch': 6.42}
 27%|██▋       | 20988/78504 [12:45:11<34:23:24,  2.15s/it] 27%|██▋       | 20989/78504 [12:45:13<33:02:32,  2.07s/it]                                                           {'loss': 0.1258, 'grad_norm': 0.5115470290184021, 'learning_rate': 2.4425289796611608e-05, 'epoch': 6.42}
 27%|██▋       | 20989/78504 [12:45:13<33:02:32,  2.07s/it] 27%|██▋       | 20990/78504 [12:45:15<31:57:07,  2.00s/it]                                                           {'loss': 0.0993, 'grad_norm': 1.1505101919174194, 'learning_rate': 2.4424865186191667e-05, 'epoch': 6.42}
 27%|██▋       | 20990/78504 [12:45:15<31:57:07,  2.00s/it] 27%|██▋       | 20991/78504 [12:45:16<30:39:25,  1.92s/it]                                                           {'loss': 0.124, 'grad_norm': 0.3594244718551636, 'learning_rate': 2.442444057577173e-05, 'epoch': 6.42}
 27%|██▋       | 20991/78504 [12:45:16<30:39:25,  1.92s/it] 27%|██▋       | 20992/78504 [12:45:18<29:21:54,  1.84s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.3739723861217499, 'learning_rate': 2.4424015965351788e-05, 'epoch': 6.42}
 27%|██▋       | 20992/78504 [12:45:18<29:21:54,  1.84s/it] 27%|██▋       | 20993/78504 [12:45:19<27:50:31,  1.74s/it]                                                           {'loss': 0.1643, 'grad_norm': 0.8124770522117615, 'learning_rate': 2.442359135493185e-05, 'epoch': 6.42}
 27%|██▋       | 20993/78504 [12:45:19<27:50:31,  1.74s/it] 27%|██▋       | 20994/78504 [12:45:21<26:33:44,  1.66s/it]                                                           {'loss': 0.139, 'grad_norm': 3.407886266708374, 'learning_rate': 2.442316674451191e-05, 'epoch': 6.42}
 27%|██▋       | 20994/78504 [12:45:21<26:33:44,  1.66s/it] 27%|██▋       | 20995/78504 [12:45:22<25:12:53,  1.58s/it]                                                           {'loss': 0.1647, 'grad_norm': 0.5973469614982605, 'learning_rate': 2.442274213409197e-05, 'epoch': 6.42}
 27%|██▋       | 20995/78504 [12:45:22<25:12:53,  1.58s/it] 27%|██▋       | 20996/78504 [12:45:24<23:47:51,  1.49s/it]                                                           {'loss': 0.1798, 'grad_norm': 0.8993066549301147, 'learning_rate': 2.442231752367203e-05, 'epoch': 6.42}
 27%|██▋       | 20996/78504 [12:45:24<23:47:51,  1.49s/it] 27%|██▋       | 20997/78504 [12:45:25<22:08:37,  1.39s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.6276899576187134, 'learning_rate': 2.442189291325209e-05, 'epoch': 6.42}
 27%|██▋       | 20997/78504 [12:45:25<22:08:37,  1.39s/it] 27%|██▋       | 20998/78504 [12:45:26<20:44:10,  1.30s/it]                                                           {'loss': 0.1989, 'grad_norm': 0.9851887822151184, 'learning_rate': 2.442146830283215e-05, 'epoch': 6.42}
 27%|██▋       | 20998/78504 [12:45:26<20:44:10,  1.30s/it] 27%|██▋       | 20999/78504 [12:45:27<19:33:49,  1.22s/it]                                                           {'loss': 0.1803, 'grad_norm': 1.0412907600402832, 'learning_rate': 2.4421043692412212e-05, 'epoch': 6.42}
 27%|██▋       | 20999/78504 [12:45:27<19:33:49,  1.22s/it] 27%|██▋       | 21000/78504 [12:45:28<18:10:58,  1.14s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.9052855372428894, 'learning_rate': 2.4420619081992274e-05, 'epoch': 6.42}
 27%|██▋       | 21000/78504 [12:45:28<18:10:58,  1.14s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.55it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.78it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.72it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.89it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.19it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.64it/s][A
 53%|█████▎    | 8/15 [00:03<00:04,  1.61it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.80it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.16it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.45it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.56it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.84it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.23it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                           
                                               [A{'eval_loss': 0.2342015504837036, 'eval_wer': 0.3315829166783051, 'eval_cer': 0.18867358406162374, 'eval_runtime': 18.9244, 'eval_samples_per_second': 239.796, 'eval_steps_per_second': 0.793, 'epoch': 6.42}
 27%|██▋       | 21000/78504 [12:46:33<18:10:58,  1.14s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-21000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-20000] due to args.save_total_limit
 27%|██▋       | 21001/78504 [12:46:49<399:24:19, 25.00s/it]                                                            {'loss': 0.2155, 'grad_norm': 0.900945246219635, 'learning_rate': 2.4420194471572336e-05, 'epoch': 6.42}
 27%|██▋       | 21001/78504 [12:46:49<399:24:19, 25.00s/it] 27%|██▋       | 21002/78504 [12:46:56<317:22:27, 19.87s/it]                                                            {'loss': 0.1264, 'grad_norm': 0.8385405540466309, 'learning_rate': 2.4419769861152395e-05, 'epoch': 6.42}
 27%|██▋       | 21002/78504 [12:46:56<317:22:27, 19.87s/it] 27%|██▋       | 21003/78504 [12:47:00<238:30:42, 14.93s/it]                                                            {'loss': 0.0706, 'grad_norm': 0.34769541025161743, 'learning_rate': 2.4419345250732454e-05, 'epoch': 6.42}
 27%|██▋       | 21003/78504 [12:47:00<238:30:42, 14.93s/it] 27%|██▋       | 21004/78504 [12:47:03<180:55:56, 11.33s/it]                                                            {'loss': 0.0633, 'grad_norm': 0.6061612367630005, 'learning_rate': 2.4418920640312516e-05, 'epoch': 6.42}
 27%|██▋       | 21004/78504 [12:47:03<180:55:56, 11.33s/it] 27%|██▋       | 21005/78504 [12:47:05<138:57:40,  8.70s/it]                                                            {'loss': 0.0605, 'grad_norm': 0.1728285253047943, 'learning_rate': 2.4418496029892574e-05, 'epoch': 6.42}
 27%|██▋       | 21005/78504 [12:47:05<138:57:40,  8.70s/it] 27%|██▋       | 21006/78504 [12:47:08<109:06:18,  6.83s/it]                                                            {'loss': 0.0472, 'grad_norm': 0.24451500177383423, 'learning_rate': 2.4418071419472637e-05, 'epoch': 6.42}
 27%|██▋       | 21006/78504 [12:47:08<109:06:18,  6.83s/it] 27%|██▋       | 21007/78504 [12:47:10<87:56:33,  5.51s/it]                                                            {'loss': 0.0505, 'grad_norm': 0.5165807604789734, 'learning_rate': 2.4417646809052695e-05, 'epoch': 6.42}
 27%|██▋       | 21007/78504 [12:47:10<87:56:33,  5.51s/it] 27%|██▋       | 21008/78504 [12:47:13<72:41:01,  4.55s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.644522488117218, 'learning_rate': 2.4417222198632757e-05, 'epoch': 6.42}
 27%|██▋       | 21008/78504 [12:47:13<72:41:01,  4.55s/it] 27%|██▋       | 21009/78504 [12:47:15<60:54:39,  3.81s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.21140913665294647, 'learning_rate': 2.4416797588212816e-05, 'epoch': 6.42}
 27%|██▋       | 21009/78504 [12:47:15<60:54:39,  3.81s/it] 27%|██▋       | 21010/78504 [12:47:17<53:03:28,  3.32s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.7118785381317139, 'learning_rate': 2.4416372977792878e-05, 'epoch': 6.42}
 27%|██▋       | 21010/78504 [12:47:17<53:03:28,  3.32s/it] 27%|██▋       | 21011/78504 [12:47:19<47:22:17,  2.97s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.6465210914611816, 'learning_rate': 2.4415948367372937e-05, 'epoch': 6.42}
 27%|██▋       | 21011/78504 [12:47:19<47:22:17,  2.97s/it] 27%|██▋       | 21012/78504 [12:47:21<42:50:24,  2.68s/it]                                                           {'loss': 0.079, 'grad_norm': 0.4150407910346985, 'learning_rate': 2.4415523756953e-05, 'epoch': 6.42}
 27%|██▋       | 21012/78504 [12:47:21<42:50:24,  2.68s/it] 27%|██▋       | 21013/78504 [12:47:23<39:26:15,  2.47s/it]                                                           {'loss': 0.0764, 'grad_norm': 0.5677318572998047, 'learning_rate': 2.4415099146533058e-05, 'epoch': 6.42}
 27%|██▋       | 21013/78504 [12:47:23<39:26:15,  2.47s/it] 27%|██▋       | 21014/78504 [12:47:25<36:32:50,  2.29s/it]                                                           {'loss': 0.1021, 'grad_norm': 0.3003270924091339, 'learning_rate': 2.4414674536113116e-05, 'epoch': 6.42}
 27%|██▋       | 21014/78504 [12:47:25<36:32:50,  2.29s/it] 27%|██▋       | 21015/78504 [12:47:27<34:23:11,  2.15s/it]                                                           {'loss': 0.1211, 'grad_norm': 2.3295013904571533, 'learning_rate': 2.441424992569318e-05, 'epoch': 6.42}
 27%|██▋       | 21015/78504 [12:47:27<34:23:11,  2.15s/it] 27%|██▋       | 21016/78504 [12:47:28<32:32:57,  2.04s/it]                                                           {'loss': 0.1065, 'grad_norm': 0.8933654427528381, 'learning_rate': 2.4413825315273237e-05, 'epoch': 6.42}
 27%|██▋       | 21016/78504 [12:47:28<32:32:57,  2.04s/it] 27%|██▋       | 21017/78504 [12:47:30<30:37:48,  1.92s/it]                                                           {'loss': 0.1465, 'grad_norm': 0.7383325099945068, 'learning_rate': 2.44134007048533e-05, 'epoch': 6.43}
 27%|██▋       | 21017/78504 [12:47:30<30:37:48,  1.92s/it] 27%|██▋       | 21018/78504 [12:47:32<28:46:13,  1.80s/it]                                                           {'loss': 0.1624, 'grad_norm': 0.4500420391559601, 'learning_rate': 2.4412976094433358e-05, 'epoch': 6.43}
 27%|██▋       | 21018/78504 [12:47:32<28:46:13,  1.80s/it] 27%|██▋       | 21019/78504 [12:47:33<27:09:59,  1.70s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.5502668619155884, 'learning_rate': 2.441255148401342e-05, 'epoch': 6.43}
 27%|██▋       | 21019/78504 [12:47:33<27:09:59,  1.70s/it] 27%|██▋       | 21020/78504 [12:47:34<25:48:06,  1.62s/it]                                                           {'loss': 0.156, 'grad_norm': 0.8627225756645203, 'learning_rate': 2.441212687359348e-05, 'epoch': 6.43}
 27%|██▋       | 21020/78504 [12:47:34<25:48:06,  1.62s/it] 27%|██▋       | 21021/78504 [12:47:36<24:10:11,  1.51s/it]                                                           {'loss': 0.1833, 'grad_norm': 0.7447921633720398, 'learning_rate': 2.441170226317354e-05, 'epoch': 6.43}
 27%|██▋       | 21021/78504 [12:47:36<24:10:11,  1.51s/it] 27%|██▋       | 21022/78504 [12:47:37<22:17:44,  1.40s/it]                                                           {'loss': 0.1595, 'grad_norm': 0.45281049609184265, 'learning_rate': 2.44112776527536e-05, 'epoch': 6.43}
 27%|██▋       | 21022/78504 [12:47:37<22:17:44,  1.40s/it] 27%|██▋       | 21023/78504 [12:47:38<20:47:41,  1.30s/it]                                                           {'loss': 0.1702, 'grad_norm': 0.952216625213623, 'learning_rate': 2.441085304233366e-05, 'epoch': 6.43}
 27%|██▋       | 21023/78504 [12:47:38<20:47:41,  1.30s/it] 27%|██▋       | 21024/78504 [12:47:39<19:17:05,  1.21s/it]                                                           {'loss': 0.159, 'grad_norm': 0.7891136407852173, 'learning_rate': 2.441042843191372e-05, 'epoch': 6.43}
 27%|██▋       | 21024/78504 [12:47:39<19:17:05,  1.21s/it] 27%|██▋       | 21025/78504 [12:47:40<18:00:15,  1.13s/it]                                                           {'loss': 0.2175, 'grad_norm': 1.0049792528152466, 'learning_rate': 2.4410003821493782e-05, 'epoch': 6.43}
 27%|██▋       | 21025/78504 [12:47:40<18:00:15,  1.13s/it] 27%|██▋       | 21026/78504 [12:47:41<16:20:30,  1.02s/it]                                                           {'loss': 0.2293, 'grad_norm': 1.150678277015686, 'learning_rate': 2.440957921107384e-05, 'epoch': 6.43}
 27%|██▋       | 21026/78504 [12:47:41<16:20:30,  1.02s/it] 27%|██▋       | 21027/78504 [12:47:50<57:27:07,  3.60s/it]                                                           {'loss': 0.1411, 'grad_norm': 0.39033812284469604, 'learning_rate': 2.44091546006539e-05, 'epoch': 6.43}
 27%|██▋       | 21027/78504 [12:47:50<57:27:07,  3.60s/it] 27%|██▋       | 21028/78504 [12:47:54<56:13:42,  3.52s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.2557485103607178, 'learning_rate': 2.4408729990233962e-05, 'epoch': 6.43}
 27%|██▋       | 21028/78504 [12:47:54<56:13:42,  3.52s/it] 27%|██▋       | 21029/78504 [12:47:56<51:35:14,  3.23s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.15679402649402618, 'learning_rate': 2.440830537981402e-05, 'epoch': 6.43}
 27%|██▋       | 21029/78504 [12:47:56<51:35:14,  3.23s/it] 27%|██▋       | 21030/78504 [12:47:59<48:38:29,  3.05s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.8043853640556335, 'learning_rate': 2.4407880769394083e-05, 'epoch': 6.43}
 27%|██▋       | 21030/78504 [12:47:59<48:38:29,  3.05s/it] 27%|██▋       | 21031/78504 [12:48:01<45:48:44,  2.87s/it]                                                           {'loss': 0.0461, 'grad_norm': 0.8588950037956238, 'learning_rate': 2.440745615897414e-05, 'epoch': 6.43}
 27%|██▋       | 21031/78504 [12:48:01<45:48:44,  2.87s/it] 27%|██▋       | 21032/78504 [12:48:04<43:39:39,  2.73s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.2987615466117859, 'learning_rate': 2.4407031548554203e-05, 'epoch': 6.43}
 27%|██▋       | 21032/78504 [12:48:04<43:39:39,  2.73s/it] 27%|██▋       | 21033/78504 [12:48:06<41:39:24,  2.61s/it]                                                           {'loss': 0.0421, 'grad_norm': 0.2938638925552368, 'learning_rate': 2.4406606938134262e-05, 'epoch': 6.43}
 27%|██▋       | 21033/78504 [12:48:06<41:39:24,  2.61s/it] 27%|██▋       | 21034/78504 [12:48:08<40:08:56,  2.51s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.5555037260055542, 'learning_rate': 2.4406182327714324e-05, 'epoch': 6.43}
 27%|██▋       | 21034/78504 [12:48:08<40:08:56,  2.51s/it] 27%|██▋       | 21035/78504 [12:48:10<38:34:17,  2.42s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.2958492934703827, 'learning_rate': 2.4405757717294383e-05, 'epoch': 6.43}
 27%|██▋       | 21035/78504 [12:48:10<38:34:17,  2.42s/it] 27%|██▋       | 21036/78504 [12:48:13<37:19:38,  2.34s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.2664194405078888, 'learning_rate': 2.4405333106874445e-05, 'epoch': 6.43}
 27%|██▋       | 21036/78504 [12:48:13<37:19:38,  2.34s/it] 27%|██▋       | 21037/78504 [12:48:15<35:50:44,  2.25s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.33985042572021484, 'learning_rate': 2.4404908496454504e-05, 'epoch': 6.43}
 27%|██▋       | 21037/78504 [12:48:15<35:50:44,  2.25s/it] 27%|██▋       | 21038/78504 [12:48:17<34:34:56,  2.17s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.22911058366298676, 'learning_rate': 2.4404483886034566e-05, 'epoch': 6.43}
 27%|██▋       | 21038/78504 [12:48:17<34:34:56,  2.17s/it] 27%|██▋       | 21039/78504 [12:48:18<33:08:04,  2.08s/it]                                                           {'loss': 0.103, 'grad_norm': 0.8127742409706116, 'learning_rate': 2.4404059275614624e-05, 'epoch': 6.43}
 27%|██▋       | 21039/78504 [12:48:18<33:08:04,  2.08s/it] 27%|██▋       | 21040/78504 [12:48:20<32:02:28,  2.01s/it]                                                           {'loss': 0.1064, 'grad_norm': 0.4137517511844635, 'learning_rate': 2.4403634665194683e-05, 'epoch': 6.43}
 27%|██▋       | 21040/78504 [12:48:20<32:02:28,  2.01s/it] 27%|██▋       | 21041/78504 [12:48:22<30:53:32,  1.94s/it]                                                           {'loss': 0.1463, 'grad_norm': 0.5957220792770386, 'learning_rate': 2.4403210054774745e-05, 'epoch': 6.43}
 27%|██▋       | 21041/78504 [12:48:22<30:53:32,  1.94s/it] 27%|██▋       | 21042/78504 [12:48:24<29:27:02,  1.85s/it]                                                           {'loss': 0.1256, 'grad_norm': 1.5609619617462158, 'learning_rate': 2.4402785444354804e-05, 'epoch': 6.43}
 27%|██▋       | 21042/78504 [12:48:24<29:27:02,  1.85s/it] 27%|██▋       | 21043/78504 [12:48:25<27:54:12,  1.75s/it]                                                           {'loss': 0.1585, 'grad_norm': 0.44585365056991577, 'learning_rate': 2.4402360833934866e-05, 'epoch': 6.43}
 27%|██▋       | 21043/78504 [12:48:25<27:54:12,  1.75s/it] 27%|██▋       | 21044/78504 [12:48:27<26:21:24,  1.65s/it]                                                           {'loss': 0.1812, 'grad_norm': 0.6135515570640564, 'learning_rate': 2.4401936223514925e-05, 'epoch': 6.43}
 27%|██▋       | 21044/78504 [12:48:27<26:21:24,  1.65s/it] 27%|██▋       | 21045/78504 [12:48:28<25:12:03,  1.58s/it]                                                           {'loss': 0.1757, 'grad_norm': 1.0240330696105957, 'learning_rate': 2.4401511613094987e-05, 'epoch': 6.43}
 27%|██▋       | 21045/78504 [12:48:28<25:12:03,  1.58s/it] 27%|██▋       | 21046/78504 [12:48:29<23:29:41,  1.47s/it]                                                           {'loss': 0.164, 'grad_norm': 0.7277366518974304, 'learning_rate': 2.4401087002675046e-05, 'epoch': 6.43}
 27%|██▋       | 21046/78504 [12:48:29<23:29:41,  1.47s/it] 27%|██▋       | 21047/78504 [12:48:30<21:51:05,  1.37s/it]                                                           {'loss': 0.1574, 'grad_norm': 1.0739461183547974, 'learning_rate': 2.4400662392255108e-05, 'epoch': 6.43}
 27%|██▋       | 21047/78504 [12:48:30<21:51:05,  1.37s/it] 27%|██▋       | 21048/78504 [12:48:31<20:30:53,  1.29s/it]                                                           {'loss': 0.1793, 'grad_norm': 0.8486257791519165, 'learning_rate': 2.4400237781835166e-05, 'epoch': 6.43}
 27%|██▋       | 21048/78504 [12:48:32<20:30:53,  1.29s/it] 27%|██▋       | 21049/78504 [12:48:32<19:05:34,  1.20s/it]                                                           {'loss': 0.2013, 'grad_norm': 1.1004884243011475, 'learning_rate': 2.439981317141523e-05, 'epoch': 6.44}
 27%|██▋       | 21049/78504 [12:48:33<19:05:34,  1.20s/it] 27%|██▋       | 21050/78504 [12:48:33<17:48:45,  1.12s/it]                                                           {'loss': 0.2157, 'grad_norm': 0.9021925926208496, 'learning_rate': 2.4399388560995287e-05, 'epoch': 6.44}
 27%|██▋       | 21050/78504 [12:48:33<17:48:45,  1.12s/it] 27%|██▋       | 21051/78504 [12:48:34<16:12:56,  1.02s/it]                                                           {'loss': 0.2175, 'grad_norm': 3.2436225414276123, 'learning_rate': 2.439896395057535e-05, 'epoch': 6.44}
 27%|██▋       | 21051/78504 [12:48:34<16:12:56,  1.02s/it] 27%|██▋       | 21052/78504 [12:48:43<51:22:52,  3.22s/it]                                                           {'loss': 0.1273, 'grad_norm': 0.4639446437358856, 'learning_rate': 2.4398539340155408e-05, 'epoch': 6.44}
 27%|██▋       | 21052/78504 [12:48:43<51:22:52,  3.22s/it] 27%|██▋       | 21053/78504 [12:48:46<50:57:34,  3.19s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.3214331865310669, 'learning_rate': 2.4398114729735467e-05, 'epoch': 6.44}
 27%|██▋       | 21053/78504 [12:48:46<50:57:34,  3.19s/it] 27%|██▋       | 21054/78504 [12:48:49<50:06:22,  3.14s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.17591001093387604, 'learning_rate': 2.439769011931553e-05, 'epoch': 6.44}
 27%|██▋       | 21054/78504 [12:48:49<50:06:22,  3.14s/it] 27%|██▋       | 21055/78504 [12:48:51<47:35:24,  2.98s/it]                                                           {'loss': 0.062, 'grad_norm': 0.32777875661849976, 'learning_rate': 2.4397265508895587e-05, 'epoch': 6.44}
 27%|██▋       | 21055/78504 [12:48:51<47:35:24,  2.98s/it] 27%|██▋       | 21056/78504 [12:48:54<45:06:39,  2.83s/it]                                                           {'loss': 0.0462, 'grad_norm': 0.31625083088874817, 'learning_rate': 2.439684089847565e-05, 'epoch': 6.44}
 27%|██▋       | 21056/78504 [12:48:54<45:06:39,  2.83s/it] 27%|██▋       | 21057/78504 [12:48:56<43:13:23,  2.71s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.34037840366363525, 'learning_rate': 2.4396416288055708e-05, 'epoch': 6.44}
 27%|██▋       | 21057/78504 [12:48:56<43:13:23,  2.71s/it] 27%|██▋       | 21058/78504 [12:48:59<41:23:43,  2.59s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.24832956492900848, 'learning_rate': 2.439599167763577e-05, 'epoch': 6.44}
 27%|██▋       | 21058/78504 [12:48:59<41:23:43,  2.59s/it] 27%|██▋       | 21059/78504 [12:49:01<40:00:35,  2.51s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.18948182463645935, 'learning_rate': 2.439556706721583e-05, 'epoch': 6.44}
 27%|██▋       | 21059/78504 [12:49:01<40:00:35,  2.51s/it] 27%|██▋       | 21060/78504 [12:49:03<38:27:29,  2.41s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.1696087121963501, 'learning_rate': 2.439514245679589e-05, 'epoch': 6.44}
 27%|██▋       | 21060/78504 [12:49:03<38:27:29,  2.41s/it] 27%|██▋       | 21061/78504 [12:49:05<37:10:36,  2.33s/it]                                                           {'loss': 0.0856, 'grad_norm': 0.49500882625579834, 'learning_rate': 2.439471784637595e-05, 'epoch': 6.44}
 27%|██▋       | 21061/78504 [12:49:05<37:10:36,  2.33s/it] 27%|██▋       | 21062/78504 [12:49:07<34:55:30,  2.19s/it]                                                           {'loss': 0.1212, 'grad_norm': 0.3146938681602478, 'learning_rate': 2.4394293235956012e-05, 'epoch': 6.44}
 27%|██▋       | 21062/78504 [12:49:07<34:55:30,  2.19s/it] 27%|██▋       | 21063/78504 [12:49:09<33:57:13,  2.13s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.5197005271911621, 'learning_rate': 2.439386862553607e-05, 'epoch': 6.44}
 27%|██▋       | 21063/78504 [12:49:09<33:57:13,  2.13s/it] 27%|██▋       | 21064/78504 [12:49:11<32:45:55,  2.05s/it]                                                           {'loss': 0.0867, 'grad_norm': 0.3072299063205719, 'learning_rate': 2.4393444015116133e-05, 'epoch': 6.44}
 27%|██▋       | 21064/78504 [12:49:11<32:45:55,  2.05s/it] 27%|██▋       | 21065/78504 [12:49:13<31:54:04,  2.00s/it]                                                           {'loss': 0.0982, 'grad_norm': 0.4778369069099426, 'learning_rate': 2.439301940469619e-05, 'epoch': 6.44}
 27%|██▋       | 21065/78504 [12:49:13<31:54:04,  2.00s/it] 27%|██▋       | 21066/78504 [12:49:15<30:47:25,  1.93s/it]                                                           {'loss': 0.0935, 'grad_norm': 1.1907615661621094, 'learning_rate': 2.439259479427625e-05, 'epoch': 6.44}
 27%|██▋       | 21066/78504 [12:49:15<30:47:25,  1.93s/it] 27%|██▋       | 21067/78504 [12:49:16<29:27:34,  1.85s/it]                                                           {'loss': 0.1297, 'grad_norm': 0.4020076096057892, 'learning_rate': 2.4392170183856312e-05, 'epoch': 6.44}
 27%|██▋       | 21067/78504 [12:49:16<29:27:34,  1.85s/it] 27%|██▋       | 21068/78504 [12:49:18<28:00:37,  1.76s/it]                                                           {'loss': 0.1518, 'grad_norm': 0.5872511267662048, 'learning_rate': 2.439174557343637e-05, 'epoch': 6.44}
 27%|██▋       | 21068/78504 [12:49:18<28:00:37,  1.76s/it] 27%|██▋       | 21069/78504 [12:49:19<26:38:26,  1.67s/it]                                                           {'loss': 0.1629, 'grad_norm': 0.9960411787033081, 'learning_rate': 2.4391320963016433e-05, 'epoch': 6.44}
 27%|██▋       | 21069/78504 [12:49:19<26:38:26,  1.67s/it] 27%|██▋       | 21070/78504 [12:49:21<25:27:42,  1.60s/it]                                                           {'loss': 0.1751, 'grad_norm': 0.7921140789985657, 'learning_rate': 2.439089635259649e-05, 'epoch': 6.44}
 27%|██▋       | 21070/78504 [12:49:21<25:27:42,  1.60s/it] 27%|██▋       | 21071/78504 [12:49:22<23:41:58,  1.49s/it]                                                           {'loss': 0.1693, 'grad_norm': 0.9016783833503723, 'learning_rate': 2.4390471742176554e-05, 'epoch': 6.44}
 27%|██▋       | 21071/78504 [12:49:22<23:41:58,  1.49s/it] 27%|██▋       | 21072/78504 [12:49:23<22:05:34,  1.38s/it]                                                           {'loss': 0.1702, 'grad_norm': 0.7743616104125977, 'learning_rate': 2.4390047131756612e-05, 'epoch': 6.44}
 27%|██▋       | 21072/78504 [12:49:23<22:05:34,  1.38s/it] 27%|██▋       | 21073/78504 [12:49:24<20:45:21,  1.30s/it]                                                           {'loss': 0.202, 'grad_norm': 1.034303903579712, 'learning_rate': 2.4389622521336675e-05, 'epoch': 6.44}
 27%|██▋       | 21073/78504 [12:49:24<20:45:21,  1.30s/it] 27%|██▋       | 21074/78504 [12:49:25<19:17:08,  1.21s/it]                                                           {'loss': 0.188, 'grad_norm': 1.3581154346466064, 'learning_rate': 2.4389197910916733e-05, 'epoch': 6.44}
 27%|██▋       | 21074/78504 [12:49:25<19:17:08,  1.21s/it] 27%|██▋       | 21075/78504 [12:49:26<18:01:34,  1.13s/it]                                                           {'loss': 0.1717, 'grad_norm': 1.2159839868545532, 'learning_rate': 2.4388773300496795e-05, 'epoch': 6.44}
 27%|██▋       | 21075/78504 [12:49:26<18:01:34,  1.13s/it] 27%|██▋       | 21076/78504 [12:49:27<16:15:36,  1.02s/it]                                                           {'loss': 0.2777, 'grad_norm': 2.840715169906616, 'learning_rate': 2.4388348690076854e-05, 'epoch': 6.44}
 27%|██▋       | 21076/78504 [12:49:27<16:15:36,  1.02s/it] 27%|██▋       | 21077/78504 [12:49:37<58:51:00,  3.69s/it]                                                           {'loss': 0.1224, 'grad_norm': 0.2984501123428345, 'learning_rate': 2.4387924079656916e-05, 'epoch': 6.44}
 27%|██▋       | 21077/78504 [12:49:37<58:51:00,  3.69s/it] 27%|██▋       | 21078/78504 [12:49:40<56:10:58,  3.52s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.3564610183238983, 'learning_rate': 2.4387499469236975e-05, 'epoch': 6.44}
 27%|██▋       | 21078/78504 [12:49:40<56:10:58,  3.52s/it] 27%|██▋       | 21079/78504 [12:49:42<51:38:08,  3.24s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.3684658706188202, 'learning_rate': 2.4387074858817033e-05, 'epoch': 6.44}
 27%|██▋       | 21079/78504 [12:49:42<51:38:08,  3.24s/it] 27%|██▋       | 21080/78504 [12:49:45<48:39:33,  3.05s/it]                                                           {'loss': 0.0712, 'grad_norm': 0.2812865674495697, 'learning_rate': 2.4386650248397096e-05, 'epoch': 6.44}
 27%|██▋       | 21080/78504 [12:49:45<48:39:33,  3.05s/it] 27%|██▋       | 21081/78504 [12:49:48<45:53:30,  2.88s/it]                                                           {'loss': 0.0596, 'grad_norm': 0.18568815290927887, 'learning_rate': 2.4386225637977154e-05, 'epoch': 6.44}
 27%|██▋       | 21081/78504 [12:49:48<45:53:30,  2.88s/it] 27%|██▋       | 21082/78504 [12:49:50<42:56:43,  2.69s/it]                                                           {'loss': 0.0648, 'grad_norm': 0.3036751449108124, 'learning_rate': 2.4385801027557216e-05, 'epoch': 6.45}
 27%|██▋       | 21082/78504 [12:49:50<42:56:43,  2.69s/it] 27%|██▋       | 21083/78504 [12:49:52<41:08:32,  2.58s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.2439431995153427, 'learning_rate': 2.4385376417137275e-05, 'epoch': 6.45}
 27%|██▋       | 21083/78504 [12:49:52<41:08:32,  2.58s/it] 27%|██▋       | 21084/78504 [12:49:54<38:49:42,  2.43s/it]                                                           {'loss': 0.0416, 'grad_norm': 0.23463274538516998, 'learning_rate': 2.4384951806717337e-05, 'epoch': 6.45}
 27%|██▋       | 21084/78504 [12:49:54<38:49:42,  2.43s/it] 27%|██▋       | 21085/78504 [12:49:56<36:52:57,  2.31s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.376630961894989, 'learning_rate': 2.4384527196297396e-05, 'epoch': 6.45}
 27%|██▋       | 21085/78504 [12:49:56<36:52:57,  2.31s/it] 27%|██▋       | 21086/78504 [12:49:58<36:03:27,  2.26s/it]                                                           {'loss': 0.0669, 'grad_norm': 0.6959889531135559, 'learning_rate': 2.4384102585877458e-05, 'epoch': 6.45}
 27%|██▋       | 21086/78504 [12:49:58<36:03:27,  2.26s/it] 27%|██▋       | 21087/78504 [12:50:00<34:44:43,  2.18s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.24960863590240479, 'learning_rate': 2.4383677975457517e-05, 'epoch': 6.45}
 27%|██▋       | 21087/78504 [12:50:00<34:44:43,  2.18s/it] 27%|██▋       | 21088/78504 [12:50:02<32:56:34,  2.07s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.3386487364768982, 'learning_rate': 2.438325336503758e-05, 'epoch': 6.45}
 27%|██▋       | 21088/78504 [12:50:02<32:56:34,  2.07s/it] 27%|██▋       | 21089/78504 [12:50:04<32:00:08,  2.01s/it]                                                           {'loss': 0.0999, 'grad_norm': 0.6030732989311218, 'learning_rate': 2.4382828754617637e-05, 'epoch': 6.45}
 27%|██▋       | 21089/78504 [12:50:04<32:00:08,  2.01s/it] 27%|██▋       | 21090/78504 [12:50:06<31:23:33,  1.97s/it]                                                           {'loss': 0.1487, 'grad_norm': 0.87702876329422, 'learning_rate': 2.43824041441977e-05, 'epoch': 6.45}
 27%|██▋       | 21090/78504 [12:50:06<31:23:33,  1.97s/it] 27%|██▋       | 21091/78504 [12:50:08<30:25:46,  1.91s/it]                                                           {'loss': 0.1003, 'grad_norm': 1.2755635976791382, 'learning_rate': 2.4381979533777758e-05, 'epoch': 6.45}
 27%|██▋       | 21091/78504 [12:50:08<30:25:46,  1.91s/it] 27%|██▋       | 21092/78504 [12:50:09<29:13:26,  1.83s/it]                                                           {'loss': 0.1197, 'grad_norm': 0.76798415184021, 'learning_rate': 2.4381554923357817e-05, 'epoch': 6.45}
 27%|██▋       | 21092/78504 [12:50:09<29:13:26,  1.83s/it] 27%|██▋       | 21093/78504 [12:50:11<27:48:53,  1.74s/it]                                                           {'loss': 0.1591, 'grad_norm': 0.4681628346443176, 'learning_rate': 2.438113031293788e-05, 'epoch': 6.45}
 27%|██▋       | 21093/78504 [12:50:11<27:48:53,  1.74s/it] 27%|██▋       | 21094/78504 [12:50:12<26:28:01,  1.66s/it]                                                           {'loss': 0.136, 'grad_norm': 0.5950112342834473, 'learning_rate': 2.4380705702517938e-05, 'epoch': 6.45}
 27%|██▋       | 21094/78504 [12:50:12<26:28:01,  1.66s/it] 27%|██▋       | 21095/78504 [12:50:14<25:20:53,  1.59s/it]                                                           {'loss': 0.1551, 'grad_norm': 0.589030921459198, 'learning_rate': 2.4380281092098e-05, 'epoch': 6.45}
 27%|██▋       | 21095/78504 [12:50:14<25:20:53,  1.59s/it] 27%|██▋       | 21096/78504 [12:50:15<23:56:23,  1.50s/it]                                                           {'loss': 0.1545, 'grad_norm': 0.9314661622047424, 'learning_rate': 2.437985648167806e-05, 'epoch': 6.45}
 27%|██▋       | 21096/78504 [12:50:15<23:56:23,  1.50s/it] 27%|██▋       | 21097/78504 [12:50:16<22:16:12,  1.40s/it]                                                           {'loss': 0.1619, 'grad_norm': 1.1314061880111694, 'learning_rate': 2.437943187125812e-05, 'epoch': 6.45}
 27%|██▋       | 21097/78504 [12:50:16<22:16:12,  1.40s/it] 27%|██▋       | 21098/78504 [12:50:17<20:51:45,  1.31s/it]                                                           {'loss': 0.1754, 'grad_norm': 0.8863416910171509, 'learning_rate': 2.437900726083818e-05, 'epoch': 6.45}
 27%|██▋       | 21098/78504 [12:50:17<20:51:45,  1.31s/it] 27%|██▋       | 21099/78504 [12:50:18<19:21:22,  1.21s/it]                                                           {'loss': 0.1611, 'grad_norm': 1.1803622245788574, 'learning_rate': 2.437858265041824e-05, 'epoch': 6.45}
 27%|██▋       | 21099/78504 [12:50:18<19:21:22,  1.21s/it] 27%|██▋       | 21100/78504 [12:50:19<18:01:12,  1.13s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.7805042266845703, 'learning_rate': 2.43781580399983e-05, 'epoch': 6.45}
 27%|██▋       | 21100/78504 [12:50:19<18:01:12,  1.13s/it] 27%|██▋       | 21101/78504 [12:50:20<16:22:54,  1.03s/it]                                                           {'loss': 0.2398, 'grad_norm': 1.3070231676101685, 'learning_rate': 2.4377733429578362e-05, 'epoch': 6.45}
 27%|██▋       | 21101/78504 [12:50:20<16:22:54,  1.03s/it] 27%|██▋       | 21102/78504 [12:50:29<55:49:49,  3.50s/it]                                                           {'loss': 0.109, 'grad_norm': 0.319174200296402, 'learning_rate': 2.4377308819158424e-05, 'epoch': 6.45}
 27%|██▋       | 21102/78504 [12:50:29<55:49:49,  3.50s/it] 27%|██▋       | 21103/78504 [12:50:33<55:07:29,  3.46s/it]                                                           {'loss': 0.0725, 'grad_norm': 0.22961270809173584, 'learning_rate': 2.4376884208738486e-05, 'epoch': 6.45}
 27%|██▋       | 21103/78504 [12:50:33<55:07:29,  3.46s/it] 27%|██▋       | 21104/78504 [12:50:36<53:00:38,  3.32s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.2593769133090973, 'learning_rate': 2.4376459598318545e-05, 'epoch': 6.45}
 27%|██▋       | 21104/78504 [12:50:36<53:00:38,  3.32s/it] 27%|██▋       | 21105/78504 [12:50:38<49:36:57,  3.11s/it]                                                           {'loss': 0.0783, 'grad_norm': 0.38287097215652466, 'learning_rate': 2.4376034987898604e-05, 'epoch': 6.45}
 27%|██▋       | 21105/78504 [12:50:38<49:36:57,  3.11s/it] 27%|██▋       | 21106/78504 [12:50:41<46:31:50,  2.92s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.18084017932415009, 'learning_rate': 2.4375610377478666e-05, 'epoch': 6.45}
 27%|██▋       | 21106/78504 [12:50:41<46:31:50,  2.92s/it] 27%|██▋       | 21107/78504 [12:50:43<43:24:39,  2.72s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.37445926666259766, 'learning_rate': 2.4375185767058725e-05, 'epoch': 6.45}
 27%|██▋       | 21107/78504 [12:50:43<43:24:39,  2.72s/it] 27%|██▋       | 21108/78504 [12:50:45<41:25:46,  2.60s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.23587492108345032, 'learning_rate': 2.4374761156638787e-05, 'epoch': 6.45}
 27%|██▋       | 21108/78504 [12:50:45<41:25:46,  2.60s/it] 27%|██▋       | 21109/78504 [12:50:47<39:07:01,  2.45s/it]                                                           {'loss': 0.056, 'grad_norm': 0.1700010597705841, 'learning_rate': 2.4374336546218845e-05, 'epoch': 6.45}
 27%|██▋       | 21109/78504 [12:50:47<39:07:01,  2.45s/it] 27%|██▋       | 21110/78504 [12:50:50<37:48:15,  2.37s/it]                                                           {'loss': 0.0718, 'grad_norm': 0.35836100578308105, 'learning_rate': 2.4373911935798907e-05, 'epoch': 6.45}
 27%|██▋       | 21110/78504 [12:50:50<37:48:15,  2.37s/it] 27%|██▋       | 21111/78504 [12:50:52<36:50:33,  2.31s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.3419038653373718, 'learning_rate': 2.4373487325378966e-05, 'epoch': 6.45}
 27%|██▋       | 21111/78504 [12:50:52<36:50:33,  2.31s/it] 27%|██▋       | 21112/78504 [12:50:54<34:39:51,  2.17s/it]                                                           {'loss': 0.0868, 'grad_norm': 0.2842985689640045, 'learning_rate': 2.4373062714959028e-05, 'epoch': 6.45}
 27%|██▋       | 21112/78504 [12:50:54<34:39:51,  2.17s/it] 27%|██▋       | 21113/78504 [12:50:56<33:44:11,  2.12s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.2802741229534149, 'learning_rate': 2.4372638104539087e-05, 'epoch': 6.45}
 27%|██▋       | 21113/78504 [12:50:56<33:44:11,  2.12s/it] 27%|██▋       | 21114/78504 [12:50:58<32:49:12,  2.06s/it]                                                           {'loss': 0.1094, 'grad_norm': 0.3051473796367645, 'learning_rate': 2.437221349411915e-05, 'epoch': 6.45}
 27%|██▋       | 21114/78504 [12:50:58<32:49:12,  2.06s/it] 27%|██▋       | 21115/78504 [12:50:59<31:51:54,  2.00s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.5988242626190186, 'learning_rate': 2.4371788883699208e-05, 'epoch': 6.46}
 27%|██▋       | 21115/78504 [12:50:59<31:51:54,  2.00s/it] 27%|██▋       | 21116/78504 [12:51:01<30:44:21,  1.93s/it]                                                           {'loss': 0.1349, 'grad_norm': 0.3546742796897888, 'learning_rate': 2.437136427327927e-05, 'epoch': 6.46}
 27%|██▋       | 21116/78504 [12:51:01<30:44:21,  1.93s/it] 27%|██▋       | 21117/78504 [12:51:03<29:05:25,  1.82s/it]                                                           {'loss': 0.1208, 'grad_norm': 0.47592130303382874, 'learning_rate': 2.437093966285933e-05, 'epoch': 6.46}
 27%|██▋       | 21117/78504 [12:51:03<29:05:25,  1.82s/it] 27%|██▋       | 21118/78504 [12:51:04<27:42:52,  1.74s/it]                                                           {'loss': 0.1365, 'grad_norm': 0.7901360988616943, 'learning_rate': 2.4370515052439387e-05, 'epoch': 6.46}
 27%|██▋       | 21118/78504 [12:51:04<27:42:52,  1.74s/it] 27%|██▋       | 21119/78504 [12:51:06<26:35:14,  1.67s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.5274546146392822, 'learning_rate': 2.437009044201945e-05, 'epoch': 6.46}
 27%|██▋       | 21119/78504 [12:51:06<26:35:14,  1.67s/it] 27%|██▋       | 21120/78504 [12:51:07<25:15:35,  1.58s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.6214151978492737, 'learning_rate': 2.4369665831599508e-05, 'epoch': 6.46}
 27%|██▋       | 21120/78504 [12:51:07<25:15:35,  1.58s/it] 27%|██▋       | 21121/78504 [12:51:08<23:49:31,  1.49s/it]                                                           {'loss': 0.1553, 'grad_norm': 0.8494945764541626, 'learning_rate': 2.436924122117957e-05, 'epoch': 6.46}
 27%|██▋       | 21121/78504 [12:51:08<23:49:31,  1.49s/it] 27%|██▋       | 21122/78504 [12:51:10<22:11:20,  1.39s/it]                                                           {'loss': 0.2114, 'grad_norm': 0.8504915237426758, 'learning_rate': 2.436881661075963e-05, 'epoch': 6.46}
 27%|██▋       | 21122/78504 [12:51:10<22:11:20,  1.39s/it] 27%|██▋       | 21123/78504 [12:51:11<20:48:27,  1.31s/it]                                                           {'loss': 0.1942, 'grad_norm': 1.2069203853607178, 'learning_rate': 2.436839200033969e-05, 'epoch': 6.46}
 27%|██▋       | 21123/78504 [12:51:11<20:48:27,  1.31s/it] 27%|██▋       | 21124/78504 [12:51:12<19:18:45,  1.21s/it]                                                           {'loss': 0.1904, 'grad_norm': 1.2964320182800293, 'learning_rate': 2.436796738991975e-05, 'epoch': 6.46}
 27%|██▋       | 21124/78504 [12:51:12<19:18:45,  1.21s/it] 27%|██▋       | 21125/78504 [12:51:13<18:00:52,  1.13s/it]                                                           {'loss': 0.1658, 'grad_norm': 0.7485326528549194, 'learning_rate': 2.436754277949981e-05, 'epoch': 6.46}
 27%|██▋       | 21125/78504 [12:51:13<18:00:52,  1.13s/it] 27%|██▋       | 21126/78504 [12:51:13<16:12:29,  1.02s/it]                                                           {'loss': 0.2204, 'grad_norm': 1.1776810884475708, 'learning_rate': 2.436711816907987e-05, 'epoch': 6.46}
 27%|██▋       | 21126/78504 [12:51:13<16:12:29,  1.02s/it] 27%|██▋       | 21127/78504 [12:51:21<48:22:16,  3.03s/it]                                                           {'loss': 0.163, 'grad_norm': 0.4840731620788574, 'learning_rate': 2.4366693558659932e-05, 'epoch': 6.46}
 27%|██▋       | 21127/78504 [12:51:21<48:22:16,  3.03s/it] 27%|██▋       | 21128/78504 [12:51:25<49:55:02,  3.13s/it]                                                           {'loss': 0.1147, 'grad_norm': 0.818253755569458, 'learning_rate': 2.436626894823999e-05, 'epoch': 6.46}
 27%|██▋       | 21128/78504 [12:51:25<49:55:02,  3.13s/it] 27%|██▋       | 21129/78504 [12:51:27<48:55:43,  3.07s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.5820049047470093, 'learning_rate': 2.4365844337820053e-05, 'epoch': 6.46}
 27%|██▋       | 21129/78504 [12:51:27<48:55:43,  3.07s/it] 27%|██▋       | 21130/78504 [12:51:30<46:34:27,  2.92s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.46738970279693604, 'learning_rate': 2.4365419727400112e-05, 'epoch': 6.46}
 27%|██▋       | 21130/78504 [12:51:30<46:34:27,  2.92s/it] 27%|██▋       | 21131/78504 [12:51:33<44:31:31,  2.79s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.3602985143661499, 'learning_rate': 2.436499511698017e-05, 'epoch': 6.46}
 27%|██▋       | 21131/78504 [12:51:33<44:31:31,  2.79s/it] 27%|██▋       | 21132/78504 [12:51:35<42:52:07,  2.69s/it]                                                           {'loss': 0.065, 'grad_norm': 0.2999561131000519, 'learning_rate': 2.4364570506560233e-05, 'epoch': 6.46}
 27%|██▋       | 21132/78504 [12:51:35<42:52:07,  2.69s/it] 27%|██▋       | 21133/78504 [12:51:37<41:07:07,  2.58s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.2027633786201477, 'learning_rate': 2.436414589614029e-05, 'epoch': 6.46}
 27%|██▋       | 21133/78504 [12:51:37<41:07:07,  2.58s/it] 27%|██▋       | 21134/78504 [12:51:40<39:47:55,  2.50s/it]                                                           {'loss': 0.1059, 'grad_norm': 2.447208881378174, 'learning_rate': 2.4363721285720353e-05, 'epoch': 6.46}
 27%|██▋       | 21134/78504 [12:51:40<39:47:55,  2.50s/it] 27%|██▋       | 21135/78504 [12:51:42<38:19:48,  2.41s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.32255396246910095, 'learning_rate': 2.4363296675300412e-05, 'epoch': 6.46}
 27%|██▋       | 21135/78504 [12:51:42<38:19:48,  2.41s/it] 27%|██▋       | 21136/78504 [12:51:44<37:12:11,  2.33s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.31852099299430847, 'learning_rate': 2.4362872064880474e-05, 'epoch': 6.46}
 27%|██▋       | 21136/78504 [12:51:44<37:12:11,  2.33s/it] 27%|██▋       | 21137/78504 [12:51:46<34:58:22,  2.19s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.498914897441864, 'learning_rate': 2.4362447454460533e-05, 'epoch': 6.46}
 27%|██▋       | 21137/78504 [12:51:46<34:58:22,  2.19s/it] 27%|██▋       | 21138/78504 [12:51:48<33:58:12,  2.13s/it]                                                           {'loss': 0.0848, 'grad_norm': 0.4104301333427429, 'learning_rate': 2.4362022844040595e-05, 'epoch': 6.46}
 27%|██▋       | 21138/78504 [12:51:48<33:58:12,  2.13s/it] 27%|██▋       | 21139/78504 [12:51:50<32:58:27,  2.07s/it]                                                           {'loss': 0.0864, 'grad_norm': 0.43690988421440125, 'learning_rate': 2.4361598233620654e-05, 'epoch': 6.46}
 27%|██▋       | 21139/78504 [12:51:50<32:58:27,  2.07s/it] 27%|██▋       | 21140/78504 [12:51:52<32:04:22,  2.01s/it]                                                           {'loss': 0.1171, 'grad_norm': 0.9984493255615234, 'learning_rate': 2.4361173623200716e-05, 'epoch': 6.46}
 27%|██▋       | 21140/78504 [12:51:52<32:04:22,  2.01s/it] 27%|██▋       | 21141/78504 [12:51:53<30:53:05,  1.94s/it]                                                           {'loss': 0.1446, 'grad_norm': 0.4175480902194977, 'learning_rate': 2.4360749012780775e-05, 'epoch': 6.46}
 27%|██▋       | 21141/78504 [12:51:53<30:53:05,  1.94s/it] 27%|██▋       | 21142/78504 [12:51:55<29:32:17,  1.85s/it]                                                           {'loss': 0.1026, 'grad_norm': 0.6759471297264099, 'learning_rate': 2.4360324402360833e-05, 'epoch': 6.46}
 27%|██▋       | 21142/78504 [12:51:55<29:32:17,  1.85s/it] 27%|██▋       | 21143/78504 [12:51:57<28:01:50,  1.76s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.4860764145851135, 'learning_rate': 2.4359899791940895e-05, 'epoch': 6.46}
 27%|██▋       | 21143/78504 [12:51:57<28:01:50,  1.76s/it] 27%|██▋       | 21144/78504 [12:51:58<26:38:23,  1.67s/it]                                                           {'loss': 0.1757, 'grad_norm': 0.5675286650657654, 'learning_rate': 2.4359475181520954e-05, 'epoch': 6.46}
 27%|██▋       | 21144/78504 [12:51:58<26:38:23,  1.67s/it] 27%|██▋       | 21145/78504 [12:51:59<25:22:47,  1.59s/it]                                                           {'loss': 0.1356, 'grad_norm': 0.4308995008468628, 'learning_rate': 2.4359050571101016e-05, 'epoch': 6.46}
 27%|██▋       | 21145/78504 [12:51:59<25:22:47,  1.59s/it] 27%|██▋       | 21146/78504 [12:52:01<23:55:27,  1.50s/it]                                                           {'loss': 0.1712, 'grad_norm': 0.8614185452461243, 'learning_rate': 2.4358625960681075e-05, 'epoch': 6.46}
 27%|██▋       | 21146/78504 [12:52:01<23:55:27,  1.50s/it] 27%|██▋       | 21147/78504 [12:52:02<22:12:32,  1.39s/it]                                                           {'loss': 0.1906, 'grad_norm': 0.4983447194099426, 'learning_rate': 2.4358201350261137e-05, 'epoch': 6.46}
 27%|██▋       | 21147/78504 [12:52:02<22:12:32,  1.39s/it] 27%|██▋       | 21148/78504 [12:52:03<20:45:24,  1.30s/it]                                                           {'loss': 0.1504, 'grad_norm': 0.6957868933677673, 'learning_rate': 2.4357776739841196e-05, 'epoch': 6.47}
 27%|██▋       | 21148/78504 [12:52:03<20:45:24,  1.30s/it] 27%|██▋       | 21149/78504 [12:52:04<19:33:59,  1.23s/it]                                                           {'loss': 0.1778, 'grad_norm': 0.47280353307724, 'learning_rate': 2.4357352129421258e-05, 'epoch': 6.47}
 27%|██▋       | 21149/78504 [12:52:04<19:33:59,  1.23s/it] 27%|██▋       | 21150/78504 [12:52:05<18:07:51,  1.14s/it]                                                           {'loss': 0.1645, 'grad_norm': 1.0648672580718994, 'learning_rate': 2.4356927519001316e-05, 'epoch': 6.47}
 27%|██▋       | 21150/78504 [12:52:05<18:07:51,  1.14s/it] 27%|██▋       | 21151/78504 [12:52:06<16:26:10,  1.03s/it]                                                           {'loss': 0.2418, 'grad_norm': 0.9849948287010193, 'learning_rate': 2.435650290858138e-05, 'epoch': 6.47}
 27%|██▋       | 21151/78504 [12:52:06<16:26:10,  1.03s/it] 27%|██▋       | 21152/78504 [12:52:15<56:30:36,  3.55s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.4942988157272339, 'learning_rate': 2.4356078298161437e-05, 'epoch': 6.47}
 27%|██▋       | 21152/78504 [12:52:15<56:30:36,  3.55s/it] 27%|██▋       | 21153/78504 [12:52:18<53:25:34,  3.35s/it]                                                           {'loss': 0.089, 'grad_norm': 0.6881023049354553, 'learning_rate': 2.43556536877415e-05, 'epoch': 6.47}
 27%|██▋       | 21153/78504 [12:52:18<53:25:34,  3.35s/it] 27%|██▋       | 21154/78504 [12:52:21<49:40:12,  3.12s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.4248145818710327, 'learning_rate': 2.4355229077321558e-05, 'epoch': 6.47}
 27%|██▋       | 21154/78504 [12:52:21<49:40:12,  3.12s/it] 27%|██▋       | 21155/78504 [12:52:23<47:16:56,  2.97s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.5786542296409607, 'learning_rate': 2.4354804466901617e-05, 'epoch': 6.47}
 27%|██▋       | 21155/78504 [12:52:23<47:16:56,  2.97s/it] 27%|██▋       | 21156/78504 [12:52:26<44:53:11,  2.82s/it]                                                           {'loss': 0.0338, 'grad_norm': 0.10637341439723969, 'learning_rate': 2.435437985648168e-05, 'epoch': 6.47}
 27%|██▋       | 21156/78504 [12:52:26<44:53:11,  2.82s/it] 27%|██▋       | 21157/78504 [12:52:28<42:14:48,  2.65s/it]                                                           {'loss': 0.0537, 'grad_norm': 0.246757373213768, 'learning_rate': 2.4353955246061737e-05, 'epoch': 6.47}
 27%|██▋       | 21157/78504 [12:52:28<42:14:48,  2.65s/it] 27%|██▋       | 21158/78504 [12:52:30<40:41:21,  2.55s/it]                                                           {'loss': 0.0349, 'grad_norm': 0.12246604263782501, 'learning_rate': 2.43535306356418e-05, 'epoch': 6.47}
 27%|██▋       | 21158/78504 [12:52:30<40:41:21,  2.55s/it] 27%|██▋       | 21159/78504 [12:52:33<39:16:37,  2.47s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.21032683551311493, 'learning_rate': 2.4353106025221858e-05, 'epoch': 6.47}
 27%|██▋       | 21159/78504 [12:52:33<39:16:37,  2.47s/it] 27%|██▋       | 21160/78504 [12:52:35<37:57:37,  2.38s/it]                                                           {'loss': 0.0648, 'grad_norm': 0.2084798365831375, 'learning_rate': 2.435268141480192e-05, 'epoch': 6.47}
 27%|██▋       | 21160/78504 [12:52:35<37:57:37,  2.38s/it] 27%|██▋       | 21161/78504 [12:52:37<35:48:54,  2.25s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.3045758605003357, 'learning_rate': 2.435225680438198e-05, 'epoch': 6.47}
 27%|██▋       | 21161/78504 [12:52:37<35:48:54,  2.25s/it] 27%|██▋       | 21162/78504 [12:52:39<34:32:47,  2.17s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.5170230269432068, 'learning_rate': 2.435183219396204e-05, 'epoch': 6.47}
 27%|██▋       | 21162/78504 [12:52:39<34:32:47,  2.17s/it] 27%|██▋       | 21163/78504 [12:52:41<33:21:05,  2.09s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.3225102722644806, 'learning_rate': 2.43514075835421e-05, 'epoch': 6.47}
 27%|██▋       | 21163/78504 [12:52:41<33:21:05,  2.09s/it] 27%|██▋       | 21164/78504 [12:52:42<32:18:00,  2.03s/it]                                                           {'loss': 0.1314, 'grad_norm': 0.7961736917495728, 'learning_rate': 2.4350982973122162e-05, 'epoch': 6.47}
 27%|██▋       | 21164/78504 [12:52:42<32:18:00,  2.03s/it] 27%|██▋       | 21165/78504 [12:52:44<30:41:11,  1.93s/it]                                                           {'loss': 0.1189, 'grad_norm': 1.5090020895004272, 'learning_rate': 2.435055836270222e-05, 'epoch': 6.47}
 27%|██▋       | 21165/78504 [12:52:44<30:41:11,  1.93s/it] 27%|██▋       | 21166/78504 [12:52:46<29:56:53,  1.88s/it]                                                           {'loss': 0.127, 'grad_norm': 0.910624086856842, 'learning_rate': 2.4350133752282283e-05, 'epoch': 6.47}
 27%|██▋       | 21166/78504 [12:52:46<29:56:53,  1.88s/it] 27%|██▋       | 21167/78504 [12:52:48<28:49:08,  1.81s/it]                                                           {'loss': 0.118, 'grad_norm': 0.41668635606765747, 'learning_rate': 2.434970914186234e-05, 'epoch': 6.47}
 27%|██▋       | 21167/78504 [12:52:48<28:49:08,  1.81s/it] 27%|██▋       | 21168/78504 [12:52:49<27:25:58,  1.72s/it]                                                           {'loss': 0.1493, 'grad_norm': 0.38670167326927185, 'learning_rate': 2.43492845314424e-05, 'epoch': 6.47}
 27%|██▋       | 21168/78504 [12:52:49<27:25:58,  1.72s/it] 27%|██▋       | 21169/78504 [12:52:51<26:14:08,  1.65s/it]                                                           {'loss': 0.1749, 'grad_norm': 0.48303940892219543, 'learning_rate': 2.4348859921022462e-05, 'epoch': 6.47}
 27%|██▋       | 21169/78504 [12:52:51<26:14:08,  1.65s/it] 27%|██▋       | 21170/78504 [12:52:52<25:06:31,  1.58s/it]                                                           {'loss': 0.1674, 'grad_norm': 0.7110071778297424, 'learning_rate': 2.434843531060252e-05, 'epoch': 6.47}
 27%|██▋       | 21170/78504 [12:52:52<25:06:31,  1.58s/it] 27%|██▋       | 21171/78504 [12:52:53<23:41:08,  1.49s/it]                                                           {'loss': 0.1573, 'grad_norm': 0.7075230479240417, 'learning_rate': 2.4348010700182583e-05, 'epoch': 6.47}
 27%|██▋       | 21171/78504 [12:52:53<23:41:08,  1.49s/it] 27%|██▋       | 21172/78504 [12:52:54<22:04:05,  1.39s/it]                                                           {'loss': 0.1422, 'grad_norm': 0.3755456507205963, 'learning_rate': 2.434758608976264e-05, 'epoch': 6.47}
 27%|██▋       | 21172/78504 [12:52:54<22:04:05,  1.39s/it] 27%|██▋       | 21173/78504 [12:52:55<20:39:37,  1.30s/it]                                                           {'loss': 0.1811, 'grad_norm': 0.7424768209457397, 'learning_rate': 2.4347161479342704e-05, 'epoch': 6.47}
 27%|██▋       | 21173/78504 [12:52:55<20:39:37,  1.30s/it] 27%|██▋       | 21174/78504 [12:52:57<19:26:49,  1.22s/it]                                                           {'loss': 0.2176, 'grad_norm': 0.7596369981765747, 'learning_rate': 2.4346736868922762e-05, 'epoch': 6.47}
 27%|██▋       | 21174/78504 [12:52:57<19:26:49,  1.22s/it] 27%|██▋       | 21175/78504 [12:52:57<17:59:44,  1.13s/it]                                                           {'loss': 0.1803, 'grad_norm': 1.09476637840271, 'learning_rate': 2.4346312258502825e-05, 'epoch': 6.47}
 27%|██▋       | 21175/78504 [12:52:57<17:59:44,  1.13s/it] 27%|██▋       | 21176/78504 [12:52:58<16:11:02,  1.02s/it]                                                           {'loss': 0.2029, 'grad_norm': 1.1207994222640991, 'learning_rate': 2.4345887648082883e-05, 'epoch': 6.47}
 27%|██▋       | 21176/78504 [12:52:58<16:11:02,  1.02s/it] 27%|██▋       | 21177/78504 [12:53:06<50:11:05,  3.15s/it]                                                           {'loss': 0.136, 'grad_norm': 0.27188655734062195, 'learning_rate': 2.4345463037662945e-05, 'epoch': 6.47}
 27%|██▋       | 21177/78504 [12:53:06<50:11:05,  3.15s/it] 27%|██▋       | 21178/78504 [12:53:10<50:42:50,  3.18s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.5620416402816772, 'learning_rate': 2.4345038427243004e-05, 'epoch': 6.47}
 27%|██▋       | 21178/78504 [12:53:10<50:42:50,  3.18s/it] 27%|██▋       | 21179/78504 [12:53:13<49:43:24,  3.12s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.24241016805171967, 'learning_rate': 2.4344613816823066e-05, 'epoch': 6.47}
 27%|██▋       | 21179/78504 [12:53:13<49:43:24,  3.12s/it] 27%|██▋       | 21180/78504 [12:53:15<47:11:03,  2.96s/it]                                                           {'loss': 0.057, 'grad_norm': 0.37449580430984497, 'learning_rate': 2.4344189206403125e-05, 'epoch': 6.48}
 27%|██▋       | 21180/78504 [12:53:15<47:11:03,  2.96s/it] 27%|██▋       | 21181/78504 [12:53:18<44:55:44,  2.82s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.3061099350452423, 'learning_rate': 2.4343764595983184e-05, 'epoch': 6.48}
 27%|██▋       | 21181/78504 [12:53:18<44:55:44,  2.82s/it] 27%|██▋       | 21182/78504 [12:53:20<42:14:40,  2.65s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.3359372913837433, 'learning_rate': 2.4343339985563246e-05, 'epoch': 6.48}
 27%|██▋       | 21182/78504 [12:53:20<42:14:40,  2.65s/it] 27%|██▋       | 21183/78504 [12:53:22<40:41:30,  2.56s/it]                                                           {'loss': 0.044, 'grad_norm': 0.38199642300605774, 'learning_rate': 2.4342915375143304e-05, 'epoch': 6.48}
 27%|██▋       | 21183/78504 [12:53:22<40:41:30,  2.56s/it] 27%|██▋       | 21184/78504 [12:53:24<38:26:24,  2.41s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.15816228091716766, 'learning_rate': 2.4342490764723366e-05, 'epoch': 6.48}
 27%|██▋       | 21184/78504 [12:53:24<38:26:24,  2.41s/it] 27%|██▋       | 21185/78504 [12:53:26<37:20:12,  2.34s/it]                                                           {'loss': 0.0927, 'grad_norm': 0.3719354271888733, 'learning_rate': 2.4342066154303425e-05, 'epoch': 6.48}
 27%|██▋       | 21185/78504 [12:53:27<37:20:12,  2.34s/it] 27%|██▋       | 21186/78504 [12:53:29<36:21:48,  2.28s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.2232489287853241, 'learning_rate': 2.4341641543883487e-05, 'epoch': 6.48}
 27%|██▋       | 21186/78504 [12:53:29<36:21:48,  2.28s/it] 27%|██▋       | 21187/78504 [12:53:31<35:03:46,  2.20s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.4626959562301636, 'learning_rate': 2.4341216933463546e-05, 'epoch': 6.48}
 27%|██▋       | 21187/78504 [12:53:31<35:03:46,  2.20s/it] 27%|██▋       | 21188/78504 [12:53:32<33:08:30,  2.08s/it]                                                           {'loss': 0.0837, 'grad_norm': 0.2823159992694855, 'learning_rate': 2.4340792323043608e-05, 'epoch': 6.48}
 27%|██▋       | 21188/78504 [12:53:32<33:08:30,  2.08s/it] 27%|██▋       | 21189/78504 [12:53:34<32:06:18,  2.02s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.3208959996700287, 'learning_rate': 2.4340367712623667e-05, 'epoch': 6.48}
 27%|██▋       | 21189/78504 [12:53:34<32:06:18,  2.02s/it] 27%|██▋       | 21190/78504 [12:53:36<31:16:39,  1.96s/it]                                                           {'loss': 0.0963, 'grad_norm': 0.4082961976528168, 'learning_rate': 2.433994310220373e-05, 'epoch': 6.48}
 27%|██▋       | 21190/78504 [12:53:36<31:16:39,  1.96s/it] 27%|██▋       | 21191/78504 [12:53:38<30:08:23,  1.89s/it]                                                           {'loss': 0.1176, 'grad_norm': 1.0657689571380615, 'learning_rate': 2.4339518491783787e-05, 'epoch': 6.48}
 27%|██▋       | 21191/78504 [12:53:38<30:08:23,  1.89s/it] 27%|██▋       | 21192/78504 [12:53:40<28:59:19,  1.82s/it]                                                           {'loss': 0.1282, 'grad_norm': 1.1735142469406128, 'learning_rate': 2.433909388136385e-05, 'epoch': 6.48}
 27%|██▋       | 21192/78504 [12:53:40<28:59:19,  1.82s/it] 27%|██▋       | 21193/78504 [12:53:41<27:30:52,  1.73s/it]                                                           {'loss': 0.1455, 'grad_norm': 0.5139588117599487, 'learning_rate': 2.4338669270943908e-05, 'epoch': 6.48}
 27%|██▋       | 21193/78504 [12:53:41<27:30:52,  1.73s/it] 27%|██▋       | 21194/78504 [12:53:43<26:18:40,  1.65s/it]                                                           {'loss': 0.1366, 'grad_norm': 0.43525150418281555, 'learning_rate': 2.4338244660523967e-05, 'epoch': 6.48}
 27%|██▋       | 21194/78504 [12:53:43<26:18:40,  1.65s/it] 27%|██▋       | 21195/78504 [12:53:44<25:11:42,  1.58s/it]                                                           {'loss': 0.1411, 'grad_norm': 1.1126691102981567, 'learning_rate': 2.433782005010403e-05, 'epoch': 6.48}
 27%|██▋       | 21195/78504 [12:53:44<25:11:42,  1.58s/it] 27%|██▋       | 21196/78504 [12:53:45<23:45:53,  1.49s/it]                                                           {'loss': 0.1499, 'grad_norm': 0.7801110148429871, 'learning_rate': 2.4337395439684088e-05, 'epoch': 6.48}
 27%|██▋       | 21196/78504 [12:53:45<23:45:53,  1.49s/it] 27%|██▋       | 21197/78504 [12:53:46<22:07:28,  1.39s/it]                                                           {'loss': 0.1987, 'grad_norm': 0.6157200932502747, 'learning_rate': 2.433697082926415e-05, 'epoch': 6.48}
 27%|██▋       | 21197/78504 [12:53:46<22:07:28,  1.39s/it] 27%|██▋       | 21198/78504 [12:53:47<20:41:50,  1.30s/it]                                                           {'loss': 0.1813, 'grad_norm': 0.8228620886802673, 'learning_rate': 2.433654621884421e-05, 'epoch': 6.48}
 27%|██▋       | 21198/78504 [12:53:47<20:41:50,  1.30s/it] 27%|██▋       | 21199/78504 [12:53:49<19:31:40,  1.23s/it]                                                           {'loss': 0.1882, 'grad_norm': 0.5352910161018372, 'learning_rate': 2.433612160842427e-05, 'epoch': 6.48}
 27%|██▋       | 21199/78504 [12:53:49<19:31:40,  1.23s/it] 27%|██▋       | 21200/78504 [12:53:49<18:06:45,  1.14s/it]                                                           {'loss': 0.2052, 'grad_norm': 1.2654013633728027, 'learning_rate': 2.433569699800433e-05, 'epoch': 6.48}
 27%|██▋       | 21200/78504 [12:53:49<18:06:45,  1.14s/it] 27%|██▋       | 21201/78504 [12:53:50<16:25:35,  1.03s/it]                                                           {'loss': 0.2467, 'grad_norm': 1.320130705833435, 'learning_rate': 2.433527238758439e-05, 'epoch': 6.48}
 27%|██▋       | 21201/78504 [12:53:50<16:25:35,  1.03s/it] 27%|██▋       | 21202/78504 [12:54:00<58:10:05,  3.65s/it]                                                           {'loss': 0.1198, 'grad_norm': 1.11849045753479, 'learning_rate': 2.433484777716445e-05, 'epoch': 6.48}
 27%|██▋       | 21202/78504 [12:54:00<58:10:05,  3.65s/it] 27%|██▋       | 21203/78504 [12:54:03<55:40:23,  3.50s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.32409968972206116, 'learning_rate': 2.4334423166744512e-05, 'epoch': 6.48}
 27%|██▋       | 21203/78504 [12:54:03<55:40:23,  3.50s/it] 27%|██▋       | 21204/78504 [12:54:06<51:15:35,  3.22s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.34061750769615173, 'learning_rate': 2.4333998556324574e-05, 'epoch': 6.48}
 27%|██▋       | 21204/78504 [12:54:06<51:15:35,  3.22s/it] 27%|██▋       | 21205/78504 [12:54:08<48:23:10,  3.04s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.30567029118537903, 'learning_rate': 2.4333573945904636e-05, 'epoch': 6.48}
 27%|██▋       | 21205/78504 [12:54:08<48:23:10,  3.04s/it] 27%|██▋       | 21206/78504 [12:54:11<45:09:35,  2.84s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.1899145394563675, 'learning_rate': 2.4333149335484695e-05, 'epoch': 6.48}
 27%|██▋       | 21206/78504 [12:54:11<45:09:35,  2.84s/it] 27%|██▋       | 21207/78504 [12:54:13<42:51:40,  2.69s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.3500620722770691, 'learning_rate': 2.4332724725064754e-05, 'epoch': 6.48}
 27%|██▋       | 21207/78504 [12:54:13<42:51:40,  2.69s/it] 27%|██▋       | 21208/78504 [12:54:15<41:05:37,  2.58s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.19316251575946808, 'learning_rate': 2.4332300114644816e-05, 'epoch': 6.48}
 27%|██▋       | 21208/78504 [12:54:15<41:05:37,  2.58s/it] 27%|██▋       | 21209/78504 [12:54:17<38:46:46,  2.44s/it]                                                           {'loss': 0.0468, 'grad_norm': 0.22644606232643127, 'learning_rate': 2.4331875504224875e-05, 'epoch': 6.48}
 27%|██▋       | 21209/78504 [12:54:17<38:46:46,  2.44s/it] 27%|██▋       | 21210/78504 [12:54:20<36:48:48,  2.31s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.529836893081665, 'learning_rate': 2.4331450893804937e-05, 'epoch': 6.48}
 27%|██▋       | 21210/78504 [12:54:20<36:48:48,  2.31s/it] 27%|██▋       | 21211/78504 [12:54:22<36:00:16,  2.26s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.4540751874446869, 'learning_rate': 2.4331026283384995e-05, 'epoch': 6.48}
 27%|██▋       | 21211/78504 [12:54:22<36:00:16,  2.26s/it] 27%|██▋       | 21212/78504 [12:54:24<34:53:27,  2.19s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.29796621203422546, 'learning_rate': 2.4330601672965057e-05, 'epoch': 6.48}
 27%|██▋       | 21212/78504 [12:54:24<34:53:27,  2.19s/it] 27%|██▋       | 21213/78504 [12:54:26<33:51:00,  2.13s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.45629793405532837, 'learning_rate': 2.4330177062545116e-05, 'epoch': 6.49}
 27%|██▋       | 21213/78504 [12:54:26<33:51:00,  2.13s/it] 27%|██▋       | 21214/78504 [12:54:28<32:37:07,  2.05s/it]                                                           {'loss': 0.0936, 'grad_norm': 0.2577899396419525, 'learning_rate': 2.4329752452125178e-05, 'epoch': 6.49}
 27%|██▋       | 21214/78504 [12:54:28<32:37:07,  2.05s/it] 27%|██▋       | 21215/78504 [12:54:29<31:36:28,  1.99s/it]                                                           {'loss': 0.1044, 'grad_norm': 0.6413977146148682, 'learning_rate': 2.4329327841705237e-05, 'epoch': 6.49}
 27%|██▋       | 21215/78504 [12:54:29<31:36:28,  1.99s/it] 27%|██▋       | 21216/78504 [12:54:31<30:03:04,  1.89s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.6604660153388977, 'learning_rate': 2.43289032312853e-05, 'epoch': 6.49}
 27%|██▋       | 21216/78504 [12:54:31<30:03:04,  1.89s/it] 27%|██▋       | 21217/78504 [12:54:33<28:53:56,  1.82s/it]                                                           {'loss': 0.1293, 'grad_norm': 0.39858943223953247, 'learning_rate': 2.4328478620865358e-05, 'epoch': 6.49}
 27%|██▋       | 21217/78504 [12:54:33<28:53:56,  1.82s/it] 27%|██▋       | 21218/78504 [12:54:34<27:29:00,  1.73s/it]                                                           {'loss': 0.1663, 'grad_norm': 0.6352435946464539, 'learning_rate': 2.432805401044542e-05, 'epoch': 6.49}
 27%|██▋       | 21218/78504 [12:54:34<27:29:00,  1.73s/it] 27%|██▋       | 21219/78504 [12:54:36<26:16:20,  1.65s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.6919175982475281, 'learning_rate': 2.432762940002548e-05, 'epoch': 6.49}
 27%|██▋       | 21219/78504 [12:54:36<26:16:20,  1.65s/it] 27%|██▋       | 21220/78504 [12:54:37<25:08:09,  1.58s/it]                                                           {'loss': 0.1711, 'grad_norm': 1.2496452331542969, 'learning_rate': 2.4327204789605537e-05, 'epoch': 6.49}
 27%|██▋       | 21220/78504 [12:54:37<25:08:09,  1.58s/it] 27%|██▋       | 21221/78504 [12:54:38<23:42:38,  1.49s/it]                                                           {'loss': 0.1499, 'grad_norm': 0.5435243844985962, 'learning_rate': 2.43267801791856e-05, 'epoch': 6.49}
 27%|██▋       | 21221/78504 [12:54:38<23:42:38,  1.49s/it] 27%|██▋       | 21222/78504 [12:54:40<22:06:26,  1.39s/it]                                                           {'loss': 0.1685, 'grad_norm': 0.7520875930786133, 'learning_rate': 2.4326355568765658e-05, 'epoch': 6.49}
 27%|██▋       | 21222/78504 [12:54:40<22:06:26,  1.39s/it] 27%|██▋       | 21223/78504 [12:54:41<20:42:17,  1.30s/it]                                                           {'loss': 0.1847, 'grad_norm': 1.0640395879745483, 'learning_rate': 2.432593095834572e-05, 'epoch': 6.49}
 27%|██▋       | 21223/78504 [12:54:41<20:42:17,  1.30s/it] 27%|██▋       | 21224/78504 [12:54:42<19:27:41,  1.22s/it]                                                           {'loss': 0.2139, 'grad_norm': 1.7650845050811768, 'learning_rate': 2.432550634792578e-05, 'epoch': 6.49}
 27%|██▋       | 21224/78504 [12:54:42<19:27:41,  1.22s/it] 27%|██▋       | 21225/78504 [12:54:43<18:03:59,  1.14s/it]                                                           {'loss': 0.1595, 'grad_norm': 0.620752215385437, 'learning_rate': 2.432508173750584e-05, 'epoch': 6.49}
 27%|██▋       | 21225/78504 [12:54:43<18:03:59,  1.14s/it] 27%|██▋       | 21226/78504 [12:54:43<16:23:08,  1.03s/it]                                                           {'loss': 0.2209, 'grad_norm': 3.0745434761047363, 'learning_rate': 2.43246571270859e-05, 'epoch': 6.49}
 27%|██▋       | 21226/78504 [12:54:43<16:23:08,  1.03s/it] 27%|██▋       | 21227/78504 [12:54:53<55:13:17,  3.47s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.575003981590271, 'learning_rate': 2.432423251666596e-05, 'epoch': 6.49}
 27%|██▋       | 21227/78504 [12:54:53<55:13:17,  3.47s/it] 27%|██▋       | 21228/78504 [12:54:56<54:38:57,  3.43s/it]                                                           {'loss': 0.066, 'grad_norm': 0.484542578458786, 'learning_rate': 2.432380790624602e-05, 'epoch': 6.49}
 27%|██▋       | 21228/78504 [12:54:56<54:38:57,  3.43s/it] 27%|██▋       | 21229/78504 [12:54:59<52:14:11,  3.28s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.9338580369949341, 'learning_rate': 2.4323383295826082e-05, 'epoch': 6.49}
 27%|██▋       | 21229/78504 [12:54:59<52:14:11,  3.28s/it] 27%|██▋       | 21230/78504 [12:55:01<49:05:31,  3.09s/it]                                                           {'loss': 0.0596, 'grad_norm': 0.1647675335407257, 'learning_rate': 2.432295868540614e-05, 'epoch': 6.49}
 27%|██▋       | 21230/78504 [12:55:01<49:05:31,  3.09s/it] 27%|██▋       | 21231/78504 [12:55:04<46:09:32,  2.90s/it]                                                           {'loss': 0.0395, 'grad_norm': 0.23379327356815338, 'learning_rate': 2.4322534074986203e-05, 'epoch': 6.49}
 27%|██▋       | 21231/78504 [12:55:04<46:09:32,  2.90s/it] 27%|██▋       | 21232/78504 [12:55:06<43:09:36,  2.71s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.45197975635528564, 'learning_rate': 2.4322109464566262e-05, 'epoch': 6.49}
 27%|██▋       | 21232/78504 [12:55:06<43:09:36,  2.71s/it] 27%|██▋       | 21233/78504 [12:55:08<41:17:30,  2.60s/it]                                                           {'loss': 0.0372, 'grad_norm': 0.15844079852104187, 'learning_rate': 2.432168485414632e-05, 'epoch': 6.49}
 27%|██▋       | 21233/78504 [12:55:09<41:17:30,  2.60s/it] 27%|██▋       | 21234/78504 [12:55:11<38:54:49,  2.45s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.5212318301200867, 'learning_rate': 2.4321260243726383e-05, 'epoch': 6.49}
 27%|██▋       | 21234/78504 [12:55:11<38:54:49,  2.45s/it] 27%|██▋       | 21235/78504 [12:55:13<36:56:36,  2.32s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.5201197862625122, 'learning_rate': 2.432083563330644e-05, 'epoch': 6.49}
 27%|██▋       | 21235/78504 [12:55:13<36:56:36,  2.32s/it] 27%|██▋       | 21236/78504 [12:55:15<36:04:49,  2.27s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.16924042999744415, 'learning_rate': 2.4320411022886503e-05, 'epoch': 6.49}
 27%|██▋       | 21236/78504 [12:55:15<36:04:49,  2.27s/it] 27%|██▋       | 21237/78504 [12:55:17<34:58:50,  2.20s/it]                                                           {'loss': 0.0859, 'grad_norm': 0.3039367198944092, 'learning_rate': 2.4319986412466562e-05, 'epoch': 6.49}
 27%|██▋       | 21237/78504 [12:55:17<34:58:50,  2.20s/it] 27%|██▋       | 21238/78504 [12:55:19<33:56:38,  2.13s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.8628252744674683, 'learning_rate': 2.4319561802046624e-05, 'epoch': 6.49}
 27%|██▋       | 21238/78504 [12:55:19<33:56:38,  2.13s/it] 27%|██▋       | 21239/78504 [12:55:21<32:41:25,  2.06s/it]                                                           {'loss': 0.0772, 'grad_norm': 0.26428502798080444, 'learning_rate': 2.4319137191626683e-05, 'epoch': 6.49}
 27%|██▋       | 21239/78504 [12:55:21<32:41:25,  2.06s/it] 27%|██▋       | 21240/78504 [12:55:23<31:41:43,  1.99s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.4523508846759796, 'learning_rate': 2.4318712581206745e-05, 'epoch': 6.49}
 27%|██▋       | 21240/78504 [12:55:23<31:41:43,  1.99s/it] 27%|██▋       | 21241/78504 [12:55:24<30:42:57,  1.93s/it]                                                           {'loss': 0.0938, 'grad_norm': 0.43505096435546875, 'learning_rate': 2.4318287970786804e-05, 'epoch': 6.49}
 27%|██▋       | 21241/78504 [12:55:24<30:42:57,  1.93s/it] 27%|██▋       | 21242/78504 [12:55:26<29:22:14,  1.85s/it]                                                           {'loss': 0.1185, 'grad_norm': 0.8011338114738464, 'learning_rate': 2.4317863360366866e-05, 'epoch': 6.49}
 27%|██▋       | 21242/78504 [12:55:26<29:22:14,  1.85s/it] 27%|██▋       | 21243/78504 [12:55:27<27:57:35,  1.76s/it]                                                           {'loss': 0.1268, 'grad_norm': 0.7792288661003113, 'learning_rate': 2.4317438749946925e-05, 'epoch': 6.49}
 27%|██▋       | 21243/78504 [12:55:28<27:57:35,  1.76s/it] 27%|██▋       | 21244/78504 [12:55:29<26:35:14,  1.67s/it]                                                           {'loss': 0.1249, 'grad_norm': 0.4829334318637848, 'learning_rate': 2.4317014139526987e-05, 'epoch': 6.49}
 27%|██▋       | 21244/78504 [12:55:29<26:35:14,  1.67s/it] 27%|██▋       | 21245/78504 [12:55:30<25:13:26,  1.59s/it]                                                           {'loss': 0.1627, 'grad_norm': 1.6146488189697266, 'learning_rate': 2.4316589529107045e-05, 'epoch': 6.49}
 27%|██▋       | 21245/78504 [12:55:30<25:13:26,  1.59s/it] 27%|██▋       | 21246/78504 [12:55:32<23:46:49,  1.50s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.5600395798683167, 'learning_rate': 2.4316164918687104e-05, 'epoch': 6.5}
 27%|██▋       | 21246/78504 [12:55:32<23:46:49,  1.50s/it] 27%|██▋       | 21247/78504 [12:55:33<22:09:32,  1.39s/it]                                                           {'loss': 0.1834, 'grad_norm': 1.3505244255065918, 'learning_rate': 2.4315740308267166e-05, 'epoch': 6.5}
 27%|██▋       | 21247/78504 [12:55:33<22:09:32,  1.39s/it] 27%|██▋       | 21248/78504 [12:55:34<20:44:11,  1.30s/it]                                                           {'loss': 0.1561, 'grad_norm': 1.062747836112976, 'learning_rate': 2.4315315697847225e-05, 'epoch': 6.5}
 27%|██▋       | 21248/78504 [12:55:34<20:44:11,  1.30s/it] 27%|██▋       | 21249/78504 [12:55:35<19:31:42,  1.23s/it]                                                           {'loss': 0.1564, 'grad_norm': 0.8435713052749634, 'learning_rate': 2.4314891087427287e-05, 'epoch': 6.5}
 27%|██▋       | 21249/78504 [12:55:35<19:31:42,  1.23s/it] 27%|██▋       | 21250/78504 [12:55:36<18:08:09,  1.14s/it]                                                           {'loss': 0.192, 'grad_norm': 0.6295806169509888, 'learning_rate': 2.4314466477007346e-05, 'epoch': 6.5}
 27%|██▋       | 21250/78504 [12:55:36<18:08:09,  1.14s/it] 27%|██▋       | 21251/78504 [12:55:37<16:27:58,  1.04s/it]                                                           {'loss': 0.1866, 'grad_norm': 1.6335101127624512, 'learning_rate': 2.4314041866587408e-05, 'epoch': 6.5}
 27%|██▋       | 21251/78504 [12:55:37<16:27:58,  1.04s/it] 27%|██▋       | 21252/78504 [12:55:45<51:25:50,  3.23s/it]                                                           {'loss': 0.1253, 'grad_norm': 1.2291994094848633, 'learning_rate': 2.4313617256167466e-05, 'epoch': 6.5}
 27%|██▋       | 21252/78504 [12:55:45<51:25:50,  3.23s/it] 27%|██▋       | 21253/78504 [12:55:48<50:55:43,  3.20s/it]                                                           {'loss': 0.0767, 'grad_norm': 0.5105099678039551, 'learning_rate': 2.431319264574753e-05, 'epoch': 6.5}
 27%|██▋       | 21253/78504 [12:55:48<50:55:43,  3.20s/it] 27%|██▋       | 21254/78504 [12:55:51<47:53:21,  3.01s/it]                                                           {'loss': 0.0834, 'grad_norm': 1.1104317903518677, 'learning_rate': 2.4312768035327587e-05, 'epoch': 6.5}
 27%|██▋       | 21254/78504 [12:55:51<47:53:21,  3.01s/it] 27%|██▋       | 21255/78504 [12:55:53<45:59:15,  2.89s/it]                                                           {'loss': 0.055, 'grad_norm': 0.2878754138946533, 'learning_rate': 2.431234342490765e-05, 'epoch': 6.5}
 27%|██▋       | 21255/78504 [12:55:53<45:59:15,  2.89s/it] 27%|██▋       | 21256/78504 [12:55:56<43:57:40,  2.76s/it]                                                           {'loss': 0.051, 'grad_norm': 0.17920798063278198, 'learning_rate': 2.4311918814487708e-05, 'epoch': 6.5}
 27%|██▋       | 21256/78504 [12:55:56<43:57:40,  2.76s/it] 27%|██▋       | 21257/78504 [12:55:58<41:34:08,  2.61s/it]                                                           {'loss': 0.0332, 'grad_norm': 0.159335196018219, 'learning_rate': 2.4311494204067767e-05, 'epoch': 6.5}
 27%|██▋       | 21257/78504 [12:55:58<41:34:08,  2.61s/it] 27%|██▋       | 21258/78504 [12:56:00<40:07:18,  2.52s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.32308679819107056, 'learning_rate': 2.431106959364783e-05, 'epoch': 6.5}
 27%|██▋       | 21258/78504 [12:56:00<40:07:18,  2.52s/it] 27%|██▋       | 21259/78504 [12:56:02<38:07:08,  2.40s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.39146706461906433, 'learning_rate': 2.4310644983227887e-05, 'epoch': 6.5}
 27%|██▋       | 21259/78504 [12:56:02<38:07:08,  2.40s/it] 27%|██▋       | 21260/78504 [12:56:05<37:07:41,  2.33s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.30655017495155334, 'learning_rate': 2.431022037280795e-05, 'epoch': 6.5}
 27%|██▋       | 21260/78504 [12:56:05<37:07:41,  2.33s/it] 27%|██▋       | 21261/78504 [12:56:07<36:11:56,  2.28s/it]                                                           {'loss': 0.0618, 'grad_norm': 1.0392687320709229, 'learning_rate': 2.4309795762388008e-05, 'epoch': 6.5}
 27%|██▋       | 21261/78504 [12:56:07<36:11:56,  2.28s/it] 27%|██▋       | 21262/78504 [12:56:09<34:58:21,  2.20s/it]                                                           {'loss': 0.0883, 'grad_norm': 0.35413846373558044, 'learning_rate': 2.430937115196807e-05, 'epoch': 6.5}
 27%|██▋       | 21262/78504 [12:56:09<34:58:21,  2.20s/it] 27%|██▋       | 21263/78504 [12:56:11<33:55:01,  2.13s/it]                                                           {'loss': 0.1287, 'grad_norm': 0.5541326403617859, 'learning_rate': 2.430894654154813e-05, 'epoch': 6.5}
 27%|██▋       | 21263/78504 [12:56:11<33:55:01,  2.13s/it] 27%|██▋       | 21264/78504 [12:56:13<32:43:26,  2.06s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.4550943374633789, 'learning_rate': 2.430852193112819e-05, 'epoch': 6.5}
 27%|██▋       | 21264/78504 [12:56:13<32:43:26,  2.06s/it] 27%|██▋       | 21265/78504 [12:56:15<31:44:45,  2.00s/it]                                                           {'loss': 0.118, 'grad_norm': 0.4642747640609741, 'learning_rate': 2.430809732070825e-05, 'epoch': 6.5}
 27%|██▋       | 21265/78504 [12:56:15<31:44:45,  2.00s/it] 27%|██▋       | 21266/78504 [12:56:16<30:35:23,  1.92s/it]                                                           {'loss': 0.1422, 'grad_norm': 0.8264188766479492, 'learning_rate': 2.4307672710288312e-05, 'epoch': 6.5}
 27%|██▋       | 21266/78504 [12:56:16<30:35:23,  1.92s/it] 27%|██▋       | 21267/78504 [12:56:18<28:55:31,  1.82s/it]                                                           {'loss': 0.1301, 'grad_norm': 1.0834002494812012, 'learning_rate': 2.430724809986837e-05, 'epoch': 6.5}
 27%|██▋       | 21267/78504 [12:56:18<28:55:31,  1.82s/it] 27%|██▋       | 21268/78504 [12:56:19<27:34:30,  1.73s/it]                                                           {'loss': 0.1421, 'grad_norm': 1.0856863260269165, 'learning_rate': 2.4306823489448433e-05, 'epoch': 6.5}
 27%|██▋       | 21268/78504 [12:56:19<27:34:30,  1.73s/it] 27%|██▋       | 21269/78504 [12:56:21<26:03:12,  1.64s/it]                                                           {'loss': 0.13, 'grad_norm': 0.5686683058738708, 'learning_rate': 2.430639887902849e-05, 'epoch': 6.5}
 27%|██▋       | 21269/78504 [12:56:21<26:03:12,  1.64s/it] 27%|██▋       | 21270/78504 [12:56:22<24:57:32,  1.57s/it]                                                           {'loss': 0.1751, 'grad_norm': 0.6909832954406738, 'learning_rate': 2.430597426860855e-05, 'epoch': 6.5}
 27%|██▋       | 21270/78504 [12:56:22<24:57:32,  1.57s/it] 27%|██▋       | 21271/78504 [12:56:23<23:17:28,  1.47s/it]                                                           {'loss': 0.1588, 'grad_norm': 1.7519723176956177, 'learning_rate': 2.4305549658188612e-05, 'epoch': 6.5}
 27%|██▋       | 21271/78504 [12:56:23<23:17:28,  1.47s/it] 27%|██▋       | 21272/78504 [12:56:25<21:46:42,  1.37s/it]                                                           {'loss': 0.1686, 'grad_norm': 0.5823848843574524, 'learning_rate': 2.430512504776867e-05, 'epoch': 6.5}
 27%|██▋       | 21272/78504 [12:56:25<21:46:42,  1.37s/it] 27%|██▋       | 21273/78504 [12:56:26<20:26:56,  1.29s/it]                                                           {'loss': 0.2184, 'grad_norm': 0.8931500911712646, 'learning_rate': 2.4304700437348733e-05, 'epoch': 6.5}
 27%|██▋       | 21273/78504 [12:56:26<20:26:56,  1.29s/it] 27%|██▋       | 21274/78504 [12:56:27<19:20:47,  1.22s/it]                                                           {'loss': 0.1696, 'grad_norm': 1.0608608722686768, 'learning_rate': 2.430427582692879e-05, 'epoch': 6.5}
 27%|██▋       | 21274/78504 [12:56:27<19:20:47,  1.22s/it] 27%|██▋       | 21275/78504 [12:56:28<17:58:00,  1.13s/it]                                                           {'loss': 0.195, 'grad_norm': 0.6984303593635559, 'learning_rate': 2.4303851216508854e-05, 'epoch': 6.5}
 27%|██▋       | 21275/78504 [12:56:28<17:58:00,  1.13s/it] 27%|██▋       | 21276/78504 [12:56:28<16:17:47,  1.03s/it]                                                           {'loss': 0.226, 'grad_norm': 2.050719976425171, 'learning_rate': 2.4303426606088912e-05, 'epoch': 6.5}
 27%|██▋       | 21276/78504 [12:56:28<16:17:47,  1.03s/it] 27%|██▋       | 21277/78504 [12:56:38<57:13:24,  3.60s/it]                                                           {'loss': 0.1441, 'grad_norm': 0.47581538558006287, 'learning_rate': 2.4303001995668975e-05, 'epoch': 6.5}
 27%|██▋       | 21277/78504 [12:56:38<57:13:24,  3.60s/it] 27%|██▋       | 21278/78504 [12:56:41<55:46:23,  3.51s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.2965508699417114, 'learning_rate': 2.4302577385249033e-05, 'epoch': 6.51}
 27%|██▋       | 21278/78504 [12:56:41<55:46:23,  3.51s/it] 27%|██▋       | 21279/78504 [12:56:44<51:57:48,  3.27s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.2969473898410797, 'learning_rate': 2.4302152774829095e-05, 'epoch': 6.51}
 27%|██▋       | 21279/78504 [12:56:44<51:57:48,  3.27s/it] 27%|██▋       | 21280/78504 [12:56:47<48:40:05,  3.06s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.5973469018936157, 'learning_rate': 2.4301728164409154e-05, 'epoch': 6.51}
 27%|██▋       | 21280/78504 [12:56:47<48:40:05,  3.06s/it] 27%|██▋       | 21281/78504 [12:56:49<45:47:59,  2.88s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.2629515528678894, 'learning_rate': 2.4301303553989216e-05, 'epoch': 6.51}
 27%|██▋       | 21281/78504 [12:56:49<45:47:59,  2.88s/it] 27%|██▋       | 21282/78504 [12:56:51<42:50:20,  2.70s/it]                                                           {'loss': 0.0699, 'grad_norm': 0.4030068814754486, 'learning_rate': 2.4300878943569275e-05, 'epoch': 6.51}
 27%|██▋       | 21282/78504 [12:56:51<42:50:20,  2.70s/it] 27%|██▋       | 21283/78504 [12:56:54<41:02:54,  2.58s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.35698139667510986, 'learning_rate': 2.4300454333149334e-05, 'epoch': 6.51}
 27%|██▋       | 21283/78504 [12:56:54<41:02:54,  2.58s/it] 27%|██▋       | 21284/78504 [12:56:56<38:41:54,  2.43s/it]                                                           {'loss': 0.0437, 'grad_norm': 0.21540048718452454, 'learning_rate': 2.4300029722729396e-05, 'epoch': 6.51}
 27%|██▋       | 21284/78504 [12:56:56<38:41:54,  2.43s/it] 27%|██▋       | 21285/78504 [12:56:58<37:27:40,  2.36s/it]                                                           {'loss': 0.0624, 'grad_norm': 4.12805700302124, 'learning_rate': 2.4299605112309454e-05, 'epoch': 6.51}
 27%|██▋       | 21285/78504 [12:56:58<37:27:40,  2.36s/it] 27%|██▋       | 21286/78504 [12:57:00<36:25:37,  2.29s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.5450907349586487, 'learning_rate': 2.4299180501889516e-05, 'epoch': 6.51}
 27%|██▋       | 21286/78504 [12:57:00<36:25:37,  2.29s/it] 27%|██▋       | 21287/78504 [12:57:02<35:07:14,  2.21s/it]                                                           {'loss': 0.0937, 'grad_norm': 0.7911312580108643, 'learning_rate': 2.4298755891469575e-05, 'epoch': 6.51}
 27%|██▋       | 21287/78504 [12:57:02<35:07:14,  2.21s/it] 27%|██▋       | 21288/78504 [12:57:04<33:59:42,  2.14s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.6156153678894043, 'learning_rate': 2.4298331281049637e-05, 'epoch': 6.51}
 27%|██▋       | 21288/78504 [12:57:04<33:59:42,  2.14s/it] 27%|██▋       | 21289/78504 [12:57:06<32:45:31,  2.06s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.399783194065094, 'learning_rate': 2.4297906670629696e-05, 'epoch': 6.51}
 27%|██▋       | 21289/78504 [12:57:06<32:45:31,  2.06s/it] 27%|██▋       | 21290/78504 [12:57:08<31:50:58,  2.00s/it]                                                           {'loss': 0.0866, 'grad_norm': 0.6011471152305603, 'learning_rate': 2.4297482060209758e-05, 'epoch': 6.51}
 27%|██▋       | 21290/78504 [12:57:08<31:50:58,  2.00s/it] 27%|██▋       | 21291/78504 [12:57:10<30:41:30,  1.93s/it]                                                           {'loss': 0.0928, 'grad_norm': 0.41271764039993286, 'learning_rate': 2.4297057449789817e-05, 'epoch': 6.51}
 27%|██▋       | 21291/78504 [12:57:10<30:41:30,  1.93s/it] 27%|██▋       | 21292/78504 [12:57:11<28:59:45,  1.82s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.6951785087585449, 'learning_rate': 2.429663283936988e-05, 'epoch': 6.51}
 27%|██▋       | 21292/78504 [12:57:11<28:59:45,  1.82s/it] 27%|██▋       | 21293/78504 [12:57:13<27:37:16,  1.74s/it]                                                           {'loss': 0.1587, 'grad_norm': 0.8248987793922424, 'learning_rate': 2.4296208228949937e-05, 'epoch': 6.51}
 27%|██▋       | 21293/78504 [12:57:13<27:37:16,  1.74s/it] 27%|██▋       | 21294/78504 [12:57:14<26:32:27,  1.67s/it]                                                           {'loss': 0.1809, 'grad_norm': 0.9063481688499451, 'learning_rate': 2.429578361853e-05, 'epoch': 6.51}
 27%|██▋       | 21294/78504 [12:57:14<26:32:27,  1.67s/it] 27%|██▋       | 21295/78504 [12:57:16<25:18:49,  1.59s/it]                                                           {'loss': 0.1542, 'grad_norm': 1.0517616271972656, 'learning_rate': 2.4295359008110058e-05, 'epoch': 6.51}
 27%|██▋       | 21295/78504 [12:57:16<25:18:49,  1.59s/it] 27%|██▋       | 21296/78504 [12:57:17<23:50:16,  1.50s/it]                                                           {'loss': 0.1602, 'grad_norm': 0.7043637633323669, 'learning_rate': 2.4294934397690117e-05, 'epoch': 6.51}
 27%|██▋       | 21296/78504 [12:57:17<23:50:16,  1.50s/it] 27%|██▋       | 21297/78504 [12:57:18<22:10:35,  1.40s/it]                                                           {'loss': 0.1789, 'grad_norm': 2.0658576488494873, 'learning_rate': 2.429450978727018e-05, 'epoch': 6.51}
 27%|██▋       | 21297/78504 [12:57:18<22:10:35,  1.40s/it] 27%|██▋       | 21298/78504 [12:57:19<20:42:54,  1.30s/it]                                                           {'loss': 0.1666, 'grad_norm': 1.6657620668411255, 'learning_rate': 2.4294085176850238e-05, 'epoch': 6.51}
 27%|██▋       | 21298/78504 [12:57:19<20:42:54,  1.30s/it] 27%|██▋       | 21299/78504 [12:57:20<19:26:27,  1.22s/it]                                                           {'loss': 0.207, 'grad_norm': 1.2682284116744995, 'learning_rate': 2.42936605664303e-05, 'epoch': 6.51}
 27%|██▋       | 21299/78504 [12:57:20<19:26:27,  1.22s/it] 27%|██▋       | 21300/78504 [12:57:21<18:02:54,  1.14s/it]                                                           {'loss': 0.2268, 'grad_norm': 1.8207837343215942, 'learning_rate': 2.429323595601036e-05, 'epoch': 6.51}
 27%|██▋       | 21300/78504 [12:57:21<18:02:54,  1.14s/it] 27%|██▋       | 21301/78504 [12:57:22<16:13:28,  1.02s/it]                                                           {'loss': 0.1879, 'grad_norm': 3.9021546840667725, 'learning_rate': 2.429281134559042e-05, 'epoch': 6.51}
 27%|██▋       | 21301/78504 [12:57:22<16:13:28,  1.02s/it] 27%|██▋       | 21302/78504 [12:57:32<59:54:01,  3.77s/it]                                                           {'loss': 0.1364, 'grad_norm': 0.5370945930480957, 'learning_rate': 2.429238673517048e-05, 'epoch': 6.51}
 27%|██▋       | 21302/78504 [12:57:32<59:54:01,  3.77s/it] 27%|██▋       | 21303/78504 [12:57:35<55:46:17,  3.51s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.2831796705722809, 'learning_rate': 2.429196212475054e-05, 'epoch': 6.51}
 27%|██▋       | 21303/78504 [12:57:35<55:46:17,  3.51s/it] 27%|██▋       | 21304/78504 [12:57:38<52:56:38,  3.33s/it]                                                           {'loss': 0.057, 'grad_norm': 0.3298843502998352, 'learning_rate': 2.42915375143306e-05, 'epoch': 6.51}
 27%|██▋       | 21304/78504 [12:57:38<52:56:38,  3.33s/it] 27%|██▋       | 21305/78504 [12:57:40<48:57:53,  3.08s/it]                                                           {'loss': 0.0912, 'grad_norm': 0.38060247898101807, 'learning_rate': 2.4291112903910662e-05, 'epoch': 6.51}
 27%|██▋       | 21305/78504 [12:57:40<48:57:53,  3.08s/it] 27%|██▋       | 21306/78504 [12:57:43<46:00:55,  2.90s/it]                                                           {'loss': 0.0404, 'grad_norm': 0.17393378913402557, 'learning_rate': 2.4290688293490724e-05, 'epoch': 6.51}
 27%|██▋       | 21306/78504 [12:57:43<46:00:55,  2.90s/it] 27%|██▋       | 21307/78504 [12:57:45<43:45:59,  2.75s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.3149067163467407, 'learning_rate': 2.4290263683070786e-05, 'epoch': 6.51}
 27%|██▋       | 21307/78504 [12:57:45<43:45:59,  2.75s/it] 27%|██▋       | 21308/78504 [12:57:48<41:39:11,  2.62s/it]                                                           {'loss': 0.0414, 'grad_norm': 0.23550021648406982, 'learning_rate': 2.4289839072650845e-05, 'epoch': 6.51}
 27%|██▋       | 21308/78504 [12:57:48<41:39:11,  2.62s/it] 27%|██▋       | 21309/78504 [12:57:50<39:54:26,  2.51s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.24733427166938782, 'learning_rate': 2.4289414462230904e-05, 'epoch': 6.51}
 27%|██▋       | 21309/78504 [12:57:50<39:54:26,  2.51s/it] 27%|██▋       | 21310/78504 [12:57:52<38:22:50,  2.42s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.261210173368454, 'learning_rate': 2.4288989851810966e-05, 'epoch': 6.51}
 27%|██▋       | 21310/78504 [12:57:52<38:22:50,  2.42s/it] 27%|██▋       | 21311/78504 [12:57:54<37:03:21,  2.33s/it]                                                           {'loss': 0.074, 'grad_norm': 0.25127944350242615, 'learning_rate': 2.4288565241391025e-05, 'epoch': 6.52}
 27%|██▋       | 21311/78504 [12:57:54<37:03:21,  2.33s/it] 27%|██▋       | 21312/78504 [12:57:56<34:51:11,  2.19s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.4696040153503418, 'learning_rate': 2.4288140630971087e-05, 'epoch': 6.52}
 27%|██▋       | 21312/78504 [12:57:56<34:51:11,  2.19s/it] 27%|██▋       | 21313/78504 [12:57:58<33:52:59,  2.13s/it]                                                           {'loss': 0.1068, 'grad_norm': 0.29302966594696045, 'learning_rate': 2.4287716020551145e-05, 'epoch': 6.52}
 27%|██▋       | 21313/78504 [12:57:58<33:52:59,  2.13s/it] 27%|██▋       | 21314/78504 [12:58:00<32:50:06,  2.07s/it]                                                           {'loss': 0.0888, 'grad_norm': 0.384807288646698, 'learning_rate': 2.4287291410131207e-05, 'epoch': 6.52}
 27%|██▋       | 21314/78504 [12:58:00<32:50:06,  2.07s/it] 27%|██▋       | 21315/78504 [12:58:02<31:56:49,  2.01s/it]                                                           {'loss': 0.0907, 'grad_norm': 0.6312841176986694, 'learning_rate': 2.4286866799711266e-05, 'epoch': 6.52}
 27%|██▋       | 21315/78504 [12:58:02<31:56:49,  2.01s/it] 27%|██▋       | 21316/78504 [12:58:04<30:44:16,  1.93s/it]                                                           {'loss': 0.138, 'grad_norm': 0.4344030022621155, 'learning_rate': 2.4286442189291328e-05, 'epoch': 6.52}
 27%|██▋       | 21316/78504 [12:58:04<30:44:16,  1.93s/it] 27%|██▋       | 21317/78504 [12:58:05<29:00:08,  1.83s/it]                                                           {'loss': 0.1314, 'grad_norm': 0.6529787182807922, 'learning_rate': 2.4286017578871387e-05, 'epoch': 6.52}
 27%|██▋       | 21317/78504 [12:58:05<29:00:08,  1.83s/it] 27%|██▋       | 21318/78504 [12:58:07<27:35:39,  1.74s/it]                                                           {'loss': 0.138, 'grad_norm': 0.9567509889602661, 'learning_rate': 2.428559296845145e-05, 'epoch': 6.52}
 27%|██▋       | 21318/78504 [12:58:07<27:35:39,  1.74s/it] 27%|██▋       | 21319/78504 [12:58:08<26:30:14,  1.67s/it]                                                           {'loss': 0.1332, 'grad_norm': 0.4814702868461609, 'learning_rate': 2.4285168358031508e-05, 'epoch': 6.52}
 27%|██▋       | 21319/78504 [12:58:08<26:30:14,  1.67s/it] 27%|██▋       | 21320/78504 [12:58:10<25:16:14,  1.59s/it]                                                           {'loss': 0.1647, 'grad_norm': 0.5687755942344666, 'learning_rate': 2.428474374761157e-05, 'epoch': 6.52}
 27%|██▋       | 21320/78504 [12:58:10<25:16:14,  1.59s/it] 27%|██▋       | 21321/78504 [12:58:11<23:46:10,  1.50s/it]                                                           {'loss': 0.1712, 'grad_norm': 1.1843624114990234, 'learning_rate': 2.428431913719163e-05, 'epoch': 6.52}
 27%|██▋       | 21321/78504 [12:58:11<23:46:10,  1.50s/it] 27%|██▋       | 21322/78504 [12:58:12<22:21:55,  1.41s/it]                                                           {'loss': 0.1726, 'grad_norm': 1.0355885028839111, 'learning_rate': 2.4283894526771687e-05, 'epoch': 6.52}
 27%|██▋       | 21322/78504 [12:58:12<22:21:55,  1.41s/it] 27%|██▋       | 21323/78504 [12:58:13<20:54:28,  1.32s/it]                                                           {'loss': 0.1509, 'grad_norm': 0.5939488410949707, 'learning_rate': 2.428346991635175e-05, 'epoch': 6.52}
 27%|██▋       | 21323/78504 [12:58:13<20:54:28,  1.32s/it] 27%|██▋       | 21324/78504 [12:58:14<19:37:57,  1.24s/it]                                                           {'loss': 0.1623, 'grad_norm': 0.5657289624214172, 'learning_rate': 2.4283045305931808e-05, 'epoch': 6.52}
 27%|██▋       | 21324/78504 [12:58:14<19:37:57,  1.24s/it] 27%|██▋       | 21325/78504 [12:58:15<18:08:36,  1.14s/it]                                                           {'loss': 0.1649, 'grad_norm': 0.5840144753456116, 'learning_rate': 2.428262069551187e-05, 'epoch': 6.52}
 27%|██▋       | 21325/78504 [12:58:15<18:08:36,  1.14s/it] 27%|██▋       | 21326/78504 [12:58:16<16:25:07,  1.03s/it]                                                           {'loss': 0.2276, 'grad_norm': 0.8190557360649109, 'learning_rate': 2.428219608509193e-05, 'epoch': 6.52}
 27%|██▋       | 21326/78504 [12:58:16<16:25:07,  1.03s/it] 27%|██▋       | 21327/78504 [12:58:26<59:37:43,  3.75s/it]                                                           {'loss': 0.1471, 'grad_norm': 0.6172247529029846, 'learning_rate': 2.428177147467199e-05, 'epoch': 6.52}
 27%|██▋       | 21327/78504 [12:58:26<59:37:43,  3.75s/it] 27%|██▋       | 21328/78504 [12:58:29<58:03:06,  3.66s/it]                                                           {'loss': 0.079, 'grad_norm': 0.47862452268600464, 'learning_rate': 2.428134686425205e-05, 'epoch': 6.52}
 27%|██▋       | 21328/78504 [12:58:29<58:03:06,  3.66s/it] 27%|██▋       | 21329/78504 [12:58:32<54:30:34,  3.43s/it]                                                           {'loss': 0.0802, 'grad_norm': 0.3313983082771301, 'learning_rate': 2.428092225383211e-05, 'epoch': 6.52}
 27%|██▋       | 21329/78504 [12:58:32<54:30:34,  3.43s/it] 27%|██▋       | 21330/78504 [12:58:35<50:21:58,  3.17s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.4201260507106781, 'learning_rate': 2.428049764341217e-05, 'epoch': 6.52}
 27%|██▋       | 21330/78504 [12:58:35<50:21:58,  3.17s/it] 27%|██▋       | 21331/78504 [12:58:37<47:04:10,  2.96s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.2751399874687195, 'learning_rate': 2.4280073032992232e-05, 'epoch': 6.52}
 27%|██▋       | 21331/78504 [12:58:37<47:04:10,  2.96s/it] 27%|██▋       | 21332/78504 [12:58:40<44:28:21,  2.80s/it]                                                           {'loss': 0.0374, 'grad_norm': 0.3962589502334595, 'learning_rate': 2.427964842257229e-05, 'epoch': 6.52}
 27%|██▋       | 21332/78504 [12:58:40<44:28:21,  2.80s/it] 27%|██▋       | 21333/78504 [12:58:42<42:07:08,  2.65s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.7066413760185242, 'learning_rate': 2.4279223812152353e-05, 'epoch': 6.52}
 27%|██▋       | 21333/78504 [12:58:42<42:07:08,  2.65s/it] 27%|██▋       | 21334/78504 [12:58:44<40:14:58,  2.53s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.22119416296482086, 'learning_rate': 2.4278799201732412e-05, 'epoch': 6.52}
 27%|██▋       | 21334/78504 [12:58:44<40:14:58,  2.53s/it] 27%|██▋       | 21335/78504 [12:58:47<38:36:53,  2.43s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.2598560154438019, 'learning_rate': 2.427837459131247e-05, 'epoch': 6.52}
 27%|██▋       | 21335/78504 [12:58:47<38:36:53,  2.43s/it] 27%|██▋       | 21336/78504 [12:58:49<37:18:54,  2.35s/it]                                                           {'loss': 0.0505, 'grad_norm': 0.3194124698638916, 'learning_rate': 2.4277949980892533e-05, 'epoch': 6.52}
 27%|██▋       | 21336/78504 [12:58:49<37:18:54,  2.35s/it] 27%|██▋       | 21337/78504 [12:58:51<35:43:43,  2.25s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.35980331897735596, 'learning_rate': 2.427752537047259e-05, 'epoch': 6.52}
 27%|██▋       | 21337/78504 [12:58:51<35:43:43,  2.25s/it] 27%|██▋       | 21338/78504 [12:58:53<34:23:52,  2.17s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.15765802562236786, 'learning_rate': 2.4277100760052654e-05, 'epoch': 6.52}
 27%|██▋       | 21338/78504 [12:58:53<34:23:52,  2.17s/it] 27%|██▋       | 21339/78504 [12:58:55<32:57:20,  2.08s/it]                                                           {'loss': 0.0969, 'grad_norm': 0.5193417072296143, 'learning_rate': 2.4276676149632712e-05, 'epoch': 6.52}
 27%|██▋       | 21339/78504 [12:58:55<32:57:20,  2.08s/it] 27%|██▋       | 21340/78504 [12:58:56<31:45:34,  2.00s/it]                                                           {'loss': 0.1059, 'grad_norm': 0.7768480777740479, 'learning_rate': 2.4276251539212774e-05, 'epoch': 6.52}
 27%|██▋       | 21340/78504 [12:58:56<31:45:34,  2.00s/it] 27%|██▋       | 21341/78504 [12:58:58<30:05:28,  1.90s/it]                                                           {'loss': 0.1596, 'grad_norm': 0.5310235023498535, 'learning_rate': 2.4275826928792833e-05, 'epoch': 6.52}
 27%|██▋       | 21341/78504 [12:58:58<30:05:28,  1.90s/it] 27%|██▋       | 21342/78504 [12:59:00<28:51:27,  1.82s/it]                                                           {'loss': 0.1461, 'grad_norm': 0.5618026256561279, 'learning_rate': 2.4275402318372895e-05, 'epoch': 6.52}
 27%|██▋       | 21342/78504 [12:59:00<28:51:27,  1.82s/it] 27%|██▋       | 21343/78504 [12:59:01<27:31:58,  1.73s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.5595186352729797, 'learning_rate': 2.4274977707952954e-05, 'epoch': 6.52}
 27%|██▋       | 21343/78504 [12:59:01<27:31:58,  1.73s/it] 27%|██▋       | 21344/78504 [12:59:03<26:14:03,  1.65s/it]                                                           {'loss': 0.1391, 'grad_norm': 1.3093352317810059, 'learning_rate': 2.4274553097533016e-05, 'epoch': 6.53}
 27%|██▋       | 21344/78504 [12:59:03<26:14:03,  1.65s/it] 27%|██▋       | 21345/78504 [12:59:04<24:57:53,  1.57s/it]                                                           {'loss': 0.166, 'grad_norm': 1.5242550373077393, 'learning_rate': 2.4274128487113075e-05, 'epoch': 6.53}
 27%|██▋       | 21345/78504 [12:59:04<24:57:53,  1.57s/it] 27%|██▋       | 21346/78504 [12:59:05<23:33:57,  1.48s/it]                                                           {'loss': 0.2134, 'grad_norm': 0.8524599075317383, 'learning_rate': 2.4273703876693137e-05, 'epoch': 6.53}
 27%|██▋       | 21346/78504 [12:59:05<23:33:57,  1.48s/it] 27%|██▋       | 21347/78504 [12:59:06<21:49:43,  1.37s/it]                                                           {'loss': 0.1576, 'grad_norm': 0.5898444056510925, 'learning_rate': 2.4273279266273195e-05, 'epoch': 6.53}
 27%|██▋       | 21347/78504 [12:59:07<21:49:43,  1.37s/it] 27%|██▋       | 21348/78504 [12:59:08<20:27:50,  1.29s/it]                                                           {'loss': 0.1987, 'grad_norm': 0.881070077419281, 'learning_rate': 2.4272854655853254e-05, 'epoch': 6.53}
 27%|██▋       | 21348/78504 [12:59:08<20:27:50,  1.29s/it] 27%|██▋       | 21349/78504 [12:59:09<19:01:11,  1.20s/it]                                                           {'loss': 0.1517, 'grad_norm': 0.9966383576393127, 'learning_rate': 2.4272430045433316e-05, 'epoch': 6.53}
 27%|██▋       | 21349/78504 [12:59:09<19:01:11,  1.20s/it] 27%|██▋       | 21350/78504 [12:59:09<17:43:47,  1.12s/it]                                                           {'loss': 0.2021, 'grad_norm': 1.118078589439392, 'learning_rate': 2.4272005435013375e-05, 'epoch': 6.53}
 27%|██▋       | 21350/78504 [12:59:10<17:43:47,  1.12s/it] 27%|██▋       | 21351/78504 [12:59:10<16:06:04,  1.01s/it]                                                           {'loss': 0.1997, 'grad_norm': 1.0858256816864014, 'learning_rate': 2.4271580824593437e-05, 'epoch': 6.53}
 27%|██▋       | 21351/78504 [12:59:10<16:06:04,  1.01s/it] 27%|██▋       | 21352/78504 [12:59:18<46:45:31,  2.95s/it]                                                           {'loss': 0.1345, 'grad_norm': 0.5372995734214783, 'learning_rate': 2.4271156214173496e-05, 'epoch': 6.53}
 27%|██▋       | 21352/78504 [12:59:18<46:45:31,  2.95s/it] 27%|██▋       | 21353/78504 [12:59:21<48:40:41,  3.07s/it]                                                           {'loss': 0.077, 'grad_norm': 0.45839589834213257, 'learning_rate': 2.4270731603753558e-05, 'epoch': 6.53}
 27%|██▋       | 21353/78504 [12:59:21<48:40:41,  3.07s/it] 27%|██▋       | 21354/78504 [12:59:24<46:14:49,  2.91s/it]                                                           {'loss': 0.0628, 'grad_norm': 0.3019616901874542, 'learning_rate': 2.4270306993333616e-05, 'epoch': 6.53}
 27%|██▋       | 21354/78504 [12:59:24<46:14:49,  2.91s/it] 27%|██▋       | 21355/78504 [12:59:26<44:35:26,  2.81s/it]                                                           {'loss': 0.0737, 'grad_norm': 0.2061017006635666, 'learning_rate': 2.426988238291368e-05, 'epoch': 6.53}
 27%|██▋       | 21355/78504 [12:59:26<44:35:26,  2.81s/it] 27%|██▋       | 21356/78504 [12:59:29<42:56:58,  2.71s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.2577838897705078, 'learning_rate': 2.4269457772493737e-05, 'epoch': 6.53}
 27%|██▋       | 21356/78504 [12:59:29<42:56:58,  2.71s/it] 27%|██▋       | 21357/78504 [12:59:31<41:36:47,  2.62s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.22829601168632507, 'learning_rate': 2.42690331620738e-05, 'epoch': 6.53}
 27%|██▋       | 21357/78504 [12:59:31<41:36:47,  2.62s/it] 27%|██▋       | 21358/78504 [12:59:33<40:09:29,  2.53s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.34275704622268677, 'learning_rate': 2.4268608551653858e-05, 'epoch': 6.53}
 27%|██▋       | 21358/78504 [12:59:33<40:09:29,  2.53s/it] 27%|██▋       | 21359/78504 [12:59:36<38:08:27,  2.40s/it]                                                           {'loss': 0.051, 'grad_norm': 0.3100472390651703, 'learning_rate': 2.426818394123392e-05, 'epoch': 6.53}
 27%|██▋       | 21359/78504 [12:59:36<38:08:27,  2.40s/it] 27%|██▋       | 21360/78504 [12:59:38<37:05:15,  2.34s/it]                                                           {'loss': 0.0707, 'grad_norm': 0.41700103878974915, 'learning_rate': 2.426775933081398e-05, 'epoch': 6.53}
 27%|██▋       | 21360/78504 [12:59:38<37:05:15,  2.34s/it] 27%|██▋       | 21361/78504 [12:59:40<36:07:53,  2.28s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.41712313890457153, 'learning_rate': 2.4267334720394037e-05, 'epoch': 6.53}
 27%|██▋       | 21361/78504 [12:59:40<36:07:53,  2.28s/it] 27%|██▋       | 21362/78504 [12:59:42<34:55:56,  2.20s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.18496577441692352, 'learning_rate': 2.42669101099741e-05, 'epoch': 6.53}
 27%|██▋       | 21362/78504 [12:59:42<34:55:56,  2.20s/it] 27%|██▋       | 21363/78504 [12:59:44<33:50:00,  2.13s/it]                                                           {'loss': 0.0687, 'grad_norm': 0.2805708050727844, 'learning_rate': 2.4266485499554158e-05, 'epoch': 6.53}
 27%|██▋       | 21363/78504 [12:59:44<33:50:00,  2.13s/it] 27%|██▋       | 21364/78504 [12:59:46<32:31:45,  2.05s/it]                                                           {'loss': 0.0945, 'grad_norm': 0.30385440587997437, 'learning_rate': 2.426606088913422e-05, 'epoch': 6.53}
 27%|██▋       | 21364/78504 [12:59:46<32:31:45,  2.05s/it] 27%|██▋       | 21365/78504 [12:59:47<31:28:15,  1.98s/it]                                                           {'loss': 0.1201, 'grad_norm': 0.5005346536636353, 'learning_rate': 2.426563627871428e-05, 'epoch': 6.53}
 27%|██▋       | 21365/78504 [12:59:48<31:28:15,  1.98s/it] 27%|██▋       | 21366/78504 [12:59:49<30:13:54,  1.90s/it]                                                           {'loss': 0.0956, 'grad_norm': 0.8626431226730347, 'learning_rate': 2.426521166829434e-05, 'epoch': 6.53}
 27%|██▋       | 21366/78504 [12:59:49<30:13:54,  1.90s/it] 27%|██▋       | 21367/78504 [12:59:51<28:56:50,  1.82s/it]                                                           {'loss': 0.117, 'grad_norm': 0.3460749685764313, 'learning_rate': 2.42647870578744e-05, 'epoch': 6.53}
 27%|██▋       | 21367/78504 [12:59:51<28:56:50,  1.82s/it] 27%|██▋       | 21368/78504 [12:59:52<27:33:38,  1.74s/it]                                                           {'loss': 0.1184, 'grad_norm': 0.6125866174697876, 'learning_rate': 2.4264362447454462e-05, 'epoch': 6.53}
 27%|██▋       | 21368/78504 [12:59:52<27:33:38,  1.74s/it] 27%|██▋       | 21369/78504 [12:59:54<26:14:24,  1.65s/it]                                                           {'loss': 0.1606, 'grad_norm': 0.5906453132629395, 'learning_rate': 2.426393783703452e-05, 'epoch': 6.53}
 27%|██▋       | 21369/78504 [12:59:54<26:14:24,  1.65s/it] 27%|██▋       | 21370/78504 [12:59:55<24:54:13,  1.57s/it]                                                           {'loss': 0.1824, 'grad_norm': 1.1285871267318726, 'learning_rate': 2.4263513226614583e-05, 'epoch': 6.53}
 27%|██▋       | 21370/78504 [12:59:55<24:54:13,  1.57s/it] 27%|██▋       | 21371/78504 [12:59:57<23:31:44,  1.48s/it]                                                           {'loss': 0.159, 'grad_norm': 0.41077136993408203, 'learning_rate': 2.426308861619464e-05, 'epoch': 6.53}
 27%|██▋       | 21371/78504 [12:59:57<23:31:44,  1.48s/it] 27%|██▋       | 21372/78504 [12:59:58<21:48:38,  1.37s/it]                                                           {'loss': 0.1983, 'grad_norm': 0.9351300001144409, 'learning_rate': 2.42626640057747e-05, 'epoch': 6.53}
 27%|██▋       | 21372/78504 [12:59:58<21:48:38,  1.37s/it] 27%|██▋       | 21373/78504 [12:59:59<20:28:00,  1.29s/it]                                                           {'loss': 0.2129, 'grad_norm': 0.5744179487228394, 'learning_rate': 2.4262239395354762e-05, 'epoch': 6.53}
 27%|██▋       | 21373/78504 [12:59:59<20:28:00,  1.29s/it] 27%|██▋       | 21374/78504 [13:00:00<19:01:26,  1.20s/it]                                                           {'loss': 0.2115, 'grad_norm': 1.060882329940796, 'learning_rate': 2.426181478493482e-05, 'epoch': 6.53}
 27%|██▋       | 21374/78504 [13:00:00<19:01:26,  1.20s/it] 27%|██▋       | 21375/78504 [13:00:01<17:45:33,  1.12s/it]                                                           {'loss': 0.1933, 'grad_norm': 7.971945762634277, 'learning_rate': 2.4261390174514883e-05, 'epoch': 6.53}
 27%|██▋       | 21375/78504 [13:00:01<17:45:33,  1.12s/it] 27%|██▋       | 21376/78504 [13:00:01<16:01:32,  1.01s/it]                                                           {'loss': 0.2243, 'grad_norm': 0.8472995162010193, 'learning_rate': 2.4260965564094942e-05, 'epoch': 6.54}
 27%|██▋       | 21376/78504 [13:00:01<16:01:32,  1.01s/it] 27%|██▋       | 21377/78504 [13:00:09<45:30:21,  2.87s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.7216202020645142, 'learning_rate': 2.4260540953675004e-05, 'epoch': 6.54}
 27%|██▋       | 21377/78504 [13:00:09<45:30:21,  2.87s/it] 27%|██▋       | 21378/78504 [13:00:12<46:46:13,  2.95s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.25469517707824707, 'learning_rate': 2.4260116343255063e-05, 'epoch': 6.54}
 27%|██▋       | 21378/78504 [13:00:12<46:46:13,  2.95s/it] 27%|██▋       | 21379/78504 [13:00:15<46:37:03,  2.94s/it]                                                           {'loss': 0.0576, 'grad_norm': 0.17780576646327972, 'learning_rate': 2.4259691732835125e-05, 'epoch': 6.54}
 27%|██▋       | 21379/78504 [13:00:15<46:37:03,  2.94s/it] 27%|██▋       | 21380/78504 [13:00:17<44:09:26,  2.78s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.6957874894142151, 'learning_rate': 2.4259267122415183e-05, 'epoch': 6.54}
 27%|██▋       | 21380/78504 [13:00:17<44:09:26,  2.78s/it] 27%|██▋       | 21381/78504 [13:00:20<42:39:56,  2.69s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.3188183903694153, 'learning_rate': 2.4258842511995245e-05, 'epoch': 6.54}
 27%|██▋       | 21381/78504 [13:00:20<42:39:56,  2.69s/it] 27%|██▋       | 21382/78504 [13:00:22<40:36:55,  2.56s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.4460086524486542, 'learning_rate': 2.4258417901575304e-05, 'epoch': 6.54}
 27%|██▋       | 21382/78504 [13:00:22<40:36:55,  2.56s/it] 27%|██▋       | 21383/78504 [13:00:24<39:25:35,  2.48s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.3193986713886261, 'learning_rate': 2.4257993291155366e-05, 'epoch': 6.54}
 27%|██▋       | 21383/78504 [13:00:24<39:25:35,  2.48s/it] 27%|██▋       | 21384/78504 [13:00:26<37:31:05,  2.36s/it]                                                           {'loss': 0.056, 'grad_norm': 0.7942701578140259, 'learning_rate': 2.4257568680735425e-05, 'epoch': 6.54}
 27%|██▋       | 21384/78504 [13:00:26<37:31:05,  2.36s/it] 27%|██▋       | 21385/78504 [13:00:28<36:37:39,  2.31s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.7319483160972595, 'learning_rate': 2.4257144070315484e-05, 'epoch': 6.54}
 27%|██▋       | 21385/78504 [13:00:28<36:37:39,  2.31s/it] 27%|██▋       | 21386/78504 [13:00:30<35:48:16,  2.26s/it]                                                           {'loss': 0.052, 'grad_norm': 0.20501072704792023, 'learning_rate': 2.4256719459895546e-05, 'epoch': 6.54}
 27%|██▋       | 21386/78504 [13:00:31<35:48:16,  2.26s/it] 27%|██▋       | 21387/78504 [13:00:33<34:41:19,  2.19s/it]                                                           {'loss': 0.1284, 'grad_norm': 0.3337918221950531, 'learning_rate': 2.4256294849475604e-05, 'epoch': 6.54}
 27%|██▋       | 21387/78504 [13:00:33<34:41:19,  2.19s/it] 27%|██▋       | 21388/78504 [13:00:34<33:40:31,  2.12s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.2443014234304428, 'learning_rate': 2.4255870239055666e-05, 'epoch': 6.54}
 27%|██▋       | 21388/78504 [13:00:35<33:40:31,  2.12s/it] 27%|██▋       | 21389/78504 [13:00:36<32:40:28,  2.06s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.2982514500617981, 'learning_rate': 2.4255445628635725e-05, 'epoch': 6.54}
 27%|██▋       | 21389/78504 [13:00:36<32:40:28,  2.06s/it] 27%|██▋       | 21390/78504 [13:00:38<31:39:44,  2.00s/it]                                                           {'loss': 0.1026, 'grad_norm': 0.3146127462387085, 'learning_rate': 2.4255021018215787e-05, 'epoch': 6.54}
 27%|██▋       | 21390/78504 [13:00:38<31:39:44,  2.00s/it] 27%|██▋       | 21391/78504 [13:00:40<30:31:18,  1.92s/it]                                                           {'loss': 0.1052, 'grad_norm': 0.7553523182868958, 'learning_rate': 2.4254596407795846e-05, 'epoch': 6.54}
 27%|██▋       | 21391/78504 [13:00:40<30:31:18,  1.92s/it] 27%|██▋       | 21392/78504 [13:00:42<29:09:32,  1.84s/it]                                                           {'loss': 0.1814, 'grad_norm': 1.1047742366790771, 'learning_rate': 2.4254171797375908e-05, 'epoch': 6.54}
 27%|██▋       | 21392/78504 [13:00:42<29:09:32,  1.84s/it] 27%|██▋       | 21393/78504 [13:00:43<27:41:24,  1.75s/it]                                                           {'loss': 0.1488, 'grad_norm': 0.9679626226425171, 'learning_rate': 2.4253747186955967e-05, 'epoch': 6.54}
 27%|██▋       | 21393/78504 [13:00:43<27:41:24,  1.75s/it] 27%|██▋       | 21394/78504 [13:00:45<26:20:21,  1.66s/it]                                                           {'loss': 0.1889, 'grad_norm': 0.6713182330131531, 'learning_rate': 2.425332257653603e-05, 'epoch': 6.54}
 27%|██▋       | 21394/78504 [13:00:45<26:20:21,  1.66s/it] 27%|██▋       | 21395/78504 [13:00:46<25:03:26,  1.58s/it]                                                           {'loss': 0.1205, 'grad_norm': 0.7543385028839111, 'learning_rate': 2.4252897966116088e-05, 'epoch': 6.54}
 27%|██▋       | 21395/78504 [13:00:46<25:03:26,  1.58s/it] 27%|██▋       | 21396/78504 [13:00:47<23:39:33,  1.49s/it]                                                           {'loss': 0.1594, 'grad_norm': 0.6076797246932983, 'learning_rate': 2.425247335569615e-05, 'epoch': 6.54}
 27%|██▋       | 21396/78504 [13:00:47<23:39:33,  1.49s/it] 27%|██▋       | 21397/78504 [13:00:48<22:02:11,  1.39s/it]                                                           {'loss': 0.1625, 'grad_norm': 0.3921612501144409, 'learning_rate': 2.4252048745276208e-05, 'epoch': 6.54}
 27%|██▋       | 21397/78504 [13:00:48<22:02:11,  1.39s/it] 27%|██▋       | 21398/78504 [13:00:50<20:44:36,  1.31s/it]                                                           {'loss': 0.1797, 'grad_norm': 0.6033971905708313, 'learning_rate': 2.4251624134856267e-05, 'epoch': 6.54}
 27%|██▋       | 21398/78504 [13:00:50<20:44:36,  1.31s/it] 27%|██▋       | 21399/78504 [13:00:51<19:29:05,  1.23s/it]                                                           {'loss': 0.2951, 'grad_norm': 1.5462969541549683, 'learning_rate': 2.425119952443633e-05, 'epoch': 6.54}
 27%|██▋       | 21399/78504 [13:00:51<19:29:05,  1.23s/it] 27%|██▋       | 21400/78504 [13:00:52<18:05:11,  1.14s/it]                                                           {'loss': 0.1617, 'grad_norm': 1.0718393325805664, 'learning_rate': 2.4250774914016388e-05, 'epoch': 6.54}
 27%|██▋       | 21400/78504 [13:00:52<18:05:11,  1.14s/it] 27%|██▋       | 21401/78504 [13:00:52<16:21:12,  1.03s/it]                                                           {'loss': 0.1964, 'grad_norm': 1.254709005355835, 'learning_rate': 2.425035030359645e-05, 'epoch': 6.54}
 27%|██▋       | 21401/78504 [13:00:52<16:21:12,  1.03s/it] 27%|██▋       | 21402/78504 [13:01:02<57:49:04,  3.65s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.4664350152015686, 'learning_rate': 2.424992569317651e-05, 'epoch': 6.54}
 27%|██▋       | 21402/78504 [13:01:02<57:49:04,  3.65s/it] 27%|██▋       | 21403/78504 [13:01:05<56:12:34,  3.54s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.23865920305252075, 'learning_rate': 2.424950108275657e-05, 'epoch': 6.54}
 27%|██▋       | 21403/78504 [13:01:05<56:12:34,  3.54s/it] 27%|██▋       | 21404/78504 [13:01:08<53:30:57,  3.37s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.32319432497024536, 'learning_rate': 2.424907647233663e-05, 'epoch': 6.54}
 27%|██▋       | 21404/78504 [13:01:08<53:30:57,  3.37s/it] 27%|██▋       | 21405/78504 [13:01:11<49:48:06,  3.14s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.205963134765625, 'learning_rate': 2.424865186191669e-05, 'epoch': 6.54}
 27%|██▋       | 21405/78504 [13:01:11<49:48:06,  3.14s/it] 27%|██▋       | 21406/78504 [13:01:13<46:35:02,  2.94s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.4830262064933777, 'learning_rate': 2.424822725149675e-05, 'epoch': 6.54}
 27%|██▋       | 21406/78504 [13:01:13<46:35:02,  2.94s/it] 27%|██▋       | 21407/78504 [13:01:16<43:24:04,  2.74s/it]                                                           {'loss': 0.0636, 'grad_norm': 0.2058921456336975, 'learning_rate': 2.4247802641076812e-05, 'epoch': 6.54}
 27%|██▋       | 21407/78504 [13:01:16<43:24:04,  2.74s/it] 27%|██▋       | 21408/78504 [13:01:18<41:24:29,  2.61s/it]                                                           {'loss': 0.072, 'grad_norm': 1.0758419036865234, 'learning_rate': 2.4247378030656874e-05, 'epoch': 6.54}
 27%|██▋       | 21408/78504 [13:01:18<41:24:29,  2.61s/it] 27%|██▋       | 21409/78504 [13:01:20<38:56:31,  2.46s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.248408243060112, 'learning_rate': 2.4246953420236936e-05, 'epoch': 6.55}
 27%|██▋       | 21409/78504 [13:01:20<38:56:31,  2.46s/it] 27%|██▋       | 21410/78504 [13:01:22<36:56:27,  2.33s/it]                                                           {'loss': 0.0928, 'grad_norm': 0.31666430830955505, 'learning_rate': 2.4246528809816995e-05, 'epoch': 6.55}
 27%|██▋       | 21410/78504 [13:01:22<36:56:27,  2.33s/it] 27%|██▋       | 21411/78504 [13:01:24<35:59:31,  2.27s/it]                                                           {'loss': 0.0799, 'grad_norm': 0.20483221113681793, 'learning_rate': 2.4246104199397054e-05, 'epoch': 6.55}
 27%|██▋       | 21411/78504 [13:01:24<35:59:31,  2.27s/it] 27%|██▋       | 21412/78504 [13:01:26<34:49:06,  2.20s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.4147005081176758, 'learning_rate': 2.4245679588977116e-05, 'epoch': 6.55}
 27%|██▋       | 21412/78504 [13:01:26<34:49:06,  2.20s/it] 27%|██▋       | 21413/78504 [13:01:28<33:47:32,  2.13s/it]                                                           {'loss': 0.0826, 'grad_norm': 0.5322294235229492, 'learning_rate': 2.4245254978557175e-05, 'epoch': 6.55}
 27%|██▋       | 21413/78504 [13:01:28<33:47:32,  2.13s/it] 27%|██▋       | 21414/78504 [13:01:30<32:30:41,  2.05s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.29105985164642334, 'learning_rate': 2.4244830368137237e-05, 'epoch': 6.55}
 27%|██▋       | 21414/78504 [13:01:30<32:30:41,  2.05s/it] 27%|██▋       | 21415/78504 [13:01:32<31:32:30,  1.99s/it]                                                           {'loss': 0.0991, 'grad_norm': 0.7869717478752136, 'learning_rate': 2.4244405757717295e-05, 'epoch': 6.55}
 27%|██▋       | 21415/78504 [13:01:32<31:32:30,  1.99s/it] 27%|██▋       | 21416/78504 [13:01:34<30:30:28,  1.92s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.6516363620758057, 'learning_rate': 2.4243981147297357e-05, 'epoch': 6.55}
 27%|██▋       | 21416/78504 [13:01:34<30:30:28,  1.92s/it] 27%|██▋       | 21417/78504 [13:01:35<29:10:49,  1.84s/it]                                                           {'loss': 0.1177, 'grad_norm': 0.4654444754123688, 'learning_rate': 2.4243556536877416e-05, 'epoch': 6.55}
 27%|██▋       | 21417/78504 [13:01:35<29:10:49,  1.84s/it] 27%|██▋       | 21418/78504 [13:01:37<27:38:56,  1.74s/it]                                                           {'loss': 0.162, 'grad_norm': 0.8364895582199097, 'learning_rate': 2.4243131926457478e-05, 'epoch': 6.55}
 27%|██▋       | 21418/78504 [13:01:37<27:38:56,  1.74s/it] 27%|██▋       | 21419/78504 [13:01:38<26:21:11,  1.66s/it]                                                           {'loss': 0.152, 'grad_norm': 1.0504887104034424, 'learning_rate': 2.4242707316037537e-05, 'epoch': 6.55}
 27%|██▋       | 21419/78504 [13:01:38<26:21:11,  1.66s/it] 27%|██▋       | 21420/78504 [13:01:40<25:09:20,  1.59s/it]                                                           {'loss': 0.1607, 'grad_norm': 0.6694566607475281, 'learning_rate': 2.42422827056176e-05, 'epoch': 6.55}
 27%|██▋       | 21420/78504 [13:01:40<25:09:20,  1.59s/it] 27%|██▋       | 21421/78504 [13:01:41<23:42:16,  1.49s/it]                                                           {'loss': 0.2039, 'grad_norm': 1.5516300201416016, 'learning_rate': 2.4241858095197658e-05, 'epoch': 6.55}
 27%|██▋       | 21421/78504 [13:01:41<23:42:16,  1.49s/it] 27%|██▋       | 21422/78504 [13:01:42<22:04:36,  1.39s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.7954932451248169, 'learning_rate': 2.424143348477772e-05, 'epoch': 6.55}
 27%|██▋       | 21422/78504 [13:01:42<22:04:36,  1.39s/it] 27%|██▋       | 21423/78504 [13:01:43<20:43:23,  1.31s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.9332907199859619, 'learning_rate': 2.424100887435778e-05, 'epoch': 6.55}
 27%|██▋       | 21423/78504 [13:01:43<20:43:23,  1.31s/it] 27%|██▋       | 21424/78504 [13:01:44<19:13:00,  1.21s/it]                                                           {'loss': 0.2194, 'grad_norm': 1.1822810173034668, 'learning_rate': 2.4240584263937837e-05, 'epoch': 6.55}
 27%|██▋       | 21424/78504 [13:01:44<19:13:00,  1.21s/it] 27%|██▋       | 21425/78504 [13:01:45<17:52:33,  1.13s/it]                                                           {'loss': 0.1702, 'grad_norm': 0.6618886590003967, 'learning_rate': 2.42401596535179e-05, 'epoch': 6.55}
 27%|██▋       | 21425/78504 [13:01:45<17:52:33,  1.13s/it] 27%|██▋       | 21426/78504 [13:01:46<16:11:53,  1.02s/it]                                                           {'loss': 0.2548, 'grad_norm': 0.8764485120773315, 'learning_rate': 2.4239735043097958e-05, 'epoch': 6.55}
 27%|██▋       | 21426/78504 [13:01:46<16:11:53,  1.02s/it] 27%|██▋       | 21427/78504 [13:01:54<49:11:15,  3.10s/it]                                                           {'loss': 0.1564, 'grad_norm': 0.5309696793556213, 'learning_rate': 2.423931043267802e-05, 'epoch': 6.55}
 27%|██▋       | 21427/78504 [13:01:54<49:11:15,  3.10s/it] 27%|██▋       | 21428/78504 [13:01:57<50:25:17,  3.18s/it]                                                           {'loss': 0.0859, 'grad_norm': 0.31977733969688416, 'learning_rate': 2.423888582225808e-05, 'epoch': 6.55}
 27%|██▋       | 21428/78504 [13:01:57<50:25:17,  3.18s/it] 27%|██▋       | 21429/78504 [13:02:00<47:30:40,  3.00s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.27919232845306396, 'learning_rate': 2.423846121183814e-05, 'epoch': 6.55}
 27%|██▋       | 21429/78504 [13:02:00<47:30:40,  3.00s/it] 27%|██▋       | 21430/78504 [13:02:03<45:32:51,  2.87s/it]                                                           {'loss': 0.0401, 'grad_norm': 0.14627225697040558, 'learning_rate': 2.42380366014182e-05, 'epoch': 6.55}
 27%|██▋       | 21430/78504 [13:02:03<45:32:51,  2.87s/it] 27%|██▋       | 21431/78504 [13:02:05<43:43:24,  2.76s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.29828986525535583, 'learning_rate': 2.423761199099826e-05, 'epoch': 6.55}
 27%|██▋       | 21431/78504 [13:02:05<43:43:24,  2.76s/it] 27%|██▋       | 21432/78504 [13:02:07<41:48:21,  2.64s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.4607507884502411, 'learning_rate': 2.423718738057832e-05, 'epoch': 6.55}
 27%|██▋       | 21432/78504 [13:02:07<41:48:21,  2.64s/it] 27%|██▋       | 21433/78504 [13:02:10<40:20:40,  2.54s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.21044307947158813, 'learning_rate': 2.4236762770158382e-05, 'epoch': 6.55}
 27%|██▋       | 21433/78504 [13:02:10<40:20:40,  2.54s/it] 27%|██▋       | 21434/78504 [13:02:12<38:58:49,  2.46s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.2374926060438156, 'learning_rate': 2.423633815973844e-05, 'epoch': 6.55}
 27%|██▋       | 21434/78504 [13:02:12<38:58:49,  2.46s/it] 27%|██▋       | 21435/78504 [13:02:14<37:41:34,  2.38s/it]                                                           {'loss': 0.1025, 'grad_norm': 0.7816290259361267, 'learning_rate': 2.4235913549318503e-05, 'epoch': 6.55}
 27%|██▋       | 21435/78504 [13:02:14<37:41:34,  2.38s/it] 27%|██▋       | 21436/78504 [13:02:16<36:34:16,  2.31s/it]                                                           {'loss': 0.0783, 'grad_norm': 0.25926247239112854, 'learning_rate': 2.4235488938898562e-05, 'epoch': 6.55}
 27%|██▋       | 21436/78504 [13:02:16<36:34:16,  2.31s/it] 27%|██▋       | 21437/78504 [13:02:18<35:02:08,  2.21s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.898669421672821, 'learning_rate': 2.423506432847862e-05, 'epoch': 6.55}
 27%|██▋       | 21437/78504 [13:02:18<35:02:08,  2.21s/it] 27%|██▋       | 21438/78504 [13:02:20<33:39:13,  2.12s/it]                                                           {'loss': 0.0668, 'grad_norm': 0.5319616198539734, 'learning_rate': 2.4234639718058683e-05, 'epoch': 6.55}
 27%|██▋       | 21438/78504 [13:02:20<33:39:13,  2.12s/it] 27%|██▋       | 21439/78504 [13:02:22<32:28:07,  2.05s/it]                                                           {'loss': 0.1086, 'grad_norm': 0.41189685463905334, 'learning_rate': 2.423421510763874e-05, 'epoch': 6.55}
 27%|██▋       | 21439/78504 [13:02:22<32:28:07,  2.05s/it] 27%|██▋       | 21440/78504 [13:02:24<30:54:18,  1.95s/it]                                                           {'loss': 0.1191, 'grad_norm': 0.5618849396705627, 'learning_rate': 2.4233790497218804e-05, 'epoch': 6.55}
 27%|██▋       | 21440/78504 [13:02:24<30:54:18,  1.95s/it] 27%|██▋       | 21441/78504 [13:02:26<30:01:49,  1.89s/it]                                                           {'loss': 0.1072, 'grad_norm': 0.5041928291320801, 'learning_rate': 2.4233365886798862e-05, 'epoch': 6.55}
 27%|██▋       | 21441/78504 [13:02:26<30:01:49,  1.89s/it] 27%|██▋       | 21442/78504 [13:02:27<28:49:43,  1.82s/it]                                                           {'loss': 0.1461, 'grad_norm': 1.7797802686691284, 'learning_rate': 2.4232941276378924e-05, 'epoch': 6.56}
 27%|██▋       | 21442/78504 [13:02:27<28:49:43,  1.82s/it] 27%|██▋       | 21443/78504 [13:02:29<27:23:20,  1.73s/it]                                                           {'loss': 0.1519, 'grad_norm': 0.471292108297348, 'learning_rate': 2.4232516665958983e-05, 'epoch': 6.56}
 27%|██▋       | 21443/78504 [13:02:29<27:23:20,  1.73s/it] 27%|██▋       | 21444/78504 [13:02:30<25:56:42,  1.64s/it]                                                           {'loss': 0.1789, 'grad_norm': 0.5895012617111206, 'learning_rate': 2.4232092055539045e-05, 'epoch': 6.56}
 27%|██▋       | 21444/78504 [13:02:30<25:56:42,  1.64s/it] 27%|██▋       | 21445/78504 [13:02:32<24:52:27,  1.57s/it]                                                           {'loss': 0.1409, 'grad_norm': 0.5048537254333496, 'learning_rate': 2.4231667445119104e-05, 'epoch': 6.56}
 27%|██▋       | 21445/78504 [13:02:32<24:52:27,  1.57s/it] 27%|██▋       | 21446/78504 [13:02:33<23:30:52,  1.48s/it]                                                           {'loss': 0.1507, 'grad_norm': 0.9241306185722351, 'learning_rate': 2.4231242834699166e-05, 'epoch': 6.56}
 27%|██▋       | 21446/78504 [13:02:33<23:30:52,  1.48s/it] 27%|██▋       | 21447/78504 [13:02:34<21:49:57,  1.38s/it]                                                           {'loss': 0.141, 'grad_norm': 0.4468935430049896, 'learning_rate': 2.4230818224279225e-05, 'epoch': 6.56}
 27%|██▋       | 21447/78504 [13:02:34<21:49:57,  1.38s/it] 27%|██▋       | 21448/78504 [13:02:35<20:27:51,  1.29s/it]                                                           {'loss': 0.1983, 'grad_norm': 1.6656941175460815, 'learning_rate': 2.4230393613859287e-05, 'epoch': 6.56}
 27%|██▋       | 21448/78504 [13:02:35<20:27:51,  1.29s/it] 27%|██▋       | 21449/78504 [13:02:36<19:02:59,  1.20s/it]                                                           {'loss': 0.1496, 'grad_norm': 2.4706084728240967, 'learning_rate': 2.4229969003439345e-05, 'epoch': 6.56}
 27%|██▋       | 21449/78504 [13:02:36<19:02:59,  1.20s/it] 27%|██▋       | 21450/78504 [13:02:37<17:47:39,  1.12s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.7512071132659912, 'learning_rate': 2.4229544393019404e-05, 'epoch': 6.56}
 27%|██▋       | 21450/78504 [13:02:37<17:47:39,  1.12s/it] 27%|██▋       | 21451/78504 [13:02:38<16:10:23,  1.02s/it]                                                           {'loss': 0.2096, 'grad_norm': 1.999038577079773, 'learning_rate': 2.4229119782599466e-05, 'epoch': 6.56}
 27%|██▋       | 21451/78504 [13:02:38<16:10:23,  1.02s/it] 27%|██▋       | 21452/78504 [13:02:46<51:27:37,  3.25s/it]                                                           {'loss': 0.1047, 'grad_norm': 0.6486340165138245, 'learning_rate': 2.4228695172179525e-05, 'epoch': 6.56}
 27%|██▋       | 21452/78504 [13:02:46<51:27:37,  3.25s/it] 27%|██▋       | 21453/78504 [13:02:49<51:43:31,  3.26s/it]                                                           {'loss': 0.0651, 'grad_norm': 1.2017101049423218, 'learning_rate': 2.4228270561759587e-05, 'epoch': 6.56}
 27%|██▋       | 21453/78504 [13:02:50<51:43:31,  3.26s/it] 27%|██▋       | 21454/78504 [13:02:53<50:31:15,  3.19s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.32120513916015625, 'learning_rate': 2.4227845951339646e-05, 'epoch': 6.56}
 27%|██▋       | 21454/78504 [13:02:53<50:31:15,  3.19s/it] 27%|██▋       | 21455/78504 [13:02:55<47:48:18,  3.02s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.19033850729465485, 'learning_rate': 2.4227421340919708e-05, 'epoch': 6.56}
 27%|██▋       | 21455/78504 [13:02:55<47:48:18,  3.02s/it] 27%|██▋       | 21456/78504 [13:02:58<45:10:24,  2.85s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.33510830998420715, 'learning_rate': 2.4226996730499766e-05, 'epoch': 6.56}
 27%|██▋       | 21456/78504 [13:02:58<45:10:24,  2.85s/it] 27%|██▋       | 21457/78504 [13:03:00<42:24:23,  2.68s/it]                                                           {'loss': 0.0371, 'grad_norm': 0.14582563936710358, 'learning_rate': 2.422657212007983e-05, 'epoch': 6.56}
 27%|██▋       | 21457/78504 [13:03:00<42:24:23,  2.68s/it] 27%|██▋       | 21458/78504 [13:03:02<40:41:46,  2.57s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.21201486885547638, 'learning_rate': 2.4226147509659887e-05, 'epoch': 6.56}
 27%|██▋       | 21458/78504 [13:03:02<40:41:46,  2.57s/it] 27%|██▋       | 21459/78504 [13:03:04<38:24:46,  2.42s/it]                                                           {'loss': 0.0449, 'grad_norm': 0.18885989487171173, 'learning_rate': 2.422572289923995e-05, 'epoch': 6.56}
 27%|██▋       | 21459/78504 [13:03:04<38:24:46,  2.42s/it] 27%|██▋       | 21460/78504 [13:03:06<36:31:44,  2.31s/it]                                                           {'loss': 0.0877, 'grad_norm': 0.3291248381137848, 'learning_rate': 2.4225298288820008e-05, 'epoch': 6.56}
 27%|██▋       | 21460/78504 [13:03:06<36:31:44,  2.31s/it] 27%|██▋       | 21461/78504 [13:03:08<35:42:54,  2.25s/it]                                                           {'loss': 0.056, 'grad_norm': 0.23065690696239471, 'learning_rate': 2.422487367840007e-05, 'epoch': 6.56}
 27%|██▋       | 21461/78504 [13:03:09<35:42:54,  2.25s/it] 27%|██▋       | 21462/78504 [13:03:11<35:09:29,  2.22s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.2912161648273468, 'learning_rate': 2.422444906798013e-05, 'epoch': 6.56}
 27%|██▋       | 21462/78504 [13:03:11<35:09:29,  2.22s/it] 27%|██▋       | 21463/78504 [13:03:13<34:00:17,  2.15s/it]                                                           {'loss': 0.0692, 'grad_norm': 1.230757236480713, 'learning_rate': 2.4224024457560188e-05, 'epoch': 6.56}
 27%|██▋       | 21463/78504 [13:03:13<34:00:17,  2.15s/it] 27%|██▋       | 21464/78504 [13:03:14<32:39:25,  2.06s/it]                                                           {'loss': 0.1054, 'grad_norm': 0.45426085591316223, 'learning_rate': 2.422359984714025e-05, 'epoch': 6.56}
 27%|██▋       | 21464/78504 [13:03:14<32:39:25,  2.06s/it] 27%|██▋       | 21465/78504 [13:03:16<31:36:29,  1.99s/it]                                                           {'loss': 0.1252, 'grad_norm': 0.9157555103302002, 'learning_rate': 2.422317523672031e-05, 'epoch': 6.56}
 27%|██▋       | 21465/78504 [13:03:16<31:36:29,  1.99s/it] 27%|██▋       | 21466/78504 [13:03:18<30:20:25,  1.91s/it]                                                           {'loss': 0.1121, 'grad_norm': 0.5859290957450867, 'learning_rate': 2.422275062630037e-05, 'epoch': 6.56}
 27%|██▋       | 21466/78504 [13:03:18<30:20:25,  1.91s/it] 27%|██▋       | 21467/78504 [13:03:20<29:03:25,  1.83s/it]                                                           {'loss': 0.159, 'grad_norm': 0.9746419787406921, 'learning_rate': 2.422232601588043e-05, 'epoch': 6.56}
 27%|██▋       | 21467/78504 [13:03:20<29:03:25,  1.83s/it] 27%|██▋       | 21468/78504 [13:03:21<27:40:44,  1.75s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.34775224328041077, 'learning_rate': 2.422190140546049e-05, 'epoch': 6.56}
 27%|██▋       | 21468/78504 [13:03:21<27:40:44,  1.75s/it] 27%|██▋       | 21469/78504 [13:03:23<26:21:11,  1.66s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.3219265937805176, 'learning_rate': 2.422147679504055e-05, 'epoch': 6.56}
 27%|██▋       | 21469/78504 [13:03:23<26:21:11,  1.66s/it] 27%|██▋       | 21470/78504 [13:03:24<25:10:12,  1.59s/it]                                                           {'loss': 0.1531, 'grad_norm': 0.9737737774848938, 'learning_rate': 2.4221052184620612e-05, 'epoch': 6.56}
 27%|██▋       | 21470/78504 [13:03:24<25:10:12,  1.59s/it] 27%|██▋       | 21471/78504 [13:03:25<23:41:26,  1.50s/it]                                                           {'loss': 0.1634, 'grad_norm': 0.5295964479446411, 'learning_rate': 2.422062757420067e-05, 'epoch': 6.56}
 27%|██▋       | 21471/78504 [13:03:25<23:41:26,  1.50s/it] 27%|██▋       | 21472/78504 [13:03:26<22:02:06,  1.39s/it]                                                           {'loss': 0.1774, 'grad_norm': 0.8467267751693726, 'learning_rate': 2.4220202963780733e-05, 'epoch': 6.56}
 27%|██▋       | 21472/78504 [13:03:26<22:02:06,  1.39s/it] 27%|██▋       | 21473/78504 [13:03:28<20:40:54,  1.31s/it]                                                           {'loss': 0.1744, 'grad_norm': 1.0272302627563477, 'learning_rate': 2.421977835336079e-05, 'epoch': 6.56}
 27%|██▋       | 21473/78504 [13:03:28<20:40:54,  1.31s/it] 27%|██▋       | 21474/78504 [13:03:29<19:11:03,  1.21s/it]                                                           {'loss': 0.1955, 'grad_norm': 1.071305513381958, 'learning_rate': 2.4219353742940854e-05, 'epoch': 6.56}
 27%|██▋       | 21474/78504 [13:03:29<19:11:03,  1.21s/it] 27%|██▋       | 21475/78504 [13:03:29<17:49:41,  1.13s/it]                                                           {'loss': 0.1699, 'grad_norm': 7.092102527618408, 'learning_rate': 2.4218929132520912e-05, 'epoch': 6.57}
 27%|██▋       | 21475/78504 [13:03:30<17:49:41,  1.13s/it] 27%|██▋       | 21476/78504 [13:03:30<16:10:32,  1.02s/it]                                                           {'loss': 0.2555, 'grad_norm': 2.2878289222717285, 'learning_rate': 2.421850452210097e-05, 'epoch': 6.57}
 27%|██▋       | 21476/78504 [13:03:30<16:10:32,  1.02s/it] 27%|██▋       | 21477/78504 [13:03:39<54:24:28,  3.43s/it]                                                           {'loss': 0.1374, 'grad_norm': 0.29457756876945496, 'learning_rate': 2.4218079911681033e-05, 'epoch': 6.57}
 27%|██▋       | 21477/78504 [13:03:39<54:24:28,  3.43s/it] 27%|██▋       | 21478/78504 [13:03:43<54:01:21,  3.41s/it]                                                           {'loss': 0.0811, 'grad_norm': 0.20888184010982513, 'learning_rate': 2.4217655301261092e-05, 'epoch': 6.57}
 27%|██▋       | 21478/78504 [13:03:43<54:01:21,  3.41s/it] 27%|██▋       | 21479/78504 [13:03:46<52:09:25,  3.29s/it]                                                           {'loss': 0.0913, 'grad_norm': 0.31152525544166565, 'learning_rate': 2.4217230690841154e-05, 'epoch': 6.57}
 27%|██▋       | 21479/78504 [13:03:46<52:09:25,  3.29s/it] 27%|██▋       | 21480/78504 [13:03:48<48:49:17,  3.08s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.310515820980072, 'learning_rate': 2.4216806080421213e-05, 'epoch': 6.57}
 27%|██▋       | 21480/78504 [13:03:48<48:49:17,  3.08s/it] 27%|██▋       | 21481/78504 [13:03:51<45:23:20,  2.87s/it]                                                           {'loss': 0.0583, 'grad_norm': 0.3404650390148163, 'learning_rate': 2.4216381470001275e-05, 'epoch': 6.57}
 27%|██▋       | 21481/78504 [13:03:51<45:23:20,  2.87s/it] 27%|██▋       | 21482/78504 [13:03:53<42:31:10,  2.68s/it]                                                           {'loss': 0.0384, 'grad_norm': 0.19521306455135345, 'learning_rate': 2.4215956859581333e-05, 'epoch': 6.57}
 27%|██▋       | 21482/78504 [13:03:53<42:31:10,  2.68s/it] 27%|██▋       | 21483/78504 [13:03:55<40:49:17,  2.58s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.5852373838424683, 'learning_rate': 2.4215532249161395e-05, 'epoch': 6.57}
 27%|██▋       | 21483/78504 [13:03:55<40:49:17,  2.58s/it] 27%|██▋       | 21484/78504 [13:03:57<38:31:52,  2.43s/it]                                                           {'loss': 0.045, 'grad_norm': 0.18953937292099, 'learning_rate': 2.4215107638741454e-05, 'epoch': 6.57}
 27%|██▋       | 21484/78504 [13:03:57<38:31:52,  2.43s/it] 27%|██▋       | 21485/78504 [13:04:00<37:22:24,  2.36s/it]                                                           {'loss': 0.0545, 'grad_norm': 0.31114041805267334, 'learning_rate': 2.4214683028321516e-05, 'epoch': 6.57}
 27%|██▋       | 21485/78504 [13:04:00<37:22:24,  2.36s/it] 27%|██▋       | 21486/78504 [13:04:02<36:21:43,  2.30s/it]                                                           {'loss': 0.0723, 'grad_norm': 0.31017008423805237, 'learning_rate': 2.4214258417901575e-05, 'epoch': 6.57}
 27%|██▋       | 21486/78504 [13:04:02<36:21:43,  2.30s/it] 27%|██▋       | 21487/78504 [13:04:04<35:03:21,  2.21s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.24035640060901642, 'learning_rate': 2.4213833807481634e-05, 'epoch': 6.57}
 27%|██▋       | 21487/78504 [13:04:04<35:03:21,  2.21s/it] 27%|██▋       | 21488/78504 [13:04:06<33:57:35,  2.14s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.45373982191085815, 'learning_rate': 2.4213409197061696e-05, 'epoch': 6.57}
 27%|██▋       | 21488/78504 [13:04:06<33:57:35,  2.14s/it] 27%|██▋       | 21489/78504 [13:04:08<32:39:37,  2.06s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.610776424407959, 'learning_rate': 2.4212984586641754e-05, 'epoch': 6.57}
 27%|██▋       | 21489/78504 [13:04:08<32:39:37,  2.06s/it] 27%|██▋       | 21490/78504 [13:04:09<31:00:16,  1.96s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.4006282389163971, 'learning_rate': 2.4212559976221816e-05, 'epoch': 6.57}
 27%|██▋       | 21490/78504 [13:04:09<31:00:16,  1.96s/it] 27%|██▋       | 21491/78504 [13:04:11<29:37:41,  1.87s/it]                                                           {'loss': 0.1237, 'grad_norm': 0.4460471272468567, 'learning_rate': 2.4212135365801875e-05, 'epoch': 6.57}
 27%|██▋       | 21491/78504 [13:04:11<29:37:41,  1.87s/it] 27%|██▋       | 21492/78504 [13:04:13<28:33:41,  1.80s/it]                                                           {'loss': 0.1159, 'grad_norm': 0.40771064162254333, 'learning_rate': 2.4211710755381937e-05, 'epoch': 6.57}
 27%|██▋       | 21492/78504 [13:04:13<28:33:41,  1.80s/it] 27%|██▋       | 21493/78504 [13:04:14<27:19:08,  1.73s/it]                                                           {'loss': 0.1278, 'grad_norm': 0.48671603202819824, 'learning_rate': 2.4211286144961996e-05, 'epoch': 6.57}
 27%|██▋       | 21493/78504 [13:04:14<27:19:08,  1.73s/it] 27%|██▋       | 21494/78504 [13:04:16<25:52:42,  1.63s/it]                                                           {'loss': 0.1146, 'grad_norm': 0.5469728708267212, 'learning_rate': 2.4210861534542058e-05, 'epoch': 6.57}
 27%|██▋       | 21494/78504 [13:04:16<25:52:42,  1.63s/it] 27%|██▋       | 21495/78504 [13:04:17<24:52:21,  1.57s/it]                                                           {'loss': 0.1208, 'grad_norm': 1.141882300376892, 'learning_rate': 2.4210436924122117e-05, 'epoch': 6.57}
 27%|██▋       | 21495/78504 [13:04:17<24:52:21,  1.57s/it] 27%|██▋       | 21496/78504 [13:04:18<23:13:04,  1.47s/it]                                                           {'loss': 0.1516, 'grad_norm': 0.9741637706756592, 'learning_rate': 2.421001231370218e-05, 'epoch': 6.57}
 27%|██▋       | 21496/78504 [13:04:18<23:13:04,  1.47s/it] 27%|██▋       | 21497/78504 [13:04:19<21:43:46,  1.37s/it]                                                           {'loss': 0.1293, 'grad_norm': 1.3839057683944702, 'learning_rate': 2.4209587703282238e-05, 'epoch': 6.57}
 27%|██▋       | 21497/78504 [13:04:19<21:43:46,  1.37s/it] 27%|██▋       | 21498/78504 [13:04:20<20:24:41,  1.29s/it]                                                           {'loss': 0.1784, 'grad_norm': 2.0233702659606934, 'learning_rate': 2.42091630928623e-05, 'epoch': 6.57}
 27%|██▋       | 21498/78504 [13:04:20<20:24:41,  1.29s/it] 27%|██▋       | 21499/78504 [13:04:21<19:16:58,  1.22s/it]                                                           {'loss': 0.1907, 'grad_norm': 1.203979730606079, 'learning_rate': 2.420873848244236e-05, 'epoch': 6.57}
 27%|██▋       | 21499/78504 [13:04:22<19:16:58,  1.22s/it] 27%|██▋       | 21500/78504 [13:04:22<17:57:15,  1.13s/it]                                                           {'loss': 0.1762, 'grad_norm': 2.6000478267669678, 'learning_rate': 2.4208313872022417e-05, 'epoch': 6.57}
 27%|██▋       | 21500/78504 [13:04:22<17:57:15,  1.13s/it] 27%|██▋       | 21501/78504 [13:04:23<16:16:27,  1.03s/it]                                                           {'loss': 0.2184, 'grad_norm': 1.0578478574752808, 'learning_rate': 2.420788926160248e-05, 'epoch': 6.57}
 27%|██▋       | 21501/78504 [13:04:23<16:16:27,  1.03s/it] 27%|██▋       | 21502/78504 [13:04:31<49:44:44,  3.14s/it]                                                           {'loss': 0.1538, 'grad_norm': 0.8424854278564453, 'learning_rate': 2.4207464651182538e-05, 'epoch': 6.57}
 27%|██▋       | 21502/78504 [13:04:31<49:44:44,  3.14s/it] 27%|██▋       | 21503/78504 [13:04:34<49:43:50,  3.14s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.6758025288581848, 'learning_rate': 2.42070400407626e-05, 'epoch': 6.57}
 27%|██▋       | 21503/78504 [13:04:34<49:43:50,  3.14s/it] 27%|██▋       | 21504/78504 [13:04:37<48:43:00,  3.08s/it]                                                           {'loss': 0.0815, 'grad_norm': 0.22588768601417542, 'learning_rate': 2.420661543034266e-05, 'epoch': 6.57}
 27%|██▋       | 21504/78504 [13:04:37<48:43:00,  3.08s/it] 27%|██▋       | 21505/78504 [13:04:40<46:21:09,  2.93s/it]                                                           {'loss': 0.0851, 'grad_norm': 1.0673227310180664, 'learning_rate': 2.420619081992272e-05, 'epoch': 6.57}
 27%|██▋       | 21505/78504 [13:04:40<46:21:09,  2.93s/it] 27%|██▋       | 21506/78504 [13:04:42<44:11:05,  2.79s/it]                                                           {'loss': 0.0742, 'grad_norm': 0.387033075094223, 'learning_rate': 2.420576620950278e-05, 'epoch': 6.57}
 27%|██▋       | 21506/78504 [13:04:42<44:11:05,  2.79s/it] 27%|██▋       | 21507/78504 [13:04:45<41:42:43,  2.63s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.14075063169002533, 'learning_rate': 2.420534159908284e-05, 'epoch': 6.58}
 27%|██▋       | 21507/78504 [13:04:45<41:42:43,  2.63s/it] 27%|██▋       | 21508/78504 [13:04:47<40:12:15,  2.54s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.230246901512146, 'learning_rate': 2.42049169886629e-05, 'epoch': 6.58}
 27%|██▋       | 21508/78504 [13:04:47<40:12:15,  2.54s/it] 27%|██▋       | 21509/78504 [13:04:49<38:04:22,  2.40s/it]                                                           {'loss': 0.0405, 'grad_norm': 0.47865694761276245, 'learning_rate': 2.4204492378242962e-05, 'epoch': 6.58}
 27%|██▋       | 21509/78504 [13:04:49<38:04:22,  2.40s/it] 27%|██▋       | 21510/78504 [13:04:51<36:18:49,  2.29s/it]                                                           {'loss': 0.0886, 'grad_norm': 0.4013589322566986, 'learning_rate': 2.4204067767823024e-05, 'epoch': 6.58}
 27%|██▋       | 21510/78504 [13:04:51<36:18:49,  2.29s/it] 27%|██▋       | 21511/78504 [13:04:53<35:32:52,  2.25s/it]                                                           {'loss': 0.0675, 'grad_norm': 1.526576042175293, 'learning_rate': 2.4203643157403086e-05, 'epoch': 6.58}
 27%|██▋       | 21511/78504 [13:04:53<35:32:52,  2.25s/it] 27%|██▋       | 21512/78504 [13:04:55<34:23:32,  2.17s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.5929735898971558, 'learning_rate': 2.4203218546983145e-05, 'epoch': 6.58}
 27%|██▋       | 21512/78504 [13:04:55<34:23:32,  2.17s/it] 27%|██▋       | 21513/78504 [13:04:57<33:12:12,  2.10s/it]                                                           {'loss': 0.1094, 'grad_norm': 0.3228267729282379, 'learning_rate': 2.4202793936563204e-05, 'epoch': 6.58}
 27%|██▋       | 21513/78504 [13:04:57<33:12:12,  2.10s/it] 27%|██▋       | 21514/78504 [13:04:59<32:05:41,  2.03s/it]                                                           {'loss': 0.1127, 'grad_norm': 0.39392393827438354, 'learning_rate': 2.4202369326143266e-05, 'epoch': 6.58}
 27%|██▋       | 21514/78504 [13:04:59<32:05:41,  2.03s/it] 27%|██▋       | 21515/78504 [13:05:01<31:11:31,  1.97s/it]                                                           {'loss': 0.089, 'grad_norm': 0.2872825264930725, 'learning_rate': 2.4201944715723325e-05, 'epoch': 6.58}
 27%|██▋       | 21515/78504 [13:05:01<31:11:31,  1.97s/it] 27%|██▋       | 21516/78504 [13:05:03<30:16:49,  1.91s/it]                                                           {'loss': 0.1507, 'grad_norm': 1.4553325176239014, 'learning_rate': 2.4201520105303387e-05, 'epoch': 6.58}
 27%|██▋       | 21516/78504 [13:05:03<30:16:49,  1.91s/it] 27%|██▋       | 21517/78504 [13:05:04<28:58:24,  1.83s/it]                                                           {'loss': 0.1141, 'grad_norm': 0.39942997694015503, 'learning_rate': 2.4201095494883445e-05, 'epoch': 6.58}
 27%|██▋       | 21517/78504 [13:05:04<28:58:24,  1.83s/it] 27%|██▋       | 21518/78504 [13:05:06<27:37:32,  1.75s/it]                                                           {'loss': 0.1765, 'grad_norm': 0.4784875810146332, 'learning_rate': 2.4200670884463508e-05, 'epoch': 6.58}
 27%|██▋       | 21518/78504 [13:05:06<27:37:32,  1.75s/it] 27%|██▋       | 21519/78504 [13:05:07<26:17:11,  1.66s/it]                                                           {'loss': 0.1271, 'grad_norm': 2.973201274871826, 'learning_rate': 2.4200246274043566e-05, 'epoch': 6.58}
 27%|██▋       | 21519/78504 [13:05:07<26:17:11,  1.66s/it] 27%|██▋       | 21520/78504 [13:05:09<25:06:47,  1.59s/it]                                                           {'loss': 0.1381, 'grad_norm': 1.028002142906189, 'learning_rate': 2.4199821663623628e-05, 'epoch': 6.58}
 27%|██▋       | 21520/78504 [13:05:09<25:06:47,  1.59s/it] 27%|██▋       | 21521/78504 [13:05:10<23:21:49,  1.48s/it]                                                           {'loss': 0.1765, 'grad_norm': 0.5714580416679382, 'learning_rate': 2.4199397053203687e-05, 'epoch': 6.58}
 27%|██▋       | 21521/78504 [13:05:10<23:21:49,  1.48s/it] 27%|██▋       | 21522/78504 [13:05:11<21:45:25,  1.37s/it]                                                           {'loss': 0.1605, 'grad_norm': 0.580322802066803, 'learning_rate': 2.419897244278375e-05, 'epoch': 6.58}
 27%|██▋       | 21522/78504 [13:05:11<21:45:25,  1.37s/it] 27%|██▋       | 21523/78504 [13:05:12<20:26:23,  1.29s/it]                                                           {'loss': 0.1885, 'grad_norm': 0.9143041372299194, 'learning_rate': 2.4198547832363808e-05, 'epoch': 6.58}
 27%|██▋       | 21523/78504 [13:05:12<20:26:23,  1.29s/it] 27%|██▋       | 21524/78504 [13:05:13<19:01:10,  1.20s/it]                                                           {'loss': 0.1681, 'grad_norm': 1.3823963403701782, 'learning_rate': 2.419812322194387e-05, 'epoch': 6.58}
 27%|██▋       | 21524/78504 [13:05:13<19:01:10,  1.20s/it] 27%|██▋       | 21525/78504 [13:05:14<17:43:02,  1.12s/it]                                                           {'loss': 0.1898, 'grad_norm': 2.1119890213012695, 'learning_rate': 2.419769861152393e-05, 'epoch': 6.58}
 27%|██▋       | 21525/78504 [13:05:14<17:43:02,  1.12s/it] 27%|██▋       | 21526/78504 [13:05:15<16:06:28,  1.02s/it]                                                           {'loss': 0.2353, 'grad_norm': 3.6182100772857666, 'learning_rate': 2.4197274001103987e-05, 'epoch': 6.58}
 27%|██▋       | 21526/78504 [13:05:15<16:06:28,  1.02s/it] 27%|██▋       | 21527/78504 [13:05:23<49:22:07,  3.12s/it]                                                           {'loss': 0.1125, 'grad_norm': 0.27683085203170776, 'learning_rate': 2.419684939068405e-05, 'epoch': 6.58}
 27%|██▋       | 21527/78504 [13:05:23<49:22:07,  3.12s/it] 27%|██▋       | 21528/78504 [13:05:26<49:25:20,  3.12s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.19568634033203125, 'learning_rate': 2.4196424780264108e-05, 'epoch': 6.58}
 27%|██▋       | 21528/78504 [13:05:26<49:25:20,  3.12s/it] 27%|██▋       | 21529/78504 [13:05:29<48:56:42,  3.09s/it]                                                           {'loss': 0.0873, 'grad_norm': 0.2849598228931427, 'learning_rate': 2.419600016984417e-05, 'epoch': 6.58}
 27%|██▋       | 21529/78504 [13:05:29<48:56:42,  3.09s/it] 27%|██▋       | 21530/78504 [13:05:32<46:39:21,  2.95s/it]                                                           {'loss': 0.0736, 'grad_norm': 0.17895324528217316, 'learning_rate': 2.419557555942423e-05, 'epoch': 6.58}
 27%|██▋       | 21530/78504 [13:05:32<46:39:21,  2.95s/it] 27%|██▋       | 21531/78504 [13:05:34<44:23:17,  2.80s/it]                                                           {'loss': 0.0462, 'grad_norm': 0.2753433883190155, 'learning_rate': 2.419515094900429e-05, 'epoch': 6.58}
 27%|██▋       | 21531/78504 [13:05:34<44:23:17,  2.80s/it] 27%|██▋       | 21532/78504 [13:05:36<41:51:38,  2.65s/it]                                                           {'loss': 0.0455, 'grad_norm': 0.34650832414627075, 'learning_rate': 2.419472633858435e-05, 'epoch': 6.58}
 27%|██▋       | 21532/78504 [13:05:36<41:51:38,  2.65s/it] 27%|██▋       | 21533/78504 [13:05:39<40:18:00,  2.55s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.6152823567390442, 'learning_rate': 2.4194301728164412e-05, 'epoch': 6.58}
 27%|██▋       | 21533/78504 [13:05:39<40:18:00,  2.55s/it] 27%|██▋       | 21534/78504 [13:05:41<38:15:31,  2.42s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.29658499360084534, 'learning_rate': 2.419387711774447e-05, 'epoch': 6.58}
 27%|██▋       | 21534/78504 [13:05:41<38:15:31,  2.42s/it] 27%|██▋       | 21535/78504 [13:05:43<37:08:27,  2.35s/it]                                                           {'loss': 0.0596, 'grad_norm': 0.4074154496192932, 'learning_rate': 2.4193452507324533e-05, 'epoch': 6.58}
 27%|██▋       | 21535/78504 [13:05:43<37:08:27,  2.35s/it] 27%|██▋       | 21536/78504 [13:05:45<36:11:45,  2.29s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.23984475433826447, 'learning_rate': 2.419302789690459e-05, 'epoch': 6.58}
 27%|██▋       | 21536/78504 [13:05:45<36:11:45,  2.29s/it] 27%|██▋       | 21537/78504 [13:05:47<34:10:12,  2.16s/it]                                                           {'loss': 0.1193, 'grad_norm': 0.7354786396026611, 'learning_rate': 2.4192603286484653e-05, 'epoch': 6.58}
 27%|██▋       | 21537/78504 [13:05:47<34:10:12,  2.16s/it] 27%|██▋       | 21538/78504 [13:05:49<33:19:17,  2.11s/it]                                                           {'loss': 0.0764, 'grad_norm': 0.3334639370441437, 'learning_rate': 2.4192178676064712e-05, 'epoch': 6.58}
 27%|██▋       | 21538/78504 [13:05:49<33:19:17,  2.11s/it] 27%|██▋       | 21539/78504 [13:05:51<32:29:11,  2.05s/it]                                                           {'loss': 0.1035, 'grad_norm': 0.3388093113899231, 'learning_rate': 2.419175406564477e-05, 'epoch': 6.58}
 27%|██▋       | 21539/78504 [13:05:51<32:29:11,  2.05s/it] 27%|██▋       | 21540/78504 [13:05:53<31:41:51,  2.00s/it]                                                           {'loss': 0.0809, 'grad_norm': 0.4363846480846405, 'learning_rate': 2.4191329455224833e-05, 'epoch': 6.59}
 27%|██▋       | 21540/78504 [13:05:53<31:41:51,  2.00s/it] 27%|██▋       | 21541/78504 [13:05:55<30:33:02,  1.93s/it]                                                           {'loss': 0.1491, 'grad_norm': 0.7034065127372742, 'learning_rate': 2.419090484480489e-05, 'epoch': 6.59}
 27%|██▋       | 21541/78504 [13:05:55<30:33:02,  1.93s/it] 27%|██▋       | 21542/78504 [13:05:56<28:55:37,  1.83s/it]                                                           {'loss': 0.1163, 'grad_norm': 1.4187690019607544, 'learning_rate': 2.4190480234384954e-05, 'epoch': 6.59}
 27%|██▋       | 21542/78504 [13:05:56<28:55:37,  1.83s/it] 27%|██▋       | 21543/78504 [13:05:58<27:31:57,  1.74s/it]                                                           {'loss': 0.1708, 'grad_norm': 0.9009736180305481, 'learning_rate': 2.4190055623965012e-05, 'epoch': 6.59}
 27%|██▋       | 21543/78504 [13:05:58<27:31:57,  1.74s/it] 27%|██▋       | 21544/78504 [13:05:59<26:27:14,  1.67s/it]                                                           {'loss': 0.1745, 'grad_norm': 1.2943003177642822, 'learning_rate': 2.4189631013545074e-05, 'epoch': 6.59}
 27%|██▋       | 21544/78504 [13:05:59<26:27:14,  1.67s/it] 27%|██▋       | 21545/78504 [13:06:01<25:14:05,  1.59s/it]                                                           {'loss': 0.1367, 'grad_norm': 0.5051141977310181, 'learning_rate': 2.4189206403125133e-05, 'epoch': 6.59}
 27%|██▋       | 21545/78504 [13:06:01<25:14:05,  1.59s/it] 27%|██▋       | 21546/78504 [13:06:02<23:47:23,  1.50s/it]                                                           {'loss': 0.1477, 'grad_norm': 0.9987176060676575, 'learning_rate': 2.4188781792705195e-05, 'epoch': 6.59}
 27%|██▋       | 21546/78504 [13:06:02<23:47:23,  1.50s/it] 27%|██▋       | 21547/78504 [13:06:03<22:09:24,  1.40s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.9167550206184387, 'learning_rate': 2.4188357182285254e-05, 'epoch': 6.59}
 27%|██▋       | 21547/78504 [13:06:03<22:09:24,  1.40s/it] 27%|██▋       | 21548/78504 [13:06:04<20:39:00,  1.31s/it]                                                           {'loss': 0.1866, 'grad_norm': 1.0655641555786133, 'learning_rate': 2.4187932571865316e-05, 'epoch': 6.59}
 27%|██▋       | 21548/78504 [13:06:04<20:39:00,  1.31s/it] 27%|██▋       | 21549/78504 [13:06:05<19:25:31,  1.23s/it]                                                           {'loss': 0.1941, 'grad_norm': 1.0270944833755493, 'learning_rate': 2.4187507961445375e-05, 'epoch': 6.59}
 27%|██▋       | 21549/78504 [13:06:05<19:25:31,  1.23s/it] 27%|██▋       | 21550/78504 [13:06:06<18:02:37,  1.14s/it]                                                           {'loss': 0.1861, 'grad_norm': 1.560840129852295, 'learning_rate': 2.4187083351025437e-05, 'epoch': 6.59}
 27%|██▋       | 21550/78504 [13:06:06<18:02:37,  1.14s/it] 27%|██▋       | 21551/78504 [13:06:07<16:27:21,  1.04s/it]                                                           {'loss': 0.2073, 'grad_norm': 4.310232639312744, 'learning_rate': 2.4186658740605495e-05, 'epoch': 6.59}
 27%|██▋       | 21551/78504 [13:06:07<16:27:21,  1.04s/it] 27%|██▋       | 21552/78504 [13:06:14<46:13:29,  2.92s/it]                                                           {'loss': 0.131, 'grad_norm': 0.47541362047195435, 'learning_rate': 2.4186234130185554e-05, 'epoch': 6.59}
 27%|██▋       | 21552/78504 [13:06:14<46:13:29,  2.92s/it] 27%|██▋       | 21553/78504 [13:06:17<47:09:01,  2.98s/it]                                                           {'loss': 0.069, 'grad_norm': 0.603796124458313, 'learning_rate': 2.4185809519765616e-05, 'epoch': 6.59}
 27%|██▋       | 21553/78504 [13:06:17<47:09:01,  2.98s/it] 27%|██▋       | 21554/78504 [13:06:20<46:54:18,  2.97s/it]                                                           {'loss': 0.071, 'grad_norm': 0.32061660289764404, 'learning_rate': 2.4185384909345675e-05, 'epoch': 6.59}
 27%|██▋       | 21554/78504 [13:06:20<46:54:18,  2.97s/it] 27%|██▋       | 21555/78504 [13:06:23<45:03:02,  2.85s/it]                                                           {'loss': 0.0515, 'grad_norm': 0.19017764925956726, 'learning_rate': 2.4184960298925737e-05, 'epoch': 6.59}
 27%|██▋       | 21555/78504 [13:06:23<45:03:02,  2.85s/it] 27%|██▋       | 21556/78504 [13:06:25<43:16:21,  2.74s/it]                                                           {'loss': 0.0583, 'grad_norm': 0.2091628760099411, 'learning_rate': 2.4184535688505796e-05, 'epoch': 6.59}
 27%|██▋       | 21556/78504 [13:06:25<43:16:21,  2.74s/it] 27%|██▋       | 21557/78504 [13:06:28<41:01:29,  2.59s/it]                                                           {'loss': 0.0724, 'grad_norm': 0.3118257522583008, 'learning_rate': 2.4184111078085858e-05, 'epoch': 6.59}
 27%|██▋       | 21557/78504 [13:06:28<41:01:29,  2.59s/it] 27%|██▋       | 21558/78504 [13:06:30<39:43:48,  2.51s/it]                                                           {'loss': 0.073, 'grad_norm': 0.22996442019939423, 'learning_rate': 2.4183686467665916e-05, 'epoch': 6.59}
 27%|██▋       | 21558/78504 [13:06:30<39:43:48,  2.51s/it] 27%|██▋       | 21559/78504 [13:06:32<37:44:17,  2.39s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.4352387487888336, 'learning_rate': 2.418326185724598e-05, 'epoch': 6.59}
 27%|██▋       | 21559/78504 [13:06:32<37:44:17,  2.39s/it] 27%|██▋       | 21560/78504 [13:06:34<36:04:04,  2.28s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.7760034203529358, 'learning_rate': 2.4182837246826037e-05, 'epoch': 6.59}
 27%|██▋       | 21560/78504 [13:06:34<36:04:04,  2.28s/it] 27%|██▋       | 21561/78504 [13:06:36<35:24:16,  2.24s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.2411978840827942, 'learning_rate': 2.41824126364061e-05, 'epoch': 6.59}
 27%|██▋       | 21561/78504 [13:06:36<35:24:16,  2.24s/it] 27%|██▋       | 21562/78504 [13:06:38<34:14:32,  2.16s/it]                                                           {'loss': 0.084, 'grad_norm': 0.48004916310310364, 'learning_rate': 2.4181988025986158e-05, 'epoch': 6.59}
 27%|██▋       | 21562/78504 [13:06:38<34:14:32,  2.16s/it] 27%|██▋       | 21563/78504 [13:06:40<32:33:13,  2.06s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.3816184401512146, 'learning_rate': 2.418156341556622e-05, 'epoch': 6.59}
 27%|██▋       | 21563/78504 [13:06:40<32:33:13,  2.06s/it] 27%|██▋       | 21564/78504 [13:06:42<31:38:08,  2.00s/it]                                                           {'loss': 0.086, 'grad_norm': 0.7620307207107544, 'learning_rate': 2.418113880514628e-05, 'epoch': 6.59}
 27%|██▋       | 21564/78504 [13:06:42<31:38:08,  2.00s/it] 27%|██▋       | 21565/78504 [13:06:44<30:50:07,  1.95s/it]                                                           {'loss': 0.132, 'grad_norm': 3.3999242782592773, 'learning_rate': 2.4180714194726338e-05, 'epoch': 6.59}
 27%|██▋       | 21565/78504 [13:06:44<30:50:07,  1.95s/it] 27%|██▋       | 21566/78504 [13:06:45<29:59:39,  1.90s/it]                                                           {'loss': 0.1381, 'grad_norm': 0.8779677152633667, 'learning_rate': 2.41802895843064e-05, 'epoch': 6.59}
 27%|██▋       | 21566/78504 [13:06:45<29:59:39,  1.90s/it] 27%|██▋       | 21567/78504 [13:06:47<28:48:19,  1.82s/it]                                                           {'loss': 0.126, 'grad_norm': 0.5333719849586487, 'learning_rate': 2.417986497388646e-05, 'epoch': 6.59}
 27%|██▋       | 21567/78504 [13:06:47<28:48:19,  1.82s/it] 27%|██▋       | 21568/78504 [13:06:49<27:26:08,  1.73s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.6046276688575745, 'learning_rate': 2.417944036346652e-05, 'epoch': 6.59}
 27%|██▋       | 21568/78504 [13:06:49<27:26:08,  1.73s/it] 27%|██▋       | 21569/78504 [13:06:50<26:11:14,  1.66s/it]                                                           {'loss': 0.158, 'grad_norm': 0.6983715295791626, 'learning_rate': 2.417901575304658e-05, 'epoch': 6.59}
 27%|██▋       | 21569/78504 [13:06:50<26:11:14,  1.66s/it] 27%|██▋       | 21570/78504 [13:06:52<24:57:36,  1.58s/it]                                                           {'loss': 0.1439, 'grad_norm': 0.38303807377815247, 'learning_rate': 2.417859114262664e-05, 'epoch': 6.59}
 27%|██▋       | 21570/78504 [13:06:52<24:57:36,  1.58s/it] 27%|██▋       | 21571/78504 [13:06:53<23:32:02,  1.49s/it]                                                           {'loss': 0.1313, 'grad_norm': 2.73012113571167, 'learning_rate': 2.41781665322067e-05, 'epoch': 6.59}
 27%|██▋       | 21571/78504 [13:06:53<23:32:02,  1.49s/it] 27%|██▋       | 21572/78504 [13:06:54<21:56:20,  1.39s/it]                                                           {'loss': 0.1637, 'grad_norm': 0.46916577219963074, 'learning_rate': 2.4177741921786762e-05, 'epoch': 6.59}
 27%|██▋       | 21572/78504 [13:06:54<21:56:20,  1.39s/it] 27%|██▋       | 21573/78504 [13:06:55<20:31:41,  1.30s/it]                                                           {'loss': 0.1773, 'grad_norm': 0.6644063591957092, 'learning_rate': 2.417731731136682e-05, 'epoch': 6.6}
 27%|██▋       | 21573/78504 [13:06:55<20:31:41,  1.30s/it] 27%|██▋       | 21574/78504 [13:06:56<19:05:00,  1.21s/it]                                                           {'loss': 0.1762, 'grad_norm': 0.7125985026359558, 'learning_rate': 2.4176892700946883e-05, 'epoch': 6.6}
 27%|██▋       | 21574/78504 [13:06:56<19:05:00,  1.21s/it] 27%|██▋       | 21575/78504 [13:06:57<17:47:37,  1.13s/it]                                                           {'loss': 0.2278, 'grad_norm': 0.8260692954063416, 'learning_rate': 2.417646809052694e-05, 'epoch': 6.6}
 27%|██▋       | 21575/78504 [13:06:57<17:47:37,  1.13s/it] 27%|██▋       | 21576/78504 [13:06:58<16:09:44,  1.02s/it]                                                           {'loss': 0.2422, 'grad_norm': 1.1127216815948486, 'learning_rate': 2.4176043480107004e-05, 'epoch': 6.6}
 27%|██▋       | 21576/78504 [13:06:58<16:09:44,  1.02s/it] 27%|██▋       | 21577/78504 [13:07:06<52:17:57,  3.31s/it]                                                           {'loss': 0.1226, 'grad_norm': 0.3591744005680084, 'learning_rate': 2.4175618869687062e-05, 'epoch': 6.6}
 27%|██▋       | 21577/78504 [13:07:06<52:17:57,  3.31s/it] 27%|██▋       | 21578/78504 [13:07:10<52:06:32,  3.30s/it]                                                           {'loss': 0.0762, 'grad_norm': 0.3200613856315613, 'learning_rate': 2.417519425926712e-05, 'epoch': 6.6}
 27%|██▋       | 21578/78504 [13:07:10<52:06:32,  3.30s/it] 27%|██▋       | 21579/78504 [13:07:13<50:36:32,  3.20s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.5043635368347168, 'learning_rate': 2.4174769648847183e-05, 'epoch': 6.6}
 27%|██▋       | 21579/78504 [13:07:13<50:36:32,  3.20s/it] 27%|██▋       | 21580/78504 [13:07:15<47:50:33,  3.03s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.5076474547386169, 'learning_rate': 2.4174345038427242e-05, 'epoch': 6.6}
 27%|██▋       | 21580/78504 [13:07:15<47:50:33,  3.03s/it] 27%|██▋       | 21581/78504 [13:07:18<45:10:19,  2.86s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.21509021520614624, 'learning_rate': 2.4173920428007304e-05, 'epoch': 6.6}
 27%|██▋       | 21581/78504 [13:07:18<45:10:19,  2.86s/it] 27%|██▋       | 21582/78504 [13:07:20<43:09:01,  2.73s/it]                                                           {'loss': 0.0316, 'grad_norm': 0.17655795812606812, 'learning_rate': 2.4173495817587363e-05, 'epoch': 6.6}
 27%|██▋       | 21582/78504 [13:07:20<43:09:01,  2.73s/it] 27%|██▋       | 21583/78504 [13:07:22<41:10:22,  2.60s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.2778565585613251, 'learning_rate': 2.4173071207167425e-05, 'epoch': 6.6}
 27%|██▋       | 21583/78504 [13:07:22<41:10:22,  2.60s/it] 27%|██▋       | 21584/78504 [13:07:25<38:51:18,  2.46s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.46470415592193604, 'learning_rate': 2.4172646596747483e-05, 'epoch': 6.6}
 27%|██▋       | 21584/78504 [13:07:25<38:51:18,  2.46s/it] 27%|██▋       | 21585/78504 [13:07:27<37:32:10,  2.37s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.25365278124809265, 'learning_rate': 2.4172221986327545e-05, 'epoch': 6.6}
 27%|██▋       | 21585/78504 [13:07:27<37:32:10,  2.37s/it] 27%|██▋       | 21586/78504 [13:07:29<36:33:42,  2.31s/it]                                                           {'loss': 0.0605, 'grad_norm': 6.110572338104248, 'learning_rate': 2.4171797375907604e-05, 'epoch': 6.6}
 27%|██▋       | 21586/78504 [13:07:29<36:33:42,  2.31s/it] 27%|██▋       | 21587/78504 [13:07:31<34:23:02,  2.17s/it]                                                           {'loss': 0.088, 'grad_norm': 0.4483489394187927, 'learning_rate': 2.4171372765487666e-05, 'epoch': 6.6}
 27%|██▋       | 21587/78504 [13:07:31<34:23:02,  2.17s/it] 27%|██▋       | 21588/78504 [13:07:33<33:28:13,  2.12s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.4255867600440979, 'learning_rate': 2.4170948155067725e-05, 'epoch': 6.6}
 27%|██▋       | 21588/78504 [13:07:33<33:28:13,  2.12s/it] 28%|██▊       | 21589/78504 [13:07:35<32:21:56,  2.05s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.41618612408638, 'learning_rate': 2.4170523544647787e-05, 'epoch': 6.6}
 28%|██▊       | 21589/78504 [13:07:35<32:21:56,  2.05s/it] 28%|██▊       | 21590/78504 [13:07:37<31:35:52,  2.00s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.7474077343940735, 'learning_rate': 2.4170098934227846e-05, 'epoch': 6.6}
 28%|██▊       | 21590/78504 [13:07:37<31:35:52,  2.00s/it] 28%|██▊       | 21591/78504 [13:07:38<30:28:26,  1.93s/it]                                                           {'loss': 0.0908, 'grad_norm': 0.25108397006988525, 'learning_rate': 2.4169674323807904e-05, 'epoch': 6.6}
 28%|██▊       | 21591/78504 [13:07:38<30:28:26,  1.93s/it] 28%|██▊       | 21592/78504 [13:07:40<28:49:34,  1.82s/it]                                                           {'loss': 0.1145, 'grad_norm': 0.8481459617614746, 'learning_rate': 2.4169249713387967e-05, 'epoch': 6.6}
 28%|██▊       | 21592/78504 [13:07:40<28:49:34,  1.82s/it] 28%|██▊       | 21593/78504 [13:07:41<27:30:01,  1.74s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.6898753643035889, 'learning_rate': 2.4168825102968025e-05, 'epoch': 6.6}
 28%|██▊       | 21593/78504 [13:07:41<27:30:01,  1.74s/it] 28%|██▊       | 21594/78504 [13:07:43<26:25:08,  1.67s/it]                                                           {'loss': 0.1585, 'grad_norm': 1.1915109157562256, 'learning_rate': 2.4168400492548087e-05, 'epoch': 6.6}
 28%|██▊       | 21594/78504 [13:07:43<26:25:08,  1.67s/it] 28%|██▊       | 21595/78504 [13:07:44<25:03:48,  1.59s/it]                                                           {'loss': 0.1603, 'grad_norm': 0.5611310601234436, 'learning_rate': 2.4167975882128146e-05, 'epoch': 6.6}
 28%|██▊       | 21595/78504 [13:07:44<25:03:48,  1.59s/it] 28%|██▊       | 21596/78504 [13:07:46<23:36:34,  1.49s/it]                                                           {'loss': 0.198, 'grad_norm': 0.6918768882751465, 'learning_rate': 2.4167551271708208e-05, 'epoch': 6.6}
 28%|██▊       | 21596/78504 [13:07:46<23:36:34,  1.49s/it] 28%|██▊       | 21597/78504 [13:07:47<21:57:56,  1.39s/it]                                                           {'loss': 0.1561, 'grad_norm': 0.6960002183914185, 'learning_rate': 2.4167126661288267e-05, 'epoch': 6.6}
 28%|██▊       | 21597/78504 [13:07:47<21:57:56,  1.39s/it] 28%|██▊       | 21598/78504 [13:07:48<20:35:38,  1.30s/it]                                                           {'loss': 0.1751, 'grad_norm': 0.5619196891784668, 'learning_rate': 2.416670205086833e-05, 'epoch': 6.6}
 28%|██▊       | 21598/78504 [13:07:48<20:35:38,  1.30s/it] 28%|██▊       | 21599/78504 [13:07:49<19:22:07,  1.23s/it]                                                           {'loss': 0.1766, 'grad_norm': 0.6010273098945618, 'learning_rate': 2.4166277440448388e-05, 'epoch': 6.6}
 28%|██▊       | 21599/78504 [13:07:49<19:22:07,  1.23s/it] 28%|██▊       | 21600/78504 [13:07:50<17:55:14,  1.13s/it]                                                           {'loss': 0.1783, 'grad_norm': 4.721993446350098, 'learning_rate': 2.416585283002845e-05, 'epoch': 6.6}
 28%|██▊       | 21600/78504 [13:07:50<17:55:14,  1.13s/it] 28%|██▊       | 21601/78504 [13:07:51<16:13:50,  1.03s/it]                                                           {'loss': 0.1828, 'grad_norm': 0.855708658695221, 'learning_rate': 2.416542821960851e-05, 'epoch': 6.6}
 28%|██▊       | 21601/78504 [13:07:51<16:13:50,  1.03s/it] 28%|██▊       | 21602/78504 [13:07:57<43:30:39,  2.75s/it]                                                           {'loss': 0.1479, 'grad_norm': 0.6397972106933594, 'learning_rate': 2.4165003609188567e-05, 'epoch': 6.6}
 28%|██▊       | 21602/78504 [13:07:57<43:30:39,  2.75s/it] 28%|██▊       | 21603/78504 [13:08:01<46:05:23,  2.92s/it]                                                           {'loss': 0.0843, 'grad_norm': 0.19229066371917725, 'learning_rate': 2.416457899876863e-05, 'epoch': 6.6}
 28%|██▊       | 21603/78504 [13:08:01<46:05:23,  2.92s/it] 28%|██▊       | 21604/78504 [13:08:04<46:33:10,  2.95s/it]                                                           {'loss': 0.06, 'grad_norm': 0.14537721872329712, 'learning_rate': 2.4164154388348688e-05, 'epoch': 6.6}
 28%|██▊       | 21604/78504 [13:08:04<46:33:10,  2.95s/it] 28%|██▊       | 21605/78504 [13:08:06<44:57:13,  2.84s/it]                                                           {'loss': 0.0495, 'grad_norm': 0.19200102984905243, 'learning_rate': 2.416372977792875e-05, 'epoch': 6.61}
 28%|██▊       | 21605/78504 [13:08:06<44:57:13,  2.84s/it] 28%|██▊       | 21606/78504 [13:08:09<43:09:40,  2.73s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.20212720334529877, 'learning_rate': 2.416330516750881e-05, 'epoch': 6.61}
 28%|██▊       | 21606/78504 [13:08:09<43:09:40,  2.73s/it] 28%|██▊       | 21607/78504 [13:08:11<41:23:19,  2.62s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.5325552225112915, 'learning_rate': 2.416288055708887e-05, 'epoch': 6.61}
 28%|██▊       | 21607/78504 [13:08:11<41:23:19,  2.62s/it] 28%|██▊       | 21608/78504 [13:08:13<40:01:03,  2.53s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.5626130104064941, 'learning_rate': 2.416245594666893e-05, 'epoch': 6.61}
 28%|██▊       | 21608/78504 [13:08:13<40:01:03,  2.53s/it] 28%|██▊       | 21609/78504 [13:08:16<38:44:27,  2.45s/it]                                                           {'loss': 0.0796, 'grad_norm': 0.2726353704929352, 'learning_rate': 2.416203133624899e-05, 'epoch': 6.61}
 28%|██▊       | 21609/78504 [13:08:16<38:44:27,  2.45s/it] 28%|██▊       | 21610/78504 [13:08:18<37:30:00,  2.37s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.2902885973453522, 'learning_rate': 2.416160672582905e-05, 'epoch': 6.61}
 28%|██▊       | 21610/78504 [13:08:18<37:30:00,  2.37s/it] 28%|██▊       | 21611/78504 [13:08:20<36:25:12,  2.30s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.7728516459465027, 'learning_rate': 2.4161182115409112e-05, 'epoch': 6.61}
 28%|██▊       | 21611/78504 [13:08:20<36:25:12,  2.30s/it] 28%|██▊       | 21612/78504 [13:08:22<34:53:09,  2.21s/it]                                                           {'loss': 0.092, 'grad_norm': 0.30785733461380005, 'learning_rate': 2.416075750498917e-05, 'epoch': 6.61}
 28%|██▊       | 21612/78504 [13:08:22<34:53:09,  2.21s/it] 28%|██▊       | 21613/78504 [13:08:24<33:31:19,  2.12s/it]                                                           {'loss': 0.0753, 'grad_norm': 0.30984216928482056, 'learning_rate': 2.4160332894569233e-05, 'epoch': 6.61}
 28%|██▊       | 21613/78504 [13:08:24<33:31:19,  2.12s/it] 28%|██▊       | 21614/78504 [13:08:26<32:19:37,  2.05s/it]                                                           {'loss': 0.0958, 'grad_norm': 0.26772573590278625, 'learning_rate': 2.4159908284149295e-05, 'epoch': 6.61}
 28%|██▊       | 21614/78504 [13:08:26<32:19:37,  2.05s/it] 28%|██▊       | 21615/78504 [13:08:28<31:17:49,  1.98s/it]                                                           {'loss': 0.1182, 'grad_norm': 0.2995551824569702, 'learning_rate': 2.4159483673729354e-05, 'epoch': 6.61}
 28%|██▊       | 21615/78504 [13:08:28<31:17:49,  1.98s/it] 28%|██▊       | 21616/78504 [13:08:29<30:16:19,  1.92s/it]                                                           {'loss': 0.122, 'grad_norm': 0.48089155554771423, 'learning_rate': 2.4159059063309416e-05, 'epoch': 6.61}
 28%|██▊       | 21616/78504 [13:08:29<30:16:19,  1.92s/it] 28%|██▊       | 21617/78504 [13:08:31<28:58:21,  1.83s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.5699353218078613, 'learning_rate': 2.4158634452889475e-05, 'epoch': 6.61}
 28%|██▊       | 21617/78504 [13:08:31<28:58:21,  1.83s/it] 28%|██▊       | 21618/78504 [13:08:33<27:27:18,  1.74s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.41191884875297546, 'learning_rate': 2.4158209842469537e-05, 'epoch': 6.61}
 28%|██▊       | 21618/78504 [13:08:33<27:27:18,  1.74s/it] 28%|██▊       | 21619/78504 [13:08:34<25:57:49,  1.64s/it]                                                           {'loss': 0.1887, 'grad_norm': 0.7672383189201355, 'learning_rate': 2.4157785232049595e-05, 'epoch': 6.61}
 28%|██▊       | 21619/78504 [13:08:34<25:57:49,  1.64s/it] 28%|██▊       | 21620/78504 [13:08:35<24:54:17,  1.58s/it]                                                           {'loss': 0.153, 'grad_norm': 0.8424311280250549, 'learning_rate': 2.4157360621629658e-05, 'epoch': 6.61}
 28%|██▊       | 21620/78504 [13:08:35<24:54:17,  1.58s/it] 28%|██▊       | 21621/78504 [13:08:37<23:13:27,  1.47s/it]                                                           {'loss': 0.1781, 'grad_norm': 0.5676297545433044, 'learning_rate': 2.4156936011209716e-05, 'epoch': 6.61}
 28%|██▊       | 21621/78504 [13:08:37<23:13:27,  1.47s/it] 28%|██▊       | 21622/78504 [13:08:38<21:38:47,  1.37s/it]                                                           {'loss': 0.1546, 'grad_norm': 0.7394131422042847, 'learning_rate': 2.415651140078978e-05, 'epoch': 6.61}
 28%|██▊       | 21622/78504 [13:08:38<21:38:47,  1.37s/it] 28%|██▊       | 21623/78504 [13:08:39<20:19:24,  1.29s/it]                                                           {'loss': 0.166, 'grad_norm': 0.9365368485450745, 'learning_rate': 2.4156086790369837e-05, 'epoch': 6.61}
 28%|██▊       | 21623/78504 [13:08:39<20:19:24,  1.29s/it] 28%|██▊       | 21624/78504 [13:08:40<18:55:58,  1.20s/it]                                                           {'loss': 0.1578, 'grad_norm': 2.055239200592041, 'learning_rate': 2.41556621799499e-05, 'epoch': 6.61}
 28%|██▊       | 21624/78504 [13:08:40<18:55:58,  1.20s/it] 28%|██▊       | 21625/78504 [13:08:41<17:39:09,  1.12s/it]                                                           {'loss': 0.1819, 'grad_norm': 1.6923191547393799, 'learning_rate': 2.4155237569529958e-05, 'epoch': 6.61}
 28%|██▊       | 21625/78504 [13:08:41<17:39:09,  1.12s/it] 28%|██▊       | 21626/78504 [13:08:42<15:57:39,  1.01s/it]                                                           {'loss': 0.2094, 'grad_norm': 1.1597747802734375, 'learning_rate': 2.415481295911002e-05, 'epoch': 6.61}
 28%|██▊       | 21626/78504 [13:08:42<15:57:39,  1.01s/it] 28%|██▊       | 21627/78504 [13:08:50<50:38:35,  3.21s/it]                                                           {'loss': 0.1374, 'grad_norm': 0.49812954664230347, 'learning_rate': 2.415438834869008e-05, 'epoch': 6.61}
 28%|██▊       | 21627/78504 [13:08:50<50:38:35,  3.21s/it] 28%|██▊       | 21628/78504 [13:08:53<51:25:28,  3.25s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.3382442891597748, 'learning_rate': 2.4153963738270137e-05, 'epoch': 6.61}
 28%|██▊       | 21628/78504 [13:08:53<51:25:28,  3.25s/it] 28%|██▊       | 21629/78504 [13:08:56<48:08:33,  3.05s/it]                                                           {'loss': 0.0953, 'grad_norm': 0.4538422226905823, 'learning_rate': 2.41535391278502e-05, 'epoch': 6.61}
 28%|██▊       | 21629/78504 [13:08:56<48:08:33,  3.05s/it] 28%|██▊       | 21630/78504 [13:08:58<45:59:12,  2.91s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.2098471075296402, 'learning_rate': 2.4153114517430258e-05, 'epoch': 6.61}
 28%|██▊       | 21630/78504 [13:08:58<45:59:12,  2.91s/it] 28%|██▊       | 21631/78504 [13:09:01<43:21:30,  2.74s/it]                                                           {'loss': 0.0469, 'grad_norm': 0.1632542610168457, 'learning_rate': 2.415268990701032e-05, 'epoch': 6.61}
 28%|██▊       | 21631/78504 [13:09:01<43:21:30,  2.74s/it] 28%|██▊       | 21632/78504 [13:09:03<41:04:05,  2.60s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.19470670819282532, 'learning_rate': 2.415226529659038e-05, 'epoch': 6.61}
 28%|██▊       | 21632/78504 [13:09:03<41:04:05,  2.60s/it] 28%|██▊       | 21633/78504 [13:09:05<39:43:25,  2.51s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.4483107924461365, 'learning_rate': 2.415184068617044e-05, 'epoch': 6.61}
 28%|██▊       | 21633/78504 [13:09:05<39:43:25,  2.51s/it] 28%|██▊       | 21634/78504 [13:09:07<37:42:03,  2.39s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.4152931869029999, 'learning_rate': 2.41514160757505e-05, 'epoch': 6.61}
 28%|██▊       | 21634/78504 [13:09:07<37:42:03,  2.39s/it] 28%|██▊       | 21635/78504 [13:09:09<36:02:07,  2.28s/it]                                                           {'loss': 0.1034, 'grad_norm': 0.3251768946647644, 'learning_rate': 2.4150991465330562e-05, 'epoch': 6.61}
 28%|██▊       | 21635/78504 [13:09:09<36:02:07,  2.28s/it] 28%|██▊       | 21636/78504 [13:09:12<35:20:45,  2.24s/it]                                                           {'loss': 0.0769, 'grad_norm': 0.2542549967765808, 'learning_rate': 2.415056685491062e-05, 'epoch': 6.61}
 28%|██▊       | 21636/78504 [13:09:12<35:20:45,  2.24s/it] 28%|██▊       | 21637/78504 [13:09:14<34:20:36,  2.17s/it]                                                           {'loss': 0.064, 'grad_norm': 0.23267540335655212, 'learning_rate': 2.4150142244490683e-05, 'epoch': 6.61}
 28%|██▊       | 21637/78504 [13:09:14<34:20:36,  2.17s/it] 28%|██▊       | 21638/78504 [13:09:15<32:34:42,  2.06s/it]                                                           {'loss': 0.1147, 'grad_norm': 0.44387346506118774, 'learning_rate': 2.414971763407074e-05, 'epoch': 6.62}
 28%|██▊       | 21638/78504 [13:09:15<32:34:42,  2.06s/it] 28%|██▊       | 21639/78504 [13:09:17<31:37:26,  2.00s/it]                                                           {'loss': 0.1068, 'grad_norm': 0.3220040500164032, 'learning_rate': 2.4149293023650803e-05, 'epoch': 6.62}
 28%|██▊       | 21639/78504 [13:09:17<31:37:26,  2.00s/it] 28%|██▊       | 21640/78504 [13:09:19<30:16:24,  1.92s/it]                                                           {'loss': 0.1051, 'grad_norm': 0.4936688244342804, 'learning_rate': 2.4148868413230862e-05, 'epoch': 6.62}
 28%|██▊       | 21640/78504 [13:09:19<30:16:24,  1.92s/it] 28%|██▊       | 21641/78504 [13:09:21<29:34:41,  1.87s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.30316832661628723, 'learning_rate': 2.414844380281092e-05, 'epoch': 6.62}
 28%|██▊       | 21641/78504 [13:09:21<29:34:41,  1.87s/it] 28%|██▊       | 21642/78504 [13:09:22<28:27:01,  1.80s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.8138030171394348, 'learning_rate': 2.4148019192390983e-05, 'epoch': 6.62}
 28%|██▊       | 21642/78504 [13:09:22<28:27:01,  1.80s/it] 28%|██▊       | 21643/78504 [13:09:24<27:05:44,  1.72s/it]                                                           {'loss': 0.138, 'grad_norm': 0.7916926145553589, 'learning_rate': 2.414759458197104e-05, 'epoch': 6.62}
 28%|██▊       | 21643/78504 [13:09:24<27:05:44,  1.72s/it] 28%|██▊       | 21644/78504 [13:09:25<25:45:32,  1.63s/it]                                                           {'loss': 0.1229, 'grad_norm': 0.4715564250946045, 'learning_rate': 2.4147169971551104e-05, 'epoch': 6.62}
 28%|██▊       | 21644/78504 [13:09:25<25:45:32,  1.63s/it] 28%|██▊       | 21645/78504 [13:09:27<24:46:00,  1.57s/it]                                                           {'loss': 0.1583, 'grad_norm': 0.9742826223373413, 'learning_rate': 2.4146745361131162e-05, 'epoch': 6.62}
 28%|██▊       | 21645/78504 [13:09:27<24:46:00,  1.57s/it] 28%|██▊       | 21646/78504 [13:09:28<23:06:01,  1.46s/it]                                                           {'loss': 0.1624, 'grad_norm': 1.0188014507293701, 'learning_rate': 2.4146320750711224e-05, 'epoch': 6.62}
 28%|██▊       | 21646/78504 [13:09:28<23:06:01,  1.46s/it] 28%|██▊       | 21647/78504 [13:09:29<21:29:29,  1.36s/it]                                                           {'loss': 0.2007, 'grad_norm': 0.7024531364440918, 'learning_rate': 2.4145896140291283e-05, 'epoch': 6.62}
 28%|██▊       | 21647/78504 [13:09:29<21:29:29,  1.36s/it] 28%|██▊       | 21648/78504 [13:09:30<20:14:22,  1.28s/it]                                                           {'loss': 0.1783, 'grad_norm': 2.1142356395721436, 'learning_rate': 2.4145471529871345e-05, 'epoch': 6.62}
 28%|██▊       | 21648/78504 [13:09:30<20:14:22,  1.28s/it] 28%|██▊       | 21649/78504 [13:09:31<18:52:47,  1.20s/it]                                                           {'loss': 0.1612, 'grad_norm': 0.6243417859077454, 'learning_rate': 2.4145046919451404e-05, 'epoch': 6.62}
 28%|██▊       | 21649/78504 [13:09:31<18:52:47,  1.20s/it] 28%|██▊       | 21650/78504 [13:09:32<17:38:34,  1.12s/it]                                                           {'loss': 0.1933, 'grad_norm': 0.8518993854522705, 'learning_rate': 2.4144622309031466e-05, 'epoch': 6.62}
 28%|██▊       | 21650/78504 [13:09:32<17:38:34,  1.12s/it] 28%|██▊       | 21651/78504 [13:09:33<16:03:39,  1.02s/it]                                                           {'loss': 0.2026, 'grad_norm': 1.0408016443252563, 'learning_rate': 2.4144197698611525e-05, 'epoch': 6.62}
 28%|██▊       | 21651/78504 [13:09:33<16:03:39,  1.02s/it] 28%|██▊       | 21652/78504 [13:09:40<45:54:07,  2.91s/it]                                                           {'loss': 0.127, 'grad_norm': 4.364480495452881, 'learning_rate': 2.4143773088191587e-05, 'epoch': 6.62}
 28%|██▊       | 21652/78504 [13:09:40<45:54:07,  2.91s/it] 28%|██▊       | 21653/78504 [13:09:44<48:05:12,  3.05s/it]                                                           {'loss': 0.072, 'grad_norm': 0.3296370506286621, 'learning_rate': 2.4143348477771645e-05, 'epoch': 6.62}
 28%|██▊       | 21653/78504 [13:09:44<48:05:12,  3.05s/it] 28%|██▊       | 21654/78504 [13:09:47<47:30:27,  3.01s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.299274742603302, 'learning_rate': 2.4142923867351704e-05, 'epoch': 6.62}
 28%|██▊       | 21654/78504 [13:09:47<47:30:27,  3.01s/it] 28%|██▊       | 21655/78504 [13:09:49<45:27:46,  2.88s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.28117209672927856, 'learning_rate': 2.4142499256931766e-05, 'epoch': 6.62}
 28%|██▊       | 21655/78504 [13:09:49<45:27:46,  2.88s/it] 28%|██▊       | 21656/78504 [13:09:52<43:37:00,  2.76s/it]                                                           {'loss': 0.0439, 'grad_norm': 0.2306010127067566, 'learning_rate': 2.4142074646511825e-05, 'epoch': 6.62}
 28%|██▊       | 21656/78504 [13:09:52<43:37:00,  2.76s/it] 28%|██▊       | 21657/78504 [13:09:54<42:03:36,  2.66s/it]                                                           {'loss': 0.0648, 'grad_norm': 0.21624495089054108, 'learning_rate': 2.4141650036091887e-05, 'epoch': 6.62}
 28%|██▊       | 21657/78504 [13:09:54<42:03:36,  2.66s/it] 28%|██▊       | 21658/78504 [13:09:56<40:24:05,  2.56s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.5410044193267822, 'learning_rate': 2.4141225425671946e-05, 'epoch': 6.62}
 28%|██▊       | 21658/78504 [13:09:56<40:24:05,  2.56s/it] 28%|██▊       | 21659/78504 [13:09:58<38:17:11,  2.42s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.18436786532402039, 'learning_rate': 2.4140800815252008e-05, 'epoch': 6.62}
 28%|██▊       | 21659/78504 [13:09:58<38:17:11,  2.42s/it] 28%|██▊       | 21660/78504 [13:10:01<37:08:06,  2.35s/it]                                                           {'loss': 0.0862, 'grad_norm': 0.30639299750328064, 'learning_rate': 2.4140376204832067e-05, 'epoch': 6.62}
 28%|██▊       | 21660/78504 [13:10:01<37:08:06,  2.35s/it] 28%|██▊       | 21661/78504 [13:10:03<36:06:02,  2.29s/it]                                                           {'loss': 0.0947, 'grad_norm': 0.7067753076553345, 'learning_rate': 2.413995159441213e-05, 'epoch': 6.62}
 28%|██▊       | 21661/78504 [13:10:03<36:06:02,  2.29s/it] 28%|██▊       | 21662/78504 [13:10:05<34:43:50,  2.20s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.3001381456851959, 'learning_rate': 2.4139526983992187e-05, 'epoch': 6.62}
 28%|██▊       | 21662/78504 [13:10:05<34:43:50,  2.20s/it] 28%|██▊       | 21663/78504 [13:10:07<32:49:32,  2.08s/it]                                                           {'loss': 0.0674, 'grad_norm': 1.20539128780365, 'learning_rate': 2.413910237357225e-05, 'epoch': 6.62}
 28%|██▊       | 21663/78504 [13:10:07<32:49:32,  2.08s/it] 28%|██▊       | 21664/78504 [13:10:08<31:48:01,  2.01s/it]                                                           {'loss': 0.0991, 'grad_norm': 0.4753836393356323, 'learning_rate': 2.4138677763152308e-05, 'epoch': 6.62}
 28%|██▊       | 21664/78504 [13:10:08<31:48:01,  2.01s/it] 28%|██▊       | 21665/78504 [13:10:10<30:58:47,  1.96s/it]                                                           {'loss': 0.1133, 'grad_norm': 0.4635782539844513, 'learning_rate': 2.413825315273237e-05, 'epoch': 6.62}
 28%|██▊       | 21665/78504 [13:10:10<30:58:47,  1.96s/it] 28%|██▊       | 21666/78504 [13:10:12<29:51:08,  1.89s/it]                                                           {'loss': 0.1371, 'grad_norm': 0.972466230392456, 'learning_rate': 2.413782854231243e-05, 'epoch': 6.62}
 28%|██▊       | 21666/78504 [13:10:12<29:51:08,  1.89s/it] 28%|██▊       | 21667/78504 [13:10:14<28:40:48,  1.82s/it]                                                           {'loss': 0.1609, 'grad_norm': 2.0380260944366455, 'learning_rate': 2.4137403931892488e-05, 'epoch': 6.62}
 28%|██▊       | 21667/78504 [13:10:14<28:40:48,  1.82s/it] 28%|██▊       | 21668/78504 [13:10:15<27:16:23,  1.73s/it]                                                           {'loss': 0.1556, 'grad_norm': 3.2759337425231934, 'learning_rate': 2.413697932147255e-05, 'epoch': 6.62}
 28%|██▊       | 21668/78504 [13:10:15<27:16:23,  1.73s/it] 28%|██▊       | 21669/78504 [13:10:17<25:51:11,  1.64s/it]                                                           {'loss': 0.1307, 'grad_norm': 1.8520342111587524, 'learning_rate': 2.413655471105261e-05, 'epoch': 6.62}
 28%|██▊       | 21669/78504 [13:10:17<25:51:11,  1.64s/it] 28%|██▊       | 21670/78504 [13:10:18<24:46:44,  1.57s/it]                                                           {'loss': 0.1535, 'grad_norm': 0.4597774147987366, 'learning_rate': 2.413613010063267e-05, 'epoch': 6.62}
 28%|██▊       | 21670/78504 [13:10:18<24:46:44,  1.57s/it] 28%|██▊       | 21671/78504 [13:10:19<23:24:25,  1.48s/it]                                                           {'loss': 0.1551, 'grad_norm': 3.982389450073242, 'learning_rate': 2.413570549021273e-05, 'epoch': 6.63}
 28%|██▊       | 21671/78504 [13:10:19<23:24:25,  1.48s/it] 28%|██▊       | 21672/78504 [13:10:20<21:52:04,  1.39s/it]                                                           {'loss': 0.1585, 'grad_norm': 1.3138524293899536, 'learning_rate': 2.413528087979279e-05, 'epoch': 6.63}
 28%|██▊       | 21672/78504 [13:10:20<21:52:04,  1.39s/it] 28%|██▊       | 21673/78504 [13:10:22<20:31:18,  1.30s/it]                                                           {'loss': 0.1497, 'grad_norm': 0.5275397896766663, 'learning_rate': 2.413485626937285e-05, 'epoch': 6.63}
 28%|██▊       | 21673/78504 [13:10:22<20:31:18,  1.30s/it] 28%|██▊       | 21674/78504 [13:10:23<19:04:20,  1.21s/it]                                                           {'loss': 0.1902, 'grad_norm': 1.9998294115066528, 'learning_rate': 2.4134431658952912e-05, 'epoch': 6.63}
 28%|██▊       | 21674/78504 [13:10:23<19:04:20,  1.21s/it] 28%|██▊       | 21675/78504 [13:10:23<17:44:14,  1.12s/it]                                                           {'loss': 0.1944, 'grad_norm': 2.437983512878418, 'learning_rate': 2.413400704853297e-05, 'epoch': 6.63}
 28%|██▊       | 21675/78504 [13:10:23<17:44:14,  1.12s/it] 28%|██▊       | 21676/78504 [13:10:24<16:06:49,  1.02s/it]                                                           {'loss': 0.24, 'grad_norm': 4.074017524719238, 'learning_rate': 2.4133582438113033e-05, 'epoch': 6.63}
 28%|██▊       | 21676/78504 [13:10:24<16:06:49,  1.02s/it] 28%|██▊       | 21677/78504 [13:10:33<50:57:56,  3.23s/it]                                                           {'loss': 0.1318, 'grad_norm': 0.6541531085968018, 'learning_rate': 2.413315782769309e-05, 'epoch': 6.63}
 28%|██▊       | 21677/78504 [13:10:33<50:57:56,  3.23s/it] 28%|██▊       | 21678/78504 [13:10:36<51:32:09,  3.26s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.3601188361644745, 'learning_rate': 2.4132733217273154e-05, 'epoch': 6.63}
 28%|██▊       | 21678/78504 [13:10:36<51:32:09,  3.26s/it] 28%|██▊       | 21679/78504 [13:10:39<50:20:27,  3.19s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.44040414690971375, 'learning_rate': 2.4132308606853212e-05, 'epoch': 6.63}
 28%|██▊       | 21679/78504 [13:10:39<50:20:27,  3.19s/it] 28%|██▊       | 21680/78504 [13:10:42<47:35:42,  3.02s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.3304639756679535, 'learning_rate': 2.413188399643327e-05, 'epoch': 6.63}
 28%|██▊       | 21680/78504 [13:10:42<47:35:42,  3.02s/it] 28%|██▊       | 21681/78504 [13:10:44<45:01:05,  2.85s/it]                                                           {'loss': 0.0507, 'grad_norm': 0.3026779890060425, 'learning_rate': 2.4131459386013333e-05, 'epoch': 6.63}
 28%|██▊       | 21681/78504 [13:10:44<45:01:05,  2.85s/it] 28%|██▊       | 21682/78504 [13:10:46<42:13:19,  2.68s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.20219457149505615, 'learning_rate': 2.4131034775593392e-05, 'epoch': 6.63}
 28%|██▊       | 21682/78504 [13:10:46<42:13:19,  2.68s/it] 28%|██▊       | 21683/78504 [13:10:49<40:31:25,  2.57s/it]                                                           {'loss': 0.056, 'grad_norm': 0.24288013577461243, 'learning_rate': 2.4130610165173454e-05, 'epoch': 6.63}
 28%|██▊       | 21683/78504 [13:10:49<40:31:25,  2.57s/it] 28%|██▊       | 21684/78504 [13:10:51<38:21:08,  2.43s/it]                                                           {'loss': 0.0448, 'grad_norm': 0.4576403796672821, 'learning_rate': 2.4130185554753513e-05, 'epoch': 6.63}
 28%|██▊       | 21684/78504 [13:10:51<38:21:08,  2.43s/it] 28%|██▊       | 21685/78504 [13:10:53<37:10:54,  2.36s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.5578054189682007, 'learning_rate': 2.4129760944333575e-05, 'epoch': 6.63}
 28%|██▊       | 21685/78504 [13:10:53<37:10:54,  2.36s/it] 28%|██▊       | 21686/78504 [13:10:55<36:18:24,  2.30s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.6176365613937378, 'learning_rate': 2.4129336333913633e-05, 'epoch': 6.63}
 28%|██▊       | 21686/78504 [13:10:55<36:18:24,  2.30s/it] 28%|██▊       | 21687/78504 [13:10:57<34:10:28,  2.17s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.4306028187274933, 'learning_rate': 2.4128911723493695e-05, 'epoch': 6.63}
 28%|██▊       | 21687/78504 [13:10:57<34:10:28,  2.17s/it] 28%|██▊       | 21688/78504 [13:10:59<33:19:51,  2.11s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.47037020325660706, 'learning_rate': 2.4128487113073754e-05, 'epoch': 6.63}
 28%|██▊       | 21688/78504 [13:10:59<33:19:51,  2.11s/it] 28%|██▊       | 21689/78504 [13:11:01<32:09:23,  2.04s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.31224387884140015, 'learning_rate': 2.4128062502653816e-05, 'epoch': 6.63}
 28%|██▊       | 21689/78504 [13:11:01<32:09:23,  2.04s/it] 28%|██▊       | 21690/78504 [13:11:03<31:11:29,  1.98s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.5362979769706726, 'learning_rate': 2.4127637892233875e-05, 'epoch': 6.63}
 28%|██▊       | 21690/78504 [13:11:03<31:11:29,  1.98s/it] 28%|██▊       | 21691/78504 [13:11:04<29:43:10,  1.88s/it]                                                           {'loss': 0.1014, 'grad_norm': 0.5382906198501587, 'learning_rate': 2.4127213281813937e-05, 'epoch': 6.63}
 28%|██▊       | 21691/78504 [13:11:04<29:43:10,  1.88s/it] 28%|██▊       | 21692/78504 [13:11:06<28:33:51,  1.81s/it]                                                           {'loss': 0.1126, 'grad_norm': 1.2310545444488525, 'learning_rate': 2.4126788671393996e-05, 'epoch': 6.63}
 28%|██▊       | 21692/78504 [13:11:06<28:33:51,  1.81s/it] 28%|██▊       | 21693/78504 [13:11:07<27:12:27,  1.72s/it]                                                           {'loss': 0.149, 'grad_norm': 0.6270748376846313, 'learning_rate': 2.4126364060974054e-05, 'epoch': 6.63}
 28%|██▊       | 21693/78504 [13:11:07<27:12:27,  1.72s/it] 28%|██▊       | 21694/78504 [13:11:09<26:00:32,  1.65s/it]                                                           {'loss': 0.1664, 'grad_norm': 1.563722848892212, 'learning_rate': 2.4125939450554117e-05, 'epoch': 6.63}
 28%|██▊       | 21694/78504 [13:11:09<26:00:32,  1.65s/it] 28%|██▊       | 21695/78504 [13:11:10<24:55:42,  1.58s/it]                                                           {'loss': 0.15, 'grad_norm': 0.7096534967422485, 'learning_rate': 2.4125514840134175e-05, 'epoch': 6.63}
 28%|██▊       | 21695/78504 [13:11:10<24:55:42,  1.58s/it] 28%|██▊       | 21696/78504 [13:11:12<23:30:27,  1.49s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.6214866638183594, 'learning_rate': 2.4125090229714237e-05, 'epoch': 6.63}
 28%|██▊       | 21696/78504 [13:11:12<23:30:27,  1.49s/it] 28%|██▊       | 21697/78504 [13:11:13<21:54:02,  1.39s/it]                                                           {'loss': 0.1939, 'grad_norm': 0.946815550327301, 'learning_rate': 2.4124665619294296e-05, 'epoch': 6.63}
 28%|██▊       | 21697/78504 [13:11:13<21:54:02,  1.39s/it] 28%|██▊       | 21698/78504 [13:11:14<20:31:43,  1.30s/it]                                                           {'loss': 0.1816, 'grad_norm': 1.7273716926574707, 'learning_rate': 2.4124241008874358e-05, 'epoch': 6.63}
 28%|██▊       | 21698/78504 [13:11:14<20:31:43,  1.30s/it] 28%|██▊       | 21699/78504 [13:11:15<19:04:22,  1.21s/it]                                                           {'loss': 0.1856, 'grad_norm': 0.7441437244415283, 'learning_rate': 2.4123816398454417e-05, 'epoch': 6.63}
 28%|██▊       | 21699/78504 [13:11:15<19:04:22,  1.21s/it] 28%|██▊       | 21700/78504 [13:11:16<17:45:07,  1.13s/it]                                                           {'loss': 0.2067, 'grad_norm': 3.7222137451171875, 'learning_rate': 2.412339178803448e-05, 'epoch': 6.63}
 28%|██▊       | 21700/78504 [13:11:16<17:45:07,  1.13s/it] 28%|██▊       | 21701/78504 [13:11:17<16:07:19,  1.02s/it]                                                           {'loss': 0.1966, 'grad_norm': 1.3584599494934082, 'learning_rate': 2.4122967177614538e-05, 'epoch': 6.63}
 28%|██▊       | 21701/78504 [13:11:17<16:07:19,  1.02s/it] 28%|██▊       | 21702/78504 [13:11:24<46:08:54,  2.92s/it]                                                           {'loss': 0.1311, 'grad_norm': 0.35887810587882996, 'learning_rate': 2.41225425671946e-05, 'epoch': 6.63}
 28%|██▊       | 21702/78504 [13:11:24<46:08:54,  2.92s/it] 28%|██▊       | 21703/78504 [13:11:27<48:13:54,  3.06s/it]                                                           {'loss': 0.0913, 'grad_norm': 1.1691946983337402, 'learning_rate': 2.412211795677466e-05, 'epoch': 6.63}
 28%|██▊       | 21703/78504 [13:11:27<48:13:54,  3.06s/it] 28%|██▊       | 21704/78504 [13:11:30<48:00:54,  3.04s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.24720627069473267, 'learning_rate': 2.412169334635472e-05, 'epoch': 6.64}
 28%|██▊       | 21704/78504 [13:11:30<48:00:54,  3.04s/it] 28%|██▊       | 21705/78504 [13:11:33<45:51:39,  2.91s/it]                                                           {'loss': 0.071, 'grad_norm': 0.7558805346488953, 'learning_rate': 2.412126873593478e-05, 'epoch': 6.64}
 28%|██▊       | 21705/78504 [13:11:33<45:51:39,  2.91s/it] 28%|██▊       | 21706/78504 [13:11:35<43:13:59,  2.74s/it]                                                           {'loss': 0.05, 'grad_norm': 0.9626797437667847, 'learning_rate': 2.4120844125514838e-05, 'epoch': 6.64}
 28%|██▊       | 21706/78504 [13:11:35<43:13:59,  2.74s/it] 28%|██▊       | 21707/78504 [13:11:38<40:57:33,  2.60s/it]                                                           {'loss': 0.0433, 'grad_norm': 0.26505157351493835, 'learning_rate': 2.41204195150949e-05, 'epoch': 6.64}
 28%|██▊       | 21707/78504 [13:11:38<40:57:33,  2.60s/it] 28%|██▊       | 21708/78504 [13:11:40<39:38:48,  2.51s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.40145254135131836, 'learning_rate': 2.411999490467496e-05, 'epoch': 6.64}
 28%|██▊       | 21708/78504 [13:11:40<39:38:48,  2.51s/it] 28%|██▊       | 21709/78504 [13:11:42<37:39:44,  2.39s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.205316960811615, 'learning_rate': 2.411957029425502e-05, 'epoch': 6.64}
 28%|██▊       | 21709/78504 [13:11:42<37:39:44,  2.39s/it] 28%|██▊       | 21710/78504 [13:11:44<36:42:22,  2.33s/it]                                                           {'loss': 0.053, 'grad_norm': 0.1969393640756607, 'learning_rate': 2.411914568383508e-05, 'epoch': 6.64}
 28%|██▊       | 21710/78504 [13:11:44<36:42:22,  2.33s/it] 28%|██▊       | 21711/78504 [13:11:46<35:49:37,  2.27s/it]                                                           {'loss': 0.0465, 'grad_norm': 0.18551398813724518, 'learning_rate': 2.411872107341514e-05, 'epoch': 6.64}
 28%|██▊       | 21711/78504 [13:11:46<35:49:37,  2.27s/it] 28%|██▊       | 21712/78504 [13:11:48<33:52:19,  2.15s/it]                                                           {'loss': 0.1055, 'grad_norm': 0.44852349162101746, 'learning_rate': 2.41182964629952e-05, 'epoch': 6.64}
 28%|██▊       | 21712/78504 [13:11:48<33:52:19,  2.15s/it] 28%|██▊       | 21713/78504 [13:11:50<33:06:26,  2.10s/it]                                                           {'loss': 0.0633, 'grad_norm': 1.126994252204895, 'learning_rate': 2.4117871852575262e-05, 'epoch': 6.64}
 28%|██▊       | 21713/78504 [13:11:50<33:06:26,  2.10s/it] 28%|██▊       | 21714/78504 [13:11:52<32:16:14,  2.05s/it]                                                           {'loss': 0.0926, 'grad_norm': 0.6398458480834961, 'learning_rate': 2.411744724215532e-05, 'epoch': 6.64}
 28%|██▊       | 21714/78504 [13:11:52<32:16:14,  2.05s/it] 28%|██▊       | 21715/78504 [13:11:54<31:30:24,  2.00s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.5522647500038147, 'learning_rate': 2.4117022631735383e-05, 'epoch': 6.64}
 28%|██▊       | 21715/78504 [13:11:54<31:30:24,  2.00s/it] 28%|██▊       | 21716/78504 [13:11:56<30:25:13,  1.93s/it]                                                           {'loss': 0.1141, 'grad_norm': 0.5741357803344727, 'learning_rate': 2.4116598021315445e-05, 'epoch': 6.64}
 28%|██▊       | 21716/78504 [13:11:56<30:25:13,  1.93s/it] 28%|██▊       | 21717/78504 [13:11:57<29:03:25,  1.84s/it]                                                           {'loss': 0.1211, 'grad_norm': 1.6042684316635132, 'learning_rate': 2.4116173410895507e-05, 'epoch': 6.64}
 28%|██▊       | 21717/78504 [13:11:57<29:03:25,  1.84s/it] 28%|██▊       | 21718/78504 [13:11:59<27:41:24,  1.76s/it]                                                           {'loss': 0.1428, 'grad_norm': 0.46244460344314575, 'learning_rate': 2.4115748800475566e-05, 'epoch': 6.64}
 28%|██▊       | 21718/78504 [13:11:59<27:41:24,  1.76s/it] 28%|██▊       | 21719/78504 [13:12:00<26:30:38,  1.68s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.7853929996490479, 'learning_rate': 2.4115324190055625e-05, 'epoch': 6.64}
 28%|██▊       | 21719/78504 [13:12:00<26:30:38,  1.68s/it] 28%|██▊       | 21720/78504 [13:12:02<25:14:39,  1.60s/it]                                                           {'loss': 0.1752, 'grad_norm': 0.6518571376800537, 'learning_rate': 2.4114899579635687e-05, 'epoch': 6.64}
 28%|██▊       | 21720/78504 [13:12:02<25:14:39,  1.60s/it] 28%|██▊       | 21721/78504 [13:12:03<23:43:50,  1.50s/it]                                                           {'loss': 0.1625, 'grad_norm': 0.7106354236602783, 'learning_rate': 2.4114474969215745e-05, 'epoch': 6.64}
 28%|██▊       | 21721/78504 [13:12:03<23:43:50,  1.50s/it] 28%|██▊       | 21722/78504 [13:12:04<22:05:09,  1.40s/it]                                                           {'loss': 0.1796, 'grad_norm': 0.6671791672706604, 'learning_rate': 2.4114050358795808e-05, 'epoch': 6.64}
 28%|██▊       | 21722/78504 [13:12:04<22:05:09,  1.40s/it] 28%|██▊       | 21723/78504 [13:12:05<20:36:40,  1.31s/it]                                                           {'loss': 0.1741, 'grad_norm': 0.774836540222168, 'learning_rate': 2.4113625748375866e-05, 'epoch': 6.64}
 28%|██▊       | 21723/78504 [13:12:05<20:36:40,  1.31s/it] 28%|██▊       | 21724/78504 [13:12:06<19:23:43,  1.23s/it]                                                           {'loss': 0.1589, 'grad_norm': 1.2667759656906128, 'learning_rate': 2.411320113795593e-05, 'epoch': 6.64}
 28%|██▊       | 21724/78504 [13:12:06<19:23:43,  1.23s/it] 28%|██▊       | 21725/78504 [13:12:07<17:57:19,  1.14s/it]                                                           {'loss': 0.1959, 'grad_norm': 5.063528537750244, 'learning_rate': 2.4112776527535987e-05, 'epoch': 6.64}
 28%|██▊       | 21725/78504 [13:12:07<17:57:19,  1.14s/it] 28%|██▊       | 21726/78504 [13:12:08<16:15:35,  1.03s/it]                                                           {'loss': 0.2006, 'grad_norm': 1.0008677244186401, 'learning_rate': 2.411235191711605e-05, 'epoch': 6.64}
 28%|██▊       | 21726/78504 [13:12:08<16:15:35,  1.03s/it] 28%|██▊       | 21727/78504 [13:12:15<45:21:04,  2.88s/it]                                                           {'loss': 0.1249, 'grad_norm': 0.5071481466293335, 'learning_rate': 2.4111927306696108e-05, 'epoch': 6.64}
 28%|██▊       | 21727/78504 [13:12:15<45:21:04,  2.88s/it] 28%|██▊       | 21728/78504 [13:12:18<45:32:32,  2.89s/it]                                                           {'loss': 0.0811, 'grad_norm': 0.7090135216712952, 'learning_rate': 2.411150269627617e-05, 'epoch': 6.64}
 28%|██▊       | 21728/78504 [13:12:18<45:32:32,  2.89s/it] 28%|██▊       | 21729/78504 [13:12:21<45:43:17,  2.90s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.339537113904953, 'learning_rate': 2.411107808585623e-05, 'epoch': 6.64}
 28%|██▊       | 21729/78504 [13:12:21<45:43:17,  2.90s/it] 28%|██▊       | 21730/78504 [13:12:24<44:32:27,  2.82s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.7477615475654602, 'learning_rate': 2.4110653475436287e-05, 'epoch': 6.64}
 28%|██▊       | 21730/78504 [13:12:24<44:32:27,  2.82s/it] 28%|██▊       | 21731/78504 [13:12:26<42:56:43,  2.72s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.25704875588417053, 'learning_rate': 2.411022886501635e-05, 'epoch': 6.64}
 28%|██▊       | 21731/78504 [13:12:26<42:56:43,  2.72s/it] 28%|██▊       | 21732/78504 [13:12:29<41:40:36,  2.64s/it]                                                           {'loss': 0.0425, 'grad_norm': 0.1700727343559265, 'learning_rate': 2.4109804254596408e-05, 'epoch': 6.64}
 28%|██▊       | 21732/78504 [13:12:29<41:40:36,  2.64s/it] 28%|██▊       | 21733/78504 [13:12:31<40:17:34,  2.56s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.22494718432426453, 'learning_rate': 2.410937964417647e-05, 'epoch': 6.64}
 28%|██▊       | 21733/78504 [13:12:31<40:17:34,  2.56s/it] 28%|██▊       | 21734/78504 [13:12:33<39:05:02,  2.48s/it]                                                           {'loss': 0.075, 'grad_norm': 0.4211888313293457, 'learning_rate': 2.410895503375653e-05, 'epoch': 6.64}
 28%|██▊       | 21734/78504 [13:12:33<39:05:02,  2.48s/it] 28%|██▊       | 21735/78504 [13:12:36<37:43:57,  2.39s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.41521844267845154, 'learning_rate': 2.410853042333659e-05, 'epoch': 6.64}
 28%|██▊       | 21735/78504 [13:12:36<37:43:57,  2.39s/it] 28%|██▊       | 21736/78504 [13:12:38<36:37:56,  2.32s/it]                                                           {'loss': 0.0458, 'grad_norm': 0.3644210696220398, 'learning_rate': 2.410810581291665e-05, 'epoch': 6.65}
 28%|██▊       | 21736/78504 [13:12:38<36:37:56,  2.32s/it] 28%|██▊       | 21737/78504 [13:12:40<34:26:02,  2.18s/it]                                                           {'loss': 0.1243, 'grad_norm': 0.4225381314754486, 'learning_rate': 2.4107681202496712e-05, 'epoch': 6.65}
 28%|██▊       | 21737/78504 [13:12:40<34:26:02,  2.18s/it] 28%|██▊       | 21738/78504 [13:12:42<33:27:04,  2.12s/it]                                                           {'loss': 0.0932, 'grad_norm': 1.9731496572494507, 'learning_rate': 2.410725659207677e-05, 'epoch': 6.65}
 28%|██▊       | 21738/78504 [13:12:42<33:27:04,  2.12s/it] 28%|██▊       | 21739/78504 [13:12:43<32:20:19,  2.05s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.9362351894378662, 'learning_rate': 2.4106831981656833e-05, 'epoch': 6.65}
 28%|██▊       | 21739/78504 [13:12:43<32:20:19,  2.05s/it] 28%|██▊       | 21740/78504 [13:12:45<31:19:53,  1.99s/it]                                                           {'loss': 0.1203, 'grad_norm': 0.8652750253677368, 'learning_rate': 2.410640737123689e-05, 'epoch': 6.65}
 28%|██▊       | 21740/78504 [13:12:45<31:19:53,  1.99s/it] 28%|██▊       | 21741/78504 [13:12:47<30:05:17,  1.91s/it]                                                           {'loss': 0.0826, 'grad_norm': 0.7160530686378479, 'learning_rate': 2.4105982760816953e-05, 'epoch': 6.65}
 28%|██▊       | 21741/78504 [13:12:47<30:05:17,  1.91s/it] 28%|██▊       | 21742/78504 [13:12:49<28:53:31,  1.83s/it]                                                           {'loss': 0.1559, 'grad_norm': 1.7904523611068726, 'learning_rate': 2.4105558150397012e-05, 'epoch': 6.65}
 28%|██▊       | 21742/78504 [13:12:49<28:53:31,  1.83s/it] 28%|██▊       | 21743/78504 [13:12:50<27:26:18,  1.74s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.9798429608345032, 'learning_rate': 2.410513353997707e-05, 'epoch': 6.65}
 28%|██▊       | 21743/78504 [13:12:50<27:26:18,  1.74s/it] 28%|██▊       | 21744/78504 [13:12:52<26:09:21,  1.66s/it]                                                           {'loss': 0.1339, 'grad_norm': 0.767403244972229, 'learning_rate': 2.4104708929557133e-05, 'epoch': 6.65}
 28%|██▊       | 21744/78504 [13:12:52<26:09:21,  1.66s/it] 28%|██▊       | 21745/78504 [13:12:53<24:59:21,  1.58s/it]                                                           {'loss': 0.1628, 'grad_norm': 0.6647427678108215, 'learning_rate': 2.410428431913719e-05, 'epoch': 6.65}
 28%|██▊       | 21745/78504 [13:12:53<24:59:21,  1.58s/it] 28%|██▊       | 21746/78504 [13:12:54<23:33:46,  1.49s/it]                                                           {'loss': 0.1629, 'grad_norm': 0.6129042506217957, 'learning_rate': 2.4103859708717254e-05, 'epoch': 6.65}
 28%|██▊       | 21746/78504 [13:12:54<23:33:46,  1.49s/it] 28%|██▊       | 21747/78504 [13:12:55<21:50:22,  1.39s/it]                                                           {'loss': 0.1492, 'grad_norm': 0.5802541375160217, 'learning_rate': 2.4103435098297312e-05, 'epoch': 6.65}
 28%|██▊       | 21747/78504 [13:12:55<21:50:22,  1.39s/it] 28%|██▊       | 21748/78504 [13:12:57<20:27:24,  1.30s/it]                                                           {'loss': 0.138, 'grad_norm': 3.020630359649658, 'learning_rate': 2.4103010487877374e-05, 'epoch': 6.65}
 28%|██▊       | 21748/78504 [13:12:57<20:27:24,  1.30s/it] 28%|██▊       | 21749/78504 [13:12:58<18:58:55,  1.20s/it]                                                           {'loss': 0.213, 'grad_norm': 1.3876183032989502, 'learning_rate': 2.4102585877457433e-05, 'epoch': 6.65}
 28%|██▊       | 21749/78504 [13:12:58<18:58:55,  1.20s/it] 28%|██▊       | 21750/78504 [13:12:58<17:40:51,  1.12s/it]                                                           {'loss': 0.184, 'grad_norm': 0.6166839599609375, 'learning_rate': 2.4102161267037495e-05, 'epoch': 6.65}
 28%|██▊       | 21750/78504 [13:12:58<17:40:51,  1.12s/it] 28%|██▊       | 21751/78504 [13:12:59<16:04:45,  1.02s/it]                                                           {'loss': 0.2174, 'grad_norm': 1.9879498481750488, 'learning_rate': 2.4101736656617554e-05, 'epoch': 6.65}
 28%|██▊       | 21751/78504 [13:12:59<16:04:45,  1.02s/it] 28%|██▊       | 21752/78504 [13:13:08<55:02:37,  3.49s/it]                                                           {'loss': 0.1633, 'grad_norm': 0.7113563418388367, 'learning_rate': 2.4101312046197616e-05, 'epoch': 6.65}
 28%|██▊       | 21752/78504 [13:13:09<55:02:37,  3.49s/it] 28%|██▊       | 21753/78504 [13:13:12<53:22:40,  3.39s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.5670984387397766, 'learning_rate': 2.4100887435777675e-05, 'epoch': 6.65}
 28%|██▊       | 21753/78504 [13:13:12<53:22:40,  3.39s/it] 28%|██▊       | 21754/78504 [13:13:15<51:10:21,  3.25s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.21612633764743805, 'learning_rate': 2.4100462825357737e-05, 'epoch': 6.65}
 28%|██▊       | 21754/78504 [13:13:15<51:10:21,  3.25s/it] 28%|██▊       | 21755/78504 [13:13:17<48:01:15,  3.05s/it]                                                           {'loss': 0.0505, 'grad_norm': 0.24852485954761505, 'learning_rate': 2.4100038214937795e-05, 'epoch': 6.65}
 28%|██▊       | 21755/78504 [13:13:17<48:01:15,  3.05s/it] 28%|██▊       | 21756/78504 [13:13:20<45:24:38,  2.88s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.7454033493995667, 'learning_rate': 2.4099613604517854e-05, 'epoch': 6.65}
 28%|██▊       | 21756/78504 [13:13:20<45:24:38,  2.88s/it] 28%|██▊       | 21757/78504 [13:13:22<43:23:30,  2.75s/it]                                                           {'loss': 0.0429, 'grad_norm': 0.1513039767742157, 'learning_rate': 2.4099188994097916e-05, 'epoch': 6.65}
 28%|██▊       | 21757/78504 [13:13:22<43:23:30,  2.75s/it] 28%|██▊       | 21758/78504 [13:13:24<41:30:17,  2.63s/it]                                                           {'loss': 0.0624, 'grad_norm': 1.1063891649246216, 'learning_rate': 2.4098764383677975e-05, 'epoch': 6.65}
 28%|██▊       | 21758/78504 [13:13:24<41:30:17,  2.63s/it] 28%|██▊       | 21759/78504 [13:13:27<39:54:40,  2.53s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.24007967114448547, 'learning_rate': 2.4098339773258037e-05, 'epoch': 6.65}
 28%|██▊       | 21759/78504 [13:13:27<39:54:40,  2.53s/it] 28%|██▊       | 21760/78504 [13:13:29<38:19:33,  2.43s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.316578209400177, 'learning_rate': 2.4097915162838096e-05, 'epoch': 6.65}
 28%|██▊       | 21760/78504 [13:13:29<38:19:33,  2.43s/it] 28%|██▊       | 21761/78504 [13:13:31<37:02:37,  2.35s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.2191687971353531, 'learning_rate': 2.4097490552418158e-05, 'epoch': 6.65}
 28%|██▊       | 21761/78504 [13:13:31<37:02:37,  2.35s/it] 28%|██▊       | 21762/78504 [13:13:33<34:42:26,  2.20s/it]                                                           {'loss': 0.0874, 'grad_norm': 0.21981583535671234, 'learning_rate': 2.4097065941998217e-05, 'epoch': 6.65}
 28%|██▊       | 21762/78504 [13:13:33<34:42:26,  2.20s/it] 28%|██▊       | 21763/78504 [13:13:35<33:42:20,  2.14s/it]                                                           {'loss': 0.0813, 'grad_norm': 0.3880472481250763, 'learning_rate': 2.409664133157828e-05, 'epoch': 6.65}
 28%|██▊       | 21763/78504 [13:13:35<33:42:20,  2.14s/it] 28%|██▊       | 21764/78504 [13:13:37<32:39:52,  2.07s/it]                                                           {'loss': 0.0839, 'grad_norm': 0.37838855385780334, 'learning_rate': 2.4096216721158337e-05, 'epoch': 6.65}
 28%|██▊       | 21764/78504 [13:13:37<32:39:52,  2.07s/it] 28%|██▊       | 21765/78504 [13:13:39<31:39:58,  2.01s/it]                                                           {'loss': 0.1109, 'grad_norm': 0.5892343521118164, 'learning_rate': 2.40957921107384e-05, 'epoch': 6.65}
 28%|██▊       | 21765/78504 [13:13:39<31:39:58,  2.01s/it] 28%|██▊       | 21766/78504 [13:13:40<30:31:12,  1.94s/it]                                                           {'loss': 0.1323, 'grad_norm': 0.6723191142082214, 'learning_rate': 2.4095367500318458e-05, 'epoch': 6.65}
 28%|██▊       | 21766/78504 [13:13:40<30:31:12,  1.94s/it] 28%|██▊       | 21767/78504 [13:13:42<28:48:59,  1.83s/it]                                                           {'loss': 0.1262, 'grad_norm': 0.5652338862419128, 'learning_rate': 2.409494288989852e-05, 'epoch': 6.65}
 28%|██▊       | 21767/78504 [13:13:42<28:48:59,  1.83s/it] 28%|██▊       | 21768/78504 [13:13:44<27:28:35,  1.74s/it]                                                           {'loss': 0.1352, 'grad_norm': 0.34880802035331726, 'learning_rate': 2.409451827947858e-05, 'epoch': 6.65}
 28%|██▊       | 21768/78504 [13:13:44<27:28:35,  1.74s/it] 28%|██▊       | 21769/78504 [13:13:45<26:11:44,  1.66s/it]                                                           {'loss': 0.16, 'grad_norm': 0.5709972977638245, 'learning_rate': 2.4094093669058638e-05, 'epoch': 6.66}
 28%|██▊       | 21769/78504 [13:13:45<26:11:44,  1.66s/it] 28%|██▊       | 21770/78504 [13:13:46<24:56:13,  1.58s/it]                                                           {'loss': 0.137, 'grad_norm': 0.7150827646255493, 'learning_rate': 2.40936690586387e-05, 'epoch': 6.66}
 28%|██▊       | 21770/78504 [13:13:46<24:56:13,  1.58s/it] 28%|██▊       | 21771/78504 [13:13:48<23:29:42,  1.49s/it]                                                           {'loss': 0.1405, 'grad_norm': 1.7482396364212036, 'learning_rate': 2.409324444821876e-05, 'epoch': 6.66}
 28%|██▊       | 21771/78504 [13:13:48<23:29:42,  1.49s/it] 28%|██▊       | 21772/78504 [13:13:49<21:53:36,  1.39s/it]                                                           {'loss': 0.2766, 'grad_norm': 1.2394611835479736, 'learning_rate': 2.409281983779882e-05, 'epoch': 6.66}
 28%|██▊       | 21772/78504 [13:13:49<21:53:36,  1.39s/it] 28%|██▊       | 21773/78504 [13:13:50<20:31:21,  1.30s/it]                                                           {'loss': 0.1658, 'grad_norm': 1.9075334072113037, 'learning_rate': 2.409239522737888e-05, 'epoch': 6.66}
 28%|██▊       | 21773/78504 [13:13:50<20:31:21,  1.30s/it] 28%|██▊       | 21774/78504 [13:13:51<19:20:31,  1.23s/it]                                                           {'loss': 0.1759, 'grad_norm': 0.7392836213111877, 'learning_rate': 2.409197061695894e-05, 'epoch': 6.66}
 28%|██▊       | 21774/78504 [13:13:51<19:20:31,  1.23s/it] 28%|██▊       | 21775/78504 [13:13:52<17:59:23,  1.14s/it]                                                           {'loss': 0.1903, 'grad_norm': 0.8276727199554443, 'learning_rate': 2.4091546006539e-05, 'epoch': 6.66}
 28%|██▊       | 21775/78504 [13:13:52<17:59:23,  1.14s/it] 28%|██▊       | 21776/78504 [13:13:53<16:25:20,  1.04s/it]                                                           {'loss': 0.2212, 'grad_norm': 1.6453136205673218, 'learning_rate': 2.4091121396119062e-05, 'epoch': 6.66}
 28%|██▊       | 21776/78504 [13:13:53<16:25:20,  1.04s/it] 28%|██▊       | 21777/78504 [13:14:00<46:17:12,  2.94s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.485230416059494, 'learning_rate': 2.409069678569912e-05, 'epoch': 6.66}
 28%|██▊       | 21777/78504 [13:14:00<46:17:12,  2.94s/it] 28%|██▊       | 21778/78504 [13:14:03<47:48:37,  3.03s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.574414074420929, 'learning_rate': 2.4090272175279183e-05, 'epoch': 6.66}
 28%|██▊       | 21778/78504 [13:14:03<47:48:37,  3.03s/it] 28%|██▊       | 21779/78504 [13:14:06<47:33:21,  3.02s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.3485560715198517, 'learning_rate': 2.408984756485924e-05, 'epoch': 6.66}
 28%|██▊       | 21779/78504 [13:14:06<47:33:21,  3.02s/it] 28%|██▊       | 21780/78504 [13:14:09<45:38:45,  2.90s/it]                                                           {'loss': 0.0397, 'grad_norm': 0.19509734213352203, 'learning_rate': 2.4089422954439304e-05, 'epoch': 6.66}
 28%|██▊       | 21780/78504 [13:14:09<45:38:45,  2.90s/it] 28%|██▊       | 21781/78504 [13:14:11<43:36:03,  2.77s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.30990204215049744, 'learning_rate': 2.4088998344019362e-05, 'epoch': 6.66}
 28%|██▊       | 21781/78504 [13:14:11<43:36:03,  2.77s/it] 28%|██▊       | 21782/78504 [13:14:14<41:14:35,  2.62s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.5179685950279236, 'learning_rate': 2.408857373359942e-05, 'epoch': 6.66}
 28%|██▊       | 21782/78504 [13:14:14<41:14:35,  2.62s/it] 28%|██▊       | 21783/78504 [13:14:16<39:50:24,  2.53s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.2916179895401001, 'learning_rate': 2.4088149123179483e-05, 'epoch': 6.66}
 28%|██▊       | 21783/78504 [13:14:16<39:50:24,  2.53s/it] 28%|██▊       | 21784/78504 [13:14:18<37:45:21,  2.40s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.5586234927177429, 'learning_rate': 2.4087724512759542e-05, 'epoch': 6.66}
 28%|██▊       | 21784/78504 [13:14:18<37:45:21,  2.40s/it] 28%|██▊       | 21785/78504 [13:14:20<36:44:20,  2.33s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.3386734127998352, 'learning_rate': 2.4087299902339604e-05, 'epoch': 6.66}
 28%|██▊       | 21785/78504 [13:14:20<36:44:20,  2.33s/it] 28%|██▊       | 21786/78504 [13:14:23<35:57:41,  2.28s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.22865769267082214, 'learning_rate': 2.4086875291919663e-05, 'epoch': 6.66}
 28%|██▊       | 21786/78504 [13:14:23<35:57:41,  2.28s/it] 28%|██▊       | 21787/78504 [13:14:25<34:46:47,  2.21s/it]                                                           {'loss': 0.0867, 'grad_norm': 0.4425964951515198, 'learning_rate': 2.4086450681499725e-05, 'epoch': 6.66}
 28%|██▊       | 21787/78504 [13:14:25<34:46:47,  2.21s/it] 28%|██▊       | 21788/78504 [13:14:27<33:39:07,  2.14s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.36340224742889404, 'learning_rate': 2.4086026071079783e-05, 'epoch': 6.66}
 28%|██▊       | 21788/78504 [13:14:27<33:39:07,  2.14s/it] 28%|██▊       | 21789/78504 [13:14:28<32:24:10,  2.06s/it]                                                           {'loss': 0.1056, 'grad_norm': 0.3704182505607605, 'learning_rate': 2.4085601460659845e-05, 'epoch': 6.66}
 28%|██▊       | 21789/78504 [13:14:28<32:24:10,  2.06s/it] 28%|██▊       | 21790/78504 [13:14:30<31:20:06,  1.99s/it]                                                           {'loss': 0.1229, 'grad_norm': 0.948585569858551, 'learning_rate': 2.4085176850239904e-05, 'epoch': 6.66}
 28%|██▊       | 21790/78504 [13:14:30<31:20:06,  1.99s/it] 28%|██▊       | 21791/78504 [13:14:32<30:05:11,  1.91s/it]                                                           {'loss': 0.0906, 'grad_norm': 0.3359985053539276, 'learning_rate': 2.4084752239819966e-05, 'epoch': 6.66}
 28%|██▊       | 21791/78504 [13:14:32<30:05:11,  1.91s/it] 28%|██▊       | 21792/78504 [13:14:34<28:50:56,  1.83s/it]                                                           {'loss': 0.1391, 'grad_norm': 0.5376591682434082, 'learning_rate': 2.4084327629400025e-05, 'epoch': 6.66}
 28%|██▊       | 21792/78504 [13:14:34<28:50:56,  1.83s/it] 28%|██▊       | 21793/78504 [13:14:35<27:29:40,  1.75s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.7107796669006348, 'learning_rate': 2.4083903018980087e-05, 'epoch': 6.66}
 28%|██▊       | 21793/78504 [13:14:35<27:29:40,  1.75s/it] 28%|██▊       | 21794/78504 [13:14:37<26:08:47,  1.66s/it]                                                           {'loss': 0.1807, 'grad_norm': 0.4397164583206177, 'learning_rate': 2.4083478408560146e-05, 'epoch': 6.66}
 28%|██▊       | 21794/78504 [13:14:37<26:08:47,  1.66s/it] 28%|██▊       | 21795/78504 [13:14:38<24:59:25,  1.59s/it]                                                           {'loss': 0.1543, 'grad_norm': 0.32155394554138184, 'learning_rate': 2.4083053798140204e-05, 'epoch': 6.66}
 28%|██▊       | 21795/78504 [13:14:38<24:59:25,  1.59s/it] 28%|██▊       | 21796/78504 [13:14:39<23:34:35,  1.50s/it]                                                           {'loss': 0.1684, 'grad_norm': 1.3398582935333252, 'learning_rate': 2.4082629187720267e-05, 'epoch': 6.66}
 28%|██▊       | 21796/78504 [13:14:39<23:34:35,  1.50s/it] 28%|██▊       | 21797/78504 [13:14:40<21:55:26,  1.39s/it]                                                           {'loss': 0.1681, 'grad_norm': 1.1320463418960571, 'learning_rate': 2.4082204577300325e-05, 'epoch': 6.66}
 28%|██▊       | 21797/78504 [13:14:40<21:55:26,  1.39s/it] 28%|██▊       | 21798/78504 [13:14:42<20:31:42,  1.30s/it]                                                           {'loss': 0.1733, 'grad_norm': 0.7108551263809204, 'learning_rate': 2.4081779966880387e-05, 'epoch': 6.66}
 28%|██▊       | 21798/78504 [13:14:42<20:31:42,  1.30s/it] 28%|██▊       | 21799/78504 [13:14:43<19:19:15,  1.23s/it]                                                           {'loss': 0.1886, 'grad_norm': 1.1951167583465576, 'learning_rate': 2.4081355356460446e-05, 'epoch': 6.66}
 28%|██▊       | 21799/78504 [13:14:43<19:19:15,  1.23s/it] 28%|██▊       | 21800/78504 [13:14:44<17:55:46,  1.14s/it]                                                           {'loss': 0.2236, 'grad_norm': 0.7022933959960938, 'learning_rate': 2.4080930746040508e-05, 'epoch': 6.66}
 28%|██▊       | 21800/78504 [13:14:44<17:55:46,  1.14s/it] 28%|██▊       | 21801/78504 [13:14:44<16:07:57,  1.02s/it]                                                           {'loss': 0.2022, 'grad_norm': 0.9425702691078186, 'learning_rate': 2.4080506135620567e-05, 'epoch': 6.66}
 28%|██▊       | 21801/78504 [13:14:44<16:07:57,  1.02s/it] 28%|██▊       | 21802/78504 [13:14:52<49:43:41,  3.16s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.5169018507003784, 'learning_rate': 2.408008152520063e-05, 'epoch': 6.67}
 28%|██▊       | 21802/78504 [13:14:52<49:43:41,  3.16s/it] 28%|██▊       | 21803/78504 [13:14:55<48:33:30,  3.08s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.36128780245780945, 'learning_rate': 2.4079656914780688e-05, 'epoch': 6.67}
 28%|██▊       | 21803/78504 [13:14:55<48:33:30,  3.08s/it] 28%|██▊       | 21804/78504 [13:14:58<47:46:34,  3.03s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.268698513507843, 'learning_rate': 2.407923230436075e-05, 'epoch': 6.67}
 28%|██▊       | 21804/78504 [13:14:58<47:46:34,  3.03s/it] 28%|██▊       | 21805/78504 [13:15:01<45:39:53,  2.90s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.3949039876461029, 'learning_rate': 2.407880769394081e-05, 'epoch': 6.67}
 28%|██▊       | 21805/78504 [13:15:01<45:39:53,  2.90s/it] 28%|██▊       | 21806/78504 [13:15:03<43:44:08,  2.78s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.278842955827713, 'learning_rate': 2.407838308352087e-05, 'epoch': 6.67}
 28%|██▊       | 21806/78504 [13:15:03<43:44:08,  2.78s/it] 28%|██▊       | 21807/78504 [13:15:06<42:11:00,  2.68s/it]                                                           {'loss': 0.0881, 'grad_norm': 0.23846977949142456, 'learning_rate': 2.407795847310093e-05, 'epoch': 6.67}
 28%|██▊       | 21807/78504 [13:15:06<42:11:00,  2.68s/it] 28%|██▊       | 21808/78504 [13:15:08<40:39:13,  2.58s/it]                                                           {'loss': 0.0331, 'grad_norm': 0.1927356868982315, 'learning_rate': 2.4077533862680988e-05, 'epoch': 6.67}
 28%|██▊       | 21808/78504 [13:15:08<40:39:13,  2.58s/it] 28%|██▊       | 21809/78504 [13:15:10<39:18:53,  2.50s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.2911524176597595, 'learning_rate': 2.407710925226105e-05, 'epoch': 6.67}
 28%|██▊       | 21809/78504 [13:15:10<39:18:53,  2.50s/it] 28%|██▊       | 21810/78504 [13:15:13<37:52:48,  2.41s/it]                                                           {'loss': 0.0803, 'grad_norm': 0.6784061789512634, 'learning_rate': 2.407668464184111e-05, 'epoch': 6.67}
 28%|██▊       | 21810/78504 [13:15:13<37:52:48,  2.41s/it] 28%|██▊       | 21811/78504 [13:15:15<36:45:29,  2.33s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.38640639185905457, 'learning_rate': 2.407626003142117e-05, 'epoch': 6.67}
 28%|██▊       | 21811/78504 [13:15:15<36:45:29,  2.33s/it] 28%|██▊       | 21812/78504 [13:15:17<34:33:25,  2.19s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.4190351963043213, 'learning_rate': 2.407583542100123e-05, 'epoch': 6.67}
 28%|██▊       | 21812/78504 [13:15:17<34:33:25,  2.19s/it] 28%|██▊       | 21813/78504 [13:15:19<33:36:58,  2.13s/it]                                                           {'loss': 0.086, 'grad_norm': 0.40844351053237915, 'learning_rate': 2.407541081058129e-05, 'epoch': 6.67}
 28%|██▊       | 21813/78504 [13:15:19<33:36:58,  2.13s/it] 28%|██▊       | 21814/78504 [13:15:21<32:37:51,  2.07s/it]                                                           {'loss': 0.0917, 'grad_norm': 0.2919502854347229, 'learning_rate': 2.407498620016135e-05, 'epoch': 6.67}
 28%|██▊       | 21814/78504 [13:15:21<32:37:51,  2.07s/it] 28%|██▊       | 21815/78504 [13:15:22<31:47:13,  2.02s/it]                                                           {'loss': 0.0987, 'grad_norm': 0.41853970289230347, 'learning_rate': 2.4074561589741412e-05, 'epoch': 6.67}
 28%|██▊       | 21815/78504 [13:15:22<31:47:13,  2.02s/it] 28%|██▊       | 21816/78504 [13:15:24<30:36:48,  1.94s/it]                                                           {'loss': 0.1422, 'grad_norm': 0.34706053137779236, 'learning_rate': 2.407413697932147e-05, 'epoch': 6.67}
 28%|██▊       | 21816/78504 [13:15:24<30:36:48,  1.94s/it] 28%|██▊       | 21817/78504 [13:15:26<29:12:28,  1.85s/it]                                                           {'loss': 0.1352, 'grad_norm': 0.31146177649497986, 'learning_rate': 2.4073712368901533e-05, 'epoch': 6.67}
 28%|██▊       | 21817/78504 [13:15:26<29:12:28,  1.85s/it] 28%|██▊       | 21818/78504 [13:15:27<27:33:38,  1.75s/it]                                                           {'loss': 0.1391, 'grad_norm': 0.5506784915924072, 'learning_rate': 2.4073287758481595e-05, 'epoch': 6.67}
 28%|██▊       | 21818/78504 [13:15:27<27:33:38,  1.75s/it] 28%|██▊       | 21819/78504 [13:15:29<26:27:39,  1.68s/it]                                                           {'loss': 0.1428, 'grad_norm': 0.502693235874176, 'learning_rate': 2.4072863148061657e-05, 'epoch': 6.67}
 28%|██▊       | 21819/78504 [13:15:29<26:27:39,  1.68s/it] 28%|██▊       | 21820/78504 [13:15:30<25:14:27,  1.60s/it]                                                           {'loss': 0.1626, 'grad_norm': 0.5051175951957703, 'learning_rate': 2.4072438537641716e-05, 'epoch': 6.67}
 28%|██▊       | 21820/78504 [13:15:30<25:14:27,  1.60s/it] 28%|██▊       | 21821/78504 [13:15:32<23:45:41,  1.51s/it]                                                           {'loss': 0.1574, 'grad_norm': 0.7651900053024292, 'learning_rate': 2.4072013927221775e-05, 'epoch': 6.67}
 28%|██▊       | 21821/78504 [13:15:32<23:45:41,  1.51s/it] 28%|██▊       | 21822/78504 [13:15:33<22:02:39,  1.40s/it]                                                           {'loss': 0.165, 'grad_norm': 0.5774397850036621, 'learning_rate': 2.4071589316801837e-05, 'epoch': 6.67}
 28%|██▊       | 21822/78504 [13:15:33<22:02:39,  1.40s/it] 28%|██▊       | 21823/78504 [13:15:34<20:37:02,  1.31s/it]                                                           {'loss': 0.1811, 'grad_norm': 0.6043558120727539, 'learning_rate': 2.4071164706381896e-05, 'epoch': 6.67}
 28%|██▊       | 21823/78504 [13:15:34<20:37:02,  1.31s/it] 28%|██▊       | 21824/78504 [13:15:35<19:22:11,  1.23s/it]                                                           {'loss': 0.1764, 'grad_norm': 0.7292405962944031, 'learning_rate': 2.4070740095961958e-05, 'epoch': 6.67}
 28%|██▊       | 21824/78504 [13:15:35<19:22:11,  1.23s/it] 28%|██▊       | 21825/78504 [13:15:36<17:56:33,  1.14s/it]                                                           {'loss': 0.2233, 'grad_norm': 0.7698682546615601, 'learning_rate': 2.4070315485542016e-05, 'epoch': 6.67}
 28%|██▊       | 21825/78504 [13:15:36<17:56:33,  1.14s/it] 28%|██▊       | 21826/78504 [13:15:37<16:23:34,  1.04s/it]                                                           {'loss': 0.2292, 'grad_norm': 0.9948698878288269, 'learning_rate': 2.406989087512208e-05, 'epoch': 6.67}
 28%|██▊       | 21826/78504 [13:15:37<16:23:34,  1.04s/it] 28%|██▊       | 21827/78504 [13:15:46<56:26:51,  3.59s/it]                                                           {'loss': 0.1167, 'grad_norm': 0.6994957327842712, 'learning_rate': 2.4069466264702137e-05, 'epoch': 6.67}
 28%|██▊       | 21827/78504 [13:15:46<56:26:51,  3.59s/it] 28%|██▊       | 21828/78504 [13:15:49<54:13:40,  3.44s/it]                                                           {'loss': 0.0783, 'grad_norm': 0.2613848149776459, 'learning_rate': 2.40690416542822e-05, 'epoch': 6.67}
 28%|██▊       | 21828/78504 [13:15:49<54:13:40,  3.44s/it] 28%|██▊       | 21829/78504 [13:15:52<52:13:06,  3.32s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.30914878845214844, 'learning_rate': 2.4068617043862258e-05, 'epoch': 6.67}
 28%|██▊       | 21829/78504 [13:15:52<52:13:06,  3.32s/it] 28%|██▊       | 21830/78504 [13:15:55<48:52:28,  3.10s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.32807478308677673, 'learning_rate': 2.406819243344232e-05, 'epoch': 6.67}
 28%|██▊       | 21830/78504 [13:15:55<48:52:28,  3.10s/it] 28%|██▊       | 21831/78504 [13:15:57<45:51:50,  2.91s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.2595452070236206, 'learning_rate': 2.406776782302238e-05, 'epoch': 6.67}
 28%|██▊       | 21831/78504 [13:15:57<45:51:50,  2.91s/it] 28%|██▊       | 21832/78504 [13:16:00<42:47:14,  2.72s/it]                                                           {'loss': 0.04, 'grad_norm': 0.28972128033638, 'learning_rate': 2.406734321260244e-05, 'epoch': 6.67}
 28%|██▊       | 21832/78504 [13:16:00<42:47:14,  2.72s/it] 28%|██▊       | 21833/78504 [13:16:02<40:53:49,  2.60s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.4344096779823303, 'learning_rate': 2.40669186021825e-05, 'epoch': 6.67}
 28%|██▊       | 21833/78504 [13:16:02<40:53:49,  2.60s/it] 28%|██▊       | 21834/78504 [13:16:04<38:35:31,  2.45s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.5077471733093262, 'learning_rate': 2.4066493991762558e-05, 'epoch': 6.68}
 28%|██▊       | 21834/78504 [13:16:04<38:35:31,  2.45s/it] 28%|██▊       | 21835/78504 [13:16:06<37:18:42,  2.37s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.2340615838766098, 'learning_rate': 2.406606938134262e-05, 'epoch': 6.68}
 28%|██▊       | 21835/78504 [13:16:06<37:18:42,  2.37s/it] 28%|██▊       | 21836/78504 [13:16:08<36:15:33,  2.30s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.17894800007343292, 'learning_rate': 2.406564477092268e-05, 'epoch': 6.68}
 28%|██▊       | 21836/78504 [13:16:08<36:15:33,  2.30s/it] 28%|██▊       | 21837/78504 [13:16:10<34:56:26,  2.22s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.2563183605670929, 'learning_rate': 2.406522016050274e-05, 'epoch': 6.68}
 28%|██▊       | 21837/78504 [13:16:10<34:56:26,  2.22s/it] 28%|██▊       | 21838/78504 [13:16:12<33:46:40,  2.15s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.5026403665542603, 'learning_rate': 2.40647955500828e-05, 'epoch': 6.68}
 28%|██▊       | 21838/78504 [13:16:12<33:46:40,  2.15s/it] 28%|██▊       | 21839/78504 [13:16:14<32:32:42,  2.07s/it]                                                           {'loss': 0.0972, 'grad_norm': 0.2048358917236328, 'learning_rate': 2.4064370939662862e-05, 'epoch': 6.68}
 28%|██▊       | 21839/78504 [13:16:14<32:32:42,  2.07s/it] 28%|██▊       | 21840/78504 [13:16:16<31:34:42,  2.01s/it]                                                           {'loss': 0.0941, 'grad_norm': 0.40412160754203796, 'learning_rate': 2.406394632924292e-05, 'epoch': 6.68}
 28%|██▊       | 21840/78504 [13:16:16<31:34:42,  2.01s/it] 28%|██▊       | 21841/78504 [13:16:18<30:25:16,  1.93s/it]                                                           {'loss': 0.1165, 'grad_norm': 0.5487343668937683, 'learning_rate': 2.4063521718822983e-05, 'epoch': 6.68}
 28%|██▊       | 21841/78504 [13:16:18<30:25:16,  1.93s/it] 28%|██▊       | 21842/78504 [13:16:20<29:06:06,  1.85s/it]                                                           {'loss': 0.1369, 'grad_norm': 0.49290695786476135, 'learning_rate': 2.406309710840304e-05, 'epoch': 6.68}
 28%|██▊       | 21842/78504 [13:16:20<29:06:06,  1.85s/it] 28%|██▊       | 21843/78504 [13:16:21<27:39:43,  1.76s/it]                                                           {'loss': 0.1192, 'grad_norm': 1.3618249893188477, 'learning_rate': 2.4062672497983103e-05, 'epoch': 6.68}
 28%|██▊       | 21843/78504 [13:16:21<27:39:43,  1.76s/it] 28%|██▊       | 21844/78504 [13:16:23<26:28:03,  1.68s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.43141892552375793, 'learning_rate': 2.4062247887563162e-05, 'epoch': 6.68}
 28%|██▊       | 21844/78504 [13:16:23<26:28:03,  1.68s/it] 28%|██▊       | 21845/78504 [13:16:24<25:07:42,  1.60s/it]                                                           {'loss': 0.1383, 'grad_norm': 0.7352354526519775, 'learning_rate': 2.406182327714322e-05, 'epoch': 6.68}
 28%|██▊       | 21845/78504 [13:16:24<25:07:42,  1.60s/it] 28%|██▊       | 21846/78504 [13:16:25<23:42:29,  1.51s/it]                                                           {'loss': 0.1656, 'grad_norm': 0.566762387752533, 'learning_rate': 2.4061398666723283e-05, 'epoch': 6.68}
 28%|██▊       | 21846/78504 [13:16:25<23:42:29,  1.51s/it] 28%|██▊       | 21847/78504 [13:16:26<22:01:01,  1.40s/it]                                                           {'loss': 0.1486, 'grad_norm': 0.5814469456672668, 'learning_rate': 2.406097405630334e-05, 'epoch': 6.68}
 28%|██▊       | 21847/78504 [13:16:26<22:01:01,  1.40s/it] 28%|██▊       | 21848/78504 [13:16:28<20:31:36,  1.30s/it]                                                           {'loss': 0.1761, 'grad_norm': 1.1848902702331543, 'learning_rate': 2.4060549445883404e-05, 'epoch': 6.68}
 28%|██▊       | 21848/78504 [13:16:28<20:31:36,  1.30s/it] 28%|██▊       | 21849/78504 [13:16:29<19:03:13,  1.21s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.7323266863822937, 'learning_rate': 2.4060124835463462e-05, 'epoch': 6.68}
 28%|██▊       | 21849/78504 [13:16:29<19:03:13,  1.21s/it] 28%|██▊       | 21850/78504 [13:16:29<17:43:55,  1.13s/it]                                                           {'loss': 0.148, 'grad_norm': 0.8444457054138184, 'learning_rate': 2.4059700225043524e-05, 'epoch': 6.68}
 28%|██▊       | 21850/78504 [13:16:29<17:43:55,  1.13s/it] 28%|██▊       | 21851/78504 [13:16:30<16:05:26,  1.02s/it]                                                           {'loss': 0.2262, 'grad_norm': 1.3368315696716309, 'learning_rate': 2.4059275614623583e-05, 'epoch': 6.68}
 28%|██▊       | 21851/78504 [13:16:30<16:05:26,  1.02s/it] 28%|██▊       | 21852/78504 [13:16:39<53:05:50,  3.37s/it]                                                           {'loss': 0.105, 'grad_norm': 0.5779988169670105, 'learning_rate': 2.4058851004203645e-05, 'epoch': 6.68}
 28%|██▊       | 21852/78504 [13:16:39<53:05:50,  3.37s/it] 28%|██▊       | 21853/78504 [13:16:42<52:35:20,  3.34s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.2768917679786682, 'learning_rate': 2.4058426393783704e-05, 'epoch': 6.68}
 28%|██▊       | 21853/78504 [13:16:42<52:35:20,  3.34s/it] 28%|██▊       | 21854/78504 [13:16:45<50:51:57,  3.23s/it]                                                           {'loss': 0.0712, 'grad_norm': 0.1917112171649933, 'learning_rate': 2.4058001783363766e-05, 'epoch': 6.68}
 28%|██▊       | 21854/78504 [13:16:45<50:51:57,  3.23s/it] 28%|██▊       | 21855/78504 [13:16:48<47:57:07,  3.05s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.3815167248249054, 'learning_rate': 2.4057577172943825e-05, 'epoch': 6.68}
 28%|██▊       | 21855/78504 [13:16:48<47:57:07,  3.05s/it] 28%|██▊       | 21856/78504 [13:16:50<45:11:30,  2.87s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.2192154824733734, 'learning_rate': 2.4057152562523887e-05, 'epoch': 6.68}
 28%|██▊       | 21856/78504 [13:16:50<45:11:30,  2.87s/it] 28%|██▊       | 21857/78504 [13:16:53<42:20:29,  2.69s/it]                                                           {'loss': 0.0489, 'grad_norm': 0.15302202105522156, 'learning_rate': 2.4056727952103946e-05, 'epoch': 6.68}
 28%|██▊       | 21857/78504 [13:16:53<42:20:29,  2.69s/it] 28%|██▊       | 21858/78504 [13:16:55<40:33:32,  2.58s/it]                                                           {'loss': 0.061, 'grad_norm': 0.4030667841434479, 'learning_rate': 2.4056303341684004e-05, 'epoch': 6.68}
 28%|██▊       | 21858/78504 [13:16:55<40:33:32,  2.58s/it] 28%|██▊       | 21859/78504 [13:16:57<38:16:55,  2.43s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.5187489986419678, 'learning_rate': 2.4055878731264066e-05, 'epoch': 6.68}
 28%|██▊       | 21859/78504 [13:16:57<38:16:55,  2.43s/it] 28%|██▊       | 21860/78504 [13:16:59<37:06:52,  2.36s/it]                                                           {'loss': 0.06, 'grad_norm': 0.21951895952224731, 'learning_rate': 2.4055454120844125e-05, 'epoch': 6.68}
 28%|██▊       | 21860/78504 [13:16:59<37:06:52,  2.36s/it] 28%|██▊       | 21861/78504 [13:17:01<36:13:16,  2.30s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.16147589683532715, 'learning_rate': 2.4055029510424187e-05, 'epoch': 6.68}
 28%|██▊       | 21861/78504 [13:17:01<36:13:16,  2.30s/it] 28%|██▊       | 21862/78504 [13:17:03<34:06:27,  2.17s/it]                                                           {'loss': 0.0895, 'grad_norm': 0.8229557275772095, 'learning_rate': 2.4054604900004246e-05, 'epoch': 6.68}
 28%|██▊       | 21862/78504 [13:17:03<34:06:27,  2.17s/it] 28%|██▊       | 21863/78504 [13:17:05<33:12:44,  2.11s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.3693799674510956, 'learning_rate': 2.4054180289584308e-05, 'epoch': 6.68}
 28%|██▊       | 21863/78504 [13:17:05<33:12:44,  2.11s/it] 28%|██▊       | 21864/78504 [13:17:07<32:09:11,  2.04s/it]                                                           {'loss': 0.0901, 'grad_norm': 0.36773839592933655, 'learning_rate': 2.4053755679164367e-05, 'epoch': 6.68}
 28%|██▊       | 21864/78504 [13:17:07<32:09:11,  2.04s/it] 28%|██▊       | 21865/78504 [13:17:09<31:20:09,  1.99s/it]                                                           {'loss': 0.1022, 'grad_norm': 0.35851338505744934, 'learning_rate': 2.405333106874443e-05, 'epoch': 6.68}
 28%|██▊       | 21865/78504 [13:17:09<31:20:09,  1.99s/it] 28%|██▊       | 21866/78504 [13:17:11<30:15:13,  1.92s/it]                                                           {'loss': 0.1198, 'grad_norm': 0.31193965673446655, 'learning_rate': 2.4052906458324487e-05, 'epoch': 6.68}
 28%|██▊       | 21866/78504 [13:17:11<30:15:13,  1.92s/it] 28%|██▊       | 21867/78504 [13:17:12<28:56:27,  1.84s/it]                                                           {'loss': 0.1677, 'grad_norm': 0.5726253390312195, 'learning_rate': 2.405248184790455e-05, 'epoch': 6.69}
 28%|██▊       | 21867/78504 [13:17:12<28:56:27,  1.84s/it] 28%|██▊       | 21868/78504 [13:17:14<27:34:56,  1.75s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.45579859614372253, 'learning_rate': 2.4052057237484608e-05, 'epoch': 6.69}
 28%|██▊       | 21868/78504 [13:17:14<27:34:56,  1.75s/it] 28%|██▊       | 21869/78504 [13:17:15<26:13:49,  1.67s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.7376073598861694, 'learning_rate': 2.405163262706467e-05, 'epoch': 6.69}
 28%|██▊       | 21869/78504 [13:17:15<26:13:49,  1.67s/it] 28%|██▊       | 21870/78504 [13:17:17<25:00:41,  1.59s/it]                                                           {'loss': 0.1383, 'grad_norm': 2.941974639892578, 'learning_rate': 2.405120801664473e-05, 'epoch': 6.69}
 28%|██▊       | 21870/78504 [13:17:17<25:00:41,  1.59s/it] 28%|██▊       | 21871/78504 [13:17:18<23:33:37,  1.50s/it]                                                           {'loss': 0.1647, 'grad_norm': 0.6157527565956116, 'learning_rate': 2.4050783406224788e-05, 'epoch': 6.69}
 28%|██▊       | 21871/78504 [13:17:18<23:33:37,  1.50s/it] 28%|██▊       | 21872/78504 [13:17:19<21:54:12,  1.39s/it]                                                           {'loss': 0.157, 'grad_norm': 1.1522812843322754, 'learning_rate': 2.405035879580485e-05, 'epoch': 6.69}
 28%|██▊       | 21872/78504 [13:17:19<21:54:12,  1.39s/it] 28%|██▊       | 21873/78504 [13:17:20<20:32:12,  1.31s/it]                                                           {'loss': 0.1909, 'grad_norm': 0.7107307314872742, 'learning_rate': 2.404993418538491e-05, 'epoch': 6.69}
 28%|██▊       | 21873/78504 [13:17:20<20:32:12,  1.31s/it] 28%|██▊       | 21874/78504 [13:17:21<19:03:42,  1.21s/it]                                                           {'loss': 0.1621, 'grad_norm': 0.7929272055625916, 'learning_rate': 2.404950957496497e-05, 'epoch': 6.69}
 28%|██▊       | 21874/78504 [13:17:21<19:03:42,  1.21s/it] 28%|██▊       | 21875/78504 [13:17:22<17:44:08,  1.13s/it]                                                           {'loss': 0.1649, 'grad_norm': 0.9361541271209717, 'learning_rate': 2.404908496454503e-05, 'epoch': 6.69}
 28%|██▊       | 21875/78504 [13:17:22<17:44:08,  1.13s/it] 28%|██▊       | 21876/78504 [13:17:23<16:05:05,  1.02s/it]                                                           {'loss': 0.3191, 'grad_norm': 1.317588210105896, 'learning_rate': 2.404866035412509e-05, 'epoch': 6.69}
 28%|██▊       | 21876/78504 [13:17:23<16:05:05,  1.02s/it] 28%|██▊       | 21877/78504 [13:17:32<55:00:49,  3.50s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.4694579243659973, 'learning_rate': 2.404823574370515e-05, 'epoch': 6.69}
 28%|██▊       | 21877/78504 [13:17:32<55:00:49,  3.50s/it] 28%|██▊       | 21878/78504 [13:17:35<53:11:18,  3.38s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.20942877233028412, 'learning_rate': 2.4047811133285212e-05, 'epoch': 6.69}
 28%|██▊       | 21878/78504 [13:17:36<53:11:18,  3.38s/it] 28%|██▊       | 21879/78504 [13:17:38<51:19:06,  3.26s/it]                                                           {'loss': 0.0612, 'grad_norm': 0.1803780198097229, 'learning_rate': 2.404738652286527e-05, 'epoch': 6.69}
 28%|██▊       | 21879/78504 [13:17:38<51:19:06,  3.26s/it] 28%|██▊       | 21880/78504 [13:17:41<48:16:12,  3.07s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.2790502905845642, 'learning_rate': 2.4046961912445333e-05, 'epoch': 6.69}
 28%|██▊       | 21880/78504 [13:17:41<48:16:12,  3.07s/it] 28%|██▊       | 21881/78504 [13:17:44<45:25:53,  2.89s/it]                                                           {'loss': 0.05, 'grad_norm': 0.14913009107112885, 'learning_rate': 2.404653730202539e-05, 'epoch': 6.69}
 28%|██▊       | 21881/78504 [13:17:44<45:25:53,  2.89s/it] 28%|██▊       | 21882/78504 [13:17:46<42:29:04,  2.70s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.6090280413627625, 'learning_rate': 2.4046112691605454e-05, 'epoch': 6.69}
 28%|██▊       | 21882/78504 [13:17:46<42:29:04,  2.70s/it] 28%|██▊       | 21883/78504 [13:17:48<40:44:03,  2.59s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.2813650667667389, 'learning_rate': 2.4045688081185512e-05, 'epoch': 6.69}
 28%|██▊       | 21883/78504 [13:17:48<40:44:03,  2.59s/it] 28%|██▊       | 21884/78504 [13:17:50<38:21:36,  2.44s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.12673963606357574, 'learning_rate': 2.404526347076557e-05, 'epoch': 6.69}
 28%|██▊       | 21884/78504 [13:17:50<38:21:36,  2.44s/it] 28%|██▊       | 21885/78504 [13:17:52<36:25:44,  2.32s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.27891165018081665, 'learning_rate': 2.4044838860345633e-05, 'epoch': 6.69}
 28%|██▊       | 21885/78504 [13:17:52<36:25:44,  2.32s/it] 28%|██▊       | 21886/78504 [13:17:54<35:35:36,  2.26s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.18411973118782043, 'learning_rate': 2.4044414249925692e-05, 'epoch': 6.69}
 28%|██▊       | 21886/78504 [13:17:54<35:35:36,  2.26s/it] 28%|██▊       | 21887/78504 [13:17:56<34:18:24,  2.18s/it]                                                           {'loss': 0.0717, 'grad_norm': 0.23135703802108765, 'learning_rate': 2.4043989639505754e-05, 'epoch': 6.69}
 28%|██▊       | 21887/78504 [13:17:56<34:18:24,  2.18s/it] 28%|██▊       | 21888/78504 [13:17:58<32:31:10,  2.07s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.23994702100753784, 'learning_rate': 2.4043565029085813e-05, 'epoch': 6.69}
 28%|██▊       | 21888/78504 [13:17:58<32:31:10,  2.07s/it] 28%|██▊       | 21889/78504 [13:18:00<31:34:15,  2.01s/it]                                                           {'loss': 0.094, 'grad_norm': 0.6455984115600586, 'learning_rate': 2.4043140418665875e-05, 'epoch': 6.69}
 28%|██▊       | 21889/78504 [13:18:00<31:34:15,  2.01s/it] 28%|██▊       | 21890/78504 [13:18:02<30:45:35,  1.96s/it]                                                           {'loss': 0.1079, 'grad_norm': 0.36362460255622864, 'learning_rate': 2.4042715808245933e-05, 'epoch': 6.69}
 28%|██▊       | 21890/78504 [13:18:02<30:45:35,  1.96s/it] 28%|██▊       | 21891/78504 [13:18:04<29:40:51,  1.89s/it]                                                           {'loss': 0.0996, 'grad_norm': 0.8531476855278015, 'learning_rate': 2.4042291197825996e-05, 'epoch': 6.69}
 28%|██▊       | 21891/78504 [13:18:04<29:40:51,  1.89s/it] 28%|██▊       | 21892/78504 [13:18:05<28:32:51,  1.82s/it]                                                           {'loss': 0.1212, 'grad_norm': 1.6739939451217651, 'learning_rate': 2.4041866587406054e-05, 'epoch': 6.69}
 28%|██▊       | 21892/78504 [13:18:05<28:32:51,  1.82s/it] 28%|██▊       | 21893/78504 [13:18:07<27:14:52,  1.73s/it]                                                           {'loss': 0.1543, 'grad_norm': 1.3884636163711548, 'learning_rate': 2.4041441976986116e-05, 'epoch': 6.69}
 28%|██▊       | 21893/78504 [13:18:07<27:14:52,  1.73s/it] 28%|██▊       | 21894/78504 [13:18:08<25:48:14,  1.64s/it]                                                           {'loss': 0.1722, 'grad_norm': 0.8089674115180969, 'learning_rate': 2.4041017366566175e-05, 'epoch': 6.69}
 28%|██▊       | 21894/78504 [13:18:08<25:48:14,  1.64s/it] 28%|██▊       | 21895/78504 [13:18:10<24:43:16,  1.57s/it]                                                           {'loss': 0.1769, 'grad_norm': 1.182071566581726, 'learning_rate': 2.4040592756146237e-05, 'epoch': 6.69}
 28%|██▊       | 21895/78504 [13:18:10<24:43:16,  1.57s/it] 28%|██▊       | 21896/78504 [13:18:11<23:03:44,  1.47s/it]                                                           {'loss': 0.1591, 'grad_norm': 0.6205013990402222, 'learning_rate': 2.4040168145726296e-05, 'epoch': 6.69}
 28%|██▊       | 21896/78504 [13:18:11<23:03:44,  1.47s/it] 28%|██▊       | 21897/78504 [13:18:12<21:26:07,  1.36s/it]                                                           {'loss': 0.1465, 'grad_norm': 1.4086904525756836, 'learning_rate': 2.4039743535306355e-05, 'epoch': 6.69}
 28%|██▊       | 21897/78504 [13:18:12<21:26:07,  1.36s/it] 28%|██▊       | 21898/78504 [13:18:13<20:09:40,  1.28s/it]                                                           {'loss': 0.2092, 'grad_norm': 0.5664488077163696, 'learning_rate': 2.4039318924886417e-05, 'epoch': 6.69}
 28%|██▊       | 21898/78504 [13:18:13<20:09:40,  1.28s/it] 28%|██▊       | 21899/78504 [13:18:14<18:47:54,  1.20s/it]                                                           {'loss': 0.1728, 'grad_norm': 0.7574003338813782, 'learning_rate': 2.4038894314466475e-05, 'epoch': 6.69}
 28%|██▊       | 21899/78504 [13:18:14<18:47:54,  1.20s/it] 28%|██▊       | 21900/78504 [13:18:15<17:34:34,  1.12s/it]                                                           {'loss': 0.1665, 'grad_norm': 1.613892912864685, 'learning_rate': 2.4038469704046537e-05, 'epoch': 6.7}
 28%|██▊       | 21900/78504 [13:18:15<17:34:34,  1.12s/it] 28%|██▊       | 21901/78504 [13:18:16<15:59:50,  1.02s/it]                                                           {'loss': 0.1954, 'grad_norm': 0.9728577733039856, 'learning_rate': 2.4038045093626596e-05, 'epoch': 6.7}
 28%|██▊       | 21901/78504 [13:18:16<15:59:50,  1.02s/it] 28%|██▊       | 21902/78504 [13:18:22<40:41:46,  2.59s/it]                                                           {'loss': 0.1435, 'grad_norm': 0.6235082149505615, 'learning_rate': 2.4037620483206658e-05, 'epoch': 6.7}
 28%|██▊       | 21902/78504 [13:18:22<40:41:46,  2.59s/it] 28%|██▊       | 21903/78504 [13:18:25<43:16:22,  2.75s/it]                                                           {'loss': 0.0991, 'grad_norm': 0.408829003572464, 'learning_rate': 2.4037195872786717e-05, 'epoch': 6.7}
 28%|██▊       | 21903/78504 [13:18:25<43:16:22,  2.75s/it] 28%|██▊       | 21904/78504 [13:18:28<44:32:42,  2.83s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.16643430292606354, 'learning_rate': 2.403677126236678e-05, 'epoch': 6.7}
 28%|██▊       | 21904/78504 [13:18:28<44:32:42,  2.83s/it] 28%|██▊       | 21905/78504 [13:18:31<43:23:43,  2.76s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.1839747428894043, 'learning_rate': 2.4036346651946838e-05, 'epoch': 6.7}
 28%|██▊       | 21905/78504 [13:18:31<43:23:43,  2.76s/it] 28%|██▊       | 21906/78504 [13:18:33<42:06:59,  2.68s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.18919000029563904, 'learning_rate': 2.40359220415269e-05, 'epoch': 6.7}
 28%|██▊       | 21906/78504 [13:18:33<42:06:59,  2.68s/it] 28%|██▊       | 21907/78504 [13:18:36<40:07:54,  2.55s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.31339192390441895, 'learning_rate': 2.403549743110696e-05, 'epoch': 6.7}
 28%|██▊       | 21907/78504 [13:18:36<40:07:54,  2.55s/it] 28%|██▊       | 21908/78504 [13:18:38<39:02:40,  2.48s/it]                                                           {'loss': 0.0563, 'grad_norm': 0.46282345056533813, 'learning_rate': 2.403507282068702e-05, 'epoch': 6.7}
 28%|██▊       | 21908/78504 [13:18:38<39:02:40,  2.48s/it] 28%|██▊       | 21909/78504 [13:18:40<37:16:14,  2.37s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.30597540736198425, 'learning_rate': 2.403464821026708e-05, 'epoch': 6.7}
 28%|██▊       | 21909/78504 [13:18:40<37:16:14,  2.37s/it] 28%|██▊       | 21910/78504 [13:18:42<36:23:54,  2.32s/it]                                                           {'loss': 0.1051, 'grad_norm': 0.23378053307533264, 'learning_rate': 2.4034223599847138e-05, 'epoch': 6.7}
 28%|██▊       | 21910/78504 [13:18:42<36:23:54,  2.32s/it] 28%|██▊       | 21911/78504 [13:18:44<35:34:56,  2.26s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.3712295591831207, 'learning_rate': 2.40337989894272e-05, 'epoch': 6.7}
 28%|██▊       | 21911/78504 [13:18:44<35:34:56,  2.26s/it] 28%|██▊       | 21912/78504 [13:18:46<34:26:02,  2.19s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.4985766112804413, 'learning_rate': 2.403337437900726e-05, 'epoch': 6.7}
 28%|██▊       | 21912/78504 [13:18:46<34:26:02,  2.19s/it] 28%|██▊       | 21913/78504 [13:18:48<33:27:06,  2.13s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.3408149480819702, 'learning_rate': 2.403294976858732e-05, 'epoch': 6.7}
 28%|██▊       | 21913/78504 [13:18:48<33:27:06,  2.13s/it] 28%|██▊       | 21914/78504 [13:18:50<32:11:59,  2.05s/it]                                                           {'loss': 0.068, 'grad_norm': 0.4229801893234253, 'learning_rate': 2.403252515816738e-05, 'epoch': 6.7}
 28%|██▊       | 21914/78504 [13:18:50<32:11:59,  2.05s/it] 28%|██▊       | 21915/78504 [13:18:52<31:22:06,  2.00s/it]                                                           {'loss': 0.1263, 'grad_norm': 0.40228286385536194, 'learning_rate': 2.403210054774744e-05, 'epoch': 6.7}
 28%|██▊       | 21915/78504 [13:18:52<31:22:06,  2.00s/it] 28%|██▊       | 21916/78504 [13:18:54<30:16:29,  1.93s/it]                                                           {'loss': 0.112, 'grad_norm': 0.6283367276191711, 'learning_rate': 2.40316759373275e-05, 'epoch': 6.7}
 28%|██▊       | 21916/78504 [13:18:54<30:16:29,  1.93s/it] 28%|██▊       | 21917/78504 [13:18:55<29:00:41,  1.85s/it]                                                           {'loss': 0.1232, 'grad_norm': 0.5225504040718079, 'learning_rate': 2.4031251326907562e-05, 'epoch': 6.7}
 28%|██▊       | 21917/78504 [13:18:55<29:00:41,  1.85s/it] 28%|██▊       | 21918/78504 [13:18:57<27:34:54,  1.75s/it]                                                           {'loss': 0.1358, 'grad_norm': 2.6431403160095215, 'learning_rate': 2.403082671648762e-05, 'epoch': 6.7}
 28%|██▊       | 21918/78504 [13:18:57<27:34:54,  1.75s/it] 28%|██▊       | 21919/78504 [13:18:58<26:17:57,  1.67s/it]                                                           {'loss': 0.1161, 'grad_norm': 0.8832088112831116, 'learning_rate': 2.4030402106067683e-05, 'epoch': 6.7}
 28%|██▊       | 21919/78504 [13:18:59<26:17:57,  1.67s/it] 28%|██▊       | 21920/78504 [13:19:00<25:01:32,  1.59s/it]                                                           {'loss': 0.137, 'grad_norm': 1.104292869567871, 'learning_rate': 2.4029977495647745e-05, 'epoch': 6.7}
 28%|██▊       | 21920/78504 [13:19:00<25:01:32,  1.59s/it] 28%|██▊       | 21921/78504 [13:19:01<23:33:44,  1.50s/it]                                                           {'loss': 0.1723, 'grad_norm': 0.6418956518173218, 'learning_rate': 2.4029552885227807e-05, 'epoch': 6.7}
 28%|██▊       | 21921/78504 [13:19:01<23:33:44,  1.50s/it] 28%|██▊       | 21922/78504 [13:19:02<21:55:09,  1.39s/it]                                                           {'loss': 0.1904, 'grad_norm': 0.7084742188453674, 'learning_rate': 2.4029128274807866e-05, 'epoch': 6.7}
 28%|██▊       | 21922/78504 [13:19:02<21:55:09,  1.39s/it] 28%|██▊       | 21923/78504 [13:19:03<20:34:32,  1.31s/it]                                                           {'loss': 0.1558, 'grad_norm': 0.8131171464920044, 'learning_rate': 2.4028703664387925e-05, 'epoch': 6.7}
 28%|██▊       | 21923/78504 [13:19:03<20:34:32,  1.31s/it] 28%|██▊       | 21924/78504 [13:19:04<19:05:08,  1.21s/it]                                                           {'loss': 0.2141, 'grad_norm': 2.9835739135742188, 'learning_rate': 2.4028279053967987e-05, 'epoch': 6.7}
 28%|██▊       | 21924/78504 [13:19:04<19:05:08,  1.21s/it] 28%|██▊       | 21925/78504 [13:19:05<17:46:49,  1.13s/it]                                                           {'loss': 0.1979, 'grad_norm': 0.9444133043289185, 'learning_rate': 2.4027854443548046e-05, 'epoch': 6.7}
 28%|██▊       | 21925/78504 [13:19:05<17:46:49,  1.13s/it] 28%|██▊       | 21926/78504 [13:19:06<16:07:19,  1.03s/it]                                                           {'loss': 0.1911, 'grad_norm': 0.8586975336074829, 'learning_rate': 2.4027429833128108e-05, 'epoch': 6.7}
 28%|██▊       | 21926/78504 [13:19:06<16:07:19,  1.03s/it] 28%|██▊       | 21927/78504 [13:19:15<53:04:45,  3.38s/it]                                                           {'loss': 0.1596, 'grad_norm': 1.3980692625045776, 'learning_rate': 2.4027005222708166e-05, 'epoch': 6.7}
 28%|██▊       | 21927/78504 [13:19:15<53:04:45,  3.38s/it] 28%|██▊       | 21928/78504 [13:19:18<51:55:08,  3.30s/it]                                                           {'loss': 0.094, 'grad_norm': 0.39599424600601196, 'learning_rate': 2.402658061228823e-05, 'epoch': 6.7}
 28%|██▊       | 21928/78504 [13:19:18<51:55:08,  3.30s/it] 28%|██▊       | 21929/78504 [13:19:21<50:09:31,  3.19s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.32087981700897217, 'learning_rate': 2.4026156001868287e-05, 'epoch': 6.7}
 28%|██▊       | 21929/78504 [13:19:21<50:09:31,  3.19s/it] 28%|██▊       | 21930/78504 [13:19:24<47:14:21,  3.01s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.4590475559234619, 'learning_rate': 2.402573139144835e-05, 'epoch': 6.7}
 28%|██▊       | 21930/78504 [13:19:24<47:14:21,  3.01s/it] 28%|██▊       | 21931/78504 [13:19:26<44:49:27,  2.85s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.24423855543136597, 'learning_rate': 2.4025306781028408e-05, 'epoch': 6.7}
 28%|██▊       | 21931/78504 [13:19:26<44:49:27,  2.85s/it] 28%|██▊       | 21932/78504 [13:19:29<42:55:51,  2.73s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.13489428162574768, 'learning_rate': 2.402488217060847e-05, 'epoch': 6.7}
 28%|██▊       | 21932/78504 [13:19:29<42:55:51,  2.73s/it] 28%|██▊       | 21933/78504 [13:19:31<41:01:43,  2.61s/it]                                                           {'loss': 0.0768, 'grad_norm': 0.30189892649650574, 'learning_rate': 2.402445756018853e-05, 'epoch': 6.71}
 28%|██▊       | 21933/78504 [13:19:31<41:01:43,  2.61s/it] 28%|██▊       | 21934/78504 [13:19:33<39:34:40,  2.52s/it]                                                           {'loss': 0.0773, 'grad_norm': 0.3413833975791931, 'learning_rate': 2.402403294976859e-05, 'epoch': 6.71}
 28%|██▊       | 21934/78504 [13:19:33<39:34:40,  2.52s/it] 28%|██▊       | 21935/78504 [13:19:35<38:01:36,  2.42s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.31056466698646545, 'learning_rate': 2.402360833934865e-05, 'epoch': 6.71}
 28%|██▊       | 21935/78504 [13:19:35<38:01:36,  2.42s/it] 28%|██▊       | 21936/78504 [13:19:38<36:50:30,  2.34s/it]                                                           {'loss': 0.0876, 'grad_norm': 0.24053989350795746, 'learning_rate': 2.4023183728928708e-05, 'epoch': 6.71}
 28%|██▊       | 21936/78504 [13:19:38<36:50:30,  2.34s/it] 28%|██▊       | 21937/78504 [13:19:39<34:31:18,  2.20s/it]                                                           {'loss': 0.084, 'grad_norm': 0.2405046671628952, 'learning_rate': 2.402275911850877e-05, 'epoch': 6.71}
 28%|██▊       | 21937/78504 [13:19:39<34:31:18,  2.20s/it] 28%|██▊       | 21938/78504 [13:19:41<33:30:37,  2.13s/it]                                                           {'loss': 0.0811, 'grad_norm': 0.22709541022777557, 'learning_rate': 2.402233450808883e-05, 'epoch': 6.71}
 28%|██▊       | 21938/78504 [13:19:41<33:30:37,  2.13s/it] 28%|██▊       | 21939/78504 [13:19:43<32:31:19,  2.07s/it]                                                           {'loss': 0.0661, 'grad_norm': 0.3464573621749878, 'learning_rate': 2.402190989766889e-05, 'epoch': 6.71}
 28%|██▊       | 21939/78504 [13:19:43<32:31:19,  2.07s/it] 28%|██▊       | 21940/78504 [13:19:45<31:29:42,  2.00s/it]                                                           {'loss': 0.1043, 'grad_norm': 0.30401545763015747, 'learning_rate': 2.402148528724895e-05, 'epoch': 6.71}
 28%|██▊       | 21940/78504 [13:19:45<31:29:42,  2.00s/it] 28%|██▊       | 21941/78504 [13:19:47<30:22:07,  1.93s/it]                                                           {'loss': 0.1399, 'grad_norm': 0.41404590010643005, 'learning_rate': 2.4021060676829012e-05, 'epoch': 6.71}
 28%|██▊       | 21941/78504 [13:19:47<30:22:07,  1.93s/it] 28%|██▊       | 21942/78504 [13:19:49<28:42:48,  1.83s/it]                                                           {'loss': 0.1736, 'grad_norm': 0.5611311197280884, 'learning_rate': 2.402063606640907e-05, 'epoch': 6.71}
 28%|██▊       | 21942/78504 [13:19:49<28:42:48,  1.83s/it] 28%|██▊       | 21943/78504 [13:19:50<27:22:41,  1.74s/it]                                                           {'loss': 0.1441, 'grad_norm': 0.45839402079582214, 'learning_rate': 2.4020211455989133e-05, 'epoch': 6.71}
 28%|██▊       | 21943/78504 [13:19:50<27:22:41,  1.74s/it] 28%|██▊       | 21944/78504 [13:19:52<26:02:37,  1.66s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.5154041051864624, 'learning_rate': 2.401978684556919e-05, 'epoch': 6.71}
 28%|██▊       | 21944/78504 [13:19:52<26:02:37,  1.66s/it] 28%|██▊       | 21945/78504 [13:19:53<24:48:03,  1.58s/it]                                                           {'loss': 0.1687, 'grad_norm': 0.36520662903785706, 'learning_rate': 2.4019362235149253e-05, 'epoch': 6.71}
 28%|██▊       | 21945/78504 [13:19:53<24:48:03,  1.58s/it] 28%|██▊       | 21946/78504 [13:19:54<23:25:48,  1.49s/it]                                                           {'loss': 0.212, 'grad_norm': 1.1324902772903442, 'learning_rate': 2.4018937624729312e-05, 'epoch': 6.71}
 28%|██▊       | 21946/78504 [13:19:54<23:25:48,  1.49s/it] 28%|██▊       | 21947/78504 [13:19:55<21:49:57,  1.39s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.6549566388130188, 'learning_rate': 2.4018513014309374e-05, 'epoch': 6.71}
 28%|██▊       | 21947/78504 [13:19:55<21:49:57,  1.39s/it] 28%|██▊       | 21948/78504 [13:19:56<20:26:16,  1.30s/it]                                                           {'loss': 0.1655, 'grad_norm': 0.7213472723960876, 'learning_rate': 2.4018088403889433e-05, 'epoch': 6.71}
 28%|██▊       | 21948/78504 [13:19:56<20:26:16,  1.30s/it] 28%|██▊       | 21949/78504 [13:19:58<19:16:00,  1.23s/it]                                                           {'loss': 0.1757, 'grad_norm': 1.1576792001724243, 'learning_rate': 2.401766379346949e-05, 'epoch': 6.71}
 28%|██▊       | 21949/78504 [13:19:58<19:16:00,  1.23s/it] 28%|██▊       | 21950/78504 [13:19:58<17:50:23,  1.14s/it]                                                           {'loss': 0.2087, 'grad_norm': nan, 'learning_rate': 2.401766379346949e-05, 'epoch': 6.71}
 28%|██▊       | 21950/78504 [13:19:58<17:50:23,  1.14s/it] 28%|██▊       | 21951/78504 [13:19:59<16:05:58,  1.02s/it]                                                           {'loss': 0.1924, 'grad_norm': 0.6904534101486206, 'learning_rate': 2.4017239183049554e-05, 'epoch': 6.71}
 28%|██▊       | 21951/78504 [13:19:59<16:05:58,  1.02s/it] 28%|██▊       | 21952/78504 [13:20:07<50:07:19,  3.19s/it]                                                           {'loss': 0.1448, 'grad_norm': 0.33691805601119995, 'learning_rate': 2.4016814572629612e-05, 'epoch': 6.71}
 28%|██▊       | 21952/78504 [13:20:07<50:07:19,  3.19s/it] 28%|██▊       | 21953/78504 [13:20:11<49:40:09,  3.16s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.38677871227264404, 'learning_rate': 2.4016389962209674e-05, 'epoch': 6.71}
 28%|██▊       | 21953/78504 [13:20:11<49:40:09,  3.16s/it] 28%|██▊       | 21954/78504 [13:20:14<48:56:04,  3.12s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.25880950689315796, 'learning_rate': 2.4015965351789733e-05, 'epoch': 6.71}
 28%|██▊       | 21954/78504 [13:20:14<48:56:04,  3.12s/it] 28%|██▊       | 21955/78504 [13:20:16<46:33:46,  2.96s/it]                                                           {'loss': 0.0725, 'grad_norm': 0.22804765403270721, 'learning_rate': 2.4015540741369795e-05, 'epoch': 6.71}
 28%|██▊       | 21955/78504 [13:20:16<46:33:46,  2.96s/it] 28%|██▊       | 21956/78504 [13:20:19<43:40:03,  2.78s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.14330996572971344, 'learning_rate': 2.4015116130949854e-05, 'epoch': 6.71}
 28%|██▊       | 21956/78504 [13:20:19<43:40:03,  2.78s/it] 28%|██▊       | 21957/78504 [13:20:21<41:12:23,  2.62s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.450147807598114, 'learning_rate': 2.4014691520529916e-05, 'epoch': 6.71}
 28%|██▊       | 21957/78504 [13:20:21<41:12:23,  2.62s/it] 28%|██▊       | 21958/78504 [13:20:23<39:47:13,  2.53s/it]                                                           {'loss': 0.0336, 'grad_norm': 0.2138645350933075, 'learning_rate': 2.4014266910109975e-05, 'epoch': 6.71}
 28%|██▊       | 21958/78504 [13:20:23<39:47:13,  2.53s/it] 28%|██▊       | 21959/78504 [13:20:25<37:39:38,  2.40s/it]                                                           {'loss': 0.0441, 'grad_norm': 0.181799054145813, 'learning_rate': 2.4013842299690037e-05, 'epoch': 6.71}
 28%|██▊       | 21959/78504 [13:20:25<37:39:38,  2.40s/it] 28%|██▊       | 21960/78504 [13:20:27<35:55:12,  2.29s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.2695091962814331, 'learning_rate': 2.4013417689270096e-05, 'epoch': 6.71}
 28%|██▊       | 21960/78504 [13:20:27<35:55:12,  2.29s/it] 28%|██▊       | 21961/78504 [13:20:29<35:10:52,  2.24s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.2523859143257141, 'learning_rate': 2.4012993078850154e-05, 'epoch': 6.71}
 28%|██▊       | 21961/78504 [13:20:29<35:10:52,  2.24s/it] 28%|██▊       | 21962/78504 [13:20:31<34:11:06,  2.18s/it]                                                           {'loss': 0.0922, 'grad_norm': 0.30852559208869934, 'learning_rate': 2.4012568468430216e-05, 'epoch': 6.71}
 28%|██▊       | 21962/78504 [13:20:31<34:11:06,  2.18s/it] 28%|██▊       | 21963/78504 [13:20:33<33:15:35,  2.12s/it]                                                           {'loss': 0.0703, 'grad_norm': 0.2554326355457306, 'learning_rate': 2.4012143858010275e-05, 'epoch': 6.71}
 28%|██▊       | 21963/78504 [13:20:33<33:15:35,  2.12s/it] 28%|██▊       | 21964/78504 [13:20:35<32:02:41,  2.04s/it]                                                           {'loss': 0.1311, 'grad_norm': 0.37584686279296875, 'learning_rate': 2.4011719247590337e-05, 'epoch': 6.71}
 28%|██▊       | 21964/78504 [13:20:35<32:02:41,  2.04s/it] 28%|██▊       | 21965/78504 [13:20:37<30:31:46,  1.94s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.5567603707313538, 'learning_rate': 2.4011294637170396e-05, 'epoch': 6.72}
 28%|██▊       | 21965/78504 [13:20:37<30:31:46,  1.94s/it] 28%|██▊       | 21966/78504 [13:20:39<29:42:41,  1.89s/it]                                                           {'loss': 0.1577, 'grad_norm': 0.5890644788742065, 'learning_rate': 2.4010870026750458e-05, 'epoch': 6.72}
 28%|██▊       | 21966/78504 [13:20:39<29:42:41,  1.89s/it] 28%|██▊       | 21967/78504 [13:20:40<28:30:47,  1.82s/it]                                                           {'loss': 0.1754, 'grad_norm': 0.2942119538784027, 'learning_rate': 2.4010445416330517e-05, 'epoch': 6.72}
 28%|██▊       | 21967/78504 [13:20:40<28:30:47,  1.82s/it] 28%|██▊       | 21968/78504 [13:20:42<27:05:40,  1.73s/it]                                                           {'loss': 0.1585, 'grad_norm': 0.8637819886207581, 'learning_rate': 2.401002080591058e-05, 'epoch': 6.72}
 28%|██▊       | 21968/78504 [13:20:42<27:05:40,  1.73s/it] 28%|██▊       | 21969/78504 [13:20:43<25:42:11,  1.64s/it]                                                           {'loss': 0.1808, 'grad_norm': 0.5321954488754272, 'learning_rate': 2.4009596195490637e-05, 'epoch': 6.72}
 28%|██▊       | 21969/78504 [13:20:43<25:42:11,  1.64s/it] 28%|██▊       | 21970/78504 [13:20:45<24:38:35,  1.57s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.5478083491325378, 'learning_rate': 2.40091715850707e-05, 'epoch': 6.72}
 28%|██▊       | 21970/78504 [13:20:45<24:38:35,  1.57s/it] 28%|██▊       | 21971/78504 [13:20:46<22:59:14,  1.46s/it]                                                           {'loss': 0.1648, 'grad_norm': 0.39137616753578186, 'learning_rate': 2.4008746974650758e-05, 'epoch': 6.72}
 28%|██▊       | 21971/78504 [13:20:46<22:59:14,  1.46s/it] 28%|██▊       | 21972/78504 [13:20:47<21:29:51,  1.37s/it]                                                           {'loss': 0.1721, 'grad_norm': 0.9547986388206482, 'learning_rate': 2.400832236423082e-05, 'epoch': 6.72}
 28%|██▊       | 21972/78504 [13:20:47<21:29:51,  1.37s/it] 28%|██▊       | 21973/78504 [13:20:48<20:14:58,  1.29s/it]                                                           {'loss': 0.1504, 'grad_norm': 0.4797540009021759, 'learning_rate': 2.400789775381088e-05, 'epoch': 6.72}
 28%|██▊       | 21973/78504 [13:20:48<20:14:58,  1.29s/it] 28%|██▊       | 21974/78504 [13:20:49<18:50:48,  1.20s/it]                                                           {'loss': 0.2277, 'grad_norm': 0.679997444152832, 'learning_rate': 2.4007473143390938e-05, 'epoch': 6.72}
 28%|██▊       | 21974/78504 [13:20:49<18:50:48,  1.20s/it] 28%|██▊       | 21975/78504 [13:20:50<17:34:30,  1.12s/it]                                                           {'loss': 0.1977, 'grad_norm': 0.9945102334022522, 'learning_rate': 2.4007048532971e-05, 'epoch': 6.72}
 28%|██▊       | 21975/78504 [13:20:50<17:34:30,  1.12s/it] 28%|██▊       | 21976/78504 [13:20:51<15:58:42,  1.02s/it]                                                           {'loss': 0.2104, 'grad_norm': 0.9385262727737427, 'learning_rate': 2.400662392255106e-05, 'epoch': 6.72}
 28%|██▊       | 21976/78504 [13:20:51<15:58:42,  1.02s/it] 28%|██▊       | 21977/78504 [13:21:01<61:08:17,  3.89s/it]                                                           {'loss': 0.1253, 'grad_norm': 0.2917172312736511, 'learning_rate': 2.400619931213112e-05, 'epoch': 6.72}
 28%|██▊       | 21977/78504 [13:21:01<61:08:17,  3.89s/it] 28%|██▊       | 21978/78504 [13:21:05<57:31:55,  3.66s/it]                                                           {'loss': 0.07, 'grad_norm': 0.5217665433883667, 'learning_rate': 2.400577470171118e-05, 'epoch': 6.72}
 28%|██▊       | 21978/78504 [13:21:05<57:31:55,  3.66s/it] 28%|██▊       | 21979/78504 [13:21:08<54:27:59,  3.47s/it]                                                           {'loss': 0.0525, 'grad_norm': 0.1605129987001419, 'learning_rate': 2.400535009129124e-05, 'epoch': 6.72}
 28%|██▊       | 21979/78504 [13:21:08<54:27:59,  3.47s/it] 28%|██▊       | 21980/78504 [13:21:10<50:25:43,  3.21s/it]                                                           {'loss': 0.0838, 'grad_norm': 0.20502214133739471, 'learning_rate': 2.40049254808713e-05, 'epoch': 6.72}
 28%|██▊       | 21980/78504 [13:21:10<50:25:43,  3.21s/it] 28%|██▊       | 21981/78504 [13:21:13<46:54:57,  2.99s/it]                                                           {'loss': 0.06, 'grad_norm': 0.2536808252334595, 'learning_rate': 2.4004500870451362e-05, 'epoch': 6.72}
 28%|██▊       | 21981/78504 [13:21:13<46:54:57,  2.99s/it] 28%|██▊       | 21982/78504 [13:21:15<43:29:36,  2.77s/it]                                                           {'loss': 0.0844, 'grad_norm': 0.2720838785171509, 'learning_rate': 2.400407626003142e-05, 'epoch': 6.72}
 28%|██▊       | 21982/78504 [13:21:15<43:29:36,  2.77s/it] 28%|██▊       | 21983/78504 [13:21:17<41:24:41,  2.64s/it]                                                           {'loss': 0.0718, 'grad_norm': 0.6003649234771729, 'learning_rate': 2.4003651649611483e-05, 'epoch': 6.72}
 28%|██▊       | 21983/78504 [13:21:17<41:24:41,  2.64s/it] 28%|██▊       | 21984/78504 [13:21:19<38:47:27,  2.47s/it]                                                           {'loss': 0.057, 'grad_norm': 0.33081555366516113, 'learning_rate': 2.400322703919154e-05, 'epoch': 6.72}
 28%|██▊       | 21984/78504 [13:21:19<38:47:27,  2.47s/it] 28%|██▊       | 21985/78504 [13:21:21<36:43:19,  2.34s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.4012954831123352, 'learning_rate': 2.4002802428771604e-05, 'epoch': 6.72}
 28%|██▊       | 21985/78504 [13:21:21<36:43:19,  2.34s/it] 28%|██▊       | 21986/78504 [13:21:24<35:45:51,  2.28s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.2759213447570801, 'learning_rate': 2.4002377818351662e-05, 'epoch': 6.72}
 28%|██▊       | 21986/78504 [13:21:24<35:45:51,  2.28s/it] 28%|██▊       | 21987/78504 [13:21:26<34:20:57,  2.19s/it]                                                           {'loss': 0.0715, 'grad_norm': 0.928045392036438, 'learning_rate': 2.400195320793172e-05, 'epoch': 6.72}
 28%|██▊       | 21987/78504 [13:21:26<34:20:57,  2.19s/it] 28%|██▊       | 21988/78504 [13:21:27<33:07:41,  2.11s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.34352660179138184, 'learning_rate': 2.4001528597511783e-05, 'epoch': 6.72}
 28%|██▊       | 21988/78504 [13:21:27<33:07:41,  2.11s/it] 28%|██▊       | 21989/78504 [13:21:29<32:00:18,  2.04s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.22159846127033234, 'learning_rate': 2.4001103987091842e-05, 'epoch': 6.72}
 28%|██▊       | 21989/78504 [13:21:29<32:00:18,  2.04s/it] 28%|██▊       | 21990/78504 [13:21:31<31:02:05,  1.98s/it]                                                           {'loss': 0.1223, 'grad_norm': 0.3065022826194763, 'learning_rate': 2.4000679376671904e-05, 'epoch': 6.72}
 28%|██▊       | 21990/78504 [13:21:31<31:02:05,  1.98s/it] 28%|██▊       | 21991/78504 [13:21:33<30:07:19,  1.92s/it]                                                           {'loss': 0.1252, 'grad_norm': 0.5063134431838989, 'learning_rate': 2.4000254766251963e-05, 'epoch': 6.72}
 28%|██▊       | 21991/78504 [13:21:33<30:07:19,  1.92s/it] 28%|██▊       | 21992/78504 [13:21:35<28:46:33,  1.83s/it]                                                           {'loss': 0.1101, 'grad_norm': 0.26812851428985596, 'learning_rate': 2.3999830155832025e-05, 'epoch': 6.72}
 28%|██▊       | 21992/78504 [13:21:35<28:46:33,  1.83s/it] 28%|██▊       | 21993/78504 [13:21:36<27:15:49,  1.74s/it]                                                           {'loss': 0.1379, 'grad_norm': 0.3818185031414032, 'learning_rate': 2.3999405545412083e-05, 'epoch': 6.72}
 28%|██▊       | 21993/78504 [13:21:36<27:15:49,  1.74s/it] 28%|██▊       | 21994/78504 [13:21:38<25:50:19,  1.65s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.684481680393219, 'learning_rate': 2.3998980934992146e-05, 'epoch': 6.72}
 28%|██▊       | 21994/78504 [13:21:38<25:50:19,  1.65s/it] 28%|██▊       | 21995/78504 [13:21:39<24:43:55,  1.58s/it]                                                           {'loss': 0.1724, 'grad_norm': 0.6985824108123779, 'learning_rate': 2.3998556324572204e-05, 'epoch': 6.72}
 28%|██▊       | 21995/78504 [13:21:39<24:43:55,  1.58s/it] 28%|██▊       | 21996/78504 [13:21:40<23:03:45,  1.47s/it]                                                           {'loss': 0.1666, 'grad_norm': 0.8153463006019592, 'learning_rate': 2.3998131714152266e-05, 'epoch': 6.72}
 28%|██▊       | 21996/78504 [13:21:40<23:03:45,  1.47s/it] 28%|██▊       | 21997/78504 [13:21:41<21:25:58,  1.37s/it]                                                           {'loss': 0.1555, 'grad_norm': 0.569279670715332, 'learning_rate': 2.3997707103732325e-05, 'epoch': 6.72}
 28%|██▊       | 21997/78504 [13:21:41<21:25:58,  1.37s/it] 28%|██▊       | 21998/78504 [13:21:42<20:08:42,  1.28s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.6187518835067749, 'learning_rate': 2.3997282493312387e-05, 'epoch': 6.73}
 28%|██▊       | 21998/78504 [13:21:42<20:08:42,  1.28s/it] 28%|██▊       | 21999/78504 [13:21:43<18:48:06,  1.20s/it]                                                           {'loss': 0.1729, 'grad_norm': 0.544073760509491, 'learning_rate': 2.3996857882892446e-05, 'epoch': 6.73}
 28%|██▊       | 21999/78504 [13:21:43<18:48:06,  1.20s/it] 28%|██▊       | 22000/78504 [13:21:44<17:33:42,  1.12s/it]                                                           {'loss': 0.159, 'grad_norm': 1.339949369430542, 'learning_rate': 2.3996433272472505e-05, 'epoch': 6.73}
 28%|██▊       | 22000/78504 [13:21:44<17:33:42,  1.12s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  5.30it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.52it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.62it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.81it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.12it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.58it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.49it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.75it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.10it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.46it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.64it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.93it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.33it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                           
                                               [A{'eval_loss': 0.23102498054504395, 'eval_wer': 0.3243205497053155, 'eval_cer': 0.1872879229266909, 'eval_runtime': 19.4266, 'eval_samples_per_second': 233.597, 'eval_steps_per_second': 0.772, 'epoch': 6.73}
 28%|██▊       | 22000/78504 [13:22:49<17:33:42,  1.12s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-22000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-21000] due to args.save_total_limit
 28%|██▊       | 22001/78504 [13:23:05<392:43:47, 25.02s/it]                                                            {'loss': 0.2281, 'grad_norm': 1.2415074110031128, 'learning_rate': 2.3996008662052567e-05, 'epoch': 6.73}
 28%|██▊       | 22001/78504 [13:23:05<392:43:47, 25.02s/it] 28%|██▊       | 22002/78504 [13:23:13<311:59:38, 19.88s/it]                                                            {'loss': 0.1484, 'grad_norm': 0.4775652289390564, 'learning_rate': 2.3995584051632625e-05, 'epoch': 6.73}
 28%|██▊       | 22002/78504 [13:23:13<311:59:38, 19.88s/it] 28%|██▊       | 22003/78504 [13:23:16<233:37:02, 14.89s/it]                                                            {'loss': 0.07, 'grad_norm': 1.5133097171783447, 'learning_rate': 2.3995159441212687e-05, 'epoch': 6.73}
 28%|██▊       | 22003/78504 [13:23:16<233:37:02, 14.89s/it] 28%|██▊       | 22004/78504 [13:23:19<177:27:55, 11.31s/it]                                                            {'loss': 0.0605, 'grad_norm': 0.18260619044303894, 'learning_rate': 2.3994734830792746e-05, 'epoch': 6.73}
 28%|██▊       | 22004/78504 [13:23:19<177:27:55, 11.31s/it] 28%|██▊       | 22005/78504 [13:23:22<136:25:59,  8.69s/it]                                                            {'loss': 0.0542, 'grad_norm': 0.1623542755842209, 'learning_rate': 2.3994310220372808e-05, 'epoch': 6.73}
 28%|██▊       | 22005/78504 [13:23:22<136:25:59,  8.69s/it] 28%|██▊       | 22006/78504 [13:23:24<107:05:32,  6.82s/it]                                                            {'loss': 0.0638, 'grad_norm': 0.41701072454452515, 'learning_rate': 2.3993885609952867e-05, 'epoch': 6.73}
 28%|██▊       | 22006/78504 [13:23:24<107:05:32,  6.82s/it] 28%|██▊       | 22007/78504 [13:23:26<85:34:33,  5.45s/it]                                                            {'loss': 0.0499, 'grad_norm': 0.16947892308235168, 'learning_rate': 2.399346099953293e-05, 'epoch': 6.73}
 28%|██▊       | 22007/78504 [13:23:26<85:34:33,  5.45s/it] 28%|██▊       | 22008/78504 [13:23:29<70:44:02,  4.51s/it]                                                           {'loss': 0.0745, 'grad_norm': 0.44637343287467957, 'learning_rate': 2.3993036389112988e-05, 'epoch': 6.73}
 28%|██▊       | 22008/78504 [13:23:29<70:44:02,  4.51s/it] 28%|██▊       | 22009/78504 [13:23:31<59:20:01,  3.78s/it]                                                           {'loss': 0.074, 'grad_norm': 0.2224861979484558, 'learning_rate': 2.399261177869305e-05, 'epoch': 6.73}
 28%|██▊       | 22009/78504 [13:23:31<59:20:01,  3.78s/it] 28%|██▊       | 22010/78504 [13:23:33<51:50:48,  3.30s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.2776935398578644, 'learning_rate': 2.399218716827311e-05, 'epoch': 6.73}
 28%|██▊       | 22010/78504 [13:23:33<51:50:48,  3.30s/it] 28%|██▊       | 22011/78504 [13:23:35<46:19:40,  2.95s/it]                                                           {'loss': 0.0716, 'grad_norm': 0.3001580536365509, 'learning_rate': 2.399176255785317e-05, 'epoch': 6.73}
 28%|██▊       | 22011/78504 [13:23:35<46:19:40,  2.95s/it] 28%|██▊       | 22012/78504 [13:23:37<41:42:03,  2.66s/it]                                                           {'loss': 0.1077, 'grad_norm': 0.591814398765564, 'learning_rate': 2.399133794743323e-05, 'epoch': 6.73}
 28%|██▊       | 22012/78504 [13:23:37<41:42:03,  2.66s/it] 28%|██▊       | 22013/78504 [13:23:39<38:12:53,  2.44s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.6155014634132385, 'learning_rate': 2.3990913337013288e-05, 'epoch': 6.73}
 28%|██▊       | 22013/78504 [13:23:39<38:12:53,  2.44s/it] 28%|██▊       | 22014/78504 [13:23:41<35:32:43,  2.27s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.44223490357398987, 'learning_rate': 2.399048872659335e-05, 'epoch': 6.73}
 28%|██▊       | 22014/78504 [13:23:41<35:32:43,  2.27s/it] 28%|██▊       | 22015/78504 [13:23:43<32:42:02,  2.08s/it]                                                           {'loss': 0.1052, 'grad_norm': 0.6856004595756531, 'learning_rate': 2.399006411617341e-05, 'epoch': 6.73}
 28%|██▊       | 22015/78504 [13:23:43<32:42:02,  2.08s/it] 28%|██▊       | 22016/78504 [13:23:44<31:14:38,  1.99s/it]                                                           {'loss': 0.1476, 'grad_norm': 0.408417284488678, 'learning_rate': 2.398963950575347e-05, 'epoch': 6.73}
 28%|██▊       | 22016/78504 [13:23:44<31:14:38,  1.99s/it] 28%|██▊       | 22017/78504 [13:23:46<29:34:37,  1.88s/it]                                                           {'loss': 0.1275, 'grad_norm': 0.39184409379959106, 'learning_rate': 2.398921489533353e-05, 'epoch': 6.73}
 28%|██▊       | 22017/78504 [13:23:46<29:34:37,  1.88s/it] 28%|██▊       | 22018/78504 [13:23:48<27:49:28,  1.77s/it]                                                           {'loss': 0.1298, 'grad_norm': 0.38065800070762634, 'learning_rate': 2.398879028491359e-05, 'epoch': 6.73}
 28%|██▊       | 22018/78504 [13:23:48<27:49:28,  1.77s/it] 28%|██▊       | 22019/78504 [13:23:49<26:14:20,  1.67s/it]                                                           {'loss': 0.1753, 'grad_norm': 0.645467221736908, 'learning_rate': 2.398836567449365e-05, 'epoch': 6.73}
 28%|██▊       | 22019/78504 [13:23:49<26:14:20,  1.67s/it] 28%|██▊       | 22020/78504 [13:23:50<25:02:32,  1.60s/it]                                                           {'loss': 0.1779, 'grad_norm': 0.38796466588974, 'learning_rate': 2.3987941064073712e-05, 'epoch': 6.73}
 28%|██▊       | 22020/78504 [13:23:50<25:02:32,  1.60s/it] 28%|██▊       | 22021/78504 [13:23:52<23:16:45,  1.48s/it]                                                           {'loss': 0.1989, 'grad_norm': 1.6639348268508911, 'learning_rate': 2.398751645365377e-05, 'epoch': 6.73}
 28%|██▊       | 22021/78504 [13:23:52<23:16:45,  1.48s/it] 28%|██▊       | 22022/78504 [13:23:53<21:35:03,  1.38s/it]                                                           {'loss': 0.1742, 'grad_norm': 0.9327749013900757, 'learning_rate': 2.3987091843233833e-05, 'epoch': 6.73}
 28%|██▊       | 22022/78504 [13:23:53<21:35:03,  1.38s/it] 28%|██▊       | 22023/78504 [13:23:54<20:14:35,  1.29s/it]                                                           {'loss': 0.1522, 'grad_norm': 0.8240117430686951, 'learning_rate': 2.3986667232813895e-05, 'epoch': 6.73}
 28%|██▊       | 22023/78504 [13:23:54<20:14:35,  1.29s/it] 28%|██▊       | 22024/78504 [13:23:55<18:53:06,  1.20s/it]                                                           {'loss': 0.2037, 'grad_norm': 1.173445701599121, 'learning_rate': 2.3986242622393957e-05, 'epoch': 6.73}
 28%|██▊       | 22024/78504 [13:23:55<18:53:06,  1.20s/it] 28%|██▊       | 22025/78504 [13:23:56<17:37:39,  1.12s/it]                                                           {'loss': 0.1862, 'grad_norm': 1.0768722295761108, 'learning_rate': 2.3985818011974016e-05, 'epoch': 6.73}
 28%|██▊       | 22025/78504 [13:23:56<17:37:39,  1.12s/it] 28%|██▊       | 22026/78504 [13:23:57<16:02:44,  1.02s/it]                                                           {'loss': 0.2023, 'grad_norm': 1.9875823259353638, 'learning_rate': 2.3985393401554075e-05, 'epoch': 6.73}
 28%|██▊       | 22026/78504 [13:23:57<16:02:44,  1.02s/it] 28%|██▊       | 22027/78504 [13:24:05<52:59:24,  3.38s/it]                                                           {'loss': 0.1477, 'grad_norm': 0.3512042164802551, 'learning_rate': 2.3984968791134137e-05, 'epoch': 6.73}
 28%|██▊       | 22027/78504 [13:24:05<52:59:24,  3.38s/it] 28%|██▊       | 22028/78504 [13:24:08<50:47:19,  3.24s/it]                                                           {'loss': 0.07, 'grad_norm': 0.5740318298339844, 'learning_rate': 2.3984544180714196e-05, 'epoch': 6.73}
 28%|██▊       | 22028/78504 [13:24:08<50:47:19,  3.24s/it] 28%|██▊       | 22029/78504 [13:24:11<49:15:21,  3.14s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.3794001340866089, 'learning_rate': 2.3984119570294258e-05, 'epoch': 6.73}
 28%|██▊       | 22029/78504 [13:24:11<49:15:21,  3.14s/it] 28%|██▊       | 22030/78504 [13:24:14<45:52:59,  2.92s/it]                                                           {'loss': 0.0415, 'grad_norm': 0.15018558502197266, 'learning_rate': 2.3983694959874316e-05, 'epoch': 6.73}
 28%|██▊       | 22030/78504 [13:24:14<45:52:59,  2.92s/it] 28%|██▊       | 22031/78504 [13:24:16<43:43:25,  2.79s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.29959091544151306, 'learning_rate': 2.398327034945438e-05, 'epoch': 6.74}
 28%|██▊       | 22031/78504 [13:24:16<43:43:25,  2.79s/it] 28%|██▊       | 22032/78504 [13:24:18<41:16:08,  2.63s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.18461142480373383, 'learning_rate': 2.3982845739034437e-05, 'epoch': 6.74}
 28%|██▊       | 22032/78504 [13:24:18<41:16:08,  2.63s/it] 28%|██▊       | 22033/78504 [13:24:21<39:48:37,  2.54s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.22369159758090973, 'learning_rate': 2.39824211286145e-05, 'epoch': 6.74}
 28%|██▊       | 22033/78504 [13:24:21<39:48:37,  2.54s/it] 28%|██▊       | 22034/78504 [13:24:23<37:45:45,  2.41s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.23237556219100952, 'learning_rate': 2.3981996518194558e-05, 'epoch': 6.74}
 28%|██▊       | 22034/78504 [13:24:23<37:45:45,  2.41s/it] 28%|██▊       | 22035/78504 [13:24:25<36:41:05,  2.34s/it]                                                           {'loss': 0.0497, 'grad_norm': 1.0590800046920776, 'learning_rate': 2.398157190777462e-05, 'epoch': 6.74}
 28%|██▊       | 22035/78504 [13:24:25<36:41:05,  2.34s/it] 28%|██▊       | 22036/78504 [13:24:27<35:50:14,  2.28s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.27768170833587646, 'learning_rate': 2.398114729735468e-05, 'epoch': 6.74}
 28%|██▊       | 22036/78504 [13:24:27<35:50:14,  2.28s/it] 28%|██▊       | 22037/78504 [13:24:29<33:50:40,  2.16s/it]                                                           {'loss': 0.146, 'grad_norm': 0.4789730906486511, 'learning_rate': 2.398072268693474e-05, 'epoch': 6.74}
 28%|██▊       | 22037/78504 [13:24:29<33:50:40,  2.16s/it] 28%|██▊       | 22038/78504 [13:24:31<32:59:32,  2.10s/it]                                                           {'loss': 0.048, 'grad_norm': 0.8871320486068726, 'learning_rate': 2.39802980765148e-05, 'epoch': 6.74}
 28%|██▊       | 22038/78504 [13:24:31<32:59:32,  2.10s/it] 28%|██▊       | 22039/78504 [13:24:33<32:05:59,  2.05s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.266340970993042, 'learning_rate': 2.3979873466094858e-05, 'epoch': 6.74}
 28%|██▊       | 22039/78504 [13:24:33<32:05:59,  2.05s/it] 28%|██▊       | 22040/78504 [13:24:35<31:20:34,  2.00s/it]                                                           {'loss': 0.0905, 'grad_norm': 0.556869387626648, 'learning_rate': 2.397944885567492e-05, 'epoch': 6.74}
 28%|██▊       | 22040/78504 [13:24:35<31:20:34,  2.00s/it] 28%|██▊       | 22041/78504 [13:24:37<30:13:33,  1.93s/it]                                                           {'loss': 0.1187, 'grad_norm': 0.46392861008644104, 'learning_rate': 2.397902424525498e-05, 'epoch': 6.74}
 28%|██▊       | 22041/78504 [13:24:37<30:13:33,  1.93s/it] 28%|██▊       | 22042/78504 [13:24:38<28:50:16,  1.84s/it]                                                           {'loss': 0.1568, 'grad_norm': 1.2892489433288574, 'learning_rate': 2.397859963483504e-05, 'epoch': 6.74}
 28%|██▊       | 22042/78504 [13:24:38<28:50:16,  1.84s/it] 28%|██▊       | 22043/78504 [13:24:40<27:30:06,  1.75s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.41729938983917236, 'learning_rate': 2.39781750244151e-05, 'epoch': 6.74}
 28%|██▊       | 22043/78504 [13:24:40<27:30:06,  1.75s/it] 28%|██▊       | 22044/78504 [13:24:41<26:22:50,  1.68s/it]                                                           {'loss': 0.1413, 'grad_norm': 1.3890869617462158, 'learning_rate': 2.3977750413995162e-05, 'epoch': 6.74}
 28%|██▊       | 22044/78504 [13:24:41<26:22:50,  1.68s/it] 28%|██▊       | 22045/78504 [13:24:43<25:00:06,  1.59s/it]                                                           {'loss': 0.1689, 'grad_norm': 0.5887420773506165, 'learning_rate': 2.397732580357522e-05, 'epoch': 6.74}
 28%|██▊       | 22045/78504 [13:24:43<25:00:06,  1.59s/it] 28%|██▊       | 22046/78504 [13:24:44<23:29:32,  1.50s/it]                                                           {'loss': 0.155, 'grad_norm': 0.6325968503952026, 'learning_rate': 2.3976901193155283e-05, 'epoch': 6.74}
 28%|██▊       | 22046/78504 [13:24:44<23:29:32,  1.50s/it] 28%|██▊       | 22047/78504 [13:24:45<21:52:49,  1.40s/it]                                                           {'loss': 0.1819, 'grad_norm': 1.3345471620559692, 'learning_rate': 2.397647658273534e-05, 'epoch': 6.74}
 28%|██▊       | 22047/78504 [13:24:45<21:52:49,  1.40s/it] 28%|██▊       | 22048/78504 [13:24:46<20:26:48,  1.30s/it]                                                           {'loss': 0.1492, 'grad_norm': 0.470140278339386, 'learning_rate': 2.3976051972315403e-05, 'epoch': 6.74}
 28%|██▊       | 22048/78504 [13:24:46<20:26:48,  1.30s/it] 28%|██▊       | 22049/78504 [13:24:47<19:18:16,  1.23s/it]                                                           {'loss': 0.2061, 'grad_norm': 1.0266964435577393, 'learning_rate': 2.3975627361895462e-05, 'epoch': 6.74}
 28%|██▊       | 22049/78504 [13:24:47<19:18:16,  1.23s/it] 28%|██▊       | 22050/78504 [13:24:48<17:53:47,  1.14s/it]                                                           {'loss': 0.1712, 'grad_norm': 0.5923460721969604, 'learning_rate': 2.3975202751475524e-05, 'epoch': 6.74}
 28%|██▊       | 22050/78504 [13:24:48<17:53:47,  1.14s/it] 28%|██▊       | 22051/78504 [13:24:49<16:20:19,  1.04s/it]                                                           {'loss': 0.2446, 'grad_norm': 2.8327434062957764, 'learning_rate': 2.3974778141055583e-05, 'epoch': 6.74}
 28%|██▊       | 22051/78504 [13:24:49<16:20:19,  1.04s/it] 28%|██▊       | 22052/78504 [13:24:57<47:48:45,  3.05s/it]                                                           {'loss': 0.1525, 'grad_norm': 0.682319164276123, 'learning_rate': 2.397435353063564e-05, 'epoch': 6.74}
 28%|██▊       | 22052/78504 [13:24:57<47:48:45,  3.05s/it] 28%|██▊       | 22053/78504 [13:25:00<47:05:45,  3.00s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.21207718551158905, 'learning_rate': 2.3973928920215704e-05, 'epoch': 6.74}
 28%|██▊       | 22053/78504 [13:25:00<47:05:45,  3.00s/it] 28%|██▊       | 22054/78504 [13:25:02<45:03:27,  2.87s/it]                                                           {'loss': 0.1086, 'grad_norm': 0.9463611245155334, 'learning_rate': 2.3973504309795762e-05, 'epoch': 6.74}
 28%|██▊       | 22054/78504 [13:25:02<45:03:27,  2.87s/it] 28%|██▊       | 22055/78504 [13:25:05<43:48:39,  2.79s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.18615666031837463, 'learning_rate': 2.3973079699375825e-05, 'epoch': 6.74}
 28%|██▊       | 22055/78504 [13:25:05<43:48:39,  2.79s/it] 28%|██▊       | 22056/78504 [13:25:07<42:15:47,  2.70s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.6164522171020508, 'learning_rate': 2.3972655088955883e-05, 'epoch': 6.74}
 28%|██▊       | 22056/78504 [13:25:07<42:15:47,  2.70s/it] 28%|██▊       | 22057/78504 [13:25:10<41:00:45,  2.62s/it]                                                           {'loss': 0.0435, 'grad_norm': 0.22773179411888123, 'learning_rate': 2.3972230478535945e-05, 'epoch': 6.74}
 28%|██▊       | 22057/78504 [13:25:10<41:00:45,  2.62s/it] 28%|██▊       | 22058/78504 [13:25:12<39:35:02,  2.52s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.5702065825462341, 'learning_rate': 2.3971805868116004e-05, 'epoch': 6.74}
 28%|██▊       | 22058/78504 [13:25:12<39:35:02,  2.52s/it] 28%|██▊       | 22059/78504 [13:25:14<37:42:41,  2.41s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.17938461899757385, 'learning_rate': 2.3971381257696066e-05, 'epoch': 6.74}
 28%|██▊       | 22059/78504 [13:25:14<37:42:41,  2.41s/it] 28%|██▊       | 22060/78504 [13:25:16<36:37:25,  2.34s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.2977841794490814, 'learning_rate': 2.3970956647276125e-05, 'epoch': 6.74}
 28%|██▊       | 22060/78504 [13:25:16<36:37:25,  2.34s/it] 28%|██▊       | 22061/78504 [13:25:18<35:42:48,  2.28s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.2356501817703247, 'learning_rate': 2.3970532036856187e-05, 'epoch': 6.74}
 28%|██▊       | 22061/78504 [13:25:18<35:42:48,  2.28s/it] 28%|██▊       | 22062/78504 [13:25:20<34:31:40,  2.20s/it]                                                           {'loss': 0.1037, 'grad_norm': 0.5651552677154541, 'learning_rate': 2.3970107426436246e-05, 'epoch': 6.74}
 28%|██▊       | 22062/78504 [13:25:20<34:31:40,  2.20s/it] 28%|██▊       | 22063/78504 [13:25:22<33:26:38,  2.13s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.20315955579280853, 'learning_rate': 2.3969682816016308e-05, 'epoch': 6.75}
 28%|██▊       | 22063/78504 [13:25:22<33:26:38,  2.13s/it] 28%|██▊       | 22064/78504 [13:25:24<32:17:57,  2.06s/it]                                                           {'loss': 0.0999, 'grad_norm': 0.3765391707420349, 'learning_rate': 2.3969258205596366e-05, 'epoch': 6.75}
 28%|██▊       | 22064/78504 [13:25:24<32:17:57,  2.06s/it] 28%|██▊       | 22065/78504 [13:25:26<31:22:51,  2.00s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.24462711811065674, 'learning_rate': 2.3968833595176425e-05, 'epoch': 6.75}
 28%|██▊       | 22065/78504 [13:25:26<31:22:51,  2.00s/it] 28%|██▊       | 22066/78504 [13:25:28<30:14:09,  1.93s/it]                                                           {'loss': 0.1213, 'grad_norm': 0.3502673804759979, 'learning_rate': 2.3968408984756487e-05, 'epoch': 6.75}
 28%|██▊       | 22066/78504 [13:25:28<30:14:09,  1.93s/it] 28%|██▊       | 22067/78504 [13:25:30<28:40:37,  1.83s/it]                                                           {'loss': 0.1107, 'grad_norm': 0.30101361870765686, 'learning_rate': 2.3967984374336546e-05, 'epoch': 6.75}
 28%|██▊       | 22067/78504 [13:25:30<28:40:37,  1.83s/it] 28%|██▊       | 22068/78504 [13:25:31<27:20:59,  1.74s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.3462139070034027, 'learning_rate': 2.3967559763916608e-05, 'epoch': 6.75}
 28%|██▊       | 22068/78504 [13:25:31<27:20:59,  1.74s/it] 28%|██▊       | 22069/78504 [13:25:33<26:13:37,  1.67s/it]                                                           {'loss': 0.1153, 'grad_norm': 0.7049499750137329, 'learning_rate': 2.3967135153496667e-05, 'epoch': 6.75}
 28%|██▊       | 22069/78504 [13:25:33<26:13:37,  1.67s/it] 28%|██▊       | 22070/78504 [13:25:34<24:55:12,  1.59s/it]                                                           {'loss': 0.1465, 'grad_norm': 0.6949379444122314, 'learning_rate': 2.396671054307673e-05, 'epoch': 6.75}
 28%|██▊       | 22070/78504 [13:25:34<24:55:12,  1.59s/it] 28%|██▊       | 22071/78504 [13:25:35<23:29:31,  1.50s/it]                                                           {'loss': 0.158, 'grad_norm': 1.1516047716140747, 'learning_rate': 2.3966285932656787e-05, 'epoch': 6.75}
 28%|██▊       | 22071/78504 [13:25:35<23:29:31,  1.50s/it] 28%|██▊       | 22072/78504 [13:25:36<21:51:30,  1.39s/it]                                                           {'loss': 0.1539, 'grad_norm': 0.4526146352291107, 'learning_rate': 2.396586132223685e-05, 'epoch': 6.75}
 28%|██▊       | 22072/78504 [13:25:36<21:51:30,  1.39s/it] 28%|██▊       | 22073/78504 [13:25:37<20:26:26,  1.30s/it]                                                           {'loss': 0.1667, 'grad_norm': 1.1086034774780273, 'learning_rate': 2.3965436711816908e-05, 'epoch': 6.75}
 28%|██▊       | 22073/78504 [13:25:38<20:26:26,  1.30s/it] 28%|██▊       | 22074/78504 [13:25:39<19:15:41,  1.23s/it]                                                           {'loss': 0.1837, 'grad_norm': 0.8599976301193237, 'learning_rate': 2.396501210139697e-05, 'epoch': 6.75}
 28%|██▊       | 22074/78504 [13:25:39<19:15:41,  1.23s/it] 28%|██▊       | 22075/78504 [13:25:39<17:54:33,  1.14s/it]                                                           {'loss': 0.2332, 'grad_norm': 0.7905387282371521, 'learning_rate': 2.396458749097703e-05, 'epoch': 6.75}
 28%|██▊       | 22075/78504 [13:25:40<17:54:33,  1.14s/it] 28%|██▊       | 22076/78504 [13:25:40<16:19:19,  1.04s/it]                                                           {'loss': 0.1813, 'grad_norm': 1.7540920972824097, 'learning_rate': 2.3964162880557088e-05, 'epoch': 6.75}
 28%|██▊       | 22076/78504 [13:25:40<16:19:19,  1.04s/it] 28%|██▊       | 22077/78504 [13:25:50<59:21:13,  3.79s/it]                                                           {'loss': 0.1171, 'grad_norm': 0.4914014935493469, 'learning_rate': 2.396373827013715e-05, 'epoch': 6.75}
 28%|██▊       | 22077/78504 [13:25:51<59:21:13,  3.79s/it] 28%|██▊       | 22078/78504 [13:25:54<56:06:54,  3.58s/it]                                                           {'loss': 0.0805, 'grad_norm': 0.47751086950302124, 'learning_rate': 2.396331365971721e-05, 'epoch': 6.75}
 28%|██▊       | 22078/78504 [13:25:54<56:06:54,  3.58s/it] 28%|██▊       | 22079/78504 [13:25:56<51:19:17,  3.27s/it]                                                           {'loss': 0.0643, 'grad_norm': 0.16971881687641144, 'learning_rate': 2.396288904929727e-05, 'epoch': 6.75}
 28%|██▊       | 22079/78504 [13:25:56<51:19:17,  3.27s/it] 28%|██▊       | 22080/78504 [13:25:59<47:18:38,  3.02s/it]                                                           {'loss': 0.0522, 'grad_norm': 0.15878702700138092, 'learning_rate': 2.396246443887733e-05, 'epoch': 6.75}
 28%|██▊       | 22080/78504 [13:25:59<47:18:38,  3.02s/it] 28%|██▊       | 22081/78504 [13:26:01<44:44:52,  2.86s/it]                                                           {'loss': 0.0568, 'grad_norm': 0.20208881795406342, 'learning_rate': 2.396203982845739e-05, 'epoch': 6.75}
 28%|██▊       | 22081/78504 [13:26:01<44:44:52,  2.86s/it] 28%|██▊       | 22082/78504 [13:26:03<41:57:55,  2.68s/it]                                                           {'loss': 0.046, 'grad_norm': 0.27959853410720825, 'learning_rate': 2.396161521803745e-05, 'epoch': 6.75}
 28%|██▊       | 22082/78504 [13:26:03<41:57:55,  2.68s/it] 28%|██▊       | 22083/78504 [13:26:06<40:19:20,  2.57s/it]                                                           {'loss': 0.0457, 'grad_norm': 0.25937163829803467, 'learning_rate': 2.3961190607617512e-05, 'epoch': 6.75}
 28%|██▊       | 22083/78504 [13:26:06<40:19:20,  2.57s/it] 28%|██▊       | 22084/78504 [13:26:08<38:04:13,  2.43s/it]                                                           {'loss': 0.0452, 'grad_norm': 0.23937684297561646, 'learning_rate': 2.396076599719757e-05, 'epoch': 6.75}
 28%|██▊       | 22084/78504 [13:26:08<38:04:13,  2.43s/it] 28%|██▊       | 22085/78504 [13:26:10<36:56:08,  2.36s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.2931431829929352, 'learning_rate': 2.3960341386777633e-05, 'epoch': 6.75}
 28%|██▊       | 22085/78504 [13:26:10<36:56:08,  2.36s/it] 28%|██▊       | 22086/78504 [13:26:12<35:59:39,  2.30s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.39840444922447205, 'learning_rate': 2.395991677635769e-05, 'epoch': 6.75}
 28%|██▊       | 22086/78504 [13:26:12<35:59:39,  2.30s/it] 28%|██▊       | 22087/78504 [13:26:14<34:44:30,  2.22s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.36240506172180176, 'learning_rate': 2.3959492165937754e-05, 'epoch': 6.75}
 28%|██▊       | 22087/78504 [13:26:14<34:44:30,  2.22s/it] 28%|██▊       | 22088/78504 [13:26:16<33:35:53,  2.14s/it]                                                           {'loss': 0.0704, 'grad_norm': 0.2338925153017044, 'learning_rate': 2.3959067555517812e-05, 'epoch': 6.75}
 28%|██▊       | 22088/78504 [13:26:16<33:35:53,  2.14s/it] 28%|██▊       | 22089/78504 [13:26:18<32:16:56,  2.06s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.3176068365573883, 'learning_rate': 2.395864294509787e-05, 'epoch': 6.75}
 28%|██▊       | 22089/78504 [13:26:18<32:16:56,  2.06s/it] 28%|██▊       | 22090/78504 [13:26:20<31:22:10,  2.00s/it]                                                           {'loss': 0.1019, 'grad_norm': 0.4133112132549286, 'learning_rate': 2.3958218334677933e-05, 'epoch': 6.75}
 28%|██▊       | 22090/78504 [13:26:20<31:22:10,  2.00s/it] 28%|██▊       | 22091/78504 [13:26:22<30:03:16,  1.92s/it]                                                           {'loss': 0.1093, 'grad_norm': 1.584756851196289, 'learning_rate': 2.3957793724257992e-05, 'epoch': 6.75}
 28%|██▊       | 22091/78504 [13:26:22<30:03:16,  1.92s/it] 28%|██▊       | 22092/78504 [13:26:23<28:45:40,  1.84s/it]                                                           {'loss': 0.1314, 'grad_norm': 0.317825049161911, 'learning_rate': 2.3957369113838054e-05, 'epoch': 6.75}
 28%|██▊       | 22092/78504 [13:26:23<28:45:40,  1.84s/it] 28%|██▊       | 22093/78504 [13:26:25<27:18:16,  1.74s/it]                                                           {'loss': 0.1978, 'grad_norm': 1.14395272731781, 'learning_rate': 2.3956944503418113e-05, 'epoch': 6.75}
 28%|██▊       | 22093/78504 [13:26:25<27:18:16,  1.74s/it] 28%|██▊       | 22094/78504 [13:26:26<26:01:53,  1.66s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.31262269616127014, 'learning_rate': 2.3956519892998175e-05, 'epoch': 6.75}
 28%|██▊       | 22094/78504 [13:26:26<26:01:53,  1.66s/it] 28%|██▊       | 22095/78504 [13:26:28<24:52:25,  1.59s/it]                                                           {'loss': 0.1609, 'grad_norm': 1.5282357931137085, 'learning_rate': 2.3956095282578233e-05, 'epoch': 6.75}
 28%|██▊       | 22095/78504 [13:26:28<24:52:25,  1.59s/it] 28%|██▊       | 22096/78504 [13:26:29<23:26:38,  1.50s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.8211148381233215, 'learning_rate': 2.3955670672158296e-05, 'epoch': 6.76}
 28%|██▊       | 22096/78504 [13:26:29<23:26:38,  1.50s/it] 28%|██▊       | 22097/78504 [13:26:30<21:45:09,  1.39s/it]                                                           {'loss': 0.164, 'grad_norm': 0.4980211853981018, 'learning_rate': 2.3955246061738354e-05, 'epoch': 6.76}
 28%|██▊       | 22097/78504 [13:26:30<21:45:09,  1.39s/it] 28%|██▊       | 22098/78504 [13:26:31<20:24:52,  1.30s/it]                                                           {'loss': 0.1794, 'grad_norm': 0.4649371802806854, 'learning_rate': 2.3954821451318416e-05, 'epoch': 6.76}
 28%|██▊       | 22098/78504 [13:26:31<20:24:52,  1.30s/it] 28%|██▊       | 22099/78504 [13:26:32<19:00:09,  1.21s/it]                                                           {'loss': 0.1612, 'grad_norm': 1.056717038154602, 'learning_rate': 2.3954396840898475e-05, 'epoch': 6.76}
 28%|██▊       | 22099/78504 [13:26:32<19:00:09,  1.21s/it] 28%|██▊       | 22100/78504 [13:26:33<17:39:11,  1.13s/it]                                                           {'loss': 0.1703, 'grad_norm': 0.5079130530357361, 'learning_rate': 2.3953972230478537e-05, 'epoch': 6.76}
 28%|██▊       | 22100/78504 [13:26:33<17:39:11,  1.13s/it] 28%|██▊       | 22101/78504 [13:26:34<16:00:38,  1.02s/it]                                                           {'loss': 0.2036, 'grad_norm': 0.8013178706169128, 'learning_rate': 2.3953547620058596e-05, 'epoch': 6.76}
 28%|██▊       | 22101/78504 [13:26:34<16:00:38,  1.02s/it] 28%|██▊       | 22102/78504 [13:26:43<55:24:06,  3.54s/it]                                                           {'loss': 0.1328, 'grad_norm': 0.4753950238227844, 'learning_rate': 2.3953123009638655e-05, 'epoch': 6.76}
 28%|██▊       | 22102/78504 [13:26:43<55:24:06,  3.54s/it] 28%|██▊       | 22103/78504 [13:26:46<53:06:49,  3.39s/it]                                                           {'loss': 0.0997, 'grad_norm': 0.29855895042419434, 'learning_rate': 2.3952698399218717e-05, 'epoch': 6.76}
 28%|██▊       | 22103/78504 [13:26:46<53:06:49,  3.39s/it] 28%|██▊       | 22104/78504 [13:26:49<51:09:21,  3.27s/it]                                                           {'loss': 0.0508, 'grad_norm': 0.583743155002594, 'learning_rate': 2.3952273788798775e-05, 'epoch': 6.76}
 28%|██▊       | 22104/78504 [13:26:49<51:09:21,  3.27s/it] 28%|██▊       | 22105/78504 [13:26:52<48:04:48,  3.07s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.1324227899312973, 'learning_rate': 2.3951849178378837e-05, 'epoch': 6.76}
 28%|██▊       | 22105/78504 [13:26:52<48:04:48,  3.07s/it] 28%|██▊       | 22106/78504 [13:26:54<45:13:39,  2.89s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.17015790939331055, 'learning_rate': 2.3951424567958896e-05, 'epoch': 6.76}
 28%|██▊       | 22106/78504 [13:26:54<45:13:39,  2.89s/it] 28%|██▊       | 22107/78504 [13:26:57<42:18:17,  2.70s/it]                                                           {'loss': 0.0583, 'grad_norm': 0.23280058801174164, 'learning_rate': 2.3950999957538958e-05, 'epoch': 6.76}
 28%|██▊       | 22107/78504 [13:26:57<42:18:17,  2.70s/it] 28%|██▊       | 22108/78504 [13:26:59<40:28:13,  2.58s/it]                                                           {'loss': 0.0478, 'grad_norm': 0.202836811542511, 'learning_rate': 2.3950575347119017e-05, 'epoch': 6.76}
 28%|██▊       | 22108/78504 [13:26:59<40:28:13,  2.58s/it] 28%|██▊       | 22109/78504 [13:27:01<38:13:23,  2.44s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.1993943601846695, 'learning_rate': 2.395015073669908e-05, 'epoch': 6.76}
 28%|██▊       | 22109/78504 [13:27:01<38:13:23,  2.44s/it] 28%|██▊       | 22110/78504 [13:27:03<36:59:40,  2.36s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.761286199092865, 'learning_rate': 2.3949726126279138e-05, 'epoch': 6.76}
 28%|██▊       | 22110/78504 [13:27:03<36:59:40,  2.36s/it] 28%|██▊       | 22111/78504 [13:27:05<36:02:39,  2.30s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.4725548326969147, 'learning_rate': 2.39493015158592e-05, 'epoch': 6.76}
 28%|██▊       | 22111/78504 [13:27:05<36:02:39,  2.30s/it] 28%|██▊       | 22112/78504 [13:27:07<33:55:11,  2.17s/it]                                                           {'loss': 0.0938, 'grad_norm': 0.3985122740268707, 'learning_rate': 2.394887690543926e-05, 'epoch': 6.76}
 28%|██▊       | 22112/78504 [13:27:07<33:55:11,  2.17s/it] 28%|██▊       | 22113/78504 [13:27:09<33:02:50,  2.11s/it]                                                           {'loss': 0.1001, 'grad_norm': 0.24228695034980774, 'learning_rate': 2.394845229501932e-05, 'epoch': 6.76}
 28%|██▊       | 22113/78504 [13:27:09<33:02:50,  2.11s/it] 28%|██▊       | 22114/78504 [13:27:11<32:08:03,  2.05s/it]                                                           {'loss': 0.1055, 'grad_norm': 0.5579488277435303, 'learning_rate': 2.394802768459938e-05, 'epoch': 6.76}
 28%|██▊       | 22114/78504 [13:27:11<32:08:03,  2.05s/it] 28%|██▊       | 22115/78504 [13:27:13<31:18:48,  2.00s/it]                                                           {'loss': 0.076, 'grad_norm': 0.7231791615486145, 'learning_rate': 2.3947603074179438e-05, 'epoch': 6.76}
 28%|██▊       | 22115/78504 [13:27:13<31:18:48,  2.00s/it] 28%|██▊       | 22116/78504 [13:27:15<30:11:58,  1.93s/it]                                                           {'loss': 0.1316, 'grad_norm': 1.103756070137024, 'learning_rate': 2.39471784637595e-05, 'epoch': 6.76}
 28%|██▊       | 22116/78504 [13:27:15<30:11:58,  1.93s/it] 28%|██▊       | 22117/78504 [13:27:16<28:33:53,  1.82s/it]                                                           {'loss': 0.1299, 'grad_norm': 1.5581403970718384, 'learning_rate': 2.394675385333956e-05, 'epoch': 6.76}
 28%|██▊       | 22117/78504 [13:27:16<28:33:53,  1.82s/it] 28%|██▊       | 22118/78504 [13:27:18<27:13:16,  1.74s/it]                                                           {'loss': 0.1309, 'grad_norm': 0.4583662748336792, 'learning_rate': 2.394632924291962e-05, 'epoch': 6.76}
 28%|██▊       | 22118/78504 [13:27:18<27:13:16,  1.74s/it] 28%|██▊       | 22119/78504 [13:27:19<26:12:48,  1.67s/it]                                                           {'loss': 0.1276, 'grad_norm': 0.34385061264038086, 'learning_rate': 2.394590463249968e-05, 'epoch': 6.76}
 28%|██▊       | 22119/78504 [13:27:19<26:12:48,  1.67s/it] 28%|██▊       | 22120/78504 [13:27:21<24:55:40,  1.59s/it]                                                           {'loss': 0.1389, 'grad_norm': 0.48499980568885803, 'learning_rate': 2.394548002207974e-05, 'epoch': 6.76}
 28%|██▊       | 22120/78504 [13:27:21<24:55:40,  1.59s/it] 28%|██▊       | 22121/78504 [13:27:22<23:28:18,  1.50s/it]                                                           {'loss': 0.1445, 'grad_norm': 0.3256663382053375, 'learning_rate': 2.39450554116598e-05, 'epoch': 6.76}
 28%|██▊       | 22121/78504 [13:27:22<23:28:18,  1.50s/it] 28%|██▊       | 22122/78504 [13:27:23<21:49:27,  1.39s/it]                                                           {'loss': 0.1771, 'grad_norm': 0.851608157157898, 'learning_rate': 2.3944630801239862e-05, 'epoch': 6.76}
 28%|██▊       | 22122/78504 [13:27:23<21:49:27,  1.39s/it] 28%|██▊       | 22123/78504 [13:27:24<20:26:23,  1.31s/it]                                                           {'loss': 0.1497, 'grad_norm': 0.5936332941055298, 'learning_rate': 2.394420619081992e-05, 'epoch': 6.76}
 28%|██▊       | 22123/78504 [13:27:24<20:26:23,  1.31s/it] 28%|██▊       | 22124/78504 [13:27:25<18:59:40,  1.21s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.5006363391876221, 'learning_rate': 2.3943781580399983e-05, 'epoch': 6.76}
 28%|██▊       | 22124/78504 [13:27:25<18:59:40,  1.21s/it] 28%|██▊       | 22125/78504 [13:27:26<17:41:41,  1.13s/it]                                                           {'loss': 0.1585, 'grad_norm': 1.0667184591293335, 'learning_rate': 2.3943356969980045e-05, 'epoch': 6.76}
 28%|██▊       | 22125/78504 [13:27:26<17:41:41,  1.13s/it] 28%|██▊       | 22126/78504 [13:27:27<16:03:38,  1.03s/it]                                                           {'loss': 0.2038, 'grad_norm': 2.4724884033203125, 'learning_rate': 2.3942932359560107e-05, 'epoch': 6.76}
 28%|██▊       | 22126/78504 [13:27:27<16:03:38,  1.03s/it] 28%|██▊       | 22127/78504 [13:27:35<50:22:27,  3.22s/it]                                                           {'loss': 0.1409, 'grad_norm': 0.4144921600818634, 'learning_rate': 2.3942507749140166e-05, 'epoch': 6.76}
 28%|██▊       | 22127/78504 [13:27:35<50:22:27,  3.22s/it] 28%|██▊       | 22128/78504 [13:27:39<50:44:26,  3.24s/it]                                                           {'loss': 0.0771, 'grad_norm': 0.3059692084789276, 'learning_rate': 2.3942083138720225e-05, 'epoch': 6.76}
 28%|██▊       | 22128/78504 [13:27:39<50:44:26,  3.24s/it] 28%|██▊       | 22129/78504 [13:27:42<49:29:16,  3.16s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.722633957862854, 'learning_rate': 2.3941658528300287e-05, 'epoch': 6.77}
 28%|██▊       | 22129/78504 [13:27:42<49:29:16,  3.16s/it] 28%|██▊       | 22130/78504 [13:27:44<46:47:37,  2.99s/it]                                                           {'loss': 0.0516, 'grad_norm': 0.2799307107925415, 'learning_rate': 2.3941233917880346e-05, 'epoch': 6.77}
 28%|██▊       | 22130/78504 [13:27:44<46:47:37,  2.99s/it] 28%|██▊       | 22131/78504 [13:27:47<44:25:29,  2.84s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.2800896465778351, 'learning_rate': 2.3940809307460408e-05, 'epoch': 6.77}
 28%|██▊       | 22131/78504 [13:27:47<44:25:29,  2.84s/it] 28%|██▊       | 22132/78504 [13:27:49<42:09:19,  2.69s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.24451768398284912, 'learning_rate': 2.3940384697040466e-05, 'epoch': 6.77}
 28%|██▊       | 22132/78504 [13:27:49<42:09:19,  2.69s/it] 28%|██▊       | 22133/78504 [13:27:51<40:27:14,  2.58s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.20367498695850372, 'learning_rate': 2.393996008662053e-05, 'epoch': 6.77}
 28%|██▊       | 22133/78504 [13:27:51<40:27:14,  2.58s/it] 28%|██▊       | 22134/78504 [13:27:53<38:07:26,  2.43s/it]                                                           {'loss': 0.0679, 'grad_norm': 0.2766670286655426, 'learning_rate': 2.3939535476200587e-05, 'epoch': 6.77}
 28%|██▊       | 22134/78504 [13:27:53<38:07:26,  2.43s/it] 28%|██▊       | 22135/78504 [13:27:56<36:56:22,  2.36s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.2938487231731415, 'learning_rate': 2.393911086578065e-05, 'epoch': 6.77}
 28%|██▊       | 22135/78504 [13:27:56<36:56:22,  2.36s/it] 28%|██▊       | 22136/78504 [13:27:58<35:54:25,  2.29s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.4176516532897949, 'learning_rate': 2.3938686255360708e-05, 'epoch': 6.77}
 28%|██▊       | 22136/78504 [13:27:58<35:54:25,  2.29s/it] 28%|██▊       | 22137/78504 [13:28:00<34:38:18,  2.21s/it]                                                           {'loss': 0.1142, 'grad_norm': 0.385861873626709, 'learning_rate': 2.393826164494077e-05, 'epoch': 6.77}
 28%|██▊       | 22137/78504 [13:28:00<34:38:18,  2.21s/it] 28%|██▊       | 22138/78504 [13:28:02<33:30:30,  2.14s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.9565507173538208, 'learning_rate': 2.393783703452083e-05, 'epoch': 6.77}
 28%|██▊       | 22138/78504 [13:28:02<33:30:30,  2.14s/it] 28%|██▊       | 22139/78504 [13:28:04<32:14:08,  2.06s/it]                                                           {'loss': 0.1669, 'grad_norm': 0.38155287504196167, 'learning_rate': 2.393741242410089e-05, 'epoch': 6.77}
 28%|██▊       | 22139/78504 [13:28:04<32:14:08,  2.06s/it] 28%|██▊       | 22140/78504 [13:28:06<31:20:23,  2.00s/it]                                                           {'loss': 0.1036, 'grad_norm': 0.42059633135795593, 'learning_rate': 2.393698781368095e-05, 'epoch': 6.77}
 28%|██▊       | 22140/78504 [13:28:06<31:20:23,  2.00s/it] 28%|██▊       | 22141/78504 [13:28:07<30:00:49,  1.92s/it]                                                           {'loss': 0.1182, 'grad_norm': 0.49113553762435913, 'learning_rate': 2.3936563203261008e-05, 'epoch': 6.77}
 28%|██▊       | 22141/78504 [13:28:07<30:00:49,  1.92s/it] 28%|██▊       | 22142/78504 [13:28:09<28:44:37,  1.84s/it]                                                           {'loss': 0.1381, 'grad_norm': 0.8836022019386292, 'learning_rate': 2.393613859284107e-05, 'epoch': 6.77}
 28%|██▊       | 22142/78504 [13:28:09<28:44:37,  1.84s/it] 28%|██▊       | 22143/78504 [13:28:10<27:21:03,  1.75s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.7976353764533997, 'learning_rate': 2.393571398242113e-05, 'epoch': 6.77}
 28%|██▊       | 22143/78504 [13:28:10<27:21:03,  1.75s/it] 28%|██▊       | 22144/78504 [13:28:12<26:01:18,  1.66s/it]                                                           {'loss': 0.1761, 'grad_norm': 0.49823397397994995, 'learning_rate': 2.393528937200119e-05, 'epoch': 6.77}
 28%|██▊       | 22144/78504 [13:28:12<26:01:18,  1.66s/it] 28%|██▊       | 22145/78504 [13:28:13<24:45:10,  1.58s/it]                                                           {'loss': 0.1385, 'grad_norm': 0.8388669490814209, 'learning_rate': 2.393486476158125e-05, 'epoch': 6.77}
 28%|██▊       | 22145/78504 [13:28:13<24:45:10,  1.58s/it] 28%|██▊       | 22146/78504 [13:28:15<23:21:18,  1.49s/it]                                                           {'loss': 0.1696, 'grad_norm': 1.290209174156189, 'learning_rate': 2.3934440151161312e-05, 'epoch': 6.77}
 28%|██▊       | 22146/78504 [13:28:15<23:21:18,  1.49s/it] 28%|██▊       | 22147/78504 [13:28:16<21:46:54,  1.39s/it]                                                           {'loss': 0.148, 'grad_norm': 0.6921802163124084, 'learning_rate': 2.393401554074137e-05, 'epoch': 6.77}
 28%|██▊       | 22147/78504 [13:28:16<21:46:54,  1.39s/it] 28%|██▊       | 22148/78504 [13:28:17<20:21:26,  1.30s/it]                                                           {'loss': 0.2011, 'grad_norm': 1.8855782747268677, 'learning_rate': 2.3933590930321433e-05, 'epoch': 6.77}
 28%|██▊       | 22148/78504 [13:28:17<20:21:26,  1.30s/it] 28%|██▊       | 22149/78504 [13:28:18<19:09:20,  1.22s/it]                                                           {'loss': 0.1672, 'grad_norm': 0.5009734034538269, 'learning_rate': 2.393316631990149e-05, 'epoch': 6.77}
 28%|██▊       | 22149/78504 [13:28:18<19:09:20,  1.22s/it] 28%|██▊       | 22150/78504 [13:28:19<17:45:01,  1.13s/it]                                                           {'loss': 0.1709, 'grad_norm': 1.3163466453552246, 'learning_rate': 2.3932741709481553e-05, 'epoch': 6.77}
 28%|██▊       | 22150/78504 [13:28:19<17:45:01,  1.13s/it] 28%|██▊       | 22151/78504 [13:28:20<16:10:19,  1.03s/it]                                                           {'loss': 0.2029, 'grad_norm': 0.8382934927940369, 'learning_rate': 2.3932317099061612e-05, 'epoch': 6.77}
 28%|██▊       | 22151/78504 [13:28:20<16:10:19,  1.03s/it] 28%|██▊       | 22152/78504 [13:28:27<47:48:24,  3.05s/it]                                                           {'loss': 0.1335, 'grad_norm': 0.4371887147426605, 'learning_rate': 2.3931892488641674e-05, 'epoch': 6.77}
 28%|██▊       | 22152/78504 [13:28:27<47:48:24,  3.05s/it] 28%|██▊       | 22153/78504 [13:28:30<48:09:08,  3.08s/it]                                                           {'loss': 0.0697, 'grad_norm': 0.7250796556472778, 'learning_rate': 2.3931467878221733e-05, 'epoch': 6.77}
 28%|██▊       | 22153/78504 [13:28:30<48:09:08,  3.08s/it] 28%|██▊       | 22154/78504 [13:28:33<45:45:04,  2.92s/it]                                                           {'loss': 0.0668, 'grad_norm': 0.21932367980480194, 'learning_rate': 2.393104326780179e-05, 'epoch': 6.77}
 28%|██▊       | 22154/78504 [13:28:33<45:45:04,  2.92s/it] 28%|██▊       | 22155/78504 [13:28:36<44:16:38,  2.83s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.22569458186626434, 'learning_rate': 2.3930618657381854e-05, 'epoch': 6.77}
 28%|██▊       | 22155/78504 [13:28:36<44:16:38,  2.83s/it] 28%|██▊       | 22156/78504 [13:28:38<42:34:01,  2.72s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.23016543686389923, 'learning_rate': 2.3930194046961912e-05, 'epoch': 6.77}
 28%|██▊       | 22156/78504 [13:28:38<42:34:01,  2.72s/it] 28%|██▊       | 22157/78504 [13:28:40<40:24:37,  2.58s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.27496129274368286, 'learning_rate': 2.3929769436541975e-05, 'epoch': 6.77}
 28%|██▊       | 22157/78504 [13:28:40<40:24:37,  2.58s/it] 28%|██▊       | 22158/78504 [13:28:43<39:10:45,  2.50s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.3230811357498169, 'learning_rate': 2.3929344826122033e-05, 'epoch': 6.77}
 28%|██▊       | 22158/78504 [13:28:43<39:10:45,  2.50s/it] 28%|██▊       | 22159/78504 [13:28:45<37:14:42,  2.38s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.2153768241405487, 'learning_rate': 2.3928920215702095e-05, 'epoch': 6.77}
 28%|██▊       | 22159/78504 [13:28:45<37:14:42,  2.38s/it] 28%|██▊       | 22160/78504 [13:28:47<36:18:49,  2.32s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.4431750476360321, 'learning_rate': 2.3928495605282154e-05, 'epoch': 6.77}
 28%|██▊       | 22160/78504 [13:28:47<36:18:49,  2.32s/it] 28%|██▊       | 22161/78504 [13:28:49<35:27:19,  2.27s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.20234981179237366, 'learning_rate': 2.3928070994862216e-05, 'epoch': 6.77}
 28%|██▊       | 22161/78504 [13:28:49<35:27:19,  2.27s/it] 28%|██▊       | 22162/78504 [13:28:51<34:18:30,  2.19s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.4514651596546173, 'learning_rate': 2.3927646384442275e-05, 'epoch': 6.78}
 28%|██▊       | 22162/78504 [13:28:51<34:18:30,  2.19s/it] 28%|██▊       | 22163/78504 [13:28:53<33:17:52,  2.13s/it]                                                           {'loss': 0.0739, 'grad_norm': 0.17773284018039703, 'learning_rate': 2.3927221774022337e-05, 'epoch': 6.78}
 28%|██▊       | 22163/78504 [13:28:53<33:17:52,  2.13s/it] 28%|██▊       | 22164/78504 [13:28:55<32:03:28,  2.05s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.41178107261657715, 'learning_rate': 2.3926797163602396e-05, 'epoch': 6.78}
 28%|██▊       | 22164/78504 [13:28:55<32:03:28,  2.05s/it] 28%|██▊       | 22165/78504 [13:28:57<30:28:59,  1.95s/it]                                                           {'loss': 0.1119, 'grad_norm': 0.46688684821128845, 'learning_rate': 2.3926372553182458e-05, 'epoch': 6.78}
 28%|██▊       | 22165/78504 [13:28:57<30:28:59,  1.95s/it] 28%|██▊       | 22166/78504 [13:28:58<29:09:28,  1.86s/it]                                                           {'loss': 0.1083, 'grad_norm': 0.7621598839759827, 'learning_rate': 2.3925947942762516e-05, 'epoch': 6.78}
 28%|██▊       | 22166/78504 [13:28:58<29:09:28,  1.86s/it] 28%|██▊       | 22167/78504 [13:29:00<28:09:12,  1.80s/it]                                                           {'loss': 0.1297, 'grad_norm': 0.5984489321708679, 'learning_rate': 2.3925523332342575e-05, 'epoch': 6.78}
 28%|██▊       | 22167/78504 [13:29:00<28:09:12,  1.80s/it] 28%|██▊       | 22168/78504 [13:29:01<26:49:38,  1.71s/it]                                                           {'loss': 0.1315, 'grad_norm': 0.5502066016197205, 'learning_rate': 2.3925098721922637e-05, 'epoch': 6.78}
 28%|██▊       | 22168/78504 [13:29:02<26:49:38,  1.71s/it] 28%|██▊       | 22169/78504 [13:29:03<25:29:00,  1.63s/it]                                                           {'loss': 0.1575, 'grad_norm': 0.46843552589416504, 'learning_rate': 2.3924674111502696e-05, 'epoch': 6.78}
 28%|██▊       | 22169/78504 [13:29:03<25:29:00,  1.63s/it] 28%|██▊       | 22170/78504 [13:29:04<24:28:33,  1.56s/it]                                                           {'loss': 0.1709, 'grad_norm': 0.6559891104698181, 'learning_rate': 2.3924249501082758e-05, 'epoch': 6.78}
 28%|██▊       | 22170/78504 [13:29:04<24:28:33,  1.56s/it] 28%|██▊       | 22171/78504 [13:29:06<22:53:32,  1.46s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.7983714938163757, 'learning_rate': 2.3923824890662817e-05, 'epoch': 6.78}
 28%|██▊       | 22171/78504 [13:29:06<22:53:32,  1.46s/it] 28%|██▊       | 22172/78504 [13:29:07<21:18:38,  1.36s/it]                                                           {'loss': 0.1865, 'grad_norm': 0.6149054765701294, 'learning_rate': 2.392340028024288e-05, 'epoch': 6.78}
 28%|██▊       | 22172/78504 [13:29:07<21:18:38,  1.36s/it] 28%|██▊       | 22173/78504 [13:29:08<20:01:37,  1.28s/it]                                                           {'loss': 0.167, 'grad_norm': 1.4558019638061523, 'learning_rate': 2.3922975669822937e-05, 'epoch': 6.78}
 28%|██▊       | 22173/78504 [13:29:08<20:01:37,  1.28s/it] 28%|██▊       | 22174/78504 [13:29:09<18:42:18,  1.20s/it]                                                           {'loss': 0.1754, 'grad_norm': 0.9398530125617981, 'learning_rate': 2.3922551059403e-05, 'epoch': 6.78}
 28%|██▊       | 22174/78504 [13:29:09<18:42:18,  1.20s/it] 28%|██▊       | 22175/78504 [13:29:10<17:29:50,  1.12s/it]                                                           {'loss': 0.1875, 'grad_norm': 0.6837993860244751, 'learning_rate': 2.3922126448983058e-05, 'epoch': 6.78}
 28%|██▊       | 22175/78504 [13:29:10<17:29:50,  1.12s/it] 28%|██▊       | 22176/78504 [13:29:10<15:56:29,  1.02s/it]                                                           {'loss': 0.2623, 'grad_norm': 1.6146596670150757, 'learning_rate': 2.392170183856312e-05, 'epoch': 6.78}
 28%|██▊       | 22176/78504 [13:29:11<15:56:29,  1.02s/it] 28%|██▊       | 22177/78504 [13:29:20<55:52:05,  3.57s/it]                                                           {'loss': 0.1524, 'grad_norm': 0.5056219696998596, 'learning_rate': 2.392127722814318e-05, 'epoch': 6.78}
 28%|██▊       | 22177/78504 [13:29:20<55:52:05,  3.57s/it] 28%|██▊       | 22178/78504 [13:29:23<54:50:27,  3.51s/it]                                                           {'loss': 0.0759, 'grad_norm': 0.4124840497970581, 'learning_rate': 2.392085261772324e-05, 'epoch': 6.78}
 28%|██▊       | 22178/78504 [13:29:23<54:50:27,  3.51s/it] 28%|██▊       | 22179/78504 [13:29:26<52:04:52,  3.33s/it]                                                           {'loss': 0.0677, 'grad_norm': 0.20068402588367462, 'learning_rate': 2.39204280073033e-05, 'epoch': 6.78}
 28%|██▊       | 22179/78504 [13:29:26<52:04:52,  3.33s/it] 28%|██▊       | 22180/78504 [13:29:29<48:32:54,  3.10s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.5228434801101685, 'learning_rate': 2.392000339688336e-05, 'epoch': 6.78}
 28%|██▊       | 22180/78504 [13:29:29<48:32:54,  3.10s/it] 28%|██▊       | 22181/78504 [13:29:31<45:40:06,  2.92s/it]                                                           {'loss': 0.0682, 'grad_norm': 0.20591548085212708, 'learning_rate': 2.391957878646342e-05, 'epoch': 6.78}
 28%|██▊       | 22181/78504 [13:29:31<45:40:06,  2.92s/it] 28%|██▊       | 22182/78504 [13:29:34<43:27:32,  2.78s/it]                                                           {'loss': 0.0565, 'grad_norm': 0.34578174352645874, 'learning_rate': 2.391915417604348e-05, 'epoch': 6.78}
 28%|██▊       | 22182/78504 [13:29:34<43:27:32,  2.78s/it] 28%|██▊       | 22183/78504 [13:29:36<41:27:19,  2.65s/it]                                                           {'loss': 0.075, 'grad_norm': 0.32506030797958374, 'learning_rate': 2.391872956562354e-05, 'epoch': 6.78}
 28%|██▊       | 22183/78504 [13:29:36<41:27:19,  2.65s/it] 28%|██▊       | 22184/78504 [13:29:38<39:49:17,  2.55s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.6338350772857666, 'learning_rate': 2.39183049552036e-05, 'epoch': 6.78}
 28%|██▊       | 22184/78504 [13:29:38<39:49:17,  2.55s/it] 28%|██▊       | 22185/78504 [13:29:41<38:08:30,  2.44s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.19940441846847534, 'learning_rate': 2.3917880344783662e-05, 'epoch': 6.78}
 28%|██▊       | 22185/78504 [13:29:41<38:08:30,  2.44s/it] 28%|██▊       | 22186/78504 [13:29:43<36:44:38,  2.35s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.7235556244850159, 'learning_rate': 2.391745573436372e-05, 'epoch': 6.78}
 28%|██▊       | 22186/78504 [13:29:43<36:44:38,  2.35s/it] 28%|██▊       | 22187/78504 [13:29:45<34:27:29,  2.20s/it]                                                           {'loss': 0.08, 'grad_norm': 0.42762333154678345, 'learning_rate': 2.3917031123943783e-05, 'epoch': 6.78}
 28%|██▊       | 22187/78504 [13:29:45<34:27:29,  2.20s/it] 28%|██▊       | 22188/78504 [13:29:47<33:24:41,  2.14s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.43909409642219543, 'learning_rate': 2.391660651352384e-05, 'epoch': 6.78}
 28%|██▊       | 22188/78504 [13:29:47<33:24:41,  2.14s/it] 28%|██▊       | 22189/78504 [13:29:49<32:23:46,  2.07s/it]                                                           {'loss': 0.1176, 'grad_norm': 0.352649062871933, 'learning_rate': 2.3916181903103904e-05, 'epoch': 6.78}
 28%|██▊       | 22189/78504 [13:29:49<32:23:46,  2.07s/it] 28%|██▊       | 22190/78504 [13:29:50<31:29:48,  2.01s/it]                                                           {'loss': 0.0941, 'grad_norm': 0.3729504346847534, 'learning_rate': 2.3915757292683962e-05, 'epoch': 6.78}
 28%|██▊       | 22190/78504 [13:29:50<31:29:48,  2.01s/it] 28%|██▊       | 22191/78504 [13:29:52<30:16:59,  1.94s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.3159545361995697, 'learning_rate': 2.3915332682264025e-05, 'epoch': 6.78}
 28%|██▊       | 22191/78504 [13:29:52<30:16:59,  1.94s/it] 28%|██▊       | 22192/78504 [13:29:54<28:57:52,  1.85s/it]                                                           {'loss': 0.1194, 'grad_norm': 0.9963465929031372, 'learning_rate': 2.3914908071844083e-05, 'epoch': 6.78}
 28%|██▊       | 22192/78504 [13:29:54<28:57:52,  1.85s/it] 28%|██▊       | 22193/78504 [13:29:55<27:32:58,  1.76s/it]                                                           {'loss': 0.163, 'grad_norm': 1.7939835786819458, 'learning_rate': 2.3914483461424142e-05, 'epoch': 6.78}
 28%|██▊       | 22193/78504 [13:29:55<27:32:58,  1.76s/it] 28%|██▊       | 22194/78504 [13:29:57<25:56:19,  1.66s/it]                                                           {'loss': 0.1409, 'grad_norm': 0.42396435141563416, 'learning_rate': 2.3914058851004204e-05, 'epoch': 6.79}
 28%|██▊       | 22194/78504 [13:29:57<25:56:19,  1.66s/it] 28%|██▊       | 22195/78504 [13:29:58<24:46:54,  1.58s/it]                                                           {'loss': 0.1897, 'grad_norm': 1.583531379699707, 'learning_rate': 2.3913634240584263e-05, 'epoch': 6.79}
 28%|██▊       | 22195/78504 [13:29:58<24:46:54,  1.58s/it] 28%|██▊       | 22196/78504 [13:29:59<23:05:05,  1.48s/it]                                                           {'loss': 0.2091, 'grad_norm': 1.040088176727295, 'learning_rate': 2.3913209630164325e-05, 'epoch': 6.79}
 28%|██▊       | 22196/78504 [13:29:59<23:05:05,  1.48s/it] 28%|██▊       | 22197/78504 [13:30:01<21:26:59,  1.37s/it]                                                           {'loss': 0.1702, 'grad_norm': 1.5164368152618408, 'learning_rate': 2.3912785019744384e-05, 'epoch': 6.79}
 28%|██▊       | 22197/78504 [13:30:01<21:26:59,  1.37s/it] 28%|██▊       | 22198/78504 [13:30:02<20:08:49,  1.29s/it]                                                           {'loss': 0.171, 'grad_norm': 3.5167009830474854, 'learning_rate': 2.3912360409324446e-05, 'epoch': 6.79}
 28%|██▊       | 22198/78504 [13:30:02<20:08:49,  1.29s/it] 28%|██▊       | 22199/78504 [13:30:03<18:43:41,  1.20s/it]                                                           {'loss': 0.1597, 'grad_norm': 1.2108067274093628, 'learning_rate': 2.3911935798904504e-05, 'epoch': 6.79}
 28%|██▊       | 22199/78504 [13:30:03<18:43:41,  1.20s/it] 28%|██▊       | 22200/78504 [13:30:04<17:28:31,  1.12s/it]                                                           {'loss': 0.2027, 'grad_norm': 0.6947643160820007, 'learning_rate': 2.3911511188484566e-05, 'epoch': 6.79}
 28%|██▊       | 22200/78504 [13:30:04<17:28:31,  1.12s/it] 28%|██▊       | 22201/78504 [13:30:04<15:54:00,  1.02s/it]                                                           {'loss': 0.2091, 'grad_norm': 1.865363597869873, 'learning_rate': 2.3911086578064625e-05, 'epoch': 6.79}
 28%|██▊       | 22201/78504 [13:30:04<15:54:00,  1.02s/it] 28%|██▊       | 22202/78504 [13:30:13<50:11:01,  3.21s/it]                                                           {'loss': 0.1633, 'grad_norm': 0.47872036695480347, 'learning_rate': 2.3910661967644687e-05, 'epoch': 6.79}
 28%|██▊       | 22202/78504 [13:30:13<50:11:01,  3.21s/it] 28%|██▊       | 22203/78504 [13:30:16<49:32:36,  3.17s/it]                                                           {'loss': 0.0699, 'grad_norm': 0.2978817820549011, 'learning_rate': 2.3910237357224746e-05, 'epoch': 6.79}
 28%|██▊       | 22203/78504 [13:30:16<49:32:36,  3.17s/it] 28%|██▊       | 22204/78504 [13:30:18<46:41:06,  2.99s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.23445060849189758, 'learning_rate': 2.3909812746804805e-05, 'epoch': 6.79}
 28%|██▊       | 22204/78504 [13:30:18<46:41:06,  2.99s/it] 28%|██▊       | 22205/78504 [13:30:21<44:55:17,  2.87s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.5497908592224121, 'learning_rate': 2.3909388136384867e-05, 'epoch': 6.79}
 28%|██▊       | 22205/78504 [13:30:21<44:55:17,  2.87s/it] 28%|██▊       | 22206/78504 [13:30:23<43:00:38,  2.75s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.29509487748146057, 'learning_rate': 2.3908963525964925e-05, 'epoch': 6.79}
 28%|██▊       | 22206/78504 [13:30:23<43:00:38,  2.75s/it] 28%|██▊       | 22207/78504 [13:30:26<40:42:56,  2.60s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.2853676378726959, 'learning_rate': 2.3908538915544987e-05, 'epoch': 6.79}
 28%|██▊       | 22207/78504 [13:30:26<40:42:56,  2.60s/it] 28%|██▊       | 22208/78504 [13:30:28<39:23:01,  2.52s/it]                                                           {'loss': 0.0494, 'grad_norm': 0.6122973561286926, 'learning_rate': 2.3908114305125046e-05, 'epoch': 6.79}
 28%|██▊       | 22208/78504 [13:30:28<39:23:01,  2.52s/it] 28%|██▊       | 22209/78504 [13:30:30<37:19:44,  2.39s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.2943824231624603, 'learning_rate': 2.3907689694705108e-05, 'epoch': 6.79}
 28%|██▊       | 22209/78504 [13:30:30<37:19:44,  2.39s/it] 28%|██▊       | 22210/78504 [13:30:32<35:38:08,  2.28s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.30279427766799927, 'learning_rate': 2.3907265084285167e-05, 'epoch': 6.79}
 28%|██▊       | 22210/78504 [13:30:32<35:38:08,  2.28s/it] 28%|██▊       | 22211/78504 [13:30:34<34:57:56,  2.24s/it]                                                           {'loss': 0.06, 'grad_norm': 0.2856222987174988, 'learning_rate': 2.390684047386523e-05, 'epoch': 6.79}
 28%|██▊       | 22211/78504 [13:30:34<34:57:56,  2.24s/it] 28%|██▊       | 22212/78504 [13:30:36<33:47:46,  2.16s/it]                                                           {'loss': 0.0749, 'grad_norm': 0.36618608236312866, 'learning_rate': 2.3906415863445288e-05, 'epoch': 6.79}
 28%|██▊       | 22212/78504 [13:30:36<33:47:46,  2.16s/it] 28%|██▊       | 22213/78504 [13:30:38<32:07:14,  2.05s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.4182315170764923, 'learning_rate': 2.390599125302535e-05, 'epoch': 6.79}
 28%|██▊       | 22213/78504 [13:30:38<32:07:14,  2.05s/it] 28%|██▊       | 22214/78504 [13:30:40<31:12:50,  2.00s/it]                                                           {'loss': 0.0938, 'grad_norm': 1.1459132432937622, 'learning_rate': 2.390556664260541e-05, 'epoch': 6.79}
 28%|██▊       | 22214/78504 [13:30:40<31:12:50,  2.00s/it] 28%|██▊       | 22215/78504 [13:30:42<30:26:00,  1.95s/it]                                                           {'loss': 0.1323, 'grad_norm': 0.5693000555038452, 'learning_rate': 2.390514203218547e-05, 'epoch': 6.79}
 28%|██▊       | 22215/78504 [13:30:42<30:26:00,  1.95s/it] 28%|██▊       | 22216/78504 [13:30:43<29:27:15,  1.88s/it]                                                           {'loss': 0.1118, 'grad_norm': 0.37699878215789795, 'learning_rate': 2.390471742176553e-05, 'epoch': 6.79}
 28%|██▊       | 22216/78504 [13:30:43<29:27:15,  1.88s/it] 28%|██▊       | 22217/78504 [13:30:45<28:18:39,  1.81s/it]                                                           {'loss': 0.1485, 'grad_norm': 0.5214504599571228, 'learning_rate': 2.3904292811345588e-05, 'epoch': 6.79}
 28%|██▊       | 22217/78504 [13:30:45<28:18:39,  1.81s/it] 28%|██▊       | 22218/78504 [13:30:47<26:55:08,  1.72s/it]                                                           {'loss': 0.173, 'grad_norm': 0.4707179665565491, 'learning_rate': 2.390386820092565e-05, 'epoch': 6.79}
 28%|██▊       | 22218/78504 [13:30:47<26:55:08,  1.72s/it] 28%|██▊       | 22219/78504 [13:30:48<25:27:46,  1.63s/it]                                                           {'loss': 0.1742, 'grad_norm': 0.8319391012191772, 'learning_rate': 2.390344359050571e-05, 'epoch': 6.79}
 28%|██▊       | 22219/78504 [13:30:48<25:27:46,  1.63s/it] 28%|██▊       | 22220/78504 [13:30:49<24:25:13,  1.56s/it]                                                           {'loss': 0.1321, 'grad_norm': 0.35827377438545227, 'learning_rate': 2.390301898008577e-05, 'epoch': 6.79}
 28%|██▊       | 22220/78504 [13:30:49<24:25:13,  1.56s/it] 28%|██▊       | 22221/78504 [13:30:51<22:49:42,  1.46s/it]                                                           {'loss': 0.1447, 'grad_norm': 1.083058476448059, 'learning_rate': 2.390259436966583e-05, 'epoch': 6.79}
 28%|██▊       | 22221/78504 [13:30:51<22:49:42,  1.46s/it] 28%|██▊       | 22222/78504 [13:30:52<21:15:51,  1.36s/it]                                                           {'loss': 0.1939, 'grad_norm': 0.5932117104530334, 'learning_rate': 2.390216975924589e-05, 'epoch': 6.79}
 28%|██▊       | 22222/78504 [13:30:52<21:15:51,  1.36s/it] 28%|██▊       | 22223/78504 [13:30:53<19:59:04,  1.28s/it]                                                           {'loss': 0.1725, 'grad_norm': 0.5245637893676758, 'learning_rate': 2.390174514882595e-05, 'epoch': 6.79}
 28%|██▊       | 22223/78504 [13:30:53<19:59:04,  1.28s/it] 28%|██▊       | 22224/78504 [13:30:54<18:37:56,  1.19s/it]                                                           {'loss': 0.1946, 'grad_norm': 0.938563883304596, 'learning_rate': 2.3901320538406012e-05, 'epoch': 6.79}
 28%|██▊       | 22224/78504 [13:30:54<18:37:56,  1.19s/it] 28%|██▊       | 22225/78504 [13:30:55<17:25:05,  1.11s/it]                                                           {'loss': 0.2168, 'grad_norm': 1.2025971412658691, 'learning_rate': 2.390089592798607e-05, 'epoch': 6.79}
 28%|██▊       | 22225/78504 [13:30:55<17:25:05,  1.11s/it] 28%|██▊       | 22226/78504 [13:30:56<15:53:31,  1.02s/it]                                                           {'loss': 0.2303, 'grad_norm': 0.8193597197532654, 'learning_rate': 2.3900471317566133e-05, 'epoch': 6.79}
 28%|██▊       | 22226/78504 [13:30:56<15:53:31,  1.02s/it] 28%|██▊       | 22227/78504 [13:31:03<47:26:37,  3.03s/it]                                                           {'loss': 0.1627, 'grad_norm': 0.40389880537986755, 'learning_rate': 2.3900046707146195e-05, 'epoch': 6.8}
 28%|██▊       | 22227/78504 [13:31:03<47:26:37,  3.03s/it] 28%|██▊       | 22228/78504 [13:31:07<48:42:10,  3.12s/it]                                                           {'loss': 0.0851, 'grad_norm': 0.23100876808166504, 'learning_rate': 2.3899622096726257e-05, 'epoch': 6.8}
 28%|██▊       | 22228/78504 [13:31:07<48:42:10,  3.12s/it] 28%|██▊       | 22229/78504 [13:31:10<48:03:30,  3.07s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.2252345085144043, 'learning_rate': 2.3899197486306316e-05, 'epoch': 6.8}
 28%|██▊       | 22229/78504 [13:31:10<48:03:30,  3.07s/it] 28%|██▊       | 22230/78504 [13:31:12<45:47:09,  2.93s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.3326300084590912, 'learning_rate': 2.3898772875886375e-05, 'epoch': 6.8}
 28%|██▊       | 22230/78504 [13:31:12<45:47:09,  2.93s/it] 28%|██▊       | 22231/78504 [13:31:15<43:35:58,  2.79s/it]                                                           {'loss': 0.0559, 'grad_norm': 0.3776150345802307, 'learning_rate': 2.3898348265466437e-05, 'epoch': 6.8}
 28%|██▊       | 22231/78504 [13:31:15<43:35:58,  2.79s/it] 28%|██▊       | 22232/78504 [13:31:17<41:08:10,  2.63s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.17162874341011047, 'learning_rate': 2.3897923655046496e-05, 'epoch': 6.8}
 28%|██▊       | 22232/78504 [13:31:17<41:08:10,  2.63s/it] 28%|██▊       | 22233/78504 [13:31:19<39:38:40,  2.54s/it]                                                           {'loss': 0.0912, 'grad_norm': 0.25307756662368774, 'learning_rate': 2.3897499044626558e-05, 'epoch': 6.8}
 28%|██▊       | 22233/78504 [13:31:19<39:38:40,  2.54s/it] 28%|██▊       | 22234/78504 [13:31:21<37:32:32,  2.40s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.2965870797634125, 'learning_rate': 2.3897074434206616e-05, 'epoch': 6.8}
 28%|██▊       | 22234/78504 [13:31:21<37:32:32,  2.40s/it] 28%|██▊       | 22235/78504 [13:31:23<35:46:45,  2.29s/it]                                                           {'loss': 0.0752, 'grad_norm': 1.2381579875946045, 'learning_rate': 2.389664982378668e-05, 'epoch': 6.8}
 28%|██▊       | 22235/78504 [13:31:23<35:46:45,  2.29s/it] 28%|██▊       | 22236/78504 [13:31:25<35:02:42,  2.24s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.2739071547985077, 'learning_rate': 2.3896225213366737e-05, 'epoch': 6.8}
 28%|██▊       | 22236/78504 [13:31:25<35:02:42,  2.24s/it] 28%|██▊       | 22237/78504 [13:31:27<34:03:54,  2.18s/it]                                                           {'loss': 0.1217, 'grad_norm': 0.33016160130500793, 'learning_rate': 2.38958006029468e-05, 'epoch': 6.8}
 28%|██▊       | 22237/78504 [13:31:28<34:03:54,  2.18s/it] 28%|██▊       | 22238/78504 [13:31:29<33:07:03,  2.12s/it]                                                           {'loss': 0.0765, 'grad_norm': 0.40179532766342163, 'learning_rate': 2.3895375992526858e-05, 'epoch': 6.8}
 28%|██▊       | 22238/78504 [13:31:29<33:07:03,  2.12s/it] 28%|██▊       | 22239/78504 [13:31:31<31:55:17,  2.04s/it]                                                           {'loss': 0.0925, 'grad_norm': 0.4674365818500519, 'learning_rate': 2.389495138210692e-05, 'epoch': 6.8}
 28%|██▊       | 22239/78504 [13:31:31<31:55:17,  2.04s/it] 28%|██▊       | 22240/78504 [13:31:33<31:05:47,  1.99s/it]                                                           {'loss': 0.1295, 'grad_norm': 0.7207281589508057, 'learning_rate': 2.389452677168698e-05, 'epoch': 6.8}
 28%|██▊       | 22240/78504 [13:31:33<31:05:47,  1.99s/it] 28%|██▊       | 22241/78504 [13:31:35<30:02:37,  1.92s/it]                                                           {'loss': 0.1191, 'grad_norm': 0.9160220623016357, 'learning_rate': 2.389410216126704e-05, 'epoch': 6.8}
 28%|██▊       | 22241/78504 [13:31:35<30:02:37,  1.92s/it] 28%|██▊       | 22242/78504 [13:31:37<28:45:18,  1.84s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.3883257210254669, 'learning_rate': 2.38936775508471e-05, 'epoch': 6.8}
 28%|██▊       | 22242/78504 [13:31:37<28:45:18,  1.84s/it] 28%|██▊       | 22243/78504 [13:31:38<27:22:54,  1.75s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.6025193333625793, 'learning_rate': 2.3893252940427158e-05, 'epoch': 6.8}
 28%|██▊       | 22243/78504 [13:31:38<27:22:54,  1.75s/it] 28%|██▊       | 22244/78504 [13:31:40<26:03:19,  1.67s/it]                                                           {'loss': 0.1614, 'grad_norm': 0.7415311336517334, 'learning_rate': 2.389282833000722e-05, 'epoch': 6.8}
 28%|██▊       | 22244/78504 [13:31:40<26:03:19,  1.67s/it] 28%|██▊       | 22245/78504 [13:31:41<24:47:50,  1.59s/it]                                                           {'loss': 0.1472, 'grad_norm': 0.6887041330337524, 'learning_rate': 2.389240371958728e-05, 'epoch': 6.8}
 28%|██▊       | 22245/78504 [13:31:41<24:47:50,  1.59s/it] 28%|██▊       | 22246/78504 [13:31:42<23:22:10,  1.50s/it]                                                           {'loss': 0.1365, 'grad_norm': 9.630769729614258, 'learning_rate': 2.389197910916734e-05, 'epoch': 6.8}
 28%|██▊       | 22246/78504 [13:31:42<23:22:10,  1.50s/it] 28%|██▊       | 22247/78504 [13:31:43<21:45:22,  1.39s/it]                                                           {'loss': 0.1759, 'grad_norm': 0.7485224008560181, 'learning_rate': 2.38915544987474e-05, 'epoch': 6.8}
 28%|██▊       | 22247/78504 [13:31:43<21:45:22,  1.39s/it] 28%|██▊       | 22248/78504 [13:31:45<20:20:33,  1.30s/it]                                                           {'loss': 0.1494, 'grad_norm': 1.5059969425201416, 'learning_rate': 2.3891129888327462e-05, 'epoch': 6.8}
 28%|██▊       | 22248/78504 [13:31:45<20:20:33,  1.30s/it] 28%|██▊       | 22249/78504 [13:31:46<19:13:48,  1.23s/it]                                                           {'loss': 0.1312, 'grad_norm': 0.8876821994781494, 'learning_rate': 2.389070527790752e-05, 'epoch': 6.8}
 28%|██▊       | 22249/78504 [13:31:46<19:13:48,  1.23s/it] 28%|██▊       | 22250/78504 [13:31:47<17:49:15,  1.14s/it]                                                           {'loss': 0.1967, 'grad_norm': 1.2234715223312378, 'learning_rate': 2.3890280667487583e-05, 'epoch': 6.8}
 28%|██▊       | 22250/78504 [13:31:47<17:49:15,  1.14s/it] 28%|██▊       | 22251/78504 [13:31:47<16:06:40,  1.03s/it]                                                           {'loss': 0.171, 'grad_norm': 0.8511974215507507, 'learning_rate': 2.388985605706764e-05, 'epoch': 6.8}
 28%|██▊       | 22251/78504 [13:31:47<16:06:40,  1.03s/it] 28%|██▊       | 22252/78504 [13:31:58<60:31:29,  3.87s/it]                                                           {'loss': 0.1363, 'grad_norm': 0.3093087673187256, 'learning_rate': 2.3889431446647704e-05, 'epoch': 6.8}
 28%|██▊       | 22252/78504 [13:31:58<60:31:29,  3.87s/it] 28%|██▊       | 22253/78504 [13:32:01<56:56:16,  3.64s/it]                                                           {'loss': 0.0976, 'grad_norm': 0.4378778636455536, 'learning_rate': 2.3889006836227762e-05, 'epoch': 6.8}
 28%|██▊       | 22253/78504 [13:32:01<56:56:16,  3.64s/it] 28%|██▊       | 22254/78504 [13:32:04<53:47:29,  3.44s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.7406368851661682, 'learning_rate': 2.3888582225807824e-05, 'epoch': 6.8}
 28%|██▊       | 22254/78504 [13:32:04<53:47:29,  3.44s/it] 28%|██▊       | 22255/78504 [13:32:07<49:53:46,  3.19s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.2807108163833618, 'learning_rate': 2.3888157615387883e-05, 'epoch': 6.8}
 28%|██▊       | 22255/78504 [13:32:07<49:53:46,  3.19s/it] 28%|██▊       | 22256/78504 [13:32:09<45:57:16,  2.94s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.35277315974235535, 'learning_rate': 2.388773300496794e-05, 'epoch': 6.8}
 28%|██▊       | 22256/78504 [13:32:09<45:57:16,  2.94s/it] 28%|██▊       | 22257/78504 [13:32:11<42:46:46,  2.74s/it]                                                           {'loss': 0.0397, 'grad_norm': 0.35565659403800964, 'learning_rate': 2.3887308394548004e-05, 'epoch': 6.8}
 28%|██▊       | 22257/78504 [13:32:11<42:46:46,  2.74s/it] 28%|██▊       | 22258/78504 [13:32:13<40:49:54,  2.61s/it]                                                           {'loss': 0.07, 'grad_norm': 0.42720919847488403, 'learning_rate': 2.3886883784128062e-05, 'epoch': 6.8}
 28%|██▊       | 22258/78504 [13:32:13<40:49:54,  2.61s/it] 28%|██▊       | 22259/78504 [13:32:16<38:21:12,  2.45s/it]                                                           {'loss': 0.0308, 'grad_norm': 0.18344227969646454, 'learning_rate': 2.3886459173708125e-05, 'epoch': 6.8}
 28%|██▊       | 22259/78504 [13:32:16<38:21:12,  2.45s/it] 28%|██▊       | 22260/78504 [13:32:18<36:21:04,  2.33s/it]                                                           {'loss': 0.0853, 'grad_norm': 0.5292580723762512, 'learning_rate': 2.3886034563288183e-05, 'epoch': 6.81}
 28%|██▊       | 22260/78504 [13:32:18<36:21:04,  2.33s/it] 28%|██▊       | 22261/78504 [13:32:20<35:26:00,  2.27s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.24441619217395782, 'learning_rate': 2.3885609952868245e-05, 'epoch': 6.81}
 28%|██▊       | 22261/78504 [13:32:20<35:26:00,  2.27s/it] 28%|██▊       | 22262/78504 [13:32:22<34:09:52,  2.19s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.3594871759414673, 'learning_rate': 2.3885185342448304e-05, 'epoch': 6.81}
 28%|██▊       | 22262/78504 [13:32:22<34:09:52,  2.19s/it] 28%|██▊       | 22263/78504 [13:32:24<32:21:40,  2.07s/it]                                                           {'loss': 0.0808, 'grad_norm': 0.2109840214252472, 'learning_rate': 2.3884760732028366e-05, 'epoch': 6.81}
 28%|██▊       | 22263/78504 [13:32:24<32:21:40,  2.07s/it] 28%|██▊       | 22264/78504 [13:32:25<31:22:48,  2.01s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.43864843249320984, 'learning_rate': 2.3884336121608425e-05, 'epoch': 6.81}
 28%|██▊       | 22264/78504 [13:32:25<31:22:48,  2.01s/it] 28%|██▊       | 22265/78504 [13:32:27<29:59:03,  1.92s/it]                                                           {'loss': 0.1083, 'grad_norm': 0.27524930238723755, 'learning_rate': 2.3883911511188487e-05, 'epoch': 6.81}
 28%|██▊       | 22265/78504 [13:32:27<29:59:03,  1.92s/it] 28%|██▊       | 22266/78504 [13:32:29<29:15:52,  1.87s/it]                                                           {'loss': 0.1351, 'grad_norm': 0.3923599123954773, 'learning_rate': 2.3883486900768546e-05, 'epoch': 6.81}
 28%|██▊       | 22266/78504 [13:32:29<29:15:52,  1.87s/it] 28%|██▊       | 22267/78504 [13:32:30<28:09:46,  1.80s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.37515026330947876, 'learning_rate': 2.3883062290348608e-05, 'epoch': 6.81}
 28%|██▊       | 22267/78504 [13:32:31<28:09:46,  1.80s/it] 28%|██▊       | 22268/78504 [13:32:32<26:47:42,  1.72s/it]                                                           {'loss': 0.1883, 'grad_norm': 0.6024891138076782, 'learning_rate': 2.3882637679928666e-05, 'epoch': 6.81}
 28%|██▊       | 22268/78504 [13:32:32<26:47:42,  1.72s/it] 28%|██▊       | 22269/78504 [13:32:33<25:28:58,  1.63s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.6994851231575012, 'learning_rate': 2.3882213069508725e-05, 'epoch': 6.81}
 28%|██▊       | 22269/78504 [13:32:33<25:28:58,  1.63s/it] 28%|██▊       | 22270/78504 [13:32:35<24:27:21,  1.57s/it]                                                           {'loss': 0.1317, 'grad_norm': 0.36238595843315125, 'learning_rate': 2.3881788459088787e-05, 'epoch': 6.81}
 28%|██▊       | 22270/78504 [13:32:35<24:27:21,  1.57s/it] 28%|██▊       | 22271/78504 [13:32:36<22:49:45,  1.46s/it]                                                           {'loss': 0.1475, 'grad_norm': 1.1226582527160645, 'learning_rate': 2.3881363848668846e-05, 'epoch': 6.81}
 28%|██▊       | 22271/78504 [13:32:36<22:49:45,  1.46s/it] 28%|██▊       | 22272/78504 [13:32:37<21:20:08,  1.37s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.5313805937767029, 'learning_rate': 2.3880939238248908e-05, 'epoch': 6.81}
 28%|██▊       | 22272/78504 [13:32:37<21:20:08,  1.37s/it] 28%|██▊       | 22273/78504 [13:32:38<20:07:35,  1.29s/it]                                                           {'loss': 0.1584, 'grad_norm': 0.6029691100120544, 'learning_rate': 2.3880514627828967e-05, 'epoch': 6.81}
 28%|██▊       | 22273/78504 [13:32:38<20:07:35,  1.29s/it] 28%|██▊       | 22274/78504 [13:32:39<18:46:50,  1.20s/it]                                                           {'loss': 0.1455, 'grad_norm': 2.118182897567749, 'learning_rate': 2.388009001740903e-05, 'epoch': 6.81}
 28%|██▊       | 22274/78504 [13:32:39<18:46:50,  1.20s/it] 28%|██▊       | 22275/78504 [13:32:40<17:31:38,  1.12s/it]                                                           {'loss': 0.2296, 'grad_norm': 1.2081999778747559, 'learning_rate': 2.3879665406989087e-05, 'epoch': 6.81}
 28%|██▊       | 22275/78504 [13:32:40<17:31:38,  1.12s/it] 28%|██▊       | 22276/78504 [13:32:41<15:56:47,  1.02s/it]                                                           {'loss': 0.1901, 'grad_norm': 1.301877737045288, 'learning_rate': 2.387924079656915e-05, 'epoch': 6.81}
 28%|██▊       | 22276/78504 [13:32:41<15:56:47,  1.02s/it] 28%|██▊       | 22277/78504 [13:32:51<56:10:51,  3.60s/it]                                                           {'loss': 0.1048, 'grad_norm': 0.37158435583114624, 'learning_rate': 2.3878816186149208e-05, 'epoch': 6.81}
 28%|██▊       | 22277/78504 [13:32:51<56:10:51,  3.60s/it] 28%|██▊       | 22278/78504 [13:32:54<53:49:00,  3.45s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.23383858799934387, 'learning_rate': 2.387839157572927e-05, 'epoch': 6.81}
 28%|██▊       | 22278/78504 [13:32:54<53:49:00,  3.45s/it] 28%|██▊       | 22279/78504 [13:32:56<49:41:03,  3.18s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.2999046742916107, 'learning_rate': 2.387796696530933e-05, 'epoch': 6.81}
 28%|██▊       | 22279/78504 [13:32:56<49:41:03,  3.18s/it] 28%|██▊       | 22280/78504 [13:32:59<47:01:17,  3.01s/it]                                                           {'loss': 0.063, 'grad_norm': 0.2125459760427475, 'learning_rate': 2.387754235488939e-05, 'epoch': 6.81}
 28%|██▊       | 22280/78504 [13:32:59<47:01:17,  3.01s/it] 28%|██▊       | 22281/78504 [13:33:01<44:26:51,  2.85s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.29325780272483826, 'learning_rate': 2.387711774446945e-05, 'epoch': 6.81}
 28%|██▊       | 22281/78504 [13:33:01<44:26:51,  2.85s/it] 28%|██▊       | 22282/78504 [13:33:04<41:42:02,  2.67s/it]                                                           {'loss': 0.0313, 'grad_norm': 1.3246369361877441, 'learning_rate': 2.387669313404951e-05, 'epoch': 6.81}
 28%|██▊       | 22282/78504 [13:33:04<41:42:02,  2.67s/it] 28%|██▊       | 22283/78504 [13:33:06<40:00:59,  2.56s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.16311880946159363, 'learning_rate': 2.387626852362957e-05, 'epoch': 6.81}
 28%|██▊       | 22283/78504 [13:33:06<40:00:59,  2.56s/it] 28%|██▊       | 22284/78504 [13:33:08<37:53:23,  2.43s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.31733056902885437, 'learning_rate': 2.387584391320963e-05, 'epoch': 6.81}
 28%|██▊       | 22284/78504 [13:33:08<37:53:23,  2.43s/it] 28%|██▊       | 22285/78504 [13:33:10<36:41:56,  2.35s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.39444684982299805, 'learning_rate': 2.387541930278969e-05, 'epoch': 6.81}
 28%|██▊       | 22285/78504 [13:33:10<36:41:56,  2.35s/it] 28%|██▊       | 22286/78504 [13:33:12<35:49:02,  2.29s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.2435513138771057, 'learning_rate': 2.387499469236975e-05, 'epoch': 6.81}
 28%|██▊       | 22286/78504 [13:33:12<35:49:02,  2.29s/it] 28%|██▊       | 22287/78504 [13:33:14<34:32:53,  2.21s/it]                                                           {'loss': 0.0793, 'grad_norm': 0.7381508946418762, 'learning_rate': 2.3874570081949812e-05, 'epoch': 6.81}
 28%|██▊       | 22287/78504 [13:33:14<34:32:53,  2.21s/it] 28%|██▊       | 22288/78504 [13:33:16<33:24:15,  2.14s/it]                                                           {'loss': 0.0981, 'grad_norm': 0.49527159333229065, 'learning_rate': 2.387414547152987e-05, 'epoch': 6.81}
 28%|██▊       | 22288/78504 [13:33:16<33:24:15,  2.14s/it] 28%|██▊       | 22289/78504 [13:33:18<32:22:47,  2.07s/it]                                                           {'loss': 0.1121, 'grad_norm': 0.3283661901950836, 'learning_rate': 2.3873720861109933e-05, 'epoch': 6.81}
 28%|██▊       | 22289/78504 [13:33:18<32:22:47,  2.07s/it] 28%|██▊       | 22290/78504 [13:33:20<31:22:34,  2.01s/it]                                                           {'loss': 0.1144, 'grad_norm': 0.921956479549408, 'learning_rate': 2.3873296250689992e-05, 'epoch': 6.81}
 28%|██▊       | 22290/78504 [13:33:20<31:22:34,  2.01s/it] 28%|██▊       | 22291/78504 [13:33:22<30:12:57,  1.94s/it]                                                           {'loss': 0.0866, 'grad_norm': 0.2888866662979126, 'learning_rate': 2.3872871640270054e-05, 'epoch': 6.81}
 28%|██▊       | 22291/78504 [13:33:22<30:12:57,  1.94s/it] 28%|██▊       | 22292/78504 [13:33:23<28:32:52,  1.83s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.602588415145874, 'learning_rate': 2.3872447029850112e-05, 'epoch': 6.82}
 28%|██▊       | 22292/78504 [13:33:24<28:32:52,  1.83s/it] 28%|██▊       | 22293/78504 [13:33:25<27:10:15,  1.74s/it]                                                           {'loss': 0.1257, 'grad_norm': 0.49659785628318787, 'learning_rate': 2.3872022419430175e-05, 'epoch': 6.82}
 28%|██▊       | 22293/78504 [13:33:25<27:10:15,  1.74s/it] 28%|██▊       | 22294/78504 [13:33:27<26:05:20,  1.67s/it]                                                           {'loss': 0.1469, 'grad_norm': 0.5637485980987549, 'learning_rate': 2.3871597809010233e-05, 'epoch': 6.82}
 28%|██▊       | 22294/78504 [13:33:27<26:05:20,  1.67s/it] 28%|██▊       | 22295/78504 [13:33:28<24:52:20,  1.59s/it]                                                           {'loss': 0.151, 'grad_norm': 0.42343756556510925, 'learning_rate': 2.3871173198590292e-05, 'epoch': 6.82}
 28%|██▊       | 22295/78504 [13:33:28<24:52:20,  1.59s/it] 28%|██▊       | 22296/78504 [13:33:29<23:26:01,  1.50s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.6060395836830139, 'learning_rate': 2.3870748588170354e-05, 'epoch': 6.82}
 28%|██▊       | 22296/78504 [13:33:29<23:26:01,  1.50s/it] 28%|██▊       | 22297/78504 [13:33:30<21:48:32,  1.40s/it]                                                           {'loss': 0.1706, 'grad_norm': 1.6074163913726807, 'learning_rate': 2.3870323977750413e-05, 'epoch': 6.82}
 28%|██▊       | 22297/78504 [13:33:30<21:48:32,  1.40s/it] 28%|██▊       | 22298/78504 [13:33:31<20:25:15,  1.31s/it]                                                           {'loss': 0.167, 'grad_norm': 0.9426450729370117, 'learning_rate': 2.3869899367330475e-05, 'epoch': 6.82}
 28%|██▊       | 22298/78504 [13:33:32<20:25:15,  1.31s/it] 28%|██▊       | 22299/78504 [13:33:32<18:57:31,  1.21s/it]                                                           {'loss': 0.1889, 'grad_norm': 1.430928111076355, 'learning_rate': 2.3869474756910534e-05, 'epoch': 6.82}
 28%|██▊       | 22299/78504 [13:33:33<18:57:31,  1.21s/it] 28%|██▊       | 22300/78504 [13:33:33<17:40:28,  1.13s/it]                                                           {'loss': 0.2217, 'grad_norm': 0.7953181862831116, 'learning_rate': 2.3869050146490596e-05, 'epoch': 6.82}
 28%|██▊       | 22300/78504 [13:33:33<17:40:28,  1.13s/it] 28%|██▊       | 22301/78504 [13:33:34<16:05:33,  1.03s/it]                                                           {'loss': 0.2591, 'grad_norm': 1.6825902462005615, 'learning_rate': 2.3868625536070654e-05, 'epoch': 6.82}
 28%|██▊       | 22301/78504 [13:33:34<16:05:33,  1.03s/it] 28%|██▊       | 22302/78504 [13:33:42<45:43:54,  2.93s/it]                                                           {'loss': 0.1191, 'grad_norm': 0.3292333781719208, 'learning_rate': 2.3868200925650716e-05, 'epoch': 6.82}
 28%|██▊       | 22302/78504 [13:33:42<45:43:54,  2.93s/it] 28%|██▊       | 22303/78504 [13:33:45<47:44:11,  3.06s/it]                                                           {'loss': 0.0776, 'grad_norm': 0.29457181692123413, 'learning_rate': 2.3867776315230775e-05, 'epoch': 6.82}
 28%|██▊       | 22303/78504 [13:33:45<47:44:11,  3.06s/it] 28%|██▊       | 22304/78504 [13:33:48<45:25:32,  2.91s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.20391470193862915, 'learning_rate': 2.3867351704810837e-05, 'epoch': 6.82}
 28%|██▊       | 22304/78504 [13:33:48<45:25:32,  2.91s/it] 28%|██▊       | 22305/78504 [13:33:50<43:49:16,  2.81s/it]                                                           {'loss': 0.0473, 'grad_norm': 0.26942455768585205, 'learning_rate': 2.3866927094390896e-05, 'epoch': 6.82}
 28%|██▊       | 22305/78504 [13:33:50<43:49:16,  2.81s/it] 28%|██▊       | 22306/78504 [13:33:53<42:14:07,  2.71s/it]                                                           {'loss': 0.0378, 'grad_norm': 0.1322024166584015, 'learning_rate': 2.3866502483970958e-05, 'epoch': 6.82}
 28%|██▊       | 22306/78504 [13:33:53<42:14:07,  2.71s/it] 28%|██▊       | 22307/78504 [13:33:55<40:56:15,  2.62s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.1740330308675766, 'learning_rate': 2.3866077873551017e-05, 'epoch': 6.82}
 28%|██▊       | 22307/78504 [13:33:55<40:56:15,  2.62s/it] 28%|██▊       | 22308/78504 [13:33:57<39:30:20,  2.53s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.1517321765422821, 'learning_rate': 2.3865653263131075e-05, 'epoch': 6.82}
 28%|██▊       | 22308/78504 [13:33:57<39:30:20,  2.53s/it] 28%|██▊       | 22309/78504 [13:33:59<37:31:20,  2.40s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.3998226523399353, 'learning_rate': 2.3865228652711137e-05, 'epoch': 6.82}
 28%|██▊       | 22309/78504 [13:33:59<37:31:20,  2.40s/it] 28%|██▊       | 22310/78504 [13:34:02<36:29:35,  2.34s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.3079882264137268, 'learning_rate': 2.3864804042291196e-05, 'epoch': 6.82}
 28%|██▊       | 22310/78504 [13:34:02<36:29:35,  2.34s/it] 28%|██▊       | 22311/78504 [13:34:04<35:34:55,  2.28s/it]                                                           {'loss': 0.0466, 'grad_norm': 0.15746863186359406, 'learning_rate': 2.3864379431871258e-05, 'epoch': 6.82}
 28%|██▊       | 22311/78504 [13:34:04<35:34:55,  2.28s/it] 28%|██▊       | 22312/78504 [13:34:06<34:19:59,  2.20s/it]                                                           {'loss': 0.1182, 'grad_norm': 0.5265077948570251, 'learning_rate': 2.3863954821451317e-05, 'epoch': 6.82}
 28%|██▊       | 22312/78504 [13:34:06<34:19:59,  2.20s/it] 28%|██▊       | 22313/78504 [13:34:08<33:19:02,  2.13s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.2338431179523468, 'learning_rate': 2.386353021103138e-05, 'epoch': 6.82}
 28%|██▊       | 22313/78504 [13:34:08<33:19:02,  2.13s/it] 28%|██▊       | 22314/78504 [13:34:10<32:18:06,  2.07s/it]                                                           {'loss': 0.108, 'grad_norm': 0.28886738419532776, 'learning_rate': 2.3863105600611438e-05, 'epoch': 6.82}
 28%|██▊       | 22314/78504 [13:34:10<32:18:06,  2.07s/it] 28%|██▊       | 22315/78504 [13:34:12<31:25:31,  2.01s/it]                                                           {'loss': 0.0966, 'grad_norm': 0.27899304032325745, 'learning_rate': 2.38626809901915e-05, 'epoch': 6.82}
 28%|██▊       | 22315/78504 [13:34:12<31:25:31,  2.01s/it] 28%|██▊       | 22316/78504 [13:34:13<30:15:41,  1.94s/it]                                                           {'loss': 0.1399, 'grad_norm': 0.4284723699092865, 'learning_rate': 2.386225637977156e-05, 'epoch': 6.82}
 28%|██▊       | 22316/78504 [13:34:13<30:15:41,  1.94s/it] 28%|██▊       | 22317/78504 [13:34:15<28:54:58,  1.85s/it]                                                           {'loss': 0.1414, 'grad_norm': 0.5414632558822632, 'learning_rate': 2.386183176935162e-05, 'epoch': 6.82}
 28%|██▊       | 22317/78504 [13:34:15<28:54:58,  1.85s/it] 28%|██▊       | 22318/78504 [13:34:16<27:27:03,  1.76s/it]                                                           {'loss': 0.1623, 'grad_norm': 0.42373132705688477, 'learning_rate': 2.386140715893168e-05, 'epoch': 6.82}
 28%|██▊       | 22318/78504 [13:34:16<27:27:03,  1.76s/it] 28%|██▊       | 22319/78504 [13:34:18<26:05:21,  1.67s/it]                                                           {'loss': 0.1809, 'grad_norm': 1.4267562627792358, 'learning_rate': 2.3860982548511738e-05, 'epoch': 6.82}
 28%|██▊       | 22319/78504 [13:34:18<26:05:21,  1.67s/it] 28%|██▊       | 22320/78504 [13:34:19<24:49:05,  1.59s/it]                                                           {'loss': 0.1468, 'grad_norm': 0.446542352437973, 'learning_rate': 2.38605579380918e-05, 'epoch': 6.82}
 28%|██▊       | 22320/78504 [13:34:19<24:49:05,  1.59s/it] 28%|██▊       | 22321/78504 [13:34:21<23:24:31,  1.50s/it]                                                           {'loss': 0.1561, 'grad_norm': 0.5228882431983948, 'learning_rate': 2.386013332767186e-05, 'epoch': 6.82}
 28%|██▊       | 22321/78504 [13:34:21<23:24:31,  1.50s/it] 28%|██▊       | 22322/78504 [13:34:22<21:38:14,  1.39s/it]                                                           {'loss': 0.1791, 'grad_norm': 0.8322956562042236, 'learning_rate': 2.385970871725192e-05, 'epoch': 6.82}
 28%|██▊       | 22322/78504 [13:34:22<21:38:14,  1.39s/it] 28%|██▊       | 22323/78504 [13:34:23<20:15:35,  1.30s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.788004994392395, 'learning_rate': 2.385928410683198e-05, 'epoch': 6.82}
 28%|██▊       | 22323/78504 [13:34:23<20:15:35,  1.30s/it] 28%|██▊       | 22324/78504 [13:34:24<18:49:46,  1.21s/it]                                                           {'loss': 0.1632, 'grad_norm': 1.0149943828582764, 'learning_rate': 2.3858859496412042e-05, 'epoch': 6.82}
 28%|██▊       | 22324/78504 [13:34:24<18:49:46,  1.21s/it] 28%|██▊       | 22325/78504 [13:34:25<17:34:25,  1.13s/it]                                                           {'loss': 0.198, 'grad_norm': 1.0473145246505737, 'learning_rate': 2.38584348859921e-05, 'epoch': 6.83}
 28%|██▊       | 22325/78504 [13:34:25<17:34:25,  1.13s/it] 28%|██▊       | 22326/78504 [13:34:26<16:03:49,  1.03s/it]                                                           {'loss': 0.2184, 'grad_norm': 0.7847385406494141, 'learning_rate': 2.3858010275572162e-05, 'epoch': 6.83}
 28%|██▊       | 22326/78504 [13:34:26<16:03:49,  1.03s/it] 28%|██▊       | 22327/78504 [13:34:35<56:10:58,  3.60s/it]                                                           {'loss': 0.1252, 'grad_norm': 0.34721270203590393, 'learning_rate': 2.385758566515222e-05, 'epoch': 6.83}
 28%|██▊       | 22327/78504 [13:34:35<56:10:58,  3.60s/it] 28%|██▊       | 22328/78504 [13:34:38<54:44:36,  3.51s/it]                                                           {'loss': 0.0834, 'grad_norm': 0.4276309311389923, 'learning_rate': 2.3857161054732283e-05, 'epoch': 6.83}
 28%|██▊       | 22328/78504 [13:34:38<54:44:36,  3.51s/it] 28%|██▊       | 22329/78504 [13:34:41<52:14:34,  3.35s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.35148489475250244, 'learning_rate': 2.3856736444312345e-05, 'epoch': 6.83}
 28%|██▊       | 22329/78504 [13:34:41<52:14:34,  3.35s/it] 28%|██▊       | 22330/78504 [13:34:44<48:40:24,  3.12s/it]                                                           {'loss': 0.0685, 'grad_norm': 0.37985220551490784, 'learning_rate': 2.3856311833892407e-05, 'epoch': 6.83}
 28%|██▊       | 22330/78504 [13:34:44<48:40:24,  3.12s/it] 28%|██▊       | 22331/78504 [13:34:46<45:05:37,  2.89s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.16245731711387634, 'learning_rate': 2.3855887223472466e-05, 'epoch': 6.83}
 28%|██▊       | 22331/78504 [13:34:46<45:05:37,  2.89s/it] 28%|██▊       | 22332/78504 [13:34:49<42:08:18,  2.70s/it]                                                           {'loss': 0.0499, 'grad_norm': 0.22101956605911255, 'learning_rate': 2.3855462613052525e-05, 'epoch': 6.83}
 28%|██▊       | 22332/78504 [13:34:49<42:08:18,  2.70s/it] 28%|██▊       | 22333/78504 [13:34:51<40:19:34,  2.58s/it]                                                           {'loss': 0.1023, 'grad_norm': 0.7816270589828491, 'learning_rate': 2.3855038002632587e-05, 'epoch': 6.83}
 28%|██▊       | 22333/78504 [13:34:51<40:19:34,  2.58s/it] 28%|██▊       | 22334/78504 [13:34:53<38:01:16,  2.44s/it]                                                           {'loss': 0.0743, 'grad_norm': 2.763969659805298, 'learning_rate': 2.3854613392212646e-05, 'epoch': 6.83}
 28%|██▊       | 22334/78504 [13:34:53<38:01:16,  2.44s/it] 28%|██▊       | 22335/78504 [13:34:55<36:48:12,  2.36s/it]                                                           {'loss': 0.1078, 'grad_norm': 0.7522075772285461, 'learning_rate': 2.3854188781792708e-05, 'epoch': 6.83}
 28%|██▊       | 22335/78504 [13:34:55<36:48:12,  2.36s/it] 28%|██▊       | 22336/78504 [13:34:57<35:47:31,  2.29s/it]                                                           {'loss': 0.058, 'grad_norm': 0.3898114860057831, 'learning_rate': 2.3853764171372766e-05, 'epoch': 6.83}
 28%|██▊       | 22336/78504 [13:34:57<35:47:31,  2.29s/it] 28%|██▊       | 22337/78504 [13:34:59<34:33:15,  2.21s/it]                                                           {'loss': 0.063, 'grad_norm': 0.27964890003204346, 'learning_rate': 2.385333956095283e-05, 'epoch': 6.83}
 28%|██▊       | 22337/78504 [13:34:59<34:33:15,  2.21s/it] 28%|██▊       | 22338/78504 [13:35:01<33:26:30,  2.14s/it]                                                           {'loss': 0.0956, 'grad_norm': 0.8356011509895325, 'learning_rate': 2.3852914950532887e-05, 'epoch': 6.83}
 28%|██▊       | 22338/78504 [13:35:01<33:26:30,  2.14s/it] 28%|██▊       | 22339/78504 [13:35:03<32:08:40,  2.06s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.47743484377861023, 'learning_rate': 2.385249034011295e-05, 'epoch': 6.83}
 28%|██▊       | 22339/78504 [13:35:03<32:08:40,  2.06s/it] 28%|██▊       | 22340/78504 [13:35:05<31:03:19,  1.99s/it]                                                           {'loss': 0.1192, 'grad_norm': 0.5767241716384888, 'learning_rate': 2.3852065729693008e-05, 'epoch': 6.83}
 28%|██▊       | 22340/78504 [13:35:05<31:03:19,  1.99s/it] 28%|██▊       | 22341/78504 [13:35:07<29:47:35,  1.91s/it]                                                           {'loss': 0.0847, 'grad_norm': 0.4301300644874573, 'learning_rate': 2.385164111927307e-05, 'epoch': 6.83}
 28%|██▊       | 22341/78504 [13:35:07<29:47:35,  1.91s/it] 28%|██▊       | 22342/78504 [13:35:08<28:35:18,  1.83s/it]                                                           {'loss': 0.1466, 'grad_norm': 0.38905683159828186, 'learning_rate': 2.385121650885313e-05, 'epoch': 6.83}
 28%|██▊       | 22342/78504 [13:35:08<28:35:18,  1.83s/it] 28%|██▊       | 22343/78504 [13:35:10<27:13:26,  1.75s/it]                                                           {'loss': 0.1608, 'grad_norm': 0.8930121660232544, 'learning_rate': 2.385079189843319e-05, 'epoch': 6.83}
 28%|██▊       | 22343/78504 [13:35:10<27:13:26,  1.75s/it] 28%|██▊       | 22344/78504 [13:35:11<25:40:33,  1.65s/it]                                                           {'loss': 0.1716, 'grad_norm': 0.8390859365463257, 'learning_rate': 2.385036728801325e-05, 'epoch': 6.83}
 28%|██▊       | 22344/78504 [13:35:11<25:40:33,  1.65s/it] 28%|██▊       | 22345/78504 [13:35:13<24:35:24,  1.58s/it]                                                           {'loss': 0.1652, 'grad_norm': 0.6030247807502747, 'learning_rate': 2.3849942677593308e-05, 'epoch': 6.83}
 28%|██▊       | 22345/78504 [13:35:13<24:35:24,  1.58s/it] 28%|██▊       | 22346/78504 [13:35:14<23:11:34,  1.49s/it]                                                           {'loss': 0.1564, 'grad_norm': 0.6017872095108032, 'learning_rate': 2.384951806717337e-05, 'epoch': 6.83}
 28%|██▊       | 22346/78504 [13:35:14<23:11:34,  1.49s/it] 28%|██▊       | 22347/78504 [13:35:15<21:36:48,  1.39s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.6515194177627563, 'learning_rate': 2.384909345675343e-05, 'epoch': 6.83}
 28%|██▊       | 22347/78504 [13:35:15<21:36:48,  1.39s/it] 28%|██▊       | 22348/78504 [13:35:16<20:15:15,  1.30s/it]                                                           {'loss': 0.2048, 'grad_norm': 0.8180335164070129, 'learning_rate': 2.384866884633349e-05, 'epoch': 6.83}
 28%|██▊       | 22348/78504 [13:35:16<20:15:15,  1.30s/it] 28%|██▊       | 22349/78504 [13:35:17<18:47:52,  1.21s/it]                                                           {'loss': 0.1794, 'grad_norm': 0.8358579874038696, 'learning_rate': 2.384824423591355e-05, 'epoch': 6.83}
 28%|██▊       | 22349/78504 [13:35:17<18:47:52,  1.21s/it] 28%|██▊       | 22350/78504 [13:35:18<17:34:46,  1.13s/it]                                                           {'loss': 0.1838, 'grad_norm': 1.2907735109329224, 'learning_rate': 2.3847819625493612e-05, 'epoch': 6.83}
 28%|██▊       | 22350/78504 [13:35:18<17:34:46,  1.13s/it] 28%|██▊       | 22351/78504 [13:35:19<15:56:30,  1.02s/it]                                                           {'loss': 0.2137, 'grad_norm': 0.9007869958877563, 'learning_rate': 2.384739501507367e-05, 'epoch': 6.83}
 28%|██▊       | 22351/78504 [13:35:19<15:56:30,  1.02s/it] 28%|██▊       | 22352/78504 [13:35:29<59:12:14,  3.80s/it]                                                           {'loss': 0.1271, 'grad_norm': 0.7069757580757141, 'learning_rate': 2.3846970404653733e-05, 'epoch': 6.83}
 28%|██▊       | 22352/78504 [13:35:29<59:12:14,  3.80s/it] 28%|██▊       | 22353/78504 [13:35:32<56:04:01,  3.59s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.27936166524887085, 'learning_rate': 2.384654579423379e-05, 'epoch': 6.83}
 28%|██▊       | 22353/78504 [13:35:32<56:04:01,  3.59s/it] 28%|██▊       | 22354/78504 [13:35:35<51:15:06,  3.29s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.3181346356868744, 'learning_rate': 2.3846121183813854e-05, 'epoch': 6.83}
 28%|██▊       | 22354/78504 [13:35:35<51:15:06,  3.29s/it] 28%|██▊       | 22355/78504 [13:35:38<48:04:05,  3.08s/it]                                                           {'loss': 0.0618, 'grad_norm': 0.33047786355018616, 'learning_rate': 2.3845696573393912e-05, 'epoch': 6.83}
 28%|██▊       | 22355/78504 [13:35:38<48:04:05,  3.08s/it] 28%|██▊       | 22356/78504 [13:35:40<45:09:02,  2.89s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.2483089566230774, 'learning_rate': 2.3845271962973974e-05, 'epoch': 6.83}
 28%|██▊       | 22356/78504 [13:35:40<45:09:02,  2.89s/it] 28%|██▊       | 22357/78504 [13:35:42<42:10:54,  2.70s/it]                                                           {'loss': 0.0355, 'grad_norm': 0.17022211849689484, 'learning_rate': 2.3844847352554033e-05, 'epoch': 6.83}
 28%|██▊       | 22357/78504 [13:35:42<42:10:54,  2.70s/it] 28%|██▊       | 22358/78504 [13:35:45<40:19:41,  2.59s/it]                                                           {'loss': 0.0819, 'grad_norm': 0.35550928115844727, 'learning_rate': 2.3844422742134092e-05, 'epoch': 6.84}
 28%|██▊       | 22358/78504 [13:35:45<40:19:41,  2.59s/it] 28%|██▊       | 22359/78504 [13:35:47<38:01:01,  2.44s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.22201965749263763, 'learning_rate': 2.3843998131714154e-05, 'epoch': 6.84}
 28%|██▊       | 22359/78504 [13:35:47<38:01:01,  2.44s/it] 28%|██▊       | 22360/78504 [13:35:49<36:05:29,  2.31s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.21167229115962982, 'learning_rate': 2.3843573521294213e-05, 'epoch': 6.84}
 28%|██▊       | 22360/78504 [13:35:49<36:05:29,  2.31s/it] 28%|██▊       | 22361/78504 [13:35:51<35:14:46,  2.26s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.3899299204349518, 'learning_rate': 2.3843148910874275e-05, 'epoch': 6.84}
 28%|██▊       | 22361/78504 [13:35:51<35:14:46,  2.26s/it] 28%|██▊       | 22362/78504 [13:35:53<33:57:58,  2.18s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.4590700566768646, 'learning_rate': 2.3842724300454333e-05, 'epoch': 6.84}
 28%|██▊       | 22362/78504 [13:35:53<33:57:58,  2.18s/it] 28%|██▊       | 22363/78504 [13:35:55<32:09:34,  2.06s/it]                                                           {'loss': 0.0771, 'grad_norm': 1.452531337738037, 'learning_rate': 2.3842299690034395e-05, 'epoch': 6.84}
 28%|██▊       | 22363/78504 [13:35:55<32:09:34,  2.06s/it] 28%|██▊       | 22364/78504 [13:35:57<31:12:37,  2.00s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.5252473950386047, 'learning_rate': 2.3841875079614454e-05, 'epoch': 6.84}
 28%|██▊       | 22364/78504 [13:35:57<31:12:37,  2.00s/it] 28%|██▊       | 22365/78504 [13:35:58<29:38:08,  1.90s/it]                                                           {'loss': 0.0793, 'grad_norm': 1.4552029371261597, 'learning_rate': 2.3841450469194516e-05, 'epoch': 6.84}
 28%|██▊       | 22365/78504 [13:35:58<29:38:08,  1.90s/it] 28%|██▊       | 22366/78504 [13:36:00<29:02:12,  1.86s/it]                                                           {'loss': 0.1684, 'grad_norm': 0.6874142289161682, 'learning_rate': 2.3841025858774575e-05, 'epoch': 6.84}
 28%|██▊       | 22366/78504 [13:36:00<29:02:12,  1.86s/it] 28%|██▊       | 22367/78504 [13:36:02<27:59:36,  1.80s/it]                                                           {'loss': 0.0912, 'grad_norm': 0.35960695147514343, 'learning_rate': 2.3840601248354637e-05, 'epoch': 6.84}
 28%|██▊       | 22367/78504 [13:36:02<27:59:36,  1.80s/it] 28%|██▊       | 22368/78504 [13:36:03<26:41:44,  1.71s/it]                                                           {'loss': 0.1513, 'grad_norm': 0.6635904908180237, 'learning_rate': 2.3840176637934696e-05, 'epoch': 6.84}
 28%|██▊       | 22368/78504 [13:36:03<26:41:44,  1.71s/it] 28%|██▊       | 22369/78504 [13:36:05<25:35:38,  1.64s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.5988870859146118, 'learning_rate': 2.3839752027514758e-05, 'epoch': 6.84}
 28%|██▊       | 22369/78504 [13:36:05<25:35:38,  1.64s/it] 28%|██▊       | 22370/78504 [13:36:06<24:29:19,  1.57s/it]                                                           {'loss': 0.1473, 'grad_norm': 0.42767006158828735, 'learning_rate': 2.3839327417094816e-05, 'epoch': 6.84}
 28%|██▊       | 22370/78504 [13:36:06<24:29:19,  1.57s/it] 28%|██▊       | 22371/78504 [13:36:07<22:49:53,  1.46s/it]                                                           {'loss': 0.1633, 'grad_norm': 1.4294376373291016, 'learning_rate': 2.3838902806674875e-05, 'epoch': 6.84}
 28%|██▊       | 22371/78504 [13:36:07<22:49:53,  1.46s/it] 28%|██▊       | 22372/78504 [13:36:08<21:17:41,  1.37s/it]                                                           {'loss': 0.1541, 'grad_norm': 0.8882268667221069, 'learning_rate': 2.3838478196254937e-05, 'epoch': 6.84}
 28%|██▊       | 22372/78504 [13:36:08<21:17:41,  1.37s/it] 28%|██▊       | 22373/78504 [13:36:09<20:02:46,  1.29s/it]                                                           {'loss': 0.1554, 'grad_norm': 0.5552926063537598, 'learning_rate': 2.3838053585834996e-05, 'epoch': 6.84}
 28%|██▊       | 22373/78504 [13:36:09<20:02:46,  1.29s/it] 29%|██▊       | 22374/78504 [13:36:10<18:41:01,  1.20s/it]                                                           {'loss': 0.1761, 'grad_norm': 0.6019986867904663, 'learning_rate': 2.3837628975415058e-05, 'epoch': 6.84}
 29%|██▊       | 22374/78504 [13:36:10<18:41:01,  1.20s/it] 29%|██▊       | 22375/78504 [13:36:11<17:25:36,  1.12s/it]                                                           {'loss': 0.1561, 'grad_norm': 1.95649254322052, 'learning_rate': 2.3837204364995117e-05, 'epoch': 6.84}
 29%|██▊       | 22375/78504 [13:36:11<17:25:36,  1.12s/it] 29%|██▊       | 22376/78504 [13:36:12<15:49:47,  1.02s/it]                                                           {'loss': 0.1747, 'grad_norm': 0.8736004829406738, 'learning_rate': 2.383677975457518e-05, 'epoch': 6.84}
 29%|██▊       | 22376/78504 [13:36:12<15:49:47,  1.02s/it] 29%|██▊       | 22377/78504 [13:36:21<50:21:22,  3.23s/it]                                                           {'loss': 0.1507, 'grad_norm': 0.3077309727668762, 'learning_rate': 2.3836355144155238e-05, 'epoch': 6.84}
 29%|██▊       | 22377/78504 [13:36:21<50:21:22,  3.23s/it] 29%|██▊       | 22378/78504 [13:36:24<49:37:34,  3.18s/it]                                                           {'loss': 0.0715, 'grad_norm': 0.8482815623283386, 'learning_rate': 2.38359305337353e-05, 'epoch': 6.84}
 29%|██▊       | 22378/78504 [13:36:24<49:37:34,  3.18s/it] 29%|██▊       | 22379/78504 [13:36:27<48:23:31,  3.10s/it]                                                           {'loss': 0.0513, 'grad_norm': 0.2933030128479004, 'learning_rate': 2.3835505923315358e-05, 'epoch': 6.84}
 29%|██▊       | 22379/78504 [13:36:27<48:23:31,  3.10s/it] 29%|██▊       | 22380/78504 [13:36:29<45:54:25,  2.94s/it]                                                           {'loss': 0.0577, 'grad_norm': 0.42257097363471985, 'learning_rate': 2.383508131289542e-05, 'epoch': 6.84}
 29%|██▊       | 22380/78504 [13:36:29<45:54:25,  2.94s/it] 29%|██▊       | 22381/78504 [13:36:32<43:42:42,  2.80s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.23001410067081451, 'learning_rate': 2.383465670247548e-05, 'epoch': 6.84}
 29%|██▊       | 22381/78504 [13:36:32<43:42:42,  2.80s/it] 29%|██▊       | 22382/78504 [13:36:34<41:09:58,  2.64s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.7140171527862549, 'learning_rate': 2.383423209205554e-05, 'epoch': 6.84}
 29%|██▊       | 22382/78504 [13:36:34<41:09:58,  2.64s/it] 29%|██▊       | 22383/78504 [13:36:36<39:37:58,  2.54s/it]                                                           {'loss': 0.056, 'grad_norm': 0.21782122552394867, 'learning_rate': 2.38338074816356e-05, 'epoch': 6.84}
 29%|██▊       | 22383/78504 [13:36:36<39:37:58,  2.54s/it] 29%|██▊       | 22384/78504 [13:36:38<37:36:57,  2.41s/it]                                                           {'loss': 0.0773, 'grad_norm': 1.6905404329299927, 'learning_rate': 2.383338287121566e-05, 'epoch': 6.84}
 29%|██▊       | 22384/78504 [13:36:38<37:36:57,  2.41s/it] 29%|██▊       | 22385/78504 [13:36:40<36:30:55,  2.34s/it]                                                           {'loss': 0.0579, 'grad_norm': 0.1883181780576706, 'learning_rate': 2.383295826079572e-05, 'epoch': 6.84}
 29%|██▊       | 22385/78504 [13:36:40<36:30:55,  2.34s/it] 29%|██▊       | 22386/78504 [13:36:43<35:34:03,  2.28s/it]                                                           {'loss': 0.0506, 'grad_norm': 1.6961027383804321, 'learning_rate': 2.383253365037578e-05, 'epoch': 6.84}
 29%|██▊       | 22386/78504 [13:36:43<35:34:03,  2.28s/it] 29%|██▊       | 22387/78504 [13:36:45<34:20:19,  2.20s/it]                                                           {'loss': 0.1069, 'grad_norm': 0.22902952134609222, 'learning_rate': 2.383210903995584e-05, 'epoch': 6.84}
 29%|██▊       | 22387/78504 [13:36:45<34:20:19,  2.20s/it] 29%|██▊       | 22388/78504 [13:36:47<33:16:25,  2.13s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.30022406578063965, 'learning_rate': 2.38316844295359e-05, 'epoch': 6.84}
 29%|██▊       | 22388/78504 [13:36:47<33:16:25,  2.13s/it] 29%|██▊       | 22389/78504 [13:36:48<32:06:56,  2.06s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.31300923228263855, 'learning_rate': 2.3831259819115962e-05, 'epoch': 6.84}
 29%|██▊       | 22389/78504 [13:36:49<32:06:56,  2.06s/it] 29%|██▊       | 22390/78504 [13:36:50<31:15:08,  2.01s/it]                                                           {'loss': 0.1002, 'grad_norm': 0.3174699544906616, 'learning_rate': 2.383083520869602e-05, 'epoch': 6.85}
 29%|██▊       | 22390/78504 [13:36:50<31:15:08,  2.01s/it] 29%|██▊       | 22391/78504 [13:36:52<30:06:39,  1.93s/it]                                                           {'loss': 0.1084, 'grad_norm': 0.7430943250656128, 'learning_rate': 2.3830410598276083e-05, 'epoch': 6.85}
 29%|██▊       | 22391/78504 [13:36:52<30:06:39,  1.93s/it] 29%|██▊       | 22392/78504 [13:36:54<28:48:47,  1.85s/it]                                                           {'loss': 0.1263, 'grad_norm': 1.0303384065628052, 'learning_rate': 2.3829985987856142e-05, 'epoch': 6.85}
 29%|██▊       | 22392/78504 [13:36:54<28:48:47,  1.85s/it] 29%|██▊       | 22393/78504 [13:36:55<27:20:42,  1.75s/it]                                                           {'loss': 0.1247, 'grad_norm': 0.47635823488235474, 'learning_rate': 2.3829561377436204e-05, 'epoch': 6.85}
 29%|██▊       | 22393/78504 [13:36:55<27:20:42,  1.75s/it] 29%|██▊       | 22394/78504 [13:36:57<25:58:48,  1.67s/it]                                                           {'loss': 0.1722, 'grad_norm': 0.8174107074737549, 'learning_rate': 2.3829136767016263e-05, 'epoch': 6.85}
 29%|██▊       | 22394/78504 [13:36:57<25:58:48,  1.67s/it] 29%|██▊       | 22395/78504 [13:36:58<24:43:49,  1.59s/it]                                                           {'loss': 0.1844, 'grad_norm': 1.4807417392730713, 'learning_rate': 2.3828712156596325e-05, 'epoch': 6.85}
 29%|██▊       | 22395/78504 [13:36:58<24:43:49,  1.59s/it] 29%|██▊       | 22396/78504 [13:36:59<23:21:05,  1.50s/it]                                                           {'loss': 0.1582, 'grad_norm': 0.5184621810913086, 'learning_rate': 2.3828287546176383e-05, 'epoch': 6.85}
 29%|██▊       | 22396/78504 [13:36:59<23:21:05,  1.50s/it] 29%|██▊       | 22397/78504 [13:37:01<21:43:11,  1.39s/it]                                                           {'loss': 0.1482, 'grad_norm': 0.8270666003227234, 'learning_rate': 2.3827862935756442e-05, 'epoch': 6.85}
 29%|██▊       | 22397/78504 [13:37:01<21:43:11,  1.39s/it] 29%|██▊       | 22398/78504 [13:37:02<20:20:20,  1.31s/it]                                                           {'loss': 0.1661, 'grad_norm': 1.234525203704834, 'learning_rate': 2.3827438325336504e-05, 'epoch': 6.85}
 29%|██▊       | 22398/78504 [13:37:02<20:20:20,  1.31s/it] 29%|██▊       | 22399/78504 [13:37:03<18:52:20,  1.21s/it]                                                           {'loss': 0.1601, 'grad_norm': 1.1281359195709229, 'learning_rate': 2.3827013714916563e-05, 'epoch': 6.85}
 29%|██▊       | 22399/78504 [13:37:03<18:52:20,  1.21s/it] 29%|██▊       | 22400/78504 [13:37:04<17:37:52,  1.13s/it]                                                           {'loss': 0.2018, 'grad_norm': 1.4937925338745117, 'learning_rate': 2.3826589104496625e-05, 'epoch': 6.85}
 29%|██▊       | 22400/78504 [13:37:04<17:37:52,  1.13s/it] 29%|██▊       | 22401/78504 [13:37:04<16:00:26,  1.03s/it]                                                           {'loss': 0.2091, 'grad_norm': 0.7383785247802734, 'learning_rate': 2.3826164494076684e-05, 'epoch': 6.85}
 29%|██▊       | 22401/78504 [13:37:04<16:00:26,  1.03s/it] 29%|██▊       | 22402/78504 [13:37:14<56:45:13,  3.64s/it]                                                           {'loss': 0.1714, 'grad_norm': 0.4593085050582886, 'learning_rate': 2.3825739883656746e-05, 'epoch': 6.85}
 29%|██▊       | 22402/78504 [13:37:14<56:45:13,  3.64s/it] 29%|██▊       | 22403/78504 [13:37:17<54:16:21,  3.48s/it]                                                           {'loss': 0.0809, 'grad_norm': 1.7809301614761353, 'learning_rate': 2.3825315273236804e-05, 'epoch': 6.85}
 29%|██▊       | 22403/78504 [13:37:17<54:16:21,  3.48s/it] 29%|██▊       | 22404/78504 [13:37:20<52:05:41,  3.34s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.19063790142536163, 'learning_rate': 2.3824890662816866e-05, 'epoch': 6.85}
 29%|██▊       | 22404/78504 [13:37:20<52:05:41,  3.34s/it] 29%|██▊       | 22405/78504 [13:37:23<48:39:42,  3.12s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.1611335575580597, 'learning_rate': 2.3824466052396925e-05, 'epoch': 6.85}
 29%|██▊       | 22405/78504 [13:37:23<48:39:42,  3.12s/it] 29%|██▊       | 22406/78504 [13:37:25<45:35:12,  2.93s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.3448420464992523, 'learning_rate': 2.3824041441976987e-05, 'epoch': 6.85}
 29%|██▊       | 22406/78504 [13:37:25<45:35:12,  2.93s/it] 29%|██▊       | 22407/78504 [13:37:28<42:30:14,  2.73s/it]                                                           {'loss': 0.0356, 'grad_norm': 0.17749431729316711, 'learning_rate': 2.3823616831557046e-05, 'epoch': 6.85}
 29%|██▊       | 22407/78504 [13:37:28<42:30:14,  2.73s/it] 29%|██▊       | 22408/78504 [13:37:30<40:33:47,  2.60s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.7797873616218567, 'learning_rate': 2.3823192221137108e-05, 'epoch': 6.85}
 29%|██▊       | 22408/78504 [13:37:30<40:33:47,  2.60s/it] 29%|██▊       | 22409/78504 [13:37:32<38:16:26,  2.46s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.564904510974884, 'learning_rate': 2.3822767610717167e-05, 'epoch': 6.85}
 29%|██▊       | 22409/78504 [13:37:32<38:16:26,  2.46s/it] 29%|██▊       | 22410/78504 [13:37:34<36:57:51,  2.37s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.6766606569290161, 'learning_rate': 2.3822343000297225e-05, 'epoch': 6.85}
 29%|██▊       | 22410/78504 [13:37:34<36:57:51,  2.37s/it] 29%|██▊       | 22411/78504 [13:37:36<35:52:21,  2.30s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.2826811373233795, 'learning_rate': 2.3821918389877288e-05, 'epoch': 6.85}
 29%|██▊       | 22411/78504 [13:37:36<35:52:21,  2.30s/it] 29%|██▊       | 22412/78504 [13:37:38<34:34:32,  2.22s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.35159045457839966, 'learning_rate': 2.3821493779457346e-05, 'epoch': 6.85}
 29%|██▊       | 22412/78504 [13:37:38<34:34:32,  2.22s/it] 29%|██▊       | 22413/78504 [13:37:40<33:24:45,  2.14s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.26725882291793823, 'learning_rate': 2.382106916903741e-05, 'epoch': 6.85}
 29%|██▊       | 22413/78504 [13:37:40<33:24:45,  2.14s/it] 29%|██▊       | 22414/78504 [13:37:42<32:06:34,  2.06s/it]                                                           {'loss': 0.0776, 'grad_norm': 1.1716907024383545, 'learning_rate': 2.3820644558617467e-05, 'epoch': 6.85}
 29%|██▊       | 22414/78504 [13:37:42<32:06:34,  2.06s/it] 29%|██▊       | 22415/78504 [13:37:44<31:11:01,  2.00s/it]                                                           {'loss': 0.116, 'grad_norm': 0.5274061560630798, 'learning_rate': 2.382021994819753e-05, 'epoch': 6.85}
 29%|██▊       | 22415/78504 [13:37:44<31:11:01,  2.00s/it] 29%|██▊       | 22416/78504 [13:37:46<29:51:36,  1.92s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.6589791178703308, 'learning_rate': 2.3819795337777588e-05, 'epoch': 6.85}
 29%|██▊       | 22416/78504 [13:37:46<29:51:36,  1.92s/it] 29%|██▊       | 22417/78504 [13:37:47<28:38:31,  1.84s/it]                                                           {'loss': 0.1737, 'grad_norm': 1.2311761379241943, 'learning_rate': 2.381937072735765e-05, 'epoch': 6.85}
 29%|██▊       | 22417/78504 [13:37:48<28:38:31,  1.84s/it] 29%|██▊       | 22418/78504 [13:37:49<27:17:07,  1.75s/it]                                                           {'loss': 0.1853, 'grad_norm': 0.7798994183540344, 'learning_rate': 2.381894611693771e-05, 'epoch': 6.85}
 29%|██▊       | 22418/78504 [13:37:49<27:17:07,  1.75s/it] 29%|██▊       | 22419/78504 [13:37:50<25:55:44,  1.66s/it]                                                           {'loss': 0.1602, 'grad_norm': 0.7822340130805969, 'learning_rate': 2.381852150651777e-05, 'epoch': 6.85}
 29%|██▊       | 22419/78504 [13:37:51<25:55:44,  1.66s/it] 29%|██▊       | 22420/78504 [13:37:52<24:44:55,  1.59s/it]                                                           {'loss': 0.1472, 'grad_norm': 1.235572099685669, 'learning_rate': 2.381809689609783e-05, 'epoch': 6.85}
 29%|██▊       | 22420/78504 [13:37:52<24:44:55,  1.59s/it] 29%|██▊       | 22421/78504 [13:37:53<23:20:56,  1.50s/it]                                                           {'loss': 0.1969, 'grad_norm': 0.9130182266235352, 'learning_rate': 2.381767228567789e-05, 'epoch': 6.85}
 29%|██▊       | 22421/78504 [13:37:53<23:20:56,  1.50s/it] 29%|██▊       | 22422/78504 [13:37:54<21:44:34,  1.40s/it]                                                           {'loss': 0.1741, 'grad_norm': 0.7824402451515198, 'learning_rate': 2.381724767525795e-05, 'epoch': 6.85}
 29%|██▊       | 22422/78504 [13:37:54<21:44:34,  1.40s/it] 29%|██▊       | 22423/78504 [13:37:55<20:18:50,  1.30s/it]                                                           {'loss': 0.1936, 'grad_norm': 0.626114010810852, 'learning_rate': 2.381682306483801e-05, 'epoch': 6.86}
 29%|██▊       | 22423/78504 [13:37:55<20:18:50,  1.30s/it] 29%|██▊       | 22424/78504 [13:37:56<18:50:02,  1.21s/it]                                                           {'loss': 0.2138, 'grad_norm': 2.981736183166504, 'learning_rate': 2.381639845441807e-05, 'epoch': 6.86}
 29%|██▊       | 22424/78504 [13:37:56<18:50:02,  1.21s/it] 29%|██▊       | 22425/78504 [13:37:57<17:32:27,  1.13s/it]                                                           {'loss': 0.1474, 'grad_norm': 1.698155403137207, 'learning_rate': 2.381597384399813e-05, 'epoch': 6.86}
 29%|██▊       | 22425/78504 [13:37:57<17:32:27,  1.13s/it] 29%|██▊       | 22426/78504 [13:37:58<15:59:27,  1.03s/it]                                                           {'loss': 0.2095, 'grad_norm': 2.1086411476135254, 'learning_rate': 2.3815549233578192e-05, 'epoch': 6.86}
 29%|██▊       | 22426/78504 [13:37:58<15:59:27,  1.03s/it] 29%|██▊       | 22427/78504 [13:38:07<51:03:33,  3.28s/it]                                                           {'loss': 0.1238, 'grad_norm': 0.4076407253742218, 'learning_rate': 2.381512462315825e-05, 'epoch': 6.86}
 29%|██▊       | 22427/78504 [13:38:07<51:03:33,  3.28s/it] 29%|██▊       | 22428/78504 [13:38:10<51:08:40,  3.28s/it]                                                           {'loss': 0.0596, 'grad_norm': 0.30770814418792725, 'learning_rate': 2.3814700012738313e-05, 'epoch': 6.86}
 29%|██▊       | 22428/78504 [13:38:10<51:08:40,  3.28s/it] 29%|██▊       | 22429/78504 [13:38:13<49:51:43,  3.20s/it]                                                           {'loss': 0.11, 'grad_norm': 0.6125208735466003, 'learning_rate': 2.381427540231837e-05, 'epoch': 6.86}
 29%|██▊       | 22429/78504 [13:38:13<49:51:43,  3.20s/it] 29%|██▊       | 22430/78504 [13:38:16<47:07:06,  3.03s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.38023990392684937, 'learning_rate': 2.3813850791898433e-05, 'epoch': 6.86}
 29%|██▊       | 22430/78504 [13:38:16<47:07:06,  3.03s/it] 29%|██▊       | 22431/78504 [13:38:18<44:29:24,  2.86s/it]                                                           {'loss': 0.054, 'grad_norm': 0.40399032831192017, 'learning_rate': 2.3813426181478492e-05, 'epoch': 6.86}
 29%|██▊       | 22431/78504 [13:38:18<44:29:24,  2.86s/it] 29%|██▊       | 22432/78504 [13:38:20<42:28:15,  2.73s/it]                                                           {'loss': 0.0382, 'grad_norm': 0.34468740224838257, 'learning_rate': 2.3813001571058554e-05, 'epoch': 6.86}
 29%|██▊       | 22432/78504 [13:38:21<42:28:15,  2.73s/it] 29%|██▊       | 22433/78504 [13:38:23<41:38:23,  2.67s/it]                                                           {'loss': 0.056, 'grad_norm': 0.2135709673166275, 'learning_rate': 2.3812576960638616e-05, 'epoch': 6.86}
 29%|██▊       | 22433/78504 [13:38:23<41:38:23,  2.67s/it] 29%|██▊       | 22434/78504 [13:38:25<38:57:29,  2.50s/it]                                                           {'loss': 0.0906, 'grad_norm': 0.30318090319633484, 'learning_rate': 2.3812152350218675e-05, 'epoch': 6.86}
 29%|██▊       | 22434/78504 [13:38:25<38:57:29,  2.50s/it] 29%|██▊       | 22435/78504 [13:38:27<37:28:48,  2.41s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.2850782871246338, 'learning_rate': 2.3811727739798737e-05, 'epoch': 6.86}
 29%|██▊       | 22435/78504 [13:38:27<37:28:48,  2.41s/it] 29%|██▊       | 22436/78504 [13:38:29<36:19:10,  2.33s/it]                                                           {'loss': 0.0521, 'grad_norm': 0.33744779229164124, 'learning_rate': 2.3811303129378796e-05, 'epoch': 6.86}
 29%|██▊       | 22436/78504 [13:38:30<36:19:10,  2.33s/it] 29%|██▊       | 22437/78504 [13:38:31<34:04:55,  2.19s/it]                                                           {'loss': 0.0905, 'grad_norm': 0.291166216135025, 'learning_rate': 2.3810878518958858e-05, 'epoch': 6.86}
 29%|██▊       | 22437/78504 [13:38:31<34:04:55,  2.19s/it] 29%|██▊       | 22438/78504 [13:38:33<33:07:04,  2.13s/it]                                                           {'loss': 0.1117, 'grad_norm': 0.3834993839263916, 'learning_rate': 2.3810453908538916e-05, 'epoch': 6.86}
 29%|██▊       | 22438/78504 [13:38:33<33:07:04,  2.13s/it] 29%|██▊       | 22439/78504 [13:38:35<31:59:48,  2.05s/it]                                                           {'loss': 0.0843, 'grad_norm': 0.3276855945587158, 'learning_rate': 2.381002929811898e-05, 'epoch': 6.86}
 29%|██▊       | 22439/78504 [13:38:35<31:59:48,  2.05s/it] 29%|██▊       | 22440/78504 [13:38:37<31:08:00,  2.00s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.5039359331130981, 'learning_rate': 2.3809604687699037e-05, 'epoch': 6.86}
 29%|██▊       | 22440/78504 [13:38:37<31:08:00,  2.00s/it] 29%|██▊       | 22441/78504 [13:38:39<30:01:26,  1.93s/it]                                                           {'loss': 0.1029, 'grad_norm': 0.4211486876010895, 'learning_rate': 2.38091800772791e-05, 'epoch': 6.86}
 29%|██▊       | 22441/78504 [13:38:39<30:01:26,  1.93s/it] 29%|██▊       | 22442/78504 [13:38:40<28:40:44,  1.84s/it]                                                           {'loss': 0.1383, 'grad_norm': 0.5638134479522705, 'learning_rate': 2.3808755466859158e-05, 'epoch': 6.86}
 29%|██▊       | 22442/78504 [13:38:40<28:40:44,  1.84s/it] 29%|██▊       | 22443/78504 [13:38:42<27:17:17,  1.75s/it]                                                           {'loss': 0.1172, 'grad_norm': 0.692765474319458, 'learning_rate': 2.380833085643922e-05, 'epoch': 6.86}
 29%|██▊       | 22443/78504 [13:38:42<27:17:17,  1.75s/it] 29%|██▊       | 22444/78504 [13:38:43<25:56:59,  1.67s/it]                                                           {'loss': 0.1546, 'grad_norm': 0.5972147583961487, 'learning_rate': 2.380790624601928e-05, 'epoch': 6.86}
 29%|██▊       | 22444/78504 [13:38:44<25:56:59,  1.67s/it] 29%|██▊       | 22445/78504 [13:38:45<24:45:51,  1.59s/it]                                                           {'loss': 0.1478, 'grad_norm': 6.161992073059082, 'learning_rate': 2.380748163559934e-05, 'epoch': 6.86}
 29%|██▊       | 22445/78504 [13:38:45<24:45:51,  1.59s/it] 29%|██▊       | 22446/78504 [13:38:46<23:19:44,  1.50s/it]                                                           {'loss': 0.1875, 'grad_norm': 0.7271046042442322, 'learning_rate': 2.38070570251794e-05, 'epoch': 6.86}
 29%|██▊       | 22446/78504 [13:38:46<23:19:44,  1.50s/it] 29%|██▊       | 22447/78504 [13:38:47<21:35:09,  1.39s/it]                                                           {'loss': 0.1992, 'grad_norm': 0.629711389541626, 'learning_rate': 2.380663241475946e-05, 'epoch': 6.86}
 29%|██▊       | 22447/78504 [13:38:47<21:35:09,  1.39s/it] 29%|██▊       | 22448/78504 [13:38:48<20:15:57,  1.30s/it]                                                           {'loss': 0.1468, 'grad_norm': 0.9253043532371521, 'learning_rate': 2.380620780433952e-05, 'epoch': 6.86}
 29%|██▊       | 22448/78504 [13:38:48<20:15:57,  1.30s/it] 29%|██▊       | 22449/78504 [13:38:49<18:49:59,  1.21s/it]                                                           {'loss': 0.166, 'grad_norm': 1.1892457008361816, 'learning_rate': 2.380578319391958e-05, 'epoch': 6.86}
 29%|██▊       | 22449/78504 [13:38:49<18:49:59,  1.21s/it] 29%|██▊       | 22450/78504 [13:38:50<17:33:40,  1.13s/it]                                                           {'loss': 0.2047, 'grad_norm': 2.069930076599121, 'learning_rate': 2.380535858349964e-05, 'epoch': 6.86}
 29%|██▊       | 22450/78504 [13:38:50<17:33:40,  1.13s/it] 29%|██▊       | 22451/78504 [13:38:51<15:56:09,  1.02s/it]                                                           {'loss': 0.2563, 'grad_norm': 0.8994724154472351, 'learning_rate': 2.38049339730797e-05, 'epoch': 6.86}
 29%|██▊       | 22451/78504 [13:38:51<15:56:09,  1.02s/it] 29%|██▊       | 22452/78504 [13:39:01<57:31:36,  3.69s/it]                                                           {'loss': 0.14, 'grad_norm': 0.6100030541419983, 'learning_rate': 2.3804509362659762e-05, 'epoch': 6.86}
 29%|██▊       | 22452/78504 [13:39:01<57:31:36,  3.69s/it] 29%|██▊       | 22453/78504 [13:39:04<53:48:41,  3.46s/it]                                                           {'loss': 0.0641, 'grad_norm': 0.2679370641708374, 'learning_rate': 2.380408475223982e-05, 'epoch': 6.86}
 29%|██▊       | 22453/78504 [13:39:04<53:48:41,  3.46s/it] 29%|██▊       | 22454/78504 [13:39:07<49:39:09,  3.19s/it]                                                           {'loss': 0.0707, 'grad_norm': 1.4566612243652344, 'learning_rate': 2.3803660141819883e-05, 'epoch': 6.86}
 29%|██▊       | 22454/78504 [13:39:07<49:39:09,  3.19s/it] 29%|██▊       | 22455/78504 [13:39:09<46:01:41,  2.96s/it]                                                           {'loss': 0.0507, 'grad_norm': 0.2551634609699249, 'learning_rate': 2.380323553139994e-05, 'epoch': 6.86}
 29%|██▊       | 22455/78504 [13:39:09<46:01:41,  2.96s/it] 29%|██▊       | 22456/78504 [13:39:11<43:47:08,  2.81s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.19016771018505096, 'learning_rate': 2.3802810920980004e-05, 'epoch': 6.87}
 29%|██▊       | 22456/78504 [13:39:11<43:47:08,  2.81s/it] 29%|██▊       | 22457/78504 [13:39:14<41:12:44,  2.65s/it]                                                           {'loss': 0.0494, 'grad_norm': 0.2064092755317688, 'learning_rate': 2.3802386310560062e-05, 'epoch': 6.87}
 29%|██▊       | 22457/78504 [13:39:14<41:12:44,  2.65s/it] 29%|██▊       | 22458/78504 [13:39:16<39:39:26,  2.55s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.2864954471588135, 'learning_rate': 2.3801961700140124e-05, 'epoch': 6.87}
 29%|██▊       | 22458/78504 [13:39:16<39:39:26,  2.55s/it] 29%|██▊       | 22459/78504 [13:39:18<37:37:23,  2.42s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.24127881228923798, 'learning_rate': 2.3801537089720183e-05, 'epoch': 6.87}
 29%|██▊       | 22459/78504 [13:39:18<37:37:23,  2.42s/it] 29%|██▊       | 22460/78504 [13:39:20<36:41:38,  2.36s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.18969851732254028, 'learning_rate': 2.3801112479300242e-05, 'epoch': 6.87}
 29%|██▊       | 22460/78504 [13:39:20<36:41:38,  2.36s/it] 29%|██▊       | 22461/78504 [13:39:22<35:41:14,  2.29s/it]                                                           {'loss': 0.0576, 'grad_norm': 0.27773746848106384, 'learning_rate': 2.3800687868880304e-05, 'epoch': 6.87}
 29%|██▊       | 22461/78504 [13:39:22<35:41:14,  2.29s/it] 29%|██▊       | 22462/78504 [13:39:24<34:24:32,  2.21s/it]                                                           {'loss': 0.0936, 'grad_norm': 0.34305599331855774, 'learning_rate': 2.3800263258460363e-05, 'epoch': 6.87}
 29%|██▊       | 22462/78504 [13:39:24<34:24:32,  2.21s/it] 29%|██▊       | 22463/78504 [13:39:26<33:19:17,  2.14s/it]                                                           {'loss': 0.0788, 'grad_norm': 1.2229843139648438, 'learning_rate': 2.3799838648040425e-05, 'epoch': 6.87}
 29%|██▊       | 22463/78504 [13:39:26<33:19:17,  2.14s/it] 29%|██▊       | 22464/78504 [13:39:28<32:02:27,  2.06s/it]                                                           {'loss': 0.083, 'grad_norm': 0.5093756318092346, 'learning_rate': 2.3799414037620483e-05, 'epoch': 6.87}
 29%|██▊       | 22464/78504 [13:39:28<32:02:27,  2.06s/it] 29%|██▊       | 22465/78504 [13:39:30<31:07:25,  2.00s/it]                                                           {'loss': 0.155, 'grad_norm': 0.41168853640556335, 'learning_rate': 2.3798989427200545e-05, 'epoch': 6.87}
 29%|██▊       | 22465/78504 [13:39:30<31:07:25,  2.00s/it] 29%|██▊       | 22466/78504 [13:39:32<30:02:17,  1.93s/it]                                                           {'loss': 0.1008, 'grad_norm': 0.33538323640823364, 'learning_rate': 2.3798564816780604e-05, 'epoch': 6.87}
 29%|██▊       | 22466/78504 [13:39:32<30:02:17,  1.93s/it] 29%|██▊       | 22467/78504 [13:39:34<28:45:06,  1.85s/it]                                                           {'loss': 0.1493, 'grad_norm': 0.4228763282299042, 'learning_rate': 2.3798140206360666e-05, 'epoch': 6.87}
 29%|██▊       | 22467/78504 [13:39:34<28:45:06,  1.85s/it] 29%|██▊       | 22468/78504 [13:39:35<27:18:34,  1.75s/it]                                                           {'loss': 0.1432, 'grad_norm': 0.6095553636550903, 'learning_rate': 2.3797715595940725e-05, 'epoch': 6.87}
 29%|██▊       | 22468/78504 [13:39:35<27:18:34,  1.75s/it] 29%|██▊       | 22469/78504 [13:39:37<25:57:14,  1.67s/it]                                                           {'loss': 0.1581, 'grad_norm': 1.2453163862228394, 'learning_rate': 2.3797290985520787e-05, 'epoch': 6.87}
 29%|██▊       | 22469/78504 [13:39:37<25:57:14,  1.67s/it] 29%|██▊       | 22470/78504 [13:39:38<24:41:58,  1.59s/it]                                                           {'loss': 0.1855, 'grad_norm': 2.1323904991149902, 'learning_rate': 2.3796866375100846e-05, 'epoch': 6.87}
 29%|██▊       | 22470/78504 [13:39:38<24:41:58,  1.59s/it] 29%|██▊       | 22471/78504 [13:39:39<23:17:18,  1.50s/it]                                                           {'loss': 0.1711, 'grad_norm': 0.5364910364151001, 'learning_rate': 2.3796441764680908e-05, 'epoch': 6.87}
 29%|██▊       | 22471/78504 [13:39:39<23:17:18,  1.50s/it] 29%|██▊       | 22472/78504 [13:39:40<21:40:05,  1.39s/it]                                                           {'loss': 0.1523, 'grad_norm': 0.4539217948913574, 'learning_rate': 2.3796017154260966e-05, 'epoch': 6.87}
 29%|██▊       | 22472/78504 [13:39:40<21:40:05,  1.39s/it] 29%|██▊       | 22473/78504 [13:39:42<20:14:38,  1.30s/it]                                                           {'loss': 0.1741, 'grad_norm': 1.0702760219573975, 'learning_rate': 2.3795592543841025e-05, 'epoch': 6.87}
 29%|██▊       | 22473/78504 [13:39:42<20:14:38,  1.30s/it] 29%|██▊       | 22474/78504 [13:39:43<19:05:49,  1.23s/it]                                                           {'loss': 0.2018, 'grad_norm': 0.9296409487724304, 'learning_rate': 2.3795167933421087e-05, 'epoch': 6.87}
 29%|██▊       | 22474/78504 [13:39:43<19:05:49,  1.23s/it] 29%|██▊       | 22475/78504 [13:39:44<17:46:12,  1.14s/it]                                                           {'loss': 0.2044, 'grad_norm': 0.8303443193435669, 'learning_rate': 2.3794743323001146e-05, 'epoch': 6.87}
 29%|██▊       | 22475/78504 [13:39:44<17:46:12,  1.14s/it] 29%|██▊       | 22476/78504 [13:39:44<16:00:28,  1.03s/it]                                                           {'loss': 0.1908, 'grad_norm': 0.8761958479881287, 'learning_rate': 2.3794318712581208e-05, 'epoch': 6.87}
 29%|██▊       | 22476/78504 [13:39:44<16:00:28,  1.03s/it] 29%|██▊       | 22477/78504 [13:39:51<43:29:15,  2.79s/it]                                                           {'loss': 0.1321, 'grad_norm': 0.2816883623600006, 'learning_rate': 2.3793894102161267e-05, 'epoch': 6.87}
 29%|██▊       | 22477/78504 [13:39:51<43:29:15,  2.79s/it] 29%|██▊       | 22478/78504 [13:39:54<45:05:11,  2.90s/it]                                                           {'loss': 0.0805, 'grad_norm': 0.5306848883628845, 'learning_rate': 2.379346949174133e-05, 'epoch': 6.87}
 29%|██▊       | 22478/78504 [13:39:54<45:05:11,  2.90s/it] 29%|██▊       | 22479/78504 [13:39:57<43:32:52,  2.80s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.28753188252449036, 'learning_rate': 2.3793044881321388e-05, 'epoch': 6.87}
 29%|██▊       | 22479/78504 [13:39:57<43:32:52,  2.80s/it] 29%|██▊       | 22480/78504 [13:40:00<42:41:06,  2.74s/it]                                                           {'loss': 0.0539, 'grad_norm': 1.1063988208770752, 'learning_rate': 2.379262027090145e-05, 'epoch': 6.87}
 29%|██▊       | 22480/78504 [13:40:00<42:41:06,  2.74s/it] 29%|██▊       | 22481/78504 [13:40:02<41:23:20,  2.66s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.2295762449502945, 'learning_rate': 2.379219566048151e-05, 'epoch': 6.87}
 29%|██▊       | 22481/78504 [13:40:02<41:23:20,  2.66s/it] 29%|██▊       | 22482/78504 [13:40:04<39:31:16,  2.54s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.1430887132883072, 'learning_rate': 2.379177105006157e-05, 'epoch': 6.87}
 29%|██▊       | 22482/78504 [13:40:04<39:31:16,  2.54s/it] 29%|██▊       | 22483/78504 [13:40:07<38:28:50,  2.47s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.3696850538253784, 'learning_rate': 2.379134643964163e-05, 'epoch': 6.87}
 29%|██▊       | 22483/78504 [13:40:07<38:28:50,  2.47s/it] 29%|██▊       | 22484/78504 [13:40:09<36:45:32,  2.36s/it]                                                           {'loss': 0.072, 'grad_norm': 0.5989334583282471, 'learning_rate': 2.379092182922169e-05, 'epoch': 6.87}
 29%|██▊       | 22484/78504 [13:40:09<36:45:32,  2.36s/it] 29%|██▊       | 22485/78504 [13:40:11<35:54:43,  2.31s/it]                                                           {'loss': 0.0534, 'grad_norm': 0.3733104467391968, 'learning_rate': 2.379049721880175e-05, 'epoch': 6.87}
 29%|██▊       | 22485/78504 [13:40:11<35:54:43,  2.31s/it] 29%|██▊       | 22486/78504 [13:40:13<35:08:00,  2.26s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.2972203493118286, 'learning_rate': 2.379007260838181e-05, 'epoch': 6.87}
 29%|██▊       | 22486/78504 [13:40:13<35:08:00,  2.26s/it] 29%|██▊       | 22487/78504 [13:40:15<33:59:56,  2.18s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.45200371742248535, 'learning_rate': 2.378964799796187e-05, 'epoch': 6.87}
 29%|██▊       | 22487/78504 [13:40:15<33:59:56,  2.18s/it] 29%|██▊       | 22488/78504 [13:40:17<33:02:00,  2.12s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.33194416761398315, 'learning_rate': 2.378922338754193e-05, 'epoch': 6.87}
 29%|██▊       | 22488/78504 [13:40:17<33:02:00,  2.12s/it] 29%|██▊       | 22489/78504 [13:40:19<31:55:13,  2.05s/it]                                                           {'loss': 0.0982, 'grad_norm': 0.30475053191185, 'learning_rate': 2.378879877712199e-05, 'epoch': 6.88}
 29%|██▊       | 22489/78504 [13:40:19<31:55:13,  2.05s/it] 29%|██▊       | 22490/78504 [13:40:21<31:09:40,  2.00s/it]                                                           {'loss': 0.1032, 'grad_norm': 0.363726407289505, 'learning_rate': 2.378837416670205e-05, 'epoch': 6.88}
 29%|██▊       | 22490/78504 [13:40:21<31:09:40,  2.00s/it] 29%|██▊       | 22491/78504 [13:40:23<30:04:43,  1.93s/it]                                                           {'loss': 0.1305, 'grad_norm': 0.4654591977596283, 'learning_rate': 2.3787949556282112e-05, 'epoch': 6.88}
 29%|██▊       | 22491/78504 [13:40:23<30:04:43,  1.93s/it] 29%|██▊       | 22492/78504 [13:40:24<28:26:13,  1.83s/it]                                                           {'loss': 0.1283, 'grad_norm': 1.1507880687713623, 'learning_rate': 2.378752494586217e-05, 'epoch': 6.88}
 29%|██▊       | 22492/78504 [13:40:24<28:26:13,  1.83s/it] 29%|██▊       | 22493/78504 [13:40:26<27:06:23,  1.74s/it]                                                           {'loss': 0.1611, 'grad_norm': 0.355670690536499, 'learning_rate': 2.3787100335442233e-05, 'epoch': 6.88}
 29%|██▊       | 22493/78504 [13:40:26<27:06:23,  1.74s/it] 29%|██▊       | 22494/78504 [13:40:27<25:59:35,  1.67s/it]                                                           {'loss': 0.1479, 'grad_norm': 2.3853609561920166, 'learning_rate': 2.3786675725022292e-05, 'epoch': 6.88}
 29%|██▊       | 22494/78504 [13:40:27<25:59:35,  1.67s/it] 29%|██▊       | 22495/78504 [13:40:29<24:41:14,  1.59s/it]                                                           {'loss': 0.1637, 'grad_norm': 0.4873766303062439, 'learning_rate': 2.3786251114602354e-05, 'epoch': 6.88}
 29%|██▊       | 22495/78504 [13:40:29<24:41:14,  1.59s/it] 29%|██▊       | 22496/78504 [13:40:30<23:18:26,  1.50s/it]                                                           {'loss': 0.1799, 'grad_norm': 1.3250422477722168, 'learning_rate': 2.3785826504182413e-05, 'epoch': 6.88}
 29%|██▊       | 22496/78504 [13:40:30<23:18:26,  1.50s/it] 29%|██▊       | 22497/78504 [13:40:31<21:39:28,  1.39s/it]                                                           {'loss': 0.1806, 'grad_norm': 0.5419408082962036, 'learning_rate': 2.3785401893762475e-05, 'epoch': 6.88}
 29%|██▊       | 22497/78504 [13:40:31<21:39:28,  1.39s/it] 29%|██▊       | 22498/78504 [13:40:32<20:18:44,  1.31s/it]                                                           {'loss': 0.1891, 'grad_norm': 0.7370045781135559, 'learning_rate': 2.3784977283342533e-05, 'epoch': 6.88}
 29%|██▊       | 22498/78504 [13:40:32<20:18:44,  1.31s/it] 29%|██▊       | 22499/78504 [13:40:33<18:54:44,  1.22s/it]                                                           {'loss': 0.1642, 'grad_norm': 0.4853605329990387, 'learning_rate': 2.3784552672922592e-05, 'epoch': 6.88}
 29%|██▊       | 22499/78504 [13:40:33<18:54:44,  1.22s/it] 29%|██▊       | 22500/78504 [13:40:34<17:35:34,  1.13s/it]                                                           {'loss': 0.1883, 'grad_norm': 9.414645195007324, 'learning_rate': 2.3784128062502654e-05, 'epoch': 6.88}
 29%|██▊       | 22500/78504 [13:40:34<17:35:34,  1.13s/it] 29%|██▊       | 22501/78504 [13:40:35<15:59:53,  1.03s/it]                                                           {'loss': 0.2381, 'grad_norm': 1.605327844619751, 'learning_rate': 2.3783703452082713e-05, 'epoch': 6.88}
 29%|██▊       | 22501/78504 [13:40:35<15:59:53,  1.03s/it] 29%|██▊       | 22502/78504 [13:40:43<47:42:16,  3.07s/it]                                                           {'loss': 0.1353, 'grad_norm': 0.31280824542045593, 'learning_rate': 2.3783278841662775e-05, 'epoch': 6.88}
 29%|██▊       | 22502/78504 [13:40:43<47:42:16,  3.07s/it] 29%|██▊       | 22503/78504 [13:40:46<49:00:54,  3.15s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.185944601893425, 'learning_rate': 2.3782854231242834e-05, 'epoch': 6.88}
 29%|██▊       | 22503/78504 [13:40:46<49:00:54,  3.15s/it] 29%|██▊       | 22504/78504 [13:40:49<48:20:13,  3.11s/it]                                                           {'loss': 0.0841, 'grad_norm': 0.5469896793365479, 'learning_rate': 2.3782429620822896e-05, 'epoch': 6.88}
 29%|██▊       | 22504/78504 [13:40:49<48:20:13,  3.11s/it] 29%|██▊       | 22505/78504 [13:40:52<45:55:03,  2.95s/it]                                                           {'loss': 0.067, 'grad_norm': 0.5013695955276489, 'learning_rate': 2.3782005010402954e-05, 'epoch': 6.88}
 29%|██▊       | 22505/78504 [13:40:52<45:55:03,  2.95s/it] 29%|██▊       | 22506/78504 [13:40:54<43:38:35,  2.81s/it]                                                           {'loss': 0.0585, 'grad_norm': 0.5244770646095276, 'learning_rate': 2.3781580399983016e-05, 'epoch': 6.88}
 29%|██▊       | 22506/78504 [13:40:54<43:38:35,  2.81s/it] 29%|██▊       | 22507/78504 [13:40:56<41:52:29,  2.69s/it]                                                           {'loss': 0.0533, 'grad_norm': 1.5908228158950806, 'learning_rate': 2.3781155789563075e-05, 'epoch': 6.88}
 29%|██▊       | 22507/78504 [13:40:56<41:52:29,  2.69s/it] 29%|██▊       | 22508/78504 [13:40:59<40:06:39,  2.58s/it]                                                           {'loss': 0.042, 'grad_norm': 0.15811282396316528, 'learning_rate': 2.3780731179143137e-05, 'epoch': 6.88}
 29%|██▊       | 22508/78504 [13:40:59<40:06:39,  2.58s/it] 29%|██▊       | 22509/78504 [13:41:01<38:49:59,  2.50s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.2711082100868225, 'learning_rate': 2.3780306568723196e-05, 'epoch': 6.88}
 29%|██▊       | 22509/78504 [13:41:01<38:49:59,  2.50s/it] 29%|██▊       | 22510/78504 [13:41:03<36:43:31,  2.36s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.4467836618423462, 'learning_rate': 2.3779881958303258e-05, 'epoch': 6.88}
 29%|██▊       | 22510/78504 [13:41:03<36:43:31,  2.36s/it] 29%|██▊       | 22511/78504 [13:41:05<35:40:12,  2.29s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.5955237150192261, 'learning_rate': 2.3779457347883317e-05, 'epoch': 6.88}
 29%|██▊       | 22511/78504 [13:41:05<35:40:12,  2.29s/it] 29%|██▊       | 22512/78504 [13:41:07<34:28:18,  2.22s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.8860634565353394, 'learning_rate': 2.3779032737463375e-05, 'epoch': 6.88}
 29%|██▊       | 22512/78504 [13:41:07<34:28:18,  2.22s/it] 29%|██▊       | 22513/78504 [13:41:09<33:24:50,  2.15s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.16118602454662323, 'learning_rate': 2.3778608127043438e-05, 'epoch': 6.88}
 29%|██▊       | 22513/78504 [13:41:09<33:24:50,  2.15s/it] 29%|██▊       | 22514/78504 [13:41:11<31:42:56,  2.04s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.2717818021774292, 'learning_rate': 2.3778183516623496e-05, 'epoch': 6.88}
 29%|██▊       | 22514/78504 [13:41:11<31:42:56,  2.04s/it] 29%|██▊       | 22515/78504 [13:41:13<30:59:20,  1.99s/it]                                                           {'loss': 0.0926, 'grad_norm': 1.8584729433059692, 'learning_rate': 2.377775890620356e-05, 'epoch': 6.88}
 29%|██▊       | 22515/78504 [13:41:13<30:59:20,  1.99s/it] 29%|██▊       | 22516/78504 [13:41:15<29:54:14,  1.92s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.4432554543018341, 'learning_rate': 2.3777334295783617e-05, 'epoch': 6.88}
 29%|██▊       | 22516/78504 [13:41:15<29:54:14,  1.92s/it] 29%|██▊       | 22517/78504 [13:41:16<28:19:52,  1.82s/it]                                                           {'loss': 0.1105, 'grad_norm': 0.4725094139575958, 'learning_rate': 2.377690968536368e-05, 'epoch': 6.88}
 29%|██▊       | 22517/78504 [13:41:16<28:19:52,  1.82s/it] 29%|██▊       | 22518/78504 [13:41:18<27:02:13,  1.74s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.4678305685520172, 'learning_rate': 2.3776485074943738e-05, 'epoch': 6.88}
 29%|██▊       | 22518/78504 [13:41:18<27:02:13,  1.74s/it] 29%|██▊       | 22519/78504 [13:41:19<25:45:14,  1.66s/it]                                                           {'loss': 0.1625, 'grad_norm': 1.4999066591262817, 'learning_rate': 2.37760604645238e-05, 'epoch': 6.88}
 29%|██▊       | 22519/78504 [13:41:19<25:45:14,  1.66s/it] 29%|██▊       | 22520/78504 [13:41:21<24:39:39,  1.59s/it]                                                           {'loss': 0.1691, 'grad_norm': 0.6129382252693176, 'learning_rate': 2.377563585410386e-05, 'epoch': 6.88}
 29%|██▊       | 22520/78504 [13:41:21<24:39:39,  1.59s/it] 29%|██▊       | 22521/78504 [13:41:22<23:17:16,  1.50s/it]                                                           {'loss': 0.1816, 'grad_norm': 0.5972217917442322, 'learning_rate': 2.377521124368392e-05, 'epoch': 6.89}
 29%|██▊       | 22521/78504 [13:41:22<23:17:16,  1.50s/it] 29%|██▊       | 22522/78504 [13:41:23<21:39:57,  1.39s/it]                                                           {'loss': 0.1678, 'grad_norm': 1.2338683605194092, 'learning_rate': 2.377478663326398e-05, 'epoch': 6.89}
 29%|██▊       | 22522/78504 [13:41:23<21:39:57,  1.39s/it] 29%|██▊       | 22523/78504 [13:41:24<20:16:05,  1.30s/it]                                                           {'loss': 0.1727, 'grad_norm': 0.7071772217750549, 'learning_rate': 2.377436202284404e-05, 'epoch': 6.89}
 29%|██▊       | 22523/78504 [13:41:24<20:16:05,  1.30s/it] 29%|██▊       | 22524/78504 [13:41:25<19:03:51,  1.23s/it]                                                           {'loss': 0.1855, 'grad_norm': 1.2227590084075928, 'learning_rate': 2.37739374124241e-05, 'epoch': 6.89}
 29%|██▊       | 22524/78504 [13:41:25<19:03:51,  1.23s/it] 29%|██▊       | 22525/78504 [13:41:26<17:40:50,  1.14s/it]                                                           {'loss': 0.1909, 'grad_norm': 0.9020646810531616, 'learning_rate': 2.377351280200416e-05, 'epoch': 6.89}
 29%|██▊       | 22525/78504 [13:41:26<17:40:50,  1.14s/it] 29%|██▊       | 22526/78504 [13:41:27<16:01:05,  1.03s/it]                                                           {'loss': 0.2191, 'grad_norm': 0.9646186232566833, 'learning_rate': 2.377308819158422e-05, 'epoch': 6.89}
 29%|██▊       | 22526/78504 [13:41:27<16:01:05,  1.03s/it] 29%|██▊       | 22527/78504 [13:41:36<52:32:18,  3.38s/it]                                                           {'loss': 0.1502, 'grad_norm': 0.40804824233055115, 'learning_rate': 2.377266358116428e-05, 'epoch': 6.89}
 29%|██▊       | 22527/78504 [13:41:36<52:32:18,  3.38s/it] 29%|██▊       | 22528/78504 [13:41:39<52:27:27,  3.37s/it]                                                           {'loss': 0.1041, 'grad_norm': 0.48700031638145447, 'learning_rate': 2.3772238970744342e-05, 'epoch': 6.89}
 29%|██▊       | 22528/78504 [13:41:39<52:27:27,  3.37s/it] 29%|██▊       | 22529/78504 [13:41:42<48:39:36,  3.13s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.17669783532619476, 'learning_rate': 2.37718143603244e-05, 'epoch': 6.89}
 29%|██▊       | 22529/78504 [13:41:42<48:39:36,  3.13s/it] 29%|██▊       | 22530/78504 [13:41:44<46:03:09,  2.96s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.27535417675971985, 'learning_rate': 2.3771389749904463e-05, 'epoch': 6.89}
 29%|██▊       | 22530/78504 [13:41:44<46:03:09,  2.96s/it] 29%|██▊       | 22531/78504 [13:41:47<43:44:56,  2.81s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.2278408706188202, 'learning_rate': 2.377096513948452e-05, 'epoch': 6.89}
 29%|██▊       | 22531/78504 [13:41:47<43:44:56,  2.81s/it] 29%|██▊       | 22532/78504 [13:41:49<41:10:20,  2.65s/it]                                                           {'loss': 0.0434, 'grad_norm': 0.1921481192111969, 'learning_rate': 2.3770540529064583e-05, 'epoch': 6.89}
 29%|██▊       | 22532/78504 [13:41:49<41:10:20,  2.65s/it] 29%|██▊       | 22533/78504 [13:41:51<39:38:55,  2.55s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.49550849199295044, 'learning_rate': 2.3770115918644642e-05, 'epoch': 6.89}
 29%|██▊       | 22533/78504 [13:41:51<39:38:55,  2.55s/it] 29%|██▊       | 22534/78504 [13:41:54<37:33:37,  2.42s/it]                                                           {'loss': 0.0433, 'grad_norm': 0.17305819690227509, 'learning_rate': 2.3769691308224704e-05, 'epoch': 6.89}
 29%|██▊       | 22534/78504 [13:41:54<37:33:37,  2.42s/it] 29%|██▊       | 22535/78504 [13:41:56<36:27:26,  2.34s/it]                                                           {'loss': 0.0466, 'grad_norm': 0.5391182899475098, 'learning_rate': 2.3769266697804766e-05, 'epoch': 6.89}
 29%|██▊       | 22535/78504 [13:41:56<36:27:26,  2.34s/it] 29%|██▊       | 22536/78504 [13:41:58<35:37:33,  2.29s/it]                                                           {'loss': 0.0726, 'grad_norm': 1.2700117826461792, 'learning_rate': 2.376884208738483e-05, 'epoch': 6.89}
 29%|██▊       | 22536/78504 [13:41:58<35:37:33,  2.29s/it] 29%|██▊       | 22537/78504 [13:42:00<33:38:45,  2.16s/it]                                                           {'loss': 0.1016, 'grad_norm': 0.5603554844856262, 'learning_rate': 2.3768417476964887e-05, 'epoch': 6.89}
 29%|██▊       | 22537/78504 [13:42:00<33:38:45,  2.16s/it] 29%|██▊       | 22538/78504 [13:42:02<32:49:12,  2.11s/it]                                                           {'loss': 0.1108, 'grad_norm': 0.5981147289276123, 'learning_rate': 2.3767992866544946e-05, 'epoch': 6.89}
 29%|██▊       | 22538/78504 [13:42:02<32:49:12,  2.11s/it] 29%|██▊       | 22539/78504 [13:42:04<31:45:03,  2.04s/it]                                                           {'loss': 0.0879, 'grad_norm': 0.33327898383140564, 'learning_rate': 2.3767568256125008e-05, 'epoch': 6.89}
 29%|██▊       | 22539/78504 [13:42:04<31:45:03,  2.04s/it] 29%|██▊       | 22540/78504 [13:42:05<30:59:32,  1.99s/it]                                                           {'loss': 0.1228, 'grad_norm': 0.6216566562652588, 'learning_rate': 2.3767143645705066e-05, 'epoch': 6.89}
 29%|██▊       | 22540/78504 [13:42:06<30:59:32,  1.99s/it] 29%|██▊       | 22541/78504 [13:42:07<29:55:00,  1.92s/it]                                                           {'loss': 0.1228, 'grad_norm': 0.3698928952217102, 'learning_rate': 2.376671903528513e-05, 'epoch': 6.89}
 29%|██▊       | 22541/78504 [13:42:07<29:55:00,  1.92s/it] 29%|██▊       | 22542/78504 [13:42:09<28:39:30,  1.84s/it]                                                           {'loss': 0.1082, 'grad_norm': 0.46906691789627075, 'learning_rate': 2.3766294424865187e-05, 'epoch': 6.89}
 29%|██▊       | 22542/78504 [13:42:09<28:39:30,  1.84s/it] 29%|██▊       | 22543/78504 [13:42:10<27:13:49,  1.75s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.714888870716095, 'learning_rate': 2.376586981444525e-05, 'epoch': 6.89}
 29%|██▊       | 22543/78504 [13:42:10<27:13:49,  1.75s/it] 29%|██▊       | 22544/78504 [13:42:12<25:55:40,  1.67s/it]                                                           {'loss': 0.1623, 'grad_norm': 1.1243422031402588, 'learning_rate': 2.3765445204025308e-05, 'epoch': 6.89}
 29%|██▊       | 22544/78504 [13:42:12<25:55:40,  1.67s/it] 29%|██▊       | 22545/78504 [13:42:13<24:41:46,  1.59s/it]                                                           {'loss': 0.1574, 'grad_norm': 0.5721116065979004, 'learning_rate': 2.376502059360537e-05, 'epoch': 6.89}
 29%|██▊       | 22545/78504 [13:42:13<24:41:46,  1.59s/it] 29%|██▊       | 22546/78504 [13:42:15<23:13:52,  1.49s/it]                                                           {'loss': 0.1783, 'grad_norm': 0.9244924187660217, 'learning_rate': 2.376459598318543e-05, 'epoch': 6.89}
 29%|██▊       | 22546/78504 [13:42:15<23:13:52,  1.49s/it] 29%|██▊       | 22547/78504 [13:42:16<21:35:53,  1.39s/it]                                                           {'loss': 0.1807, 'grad_norm': 0.8539825677871704, 'learning_rate': 2.376417137276549e-05, 'epoch': 6.89}
 29%|██▊       | 22547/78504 [13:42:16<21:35:53,  1.39s/it] 29%|██▊       | 22548/78504 [13:42:17<20:10:16,  1.30s/it]                                                           {'loss': 0.1759, 'grad_norm': 1.4635220766067505, 'learning_rate': 2.376374676234555e-05, 'epoch': 6.89}
 29%|██▊       | 22548/78504 [13:42:17<20:10:16,  1.30s/it] 29%|██▊       | 22549/78504 [13:42:18<18:45:18,  1.21s/it]                                                           {'loss': 0.1639, 'grad_norm': 1.1262274980545044, 'learning_rate': 2.376332215192561e-05, 'epoch': 6.89}
 29%|██▊       | 22549/78504 [13:42:18<18:45:18,  1.21s/it] 29%|██▊       | 22550/78504 [13:42:19<17:27:52,  1.12s/it]                                                           {'loss': 0.1835, 'grad_norm': 1.9844189882278442, 'learning_rate': 2.376289754150567e-05, 'epoch': 6.89}
 29%|██▊       | 22550/78504 [13:42:19<17:27:52,  1.12s/it] 29%|██▊       | 22551/78504 [13:42:20<15:53:33,  1.02s/it]                                                           {'loss': 0.231, 'grad_norm': 6.693962097167969, 'learning_rate': 2.376247293108573e-05, 'epoch': 6.89}
 29%|██▊       | 22551/78504 [13:42:20<15:53:33,  1.02s/it] 29%|██▊       | 22552/78504 [13:42:28<48:59:17,  3.15s/it]                                                           {'loss': 0.1421, 'grad_norm': 0.5910589694976807, 'learning_rate': 2.376204832066579e-05, 'epoch': 6.89}
 29%|██▊       | 22552/78504 [13:42:28<48:59:17,  3.15s/it] 29%|██▊       | 22553/78504 [13:42:31<48:48:46,  3.14s/it]                                                           {'loss': 0.066, 'grad_norm': 0.36346954107284546, 'learning_rate': 2.376162371024585e-05, 'epoch': 6.89}
 29%|██▊       | 22553/78504 [13:42:31<48:48:46,  3.14s/it] 29%|██▊       | 22554/78504 [13:42:34<48:02:36,  3.09s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.4627760946750641, 'learning_rate': 2.3761199099825912e-05, 'epoch': 6.9}
 29%|██▊       | 22554/78504 [13:42:34<48:02:36,  3.09s/it] 29%|██▊       | 22555/78504 [13:42:36<45:41:11,  2.94s/it]                                                           {'loss': 0.0447, 'grad_norm': 0.26037177443504333, 'learning_rate': 2.376077448940597e-05, 'epoch': 6.9}
 29%|██▊       | 22555/78504 [13:42:36<45:41:11,  2.94s/it] 29%|██▊       | 22556/78504 [13:42:39<43:28:57,  2.80s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.250072717666626, 'learning_rate': 2.3760349878986033e-05, 'epoch': 6.9}
 29%|██▊       | 22556/78504 [13:42:39<43:28:57,  2.80s/it] 29%|██▊       | 22557/78504 [13:42:41<40:59:37,  2.64s/it]                                                           {'loss': 0.0373, 'grad_norm': 0.17184945940971375, 'learning_rate': 2.375992526856609e-05, 'epoch': 6.9}
 29%|██▊       | 22557/78504 [13:42:41<40:59:37,  2.64s/it] 29%|██▊       | 22558/78504 [13:42:43<39:27:36,  2.54s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.7264448404312134, 'learning_rate': 2.3759500658146154e-05, 'epoch': 6.9}
 29%|██▊       | 22558/78504 [13:42:43<39:27:36,  2.54s/it] 29%|██▊       | 22559/78504 [13:42:45<37:28:50,  2.41s/it]                                                           {'loss': 0.0603, 'grad_norm': 0.6735402345657349, 'learning_rate': 2.3759076047726212e-05, 'epoch': 6.9}
 29%|██▊       | 22559/78504 [13:42:46<37:28:50,  2.41s/it] 29%|██▊       | 22560/78504 [13:42:48<36:23:45,  2.34s/it]                                                           {'loss': 0.0552, 'grad_norm': 0.445060133934021, 'learning_rate': 2.3758651437306274e-05, 'epoch': 6.9}
 29%|██▊       | 22560/78504 [13:42:48<36:23:45,  2.34s/it] 29%|██▊       | 22561/78504 [13:42:50<35:33:34,  2.29s/it]                                                           {'loss': 0.0898, 'grad_norm': 0.43027880787849426, 'learning_rate': 2.3758226826886333e-05, 'epoch': 6.9}
 29%|██▊       | 22561/78504 [13:42:50<35:33:34,  2.29s/it] 29%|██▊       | 22562/78504 [13:42:52<34:22:47,  2.21s/it]                                                           {'loss': 0.0952, 'grad_norm': 0.5785424113273621, 'learning_rate': 2.3757802216466392e-05, 'epoch': 6.9}
 29%|██▊       | 22562/78504 [13:42:52<34:22:47,  2.21s/it] 29%|██▊       | 22563/78504 [13:42:54<33:15:00,  2.14s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.5989310145378113, 'learning_rate': 2.3757377606046454e-05, 'epoch': 6.9}
 29%|██▊       | 22563/78504 [13:42:54<33:15:00,  2.14s/it] 29%|██▊       | 22564/78504 [13:42:56<32:04:31,  2.06s/it]                                                           {'loss': 0.1183, 'grad_norm': 1.2901062965393066, 'learning_rate': 2.3756952995626513e-05, 'epoch': 6.9}
 29%|██▊       | 22564/78504 [13:42:56<32:04:31,  2.06s/it] 29%|██▊       | 22565/78504 [13:42:58<31:10:41,  2.01s/it]                                                           {'loss': 0.103, 'grad_norm': 0.49213260412216187, 'learning_rate': 2.3756528385206575e-05, 'epoch': 6.9}
 29%|██▊       | 22565/78504 [13:42:58<31:10:41,  2.01s/it] 29%|██▊       | 22566/78504 [13:42:59<30:02:07,  1.93s/it]                                                           {'loss': 0.1202, 'grad_norm': 0.5573272705078125, 'learning_rate': 2.3756103774786633e-05, 'epoch': 6.9}
 29%|██▊       | 22566/78504 [13:42:59<30:02:07,  1.93s/it] 29%|██▊       | 22567/78504 [13:43:01<28:21:50,  1.83s/it]                                                           {'loss': 0.1384, 'grad_norm': 0.5031291842460632, 'learning_rate': 2.3755679164366695e-05, 'epoch': 6.9}
 29%|██▊       | 22567/78504 [13:43:01<28:21:50,  1.83s/it] 29%|██▊       | 22568/78504 [13:43:02<27:01:48,  1.74s/it]                                                           {'loss': 0.1416, 'grad_norm': 0.716643214225769, 'learning_rate': 2.3755254553946754e-05, 'epoch': 6.9}
 29%|██▊       | 22568/78504 [13:43:02<27:01:48,  1.74s/it] 29%|██▊       | 22569/78504 [13:43:04<26:00:18,  1.67s/it]                                                           {'loss': 0.1742, 'grad_norm': 1.2044909000396729, 'learning_rate': 2.3754829943526816e-05, 'epoch': 6.9}
 29%|██▊       | 22569/78504 [13:43:04<26:00:18,  1.67s/it] 29%|██▉       | 22570/78504 [13:43:05<24:40:33,  1.59s/it]                                                           {'loss': 0.1769, 'grad_norm': 0.8381408452987671, 'learning_rate': 2.3754405333106875e-05, 'epoch': 6.9}
 29%|██▉       | 22570/78504 [13:43:05<24:40:33,  1.59s/it] 29%|██▉       | 22571/78504 [13:43:07<23:16:00,  1.50s/it]                                                           {'loss': 0.1673, 'grad_norm': 0.5044066309928894, 'learning_rate': 2.3753980722686937e-05, 'epoch': 6.9}
 29%|██▉       | 22571/78504 [13:43:07<23:16:00,  1.50s/it] 29%|██▉       | 22572/78504 [13:43:08<21:40:25,  1.40s/it]                                                           {'loss': 0.2386, 'grad_norm': 1.4942057132720947, 'learning_rate': 2.3753556112266996e-05, 'epoch': 6.9}
 29%|██▉       | 22572/78504 [13:43:08<21:40:25,  1.40s/it] 29%|██▉       | 22573/78504 [13:43:09<20:15:27,  1.30s/it]                                                           {'loss': 0.1662, 'grad_norm': 1.0769857168197632, 'learning_rate': 2.3753131501847058e-05, 'epoch': 6.9}
 29%|██▉       | 22573/78504 [13:43:09<20:15:27,  1.30s/it] 29%|██▉       | 22574/78504 [13:43:10<18:47:17,  1.21s/it]                                                           {'loss': 0.1926, 'grad_norm': 0.9724130630493164, 'learning_rate': 2.3752706891427117e-05, 'epoch': 6.9}
 29%|██▉       | 22574/78504 [13:43:10<18:47:17,  1.21s/it] 29%|██▉       | 22575/78504 [13:43:11<17:28:32,  1.12s/it]                                                           {'loss': 0.1566, 'grad_norm': 1.0532432794570923, 'learning_rate': 2.3752282281007175e-05, 'epoch': 6.9}
 29%|██▉       | 22575/78504 [13:43:11<17:28:32,  1.12s/it] 29%|██▉       | 22576/78504 [13:43:12<15:53:14,  1.02s/it]                                                           {'loss': 0.2031, 'grad_norm': 5.3436503410339355, 'learning_rate': 2.3751857670587237e-05, 'epoch': 6.9}
 29%|██▉       | 22576/78504 [13:43:12<15:53:14,  1.02s/it] 29%|██▉       | 22577/78504 [13:43:21<53:03:18,  3.42s/it]                                                           {'loss': 0.1422, 'grad_norm': 1.4151209592819214, 'learning_rate': 2.3751433060167296e-05, 'epoch': 6.9}
 29%|██▉       | 22577/78504 [13:43:21<53:03:18,  3.42s/it] 29%|██▉       | 22578/78504 [13:43:24<51:41:49,  3.33s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.3707098662853241, 'learning_rate': 2.3751008449747358e-05, 'epoch': 6.9}
 29%|██▉       | 22578/78504 [13:43:24<51:41:49,  3.33s/it] 29%|██▉       | 22579/78504 [13:43:27<50:13:41,  3.23s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.3168052136898041, 'learning_rate': 2.3750583839327417e-05, 'epoch': 6.9}
 29%|██▉       | 22579/78504 [13:43:27<50:13:41,  3.23s/it] 29%|██▉       | 22580/78504 [13:43:29<47:20:08,  3.05s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.2158774435520172, 'learning_rate': 2.375015922890748e-05, 'epoch': 6.9}
 29%|██▉       | 22580/78504 [13:43:29<47:20:08,  3.05s/it] 29%|██▉       | 22581/78504 [13:43:32<44:36:40,  2.87s/it]                                                           {'loss': 0.0637, 'grad_norm': 0.233789324760437, 'learning_rate': 2.3749734618487538e-05, 'epoch': 6.9}
 29%|██▉       | 22581/78504 [13:43:32<44:36:40,  2.87s/it] 29%|██▉       | 22582/78504 [13:43:34<41:45:02,  2.69s/it]                                                           {'loss': 0.0484, 'grad_norm': 0.4738948345184326, 'learning_rate': 2.37493100080676e-05, 'epoch': 6.9}
 29%|██▉       | 22582/78504 [13:43:34<41:45:02,  2.69s/it] 29%|██▉       | 22583/78504 [13:43:36<40:01:43,  2.58s/it]                                                           {'loss': 0.1092, 'grad_norm': 0.31731516122817993, 'learning_rate': 2.374888539764766e-05, 'epoch': 6.9}
 29%|██▉       | 22583/78504 [13:43:36<40:01:43,  2.58s/it] 29%|██▉       | 22584/78504 [13:43:39<37:49:36,  2.44s/it]                                                           {'loss': 0.0543, 'grad_norm': 0.44266802072525024, 'learning_rate': 2.374846078722772e-05, 'epoch': 6.9}
 29%|██▉       | 22584/78504 [13:43:39<37:49:36,  2.44s/it] 29%|██▉       | 22585/78504 [13:43:41<36:39:18,  2.36s/it]                                                           {'loss': 0.0695, 'grad_norm': 0.5089300870895386, 'learning_rate': 2.374803617680778e-05, 'epoch': 6.9}
 29%|██▉       | 22585/78504 [13:43:41<36:39:18,  2.36s/it] 29%|██▉       | 22586/78504 [13:43:43<35:43:25,  2.30s/it]                                                           {'loss': 0.0673, 'grad_norm': 0.2857292592525482, 'learning_rate': 2.374761156638784e-05, 'epoch': 6.9}
 29%|██▉       | 22586/78504 [13:43:43<35:43:25,  2.30s/it] 29%|██▉       | 22587/78504 [13:43:45<33:39:13,  2.17s/it]                                                           {'loss': 0.1183, 'grad_norm': 0.70187908411026, 'learning_rate': 2.37471869559679e-05, 'epoch': 6.91}
 29%|██▉       | 22587/78504 [13:43:45<33:39:13,  2.17s/it] 29%|██▉       | 22588/78504 [13:43:47<32:49:31,  2.11s/it]                                                           {'loss': 0.064, 'grad_norm': 0.38967156410217285, 'learning_rate': 2.374676234554796e-05, 'epoch': 6.91}
 29%|██▉       | 22588/78504 [13:43:47<32:49:31,  2.11s/it] 29%|██▉       | 22589/78504 [13:43:49<31:44:55,  2.04s/it]                                                           {'loss': 0.0781, 'grad_norm': 0.25438937544822693, 'learning_rate': 2.374633773512802e-05, 'epoch': 6.91}
 29%|██▉       | 22589/78504 [13:43:49<31:44:55,  2.04s/it] 29%|██▉       | 22590/78504 [13:43:50<30:54:01,  1.99s/it]                                                           {'loss': 0.1086, 'grad_norm': 0.3315916061401367, 'learning_rate': 2.374591312470808e-05, 'epoch': 6.91}
 29%|██▉       | 22590/78504 [13:43:50<30:54:01,  1.99s/it] 29%|██▉       | 22591/78504 [13:43:52<29:50:30,  1.92s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.6631964445114136, 'learning_rate': 2.374548851428814e-05, 'epoch': 6.91}
 29%|██▉       | 22591/78504 [13:43:52<29:50:30,  1.92s/it] 29%|██▉       | 22592/78504 [13:43:54<28:16:01,  1.82s/it]                                                           {'loss': 0.1187, 'grad_norm': 0.8047707080841064, 'learning_rate': 2.37450639038682e-05, 'epoch': 6.91}
 29%|██▉       | 22592/78504 [13:43:54<28:16:01,  1.82s/it] 29%|██▉       | 22593/78504 [13:43:55<26:58:23,  1.74s/it]                                                           {'loss': 0.1625, 'grad_norm': 0.9331210255622864, 'learning_rate': 2.3744639293448262e-05, 'epoch': 6.91}
 29%|██▉       | 22593/78504 [13:43:55<26:58:23,  1.74s/it] 29%|██▉       | 22594/78504 [13:43:57<25:58:28,  1.67s/it]                                                           {'loss': 0.1389, 'grad_norm': 0.7266026735305786, 'learning_rate': 2.374421468302832e-05, 'epoch': 6.91}
 29%|██▉       | 22594/78504 [13:43:57<25:58:28,  1.67s/it] 29%|██▉       | 22595/78504 [13:43:58<24:48:18,  1.60s/it]                                                           {'loss': 0.1785, 'grad_norm': 0.7291355133056641, 'learning_rate': 2.3743790072608383e-05, 'epoch': 6.91}
 29%|██▉       | 22595/78504 [13:43:58<24:48:18,  1.60s/it] 29%|██▉       | 22596/78504 [13:44:00<23:22:24,  1.51s/it]                                                           {'loss': 0.1911, 'grad_norm': 0.5561609864234924, 'learning_rate': 2.3743365462188442e-05, 'epoch': 6.91}
 29%|██▉       | 22596/78504 [13:44:00<23:22:24,  1.51s/it] 29%|██▉       | 22597/78504 [13:44:01<21:59:41,  1.42s/it]                                                           {'loss': 0.1738, 'grad_norm': 0.687288224697113, 'learning_rate': 2.3742940851768504e-05, 'epoch': 6.91}
 29%|██▉       | 22597/78504 [13:44:01<21:59:41,  1.42s/it] 29%|██▉       | 22598/78504 [13:44:02<20:31:08,  1.32s/it]                                                           {'loss': 0.1992, 'grad_norm': 0.6648432612419128, 'learning_rate': 2.3742516241348563e-05, 'epoch': 6.91}
 29%|██▉       | 22598/78504 [13:44:02<20:31:08,  1.32s/it] 29%|██▉       | 22599/78504 [13:44:03<19:17:15,  1.24s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.4987461566925049, 'learning_rate': 2.3742091630928625e-05, 'epoch': 6.91}
 29%|██▉       | 22599/78504 [13:44:03<19:17:15,  1.24s/it] 29%|██▉       | 22600/78504 [13:44:04<17:49:59,  1.15s/it]                                                           {'loss': 0.1642, 'grad_norm': 0.9492217302322388, 'learning_rate': 2.3741667020508683e-05, 'epoch': 6.91}
 29%|██▉       | 22600/78504 [13:44:04<17:49:59,  1.15s/it] 29%|██▉       | 22601/78504 [13:44:05<16:17:37,  1.05s/it]                                                           {'loss': 0.2614, 'grad_norm': 2.3738620281219482, 'learning_rate': 2.3741242410088742e-05, 'epoch': 6.91}
 29%|██▉       | 22601/78504 [13:44:05<16:17:37,  1.05s/it] 29%|██▉       | 22602/78504 [13:44:14<54:01:13,  3.48s/it]                                                           {'loss': 0.1382, 'grad_norm': 0.37642189860343933, 'learning_rate': 2.3740817799668804e-05, 'epoch': 6.91}
 29%|██▉       | 22602/78504 [13:44:14<54:01:13,  3.48s/it] 29%|██▉       | 22603/78504 [13:44:17<51:17:43,  3.30s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.39443451166152954, 'learning_rate': 2.3740393189248863e-05, 'epoch': 6.91}
 29%|██▉       | 22603/78504 [13:44:17<51:17:43,  3.30s/it] 29%|██▉       | 22604/78504 [13:44:20<49:46:59,  3.21s/it]                                                           {'loss': 0.062, 'grad_norm': 1.6476812362670898, 'learning_rate': 2.3739968578828925e-05, 'epoch': 6.91}
 29%|██▉       | 22604/78504 [13:44:20<49:46:59,  3.21s/it] 29%|██▉       | 22605/78504 [13:44:22<46:59:40,  3.03s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.3512537479400635, 'learning_rate': 2.3739543968408984e-05, 'epoch': 6.91}
 29%|██▉       | 22605/78504 [13:44:22<46:59:40,  3.03s/it] 29%|██▉       | 22606/78504 [13:44:25<44:24:08,  2.86s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.20622578263282776, 'learning_rate': 2.3739119357989046e-05, 'epoch': 6.91}
 29%|██▉       | 22606/78504 [13:44:25<44:24:08,  2.86s/it] 29%|██▉       | 22607/78504 [13:44:27<41:36:46,  2.68s/it]                                                           {'loss': 0.0554, 'grad_norm': 0.1753045618534088, 'learning_rate': 2.3738694747569104e-05, 'epoch': 6.91}
 29%|██▉       | 22607/78504 [13:44:27<41:36:46,  2.68s/it] 29%|██▉       | 22608/78504 [13:44:29<39:54:30,  2.57s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.24711595475673676, 'learning_rate': 2.3738270137149167e-05, 'epoch': 6.91}
 29%|██▉       | 22608/78504 [13:44:29<39:54:30,  2.57s/it] 29%|██▉       | 22609/78504 [13:44:31<37:47:22,  2.43s/it]                                                           {'loss': 0.0783, 'grad_norm': 0.22346530854701996, 'learning_rate': 2.3737845526729225e-05, 'epoch': 6.91}
 29%|██▉       | 22609/78504 [13:44:31<37:47:22,  2.43s/it] 29%|██▉       | 22610/78504 [13:44:33<35:51:58,  2.31s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.26136642694473267, 'learning_rate': 2.3737420916309287e-05, 'epoch': 6.91}
 29%|██▉       | 22610/78504 [13:44:34<35:51:58,  2.31s/it] 29%|██▉       | 22611/78504 [13:44:36<35:04:23,  2.26s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.14708682894706726, 'learning_rate': 2.3736996305889346e-05, 'epoch': 6.91}
 29%|██▉       | 22611/78504 [13:44:36<35:04:23,  2.26s/it] 29%|██▉       | 22612/78504 [13:44:38<33:59:53,  2.19s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.9601826071739197, 'learning_rate': 2.3736571695469408e-05, 'epoch': 6.91}
 29%|██▉       | 22612/78504 [13:44:38<33:59:53,  2.19s/it] 29%|██▉       | 22613/78504 [13:44:40<32:58:10,  2.12s/it]                                                           {'loss': 0.0752, 'grad_norm': 0.18720673024654388, 'learning_rate': 2.3736147085049467e-05, 'epoch': 6.91}
 29%|██▉       | 22613/78504 [13:44:40<32:58:10,  2.12s/it] 29%|██▉       | 22614/78504 [13:44:41<31:46:16,  2.05s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.24517996609210968, 'learning_rate': 2.3735722474629525e-05, 'epoch': 6.91}
 29%|██▉       | 22614/78504 [13:44:42<31:46:16,  2.05s/it] 29%|██▉       | 22615/78504 [13:44:43<30:46:21,  1.98s/it]                                                           {'loss': 0.1297, 'grad_norm': 0.48063525557518005, 'learning_rate': 2.3735297864209588e-05, 'epoch': 6.91}
 29%|██▉       | 22615/78504 [13:44:43<30:46:21,  1.98s/it] 29%|██▉       | 22616/78504 [13:44:45<29:32:32,  1.90s/it]                                                           {'loss': 0.1259, 'grad_norm': 0.4972539246082306, 'learning_rate': 2.3734873253789646e-05, 'epoch': 6.91}
 29%|██▉       | 22616/78504 [13:44:45<29:32:32,  1.90s/it] 29%|██▉       | 22617/78504 [13:44:47<28:22:21,  1.83s/it]                                                           {'loss': 0.1227, 'grad_norm': 0.9870432019233704, 'learning_rate': 2.373444864336971e-05, 'epoch': 6.91}
 29%|██▉       | 22617/78504 [13:44:47<28:22:21,  1.83s/it] 29%|██▉       | 22618/78504 [13:44:48<26:55:12,  1.73s/it]                                                           {'loss': 0.1598, 'grad_norm': 1.4497265815734863, 'learning_rate': 2.3734024032949767e-05, 'epoch': 6.91}
 29%|██▉       | 22618/78504 [13:44:48<26:55:12,  1.73s/it] 29%|██▉       | 22619/78504 [13:44:50<25:40:22,  1.65s/it]                                                           {'loss': 0.1585, 'grad_norm': 0.8474774956703186, 'learning_rate': 2.373359942252983e-05, 'epoch': 6.92}
 29%|██▉       | 22619/78504 [13:44:50<25:40:22,  1.65s/it] 29%|██▉       | 22620/78504 [13:44:51<24:33:48,  1.58s/it]                                                           {'loss': 0.123, 'grad_norm': 0.39484187960624695, 'learning_rate': 2.3733174812109888e-05, 'epoch': 6.92}
 29%|██▉       | 22620/78504 [13:44:51<24:33:48,  1.58s/it] 29%|██▉       | 22621/78504 [13:44:52<23:09:22,  1.49s/it]                                                           {'loss': 0.1395, 'grad_norm': 0.4002956449985504, 'learning_rate': 2.373275020168995e-05, 'epoch': 6.92}
 29%|██▉       | 22621/78504 [13:44:52<23:09:22,  1.49s/it] 29%|██▉       | 22622/78504 [13:44:54<21:32:23,  1.39s/it]                                                           {'loss': 0.1767, 'grad_norm': 1.5644874572753906, 'learning_rate': 2.373232559127001e-05, 'epoch': 6.92}
 29%|██▉       | 22622/78504 [13:44:54<21:32:23,  1.39s/it] 29%|██▉       | 22623/78504 [13:44:55<20:11:03,  1.30s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.8875448703765869, 'learning_rate': 2.373190098085007e-05, 'epoch': 6.92}
 29%|██▉       | 22623/78504 [13:44:55<20:11:03,  1.30s/it] 29%|██▉       | 22624/78504 [13:44:56<18:43:46,  1.21s/it]                                                           {'loss': 0.1661, 'grad_norm': 2.981659412384033, 'learning_rate': 2.373147637043013e-05, 'epoch': 6.92}
 29%|██▉       | 22624/78504 [13:44:56<18:43:46,  1.21s/it] 29%|██▉       | 22625/78504 [13:44:57<17:29:12,  1.13s/it]                                                           {'loss': 0.1637, 'grad_norm': 0.5171760320663452, 'learning_rate': 2.373105176001019e-05, 'epoch': 6.92}
 29%|██▉       | 22625/78504 [13:44:57<17:29:12,  1.13s/it] 29%|██▉       | 22626/78504 [13:44:57<15:54:07,  1.02s/it]                                                           {'loss': 0.244, 'grad_norm': 1.6391313076019287, 'learning_rate': 2.373062714959025e-05, 'epoch': 6.92}
 29%|██▉       | 22626/78504 [13:44:57<15:54:07,  1.02s/it] 29%|██▉       | 22627/78504 [13:45:07<54:14:15,  3.49s/it]                                                           {'loss': 0.1484, 'grad_norm': 0.40290263295173645, 'learning_rate': 2.373020253917031e-05, 'epoch': 6.92}
 29%|██▉       | 22627/78504 [13:45:07<54:14:15,  3.49s/it] 29%|██▉       | 22628/78504 [13:45:10<53:34:19,  3.45s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.21609829366207123, 'learning_rate': 2.372977792875037e-05, 'epoch': 6.92}
 29%|██▉       | 22628/78504 [13:45:10<53:34:19,  3.45s/it] 29%|██▉       | 22629/78504 [13:45:12<49:25:22,  3.18s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.3173176944255829, 'learning_rate': 2.372935331833043e-05, 'epoch': 6.92}
 29%|██▉       | 22629/78504 [13:45:13<49:25:22,  3.18s/it] 29%|██▉       | 22630/78504 [13:45:15<45:51:30,  2.95s/it]                                                           {'loss': 0.0812, 'grad_norm': 0.3256617784500122, 'learning_rate': 2.3728928707910492e-05, 'epoch': 6.92}
 29%|██▉       | 22630/78504 [13:45:15<45:51:30,  2.95s/it] 29%|██▉       | 22631/78504 [13:45:17<43:37:06,  2.81s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.8494409918785095, 'learning_rate': 2.372850409749055e-05, 'epoch': 6.92}
 29%|██▉       | 22631/78504 [13:45:17<43:37:06,  2.81s/it] 29%|██▉       | 22632/78504 [13:45:20<41:51:29,  2.70s/it]                                                           {'loss': 0.0376, 'grad_norm': 0.8213494420051575, 'learning_rate': 2.3728079487070613e-05, 'epoch': 6.92}
 29%|██▉       | 22632/78504 [13:45:20<41:51:29,  2.70s/it] 29%|██▉       | 22633/78504 [13:45:22<40:02:49,  2.58s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.4093777537345886, 'learning_rate': 2.372765487665067e-05, 'epoch': 6.92}
 29%|██▉       | 22633/78504 [13:45:22<40:02:49,  2.58s/it] 29%|██▉       | 22634/78504 [13:45:24<37:51:46,  2.44s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.27773383259773254, 'learning_rate': 2.3727230266230733e-05, 'epoch': 6.92}
 29%|██▉       | 22634/78504 [13:45:24<37:51:46,  2.44s/it] 29%|██▉       | 22635/78504 [13:45:26<36:40:40,  2.36s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.8947184085845947, 'learning_rate': 2.3726805655810792e-05, 'epoch': 6.92}
 29%|██▉       | 22635/78504 [13:45:26<36:40:40,  2.36s/it] 29%|██▉       | 22636/78504 [13:45:29<35:36:59,  2.30s/it]                                                           {'loss': 0.0781, 'grad_norm': 0.43350592255592346, 'learning_rate': 2.3726381045390854e-05, 'epoch': 6.92}
 29%|██▉       | 22636/78504 [13:45:29<35:36:59,  2.30s/it] 29%|██▉       | 22637/78504 [13:45:31<34:22:14,  2.21s/it]                                                           {'loss': 0.0906, 'grad_norm': 0.5934906601905823, 'learning_rate': 2.3725956434970916e-05, 'epoch': 6.92}
 29%|██▉       | 22637/78504 [13:45:31<34:22:14,  2.21s/it] 29%|██▉       | 22638/78504 [13:45:33<33:16:03,  2.14s/it]                                                           {'loss': 0.0725, 'grad_norm': 1.0687286853790283, 'learning_rate': 2.372553182455098e-05, 'epoch': 6.92}
 29%|██▉       | 22638/78504 [13:45:33<33:16:03,  2.14s/it] 29%|██▉       | 22639/78504 [13:45:34<31:56:35,  2.06s/it]                                                           {'loss': 0.0794, 'grad_norm': 0.27101054787635803, 'learning_rate': 2.3725107214131037e-05, 'epoch': 6.92}
 29%|██▉       | 22639/78504 [13:45:34<31:56:35,  2.06s/it] 29%|██▉       | 22640/78504 [13:45:36<31:03:14,  2.00s/it]                                                           {'loss': 0.1108, 'grad_norm': 0.32957723736763, 'learning_rate': 2.3724682603711096e-05, 'epoch': 6.92}
 29%|██▉       | 22640/78504 [13:45:36<31:03:14,  2.00s/it] 29%|██▉       | 22641/78504 [13:45:38<29:59:01,  1.93s/it]                                                           {'loss': 0.1171, 'grad_norm': 0.5860902667045593, 'learning_rate': 2.3724257993291158e-05, 'epoch': 6.92}
 29%|██▉       | 22641/78504 [13:45:38<29:59:01,  1.93s/it] 29%|██▉       | 22642/78504 [13:45:40<28:40:27,  1.85s/it]                                                           {'loss': 0.1037, 'grad_norm': 0.49152857065200806, 'learning_rate': 2.3723833382871217e-05, 'epoch': 6.92}
 29%|██▉       | 22642/78504 [13:45:40<28:40:27,  1.85s/it] 29%|██▉       | 22643/78504 [13:45:41<27:18:02,  1.76s/it]                                                           {'loss': 0.1315, 'grad_norm': 1.118747591972351, 'learning_rate': 2.372340877245128e-05, 'epoch': 6.92}
 29%|██▉       | 22643/78504 [13:45:41<27:18:02,  1.76s/it] 29%|██▉       | 22644/78504 [13:45:43<25:56:53,  1.67s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.6588165760040283, 'learning_rate': 2.3722984162031337e-05, 'epoch': 6.92}
 29%|██▉       | 22644/78504 [13:45:43<25:56:53,  1.67s/it] 29%|██▉       | 22645/78504 [13:45:44<24:40:42,  1.59s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.6942024827003479, 'learning_rate': 2.37225595516114e-05, 'epoch': 6.92}
 29%|██▉       | 22645/78504 [13:45:44<24:40:42,  1.59s/it] 29%|██▉       | 22646/78504 [13:45:45<23:12:58,  1.50s/it]                                                           {'loss': 0.166, 'grad_norm': 0.7258799076080322, 'learning_rate': 2.3722134941191458e-05, 'epoch': 6.92}
 29%|██▉       | 22646/78504 [13:45:45<23:12:58,  1.50s/it] 29%|██▉       | 22647/78504 [13:45:47<21:37:57,  1.39s/it]                                                           {'loss': 0.1599, 'grad_norm': 0.6945796012878418, 'learning_rate': 2.372171033077152e-05, 'epoch': 6.92}
 29%|██▉       | 22647/78504 [13:45:47<21:37:57,  1.39s/it] 29%|██▉       | 22648/78504 [13:45:48<20:13:54,  1.30s/it]                                                           {'loss': 0.1747, 'grad_norm': 2.0119223594665527, 'learning_rate': 2.372128572035158e-05, 'epoch': 6.92}
 29%|██▉       | 22648/78504 [13:45:48<20:13:54,  1.30s/it] 29%|██▉       | 22649/78504 [13:45:49<19:05:23,  1.23s/it]                                                           {'loss': 0.1763, 'grad_norm': 0.7908098101615906, 'learning_rate': 2.372086110993164e-05, 'epoch': 6.92}
 29%|██▉       | 22649/78504 [13:45:49<19:05:23,  1.23s/it] 29%|██▉       | 22650/78504 [13:45:50<17:43:30,  1.14s/it]                                                           {'loss': 0.1702, 'grad_norm': 2.3245460987091064, 'learning_rate': 2.37204364995117e-05, 'epoch': 6.92}
 29%|██▉       | 22650/78504 [13:45:50<17:43:30,  1.14s/it] 29%|██▉       | 22651/78504 [13:45:50<16:01:40,  1.03s/it]                                                           {'loss': 0.2152, 'grad_norm': 1.5678610801696777, 'learning_rate': 2.3720011889091762e-05, 'epoch': 6.92}
 29%|██▉       | 22651/78504 [13:45:50<16:01:40,  1.03s/it] 29%|██▉       | 22652/78504 [13:45:57<43:25:47,  2.80s/it]                                                           {'loss': 0.1592, 'grad_norm': 0.49044033885002136, 'learning_rate': 2.371958727867182e-05, 'epoch': 6.93}
 29%|██▉       | 22652/78504 [13:45:57<43:25:47,  2.80s/it] 29%|██▉       | 22653/78504 [13:46:01<45:44:53,  2.95s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.19757263362407684, 'learning_rate': 2.371916266825188e-05, 'epoch': 6.93}
 29%|██▉       | 22653/78504 [13:46:01<45:44:53,  2.95s/it] 29%|██▉       | 22654/78504 [13:46:04<46:00:47,  2.97s/it]                                                           {'loss': 0.0421, 'grad_norm': 0.6761715412139893, 'learning_rate': 2.371873805783194e-05, 'epoch': 6.93}
 29%|██▉       | 22654/78504 [13:46:04<46:00:47,  2.97s/it] 29%|██▉       | 22655/78504 [13:46:06<44:13:59,  2.85s/it]                                                           {'loss': 0.0606, 'grad_norm': 0.35299867391586304, 'learning_rate': 2.3718313447412e-05, 'epoch': 6.93}
 29%|██▉       | 22655/78504 [13:46:06<44:13:59,  2.85s/it] 29%|██▉       | 22656/78504 [13:46:09<42:32:20,  2.74s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.28878331184387207, 'learning_rate': 2.3717888836992062e-05, 'epoch': 6.93}
 29%|██▉       | 22656/78504 [13:46:09<42:32:20,  2.74s/it] 29%|██▉       | 22657/78504 [13:46:11<40:17:35,  2.60s/it]                                                           {'loss': 0.0619, 'grad_norm': 0.1575728803873062, 'learning_rate': 2.371746422657212e-05, 'epoch': 6.93}
 29%|██▉       | 22657/78504 [13:46:11<40:17:35,  2.60s/it] 29%|██▉       | 22658/78504 [13:46:13<38:58:39,  2.51s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.2778177261352539, 'learning_rate': 2.3717039616152183e-05, 'epoch': 6.93}
 29%|██▉       | 22658/78504 [13:46:13<38:58:39,  2.51s/it] 29%|██▉       | 22659/78504 [13:46:16<38:01:12,  2.45s/it]                                                           {'loss': 0.0904, 'grad_norm': 0.40211084485054016, 'learning_rate': 2.371661500573224e-05, 'epoch': 6.93}
 29%|██▉       | 22659/78504 [13:46:16<38:01:12,  2.45s/it] 29%|██▉       | 22660/78504 [13:46:18<36:45:10,  2.37s/it]                                                           {'loss': 0.0443, 'grad_norm': 0.2466539740562439, 'learning_rate': 2.3716190395312304e-05, 'epoch': 6.93}
 29%|██▉       | 22660/78504 [13:46:18<36:45:10,  2.37s/it] 29%|██▉       | 22661/78504 [13:46:20<35:48:27,  2.31s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.3161744177341461, 'learning_rate': 2.3715765784892362e-05, 'epoch': 6.93}
 29%|██▉       | 22661/78504 [13:46:20<35:48:27,  2.31s/it] 29%|██▉       | 22662/78504 [13:46:22<34:28:51,  2.22s/it]                                                           {'loss': 0.0936, 'grad_norm': 1.1666855812072754, 'learning_rate': 2.3715341174472424e-05, 'epoch': 6.93}
 29%|██▉       | 22662/78504 [13:46:22<34:28:51,  2.22s/it] 29%|██▉       | 22663/78504 [13:46:24<33:18:37,  2.15s/it]                                                           {'loss': 0.079, 'grad_norm': 0.3097958266735077, 'learning_rate': 2.3714916564052483e-05, 'epoch': 6.93}
 29%|██▉       | 22663/78504 [13:46:24<33:18:37,  2.15s/it] 29%|██▉       | 22664/78504 [13:46:26<32:07:37,  2.07s/it]                                                           {'loss': 0.0901, 'grad_norm': 0.5827215909957886, 'learning_rate': 2.3714491953632542e-05, 'epoch': 6.93}
 29%|██▉       | 22664/78504 [13:46:26<32:07:37,  2.07s/it] 29%|██▉       | 22665/78504 [13:46:28<31:10:10,  2.01s/it]                                                           {'loss': 0.1034, 'grad_norm': 0.4553370177745819, 'learning_rate': 2.3714067343212604e-05, 'epoch': 6.93}
 29%|██▉       | 22665/78504 [13:46:28<31:10:10,  2.01s/it] 29%|██▉       | 22666/78504 [13:46:29<30:00:11,  1.93s/it]                                                           {'loss': 0.1091, 'grad_norm': 0.3003826439380646, 'learning_rate': 2.3713642732792663e-05, 'epoch': 6.93}
 29%|██▉       | 22666/78504 [13:46:30<30:00:11,  1.93s/it] 29%|██▉       | 22667/78504 [13:46:31<28:41:10,  1.85s/it]                                                           {'loss': 0.1373, 'grad_norm': 0.5445914268493652, 'learning_rate': 2.3713218122372725e-05, 'epoch': 6.93}
 29%|██▉       | 22667/78504 [13:46:31<28:41:10,  1.85s/it] 29%|██▉       | 22668/78504 [13:46:33<27:15:05,  1.76s/it]                                                           {'loss': 0.1416, 'grad_norm': 0.7441391944885254, 'learning_rate': 2.3712793511952783e-05, 'epoch': 6.93}
 29%|██▉       | 22668/78504 [13:46:33<27:15:05,  1.76s/it] 29%|██▉       | 22669/78504 [13:46:34<25:54:07,  1.67s/it]                                                           {'loss': 0.1586, 'grad_norm': 0.5533941984176636, 'learning_rate': 2.3712368901532845e-05, 'epoch': 6.93}
 29%|██▉       | 22669/78504 [13:46:34<25:54:07,  1.67s/it] 29%|██▉       | 22670/78504 [13:46:36<24:35:50,  1.59s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.5785590410232544, 'learning_rate': 2.3711944291112904e-05, 'epoch': 6.93}
 29%|██▉       | 22670/78504 [13:46:36<24:35:50,  1.59s/it] 29%|██▉       | 22671/78504 [13:46:37<23:13:18,  1.50s/it]                                                           {'loss': 0.1545, 'grad_norm': 0.5103518962860107, 'learning_rate': 2.3711519680692966e-05, 'epoch': 6.93}
 29%|██▉       | 22671/78504 [13:46:37<23:13:18,  1.50s/it] 29%|██▉       | 22672/78504 [13:46:38<21:35:27,  1.39s/it]                                                           {'loss': 0.1456, 'grad_norm': 1.085023045539856, 'learning_rate': 2.3711095070273025e-05, 'epoch': 6.93}
 29%|██▉       | 22672/78504 [13:46:38<21:35:27,  1.39s/it] 29%|██▉       | 22673/78504 [13:46:39<20:14:19,  1.30s/it]                                                           {'loss': 0.151, 'grad_norm': 0.6616905331611633, 'learning_rate': 2.3710670459853087e-05, 'epoch': 6.93}
 29%|██▉       | 22673/78504 [13:46:39<20:14:19,  1.30s/it] 29%|██▉       | 22674/78504 [13:46:40<18:47:02,  1.21s/it]                                                           {'loss': 0.1914, 'grad_norm': 2.0857083797454834, 'learning_rate': 2.3710245849433146e-05, 'epoch': 6.93}
 29%|██▉       | 22674/78504 [13:46:40<18:47:02,  1.21s/it] 29%|██▉       | 22675/78504 [13:46:41<17:31:07,  1.13s/it]                                                           {'loss': 0.174, 'grad_norm': 0.7617282271385193, 'learning_rate': 2.3709821239013208e-05, 'epoch': 6.93}
 29%|██▉       | 22675/78504 [13:46:41<17:31:07,  1.13s/it] 29%|██▉       | 22676/78504 [13:46:42<15:55:34,  1.03s/it]                                                           {'loss': 0.2355, 'grad_norm': 1.8711512088775635, 'learning_rate': 2.3709396628593267e-05, 'epoch': 6.93}
 29%|██▉       | 22676/78504 [13:46:42<15:55:34,  1.03s/it] 29%|██▉       | 22677/78504 [13:46:50<49:52:50,  3.22s/it]                                                           {'loss': 0.1599, 'grad_norm': 0.5490959882736206, 'learning_rate': 2.3708972018173325e-05, 'epoch': 6.93}
 29%|██▉       | 22677/78504 [13:46:50<49:52:50,  3.22s/it] 29%|██▉       | 22678/78504 [13:46:53<49:13:19,  3.17s/it]                                                           {'loss': 0.0931, 'grad_norm': 0.4150683879852295, 'learning_rate': 2.3708547407753387e-05, 'epoch': 6.93}
 29%|██▉       | 22678/78504 [13:46:53<49:13:19,  3.17s/it] 29%|██▉       | 22679/78504 [13:46:56<48:01:44,  3.10s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.29750165343284607, 'learning_rate': 2.3708122797333446e-05, 'epoch': 6.93}
 29%|██▉       | 22679/78504 [13:46:56<48:01:44,  3.10s/it] 29%|██▉       | 22680/78504 [13:46:58<44:29:18,  2.87s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.3923814296722412, 'learning_rate': 2.3707698186913508e-05, 'epoch': 6.93}
 29%|██▉       | 22680/78504 [13:46:58<44:29:18,  2.87s/it] 29%|██▉       | 22681/78504 [13:47:01<42:38:50,  2.75s/it]                                                           {'loss': 0.067, 'grad_norm': 0.4173097014427185, 'learning_rate': 2.3707273576493567e-05, 'epoch': 6.93}
 29%|██▉       | 22681/78504 [13:47:01<42:38:50,  2.75s/it] 29%|██▉       | 22682/78504 [13:47:03<40:22:22,  2.60s/it]                                                           {'loss': 0.0384, 'grad_norm': 0.22155193984508514, 'learning_rate': 2.370684896607363e-05, 'epoch': 6.93}
 29%|██▉       | 22682/78504 [13:47:03<40:22:22,  2.60s/it] 29%|██▉       | 22683/78504 [13:47:05<39:02:04,  2.52s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.16342668235301971, 'learning_rate': 2.3706424355653688e-05, 'epoch': 6.93}
 29%|██▉       | 22683/78504 [13:47:06<39:02:04,  2.52s/it] 29%|██▉       | 22684/78504 [13:47:08<37:01:44,  2.39s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.38117098808288574, 'learning_rate': 2.370599974523375e-05, 'epoch': 6.93}
 29%|██▉       | 22684/78504 [13:47:08<37:01:44,  2.39s/it] 29%|██▉       | 22685/78504 [13:47:10<36:05:06,  2.33s/it]                                                           {'loss': 0.0898, 'grad_norm': 0.4006608724594116, 'learning_rate': 2.370557513481381e-05, 'epoch': 6.94}
 29%|██▉       | 22685/78504 [13:47:10<36:05:06,  2.33s/it] 29%|██▉       | 22686/78504 [13:47:12<35:13:53,  2.27s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.13897745311260223, 'learning_rate': 2.370515052439387e-05, 'epoch': 6.94}
 29%|██▉       | 22686/78504 [13:47:12<35:13:53,  2.27s/it] 29%|██▉       | 22687/78504 [13:47:14<34:05:51,  2.20s/it]                                                           {'loss': 0.0831, 'grad_norm': 1.071020483970642, 'learning_rate': 2.370472591397393e-05, 'epoch': 6.94}
 29%|██▉       | 22687/78504 [13:47:14<34:05:51,  2.20s/it] 29%|██▉       | 22688/78504 [13:47:16<33:05:37,  2.13s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.3506534993648529, 'learning_rate': 2.370430130355399e-05, 'epoch': 6.94}
 29%|██▉       | 22688/78504 [13:47:16<33:05:37,  2.13s/it] 29%|██▉       | 22689/78504 [13:47:18<31:48:49,  2.05s/it]                                                           {'loss': 0.075, 'grad_norm': 1.2607029676437378, 'learning_rate': 2.370387669313405e-05, 'epoch': 6.94}
 29%|██▉       | 22689/78504 [13:47:18<31:48:49,  2.05s/it] 29%|██▉       | 22690/78504 [13:47:20<30:49:25,  1.99s/it]                                                           {'loss': 0.1158, 'grad_norm': 0.47029969096183777, 'learning_rate': 2.370345208271411e-05, 'epoch': 6.94}
 29%|██▉       | 22690/78504 [13:47:20<30:49:25,  1.99s/it] 29%|██▉       | 22691/78504 [13:47:21<29:39:21,  1.91s/it]                                                           {'loss': 0.1111, 'grad_norm': 0.4811001420021057, 'learning_rate': 2.370302747229417e-05, 'epoch': 6.94}
 29%|██▉       | 22691/78504 [13:47:21<29:39:21,  1.91s/it] 29%|██▉       | 22692/78504 [13:47:23<28:23:04,  1.83s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.5011916756629944, 'learning_rate': 2.370260286187423e-05, 'epoch': 6.94}
 29%|██▉       | 22692/78504 [13:47:23<28:23:04,  1.83s/it] 29%|██▉       | 22693/78504 [13:47:25<27:02:08,  1.74s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.6912839412689209, 'learning_rate': 2.370217825145429e-05, 'epoch': 6.94}
 29%|██▉       | 22693/78504 [13:47:25<27:02:08,  1.74s/it] 29%|██▉       | 22694/78504 [13:47:26<25:46:33,  1.66s/it]                                                           {'loss': 0.159, 'grad_norm': 1.2947263717651367, 'learning_rate': 2.370175364103435e-05, 'epoch': 6.94}
 29%|██▉       | 22694/78504 [13:47:26<25:46:33,  1.66s/it] 29%|██▉       | 22695/78504 [13:47:27<24:39:25,  1.59s/it]                                                           {'loss': 0.164, 'grad_norm': 0.6133198142051697, 'learning_rate': 2.3701329030614412e-05, 'epoch': 6.94}
 29%|██▉       | 22695/78504 [13:47:27<24:39:25,  1.59s/it] 29%|██▉       | 22696/78504 [13:47:29<22:56:15,  1.48s/it]                                                           {'loss': 0.157, 'grad_norm': 0.6335939168930054, 'learning_rate': 2.370090442019447e-05, 'epoch': 6.94}
 29%|██▉       | 22696/78504 [13:47:29<22:56:15,  1.48s/it] 29%|██▉       | 22697/78504 [13:47:30<21:22:57,  1.38s/it]                                                           {'loss': 0.142, 'grad_norm': 0.5172121524810791, 'learning_rate': 2.3700479809774533e-05, 'epoch': 6.94}
 29%|██▉       | 22697/78504 [13:47:30<21:22:57,  1.38s/it] 29%|██▉       | 22698/78504 [13:47:31<20:05:55,  1.30s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.7485842704772949, 'learning_rate': 2.3700055199354592e-05, 'epoch': 6.94}
 29%|██▉       | 22698/78504 [13:47:31<20:05:55,  1.30s/it] 29%|██▉       | 22699/78504 [13:47:32<18:46:51,  1.21s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.531968355178833, 'learning_rate': 2.3699630588934654e-05, 'epoch': 6.94}
 29%|██▉       | 22699/78504 [13:47:32<18:46:51,  1.21s/it] 29%|██▉       | 22700/78504 [13:47:33<17:30:12,  1.13s/it]                                                           {'loss': 0.2111, 'grad_norm': 1.2494871616363525, 'learning_rate': 2.3699205978514713e-05, 'epoch': 6.94}
 29%|██▉       | 22700/78504 [13:47:33<17:30:12,  1.13s/it] 29%|██▉       | 22701/78504 [13:47:34<15:52:50,  1.02s/it]                                                           {'loss': 0.2115, 'grad_norm': 1.5122971534729004, 'learning_rate': 2.3698781368094775e-05, 'epoch': 6.94}
 29%|██▉       | 22701/78504 [13:47:34<15:52:50,  1.02s/it] 29%|██▉       | 22702/78504 [13:47:42<48:42:38,  3.14s/it]                                                           {'loss': 0.1514, 'grad_norm': 0.3540289103984833, 'learning_rate': 2.3698356757674833e-05, 'epoch': 6.94}
 29%|██▉       | 22702/78504 [13:47:42<48:42:38,  3.14s/it] 29%|██▉       | 22703/78504 [13:47:45<48:23:28,  3.12s/it]                                                           {'loss': 0.1214, 'grad_norm': 0.4179474413394928, 'learning_rate': 2.3697932147254892e-05, 'epoch': 6.94}
 29%|██▉       | 22703/78504 [13:47:45<48:23:28,  3.12s/it] 29%|██▉       | 22704/78504 [13:47:48<47:25:56,  3.06s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.2182471752166748, 'learning_rate': 2.3697507536834954e-05, 'epoch': 6.94}
 29%|██▉       | 22704/78504 [13:47:48<47:25:56,  3.06s/it] 29%|██▉       | 22705/78504 [13:47:50<45:11:15,  2.92s/it]                                                           {'loss': 0.0667, 'grad_norm': 0.19383253157138824, 'learning_rate': 2.3697082926415013e-05, 'epoch': 6.94}
 29%|██▉       | 22705/78504 [13:47:50<45:11:15,  2.92s/it] 29%|██▉       | 22706/78504 [13:47:53<43:05:36,  2.78s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.46570053696632385, 'learning_rate': 2.3696658315995075e-05, 'epoch': 6.94}
 29%|██▉       | 22706/78504 [13:47:53<43:05:36,  2.78s/it] 29%|██▉       | 22707/78504 [13:47:55<41:26:37,  2.67s/it]                                                           {'loss': 0.0471, 'grad_norm': 0.2177038937807083, 'learning_rate': 2.3696233705575134e-05, 'epoch': 6.94}
 29%|██▉       | 22707/78504 [13:47:55<41:26:37,  2.67s/it] 29%|██▉       | 22708/78504 [13:47:57<39:47:27,  2.57s/it]                                                           {'loss': 0.0481, 'grad_norm': 0.3678787648677826, 'learning_rate': 2.3695809095155196e-05, 'epoch': 6.94}
 29%|██▉       | 22708/78504 [13:47:58<39:47:27,  2.57s/it] 29%|██▉       | 22709/78504 [13:48:00<38:33:59,  2.49s/it]                                                           {'loss': 0.0714, 'grad_norm': 0.397093266248703, 'learning_rate': 2.3695384484735254e-05, 'epoch': 6.94}
 29%|██▉       | 22709/78504 [13:48:00<38:33:59,  2.49s/it] 29%|██▉       | 22710/78504 [13:48:02<37:10:47,  2.40s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.17607295513153076, 'learning_rate': 2.3694959874315317e-05, 'epoch': 6.94}
 29%|██▉       | 22710/78504 [13:48:02<37:10:47,  2.40s/it] 29%|██▉       | 22711/78504 [13:48:04<36:04:17,  2.33s/it]                                                           {'loss': 0.0601, 'grad_norm': 0.1785864233970642, 'learning_rate': 2.3694535263895375e-05, 'epoch': 6.94}
 29%|██▉       | 22711/78504 [13:48:04<36:04:17,  2.33s/it] 29%|██▉       | 22712/78504 [13:48:06<33:53:19,  2.19s/it]                                                           {'loss': 0.0852, 'grad_norm': 0.3333708643913269, 'learning_rate': 2.3694110653475437e-05, 'epoch': 6.94}
 29%|██▉       | 22712/78504 [13:48:06<33:53:19,  2.19s/it] 29%|██▉       | 22713/78504 [13:48:08<32:54:37,  2.12s/it]                                                           {'loss': 0.0956, 'grad_norm': 1.7048436403274536, 'learning_rate': 2.3693686043055496e-05, 'epoch': 6.94}
 29%|██▉       | 22713/78504 [13:48:08<32:54:37,  2.12s/it] 29%|██▉       | 22714/78504 [13:48:10<32:00:22,  2.07s/it]                                                           {'loss': 0.0785, 'grad_norm': 0.217410609126091, 'learning_rate': 2.3693261432635558e-05, 'epoch': 6.94}
 29%|██▉       | 22714/78504 [13:48:10<32:00:22,  2.07s/it] 29%|██▉       | 22715/78504 [13:48:12<31:03:07,  2.00s/it]                                                           {'loss': 0.1128, 'grad_norm': 0.31973856687545776, 'learning_rate': 2.3692836822215617e-05, 'epoch': 6.94}
 29%|██▉       | 22715/78504 [13:48:12<31:03:07,  2.00s/it] 29%|██▉       | 22716/78504 [13:48:14<29:54:28,  1.93s/it]                                                           {'loss': 0.1311, 'grad_norm': 0.5596300363540649, 'learning_rate': 2.3692412211795676e-05, 'epoch': 6.94}
 29%|██▉       | 22716/78504 [13:48:14<29:54:28,  1.93s/it] 29%|██▉       | 22717/78504 [13:48:15<28:36:34,  1.85s/it]                                                           {'loss': 0.1228, 'grad_norm': 0.42848023772239685, 'learning_rate': 2.3691987601375738e-05, 'epoch': 6.94}
 29%|██▉       | 22717/78504 [13:48:15<28:36:34,  1.85s/it] 29%|██▉       | 22718/78504 [13:48:17<27:12:47,  1.76s/it]                                                           {'loss': 0.1356, 'grad_norm': 1.222222924232483, 'learning_rate': 2.3691562990955796e-05, 'epoch': 6.95}
 29%|██▉       | 22718/78504 [13:48:17<27:12:47,  1.76s/it] 29%|██▉       | 22719/78504 [13:48:18<26:03:41,  1.68s/it]                                                           {'loss': 0.149, 'grad_norm': 0.9667991399765015, 'learning_rate': 2.369113838053586e-05, 'epoch': 6.95}
 29%|██▉       | 22719/78504 [13:48:18<26:03:41,  1.68s/it] 29%|██▉       | 22720/78504 [13:48:20<24:46:51,  1.60s/it]                                                           {'loss': 0.1648, 'grad_norm': 0.7485057711601257, 'learning_rate': 2.3690713770115917e-05, 'epoch': 6.95}
 29%|██▉       | 22720/78504 [13:48:20<24:46:51,  1.60s/it] 29%|██▉       | 22721/78504 [13:48:21<23:21:26,  1.51s/it]                                                           {'loss': 0.1773, 'grad_norm': 1.350364327430725, 'learning_rate': 2.369028915969598e-05, 'epoch': 6.95}
 29%|██▉       | 22721/78504 [13:48:21<23:21:26,  1.51s/it] 29%|██▉       | 22722/78504 [13:48:22<21:41:47,  1.40s/it]                                                           {'loss': 0.1357, 'grad_norm': 0.5465497970581055, 'learning_rate': 2.3689864549276038e-05, 'epoch': 6.95}
 29%|██▉       | 22722/78504 [13:48:22<21:41:47,  1.40s/it] 29%|██▉       | 22723/78504 [13:48:23<20:15:44,  1.31s/it]                                                           {'loss': 0.1608, 'grad_norm': 1.3470306396484375, 'learning_rate': 2.36894399388561e-05, 'epoch': 6.95}
 29%|██▉       | 22723/78504 [13:48:23<20:15:44,  1.31s/it] 29%|██▉       | 22724/78504 [13:48:24<19:02:18,  1.23s/it]                                                           {'loss': 0.1646, 'grad_norm': 0.8312376737594604, 'learning_rate': 2.368901532843616e-05, 'epoch': 6.95}
 29%|██▉       | 22724/78504 [13:48:24<19:02:18,  1.23s/it] 29%|██▉       | 22725/78504 [13:48:25<17:39:10,  1.14s/it]                                                           {'loss': 0.1866, 'grad_norm': 0.6723052263259888, 'learning_rate': 2.368859071801622e-05, 'epoch': 6.95}
 29%|██▉       | 22725/78504 [13:48:25<17:39:10,  1.14s/it] 29%|██▉       | 22726/78504 [13:48:26<16:07:14,  1.04s/it]                                                           {'loss': 0.235, 'grad_norm': 2.6637864112854004, 'learning_rate': 2.368816610759628e-05, 'epoch': 6.95}
 29%|██▉       | 22726/78504 [13:48:26<16:07:14,  1.04s/it] 29%|██▉       | 22727/78504 [13:48:35<54:08:47,  3.49s/it]                                                           {'loss': 0.1286, 'grad_norm': 0.33309873938560486, 'learning_rate': 2.368774149717634e-05, 'epoch': 6.95}
 29%|██▉       | 22727/78504 [13:48:35<54:08:47,  3.49s/it] 29%|██▉       | 22728/78504 [13:48:39<53:28:00,  3.45s/it]                                                           {'loss': 0.0817, 'grad_norm': 0.42310062050819397, 'learning_rate': 2.36873168867564e-05, 'epoch': 6.95}
 29%|██▉       | 22728/78504 [13:48:39<53:28:00,  3.45s/it] 29%|██▉       | 22729/78504 [13:48:41<49:19:59,  3.18s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.1777726709842682, 'learning_rate': 2.368689227633646e-05, 'epoch': 6.95}
 29%|██▉       | 22729/78504 [13:48:41<49:19:59,  3.18s/it] 29%|██▉       | 22730/78504 [13:48:44<45:45:47,  2.95s/it]                                                           {'loss': 0.0538, 'grad_norm': 0.2586727440357208, 'learning_rate': 2.368646766591652e-05, 'epoch': 6.95}
 29%|██▉       | 22730/78504 [13:48:44<45:45:47,  2.95s/it] 29%|██▉       | 22731/78504 [13:48:46<43:30:17,  2.81s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.47954505681991577, 'learning_rate': 2.368604305549658e-05, 'epoch': 6.95}
 29%|██▉       | 22731/78504 [13:48:46<43:30:17,  2.81s/it] 29%|██▉       | 22732/78504 [13:48:48<40:58:39,  2.65s/it]                                                           {'loss': 0.0394, 'grad_norm': 0.20960652828216553, 'learning_rate': 2.3685618445076642e-05, 'epoch': 6.95}
 29%|██▉       | 22732/78504 [13:48:48<40:58:39,  2.65s/it] 29%|██▉       | 22733/78504 [13:48:51<39:26:26,  2.55s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.18601678311824799, 'learning_rate': 2.36851938346567e-05, 'epoch': 6.95}
 29%|██▉       | 22733/78504 [13:48:51<39:26:26,  2.55s/it] 29%|██▉       | 22734/78504 [13:48:53<38:17:38,  2.47s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.2382211685180664, 'learning_rate': 2.3684769224236763e-05, 'epoch': 6.95}
 29%|██▉       | 22734/78504 [13:48:53<38:17:38,  2.47s/it] 29%|██▉       | 22735/78504 [13:48:55<36:58:24,  2.39s/it]                                                           {'loss': 0.0522, 'grad_norm': 0.287670761346817, 'learning_rate': 2.368434461381682e-05, 'epoch': 6.95}
 29%|██▉       | 22735/78504 [13:48:55<36:58:24,  2.39s/it] 29%|██▉       | 22736/78504 [13:48:57<35:50:19,  2.31s/it]                                                           {'loss': 0.1079, 'grad_norm': 0.4036199748516083, 'learning_rate': 2.3683920003396883e-05, 'epoch': 6.95}
 29%|██▉       | 22736/78504 [13:48:57<35:50:19,  2.31s/it] 29%|██▉       | 22737/78504 [13:48:59<34:29:12,  2.23s/it]                                                           {'loss': 0.0812, 'grad_norm': 1.3602614402770996, 'learning_rate': 2.3683495392976942e-05, 'epoch': 6.95}
 29%|██▉       | 22737/78504 [13:48:59<34:29:12,  2.23s/it] 29%|██▉       | 22738/78504 [13:49:01<33:21:48,  2.15s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.49519675970077515, 'learning_rate': 2.3683070782557004e-05, 'epoch': 6.95}
 29%|██▉       | 22738/78504 [13:49:01<33:21:48,  2.15s/it] 29%|██▉       | 22739/78504 [13:49:03<32:06:47,  2.07s/it]                                                           {'loss': 0.0861, 'grad_norm': 0.3589365482330322, 'learning_rate': 2.3682646172137066e-05, 'epoch': 6.95}
 29%|██▉       | 22739/78504 [13:49:03<32:06:47,  2.07s/it] 29%|██▉       | 22740/78504 [13:49:05<31:10:35,  2.01s/it]                                                           {'loss': 0.1033, 'grad_norm': 0.3597607910633087, 'learning_rate': 2.368222156171713e-05, 'epoch': 6.95}
 29%|██▉       | 22740/78504 [13:49:05<31:10:35,  2.01s/it] 29%|██▉       | 22741/78504 [13:49:07<30:01:26,  1.94s/it]                                                           {'loss': 0.0974, 'grad_norm': 0.22271136939525604, 'learning_rate': 2.3681796951297187e-05, 'epoch': 6.95}
 29%|██▉       | 22741/78504 [13:49:07<30:01:26,  1.94s/it] 29%|██▉       | 22742/78504 [13:49:08<28:37:11,  1.85s/it]                                                           {'loss': 0.1436, 'grad_norm': 0.8225452899932861, 'learning_rate': 2.3681372340877246e-05, 'epoch': 6.95}
 29%|██▉       | 22742/78504 [13:49:08<28:37:11,  1.85s/it] 29%|██▉       | 22743/78504 [13:49:10<27:06:45,  1.75s/it]                                                           {'loss': 0.113, 'grad_norm': 0.6468713283538818, 'learning_rate': 2.3680947730457308e-05, 'epoch': 6.95}
 29%|██▉       | 22743/78504 [13:49:10<27:06:45,  1.75s/it] 29%|██▉       | 22744/78504 [13:49:11<25:48:49,  1.67s/it]                                                           {'loss': 0.1882, 'grad_norm': 0.5128264427185059, 'learning_rate': 2.3680523120037367e-05, 'epoch': 6.95}
 29%|██▉       | 22744/78504 [13:49:11<25:48:49,  1.67s/it] 29%|██▉       | 22745/78504 [13:49:13<24:41:17,  1.59s/it]                                                           {'loss': 0.1679, 'grad_norm': 0.8362371921539307, 'learning_rate': 2.368009850961743e-05, 'epoch': 6.95}
 29%|██▉       | 22745/78504 [13:49:13<24:41:17,  1.59s/it] 29%|██▉       | 22746/78504 [13:49:14<23:13:57,  1.50s/it]                                                           {'loss': 0.144, 'grad_norm': 0.5748916268348694, 'learning_rate': 2.3679673899197487e-05, 'epoch': 6.95}
 29%|██▉       | 22746/78504 [13:49:14<23:13:57,  1.50s/it] 29%|██▉       | 22747/78504 [13:49:15<21:35:56,  1.39s/it]                                                           {'loss': 0.1558, 'grad_norm': 1.712778925895691, 'learning_rate': 2.367924928877755e-05, 'epoch': 6.95}
 29%|██▉       | 22747/78504 [13:49:15<21:35:56,  1.39s/it] 29%|██▉       | 22748/78504 [13:49:16<20:13:30,  1.31s/it]                                                           {'loss': 0.1644, 'grad_norm': 1.4510594606399536, 'learning_rate': 2.3678824678357608e-05, 'epoch': 6.95}
 29%|██▉       | 22748/78504 [13:49:16<20:13:30,  1.31s/it] 29%|██▉       | 22749/78504 [13:49:17<19:02:55,  1.23s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.8364124894142151, 'learning_rate': 2.367840006793767e-05, 'epoch': 6.95}
 29%|██▉       | 22749/78504 [13:49:17<19:02:55,  1.23s/it] 29%|██▉       | 22750/78504 [13:49:18<17:38:51,  1.14s/it]                                                           {'loss': 0.1805, 'grad_norm': 1.1020835638046265, 'learning_rate': 2.367797545751773e-05, 'epoch': 6.96}
 29%|██▉       | 22750/78504 [13:49:18<17:38:51,  1.14s/it] 29%|██▉       | 22751/78504 [13:49:19<15:58:40,  1.03s/it]                                                           {'loss': 0.2076, 'grad_norm': 1.0688968896865845, 'learning_rate': 2.367755084709779e-05, 'epoch': 6.96}
 29%|██▉       | 22751/78504 [13:49:19<15:58:40,  1.03s/it] 29%|██▉       | 22752/78504 [13:49:27<47:32:42,  3.07s/it]                                                           {'loss': 0.1178, 'grad_norm': 0.7089506983757019, 'learning_rate': 2.367712623667785e-05, 'epoch': 6.96}
 29%|██▉       | 22752/78504 [13:49:27<47:32:42,  3.07s/it] 29%|██▉       | 22753/78504 [13:49:30<47:43:57,  3.08s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.17270934581756592, 'learning_rate': 2.3676701626257912e-05, 'epoch': 6.96}
 29%|██▉       | 22753/78504 [13:49:30<47:43:57,  3.08s/it] 29%|██▉       | 22754/78504 [13:49:33<47:24:39,  3.06s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.23667119443416595, 'learning_rate': 2.367627701583797e-05, 'epoch': 6.96}
 29%|██▉       | 22754/78504 [13:49:33<47:24:39,  3.06s/it] 29%|██▉       | 22755/78504 [13:49:36<45:19:16,  2.93s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.2547309100627899, 'learning_rate': 2.367585240541803e-05, 'epoch': 6.96}
 29%|██▉       | 22755/78504 [13:49:36<45:19:16,  2.93s/it] 29%|██▉       | 22756/78504 [13:49:38<43:10:22,  2.79s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.17152997851371765, 'learning_rate': 2.367542779499809e-05, 'epoch': 6.96}
 29%|██▉       | 22756/78504 [13:49:38<43:10:22,  2.79s/it] 29%|██▉       | 22757/78504 [13:49:40<40:43:30,  2.63s/it]                                                           {'loss': 0.0472, 'grad_norm': 0.1938847303390503, 'learning_rate': 2.367500318457815e-05, 'epoch': 6.96}
 29%|██▉       | 22757/78504 [13:49:40<40:43:30,  2.63s/it] 29%|██▉       | 22758/78504 [13:49:43<39:15:39,  2.54s/it]                                                           {'loss': 0.0341, 'grad_norm': 0.1568722128868103, 'learning_rate': 2.3674578574158212e-05, 'epoch': 6.96}
 29%|██▉       | 22758/78504 [13:49:43<39:15:39,  2.54s/it] 29%|██▉       | 22759/78504 [13:49:45<37:11:16,  2.40s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.494558185338974, 'learning_rate': 2.367415396373827e-05, 'epoch': 6.96}
 29%|██▉       | 22759/78504 [13:49:45<37:11:16,  2.40s/it] 29%|██▉       | 22760/78504 [13:49:47<36:08:44,  2.33s/it]                                                           {'loss': 0.0721, 'grad_norm': 0.4054427444934845, 'learning_rate': 2.3673729353318333e-05, 'epoch': 6.96}
 29%|██▉       | 22760/78504 [13:49:47<36:08:44,  2.33s/it] 29%|██▉       | 22761/78504 [13:49:49<35:21:46,  2.28s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.20933018624782562, 'learning_rate': 2.367330474289839e-05, 'epoch': 6.96}
 29%|██▉       | 22761/78504 [13:49:49<35:21:46,  2.28s/it] 29%|██▉       | 22762/78504 [13:49:51<34:11:32,  2.21s/it]                                                           {'loss': 0.0879, 'grad_norm': 0.3697074353694916, 'learning_rate': 2.3672880132478454e-05, 'epoch': 6.96}
 29%|██▉       | 22762/78504 [13:49:51<34:11:32,  2.21s/it] 29%|██▉       | 22763/78504 [13:49:53<33:05:18,  2.14s/it]                                                           {'loss': 0.0703, 'grad_norm': 1.0342168807983398, 'learning_rate': 2.3672455522058512e-05, 'epoch': 6.96}
 29%|██▉       | 22763/78504 [13:49:53<33:05:18,  2.14s/it] 29%|██▉       | 22764/78504 [13:49:55<31:55:13,  2.06s/it]                                                           {'loss': 0.0714, 'grad_norm': 0.30041614174842834, 'learning_rate': 2.3672030911638574e-05, 'epoch': 6.96}
 29%|██▉       | 22764/78504 [13:49:55<31:55:13,  2.06s/it] 29%|██▉       | 22765/78504 [13:49:57<31:01:02,  2.00s/it]                                                           {'loss': 0.0918, 'grad_norm': 0.2954327166080475, 'learning_rate': 2.3671606301218633e-05, 'epoch': 6.96}
 29%|██▉       | 22765/78504 [13:49:57<31:01:02,  2.00s/it] 29%|██▉       | 22766/78504 [13:49:59<29:52:08,  1.93s/it]                                                           {'loss': 0.0973, 'grad_norm': 0.48731184005737305, 'learning_rate': 2.3671181690798695e-05, 'epoch': 6.96}
 29%|██▉       | 22766/78504 [13:49:59<29:52:08,  1.93s/it] 29%|██▉       | 22767/78504 [13:50:00<28:13:41,  1.82s/it]                                                           {'loss': 0.1298, 'grad_norm': 0.6367764472961426, 'learning_rate': 2.3670757080378754e-05, 'epoch': 6.96}
 29%|██▉       | 22767/78504 [13:50:00<28:13:41,  1.82s/it] 29%|██▉       | 22768/78504 [13:50:02<26:55:35,  1.74s/it]                                                           {'loss': 0.124, 'grad_norm': 0.7440504431724548, 'learning_rate': 2.3670332469958813e-05, 'epoch': 6.96}
 29%|██▉       | 22768/78504 [13:50:02<26:55:35,  1.74s/it] 29%|██▉       | 22769/78504 [13:50:03<25:40:06,  1.66s/it]                                                           {'loss': 0.1403, 'grad_norm': 0.49006208777427673, 'learning_rate': 2.3669907859538875e-05, 'epoch': 6.96}
 29%|██▉       | 22769/78504 [13:50:03<25:40:06,  1.66s/it] 29%|██▉       | 22770/78504 [13:50:05<24:24:37,  1.58s/it]                                                           {'loss': 0.1482, 'grad_norm': 0.6516388654708862, 'learning_rate': 2.3669483249118933e-05, 'epoch': 6.96}
 29%|██▉       | 22770/78504 [13:50:05<24:24:37,  1.58s/it] 29%|██▉       | 22771/78504 [13:50:06<23:03:05,  1.49s/it]                                                           {'loss': 0.1475, 'grad_norm': 0.3771679103374481, 'learning_rate': 2.3669058638698996e-05, 'epoch': 6.96}
 29%|██▉       | 22771/78504 [13:50:06<23:03:05,  1.49s/it] 29%|██▉       | 22772/78504 [13:50:07<21:28:41,  1.39s/it]                                                           {'loss': 0.1931, 'grad_norm': 0.7052801251411438, 'learning_rate': 2.3668634028279054e-05, 'epoch': 6.96}
 29%|██▉       | 22772/78504 [13:50:07<21:28:41,  1.39s/it] 29%|██▉       | 22773/78504 [13:50:08<20:09:56,  1.30s/it]                                                           {'loss': 0.177, 'grad_norm': 1.289109468460083, 'learning_rate': 2.3668209417859116e-05, 'epoch': 6.96}
 29%|██▉       | 22773/78504 [13:50:08<20:09:56,  1.30s/it] 29%|██▉       | 22774/78504 [13:50:09<18:40:06,  1.21s/it]                                                           {'loss': 0.142, 'grad_norm': 1.2940908670425415, 'learning_rate': 2.3667784807439175e-05, 'epoch': 6.96}
 29%|██▉       | 22774/78504 [13:50:09<18:40:06,  1.21s/it] 29%|██▉       | 22775/78504 [13:50:10<17:23:29,  1.12s/it]                                                           {'loss': 0.1818, 'grad_norm': 1.9974557161331177, 'learning_rate': 2.3667360197019237e-05, 'epoch': 6.96}
 29%|██▉       | 22775/78504 [13:50:10<17:23:29,  1.12s/it] 29%|██▉       | 22776/78504 [13:50:11<15:48:18,  1.02s/it]                                                           {'loss': 0.2321, 'grad_norm': 1.04794442653656, 'learning_rate': 2.3666935586599296e-05, 'epoch': 6.96}
 29%|██▉       | 22776/78504 [13:50:11<15:48:18,  1.02s/it] 29%|██▉       | 22777/78504 [13:50:20<52:11:30,  3.37s/it]                                                           {'loss': 0.1549, 'grad_norm': 0.3515241742134094, 'learning_rate': 2.3666510976179358e-05, 'epoch': 6.96}
 29%|██▉       | 22777/78504 [13:50:20<52:11:30,  3.37s/it] 29%|██▉       | 22778/78504 [13:50:23<50:58:26,  3.29s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.20329797267913818, 'learning_rate': 2.3666086365759417e-05, 'epoch': 6.96}
 29%|██▉       | 22778/78504 [13:50:23<50:58:26,  3.29s/it] 29%|██▉       | 22779/78504 [13:50:26<49:29:55,  3.20s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.15116246044635773, 'learning_rate': 2.366566175533948e-05, 'epoch': 6.96}
 29%|██▉       | 22779/78504 [13:50:26<49:29:55,  3.20s/it] 29%|██▉       | 22780/78504 [13:50:28<46:40:33,  3.02s/it]                                                           {'loss': 0.0468, 'grad_norm': 0.33754608035087585, 'learning_rate': 2.3665237144919537e-05, 'epoch': 6.96}
 29%|██▉       | 22780/78504 [13:50:28<46:40:33,  3.02s/it] 29%|██▉       | 22781/78504 [13:50:31<44:06:02,  2.85s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.3199833333492279, 'learning_rate': 2.3664812534499596e-05, 'epoch': 6.96}
 29%|██▉       | 22781/78504 [13:50:31<44:06:02,  2.85s/it] 29%|██▉       | 22782/78504 [13:50:33<41:22:45,  2.67s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.519221842288971, 'learning_rate': 2.3664387924079658e-05, 'epoch': 6.96}
 29%|██▉       | 22782/78504 [13:50:33<41:22:45,  2.67s/it] 29%|██▉       | 22783/78504 [13:50:35<39:45:02,  2.57s/it]                                                           {'loss': 0.035, 'grad_norm': 0.28369611501693726, 'learning_rate': 2.3663963313659717e-05, 'epoch': 6.97}
 29%|██▉       | 22783/78504 [13:50:35<39:45:02,  2.57s/it] 29%|██▉       | 22784/78504 [13:50:37<37:29:12,  2.42s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.21543613076210022, 'learning_rate': 2.366353870323978e-05, 'epoch': 6.97}
 29%|██▉       | 22784/78504 [13:50:37<37:29:12,  2.42s/it] 29%|██▉       | 22785/78504 [13:50:40<35:40:12,  2.30s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.4792042672634125, 'learning_rate': 2.3663114092819838e-05, 'epoch': 6.97}
 29%|██▉       | 22785/78504 [13:50:40<35:40:12,  2.30s/it] 29%|██▉       | 22786/78504 [13:50:42<34:53:49,  2.25s/it]                                                           {'loss': 0.0779, 'grad_norm': 1.487350344657898, 'learning_rate': 2.36626894823999e-05, 'epoch': 6.97}
 29%|██▉       | 22786/78504 [13:50:42<34:53:49,  2.25s/it] 29%|██▉       | 22787/78504 [13:50:44<33:48:25,  2.18s/it]                                                           {'loss': 0.0829, 'grad_norm': 0.42980635166168213, 'learning_rate': 2.366226487197996e-05, 'epoch': 6.97}
 29%|██▉       | 22787/78504 [13:50:44<33:48:25,  2.18s/it] 29%|██▉       | 22788/78504 [13:50:46<32:50:31,  2.12s/it]                                                           {'loss': 0.0856, 'grad_norm': 0.2977074682712555, 'learning_rate': 2.366184026156002e-05, 'epoch': 6.97}
 29%|██▉       | 22788/78504 [13:50:46<32:50:31,  2.12s/it] 29%|██▉       | 22789/78504 [13:50:48<31:38:12,  2.04s/it]                                                           {'loss': 0.1044, 'grad_norm': 0.42701253294944763, 'learning_rate': 2.366141565114008e-05, 'epoch': 6.97}
 29%|██▉       | 22789/78504 [13:50:48<31:38:12,  2.04s/it] 29%|██▉       | 22790/78504 [13:50:49<30:48:06,  1.99s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.5040174126625061, 'learning_rate': 2.366099104072014e-05, 'epoch': 6.97}
 29%|██▉       | 22790/78504 [13:50:49<30:48:06,  1.99s/it] 29%|██▉       | 22791/78504 [13:50:51<29:45:48,  1.92s/it]                                                           {'loss': 0.1234, 'grad_norm': 0.4882960915565491, 'learning_rate': 2.36605664303002e-05, 'epoch': 6.97}
 29%|██▉       | 22791/78504 [13:50:51<29:45:48,  1.92s/it] 29%|██▉       | 22792/78504 [13:50:53<28:09:57,  1.82s/it]                                                           {'loss': 0.119, 'grad_norm': 0.376095712184906, 'learning_rate': 2.366014181988026e-05, 'epoch': 6.97}
 29%|██▉       | 22792/78504 [13:50:53<28:09:57,  1.82s/it] 29%|██▉       | 22793/78504 [13:50:54<26:50:03,  1.73s/it]                                                           {'loss': 0.144, 'grad_norm': 0.6597958207130432, 'learning_rate': 2.365971720946032e-05, 'epoch': 6.97}
 29%|██▉       | 22793/78504 [13:50:54<26:50:03,  1.73s/it] 29%|██▉       | 22794/78504 [13:50:56<25:36:43,  1.66s/it]                                                           {'loss': 0.1672, 'grad_norm': 0.4720153510570526, 'learning_rate': 2.365929259904038e-05, 'epoch': 6.97}
 29%|██▉       | 22794/78504 [13:50:56<25:36:43,  1.66s/it] 29%|██▉       | 22795/78504 [13:50:57<24:26:13,  1.58s/it]                                                           {'loss': 0.1607, 'grad_norm': 0.7126634120941162, 'learning_rate': 2.365886798862044e-05, 'epoch': 6.97}
 29%|██▉       | 22795/78504 [13:50:57<24:26:13,  1.58s/it] 29%|██▉       | 22796/78504 [13:50:58<23:02:51,  1.49s/it]                                                           {'loss': 0.1637, 'grad_norm': 1.1425154209136963, 'learning_rate': 2.36584433782005e-05, 'epoch': 6.97}
 29%|██▉       | 22796/78504 [13:50:58<23:02:51,  1.49s/it] 29%|██▉       | 22797/78504 [13:51:00<21:27:33,  1.39s/it]                                                           {'loss': 0.1712, 'grad_norm': 0.5606197118759155, 'learning_rate': 2.3658018767780562e-05, 'epoch': 6.97}
 29%|██▉       | 22797/78504 [13:51:00<21:27:33,  1.39s/it] 29%|██▉       | 22798/78504 [13:51:01<20:10:42,  1.30s/it]                                                           {'loss': 0.2035, 'grad_norm': 3.8203303813934326, 'learning_rate': 2.365759415736062e-05, 'epoch': 6.97}
 29%|██▉       | 22798/78504 [13:51:01<20:10:42,  1.30s/it] 29%|██▉       | 22799/78504 [13:51:02<18:42:35,  1.21s/it]                                                           {'loss': 0.148, 'grad_norm': 1.3765380382537842, 'learning_rate': 2.3657169546940683e-05, 'epoch': 6.97}
 29%|██▉       | 22799/78504 [13:51:02<18:42:35,  1.21s/it] 29%|██▉       | 22800/78504 [13:51:03<17:26:10,  1.13s/it]                                                           {'loss': 0.1808, 'grad_norm': 0.5928225517272949, 'learning_rate': 2.3656744936520742e-05, 'epoch': 6.97}
 29%|██▉       | 22800/78504 [13:51:03<17:26:10,  1.13s/it] 29%|██▉       | 22801/78504 [13:51:03<15:48:34,  1.02s/it]                                                           {'loss': 0.2036, 'grad_norm': 1.1134337186813354, 'learning_rate': 2.3656320326100804e-05, 'epoch': 6.97}
 29%|██▉       | 22801/78504 [13:51:03<15:48:34,  1.02s/it] 29%|██▉       | 22802/78504 [13:51:12<50:18:12,  3.25s/it]                                                           {'loss': 0.126, 'grad_norm': 0.9155967235565186, 'learning_rate': 2.3655895715680863e-05, 'epoch': 6.97}
 29%|██▉       | 22802/78504 [13:51:12<50:18:12,  3.25s/it] 29%|██▉       | 22803/78504 [13:51:15<49:46:06,  3.22s/it]                                                           {'loss': 0.0937, 'grad_norm': 0.9138651490211487, 'learning_rate': 2.3655471105260925e-05, 'epoch': 6.97}
 29%|██▉       | 22803/78504 [13:51:15<49:46:06,  3.22s/it] 29%|██▉       | 22804/78504 [13:51:18<48:50:08,  3.16s/it]                                                           {'loss': 0.072, 'grad_norm': 0.29244935512542725, 'learning_rate': 2.3655046494840983e-05, 'epoch': 6.97}
 29%|██▉       | 22804/78504 [13:51:18<48:50:08,  3.16s/it] 29%|██▉       | 22805/78504 [13:51:21<46:19:13,  2.99s/it]                                                           {'loss': 0.0971, 'grad_norm': 0.5632997751235962, 'learning_rate': 2.3654621884421042e-05, 'epoch': 6.97}
 29%|██▉       | 22805/78504 [13:51:21<46:19:13,  2.99s/it] 29%|██▉       | 22806/78504 [13:51:23<43:50:49,  2.83s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.6164126992225647, 'learning_rate': 2.3654197274001104e-05, 'epoch': 6.97}
 29%|██▉       | 22806/78504 [13:51:23<43:50:49,  2.83s/it] 29%|██▉       | 22807/78504 [13:51:25<41:57:19,  2.71s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.8074196577072144, 'learning_rate': 2.3653772663581163e-05, 'epoch': 6.97}
 29%|██▉       | 22807/78504 [13:51:25<41:57:19,  2.71s/it] 29%|██▉       | 22808/78504 [13:51:28<40:14:17,  2.60s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.2926614582538605, 'learning_rate': 2.3653348053161225e-05, 'epoch': 6.97}
 29%|██▉       | 22808/78504 [13:51:28<40:14:17,  2.60s/it] 29%|██▉       | 22809/78504 [13:51:30<38:52:21,  2.51s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.46631908416748047, 'learning_rate': 2.3652923442741284e-05, 'epoch': 6.97}
 29%|██▉       | 22809/78504 [13:51:30<38:52:21,  2.51s/it] 29%|██▉       | 22810/78504 [13:51:32<37:21:40,  2.41s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.3448212146759033, 'learning_rate': 2.3652498832321346e-05, 'epoch': 6.97}
 29%|██▉       | 22810/78504 [13:51:32<37:21:40,  2.41s/it] 29%|██▉       | 22811/78504 [13:51:34<36:05:02,  2.33s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.3633638620376587, 'learning_rate': 2.3652074221901404e-05, 'epoch': 6.97}
 29%|██▉       | 22811/78504 [13:51:34<36:05:02,  2.33s/it] 29%|██▉       | 22812/78504 [13:51:36<33:57:31,  2.20s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.9289235472679138, 'learning_rate': 2.3651649611481467e-05, 'epoch': 6.97}
 29%|██▉       | 22812/78504 [13:51:36<33:57:31,  2.20s/it] 29%|██▉       | 22813/78504 [13:51:38<32:56:33,  2.13s/it]                                                           {'loss': 0.0974, 'grad_norm': 0.4140314757823944, 'learning_rate': 2.3651225001061525e-05, 'epoch': 6.97}
 29%|██▉       | 22813/78504 [13:51:38<32:56:33,  2.13s/it] 29%|██▉       | 22814/78504 [13:51:40<31:58:25,  2.07s/it]                                                           {'loss': 0.1067, 'grad_norm': 0.31114906072616577, 'learning_rate': 2.3650800390641587e-05, 'epoch': 6.97}
 29%|██▉       | 22814/78504 [13:51:40<31:58:25,  2.07s/it] 29%|██▉       | 22815/78504 [13:51:42<31:00:48,  2.00s/it]                                                           {'loss': 0.0789, 'grad_norm': 0.6833174824714661, 'learning_rate': 2.3650375780221646e-05, 'epoch': 6.97}
 29%|██▉       | 22815/78504 [13:51:42<31:00:48,  2.00s/it] 29%|██▉       | 22816/78504 [13:51:44<30:06:52,  1.95s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.37194493412971497, 'learning_rate': 2.3649951169801708e-05, 'epoch': 6.98}
 29%|██▉       | 22816/78504 [13:51:44<30:06:52,  1.95s/it] 29%|██▉       | 22817/78504 [13:51:46<28:38:48,  1.85s/it]                                                           {'loss': 0.1657, 'grad_norm': 0.44852200150489807, 'learning_rate': 2.3649526559381767e-05, 'epoch': 6.98}
 29%|██▉       | 22817/78504 [13:51:46<28:38:48,  1.85s/it] 29%|██▉       | 22818/78504 [13:51:47<26:55:26,  1.74s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.6106465458869934, 'learning_rate': 2.3649101948961826e-05, 'epoch': 6.98}
 29%|██▉       | 22818/78504 [13:51:47<26:55:26,  1.74s/it] 29%|██▉       | 22819/78504 [13:51:48<25:48:46,  1.67s/it]                                                           {'loss': 0.1223, 'grad_norm': 0.6883792877197266, 'learning_rate': 2.3648677338541888e-05, 'epoch': 6.98}
 29%|██▉       | 22819/78504 [13:51:49<25:48:46,  1.67s/it] 29%|██▉       | 22820/78504 [13:51:50<24:36:12,  1.59s/it]                                                           {'loss': 0.1372, 'grad_norm': 0.6935672163963318, 'learning_rate': 2.3648252728121946e-05, 'epoch': 6.98}
 29%|██▉       | 22820/78504 [13:51:50<24:36:12,  1.59s/it] 29%|██▉       | 22821/78504 [13:51:51<23:10:25,  1.50s/it]                                                           {'loss': 0.1609, 'grad_norm': 0.5622730851173401, 'learning_rate': 2.364782811770201e-05, 'epoch': 6.98}
 29%|██▉       | 22821/78504 [13:51:51<23:10:25,  1.50s/it] 29%|██▉       | 22822/78504 [13:51:52<21:31:56,  1.39s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.5770902633666992, 'learning_rate': 2.3647403507282067e-05, 'epoch': 6.98}
 29%|██▉       | 22822/78504 [13:51:52<21:31:56,  1.39s/it] 29%|██▉       | 22823/78504 [13:51:53<20:04:07,  1.30s/it]                                                           {'loss': 0.1913, 'grad_norm': 0.6939988136291504, 'learning_rate': 2.364697889686213e-05, 'epoch': 6.98}
 29%|██▉       | 22823/78504 [13:51:53<20:04:07,  1.30s/it] 29%|██▉       | 22824/78504 [13:51:54<18:51:03,  1.22s/it]                                                           {'loss': 0.2043, 'grad_norm': 1.4859950542449951, 'learning_rate': 2.3646554286442188e-05, 'epoch': 6.98}
 29%|██▉       | 22824/78504 [13:51:54<18:51:03,  1.22s/it] 29%|██▉       | 22825/78504 [13:51:55<17:31:32,  1.13s/it]                                                           {'loss': 0.1764, 'grad_norm': 0.5373274087905884, 'learning_rate': 2.364612967602225e-05, 'epoch': 6.98}
 29%|██▉       | 22825/78504 [13:51:55<17:31:32,  1.13s/it] 29%|██▉       | 22826/78504 [13:51:56<15:52:18,  1.03s/it]                                                           {'loss': 0.2206, 'grad_norm': 1.6163774728775024, 'learning_rate': 2.364570506560231e-05, 'epoch': 6.98}
 29%|██▉       | 22826/78504 [13:51:56<15:52:18,  1.03s/it] 29%|██▉       | 22827/78504 [13:52:04<47:00:20,  3.04s/it]                                                           {'loss': 0.1733, 'grad_norm': 0.4380199909210205, 'learning_rate': 2.364528045518237e-05, 'epoch': 6.98}
 29%|██▉       | 22827/78504 [13:52:04<47:00:20,  3.04s/it] 29%|██▉       | 22828/78504 [13:52:07<48:26:49,  3.13s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.2924002707004547, 'learning_rate': 2.364485584476243e-05, 'epoch': 6.98}
 29%|██▉       | 22828/78504 [13:52:07<48:26:49,  3.13s/it] 29%|██▉       | 22829/78504 [13:52:10<45:48:07,  2.96s/it]                                                           {'loss': 0.0912, 'grad_norm': 0.25473177433013916, 'learning_rate': 2.364443123434249e-05, 'epoch': 6.98}
 29%|██▉       | 22829/78504 [13:52:10<45:48:07,  2.96s/it] 29%|██▉       | 22830/78504 [13:52:12<44:10:14,  2.86s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.2705880403518677, 'learning_rate': 2.364400662392255e-05, 'epoch': 6.98}
 29%|██▉       | 22830/78504 [13:52:12<44:10:14,  2.86s/it] 29%|██▉       | 22831/78504 [13:52:15<42:20:02,  2.74s/it]                                                           {'loss': 0.0431, 'grad_norm': 0.26872438192367554, 'learning_rate': 2.364358201350261e-05, 'epoch': 6.98}
 29%|██▉       | 22831/78504 [13:52:15<42:20:02,  2.74s/it] 29%|██▉       | 22832/78504 [13:52:17<40:06:06,  2.59s/it]                                                           {'loss': 0.051, 'grad_norm': 0.34162867069244385, 'learning_rate': 2.364315740308267e-05, 'epoch': 6.98}
 29%|██▉       | 22832/78504 [13:52:17<40:06:06,  2.59s/it] 29%|██▉       | 22833/78504 [13:52:19<38:43:06,  2.50s/it]                                                           {'loss': 0.0352, 'grad_norm': 0.1312520056962967, 'learning_rate': 2.364273279266273e-05, 'epoch': 6.98}
 29%|██▉       | 22833/78504 [13:52:19<38:43:06,  2.50s/it] 29%|██▉       | 22834/78504 [13:52:22<36:46:58,  2.38s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.23705172538757324, 'learning_rate': 2.3642308182242792e-05, 'epoch': 6.98}
 29%|██▉       | 22834/78504 [13:52:22<36:46:58,  2.38s/it] 29%|██▉       | 22835/78504 [13:52:24<35:55:33,  2.32s/it]                                                           {'loss': 0.094, 'grad_norm': 0.6826582551002502, 'learning_rate': 2.364188357182285e-05, 'epoch': 6.98}
 29%|██▉       | 22835/78504 [13:52:24<35:55:33,  2.32s/it] 29%|██▉       | 22836/78504 [13:52:26<35:02:45,  2.27s/it]                                                           {'loss': 0.0688, 'grad_norm': 0.3590957522392273, 'learning_rate': 2.3641458961402913e-05, 'epoch': 6.98}
 29%|██▉       | 22836/78504 [13:52:26<35:02:45,  2.27s/it] 29%|██▉       | 22837/78504 [13:52:28<33:40:18,  2.18s/it]                                                           {'loss': 0.0908, 'grad_norm': 0.34586888551712036, 'learning_rate': 2.364103435098297e-05, 'epoch': 6.98}
 29%|██▉       | 22837/78504 [13:52:28<33:40:18,  2.18s/it] 29%|██▉       | 22838/78504 [13:52:30<32:29:48,  2.10s/it]                                                           {'loss': 0.0766, 'grad_norm': 0.2434527426958084, 'learning_rate': 2.3640609740563033e-05, 'epoch': 6.98}
 29%|██▉       | 22838/78504 [13:52:30<32:29:48,  2.10s/it] 29%|██▉       | 22839/78504 [13:52:32<31:23:42,  2.03s/it]                                                           {'loss': 0.0796, 'grad_norm': 0.2772751748561859, 'learning_rate': 2.3640185130143092e-05, 'epoch': 6.98}
 29%|██▉       | 22839/78504 [13:52:32<31:23:42,  2.03s/it] 29%|██▉       | 22840/78504 [13:52:33<29:49:07,  1.93s/it]                                                           {'loss': 0.1018, 'grad_norm': 0.28967779874801636, 'learning_rate': 2.3639760519723154e-05, 'epoch': 6.98}
 29%|██▉       | 22840/78504 [13:52:33<29:49:07,  1.93s/it] 29%|██▉       | 22841/78504 [13:52:35<29:03:05,  1.88s/it]                                                           {'loss': 0.1103, 'grad_norm': 0.40911078453063965, 'learning_rate': 2.3639335909303216e-05, 'epoch': 6.98}
 29%|██▉       | 22841/78504 [13:52:35<29:03:05,  1.88s/it] 29%|██▉       | 22842/78504 [13:52:37<27:53:58,  1.80s/it]                                                           {'loss': 0.1122, 'grad_norm': 0.3880925178527832, 'learning_rate': 2.363891129888328e-05, 'epoch': 6.98}
 29%|██▉       | 22842/78504 [13:52:37<27:53:58,  1.80s/it] 29%|██▉       | 22843/78504 [13:52:38<26:29:57,  1.71s/it]                                                           {'loss': 0.1578, 'grad_norm': 0.4874424338340759, 'learning_rate': 2.3638486688463337e-05, 'epoch': 6.98}
 29%|██▉       | 22843/78504 [13:52:38<26:29:57,  1.71s/it] 29%|██▉       | 22844/78504 [13:52:40<25:05:58,  1.62s/it]                                                           {'loss': 0.1728, 'grad_norm': 0.6619102358818054, 'learning_rate': 2.3638062078043396e-05, 'epoch': 6.98}
 29%|██▉       | 22844/78504 [13:52:40<25:05:58,  1.62s/it] 29%|██▉       | 22845/78504 [13:52:41<24:04:44,  1.56s/it]                                                           {'loss': 0.1515, 'grad_norm': 0.9005120396614075, 'learning_rate': 2.3637637467623458e-05, 'epoch': 6.98}
 29%|██▉       | 22845/78504 [13:52:41<24:04:44,  1.56s/it] 29%|██▉       | 22846/78504 [13:52:42<22:29:00,  1.45s/it]                                                           {'loss': 0.1509, 'grad_norm': 0.4511738121509552, 'learning_rate': 2.3637212857203517e-05, 'epoch': 6.98}
 29%|██▉       | 22846/78504 [13:52:42<22:29:00,  1.45s/it] 29%|██▉       | 22847/78504 [13:52:43<20:55:17,  1.35s/it]                                                           {'loss': 0.162, 'grad_norm': 2.949410915374756, 'learning_rate': 2.363678824678358e-05, 'epoch': 6.98}
 29%|██▉       | 22847/78504 [13:52:43<20:55:17,  1.35s/it] 29%|██▉       | 22848/78504 [13:52:44<19:39:37,  1.27s/it]                                                           {'loss': 0.1594, 'grad_norm': 1.0827052593231201, 'learning_rate': 2.3636363636363637e-05, 'epoch': 6.99}
 29%|██▉       | 22848/78504 [13:52:44<19:39:37,  1.27s/it] 29%|██▉       | 22849/78504 [13:52:45<18:21:56,  1.19s/it]                                                           {'loss': 0.1908, 'grad_norm': 0.9268751740455627, 'learning_rate': 2.36359390259437e-05, 'epoch': 6.99}
 29%|██▉       | 22849/78504 [13:52:45<18:21:56,  1.19s/it] 29%|██▉       | 22850/78504 [13:52:46<17:11:35,  1.11s/it]                                                           {'loss': 0.1976, 'grad_norm': 0.8042384386062622, 'learning_rate': 2.3635514415523758e-05, 'epoch': 6.99}
 29%|██▉       | 22850/78504 [13:52:46<17:11:35,  1.11s/it] 29%|██▉       | 22851/78504 [13:52:47<15:37:46,  1.01s/it]                                                           {'loss': 0.208, 'grad_norm': 0.8655027151107788, 'learning_rate': 2.363508980510382e-05, 'epoch': 6.99}
 29%|██▉       | 22851/78504 [13:52:47<15:37:46,  1.01s/it] 29%|██▉       | 22852/78504 [13:52:56<52:55:42,  3.42s/it]                                                           {'loss': 0.1387, 'grad_norm': 0.3895508348941803, 'learning_rate': 2.363466519468388e-05, 'epoch': 6.99}
 29%|██▉       | 22852/78504 [13:52:56<52:55:42,  3.42s/it] 29%|██▉       | 22853/78504 [13:52:59<51:32:48,  3.33s/it]                                                           {'loss': 0.058, 'grad_norm': 0.1741533875465393, 'learning_rate': 2.363424058426394e-05, 'epoch': 6.99}
 29%|██▉       | 22853/78504 [13:52:59<51:32:48,  3.33s/it] 29%|██▉       | 22854/78504 [13:53:02<50:02:20,  3.24s/it]                                                           {'loss': 0.064, 'grad_norm': 0.19442026317119598, 'learning_rate': 2.3633815973844e-05, 'epoch': 6.99}
 29%|██▉       | 22854/78504 [13:53:02<50:02:20,  3.24s/it] 29%|██▉       | 22855/78504 [13:53:05<47:06:49,  3.05s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.24382686614990234, 'learning_rate': 2.3633391363424062e-05, 'epoch': 6.99}
 29%|██▉       | 22855/78504 [13:53:05<47:06:49,  3.05s/it] 29%|██▉       | 22856/78504 [13:53:07<43:53:00,  2.84s/it]                                                           {'loss': 0.0458, 'grad_norm': 0.14869308471679688, 'learning_rate': 2.363296675300412e-05, 'epoch': 6.99}
 29%|██▉       | 22856/78504 [13:53:07<43:53:00,  2.84s/it] 29%|██▉       | 22857/78504 [13:53:10<41:11:24,  2.66s/it]                                                           {'loss': 0.0547, 'grad_norm': 0.41581565141677856, 'learning_rate': 2.363254214258418e-05, 'epoch': 6.99}
 29%|██▉       | 22857/78504 [13:53:10<41:11:24,  2.66s/it] 29%|██▉       | 22858/78504 [13:53:12<39:31:55,  2.56s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.15573346614837646, 'learning_rate': 2.363211753216424e-05, 'epoch': 6.99}
 29%|██▉       | 22858/78504 [13:53:12<39:31:55,  2.56s/it] 29%|██▉       | 22859/78504 [13:53:14<37:20:11,  2.42s/it]                                                           {'loss': 0.061, 'grad_norm': 0.76036536693573, 'learning_rate': 2.36316929217443e-05, 'epoch': 6.99}
 29%|██▉       | 22859/78504 [13:53:14<37:20:11,  2.42s/it] 29%|██▉       | 22860/78504 [13:53:16<36:14:15,  2.34s/it]                                                           {'loss': 0.0869, 'grad_norm': 0.7291110754013062, 'learning_rate': 2.3631268311324362e-05, 'epoch': 6.99}
 29%|██▉       | 22860/78504 [13:53:16<36:14:15,  2.34s/it] 29%|██▉       | 22861/78504 [13:53:18<35:16:24,  2.28s/it]                                                           {'loss': 0.0653, 'grad_norm': 0.2318873256444931, 'learning_rate': 2.363084370090442e-05, 'epoch': 6.99}
 29%|██▉       | 22861/78504 [13:53:18<35:16:24,  2.28s/it] 29%|██▉       | 22862/78504 [13:53:20<34:04:14,  2.20s/it]                                                           {'loss': 0.1083, 'grad_norm': 0.6932134628295898, 'learning_rate': 2.3630419090484483e-05, 'epoch': 6.99}
 29%|██▉       | 22862/78504 [13:53:20<34:04:14,  2.20s/it] 29%|██▉       | 22863/78504 [13:53:22<32:57:56,  2.13s/it]                                                           {'loss': 0.061, 'grad_norm': 0.27563413977622986, 'learning_rate': 2.362999448006454e-05, 'epoch': 6.99}
 29%|██▉       | 22863/78504 [13:53:22<32:57:56,  2.13s/it] 29%|██▉       | 22864/78504 [13:53:24<31:47:35,  2.06s/it]                                                           {'loss': 0.0904, 'grad_norm': 0.2601296305656433, 'learning_rate': 2.3629569869644604e-05, 'epoch': 6.99}
 29%|██▉       | 22864/78504 [13:53:24<31:47:35,  2.06s/it] 29%|██▉       | 22865/78504 [13:53:26<30:48:06,  1.99s/it]                                                           {'loss': 0.1076, 'grad_norm': 0.34056392312049866, 'learning_rate': 2.3629145259224662e-05, 'epoch': 6.99}
 29%|██▉       | 22865/78504 [13:53:26<30:48:06,  1.99s/it] 29%|██▉       | 22866/78504 [13:53:28<29:40:15,  1.92s/it]                                                           {'loss': 0.1143, 'grad_norm': 1.0377604961395264, 'learning_rate': 2.3628720648804724e-05, 'epoch': 6.99}
 29%|██▉       | 22866/78504 [13:53:28<29:40:15,  1.92s/it] 29%|██▉       | 22867/78504 [13:53:29<28:03:48,  1.82s/it]                                                           {'loss': 0.1232, 'grad_norm': 0.3627599775791168, 'learning_rate': 2.3628296038384783e-05, 'epoch': 6.99}
 29%|██▉       | 22867/78504 [13:53:29<28:03:48,  1.82s/it] 29%|██▉       | 22868/78504 [13:53:31<26:45:31,  1.73s/it]                                                           {'loss': 0.1428, 'grad_norm': 0.36388108134269714, 'learning_rate': 2.3627871427964845e-05, 'epoch': 6.99}
 29%|██▉       | 22868/78504 [13:53:31<26:45:31,  1.73s/it] 29%|██▉       | 22869/78504 [13:53:32<25:28:22,  1.65s/it]                                                           {'loss': 0.1688, 'grad_norm': 1.276749849319458, 'learning_rate': 2.3627446817544904e-05, 'epoch': 6.99}
 29%|██▉       | 22869/78504 [13:53:32<25:28:22,  1.65s/it] 29%|██▉       | 22870/78504 [13:53:34<24:20:40,  1.58s/it]                                                           {'loss': 0.1987, 'grad_norm': 0.6278138160705566, 'learning_rate': 2.3627022207124963e-05, 'epoch': 6.99}
 29%|██▉       | 22870/78504 [13:53:34<24:20:40,  1.58s/it] 29%|██▉       | 22871/78504 [13:53:35<22:57:28,  1.49s/it]                                                           {'loss': 0.1495, 'grad_norm': 1.145729660987854, 'learning_rate': 2.3626597596705025e-05, 'epoch': 6.99}
 29%|██▉       | 22871/78504 [13:53:35<22:57:28,  1.49s/it] 29%|██▉       | 22872/78504 [13:53:36<21:22:55,  1.38s/it]                                                           {'loss': 0.1627, 'grad_norm': 0.49384286999702454, 'learning_rate': 2.3626172986285083e-05, 'epoch': 6.99}
 29%|██▉       | 22872/78504 [13:53:36<21:22:55,  1.38s/it] 29%|██▉       | 22873/78504 [13:53:37<20:01:35,  1.30s/it]                                                           {'loss': 0.1803, 'grad_norm': 2.167536973953247, 'learning_rate': 2.3625748375865146e-05, 'epoch': 6.99}
 29%|██▉       | 22873/78504 [13:53:37<20:01:35,  1.30s/it] 29%|██▉       | 22874/78504 [13:53:38<18:48:31,  1.22s/it]                                                           {'loss': 0.1507, 'grad_norm': 0.7159838676452637, 'learning_rate': 2.3625323765445204e-05, 'epoch': 6.99}
 29%|██▉       | 22874/78504 [13:53:38<18:48:31,  1.22s/it] 29%|██▉       | 22875/78504 [13:53:39<17:25:26,  1.13s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.6158289313316345, 'learning_rate': 2.3624899155025266e-05, 'epoch': 6.99}
 29%|██▉       | 22875/78504 [13:53:39<17:25:26,  1.13s/it] 29%|██▉       | 22876/78504 [13:53:40<15:47:36,  1.02s/it]                                                           {'loss': 0.1727, 'grad_norm': 0.7105059027671814, 'learning_rate': 2.3624474544605325e-05, 'epoch': 6.99}
 29%|██▉       | 22876/78504 [13:53:40<15:47:36,  1.02s/it] 29%|██▉       | 22877/78504 [13:53:48<49:13:16,  3.19s/it]                                                           {'loss': 0.1268, 'grad_norm': 0.5068464279174805, 'learning_rate': 2.3624049934185387e-05, 'epoch': 6.99}
 29%|██▉       | 22877/78504 [13:53:48<49:13:16,  3.19s/it] 29%|██▉       | 22878/78504 [13:53:51<48:08:17,  3.12s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.28329646587371826, 'learning_rate': 2.3623625323765446e-05, 'epoch': 6.99}
 29%|██▉       | 22878/78504 [13:53:51<48:08:17,  3.12s/it] 29%|██▉       | 22879/78504 [13:53:54<45:39:44,  2.96s/it]                                                           {'loss': 0.1014, 'grad_norm': 0.36776968836784363, 'learning_rate': 2.3623200713345508e-05, 'epoch': 6.99}
 29%|██▉       | 22879/78504 [13:53:54<45:39:44,  2.96s/it] 29%|██▉       | 22880/78504 [13:53:56<43:43:33,  2.83s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.20123514533042908, 'learning_rate': 2.3622776102925567e-05, 'epoch': 6.99}
 29%|██▉       | 22880/78504 [13:53:56<43:43:33,  2.83s/it] 29%|██▉       | 22881/78504 [13:53:58<41:04:16,  2.66s/it]                                                           {'loss': 0.0409, 'grad_norm': 0.1444971263408661, 'learning_rate': 2.362235149250563e-05, 'epoch': 7.0}
 29%|██▉       | 22881/78504 [13:53:58<41:04:16,  2.66s/it] 29%|██▉       | 22882/78504 [13:54:01<39:28:53,  2.56s/it]                                                           {'loss': 0.0438, 'grad_norm': 0.13313539326190948, 'learning_rate': 2.3621926882085687e-05, 'epoch': 7.0}
 29%|██▉       | 22882/78504 [13:54:01<39:28:53,  2.56s/it] 29%|██▉       | 22883/78504 [13:54:03<37:03:14,  2.40s/it]                                                           {'loss': 0.0627, 'grad_norm': 0.3009246587753296, 'learning_rate': 2.3621502271665746e-05, 'epoch': 7.0}
 29%|██▉       | 22883/78504 [13:54:03<37:03:14,  2.40s/it] 29%|██▉       | 22884/78504 [13:54:05<35:50:54,  2.32s/it]                                                           {'loss': 0.0639, 'grad_norm': 0.5636846423149109, 'learning_rate': 2.3621077661245808e-05, 'epoch': 7.0}
 29%|██▉       | 22884/78504 [13:54:05<35:50:54,  2.32s/it] 29%|██▉       | 22885/78504 [13:54:07<33:40:45,  2.18s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.2633838355541229, 'learning_rate': 2.3620653050825867e-05, 'epoch': 7.0}
 29%|██▉       | 22885/78504 [13:54:07<33:40:45,  2.18s/it] 29%|██▉       | 22886/78504 [13:54:09<32:46:07,  2.12s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.3296327590942383, 'learning_rate': 2.362022844040593e-05, 'epoch': 7.0}
 29%|██▉       | 22886/78504 [13:54:09<32:46:07,  2.12s/it] 29%|██▉       | 22887/78504 [13:54:11<31:27:31,  2.04s/it]                                                           {'loss': 0.089, 'grad_norm': 0.9385263323783875, 'learning_rate': 2.3619803829985988e-05, 'epoch': 7.0}
 29%|██▉       | 22887/78504 [13:54:11<31:27:31,  2.04s/it] 29%|██▉       | 22888/78504 [13:54:12<30:09:26,  1.95s/it]                                                           {'loss': 0.0897, 'grad_norm': 0.20990873873233795, 'learning_rate': 2.361937921956605e-05, 'epoch': 7.0}
 29%|██▉       | 22888/78504 [13:54:12<30:09:26,  1.95s/it] 29%|██▉       | 22889/78504 [13:54:14<28:22:33,  1.84s/it]                                                           {'loss': 0.0951, 'grad_norm': 0.5828734636306763, 'learning_rate': 2.361895460914611e-05, 'epoch': 7.0}
 29%|██▉       | 22889/78504 [13:54:14<28:22:33,  1.84s/it] 29%|██▉       | 22890/78504 [13:54:15<26:50:31,  1.74s/it]                                                           {'loss': 0.158, 'grad_norm': 0.6873428225517273, 'learning_rate': 2.361852999872617e-05, 'epoch': 7.0}
 29%|██▉       | 22890/78504 [13:54:15<26:50:31,  1.74s/it] 29%|██▉       | 22891/78504 [13:54:17<25:32:49,  1.65s/it]                                                           {'loss': 0.1359, 'grad_norm': 0.6882810592651367, 'learning_rate': 2.361810538830623e-05, 'epoch': 7.0}
 29%|██▉       | 22891/78504 [13:54:17<25:32:49,  1.65s/it] 29%|██▉       | 22892/78504 [13:54:18<23:30:43,  1.52s/it]                                                           {'loss': 0.132, 'grad_norm': 0.5994560718536377, 'learning_rate': 2.361768077788629e-05, 'epoch': 7.0}
 29%|██▉       | 22892/78504 [13:54:18<23:30:43,  1.52s/it] 29%|██▉       | 22893/78504 [13:54:19<22:01:22,  1.43s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.6067599058151245, 'learning_rate': 2.361725616746635e-05, 'epoch': 7.0}
 29%|██▉       | 22893/78504 [13:54:19<22:01:22,  1.43s/it] 29%|██▉       | 22894/78504 [13:54:20<20:24:53,  1.32s/it]                                                           {'loss': 0.1454, 'grad_norm': 0.8229199051856995, 'learning_rate': 2.3616831557046412e-05, 'epoch': 7.0}
 29%|██▉       | 22894/78504 [13:54:20<20:24:53,  1.32s/it] 29%|██▉       | 22895/78504 [13:54:21<18:50:24,  1.22s/it]                                                           {'loss': 0.1682, 'grad_norm': 2.7359886169433594, 'learning_rate': 2.361640694662647e-05, 'epoch': 7.0}
 29%|██▉       | 22895/78504 [13:54:21<18:50:24,  1.22s/it] 29%|██▉       | 22896/78504 [13:54:22<17:10:15,  1.11s/it]                                                           {'loss': 0.1694, 'grad_norm': 0.7411574125289917, 'learning_rate': 2.361598233620653e-05, 'epoch': 7.0}
 29%|██▉       | 22896/78504 [13:54:22<17:10:15,  1.11s/it] 29%|██▉       | 22897/78504 [13:54:35<69:46:13,  4.52s/it]                                                           {'loss': 0.1897, 'grad_norm': 1.2227338552474976, 'learning_rate': 2.361555772578659e-05, 'epoch': 7.0}
 29%|██▉       | 22897/78504 [13:54:35<69:46:13,  4.52s/it] 29%|██▉       | 22898/78504 [13:55:02<176:31:18, 11.43s/it]                                                            {'loss': 0.1266, 'grad_norm': 0.3951197564601898, 'learning_rate': 2.361513311536665e-05, 'epoch': 7.0}
 29%|██▉       | 22898/78504 [13:55:02<176:31:18, 11.43s/it] 29%|██▉       | 22899/78504 [13:55:05<138:34:10,  8.97s/it]                                                            {'loss': 0.0843, 'grad_norm': 0.22313864529132843, 'learning_rate': 2.3614708504946712e-05, 'epoch': 7.0}
 29%|██▉       | 22899/78504 [13:55:06<138:34:10,  8.97s/it] 29%|██▉       | 22900/78504 [13:55:08<110:36:11,  7.16s/it]                                                            {'loss': 0.0618, 'grad_norm': 0.1862332820892334, 'learning_rate': 2.361428389452677e-05, 'epoch': 7.0}
 29%|██▉       | 22900/78504 [13:55:08<110:36:11,  7.16s/it] 29%|██▉       | 22901/78504 [13:55:11<89:22:30,  5.79s/it]                                                            {'loss': 0.0417, 'grad_norm': 0.16383109986782074, 'learning_rate': 2.3613859284106833e-05, 'epoch': 7.0}
 29%|██▉       | 22901/78504 [13:55:11<89:22:30,  5.79s/it] 29%|██▉       | 22902/78504 [13:55:13<73:56:37,  4.79s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.321507066488266, 'learning_rate': 2.3613434673686892e-05, 'epoch': 7.0}
 29%|██▉       | 22902/78504 [13:55:13<73:56:37,  4.79s/it] 29%|██▉       | 22903/78504 [13:55:16<62:13:27,  4.03s/it]                                                           {'loss': 0.0471, 'grad_norm': 0.2524586021900177, 'learning_rate': 2.3613010063266954e-05, 'epoch': 7.0}
 29%|██▉       | 22903/78504 [13:55:16<62:13:27,  4.03s/it] 29%|██▉       | 22904/78504 [13:55:18<54:16:33,  3.51s/it]                                                           {'loss': 0.0469, 'grad_norm': 0.31328168511390686, 'learning_rate': 2.3612585452847013e-05, 'epoch': 7.0}
 29%|██▉       | 22904/78504 [13:55:18<54:16:33,  3.51s/it] 29%|██▉       | 22905/78504 [13:55:20<47:39:10,  3.09s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.2403487116098404, 'learning_rate': 2.3612160842427075e-05, 'epoch': 7.0}
 29%|██▉       | 22905/78504 [13:55:20<47:39:10,  3.09s/it] 29%|██▉       | 22906/78504 [13:55:22<43:27:45,  2.81s/it]                                                           {'loss': 0.0863, 'grad_norm': 0.5594202876091003, 'learning_rate': 2.3611736232007133e-05, 'epoch': 7.0}
 29%|██▉       | 22906/78504 [13:55:22<43:27:45,  2.81s/it] 29%|██▉       | 22907/78504 [13:55:24<40:18:41,  2.61s/it]                                                           {'loss': 0.039, 'grad_norm': 0.16357745230197906, 'learning_rate': 2.3611311621587192e-05, 'epoch': 7.0}
 29%|██▉       | 22907/78504 [13:55:24<40:18:41,  2.61s/it] 29%|██▉       | 22908/78504 [13:55:26<37:34:06,  2.43s/it]                                                           {'loss': 0.097, 'grad_norm': 0.229640394449234, 'learning_rate': 2.3610887011167254e-05, 'epoch': 7.0}
 29%|██▉       | 22908/78504 [13:55:26<37:34:06,  2.43s/it] 29%|██▉       | 22909/78504 [13:55:28<35:26:56,  2.30s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.30827173590660095, 'learning_rate': 2.3610462400747313e-05, 'epoch': 7.0}
 29%|██▉       | 22909/78504 [13:55:28<35:26:56,  2.30s/it] 29%|██▉       | 22910/78504 [13:55:30<33:32:54,  2.17s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.3678353428840637, 'learning_rate': 2.3610037790327375e-05, 'epoch': 7.0}
 29%|██▉       | 22910/78504 [13:55:30<33:32:54,  2.17s/it] 29%|██▉       | 22911/78504 [13:55:32<32:08:57,  2.08s/it]                                                           {'loss': 0.0801, 'grad_norm': 0.2916758358478546, 'learning_rate': 2.3609613179907434e-05, 'epoch': 7.0}
 29%|██▉       | 22911/78504 [13:55:32<32:08:57,  2.08s/it] 29%|██▉       | 22912/78504 [13:55:34<30:39:26,  1.99s/it]                                                           {'loss': 0.1202, 'grad_norm': 0.46016713976860046, 'learning_rate': 2.3609188569487496e-05, 'epoch': 7.0}
 29%|██▉       | 22912/78504 [13:55:34<30:39:26,  1.99s/it] 29%|██▉       | 22913/78504 [13:55:36<28:47:54,  1.86s/it]                                                           {'loss': 0.1212, 'grad_norm': 0.4556479752063751, 'learning_rate': 2.3608763959067555e-05, 'epoch': 7.0}
 29%|██▉       | 22913/78504 [13:55:36<28:47:54,  1.86s/it] 29%|██▉       | 22914/78504 [13:55:37<27:18:55,  1.77s/it]                                                           {'loss': 0.1607, 'grad_norm': 1.5422600507736206, 'learning_rate': 2.3608339348647617e-05, 'epoch': 7.01}
 29%|██▉       | 22914/78504 [13:55:37<27:18:55,  1.77s/it] 29%|██▉       | 22915/78504 [13:55:39<25:56:49,  1.68s/it]                                                           {'loss': 0.1233, 'grad_norm': 1.5988305807113647, 'learning_rate': 2.3607914738227675e-05, 'epoch': 7.01}
 29%|██▉       | 22915/78504 [13:55:39<25:56:49,  1.68s/it] 29%|██▉       | 22916/78504 [13:55:40<24:41:23,  1.60s/it]                                                           {'loss': 0.1545, 'grad_norm': 0.6867781281471252, 'learning_rate': 2.3607490127807737e-05, 'epoch': 7.01}
 29%|██▉       | 22916/78504 [13:55:40<24:41:23,  1.60s/it] 29%|██▉       | 22917/78504 [13:55:41<23:16:37,  1.51s/it]                                                           {'loss': 0.1636, 'grad_norm': 0.9174875617027283, 'learning_rate': 2.3607065517387796e-05, 'epoch': 7.01}
 29%|██▉       | 22917/78504 [13:55:41<23:16:37,  1.51s/it] 29%|██▉       | 22918/78504 [13:55:42<21:34:36,  1.40s/it]                                                           {'loss': 0.1868, 'grad_norm': 0.5921070575714111, 'learning_rate': 2.3606640906967858e-05, 'epoch': 7.01}
 29%|██▉       | 22918/78504 [13:55:42<21:34:36,  1.40s/it] 29%|██▉       | 22919/78504 [13:55:44<20:14:07,  1.31s/it]                                                           {'loss': 0.1827, 'grad_norm': 1.0348973274230957, 'learning_rate': 2.3606216296547917e-05, 'epoch': 7.01}
 29%|██▉       | 22919/78504 [13:55:44<20:14:07,  1.31s/it] 29%|██▉       | 22920/78504 [13:55:45<18:49:34,  1.22s/it]                                                           {'loss': 0.1543, 'grad_norm': 0.6219981908798218, 'learning_rate': 2.3605791686127976e-05, 'epoch': 7.01}
 29%|██▉       | 22920/78504 [13:55:45<18:49:34,  1.22s/it] 29%|██▉       | 22921/78504 [13:55:45<17:28:02,  1.13s/it]                                                           {'loss': 0.1743, 'grad_norm': 0.9681984186172485, 'learning_rate': 2.3605367075708038e-05, 'epoch': 7.01}
 29%|██▉       | 22921/78504 [13:55:45<17:28:02,  1.13s/it] 29%|██▉       | 22922/78504 [13:55:46<15:50:55,  1.03s/it]                                                           {'loss': 0.1964, 'grad_norm': 1.7100658416748047, 'learning_rate': 2.3604942465288096e-05, 'epoch': 7.01}
 29%|██▉       | 22922/78504 [13:55:46<15:50:55,  1.03s/it] 29%|██▉       | 22923/78504 [13:55:55<53:23:23,  3.46s/it]                                                           {'loss': 0.1373, 'grad_norm': 0.4819667637348175, 'learning_rate': 2.360451785486816e-05, 'epoch': 7.01}
 29%|██▉       | 22923/78504 [13:55:55<53:23:23,  3.46s/it] 29%|██▉       | 22924/78504 [13:55:59<52:27:55,  3.40s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.2131066918373108, 'learning_rate': 2.3604093244448217e-05, 'epoch': 7.01}
 29%|██▉       | 22924/78504 [13:55:59<52:27:55,  3.40s/it] 29%|██▉       | 22925/78504 [13:56:02<50:31:35,  3.27s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.382104754447937, 'learning_rate': 2.360366863402828e-05, 'epoch': 7.01}
 29%|██▉       | 22925/78504 [13:56:02<50:31:35,  3.27s/it] 29%|██▉       | 22926/78504 [13:56:04<47:22:08,  3.07s/it]                                                           {'loss': 0.0564, 'grad_norm': 0.2456456571817398, 'learning_rate': 2.3603244023608338e-05, 'epoch': 7.01}
 29%|██▉       | 22926/78504 [13:56:04<47:22:08,  3.07s/it] 29%|██▉       | 22927/78504 [13:56:07<44:03:06,  2.85s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.25014692544937134, 'learning_rate': 2.36028194131884e-05, 'epoch': 7.01}
 29%|██▉       | 22927/78504 [13:56:07<44:03:06,  2.85s/it] 29%|██▉       | 22928/78504 [13:56:09<41:17:23,  2.67s/it]                                                           {'loss': 0.0595, 'grad_norm': 0.343538761138916, 'learning_rate': 2.360239480276846e-05, 'epoch': 7.01}
 29%|██▉       | 22928/78504 [13:56:09<41:17:23,  2.67s/it] 29%|██▉       | 22929/78504 [13:56:11<39:38:32,  2.57s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.15054461359977722, 'learning_rate': 2.360197019234852e-05, 'epoch': 7.01}
 29%|██▉       | 22929/78504 [13:56:11<39:38:32,  2.57s/it] 29%|██▉       | 22930/78504 [13:56:13<37:25:37,  2.42s/it]                                                           {'loss': 0.0432, 'grad_norm': 0.2599731385707855, 'learning_rate': 2.360154558192858e-05, 'epoch': 7.01}
 29%|██▉       | 22930/78504 [13:56:13<37:25:37,  2.42s/it] 29%|██▉       | 22931/78504 [13:56:15<35:38:48,  2.31s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.27766990661621094, 'learning_rate': 2.360112097150864e-05, 'epoch': 7.01}
 29%|██▉       | 22931/78504 [13:56:15<35:38:48,  2.31s/it] 29%|██▉       | 22932/78504 [13:56:17<34:51:34,  2.26s/it]                                                           {'loss': 0.1073, 'grad_norm': 0.2832690179347992, 'learning_rate': 2.36006963610887e-05, 'epoch': 7.01}
 29%|██▉       | 22932/78504 [13:56:17<34:51:34,  2.26s/it] 29%|██▉       | 22933/78504 [13:56:19<33:47:50,  2.19s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.2963535785675049, 'learning_rate': 2.360027175066876e-05, 'epoch': 7.01}
 29%|██▉       | 22933/78504 [13:56:19<33:47:50,  2.19s/it] 29%|██▉       | 22934/78504 [13:56:21<32:48:05,  2.12s/it]                                                           {'loss': 0.0873, 'grad_norm': 0.42599737644195557, 'learning_rate': 2.359984714024882e-05, 'epoch': 7.01}
 29%|██▉       | 22934/78504 [13:56:21<32:48:05,  2.12s/it] 29%|██▉       | 22935/78504 [13:56:23<31:34:34,  2.05s/it]                                                           {'loss': 0.1062, 'grad_norm': 0.8870165944099426, 'learning_rate': 2.359942252982888e-05, 'epoch': 7.01}
 29%|██▉       | 22935/78504 [13:56:23<31:34:34,  2.05s/it] 29%|██▉       | 22936/78504 [13:56:25<30:39:07,  1.99s/it]                                                           {'loss': 0.1201, 'grad_norm': 0.4376316964626312, 'learning_rate': 2.3598997919408942e-05, 'epoch': 7.01}
 29%|██▉       | 22936/78504 [13:56:25<30:39:07,  1.99s/it] 29%|██▉       | 22937/78504 [13:56:27<29:29:30,  1.91s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.404685378074646, 'learning_rate': 2.3598573308989e-05, 'epoch': 7.01}
 29%|██▉       | 22937/78504 [13:56:27<29:29:30,  1.91s/it] 29%|██▉       | 22938/78504 [13:56:28<28:16:06,  1.83s/it]                                                           {'loss': 0.123, 'grad_norm': 0.34117311239242554, 'learning_rate': 2.3598148698569063e-05, 'epoch': 7.01}
 29%|██▉       | 22938/78504 [13:56:28<28:16:06,  1.83s/it] 29%|██▉       | 22939/78504 [13:56:30<26:54:26,  1.74s/it]                                                           {'loss': 0.1116, 'grad_norm': 0.467063844203949, 'learning_rate': 2.359772408814912e-05, 'epoch': 7.01}
 29%|██▉       | 22939/78504 [13:56:30<26:54:26,  1.74s/it] 29%|██▉       | 22940/78504 [13:56:31<25:28:12,  1.65s/it]                                                           {'loss': 0.1381, 'grad_norm': 0.5630607604980469, 'learning_rate': 2.3597299477729183e-05, 'epoch': 7.01}
 29%|██▉       | 22940/78504 [13:56:31<25:28:12,  1.65s/it] 29%|██▉       | 22941/78504 [13:56:33<24:23:22,  1.58s/it]                                                           {'loss': 0.1501, 'grad_norm': 1.084837555885315, 'learning_rate': 2.3596874867309242e-05, 'epoch': 7.01}
 29%|██▉       | 22941/78504 [13:56:33<24:23:22,  1.58s/it] 29%|██▉       | 22942/78504 [13:56:34<23:04:07,  1.49s/it]                                                           {'loss': 0.174, 'grad_norm': 0.8243706226348877, 'learning_rate': 2.3596450256889304e-05, 'epoch': 7.01}
 29%|██▉       | 22942/78504 [13:56:34<23:04:07,  1.49s/it] 29%|██▉       | 22943/78504 [13:56:35<21:28:59,  1.39s/it]                                                           {'loss': 0.1796, 'grad_norm': 0.9123761653900146, 'learning_rate': 2.3596025646469366e-05, 'epoch': 7.01}
 29%|██▉       | 22943/78504 [13:56:35<21:28:59,  1.39s/it] 29%|██▉       | 22944/78504 [13:56:36<20:09:11,  1.31s/it]                                                           {'loss': 0.1631, 'grad_norm': 0.7617657780647278, 'learning_rate': 2.359560103604943e-05, 'epoch': 7.01}
 29%|██▉       | 22944/78504 [13:56:36<20:09:11,  1.31s/it] 29%|██▉       | 22945/78504 [13:56:37<18:58:41,  1.23s/it]                                                           {'loss': 0.1813, 'grad_norm': 0.545815646648407, 'learning_rate': 2.3595176425629487e-05, 'epoch': 7.01}
 29%|██▉       | 22945/78504 [13:56:37<18:58:41,  1.23s/it] 29%|██▉       | 22946/78504 [13:56:38<17:37:09,  1.14s/it]                                                           {'loss': 0.1727, 'grad_norm': 0.869849443435669, 'learning_rate': 2.3594751815209546e-05, 'epoch': 7.01}
 29%|██▉       | 22946/78504 [13:56:38<17:37:09,  1.14s/it] 29%|██▉       | 22947/78504 [13:56:39<15:58:12,  1.03s/it]                                                           {'loss': 0.2399, 'grad_norm': 6.14178466796875, 'learning_rate': 2.3594327204789608e-05, 'epoch': 7.02}
 29%|██▉       | 22947/78504 [13:56:39<15:58:12,  1.03s/it] 29%|██▉       | 22948/78504 [13:56:48<51:06:47,  3.31s/it]                                                           {'loss': 0.1119, 'grad_norm': 0.2450004667043686, 'learning_rate': 2.3593902594369667e-05, 'epoch': 7.02}
 29%|██▉       | 22948/78504 [13:56:48<51:06:47,  3.31s/it] 29%|██▉       | 22949/78504 [13:56:51<51:02:28,  3.31s/it]                                                           {'loss': 0.059, 'grad_norm': 0.2192986011505127, 'learning_rate': 2.359347798394973e-05, 'epoch': 7.02}
 29%|██▉       | 22949/78504 [13:56:51<51:02:28,  3.31s/it] 29%|██▉       | 22950/78504 [13:56:54<49:13:10,  3.19s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.4039638936519623, 'learning_rate': 2.3593053373529787e-05, 'epoch': 7.02}
 29%|██▉       | 22950/78504 [13:56:54<49:13:10,  3.19s/it] 29%|██▉       | 22951/78504 [13:56:57<46:22:43,  3.01s/it]                                                           {'loss': 0.0514, 'grad_norm': 0.18914003670215607, 'learning_rate': 2.359262876310985e-05, 'epoch': 7.02}
 29%|██▉       | 22951/78504 [13:56:57<46:22:43,  3.01s/it] 29%|██▉       | 22952/78504 [13:56:59<44:00:57,  2.85s/it]                                                           {'loss': 0.056, 'grad_norm': 0.6245805025100708, 'learning_rate': 2.3592204152689908e-05, 'epoch': 7.02}
 29%|██▉       | 22952/78504 [13:56:59<44:00:57,  2.85s/it] 29%|██▉       | 22953/78504 [13:57:02<42:02:38,  2.72s/it]                                                           {'loss': 0.0429, 'grad_norm': 0.22064103186130524, 'learning_rate': 2.359177954226997e-05, 'epoch': 7.02}
 29%|██▉       | 22953/78504 [13:57:02<42:02:38,  2.72s/it] 29%|██▉       | 22954/78504 [13:57:04<40:08:24,  2.60s/it]                                                           {'loss': 0.0681, 'grad_norm': 0.5471866130828857, 'learning_rate': 2.359135493185003e-05, 'epoch': 7.02}
 29%|██▉       | 22954/78504 [13:57:04<40:08:24,  2.60s/it] 29%|██▉       | 22955/78504 [13:57:06<37:53:29,  2.46s/it]                                                           {'loss': 0.0506, 'grad_norm': 0.3806839883327484, 'learning_rate': 2.359093032143009e-05, 'epoch': 7.02}
 29%|██▉       | 22955/78504 [13:57:06<37:53:29,  2.46s/it] 29%|██▉       | 22956/78504 [13:57:08<36:36:38,  2.37s/it]                                                           {'loss': 0.0661, 'grad_norm': 0.28646859526634216, 'learning_rate': 2.359050571101015e-05, 'epoch': 7.02}
 29%|██▉       | 22956/78504 [13:57:08<36:36:38,  2.37s/it] 29%|██▉       | 22957/78504 [13:57:10<35:32:26,  2.30s/it]                                                           {'loss': 0.0581, 'grad_norm': 0.4405265748500824, 'learning_rate': 2.3590081100590212e-05, 'epoch': 7.02}
 29%|██▉       | 22957/78504 [13:57:10<35:32:26,  2.30s/it] 29%|██▉       | 22958/78504 [13:57:12<34:14:05,  2.22s/it]                                                           {'loss': 0.066, 'grad_norm': 0.5853974223136902, 'learning_rate': 2.358965649017027e-05, 'epoch': 7.02}
 29%|██▉       | 22958/78504 [13:57:12<34:14:05,  2.22s/it] 29%|██▉       | 22959/78504 [13:57:14<32:15:48,  2.09s/it]                                                           {'loss': 0.0722, 'grad_norm': 0.2838756740093231, 'learning_rate': 2.358923187975033e-05, 'epoch': 7.02}
 29%|██▉       | 22959/78504 [13:57:14<32:15:48,  2.09s/it] 29%|██▉       | 22960/78504 [13:57:16<31:14:20,  2.02s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.4849720895290375, 'learning_rate': 2.358880726933039e-05, 'epoch': 7.02}
 29%|██▉       | 22960/78504 [13:57:16<31:14:20,  2.02s/it] 29%|██▉       | 22961/78504 [13:57:18<29:49:39,  1.93s/it]                                                           {'loss': 0.098, 'grad_norm': 0.33323919773101807, 'learning_rate': 2.358838265891045e-05, 'epoch': 7.02}
 29%|██▉       | 22961/78504 [13:57:18<29:49:39,  1.93s/it] 29%|██▉       | 22962/78504 [13:57:19<29:03:23,  1.88s/it]                                                           {'loss': 0.133, 'grad_norm': 0.576349139213562, 'learning_rate': 2.3587958048490512e-05, 'epoch': 7.02}
 29%|██▉       | 22962/78504 [13:57:20<29:03:23,  1.88s/it] 29%|██▉       | 22963/78504 [13:57:21<29:16:34,  1.90s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.6910362243652344, 'learning_rate': 2.358753343807057e-05, 'epoch': 7.02}
 29%|██▉       | 22963/78504 [13:57:21<29:16:34,  1.90s/it] 29%|██▉       | 22964/78504 [13:57:23<27:32:51,  1.79s/it]                                                           {'loss': 0.1372, 'grad_norm': 0.6705617308616638, 'learning_rate': 2.3587108827650633e-05, 'epoch': 7.02}
 29%|██▉       | 22964/78504 [13:57:23<27:32:51,  1.79s/it] 29%|██▉       | 22965/78504 [13:57:24<26:04:47,  1.69s/it]                                                           {'loss': 0.1377, 'grad_norm': 1.1364390850067139, 'learning_rate': 2.358668421723069e-05, 'epoch': 7.02}
 29%|██▉       | 22965/78504 [13:57:24<26:04:47,  1.69s/it] 29%|██▉       | 22966/78504 [13:57:26<24:49:21,  1.61s/it]                                                           {'loss': 0.1421, 'grad_norm': 0.5660175681114197, 'learning_rate': 2.3586259606810754e-05, 'epoch': 7.02}
 29%|██▉       | 22966/78504 [13:57:26<24:49:21,  1.61s/it] 29%|██▉       | 22967/78504 [13:57:27<23:02:44,  1.49s/it]                                                           {'loss': 0.1833, 'grad_norm': 0.4738544821739197, 'learning_rate': 2.3585834996390812e-05, 'epoch': 7.02}
 29%|██▉       | 22967/78504 [13:57:27<23:02:44,  1.49s/it] 29%|██▉       | 22968/78504 [13:57:28<21:22:32,  1.39s/it]                                                           {'loss': 0.1528, 'grad_norm': 1.220414161682129, 'learning_rate': 2.3585410385970874e-05, 'epoch': 7.02}
 29%|██▉       | 22968/78504 [13:57:28<21:22:32,  1.39s/it] 29%|██▉       | 22969/78504 [13:57:29<20:01:25,  1.30s/it]                                                           {'loss': 0.1694, 'grad_norm': 1.4155099391937256, 'learning_rate': 2.3584985775550933e-05, 'epoch': 7.02}
 29%|██▉       | 22969/78504 [13:57:29<20:01:25,  1.30s/it] 29%|██▉       | 22970/78504 [13:57:30<18:35:56,  1.21s/it]                                                           {'loss': 0.1801, 'grad_norm': 1.165522813796997, 'learning_rate': 2.3584561165130995e-05, 'epoch': 7.02}
 29%|██▉       | 22970/78504 [13:57:30<18:35:56,  1.21s/it] 29%|██▉       | 22971/78504 [13:57:31<17:17:53,  1.12s/it]                                                           {'loss': 0.1755, 'grad_norm': 0.7029817700386047, 'learning_rate': 2.3584136554711054e-05, 'epoch': 7.02}
 29%|██▉       | 22971/78504 [13:57:31<17:17:53,  1.12s/it] 29%|██▉       | 22972/78504 [13:57:32<15:36:49,  1.01s/it]                                                           {'loss': 0.217, 'grad_norm': 1.4755101203918457, 'learning_rate': 2.3583711944291113e-05, 'epoch': 7.02}
 29%|██▉       | 22972/78504 [13:57:32<15:36:49,  1.01s/it] 29%|██▉       | 22973/78504 [13:57:40<46:54:13,  3.04s/it]                                                           {'loss': 0.1533, 'grad_norm': 0.8701930642127991, 'learning_rate': 2.3583287333871175e-05, 'epoch': 7.02}
 29%|██▉       | 22973/78504 [13:57:40<46:54:13,  3.04s/it] 29%|██▉       | 22974/78504 [13:57:43<48:21:00,  3.13s/it]                                                           {'loss': 0.0881, 'grad_norm': 0.8239535093307495, 'learning_rate': 2.3582862723451233e-05, 'epoch': 7.02}
 29%|██▉       | 22974/78504 [13:57:43<48:21:00,  3.13s/it] 29%|██▉       | 22975/78504 [13:57:46<47:20:33,  3.07s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.15785042941570282, 'learning_rate': 2.3582438113031296e-05, 'epoch': 7.02}
 29%|██▉       | 22975/78504 [13:57:46<47:20:33,  3.07s/it] 29%|██▉       | 22976/78504 [13:57:48<44:21:56,  2.88s/it]                                                           {'loss': 0.0726, 'grad_norm': 0.3407614231109619, 'learning_rate': 2.3582013502611354e-05, 'epoch': 7.02}
 29%|██▉       | 22976/78504 [13:57:48<44:21:56,  2.88s/it] 29%|██▉       | 22977/78504 [13:57:51<42:29:45,  2.76s/it]                                                           {'loss': 0.0585, 'grad_norm': 0.390807569026947, 'learning_rate': 2.3581588892191416e-05, 'epoch': 7.02}
 29%|██▉       | 22977/78504 [13:57:51<42:29:45,  2.76s/it] 29%|██▉       | 22978/78504 [13:57:53<40:58:07,  2.66s/it]                                                           {'loss': 0.0342, 'grad_norm': 0.4356328845024109, 'learning_rate': 2.3581164281771475e-05, 'epoch': 7.02}
 29%|██▉       | 22978/78504 [13:57:53<40:58:07,  2.66s/it] 29%|██▉       | 22979/78504 [13:57:56<39:24:29,  2.56s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.40243276953697205, 'learning_rate': 2.3580739671351537e-05, 'epoch': 7.03}
 29%|██▉       | 22979/78504 [13:57:56<39:24:29,  2.56s/it] 29%|██▉       | 22980/78504 [13:57:58<37:15:07,  2.42s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.12430088222026825, 'learning_rate': 2.3580315060931596e-05, 'epoch': 7.03}
 29%|██▉       | 22980/78504 [13:57:58<37:15:07,  2.42s/it] 29%|██▉       | 22981/78504 [13:58:00<35:26:12,  2.30s/it]                                                           {'loss': 0.0569, 'grad_norm': 0.15645408630371094, 'learning_rate': 2.3579890450511658e-05, 'epoch': 7.03}
 29%|██▉       | 22981/78504 [13:58:00<35:26:12,  2.30s/it] 29%|██▉       | 22982/78504 [13:58:02<34:42:04,  2.25s/it]                                                           {'loss': 0.0456, 'grad_norm': 0.38586366176605225, 'learning_rate': 2.3579465840091717e-05, 'epoch': 7.03}
 29%|██▉       | 22982/78504 [13:58:02<34:42:04,  2.25s/it] 29%|██▉       | 22983/78504 [13:58:04<33:38:22,  2.18s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.3850826323032379, 'learning_rate': 2.357904122967178e-05, 'epoch': 7.03}
 29%|██▉       | 22983/78504 [13:58:04<33:38:22,  2.18s/it] 29%|██▉       | 22984/78504 [13:58:06<32:41:14,  2.12s/it]                                                           {'loss': 0.0686, 'grad_norm': 0.23824061453342438, 'learning_rate': 2.3578616619251837e-05, 'epoch': 7.03}
 29%|██▉       | 22984/78504 [13:58:06<32:41:14,  2.12s/it] 29%|██▉       | 22985/78504 [13:58:08<31:29:25,  2.04s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.5902974009513855, 'learning_rate': 2.3578192008831896e-05, 'epoch': 7.03}
 29%|██▉       | 22985/78504 [13:58:08<31:29:25,  2.04s/it] 29%|██▉       | 22986/78504 [13:58:10<30:33:07,  1.98s/it]                                                           {'loss': 0.1041, 'grad_norm': 0.28664422035217285, 'learning_rate': 2.3577767398411958e-05, 'epoch': 7.03}
 29%|██▉       | 22986/78504 [13:58:10<30:33:07,  1.98s/it] 29%|██▉       | 22987/78504 [13:58:11<29:24:12,  1.91s/it]                                                           {'loss': 0.0826, 'grad_norm': 0.27089160680770874, 'learning_rate': 2.3577342787992017e-05, 'epoch': 7.03}
 29%|██▉       | 22987/78504 [13:58:11<29:24:12,  1.91s/it] 29%|██▉       | 22988/78504 [13:58:13<28:13:05,  1.83s/it]                                                           {'loss': 0.1416, 'grad_norm': 0.42786481976509094, 'learning_rate': 2.357691817757208e-05, 'epoch': 7.03}
 29%|██▉       | 22988/78504 [13:58:13<28:13:05,  1.83s/it] 29%|██▉       | 22989/78504 [13:58:14<26:45:34,  1.74s/it]                                                           {'loss': 0.14, 'grad_norm': 0.360006719827652, 'learning_rate': 2.3576493567152138e-05, 'epoch': 7.03}
 29%|██▉       | 22989/78504 [13:58:14<26:45:34,  1.74s/it] 29%|██▉       | 22990/78504 [13:58:16<25:23:12,  1.65s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.4376336932182312, 'learning_rate': 2.35760689567322e-05, 'epoch': 7.03}
 29%|██▉       | 22990/78504 [13:58:16<25:23:12,  1.65s/it] 29%|██▉       | 22991/78504 [13:58:17<24:18:41,  1.58s/it]                                                           {'loss': 0.1594, 'grad_norm': 0.5026724338531494, 'learning_rate': 2.357564434631226e-05, 'epoch': 7.03}
 29%|██▉       | 22991/78504 [13:58:17<24:18:41,  1.58s/it] 29%|██▉       | 22992/78504 [13:58:19<22:38:21,  1.47s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.6688891649246216, 'learning_rate': 2.357521973589232e-05, 'epoch': 7.03}
 29%|██▉       | 22992/78504 [13:58:19<22:38:21,  1.47s/it] 29%|██▉       | 22993/78504 [13:58:20<21:03:12,  1.37s/it]                                                           {'loss': 0.1723, 'grad_norm': 0.6015721559524536, 'learning_rate': 2.357479512547238e-05, 'epoch': 7.03}
 29%|██▉       | 22993/78504 [13:58:20<21:03:12,  1.37s/it] 29%|██▉       | 22994/78504 [13:58:21<19:47:29,  1.28s/it]                                                           {'loss': 0.1903, 'grad_norm': 2.1737306118011475, 'learning_rate': 2.357437051505244e-05, 'epoch': 7.03}
 29%|██▉       | 22994/78504 [13:58:21<19:47:29,  1.28s/it] 29%|██▉       | 22995/78504 [13:58:22<18:29:09,  1.20s/it]                                                           {'loss': 0.1908, 'grad_norm': 0.7003132700920105, 'learning_rate': 2.35739459046325e-05, 'epoch': 7.03}
 29%|██▉       | 22995/78504 [13:58:22<18:29:09,  1.20s/it] 29%|██▉       | 22996/78504 [13:58:23<17:14:17,  1.12s/it]                                                           {'loss': 0.1577, 'grad_norm': 0.9651060104370117, 'learning_rate': 2.3573521294212562e-05, 'epoch': 7.03}
 29%|██▉       | 22996/78504 [13:58:23<17:14:17,  1.12s/it] 29%|██▉       | 22997/78504 [13:58:23<15:41:17,  1.02s/it]                                                           {'loss': 0.1951, 'grad_norm': 1.2609949111938477, 'learning_rate': 2.357309668379262e-05, 'epoch': 7.03}
 29%|██▉       | 22997/78504 [13:58:23<15:41:17,  1.02s/it] 29%|██▉       | 22998/78504 [13:58:31<44:20:26,  2.88s/it]                                                           {'loss': 0.1555, 'grad_norm': 0.37281590700149536, 'learning_rate': 2.357267207337268e-05, 'epoch': 7.03}
 29%|██▉       | 22998/78504 [13:58:31<44:20:26,  2.88s/it] 29%|██▉       | 22999/78504 [13:58:34<45:32:19,  2.95s/it]                                                           {'loss': 0.0903, 'grad_norm': 0.6528095602989197, 'learning_rate': 2.357224746295274e-05, 'epoch': 7.03}
 29%|██▉       | 22999/78504 [13:58:34<45:32:19,  2.95s/it] 29%|██▉       | 23000/78504 [13:58:37<45:49:29,  2.97s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.14077843725681305, 'learning_rate': 2.35718228525328e-05, 'epoch': 7.03}
 29%|██▉       | 23000/78504 [13:58:37<45:49:29,  2.97s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.93it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.50it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.62it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.73it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.05it/s][A
 47%|████▋     | 7/15 [00:02<00:03,  2.50it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.61it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.80it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.16it/s][A
 73%|███████▎  | 11/15 [00:05<00:02,  1.48it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.66it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.94it/s][A
 93%|█████████▎| 14/15 [00:06<00:00,  2.36it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.21it/s][A                                                           
                                               [A{'eval_loss': 0.23124389350414276, 'eval_wer': 0.3255216334739253, 'eval_cer': 0.18807894995253838, 'eval_runtime': 18.8587, 'eval_samples_per_second': 240.632, 'eval_steps_per_second': 0.795, 'epoch': 7.03}
 29%|██▉       | 23000/78504 [13:59:41<45:49:29,  2.97s/it]
100%|██████████| 15/15 [00:11<00:00,  1.21it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-23000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-22000] due to args.save_total_limit
 29%|██▉       | 23001/78504 [13:59:59<412:06:30, 26.73s/it]                                                            {'loss': 0.0477, 'grad_norm': 0.22321027517318726, 'learning_rate': 2.3571398242112862e-05, 'epoch': 7.03}
 29%|██▉       | 23001/78504 [13:59:59<412:06:30, 26.73s/it] 29%|██▉       | 23002/78504 [14:00:01<299:55:30, 19.45s/it]                                                            {'loss': 0.0468, 'grad_norm': 0.13361532986164093, 'learning_rate': 2.357097363169292e-05, 'epoch': 7.03}
 29%|██▉       | 23002/78504 [14:00:01<299:55:30, 19.45s/it] 29%|██▉       | 23003/78504 [14:00:04<221:07:32, 14.34s/it]                                                            {'loss': 0.04, 'grad_norm': 0.11988197267055511, 'learning_rate': 2.3570549021272983e-05, 'epoch': 7.03}
 29%|██▉       | 23003/78504 [14:00:04<221:07:32, 14.34s/it] 29%|██▉       | 23004/78504 [14:00:06<165:24:50, 10.73s/it]                                                            {'loss': 0.0632, 'grad_norm': 0.18857257068157196, 'learning_rate': 2.3570124410853042e-05, 'epoch': 7.03}
 29%|██▉       | 23004/78504 [14:00:06<165:24:50, 10.73s/it] 29%|██▉       | 23005/78504 [14:00:08<125:24:37,  8.13s/it]                                                            {'loss': 0.0441, 'grad_norm': 0.1922644078731537, 'learning_rate': 2.3569699800433104e-05, 'epoch': 7.03}
 29%|██▉       | 23005/78504 [14:00:08<125:24:37,  8.13s/it] 29%|██▉       | 23006/78504 [14:00:10<97:50:09,  6.35s/it]                                                            {'loss': 0.0798, 'grad_norm': 0.22718702256679535, 'learning_rate': 2.3569275190013163e-05, 'epoch': 7.03}
 29%|██▉       | 23006/78504 [14:00:10<97:50:09,  6.35s/it] 29%|██▉       | 23007/78504 [14:00:13<78:20:17,  5.08s/it]                                                           {'loss': 0.0485, 'grad_norm': 0.1703043282032013, 'learning_rate': 2.3568850579593225e-05, 'epoch': 7.03}
 29%|██▉       | 23007/78504 [14:00:13<78:20:17,  5.08s/it] 29%|██▉       | 23008/78504 [14:00:15<64:12:37,  4.17s/it]                                                           {'loss': 0.0849, 'grad_norm': 0.2529040277004242, 'learning_rate': 2.3568425969173283e-05, 'epoch': 7.03}
 29%|██▉       | 23008/78504 [14:00:15<64:12:37,  4.17s/it] 29%|██▉       | 23009/78504 [14:00:17<54:01:16,  3.50s/it]                                                           {'loss': 0.0602, 'grad_norm': 1.0341243743896484, 'learning_rate': 2.3568001358753346e-05, 'epoch': 7.03}
 29%|██▉       | 23009/78504 [14:00:17<54:01:16,  3.50s/it] 29%|██▉       | 23010/78504 [14:00:18<46:24:39,  3.01s/it]                                                           {'loss': 0.095, 'grad_norm': 0.4714428186416626, 'learning_rate': 2.3567576748333404e-05, 'epoch': 7.03}
 29%|██▉       | 23010/78504 [14:00:18<46:24:39,  3.01s/it] 29%|██▉       | 23011/78504 [14:00:20<40:24:07,  2.62s/it]                                                           {'loss': 0.1097, 'grad_norm': 0.2954902648925781, 'learning_rate': 2.3567152137913463e-05, 'epoch': 7.03}
 29%|██▉       | 23011/78504 [14:00:20<40:24:07,  2.62s/it] 29%|██▉       | 23012/78504 [14:00:22<36:13:10,  2.35s/it]                                                           {'loss': 0.1087, 'grad_norm': 0.5031193494796753, 'learning_rate': 2.3566727527493525e-05, 'epoch': 7.04}
 29%|██▉       | 23012/78504 [14:00:22<36:13:10,  2.35s/it] 29%|██▉       | 23013/78504 [14:00:23<32:59:39,  2.14s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.2885802984237671, 'learning_rate': 2.3566302917073584e-05, 'epoch': 7.04}
 29%|██▉       | 23013/78504 [14:00:23<32:59:39,  2.14s/it] 29%|██▉       | 23014/78504 [14:00:25<30:11:44,  1.96s/it]                                                           {'loss': 0.1194, 'grad_norm': 0.6095214486122131, 'learning_rate': 2.3565878306653646e-05, 'epoch': 7.04}
 29%|██▉       | 23014/78504 [14:00:25<30:11:44,  1.96s/it] 29%|██▉       | 23015/78504 [14:00:26<27:39:25,  1.79s/it]                                                           {'loss': 0.1599, 'grad_norm': 1.1421079635620117, 'learning_rate': 2.3565453696233705e-05, 'epoch': 7.04}
 29%|██▉       | 23015/78504 [14:00:26<27:39:25,  1.79s/it] 29%|██▉       | 23016/78504 [14:00:28<25:51:29,  1.68s/it]                                                           {'loss': 0.1189, 'grad_norm': 0.3120345175266266, 'learning_rate': 2.3565029085813767e-05, 'epoch': 7.04}
 29%|██▉       | 23016/78504 [14:00:28<25:51:29,  1.68s/it] 29%|██▉       | 23017/78504 [14:00:29<24:02:27,  1.56s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.8611211180686951, 'learning_rate': 2.3564604475393825e-05, 'epoch': 7.04}
 29%|██▉       | 23017/78504 [14:00:29<24:02:27,  1.56s/it] 29%|██▉       | 23018/78504 [14:00:30<22:09:40,  1.44s/it]                                                           {'loss': 0.1494, 'grad_norm': 0.6864190697669983, 'learning_rate': 2.3564179864973887e-05, 'epoch': 7.04}
 29%|██▉       | 23018/78504 [14:00:30<22:09:40,  1.44s/it] 29%|██▉       | 23019/78504 [14:00:31<20:30:25,  1.33s/it]                                                           {'loss': 0.2023, 'grad_norm': 0.6302158236503601, 'learning_rate': 2.3563755254553946e-05, 'epoch': 7.04}
 29%|██▉       | 23019/78504 [14:00:31<20:30:25,  1.33s/it] 29%|██▉       | 23020/78504 [14:00:32<19:11:59,  1.25s/it]                                                           {'loss': 0.1879, 'grad_norm': 0.682948112487793, 'learning_rate': 2.3563330644134008e-05, 'epoch': 7.04}
 29%|██▉       | 23020/78504 [14:00:32<19:11:59,  1.25s/it] 29%|██▉       | 23021/78504 [14:00:33<17:42:04,  1.15s/it]                                                           {'loss': 0.1881, 'grad_norm': 3.1621463298797607, 'learning_rate': 2.3562906033714067e-05, 'epoch': 7.04}
 29%|██▉       | 23021/78504 [14:00:33<17:42:04,  1.15s/it] 29%|██▉       | 23022/78504 [14:00:34<15:59:24,  1.04s/it]                                                           {'loss': 0.2576, 'grad_norm': 3.7798335552215576, 'learning_rate': 2.3562481423294126e-05, 'epoch': 7.04}
 29%|██▉       | 23022/78504 [14:00:34<15:59:24,  1.04s/it] 29%|██▉       | 23023/78504 [14:00:44<55:30:02,  3.60s/it]                                                           {'loss': 0.1276, 'grad_norm': 0.4671382009983063, 'learning_rate': 2.3562056812874188e-05, 'epoch': 7.04}
 29%|██▉       | 23023/78504 [14:00:44<55:30:02,  3.60s/it] 29%|██▉       | 23024/78504 [14:00:47<53:14:16,  3.45s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.2046245038509369, 'learning_rate': 2.3561632202454246e-05, 'epoch': 7.04}
 29%|██▉       | 23024/78504 [14:00:47<53:14:16,  3.45s/it] 29%|██▉       | 23025/78504 [14:00:50<50:59:37,  3.31s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.12936127185821533, 'learning_rate': 2.356120759203431e-05, 'epoch': 7.04}
 29%|██▉       | 23025/78504 [14:00:50<50:59:37,  3.31s/it] 29%|██▉       | 23026/78504 [14:00:52<47:43:45,  3.10s/it]                                                           {'loss': 0.0368, 'grad_norm': 0.3159558176994324, 'learning_rate': 2.3560782981614367e-05, 'epoch': 7.04}
 29%|██▉       | 23026/78504 [14:00:52<47:43:45,  3.10s/it] 29%|██▉       | 23027/78504 [14:00:55<44:46:08,  2.91s/it]                                                           {'loss': 0.0592, 'grad_norm': 0.15055547654628754, 'learning_rate': 2.356035837119443e-05, 'epoch': 7.04}
 29%|██▉       | 23027/78504 [14:00:55<44:46:08,  2.91s/it] 29%|██▉       | 23028/78504 [14:00:57<42:32:13,  2.76s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.2151995599269867, 'learning_rate': 2.3559933760774488e-05, 'epoch': 7.04}
 29%|██▉       | 23028/78504 [14:00:57<42:32:13,  2.76s/it] 29%|██▉       | 23029/78504 [14:01:00<40:28:01,  2.63s/it]                                                           {'loss': 0.0512, 'grad_norm': 2.0954763889312744, 'learning_rate': 2.355950915035455e-05, 'epoch': 7.04}
 29%|██▉       | 23029/78504 [14:01:00<40:28:01,  2.63s/it] 29%|██▉       | 23030/78504 [14:01:02<38:02:07,  2.47s/it]                                                           {'loss': 0.0393, 'grad_norm': 0.35449811816215515, 'learning_rate': 2.355908453993461e-05, 'epoch': 7.04}
 29%|██▉       | 23030/78504 [14:01:02<38:02:07,  2.47s/it] 29%|██▉       | 23031/78504 [14:01:04<36:39:52,  2.38s/it]                                                           {'loss': 0.0532, 'grad_norm': 0.2806222140789032, 'learning_rate': 2.355865992951467e-05, 'epoch': 7.04}
 29%|██▉       | 23031/78504 [14:01:04<36:39:52,  2.38s/it] 29%|██▉       | 23032/78504 [14:01:06<35:31:09,  2.31s/it]                                                           {'loss': 0.0672, 'grad_norm': 0.6565325260162354, 'learning_rate': 2.355823531909473e-05, 'epoch': 7.04}
 29%|██▉       | 23032/78504 [14:01:06<35:31:09,  2.31s/it] 29%|██▉       | 23033/78504 [14:01:08<34:12:07,  2.22s/it]                                                           {'loss': 0.0814, 'grad_norm': 0.16555491089820862, 'learning_rate': 2.355781070867479e-05, 'epoch': 7.04}
 29%|██▉       | 23033/78504 [14:01:08<34:12:07,  2.22s/it] 29%|██▉       | 23034/78504 [14:01:10<33:02:33,  2.14s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.4567343294620514, 'learning_rate': 2.355738609825485e-05, 'epoch': 7.04}
 29%|██▉       | 23034/78504 [14:01:10<33:02:33,  2.14s/it] 29%|██▉       | 23035/78504 [14:01:12<31:43:46,  2.06s/it]                                                           {'loss': 0.0908, 'grad_norm': 0.5667614936828613, 'learning_rate': 2.355696148783491e-05, 'epoch': 7.04}
 29%|██▉       | 23035/78504 [14:01:12<31:43:46,  2.06s/it] 29%|██▉       | 23036/78504 [14:01:14<30:42:16,  1.99s/it]                                                           {'loss': 0.135, 'grad_norm': 0.24580048024654388, 'learning_rate': 2.355653687741497e-05, 'epoch': 7.04}
 29%|██▉       | 23036/78504 [14:01:14<30:42:16,  1.99s/it] 29%|██▉       | 23037/78504 [14:01:15<29:25:58,  1.91s/it]                                                           {'loss': 0.0992, 'grad_norm': 1.1802091598510742, 'learning_rate': 2.355611226699503e-05, 'epoch': 7.04}
 29%|██▉       | 23037/78504 [14:01:15<29:25:58,  1.91s/it] 29%|██▉       | 23038/78504 [14:01:17<28:10:07,  1.83s/it]                                                           {'loss': 0.111, 'grad_norm': 0.7576487064361572, 'learning_rate': 2.3555687656575092e-05, 'epoch': 7.04}
 29%|██▉       | 23038/78504 [14:01:17<28:10:07,  1.83s/it] 29%|██▉       | 23039/78504 [14:01:19<26:49:38,  1.74s/it]                                                           {'loss': 0.1705, 'grad_norm': 0.4628933072090149, 'learning_rate': 2.355526304615515e-05, 'epoch': 7.04}
 29%|██▉       | 23039/78504 [14:01:19<26:49:38,  1.74s/it] 29%|██▉       | 23040/78504 [14:01:20<25:21:20,  1.65s/it]                                                           {'loss': 0.1407, 'grad_norm': 0.8730005621910095, 'learning_rate': 2.3554838435735213e-05, 'epoch': 7.04}
 29%|██▉       | 23040/78504 [14:01:20<25:21:20,  1.65s/it] 29%|██▉       | 23041/78504 [14:01:21<24:13:47,  1.57s/it]                                                           {'loss': 0.1558, 'grad_norm': 0.793716549873352, 'learning_rate': 2.355441382531527e-05, 'epoch': 7.04}
 29%|██▉       | 23041/78504 [14:01:21<24:13:47,  1.57s/it] 29%|██▉       | 23042/78504 [14:01:23<22:52:14,  1.48s/it]                                                           {'loss': 0.1426, 'grad_norm': 0.7890384793281555, 'learning_rate': 2.3553989214895333e-05, 'epoch': 7.04}
 29%|██▉       | 23042/78504 [14:01:23<22:52:14,  1.48s/it] 29%|██▉       | 23043/78504 [14:01:24<21:21:07,  1.39s/it]                                                           {'loss': 0.1565, 'grad_norm': 0.7030298113822937, 'learning_rate': 2.3553564604475392e-05, 'epoch': 7.04}
 29%|██▉       | 23043/78504 [14:01:24<21:21:07,  1.39s/it] 29%|██▉       | 23044/78504 [14:01:25<20:02:44,  1.30s/it]                                                           {'loss': 0.2039, 'grad_norm': 0.905916154384613, 'learning_rate': 2.3553139994055454e-05, 'epoch': 7.04}
 29%|██▉       | 23044/78504 [14:01:25<20:02:44,  1.30s/it] 29%|██▉       | 23045/78504 [14:01:26<18:35:05,  1.21s/it]                                                           {'loss': 0.1648, 'grad_norm': 0.8281291723251343, 'learning_rate': 2.3552715383635516e-05, 'epoch': 7.05}
 29%|██▉       | 23045/78504 [14:01:26<18:35:05,  1.21s/it] 29%|██▉       | 23046/78504 [14:01:27<17:18:20,  1.12s/it]                                                           {'loss': 0.1903, 'grad_norm': 0.9595474004745483, 'learning_rate': 2.355229077321558e-05, 'epoch': 7.05}
 29%|██▉       | 23046/78504 [14:01:27<17:18:20,  1.12s/it] 29%|██▉       | 23047/78504 [14:01:28<15:43:10,  1.02s/it]                                                           {'loss': 0.1893, 'grad_norm': 0.902929425239563, 'learning_rate': 2.3551866162795637e-05, 'epoch': 7.05}
 29%|██▉       | 23047/78504 [14:01:28<15:43:10,  1.02s/it] 29%|██▉       | 23048/78504 [14:01:37<52:49:01,  3.43s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.800517201423645, 'learning_rate': 2.3551441552375696e-05, 'epoch': 7.05}
 29%|██▉       | 23048/78504 [14:01:37<52:49:01,  3.43s/it] 29%|██▉       | 23049/78504 [14:01:40<51:23:41,  3.34s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.20749452710151672, 'learning_rate': 2.3551016941955758e-05, 'epoch': 7.05}
 29%|██▉       | 23049/78504 [14:01:40<51:23:41,  3.34s/it] 29%|██▉       | 23050/78504 [14:01:42<47:50:03,  3.11s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.5287102460861206, 'learning_rate': 2.3550592331535817e-05, 'epoch': 7.05}
 29%|██▉       | 23050/78504 [14:01:42<47:50:03,  3.11s/it] 29%|██▉       | 23051/78504 [14:01:45<45:32:30,  2.96s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.19458162784576416, 'learning_rate': 2.355016772111588e-05, 'epoch': 7.05}
 29%|██▉       | 23051/78504 [14:01:45<45:32:30,  2.96s/it] 29%|██▉       | 23052/78504 [14:01:47<43:15:48,  2.81s/it]                                                           {'loss': 0.0476, 'grad_norm': 0.29510194063186646, 'learning_rate': 2.3549743110695937e-05, 'epoch': 7.05}
 29%|██▉       | 23052/78504 [14:01:47<43:15:48,  2.81s/it] 29%|██▉       | 23053/78504 [14:01:50<40:43:45,  2.64s/it]                                                           {'loss': 0.0446, 'grad_norm': 0.22179734706878662, 'learning_rate': 2.3549318500276e-05, 'epoch': 7.05}
 29%|██▉       | 23053/78504 [14:01:50<40:43:45,  2.64s/it] 29%|██▉       | 23054/78504 [14:01:52<39:11:46,  2.54s/it]                                                           {'loss': 0.0401, 'grad_norm': 0.3464416563510895, 'learning_rate': 2.3548893889856058e-05, 'epoch': 7.05}
 29%|██▉       | 23054/78504 [14:01:52<39:11:46,  2.54s/it] 29%|██▉       | 23055/78504 [14:01:54<37:09:47,  2.41s/it]                                                           {'loss': 0.0534, 'grad_norm': 0.4119056761264801, 'learning_rate': 2.354846927943612e-05, 'epoch': 7.05}
 29%|██▉       | 23055/78504 [14:01:54<37:09:47,  2.41s/it] 29%|██▉       | 23056/78504 [14:01:56<36:06:40,  2.34s/it]                                                           {'loss': 0.0509, 'grad_norm': 0.2662809491157532, 'learning_rate': 2.354804466901618e-05, 'epoch': 7.05}
 29%|██▉       | 23056/78504 [14:01:56<36:06:40,  2.34s/it] 29%|██▉       | 23057/78504 [14:01:58<35:09:48,  2.28s/it]                                                           {'loss': 0.0481, 'grad_norm': 0.20131246745586395, 'learning_rate': 2.354762005859624e-05, 'epoch': 7.05}
 29%|██▉       | 23057/78504 [14:01:58<35:09:48,  2.28s/it] 29%|██▉       | 23058/78504 [14:02:00<33:52:44,  2.20s/it]                                                           {'loss': 0.0644, 'grad_norm': 0.20050197839736938, 'learning_rate': 2.35471954481763e-05, 'epoch': 7.05}
 29%|██▉       | 23058/78504 [14:02:00<33:52:44,  2.20s/it] 29%|██▉       | 23059/78504 [14:02:02<32:00:58,  2.08s/it]                                                           {'loss': 0.0661, 'grad_norm': 0.4005392789840698, 'learning_rate': 2.3546770837756362e-05, 'epoch': 7.05}
 29%|██▉       | 23059/78504 [14:02:02<32:00:58,  2.08s/it] 29%|██▉       | 23060/78504 [14:02:04<31:01:02,  2.01s/it]                                                           {'loss': 0.0865, 'grad_norm': 0.2959364950656891, 'learning_rate': 2.354634622733642e-05, 'epoch': 7.05}
 29%|██▉       | 23060/78504 [14:02:04<31:01:02,  2.01s/it] 29%|██▉       | 23061/78504 [14:02:06<30:13:04,  1.96s/it]                                                           {'loss': 0.1156, 'grad_norm': 0.4186752140522003, 'learning_rate': 2.354592161691648e-05, 'epoch': 7.05}
 29%|██▉       | 23061/78504 [14:02:06<30:13:04,  1.96s/it] 29%|██▉       | 23062/78504 [14:02:08<28:51:57,  1.87s/it]                                                           {'loss': 0.1094, 'grad_norm': 0.38444751501083374, 'learning_rate': 2.354549700649654e-05, 'epoch': 7.05}
 29%|██▉       | 23062/78504 [14:02:08<28:51:57,  1.87s/it] 29%|██▉       | 23063/78504 [14:02:09<27:47:39,  1.80s/it]                                                           {'loss': 0.1159, 'grad_norm': 0.3217024803161621, 'learning_rate': 2.35450723960766e-05, 'epoch': 7.05}
 29%|██▉       | 23063/78504 [14:02:09<27:47:39,  1.80s/it] 29%|██▉       | 23064/78504 [14:02:11<26:28:10,  1.72s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.499554306268692, 'learning_rate': 2.3544647785656662e-05, 'epoch': 7.05}
 29%|██▉       | 23064/78504 [14:02:11<26:28:10,  1.72s/it] 29%|██▉       | 23065/78504 [14:02:12<25:09:46,  1.63s/it]                                                           {'loss': 0.18, 'grad_norm': 0.6507577896118164, 'learning_rate': 2.354422317523672e-05, 'epoch': 7.05}
 29%|██▉       | 23065/78504 [14:02:12<25:09:46,  1.63s/it] 29%|██▉       | 23066/78504 [14:02:14<24:08:42,  1.57s/it]                                                           {'loss': 0.1418, 'grad_norm': 0.5668417811393738, 'learning_rate': 2.3543798564816783e-05, 'epoch': 7.05}
 29%|██▉       | 23066/78504 [14:02:14<24:08:42,  1.57s/it] 29%|██▉       | 23067/78504 [14:02:15<22:50:57,  1.48s/it]                                                           {'loss': 0.1653, 'grad_norm': 0.4309762120246887, 'learning_rate': 2.354337395439684e-05, 'epoch': 7.05}
 29%|██▉       | 23067/78504 [14:02:15<22:50:57,  1.48s/it] 29%|██▉       | 23068/78504 [14:02:16<21:11:30,  1.38s/it]                                                           {'loss': 0.2234, 'grad_norm': 0.6050726175308228, 'learning_rate': 2.3542949343976904e-05, 'epoch': 7.05}
 29%|██▉       | 23068/78504 [14:02:16<21:11:30,  1.38s/it] 29%|██▉       | 23069/78504 [14:02:17<19:53:42,  1.29s/it]                                                           {'loss': 0.1638, 'grad_norm': 0.5145904421806335, 'learning_rate': 2.3542524733556962e-05, 'epoch': 7.05}
 29%|██▉       | 23069/78504 [14:02:17<19:53:42,  1.29s/it] 29%|██▉       | 23070/78504 [14:02:18<18:32:48,  1.20s/it]                                                           {'loss': 0.1806, 'grad_norm': 1.7062066793441772, 'learning_rate': 2.3542100123137025e-05, 'epoch': 7.05}
 29%|██▉       | 23070/78504 [14:02:18<18:32:48,  1.20s/it] 29%|██▉       | 23071/78504 [14:02:19<17:19:31,  1.13s/it]                                                           {'loss': 0.1599, 'grad_norm': 1.556714653968811, 'learning_rate': 2.3541675512717083e-05, 'epoch': 7.05}
 29%|██▉       | 23071/78504 [14:02:19<17:19:31,  1.13s/it] 29%|██▉       | 23072/78504 [14:02:20<15:44:49,  1.02s/it]                                                           {'loss': 0.1902, 'grad_norm': 3.0059614181518555, 'learning_rate': 2.3541250902297145e-05, 'epoch': 7.05}
 29%|██▉       | 23072/78504 [14:02:20<15:44:49,  1.02s/it] 29%|██▉       | 23073/78504 [14:02:28<50:54:31,  3.31s/it]                                                           {'loss': 0.1199, 'grad_norm': 0.22182072699069977, 'learning_rate': 2.3540826291877204e-05, 'epoch': 7.05}
 29%|██▉       | 23073/78504 [14:02:28<50:54:31,  3.31s/it] 29%|██▉       | 23074/78504 [14:02:32<50:40:59,  3.29s/it]                                                           {'loss': 0.0634, 'grad_norm': 0.21748262643814087, 'learning_rate': 2.3540401681457263e-05, 'epoch': 7.05}
 29%|██▉       | 23074/78504 [14:02:32<50:40:59,  3.29s/it] 29%|██▉       | 23075/78504 [14:02:34<47:59:03,  3.12s/it]                                                           {'loss': 0.05, 'grad_norm': 0.31169593334198, 'learning_rate': 2.3539977071037325e-05, 'epoch': 7.05}
 29%|██▉       | 23075/78504 [14:02:34<47:59:03,  3.12s/it] 29%|██▉       | 23076/78504 [14:02:37<45:34:12,  2.96s/it]                                                           {'loss': 0.0624, 'grad_norm': 0.3086962103843689, 'learning_rate': 2.3539552460617384e-05, 'epoch': 7.05}
 29%|██▉       | 23076/78504 [14:02:37<45:34:12,  2.96s/it] 29%|██▉       | 23077/78504 [14:02:39<43:14:41,  2.81s/it]                                                           {'loss': 0.0392, 'grad_norm': 0.22701075673103333, 'learning_rate': 2.3539127850197446e-05, 'epoch': 7.06}
 29%|██▉       | 23077/78504 [14:02:39<43:14:41,  2.81s/it] 29%|██▉       | 23078/78504 [14:02:42<40:44:42,  2.65s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.20541912317276, 'learning_rate': 2.3538703239777504e-05, 'epoch': 7.06}
 29%|██▉       | 23078/78504 [14:02:42<40:44:42,  2.65s/it] 29%|██▉       | 23079/78504 [14:02:44<39:11:52,  2.55s/it]                                                           {'loss': 0.0986, 'grad_norm': 0.21641120314598083, 'learning_rate': 2.3538278629357566e-05, 'epoch': 7.06}
 29%|██▉       | 23079/78504 [14:02:44<39:11:52,  2.55s/it] 29%|██▉       | 23080/78504 [14:02:46<37:13:07,  2.42s/it]                                                           {'loss': 0.0397, 'grad_norm': 0.1490655243396759, 'learning_rate': 2.3537854018937625e-05, 'epoch': 7.06}
 29%|██▉       | 23080/78504 [14:02:46<37:13:07,  2.42s/it] 29%|██▉       | 23081/78504 [14:02:48<36:05:42,  2.34s/it]                                                           {'loss': 0.0616, 'grad_norm': 0.23941253125667572, 'learning_rate': 2.3537429408517687e-05, 'epoch': 7.06}
 29%|██▉       | 23081/78504 [14:02:48<36:05:42,  2.34s/it] 29%|██▉       | 23082/78504 [14:02:50<35:08:26,  2.28s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.4817259907722473, 'learning_rate': 2.3537004798097746e-05, 'epoch': 7.06}
 29%|██▉       | 23082/78504 [14:02:51<35:08:26,  2.28s/it] 29%|██▉       | 23083/78504 [14:02:53<33:58:55,  2.21s/it]                                                           {'loss': 0.0987, 'grad_norm': 0.5066254734992981, 'learning_rate': 2.3536580187677808e-05, 'epoch': 7.06}
 29%|██▉       | 23083/78504 [14:02:53<33:58:55,  2.21s/it] 29%|██▉       | 23084/78504 [14:02:54<32:54:55,  2.14s/it]                                                           {'loss': 0.0717, 'grad_norm': 0.4132371246814728, 'learning_rate': 2.3536155577257867e-05, 'epoch': 7.06}
 29%|██▉       | 23084/78504 [14:02:55<32:54:55,  2.14s/it] 29%|██▉       | 23085/78504 [14:02:56<31:38:38,  2.06s/it]                                                           {'loss': 0.1402, 'grad_norm': 0.30716583132743835, 'learning_rate': 2.353573096683793e-05, 'epoch': 7.06}
 29%|██▉       | 23085/78504 [14:02:56<31:38:38,  2.06s/it] 29%|██▉       | 23086/78504 [14:02:58<30:07:32,  1.96s/it]                                                           {'loss': 0.0915, 'grad_norm': 0.27340102195739746, 'learning_rate': 2.3535306356417987e-05, 'epoch': 7.06}
 29%|██▉       | 23086/78504 [14:02:58<30:07:32,  1.96s/it] 29%|██▉       | 23087/78504 [14:03:00<28:45:11,  1.87s/it]                                                           {'loss': 0.1168, 'grad_norm': 0.6028252840042114, 'learning_rate': 2.3534881745998046e-05, 'epoch': 7.06}
 29%|██▉       | 23087/78504 [14:03:00<28:45:11,  1.87s/it] 29%|██▉       | 23088/78504 [14:03:01<27:41:04,  1.80s/it]                                                           {'loss': 0.1332, 'grad_norm': 0.34063252806663513, 'learning_rate': 2.3534457135578108e-05, 'epoch': 7.06}
 29%|██▉       | 23088/78504 [14:03:01<27:41:04,  1.80s/it] 29%|██▉       | 23089/78504 [14:03:03<26:34:36,  1.73s/it]                                                           {'loss': 0.1234, 'grad_norm': 0.4325239062309265, 'learning_rate': 2.3534032525158167e-05, 'epoch': 7.06}
 29%|██▉       | 23089/78504 [14:03:03<26:34:36,  1.73s/it] 29%|██▉       | 23090/78504 [14:03:04<25:22:37,  1.65s/it]                                                           {'loss': 0.1476, 'grad_norm': 0.6093205213546753, 'learning_rate': 2.353360791473823e-05, 'epoch': 7.06}
 29%|██▉       | 23090/78504 [14:03:04<25:22:37,  1.65s/it] 29%|██▉       | 23091/78504 [14:03:06<24:13:12,  1.57s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.7242899537086487, 'learning_rate': 2.3533183304318288e-05, 'epoch': 7.06}
 29%|██▉       | 23091/78504 [14:03:06<24:13:12,  1.57s/it] 29%|██▉       | 23092/78504 [14:03:07<22:55:55,  1.49s/it]                                                           {'loss': 0.1778, 'grad_norm': 1.9230091571807861, 'learning_rate': 2.353275869389835e-05, 'epoch': 7.06}
 29%|██▉       | 23092/78504 [14:03:07<22:55:55,  1.49s/it] 29%|██▉       | 23093/78504 [14:03:08<21:22:57,  1.39s/it]                                                           {'loss': 0.1508, 'grad_norm': 1.6750439405441284, 'learning_rate': 2.353233408347841e-05, 'epoch': 7.06}
 29%|██▉       | 23093/78504 [14:03:08<21:22:57,  1.39s/it] 29%|██▉       | 23094/78504 [14:03:09<19:59:27,  1.30s/it]                                                           {'loss': 0.1656, 'grad_norm': 0.9492354393005371, 'learning_rate': 2.353190947305847e-05, 'epoch': 7.06}
 29%|██▉       | 23094/78504 [14:03:09<19:59:27,  1.30s/it] 29%|██▉       | 23095/78504 [14:03:10<18:51:58,  1.23s/it]                                                           {'loss': 0.2097, 'grad_norm': 1.0055149793624878, 'learning_rate': 2.353148486263853e-05, 'epoch': 7.06}
 29%|██▉       | 23095/78504 [14:03:10<18:51:58,  1.23s/it] 29%|██▉       | 23096/78504 [14:03:11<17:29:40,  1.14s/it]                                                           {'loss': 0.1768, 'grad_norm': 1.3645358085632324, 'learning_rate': 2.353106025221859e-05, 'epoch': 7.06}
 29%|██▉       | 23096/78504 [14:03:11<17:29:40,  1.14s/it] 29%|██▉       | 23097/78504 [14:03:12<15:58:34,  1.04s/it]                                                           {'loss': 0.2206, 'grad_norm': 3.289898157119751, 'learning_rate': 2.353063564179865e-05, 'epoch': 7.06}
 29%|██▉       | 23097/78504 [14:03:12<15:58:34,  1.04s/it] 29%|██▉       | 23098/78504 [14:03:23<59:39:35,  3.88s/it]                                                           {'loss': 0.1375, 'grad_norm': 0.4701058268547058, 'learning_rate': 2.3530211031378712e-05, 'epoch': 7.06}
 29%|██▉       | 23098/78504 [14:03:23<59:39:35,  3.88s/it] 29%|██▉       | 23099/78504 [14:03:26<55:58:25,  3.64s/it]                                                           {'loss': 0.08, 'grad_norm': 0.27997738122940063, 'learning_rate': 2.352978642095877e-05, 'epoch': 7.06}
 29%|██▉       | 23099/78504 [14:03:26<55:58:25,  3.64s/it] 29%|██▉       | 23100/78504 [14:03:29<53:03:15,  3.45s/it]                                                           {'loss': 0.0727, 'grad_norm': 0.2502732276916504, 'learning_rate': 2.352936181053883e-05, 'epoch': 7.06}
 29%|██▉       | 23100/78504 [14:03:29<53:03:15,  3.45s/it] 29%|██▉       | 23101/78504 [14:03:31<49:13:32,  3.20s/it]                                                           {'loss': 0.0626, 'grad_norm': 0.4085312485694885, 'learning_rate': 2.352893720011889e-05, 'epoch': 7.06}
 29%|██▉       | 23101/78504 [14:03:31<49:13:32,  3.20s/it] 29%|██▉       | 23102/78504 [14:03:34<45:49:01,  2.98s/it]                                                           {'loss': 0.0408, 'grad_norm': 0.7580281496047974, 'learning_rate': 2.352851258969895e-05, 'epoch': 7.06}
 29%|██▉       | 23102/78504 [14:03:34<45:49:01,  2.98s/it] 29%|██▉       | 23103/78504 [14:03:36<43:17:20,  2.81s/it]                                                           {'loss': 0.0692, 'grad_norm': 0.2777668535709381, 'learning_rate': 2.3528087979279012e-05, 'epoch': 7.06}
 29%|██▉       | 23103/78504 [14:03:36<43:17:20,  2.81s/it] 29%|██▉       | 23104/78504 [14:03:39<40:56:55,  2.66s/it]                                                           {'loss': 0.0646, 'grad_norm': 0.8763957023620605, 'learning_rate': 2.352766336885907e-05, 'epoch': 7.06}
 29%|██▉       | 23104/78504 [14:03:39<40:56:55,  2.66s/it] 29%|██▉       | 23105/78504 [14:03:41<39:18:04,  2.55s/it]                                                           {'loss': 0.0683, 'grad_norm': 1.0374348163604736, 'learning_rate': 2.3527238758439133e-05, 'epoch': 7.06}
 29%|██▉       | 23105/78504 [14:03:41<39:18:04,  2.55s/it] 29%|██▉       | 23106/78504 [14:03:43<37:37:34,  2.45s/it]                                                           {'loss': 0.0498, 'grad_norm': 0.30577370524406433, 'learning_rate': 2.3526814148019192e-05, 'epoch': 7.06}
 29%|██▉       | 23106/78504 [14:03:43<37:37:34,  2.45s/it] 29%|██▉       | 23107/78504 [14:03:45<36:19:11,  2.36s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.3269423544406891, 'learning_rate': 2.3526389537599254e-05, 'epoch': 7.06}
 29%|██▉       | 23107/78504 [14:03:45<36:19:11,  2.36s/it] 29%|██▉       | 23108/78504 [14:03:47<34:03:25,  2.21s/it]                                                           {'loss': 0.0731, 'grad_norm': 1.9794955253601074, 'learning_rate': 2.3525964927179313e-05, 'epoch': 7.06}
 29%|██▉       | 23108/78504 [14:03:47<34:03:25,  2.21s/it] 29%|██▉       | 23109/78504 [14:03:49<32:58:32,  2.14s/it]                                                           {'loss': 0.0831, 'grad_norm': 0.20068757236003876, 'learning_rate': 2.3525540316759375e-05, 'epoch': 7.06}
 29%|██▉       | 23109/78504 [14:03:49<32:58:32,  2.14s/it] 29%|██▉       | 23110/78504 [14:03:51<31:55:42,  2.08s/it]                                                           {'loss': 0.0757, 'grad_norm': 0.3787343204021454, 'learning_rate': 2.3525115706339434e-05, 'epoch': 7.07}
 29%|██▉       | 23110/78504 [14:03:51<31:55:42,  2.08s/it] 29%|██▉       | 23111/78504 [14:03:53<31:06:38,  2.02s/it]                                                           {'loss': 0.1014, 'grad_norm': 0.41309916973114014, 'learning_rate': 2.3524691095919496e-05, 'epoch': 7.07}
 29%|██▉       | 23111/78504 [14:03:53<31:06:38,  2.02s/it] 29%|██▉       | 23112/78504 [14:03:55<29:54:36,  1.94s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.7397098541259766, 'learning_rate': 2.3524266485499554e-05, 'epoch': 7.07}
 29%|██▉       | 23112/78504 [14:03:55<29:54:36,  1.94s/it] 29%|██▉       | 23113/78504 [14:03:56<28:11:25,  1.83s/it]                                                           {'loss': 0.1059, 'grad_norm': 1.7555065155029297, 'learning_rate': 2.3523841875079613e-05, 'epoch': 7.07}
 29%|██▉       | 23113/78504 [14:03:56<28:11:25,  1.83s/it] 29%|██▉       | 23114/78504 [14:03:58<26:52:54,  1.75s/it]                                                           {'loss': 0.1526, 'grad_norm': 0.8859031796455383, 'learning_rate': 2.3523417264659675e-05, 'epoch': 7.07}
 29%|██▉       | 23114/78504 [14:03:58<26:52:54,  1.75s/it] 29%|██▉       | 23115/78504 [14:03:59<25:36:24,  1.66s/it]                                                           {'loss': 0.1658, 'grad_norm': 0.7118905186653137, 'learning_rate': 2.3522992654239734e-05, 'epoch': 7.07}
 29%|██▉       | 23115/78504 [14:03:59<25:36:24,  1.66s/it] 29%|██▉       | 23116/78504 [14:04:01<24:23:49,  1.59s/it]                                                           {'loss': 0.152, 'grad_norm': 1.1122994422912598, 'learning_rate': 2.3522568043819796e-05, 'epoch': 7.07}
 29%|██▉       | 23116/78504 [14:04:01<24:23:49,  1.59s/it] 29%|██▉       | 23117/78504 [14:04:02<22:58:55,  1.49s/it]                                                           {'loss': 0.1472, 'grad_norm': 0.4613122344017029, 'learning_rate': 2.3522143433399855e-05, 'epoch': 7.07}
 29%|██▉       | 23117/78504 [14:04:02<22:58:55,  1.49s/it] 29%|██▉       | 23118/78504 [14:04:03<21:24:29,  1.39s/it]                                                           {'loss': 0.1779, 'grad_norm': 2.8981571197509766, 'learning_rate': 2.3521718822979917e-05, 'epoch': 7.07}
 29%|██▉       | 23118/78504 [14:04:03<21:24:29,  1.39s/it] 29%|██▉       | 23119/78504 [14:04:04<20:05:53,  1.31s/it]                                                           {'loss': 0.1497, 'grad_norm': 0.44092896580696106, 'learning_rate': 2.3521294212559975e-05, 'epoch': 7.07}
 29%|██▉       | 23119/78504 [14:04:04<20:05:53,  1.31s/it] 29%|██▉       | 23120/78504 [14:04:05<18:39:05,  1.21s/it]                                                           {'loss': 0.1611, 'grad_norm': 0.9227309226989746, 'learning_rate': 2.3520869602140037e-05, 'epoch': 7.07}
 29%|██▉       | 23120/78504 [14:04:05<18:39:05,  1.21s/it] 29%|██▉       | 23121/78504 [14:04:06<17:20:45,  1.13s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.9797049164772034, 'learning_rate': 2.3520444991720096e-05, 'epoch': 7.07}
 29%|██▉       | 23121/78504 [14:04:06<17:20:45,  1.13s/it] 29%|██▉       | 23122/78504 [14:04:07<15:44:22,  1.02s/it]                                                           {'loss': 0.2481, 'grad_norm': 20.825313568115234, 'learning_rate': 2.3520020381300158e-05, 'epoch': 7.07}
 29%|██▉       | 23122/78504 [14:04:07<15:44:22,  1.02s/it] 29%|██▉       | 23123/78504 [14:04:17<56:53:17,  3.70s/it]                                                           {'loss': 0.1426, 'grad_norm': 0.4506680965423584, 'learning_rate': 2.3519595770880217e-05, 'epoch': 7.07}
 29%|██▉       | 23123/78504 [14:04:17<56:53:17,  3.70s/it] 29%|██▉       | 23124/78504 [14:04:20<55:20:30,  3.60s/it]                                                           {'loss': 0.0926, 'grad_norm': 0.5829150676727295, 'learning_rate': 2.351917116046028e-05, 'epoch': 7.07}
 29%|██▉       | 23124/78504 [14:04:20<55:20:30,  3.60s/it] 29%|██▉       | 23125/78504 [14:04:23<52:28:38,  3.41s/it]                                                           {'loss': 0.0758, 'grad_norm': 0.2977692782878876, 'learning_rate': 2.3518746550040338e-05, 'epoch': 7.07}
 29%|██▉       | 23125/78504 [14:04:23<52:28:38,  3.41s/it] 29%|██▉       | 23126/78504 [14:04:26<48:40:50,  3.16s/it]                                                           {'loss': 0.0503, 'grad_norm': 0.29186201095581055, 'learning_rate': 2.3518321939620396e-05, 'epoch': 7.07}
 29%|██▉       | 23126/78504 [14:04:26<48:40:50,  3.16s/it] 29%|██▉       | 23127/78504 [14:04:28<44:56:05,  2.92s/it]                                                           {'loss': 0.0418, 'grad_norm': 0.2875964641571045, 'learning_rate': 2.351789732920046e-05, 'epoch': 7.07}
 29%|██▉       | 23127/78504 [14:04:28<44:56:05,  2.92s/it] 29%|██▉       | 23128/78504 [14:04:30<41:54:54,  2.72s/it]                                                           {'loss': 0.0523, 'grad_norm': 0.49768173694610596, 'learning_rate': 2.3517472718780517e-05, 'epoch': 7.07}
 29%|██▉       | 23128/78504 [14:04:30<41:54:54,  2.72s/it] 29%|██▉       | 23129/78504 [14:04:33<40:04:21,  2.61s/it]                                                           {'loss': 0.0221, 'grad_norm': 0.25267162919044495, 'learning_rate': 2.351704810836058e-05, 'epoch': 7.07}
 29%|██▉       | 23129/78504 [14:04:33<40:04:21,  2.61s/it] 29%|██▉       | 23130/78504 [14:04:35<38:26:40,  2.50s/it]                                                           {'loss': 0.0502, 'grad_norm': 0.25332626700401306, 'learning_rate': 2.3516623497940638e-05, 'epoch': 7.07}
 29%|██▉       | 23130/78504 [14:04:35<38:26:40,  2.50s/it] 29%|██▉       | 23131/78504 [14:04:37<37:01:37,  2.41s/it]                                                           {'loss': 0.0788, 'grad_norm': 0.5564579963684082, 'learning_rate': 2.35161988875207e-05, 'epoch': 7.07}
 29%|██▉       | 23131/78504 [14:04:37<37:01:37,  2.41s/it] 29%|██▉       | 23132/78504 [14:04:39<35:45:38,  2.32s/it]                                                           {'loss': 0.0563, 'grad_norm': 0.3297048807144165, 'learning_rate': 2.351577427710076e-05, 'epoch': 7.07}
 29%|██▉       | 23132/78504 [14:04:39<35:45:38,  2.32s/it] 29%|██▉       | 23133/78504 [14:04:41<34:10:01,  2.22s/it]                                                           {'loss': 0.0702, 'grad_norm': 0.8514174818992615, 'learning_rate': 2.351534966668082e-05, 'epoch': 7.07}
 29%|██▉       | 23133/78504 [14:04:41<34:10:01,  2.22s/it] 29%|██▉       | 23134/78504 [14:04:43<32:14:06,  2.10s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.6351322531700134, 'learning_rate': 2.351492505626088e-05, 'epoch': 7.07}
 29%|██▉       | 23134/78504 [14:04:43<32:14:06,  2.10s/it] 29%|██▉       | 23135/78504 [14:04:45<31:07:43,  2.02s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.2990107834339142, 'learning_rate': 2.351450044584094e-05, 'epoch': 7.07}
 29%|██▉       | 23135/78504 [14:04:45<31:07:43,  2.02s/it] 29%|██▉       | 23136/78504 [14:04:47<30:15:06,  1.97s/it]                                                           {'loss': 0.1104, 'grad_norm': 0.9247722029685974, 'learning_rate': 2.3514075835421e-05, 'epoch': 7.07}
 29%|██▉       | 23136/78504 [14:04:47<30:15:06,  1.97s/it] 29%|██▉       | 23137/78504 [14:04:48<29:09:10,  1.90s/it]                                                           {'loss': 0.0891, 'grad_norm': 0.33063942193984985, 'learning_rate': 2.351365122500106e-05, 'epoch': 7.07}
 29%|██▉       | 23137/78504 [14:04:48<29:09:10,  1.90s/it] 29%|██▉       | 23138/78504 [14:04:50<27:58:34,  1.82s/it]                                                           {'loss': 0.1389, 'grad_norm': 0.4335883855819702, 'learning_rate': 2.351322661458112e-05, 'epoch': 7.07}
 29%|██▉       | 23138/78504 [14:04:50<27:58:34,  1.82s/it] 29%|██▉       | 23139/78504 [14:04:52<26:40:28,  1.73s/it]                                                           {'loss': 0.1329, 'grad_norm': 0.35456037521362305, 'learning_rate': 2.351280200416118e-05, 'epoch': 7.07}
 29%|██▉       | 23139/78504 [14:04:52<26:40:28,  1.73s/it] 29%|██▉       | 23140/78504 [14:04:53<25:26:58,  1.65s/it]                                                           {'loss': 0.1462, 'grad_norm': 0.4244078993797302, 'learning_rate': 2.3512377393741242e-05, 'epoch': 7.07}
 29%|██▉       | 23140/78504 [14:04:53<25:26:58,  1.65s/it] 29%|██▉       | 23141/78504 [14:04:55<24:21:07,  1.58s/it]                                                           {'loss': 0.1376, 'grad_norm': 0.4530734419822693, 'learning_rate': 2.35119527833213e-05, 'epoch': 7.07}
 29%|██▉       | 23141/78504 [14:04:55<24:21:07,  1.58s/it] 29%|██▉       | 23142/78504 [14:04:56<22:59:10,  1.49s/it]                                                           {'loss': 0.152, 'grad_norm': 0.6042066812515259, 'learning_rate': 2.3511528172901363e-05, 'epoch': 7.07}
 29%|██▉       | 23142/78504 [14:04:56<22:59:10,  1.49s/it] 29%|██▉       | 23143/78504 [14:04:57<21:23:55,  1.39s/it]                                                           {'loss': 0.1605, 'grad_norm': 0.8997057676315308, 'learning_rate': 2.351110356248142e-05, 'epoch': 7.08}
 29%|██▉       | 23143/78504 [14:04:57<21:23:55,  1.39s/it] 29%|██▉       | 23144/78504 [14:04:58<20:04:13,  1.31s/it]                                                           {'loss': 0.1885, 'grad_norm': 0.768470048904419, 'learning_rate': 2.3510678952061484e-05, 'epoch': 7.08}
 29%|██▉       | 23144/78504 [14:04:58<20:04:13,  1.31s/it] 29%|██▉       | 23145/78504 [14:04:59<18:52:26,  1.23s/it]                                                           {'loss': 0.1843, 'grad_norm': 0.8784999251365662, 'learning_rate': 2.3510254341641542e-05, 'epoch': 7.08}
 29%|██▉       | 23145/78504 [14:04:59<18:52:26,  1.23s/it] 29%|██▉       | 23146/78504 [14:05:00<17:32:03,  1.14s/it]                                                           {'loss': 0.1701, 'grad_norm': 0.856619656085968, 'learning_rate': 2.3509829731221604e-05, 'epoch': 7.08}
 29%|██▉       | 23146/78504 [14:05:00<17:32:03,  1.14s/it] 29%|██▉       | 23147/78504 [14:05:01<15:51:58,  1.03s/it]                                                           {'loss': 0.2044, 'grad_norm': 1.752780795097351, 'learning_rate': 2.3509405120801666e-05, 'epoch': 7.08}
 29%|██▉       | 23147/78504 [14:05:01<15:51:58,  1.03s/it] 29%|██▉       | 23148/78504 [14:05:09<46:47:45,  3.04s/it]                                                           {'loss': 0.1541, 'grad_norm': 0.3434811234474182, 'learning_rate': 2.350898051038173e-05, 'epoch': 7.08}
 29%|██▉       | 23148/78504 [14:05:09<46:47:45,  3.04s/it] 29%|██▉       | 23149/78504 [14:05:12<47:11:43,  3.07s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.33617424964904785, 'learning_rate': 2.3508555899961787e-05, 'epoch': 7.08}
 29%|██▉       | 23149/78504 [14:05:12<47:11:43,  3.07s/it] 29%|██▉       | 23150/78504 [14:05:14<44:52:45,  2.92s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.2451661080121994, 'learning_rate': 2.3508131289541846e-05, 'epoch': 7.08}
 29%|██▉       | 23150/78504 [14:05:14<44:52:45,  2.92s/it] 29%|██▉       | 23151/78504 [14:05:17<43:27:05,  2.83s/it]                                                           {'loss': 0.0602, 'grad_norm': 0.14013095200061798, 'learning_rate': 2.3507706679121908e-05, 'epoch': 7.08}
 29%|██▉       | 23151/78504 [14:05:17<43:27:05,  2.83s/it] 29%|██▉       | 23152/78504 [14:05:19<41:47:09,  2.72s/it]                                                           {'loss': 0.0543, 'grad_norm': 0.25993281602859497, 'learning_rate': 2.3507282068701967e-05, 'epoch': 7.08}
 29%|██▉       | 23152/78504 [14:05:19<41:47:09,  2.72s/it] 29%|██▉       | 23153/78504 [14:05:22<39:41:40,  2.58s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.14222384989261627, 'learning_rate': 2.350685745828203e-05, 'epoch': 7.08}
 29%|██▉       | 23153/78504 [14:05:22<39:41:40,  2.58s/it] 29%|██▉       | 23154/78504 [14:05:24<38:26:30,  2.50s/it]                                                           {'loss': 0.0511, 'grad_norm': 0.2208828330039978, 'learning_rate': 2.3506432847862087e-05, 'epoch': 7.08}
 29%|██▉       | 23154/78504 [14:05:24<38:26:30,  2.50s/it] 29%|██▉       | 23155/78504 [14:05:26<36:33:58,  2.38s/it]                                                           {'loss': 0.0379, 'grad_norm': 0.17467521131038666, 'learning_rate': 2.350600823744215e-05, 'epoch': 7.08}
 29%|██▉       | 23155/78504 [14:05:26<36:33:58,  2.38s/it] 29%|██▉       | 23156/78504 [14:05:28<34:55:34,  2.27s/it]                                                           {'loss': 0.0649, 'grad_norm': 0.7574658989906311, 'learning_rate': 2.3505583627022208e-05, 'epoch': 7.08}
 29%|██▉       | 23156/78504 [14:05:28<34:55:34,  2.27s/it] 29%|██▉       | 23157/78504 [14:05:30<34:16:35,  2.23s/it]                                                           {'loss': 0.07, 'grad_norm': 0.22038564085960388, 'learning_rate': 2.350515901660227e-05, 'epoch': 7.08}
 29%|██▉       | 23157/78504 [14:05:30<34:16:35,  2.23s/it] 29%|██▉       | 23158/78504 [14:05:32<33:14:08,  2.16s/it]                                                           {'loss': 0.0955, 'grad_norm': 0.4359354078769684, 'learning_rate': 2.350473440618233e-05, 'epoch': 7.08}
 29%|██▉       | 23158/78504 [14:05:32<33:14:08,  2.16s/it] 30%|██▉       | 23159/78504 [14:05:34<32:23:25,  2.11s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.3346080780029297, 'learning_rate': 2.350430979576239e-05, 'epoch': 7.08}
 30%|██▉       | 23159/78504 [14:05:34<32:23:25,  2.11s/it] 30%|██▉       | 23160/78504 [14:05:36<31:15:52,  2.03s/it]                                                           {'loss': 0.077, 'grad_norm': 0.28539273142814636, 'learning_rate': 2.350388518534245e-05, 'epoch': 7.08}
 30%|██▉       | 23160/78504 [14:05:36<31:15:52,  2.03s/it] 30%|██▉       | 23161/78504 [14:05:38<29:51:23,  1.94s/it]                                                           {'loss': 0.0755, 'grad_norm': 0.6596119999885559, 'learning_rate': 2.3503460574922512e-05, 'epoch': 7.08}
 30%|██▉       | 23161/78504 [14:05:38<29:51:23,  1.94s/it] 30%|██▉       | 23162/78504 [14:05:39<29:02:33,  1.89s/it]                                                           {'loss': 0.1066, 'grad_norm': 0.40208700299263, 'learning_rate': 2.350303596450257e-05, 'epoch': 7.08}
 30%|██▉       | 23162/78504 [14:05:39<29:02:33,  1.89s/it] 30%|██▉       | 23163/78504 [14:05:41<27:52:08,  1.81s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.42543265223503113, 'learning_rate': 2.350261135408263e-05, 'epoch': 7.08}
 30%|██▉       | 23163/78504 [14:05:41<27:52:08,  1.81s/it] 30%|██▉       | 23164/78504 [14:05:43<26:30:05,  1.72s/it]                                                           {'loss': 0.1567, 'grad_norm': 0.5013754367828369, 'learning_rate': 2.350218674366269e-05, 'epoch': 7.08}
 30%|██▉       | 23164/78504 [14:05:43<26:30:05,  1.72s/it] 30%|██▉       | 23165/78504 [14:05:44<25:20:30,  1.65s/it]                                                           {'loss': 0.1428, 'grad_norm': 0.38387247920036316, 'learning_rate': 2.350176213324275e-05, 'epoch': 7.08}
 30%|██▉       | 23165/78504 [14:05:44<25:20:30,  1.65s/it] 30%|██▉       | 23166/78504 [14:05:46<24:17:07,  1.58s/it]                                                           {'loss': 0.1434, 'grad_norm': 0.6493145823478699, 'learning_rate': 2.3501337522822812e-05, 'epoch': 7.08}
 30%|██▉       | 23166/78504 [14:05:46<24:17:07,  1.58s/it] 30%|██▉       | 23167/78504 [14:05:47<22:37:14,  1.47s/it]                                                           {'loss': 0.1617, 'grad_norm': 0.7275039553642273, 'learning_rate': 2.350091291240287e-05, 'epoch': 7.08}
 30%|██▉       | 23167/78504 [14:05:47<22:37:14,  1.47s/it] 30%|██▉       | 23168/78504 [14:05:48<21:04:54,  1.37s/it]                                                           {'loss': 0.1203, 'grad_norm': 1.3782641887664795, 'learning_rate': 2.3500488301982933e-05, 'epoch': 7.08}
 30%|██▉       | 23168/78504 [14:05:48<21:04:54,  1.37s/it] 30%|██▉       | 23169/78504 [14:05:49<19:50:58,  1.29s/it]                                                           {'loss': 0.1668, 'grad_norm': 0.7177689671516418, 'learning_rate': 2.350006369156299e-05, 'epoch': 7.08}
 30%|██▉       | 23169/78504 [14:05:49<19:50:58,  1.29s/it] 30%|██▉       | 23170/78504 [14:05:50<18:29:09,  1.20s/it]                                                           {'loss': 0.1513, 'grad_norm': 0.568946897983551, 'learning_rate': 2.3499639081143054e-05, 'epoch': 7.08}
 30%|██▉       | 23170/78504 [14:05:50<18:29:09,  1.20s/it] 30%|██▉       | 23171/78504 [14:05:51<17:12:05,  1.12s/it]                                                           {'loss': 0.1904, 'grad_norm': 0.877193033695221, 'learning_rate': 2.3499214470723112e-05, 'epoch': 7.08}
 30%|██▉       | 23171/78504 [14:05:51<17:12:05,  1.12s/it] 30%|██▉       | 23172/78504 [14:05:52<15:38:12,  1.02s/it]                                                           {'loss': 0.2159, 'grad_norm': 1.4159197807312012, 'learning_rate': 2.3498789860303175e-05, 'epoch': 7.08}
 30%|██▉       | 23172/78504 [14:05:52<15:38:12,  1.02s/it] 30%|██▉       | 23173/78504 [14:06:01<55:14:36,  3.59s/it]                                                           {'loss': 0.1301, 'grad_norm': 0.3803510367870331, 'learning_rate': 2.3498365249883233e-05, 'epoch': 7.08}
 30%|██▉       | 23173/78504 [14:06:01<55:14:36,  3.59s/it] 30%|██▉       | 23174/78504 [14:06:04<52:59:57,  3.45s/it]                                                           {'loss': 0.091, 'grad_norm': 0.19504883885383606, 'learning_rate': 2.3497940639463295e-05, 'epoch': 7.08}
 30%|██▉       | 23174/78504 [14:06:04<52:59:57,  3.45s/it] 30%|██▉       | 23175/78504 [14:06:07<50:58:53,  3.32s/it]                                                           {'loss': 0.0665, 'grad_norm': 0.25152283906936646, 'learning_rate': 2.3497516029043354e-05, 'epoch': 7.08}
 30%|██▉       | 23175/78504 [14:06:07<50:58:53,  3.32s/it] 30%|██▉       | 23176/78504 [14:06:10<47:36:43,  3.10s/it]                                                           {'loss': 0.0626, 'grad_norm': 0.38346248865127563, 'learning_rate': 2.3497091418623413e-05, 'epoch': 7.09}
 30%|██▉       | 23176/78504 [14:06:10<47:36:43,  3.10s/it] 30%|██▉       | 23177/78504 [14:06:12<44:40:27,  2.91s/it]                                                           {'loss': 0.038, 'grad_norm': 0.37824633717536926, 'learning_rate': 2.3496666808203475e-05, 'epoch': 7.09}
 30%|██▉       | 23177/78504 [14:06:12<44:40:27,  2.91s/it] 30%|██▉       | 23178/78504 [14:06:15<41:41:41,  2.71s/it]                                                           {'loss': 0.0317, 'grad_norm': 0.21232527494430542, 'learning_rate': 2.3496242197783534e-05, 'epoch': 7.09}
 30%|██▉       | 23178/78504 [14:06:15<41:41:41,  2.71s/it] 30%|██▉       | 23179/78504 [14:06:17<39:54:22,  2.60s/it]                                                           {'loss': 0.0343, 'grad_norm': 0.23250696063041687, 'learning_rate': 2.3495817587363596e-05, 'epoch': 7.09}
 30%|██▉       | 23179/78504 [14:06:17<39:54:22,  2.60s/it] 30%|██▉       | 23180/78504 [14:06:19<37:32:14,  2.44s/it]                                                           {'loss': 0.0348, 'grad_norm': 0.12669609487056732, 'learning_rate': 2.3495392976943654e-05, 'epoch': 7.09}
 30%|██▉       | 23180/78504 [14:06:19<37:32:14,  2.44s/it] 30%|██▉       | 23181/78504 [14:06:21<36:23:02,  2.37s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.24477210640907288, 'learning_rate': 2.3494968366523716e-05, 'epoch': 7.09}
 30%|██▉       | 23181/78504 [14:06:21<36:23:02,  2.37s/it] 30%|██▉       | 23182/78504 [14:06:23<35:18:39,  2.30s/it]                                                           {'loss': 0.0756, 'grad_norm': 0.1957135945558548, 'learning_rate': 2.3494543756103775e-05, 'epoch': 7.09}
 30%|██▉       | 23182/78504 [14:06:23<35:18:39,  2.30s/it] 30%|██▉       | 23183/78504 [14:06:25<33:49:25,  2.20s/it]                                                           {'loss': 0.1027, 'grad_norm': 0.43109387159347534, 'learning_rate': 2.3494119145683837e-05, 'epoch': 7.09}
 30%|██▉       | 23183/78504 [14:06:25<33:49:25,  2.20s/it] 30%|██▉       | 23184/78504 [14:06:27<32:32:38,  2.12s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.29967695474624634, 'learning_rate': 2.3493694535263896e-05, 'epoch': 7.09}
 30%|██▉       | 23184/78504 [14:06:27<32:32:38,  2.12s/it] 30%|██▉       | 23185/78504 [14:06:29<31:23:08,  2.04s/it]                                                           {'loss': 0.0795, 'grad_norm': 0.8084019422531128, 'learning_rate': 2.3493269924843958e-05, 'epoch': 7.09}
 30%|██▉       | 23185/78504 [14:06:29<31:23:08,  2.04s/it] 30%|██▉       | 23186/78504 [14:06:31<29:38:50,  1.93s/it]                                                           {'loss': 0.0895, 'grad_norm': 0.4485774338245392, 'learning_rate': 2.3492845314424017e-05, 'epoch': 7.09}
 30%|██▉       | 23186/78504 [14:06:31<29:38:50,  1.93s/it] 30%|██▉       | 23187/78504 [14:06:33<28:56:49,  1.88s/it]                                                           {'loss': 0.1319, 'grad_norm': 0.9338194131851196, 'learning_rate': 2.349242070400408e-05, 'epoch': 7.09}
 30%|██▉       | 23187/78504 [14:06:33<28:56:49,  1.88s/it] 30%|██▉       | 23188/78504 [14:06:34<27:51:43,  1.81s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.7412888407707214, 'learning_rate': 2.3491996093584137e-05, 'epoch': 7.09}
 30%|██▉       | 23188/78504 [14:06:34<27:51:43,  1.81s/it] 30%|██▉       | 23189/78504 [14:06:36<26:27:26,  1.72s/it]                                                           {'loss': 0.138, 'grad_norm': 2.190263271331787, 'learning_rate': 2.3491571483164196e-05, 'epoch': 7.09}
 30%|██▉       | 23189/78504 [14:06:36<26:27:26,  1.72s/it] 30%|██▉       | 23190/78504 [14:06:37<25:21:53,  1.65s/it]                                                           {'loss': 0.1612, 'grad_norm': 0.9835168123245239, 'learning_rate': 2.3491146872744258e-05, 'epoch': 7.09}
 30%|██▉       | 23190/78504 [14:06:37<25:21:53,  1.65s/it] 30%|██▉       | 23191/78504 [14:06:39<24:14:22,  1.58s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.3705076575279236, 'learning_rate': 2.3490722262324317e-05, 'epoch': 7.09}
 30%|██▉       | 23191/78504 [14:06:39<24:14:22,  1.58s/it] 30%|██▉       | 23192/78504 [14:06:40<22:37:00,  1.47s/it]                                                           {'loss': 0.1634, 'grad_norm': 0.6457189321517944, 'learning_rate': 2.349029765190438e-05, 'epoch': 7.09}
 30%|██▉       | 23192/78504 [14:06:40<22:37:00,  1.47s/it] 30%|██▉       | 23193/78504 [14:06:41<21:06:18,  1.37s/it]                                                           {'loss': 0.1469, 'grad_norm': 1.1886448860168457, 'learning_rate': 2.3489873041484438e-05, 'epoch': 7.09}
 30%|██▉       | 23193/78504 [14:06:41<21:06:18,  1.37s/it] 30%|██▉       | 23194/78504 [14:06:42<19:50:24,  1.29s/it]                                                           {'loss': 0.1935, 'grad_norm': 0.6179994344711304, 'learning_rate': 2.34894484310645e-05, 'epoch': 7.09}
 30%|██▉       | 23194/78504 [14:06:42<19:50:24,  1.29s/it] 30%|██▉       | 23195/78504 [14:06:43<18:27:56,  1.20s/it]                                                           {'loss': 0.1772, 'grad_norm': 0.878574788570404, 'learning_rate': 2.348902382064456e-05, 'epoch': 7.09}
 30%|██▉       | 23195/78504 [14:06:43<18:27:56,  1.20s/it] 30%|██▉       | 23196/78504 [14:06:44<17:15:15,  1.12s/it]                                                           {'loss': 0.1356, 'grad_norm': 2.6988584995269775, 'learning_rate': 2.348859921022462e-05, 'epoch': 7.09}
 30%|██▉       | 23196/78504 [14:06:44<17:15:15,  1.12s/it] 30%|██▉       | 23197/78504 [14:06:45<15:41:17,  1.02s/it]                                                           {'loss': 0.1976, 'grad_norm': 0.7270660400390625, 'learning_rate': 2.348817459980468e-05, 'epoch': 7.09}
 30%|██▉       | 23197/78504 [14:06:45<15:41:17,  1.02s/it] 30%|██▉       | 23198/78504 [14:06:52<45:18:09,  2.95s/it]                                                           {'loss': 0.127, 'grad_norm': 0.5275213122367859, 'learning_rate': 2.348774998938474e-05, 'epoch': 7.09}
 30%|██▉       | 23198/78504 [14:06:52<45:18:09,  2.95s/it] 30%|██▉       | 23199/78504 [14:06:55<46:06:50,  3.00s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.4020727276802063, 'learning_rate': 2.34873253789648e-05, 'epoch': 7.09}
 30%|██▉       | 23199/78504 [14:06:55<46:06:50,  3.00s/it] 30%|██▉       | 23200/78504 [14:06:58<44:06:06,  2.87s/it]                                                           {'loss': 0.0629, 'grad_norm': 0.20843623578548431, 'learning_rate': 2.3486900768544862e-05, 'epoch': 7.09}
 30%|██▉       | 23200/78504 [14:06:58<44:06:06,  2.87s/it] 30%|██▉       | 23201/78504 [14:07:01<42:54:12,  2.79s/it]                                                           {'loss': 0.0438, 'grad_norm': 0.19206170737743378, 'learning_rate': 2.348647615812492e-05, 'epoch': 7.09}
 30%|██▉       | 23201/78504 [14:07:01<42:54:12,  2.79s/it] 30%|██▉       | 23202/78504 [14:07:03<41:22:06,  2.69s/it]                                                           {'loss': 0.0555, 'grad_norm': 0.1918283849954605, 'learning_rate': 2.348605154770498e-05, 'epoch': 7.09}
 30%|██▉       | 23202/78504 [14:07:03<41:22:06,  2.69s/it] 30%|██▉       | 23203/78504 [14:07:06<40:08:26,  2.61s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.3102133870124817, 'learning_rate': 2.348562693728504e-05, 'epoch': 7.09}
 30%|██▉       | 23203/78504 [14:07:06<40:08:26,  2.61s/it] 30%|██▉       | 23204/78504 [14:07:08<38:44:25,  2.52s/it]                                                           {'loss': 0.0625, 'grad_norm': 0.9370847940444946, 'learning_rate': 2.34852023268651e-05, 'epoch': 7.09}
 30%|██▉       | 23204/78504 [14:07:08<38:44:25,  2.52s/it] 30%|██▉       | 23205/78504 [14:07:10<36:51:04,  2.40s/it]                                                           {'loss': 0.071, 'grad_norm': 0.20315684378147125, 'learning_rate': 2.3484777716445162e-05, 'epoch': 7.09}
 30%|██▉       | 23205/78504 [14:07:10<36:51:04,  2.40s/it] 30%|██▉       | 23206/78504 [14:07:12<35:49:39,  2.33s/it]                                                           {'loss': 0.09, 'grad_norm': 0.42986002564430237, 'learning_rate': 2.348435310602522e-05, 'epoch': 7.09}
 30%|██▉       | 23206/78504 [14:07:12<35:49:39,  2.33s/it] 30%|██▉       | 23207/78504 [14:07:14<35:00:41,  2.28s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.26499149203300476, 'learning_rate': 2.3483928495605283e-05, 'epoch': 7.09}
 30%|██▉       | 23207/78504 [14:07:14<35:00:41,  2.28s/it] 30%|██▉       | 23208/78504 [14:07:16<33:02:57,  2.15s/it]                                                           {'loss': 0.0746, 'grad_norm': 0.30209100246429443, 'learning_rate': 2.3483503885185342e-05, 'epoch': 7.1}
 30%|██▉       | 23208/78504 [14:07:16<33:02:57,  2.15s/it] 30%|██▉       | 23209/78504 [14:07:18<32:15:28,  2.10s/it]                                                           {'loss': 0.0719, 'grad_norm': 0.24987003207206726, 'learning_rate': 2.3483079274765404e-05, 'epoch': 7.1}
 30%|██▉       | 23209/78504 [14:07:18<32:15:28,  2.10s/it] 30%|██▉       | 23210/78504 [14:07:20<31:13:04,  2.03s/it]                                                           {'loss': 0.106, 'grad_norm': 0.85332852602005, 'learning_rate': 2.3482654664345463e-05, 'epoch': 7.1}
 30%|██▉       | 23210/78504 [14:07:20<31:13:04,  2.03s/it] 30%|██▉       | 23211/78504 [14:07:22<30:29:25,  1.99s/it]                                                           {'loss': 0.119, 'grad_norm': 0.3335622251033783, 'learning_rate': 2.3482230053925525e-05, 'epoch': 7.1}
 30%|██▉       | 23211/78504 [14:07:22<30:29:25,  1.99s/it] 30%|██▉       | 23212/78504 [14:07:24<29:27:50,  1.92s/it]                                                           {'loss': 0.0949, 'grad_norm': 0.5399472117424011, 'learning_rate': 2.3481805443505584e-05, 'epoch': 7.1}
 30%|██▉       | 23212/78504 [14:07:24<29:27:50,  1.92s/it] 30%|██▉       | 23213/78504 [14:07:25<28:12:13,  1.84s/it]                                                           {'loss': 0.1114, 'grad_norm': 1.0555137395858765, 'learning_rate': 2.3481380833085646e-05, 'epoch': 7.1}
 30%|██▉       | 23213/78504 [14:07:25<28:12:13,  1.84s/it] 30%|██▉       | 23214/78504 [14:07:27<26:51:42,  1.75s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.7058786749839783, 'learning_rate': 2.3480956222665704e-05, 'epoch': 7.1}
 30%|██▉       | 23214/78504 [14:07:27<26:51:42,  1.75s/it] 30%|██▉       | 23215/78504 [14:07:28<25:34:50,  1.67s/it]                                                           {'loss': 0.1452, 'grad_norm': 0.38554880023002625, 'learning_rate': 2.3480531612245763e-05, 'epoch': 7.1}
 30%|██▉       | 23215/78504 [14:07:28<25:34:50,  1.67s/it] 30%|██▉       | 23216/78504 [14:07:30<24:12:57,  1.58s/it]                                                           {'loss': 0.1306, 'grad_norm': 0.8751000165939331, 'learning_rate': 2.3480107001825825e-05, 'epoch': 7.1}
 30%|██▉       | 23216/78504 [14:07:30<24:12:57,  1.58s/it] 30%|██▉       | 23217/78504 [14:07:31<22:50:30,  1.49s/it]                                                           {'loss': 0.1513, 'grad_norm': 1.2228784561157227, 'learning_rate': 2.3479682391405884e-05, 'epoch': 7.1}
 30%|██▉       | 23217/78504 [14:07:31<22:50:30,  1.49s/it] 30%|██▉       | 23218/78504 [14:07:32<21:21:13,  1.39s/it]                                                           {'loss': 0.1357, 'grad_norm': 0.615655779838562, 'learning_rate': 2.3479257780985946e-05, 'epoch': 7.1}
 30%|██▉       | 23218/78504 [14:07:32<21:21:13,  1.39s/it] 30%|██▉       | 23219/78504 [14:07:33<19:59:14,  1.30s/it]                                                           {'loss': 0.1516, 'grad_norm': 1.0195738077163696, 'learning_rate': 2.3478833170566005e-05, 'epoch': 7.1}
 30%|██▉       | 23219/78504 [14:07:33<19:59:14,  1.30s/it] 30%|██▉       | 23220/78504 [14:07:34<18:49:55,  1.23s/it]                                                           {'loss': 0.1656, 'grad_norm': 2.1614935398101807, 'learning_rate': 2.3478408560146067e-05, 'epoch': 7.1}
 30%|██▉       | 23220/78504 [14:07:34<18:49:55,  1.23s/it] 30%|██▉       | 23221/78504 [14:07:35<17:26:50,  1.14s/it]                                                           {'loss': 0.1668, 'grad_norm': 1.212651252746582, 'learning_rate': 2.3477983949726125e-05, 'epoch': 7.1}
 30%|██▉       | 23221/78504 [14:07:35<17:26:50,  1.14s/it] 30%|██▉       | 23222/78504 [14:07:36<15:47:47,  1.03s/it]                                                           {'loss': 0.2192, 'grad_norm': 4.744568347930908, 'learning_rate': 2.3477559339306187e-05, 'epoch': 7.1}
 30%|██▉       | 23222/78504 [14:07:36<15:47:47,  1.03s/it] 30%|██▉       | 23223/78504 [14:07:45<53:04:16,  3.46s/it]                                                           {'loss': 0.1156, 'grad_norm': 0.47857484221458435, 'learning_rate': 2.3477134728886246e-05, 'epoch': 7.1}
 30%|██▉       | 23223/78504 [14:07:45<53:04:16,  3.46s/it] 30%|██▉       | 23224/78504 [14:07:48<51:32:42,  3.36s/it]                                                           {'loss': 0.062, 'grad_norm': 0.1866818070411682, 'learning_rate': 2.3476710118466308e-05, 'epoch': 7.1}
 30%|██▉       | 23224/78504 [14:07:48<51:32:42,  3.36s/it] 30%|██▉       | 23225/78504 [14:07:51<47:53:53,  3.12s/it]                                                           {'loss': 0.076, 'grad_norm': 0.2377590835094452, 'learning_rate': 2.3476285508046367e-05, 'epoch': 7.1}
 30%|██▉       | 23225/78504 [14:07:51<47:53:53,  3.12s/it] 30%|██▉       | 23226/78504 [14:07:53<45:32:52,  2.97s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.33748939633369446, 'learning_rate': 2.347586089762643e-05, 'epoch': 7.1}
 30%|██▉       | 23226/78504 [14:07:53<45:32:52,  2.97s/it] 30%|██▉       | 23227/78504 [14:07:56<42:43:52,  2.78s/it]                                                           {'loss': 0.0697, 'grad_norm': 0.4292900562286377, 'learning_rate': 2.3475436287206488e-05, 'epoch': 7.1}
 30%|██▉       | 23227/78504 [14:07:56<42:43:52,  2.78s/it] 30%|██▉       | 23228/78504 [14:07:58<40:17:34,  2.62s/it]                                                           {'loss': 0.0441, 'grad_norm': 0.2613641619682312, 'learning_rate': 2.3475011676786546e-05, 'epoch': 7.1}
 30%|██▉       | 23228/78504 [14:07:58<40:17:34,  2.62s/it] 30%|██▉       | 23229/78504 [14:08:00<38:50:50,  2.53s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.24398554861545563, 'learning_rate': 2.347458706636661e-05, 'epoch': 7.1}
 30%|██▉       | 23229/78504 [14:08:00<38:50:50,  2.53s/it] 30%|██▉       | 23230/78504 [14:08:02<36:54:38,  2.40s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.20581726729869843, 'learning_rate': 2.3474162455946667e-05, 'epoch': 7.1}
 30%|██▉       | 23230/78504 [14:08:02<36:54:38,  2.40s/it] 30%|██▉       | 23231/78504 [14:08:05<35:52:38,  2.34s/it]                                                           {'loss': 0.0474, 'grad_norm': 0.16307806968688965, 'learning_rate': 2.347373784552673e-05, 'epoch': 7.1}
 30%|██▉       | 23231/78504 [14:08:05<35:52:38,  2.34s/it] 30%|██▉       | 23232/78504 [14:08:07<35:05:06,  2.29s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.27937138080596924, 'learning_rate': 2.3473313235106788e-05, 'epoch': 7.1}
 30%|██▉       | 23232/78504 [14:08:07<35:05:06,  2.29s/it] 30%|██▉       | 23233/78504 [14:08:09<33:05:08,  2.15s/it]                                                           {'loss': 0.0823, 'grad_norm': 0.4660007357597351, 'learning_rate': 2.347288862468685e-05, 'epoch': 7.1}
 30%|██▉       | 23233/78504 [14:08:09<33:05:08,  2.15s/it] 30%|██▉       | 23234/78504 [14:08:11<32:16:41,  2.10s/it]                                                           {'loss': 0.0932, 'grad_norm': 0.8654910326004028, 'learning_rate': 2.347246401426691e-05, 'epoch': 7.1}
 30%|██▉       | 23234/78504 [14:08:11<32:16:41,  2.10s/it] 30%|██▉       | 23235/78504 [14:08:12<31:26:32,  2.05s/it]                                                           {'loss': 0.0892, 'grad_norm': 0.3001592457294464, 'learning_rate': 2.347203940384697e-05, 'epoch': 7.1}
 30%|██▉       | 23235/78504 [14:08:13<31:26:32,  2.05s/it] 30%|██▉       | 23236/78504 [14:08:14<30:40:00,  2.00s/it]                                                           {'loss': 0.1116, 'grad_norm': 0.41176676750183105, 'learning_rate': 2.347161479342703e-05, 'epoch': 7.1}
 30%|██▉       | 23236/78504 [14:08:14<30:40:00,  2.00s/it] 30%|██▉       | 23237/78504 [14:08:16<29:35:00,  1.93s/it]                                                           {'loss': 0.1053, 'grad_norm': 0.5350258946418762, 'learning_rate': 2.3471190183007092e-05, 'epoch': 7.1}
 30%|██▉       | 23237/78504 [14:08:16<29:35:00,  1.93s/it] 30%|██▉       | 23238/78504 [14:08:18<27:58:12,  1.82s/it]                                                           {'loss': 0.1256, 'grad_norm': 0.6013351082801819, 'learning_rate': 2.347076557258715e-05, 'epoch': 7.1}
 30%|██▉       | 23238/78504 [14:08:18<27:58:12,  1.82s/it] 30%|██▉       | 23239/78504 [14:08:19<26:39:38,  1.74s/it]                                                           {'loss': 0.1503, 'grad_norm': 0.5061735510826111, 'learning_rate': 2.3470340962167212e-05, 'epoch': 7.1}
 30%|██▉       | 23239/78504 [14:08:19<26:39:38,  1.74s/it] 30%|██▉       | 23240/78504 [14:08:21<25:24:25,  1.66s/it]                                                           {'loss': 0.1612, 'grad_norm': 1.0558717250823975, 'learning_rate': 2.346991635174727e-05, 'epoch': 7.1}
 30%|██▉       | 23240/78504 [14:08:21<25:24:25,  1.66s/it] 30%|██▉       | 23241/78504 [14:08:22<24:19:49,  1.58s/it]                                                           {'loss': 0.1555, 'grad_norm': 0.7931846976280212, 'learning_rate': 2.346949174132733e-05, 'epoch': 7.11}
 30%|██▉       | 23241/78504 [14:08:22<24:19:49,  1.58s/it] 30%|██▉       | 23242/78504 [14:08:23<22:58:13,  1.50s/it]                                                           {'loss': 0.1641, 'grad_norm': 1.6443175077438354, 'learning_rate': 2.3469067130907392e-05, 'epoch': 7.11}
 30%|██▉       | 23242/78504 [14:08:23<22:58:13,  1.50s/it] 30%|██▉       | 23243/78504 [14:08:25<21:21:50,  1.39s/it]                                                           {'loss': 0.1922, 'grad_norm': 0.783971905708313, 'learning_rate': 2.346864252048745e-05, 'epoch': 7.11}
 30%|██▉       | 23243/78504 [14:08:25<21:21:50,  1.39s/it] 30%|██▉       | 23244/78504 [14:08:26<19:56:54,  1.30s/it]                                                           {'loss': 0.1511, 'grad_norm': 1.5486844778060913, 'learning_rate': 2.3468217910067513e-05, 'epoch': 7.11}
 30%|██▉       | 23244/78504 [14:08:26<19:56:54,  1.30s/it] 30%|██▉       | 23245/78504 [14:08:27<18:49:05,  1.23s/it]                                                           {'loss': 0.1617, 'grad_norm': 1.071707010269165, 'learning_rate': 2.346779329964757e-05, 'epoch': 7.11}
 30%|██▉       | 23245/78504 [14:08:27<18:49:05,  1.23s/it] 30%|██▉       | 23246/78504 [14:08:28<17:25:55,  1.14s/it]                                                           {'loss': 0.1651, 'grad_norm': 0.7558953166007996, 'learning_rate': 2.3467368689227634e-05, 'epoch': 7.11}
 30%|██▉       | 23246/78504 [14:08:28<17:25:55,  1.14s/it] 30%|██▉       | 23247/78504 [14:08:28<15:58:09,  1.04s/it]                                                           {'loss': 0.2014, 'grad_norm': 2.0210189819335938, 'learning_rate': 2.3466944078807692e-05, 'epoch': 7.11}
 30%|██▉       | 23247/78504 [14:08:28<15:58:09,  1.04s/it] 30%|██▉       | 23248/78504 [14:08:37<49:56:26,  3.25s/it]                                                           {'loss': 0.134, 'grad_norm': 0.24796245992183685, 'learning_rate': 2.3466519468387754e-05, 'epoch': 7.11}
 30%|██▉       | 23248/78504 [14:08:37<49:56:26,  3.25s/it] 30%|██▉       | 23249/78504 [14:08:40<49:18:23,  3.21s/it]                                                           {'loss': 0.0567, 'grad_norm': 0.26347917318344116, 'learning_rate': 2.3466094857967813e-05, 'epoch': 7.11}
 30%|██▉       | 23249/78504 [14:08:40<49:18:23,  3.21s/it] 30%|██▉       | 23250/78504 [14:08:43<46:17:37,  3.02s/it]                                                           {'loss': 0.0467, 'grad_norm': 0.18501833081245422, 'learning_rate': 2.346567024754788e-05, 'epoch': 7.11}
 30%|██▉       | 23250/78504 [14:08:43<46:17:37,  3.02s/it] 30%|██▉       | 23251/78504 [14:08:45<44:14:40,  2.88s/it]                                                           {'loss': 0.0595, 'grad_norm': 2.914743661880493, 'learning_rate': 2.3465245637127937e-05, 'epoch': 7.11}
 30%|██▉       | 23251/78504 [14:08:45<44:14:40,  2.88s/it] 30%|██▉       | 23252/78504 [14:08:48<42:24:26,  2.76s/it]                                                           {'loss': 0.0411, 'grad_norm': 0.3124062716960907, 'learning_rate': 2.3464821026708e-05, 'epoch': 7.11}
 30%|██▉       | 23252/78504 [14:08:48<42:24:26,  2.76s/it] 30%|██▉       | 23253/78504 [14:08:50<40:57:41,  2.67s/it]                                                           {'loss': 0.0635, 'grad_norm': 0.15845079720020294, 'learning_rate': 2.3464396416288058e-05, 'epoch': 7.11}
 30%|██▉       | 23253/78504 [14:08:50<40:57:41,  2.67s/it] 30%|██▉       | 23254/78504 [14:08:52<39:18:46,  2.56s/it]                                                           {'loss': 0.0284, 'grad_norm': 0.23818059265613556, 'learning_rate': 2.3463971805868117e-05, 'epoch': 7.11}
 30%|██▉       | 23254/78504 [14:08:52<39:18:46,  2.56s/it] 30%|██▉       | 23255/78504 [14:08:55<38:07:46,  2.48s/it]                                                           {'loss': 0.0694, 'grad_norm': 0.3222566246986389, 'learning_rate': 2.346354719544818e-05, 'epoch': 7.11}
 30%|██▉       | 23255/78504 [14:08:55<38:07:46,  2.48s/it] 30%|██▉       | 23256/78504 [14:08:57<36:45:48,  2.40s/it]                                                           {'loss': 0.0761, 'grad_norm': 0.301583856344223, 'learning_rate': 2.3463122585028237e-05, 'epoch': 7.11}
 30%|██▉       | 23256/78504 [14:08:57<36:45:48,  2.40s/it] 30%|██▉       | 23257/78504 [14:08:59<35:41:17,  2.33s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.6367588639259338, 'learning_rate': 2.34626979746083e-05, 'epoch': 7.11}
 30%|██▉       | 23257/78504 [14:08:59<35:41:17,  2.33s/it] 30%|██▉       | 23258/78504 [14:09:01<33:31:23,  2.18s/it]                                                           {'loss': 0.1026, 'grad_norm': 0.9397388696670532, 'learning_rate': 2.3462273364188358e-05, 'epoch': 7.11}
 30%|██▉       | 23258/78504 [14:09:01<33:31:23,  2.18s/it] 30%|██▉       | 23259/78504 [14:09:03<32:35:35,  2.12s/it]                                                           {'loss': 0.0693, 'grad_norm': 0.29180431365966797, 'learning_rate': 2.346184875376842e-05, 'epoch': 7.11}
 30%|██▉       | 23259/78504 [14:09:03<32:35:35,  2.12s/it] 30%|██▉       | 23260/78504 [14:09:05<31:42:36,  2.07s/it]                                                           {'loss': 0.0791, 'grad_norm': 0.5141578316688538, 'learning_rate': 2.346142414334848e-05, 'epoch': 7.11}
 30%|██▉       | 23260/78504 [14:09:05<31:42:36,  2.07s/it] 30%|██▉       | 23261/78504 [14:09:07<30:54:32,  2.01s/it]                                                           {'loss': 0.103, 'grad_norm': 0.5688697695732117, 'learning_rate': 2.346099953292854e-05, 'epoch': 7.11}
 30%|██▉       | 23261/78504 [14:09:07<30:54:32,  2.01s/it] 30%|██▉       | 23262/78504 [14:09:08<29:45:19,  1.94s/it]                                                           {'loss': 0.1252, 'grad_norm': 1.7278022766113281, 'learning_rate': 2.34605749225086e-05, 'epoch': 7.11}
 30%|██▉       | 23262/78504 [14:09:08<29:45:19,  1.94s/it] 30%|██▉       | 23263/78504 [14:09:10<28:07:30,  1.83s/it]                                                           {'loss': 0.158, 'grad_norm': 0.8525035381317139, 'learning_rate': 2.3460150312088662e-05, 'epoch': 7.11}
 30%|██▉       | 23263/78504 [14:09:10<28:07:30,  1.83s/it] 30%|██▉       | 23264/78504 [14:09:12<26:47:46,  1.75s/it]                                                           {'loss': 0.1401, 'grad_norm': 0.4219549000263214, 'learning_rate': 2.345972570166872e-05, 'epoch': 7.11}
 30%|██▉       | 23264/78504 [14:09:12<26:47:46,  1.75s/it] 30%|██▉       | 23265/78504 [14:09:13<25:31:27,  1.66s/it]                                                           {'loss': 0.1819, 'grad_norm': 0.3462356626987457, 'learning_rate': 2.345930109124878e-05, 'epoch': 7.11}
 30%|██▉       | 23265/78504 [14:09:13<25:31:27,  1.66s/it] 30%|██▉       | 23266/78504 [14:09:14<24:18:28,  1.58s/it]                                                           {'loss': 0.1363, 'grad_norm': 0.6716098785400391, 'learning_rate': 2.345887648082884e-05, 'epoch': 7.11}
 30%|██▉       | 23266/78504 [14:09:14<24:18:28,  1.58s/it] 30%|██▉       | 23267/78504 [14:09:16<22:56:38,  1.50s/it]                                                           {'loss': 0.1466, 'grad_norm': 0.534412145614624, 'learning_rate': 2.34584518704089e-05, 'epoch': 7.11}
 30%|██▉       | 23267/78504 [14:09:16<22:56:38,  1.50s/it] 30%|██▉       | 23268/78504 [14:09:17<21:18:56,  1.39s/it]                                                           {'loss': 0.1822, 'grad_norm': 0.850408673286438, 'learning_rate': 2.3458027259988962e-05, 'epoch': 7.11}
 30%|██▉       | 23268/78504 [14:09:17<21:18:56,  1.39s/it] 30%|██▉       | 23269/78504 [14:09:18<19:59:03,  1.30s/it]                                                           {'loss': 0.1502, 'grad_norm': 0.6433576345443726, 'learning_rate': 2.345760264956902e-05, 'epoch': 7.11}
 30%|██▉       | 23269/78504 [14:09:18<19:59:03,  1.30s/it] 30%|██▉       | 23270/78504 [14:09:19<18:34:42,  1.21s/it]                                                           {'loss': 0.1807, 'grad_norm': 1.306827425956726, 'learning_rate': 2.3457178039149083e-05, 'epoch': 7.11}
 30%|██▉       | 23270/78504 [14:09:19<18:34:42,  1.21s/it] 30%|██▉       | 23271/78504 [14:09:20<17:20:54,  1.13s/it]                                                           {'loss': 0.1954, 'grad_norm': 0.8719184398651123, 'learning_rate': 2.3456753428729142e-05, 'epoch': 7.11}
 30%|██▉       | 23271/78504 [14:09:20<17:20:54,  1.13s/it] 30%|██▉       | 23272/78504 [14:09:21<15:42:50,  1.02s/it]                                                           {'loss': 0.1771, 'grad_norm': 1.2249009609222412, 'learning_rate': 2.3456328818309204e-05, 'epoch': 7.11}
 30%|██▉       | 23272/78504 [14:09:21<15:42:50,  1.02s/it] 30%|██▉       | 23273/78504 [14:09:30<51:53:39,  3.38s/it]                                                           {'loss': 0.1331, 'grad_norm': 0.32961422204971313, 'learning_rate': 2.3455904207889262e-05, 'epoch': 7.11}
 30%|██▉       | 23273/78504 [14:09:30<51:53:39,  3.38s/it] 30%|██▉       | 23274/78504 [14:09:32<49:39:31,  3.24s/it]                                                           {'loss': 0.09, 'grad_norm': 0.46041417121887207, 'learning_rate': 2.3455479597469325e-05, 'epoch': 7.12}
 30%|██▉       | 23274/78504 [14:09:32<49:39:31,  3.24s/it] 30%|██▉       | 23275/78504 [14:09:35<46:35:03,  3.04s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.19633100926876068, 'learning_rate': 2.3455054987049383e-05, 'epoch': 7.12}
 30%|██▉       | 23275/78504 [14:09:35<46:35:03,  3.04s/it] 30%|██▉       | 23276/78504 [14:09:38<44:36:07,  2.91s/it]                                                           {'loss': 0.0403, 'grad_norm': 0.19990794360637665, 'learning_rate': 2.3454630376629445e-05, 'epoch': 7.12}
 30%|██▉       | 23276/78504 [14:09:38<44:36:07,  2.91s/it] 30%|██▉       | 23277/78504 [14:09:40<42:35:13,  2.78s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.2706088423728943, 'learning_rate': 2.3454205766209504e-05, 'epoch': 7.12}
 30%|██▉       | 23277/78504 [14:09:40<42:35:13,  2.78s/it] 30%|██▉       | 23278/78504 [14:09:42<40:13:25,  2.62s/it]                                                           {'loss': 0.0481, 'grad_norm': 0.4874607026576996, 'learning_rate': 2.3453781155789563e-05, 'epoch': 7.12}
 30%|██▉       | 23278/78504 [14:09:42<40:13:25,  2.62s/it] 30%|██▉       | 23279/78504 [14:09:45<38:47:54,  2.53s/it]                                                           {'loss': 0.0443, 'grad_norm': 0.15299417078495026, 'learning_rate': 2.3453356545369625e-05, 'epoch': 7.12}
 30%|██▉       | 23279/78504 [14:09:45<38:47:54,  2.53s/it] 30%|██▉       | 23280/78504 [14:09:47<36:46:34,  2.40s/it]                                                           {'loss': 0.054, 'grad_norm': 0.5438836812973022, 'learning_rate': 2.3452931934949684e-05, 'epoch': 7.12}
 30%|██▉       | 23280/78504 [14:09:47<36:46:34,  2.40s/it] 30%|██▉       | 23281/78504 [14:09:49<35:46:02,  2.33s/it]                                                           {'loss': 0.0714, 'grad_norm': 0.25566768646240234, 'learning_rate': 2.3452507324529746e-05, 'epoch': 7.12}
 30%|██▉       | 23281/78504 [14:09:49<35:46:02,  2.33s/it] 30%|██▉       | 23282/78504 [14:09:51<34:54:19,  2.28s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.6724231243133545, 'learning_rate': 2.3452082714109804e-05, 'epoch': 7.12}
 30%|██▉       | 23282/78504 [14:09:51<34:54:19,  2.28s/it] 30%|██▉       | 23283/78504 [14:09:53<33:43:18,  2.20s/it]                                                           {'loss': 0.081, 'grad_norm': 0.27029168605804443, 'learning_rate': 2.3451658103689866e-05, 'epoch': 7.12}
 30%|██▉       | 23283/78504 [14:09:53<33:43:18,  2.20s/it] 30%|██▉       | 23284/78504 [14:09:55<32:41:51,  2.13s/it]                                                           {'loss': 0.0663, 'grad_norm': 0.5579847097396851, 'learning_rate': 2.3451233493269925e-05, 'epoch': 7.12}
 30%|██▉       | 23284/78504 [14:09:55<32:41:51,  2.13s/it] 30%|██▉       | 23285/78504 [14:09:57<31:27:02,  2.05s/it]                                                           {'loss': 0.0779, 'grad_norm': 0.3169487416744232, 'learning_rate': 2.3450808882849987e-05, 'epoch': 7.12}
 30%|██▉       | 23285/78504 [14:09:57<31:27:02,  2.05s/it] 30%|██▉       | 23286/78504 [14:09:59<30:29:04,  1.99s/it]                                                           {'loss': 0.0964, 'grad_norm': 0.301389217376709, 'learning_rate': 2.3450384272430046e-05, 'epoch': 7.12}
 30%|██▉       | 23286/78504 [14:09:59<30:29:04,  1.99s/it] 30%|██▉       | 23287/78504 [14:10:00<29:00:07,  1.89s/it]                                                           {'loss': 0.1303, 'grad_norm': 0.5158193111419678, 'learning_rate': 2.3449959662010108e-05, 'epoch': 7.12}
 30%|██▉       | 23287/78504 [14:10:00<29:00:07,  1.89s/it] 30%|██▉       | 23288/78504 [14:10:02<27:51:44,  1.82s/it]                                                           {'loss': 0.1622, 'grad_norm': 1.035073161125183, 'learning_rate': 2.3449535051590167e-05, 'epoch': 7.12}
 30%|██▉       | 23288/78504 [14:10:02<27:51:44,  1.82s/it] 30%|██▉       | 23289/78504 [14:10:04<26:31:56,  1.73s/it]                                                           {'loss': 0.1392, 'grad_norm': 0.5991262197494507, 'learning_rate': 2.344911044117023e-05, 'epoch': 7.12}
 30%|██▉       | 23289/78504 [14:10:04<26:31:56,  1.73s/it] 30%|██▉       | 23290/78504 [14:10:05<25:08:03,  1.64s/it]                                                           {'loss': 0.1511, 'grad_norm': 0.5372682809829712, 'learning_rate': 2.3448685830750287e-05, 'epoch': 7.12}
 30%|██▉       | 23290/78504 [14:10:05<25:08:03,  1.64s/it] 30%|██▉       | 23291/78504 [14:10:06<24:05:31,  1.57s/it]                                                           {'loss': 0.1362, 'grad_norm': 0.5702025294303894, 'learning_rate': 2.3448261220330346e-05, 'epoch': 7.12}
 30%|██▉       | 23291/78504 [14:10:07<24:05:31,  1.57s/it] 30%|██▉       | 23292/78504 [14:10:08<22:29:02,  1.47s/it]                                                           {'loss': 0.1676, 'grad_norm': 0.6494907736778259, 'learning_rate': 2.3447836609910408e-05, 'epoch': 7.12}
 30%|██▉       | 23292/78504 [14:10:08<22:29:02,  1.47s/it] 30%|██▉       | 23293/78504 [14:10:09<20:56:13,  1.37s/it]                                                           {'loss': 0.1786, 'grad_norm': 0.528054416179657, 'learning_rate': 2.3447411999490467e-05, 'epoch': 7.12}
 30%|██▉       | 23293/78504 [14:10:09<20:56:13,  1.37s/it] 30%|██▉       | 23294/78504 [14:10:10<19:39:33,  1.28s/it]                                                           {'loss': 0.1792, 'grad_norm': 0.9698000550270081, 'learning_rate': 2.344698738907053e-05, 'epoch': 7.12}
 30%|██▉       | 23294/78504 [14:10:10<19:39:33,  1.28s/it] 30%|██▉       | 23295/78504 [14:10:11<18:21:15,  1.20s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.964857816696167, 'learning_rate': 2.3446562778650588e-05, 'epoch': 7.12}
 30%|██▉       | 23295/78504 [14:10:11<18:21:15,  1.20s/it] 30%|██▉       | 23296/78504 [14:10:12<17:08:33,  1.12s/it]                                                           {'loss': 0.1786, 'grad_norm': 0.6978760361671448, 'learning_rate': 2.344613816823065e-05, 'epoch': 7.12}
 30%|██▉       | 23296/78504 [14:10:12<17:08:33,  1.12s/it] 30%|██▉       | 23297/78504 [14:10:13<15:37:00,  1.02s/it]                                                           {'loss': 0.2084, 'grad_norm': 1.5525306463241577, 'learning_rate': 2.344571355781071e-05, 'epoch': 7.12}
 30%|██▉       | 23297/78504 [14:10:13<15:37:00,  1.02s/it] 30%|██▉       | 23298/78504 [14:10:21<50:13:24,  3.28s/it]                                                           {'loss': 0.1491, 'grad_norm': 0.401061087846756, 'learning_rate': 2.344528894739077e-05, 'epoch': 7.12}
 30%|██▉       | 23298/78504 [14:10:21<50:13:24,  3.28s/it] 30%|██▉       | 23299/78504 [14:10:25<50:33:26,  3.30s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.32206660509109497, 'learning_rate': 2.344486433697083e-05, 'epoch': 7.12}
 30%|██▉       | 23299/78504 [14:10:25<50:33:26,  3.30s/it] 30%|██▉       | 23300/78504 [14:10:27<48:48:22,  3.18s/it]                                                           {'loss': 0.0599, 'grad_norm': 0.2587725818157196, 'learning_rate': 2.344443972655089e-05, 'epoch': 7.12}
 30%|██▉       | 23300/78504 [14:10:27<48:48:22,  3.18s/it] 30%|██▉       | 23301/78504 [14:10:30<46:01:59,  3.00s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.23485207557678223, 'learning_rate': 2.344401511613095e-05, 'epoch': 7.12}
 30%|██▉       | 23301/78504 [14:10:30<46:01:59,  3.00s/it] 30%|██▉       | 23302/78504 [14:10:33<43:39:50,  2.85s/it]                                                           {'loss': 0.0458, 'grad_norm': 0.2931899428367615, 'learning_rate': 2.3443590505711012e-05, 'epoch': 7.12}
 30%|██▉       | 23302/78504 [14:10:33<43:39:50,  2.85s/it] 30%|██▉       | 23303/78504 [14:10:35<41:43:55,  2.72s/it]                                                           {'loss': 0.039, 'grad_norm': 0.15703964233398438, 'learning_rate': 2.344316589529107e-05, 'epoch': 7.12}
 30%|██▉       | 23303/78504 [14:10:35<41:43:55,  2.72s/it] 30%|██▉       | 23304/78504 [14:10:37<39:50:13,  2.60s/it]                                                           {'loss': 0.0444, 'grad_norm': 0.4481066167354584, 'learning_rate': 2.344274128487113e-05, 'epoch': 7.12}
 30%|██▉       | 23304/78504 [14:10:37<39:50:13,  2.60s/it] 30%|██▉       | 23305/78504 [14:10:39<37:36:03,  2.45s/it]                                                           {'loss': 0.046, 'grad_norm': 0.35288771986961365, 'learning_rate': 2.3442316674451192e-05, 'epoch': 7.12}
 30%|██▉       | 23305/78504 [14:10:39<37:36:03,  2.45s/it] 30%|██▉       | 23306/78504 [14:10:42<36:21:59,  2.37s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.389151394367218, 'learning_rate': 2.344189206403125e-05, 'epoch': 7.13}
 30%|██▉       | 23306/78504 [14:10:42<36:21:59,  2.37s/it] 30%|██▉       | 23307/78504 [14:10:44<35:17:04,  2.30s/it]                                                           {'loss': 0.0778, 'grad_norm': 0.4071882963180542, 'learning_rate': 2.3441467453611313e-05, 'epoch': 7.13}
 30%|██▉       | 23307/78504 [14:10:44<35:17:04,  2.30s/it] 30%|██▉       | 23308/78504 [14:10:46<34:00:43,  2.22s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.38952168822288513, 'learning_rate': 2.344104284319137e-05, 'epoch': 7.13}
 30%|██▉       | 23308/78504 [14:10:46<34:00:43,  2.22s/it] 30%|██▉       | 23309/78504 [14:10:48<32:55:30,  2.15s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.3217843770980835, 'learning_rate': 2.3440618232771433e-05, 'epoch': 7.13}
 30%|██▉       | 23309/78504 [14:10:48<32:55:30,  2.15s/it] 30%|██▉       | 23310/78504 [14:10:50<31:35:55,  2.06s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.1982223093509674, 'learning_rate': 2.3440193622351492e-05, 'epoch': 7.13}
 30%|██▉       | 23310/78504 [14:10:50<31:35:55,  2.06s/it] 30%|██▉       | 23311/78504 [14:10:51<30:37:06,  2.00s/it]                                                           {'loss': 0.1238, 'grad_norm': 4.542474746704102, 'learning_rate': 2.3439769011931554e-05, 'epoch': 7.13}
 30%|██▉       | 23311/78504 [14:10:51<30:37:06,  2.00s/it] 30%|██▉       | 23312/78504 [14:10:53<29:34:48,  1.93s/it]                                                           {'loss': 0.1124, 'grad_norm': 0.3470214307308197, 'learning_rate': 2.3439344401511613e-05, 'epoch': 7.13}
 30%|██▉       | 23312/78504 [14:10:53<29:34:48,  1.93s/it] 30%|██▉       | 23313/78504 [14:10:55<28:16:24,  1.84s/it]                                                           {'loss': 0.1378, 'grad_norm': 1.007779598236084, 'learning_rate': 2.3438919791091675e-05, 'epoch': 7.13}
 30%|██▉       | 23313/78504 [14:10:55<28:16:24,  1.84s/it] 30%|██▉       | 23314/78504 [14:10:56<26:53:24,  1.75s/it]                                                           {'loss': 0.1789, 'grad_norm': 0.8054673671722412, 'learning_rate': 2.3438495180671734e-05, 'epoch': 7.13}
 30%|██▉       | 23314/78504 [14:10:56<26:53:24,  1.75s/it] 30%|██▉       | 23315/78504 [14:10:58<25:47:27,  1.68s/it]                                                           {'loss': 0.1343, 'grad_norm': 0.42368441820144653, 'learning_rate': 2.3438070570251796e-05, 'epoch': 7.13}
 30%|██▉       | 23315/78504 [14:10:58<25:47:27,  1.68s/it] 30%|██▉       | 23316/78504 [14:10:59<24:28:58,  1.60s/it]                                                           {'loss': 0.1423, 'grad_norm': 0.6591746211051941, 'learning_rate': 2.3437645959831854e-05, 'epoch': 7.13}
 30%|██▉       | 23316/78504 [14:10:59<24:28:58,  1.60s/it] 30%|██▉       | 23317/78504 [14:11:01<23:00:51,  1.50s/it]                                                           {'loss': 0.1482, 'grad_norm': 1.4755971431732178, 'learning_rate': 2.3437221349411913e-05, 'epoch': 7.13}
 30%|██▉       | 23317/78504 [14:11:01<23:00:51,  1.50s/it] 30%|██▉       | 23318/78504 [14:11:02<21:25:24,  1.40s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.6436469554901123, 'learning_rate': 2.3436796738991975e-05, 'epoch': 7.13}
 30%|██▉       | 23318/78504 [14:11:02<21:25:24,  1.40s/it] 30%|██▉       | 23319/78504 [14:11:03<20:00:36,  1.31s/it]                                                           {'loss': 0.1666, 'grad_norm': 2.196922540664673, 'learning_rate': 2.3436372128572034e-05, 'epoch': 7.13}
 30%|██▉       | 23319/78504 [14:11:03<20:00:36,  1.31s/it] 30%|██▉       | 23320/78504 [14:11:04<18:50:04,  1.23s/it]                                                           {'loss': 0.1839, 'grad_norm': 0.8222170472145081, 'learning_rate': 2.3435947518152096e-05, 'epoch': 7.13}
 30%|██▉       | 23320/78504 [14:11:04<18:50:04,  1.23s/it] 30%|██▉       | 23321/78504 [14:11:05<17:29:02,  1.14s/it]                                                           {'loss': 0.1935, 'grad_norm': 0.5456311106681824, 'learning_rate': 2.3435522907732155e-05, 'epoch': 7.13}
 30%|██▉       | 23321/78504 [14:11:05<17:29:02,  1.14s/it] 30%|██▉       | 23322/78504 [14:11:06<15:48:44,  1.03s/it]                                                           {'loss': 0.2116, 'grad_norm': 2.4205269813537598, 'learning_rate': 2.3435098297312217e-05, 'epoch': 7.13}
 30%|██▉       | 23322/78504 [14:11:06<15:48:44,  1.03s/it] 30%|██▉       | 23323/78504 [14:11:14<48:29:28,  3.16s/it]                                                           {'loss': 0.1458, 'grad_norm': 0.5035847425460815, 'learning_rate': 2.3434673686892275e-05, 'epoch': 7.13}
 30%|██▉       | 23323/78504 [14:11:14<48:29:28,  3.16s/it] 30%|██▉       | 23324/78504 [14:11:17<48:56:06,  3.19s/it]                                                           {'loss': 0.0604, 'grad_norm': 0.23885196447372437, 'learning_rate': 2.3434249076472338e-05, 'epoch': 7.13}
 30%|██▉       | 23324/78504 [14:11:17<48:56:06,  3.19s/it] 30%|██▉       | 23325/78504 [14:11:20<47:57:08,  3.13s/it]                                                           {'loss': 0.07, 'grad_norm': 0.3970066010951996, 'learning_rate': 2.3433824466052396e-05, 'epoch': 7.13}
 30%|██▉       | 23325/78504 [14:11:20<47:57:08,  3.13s/it] 30%|██▉       | 23326/78504 [14:11:23<45:28:17,  2.97s/it]                                                           {'loss': 0.047, 'grad_norm': 0.2151309847831726, 'learning_rate': 2.3433399855632458e-05, 'epoch': 7.13}
 30%|██▉       | 23326/78504 [14:11:23<45:28:17,  2.97s/it] 30%|██▉       | 23327/78504 [14:11:25<43:10:38,  2.82s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.27758437395095825, 'learning_rate': 2.3432975245212517e-05, 'epoch': 7.13}
 30%|██▉       | 23327/78504 [14:11:25<43:10:38,  2.82s/it] 30%|██▉       | 23328/78504 [14:11:27<40:36:50,  2.65s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.26287642121315, 'learning_rate': 2.343255063479258e-05, 'epoch': 7.13}
 30%|██▉       | 23328/78504 [14:11:27<40:36:50,  2.65s/it] 30%|██▉       | 23329/78504 [14:11:30<39:04:58,  2.55s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.8775317072868347, 'learning_rate': 2.3432126024372638e-05, 'epoch': 7.13}
 30%|██▉       | 23329/78504 [14:11:30<39:04:58,  2.55s/it] 30%|██▉       | 23330/78504 [14:11:32<37:03:59,  2.42s/it]                                                           {'loss': 0.04, 'grad_norm': 0.16924011707305908, 'learning_rate': 2.3431701413952696e-05, 'epoch': 7.13}
 30%|██▉       | 23330/78504 [14:11:32<37:03:59,  2.42s/it] 30%|██▉       | 23331/78504 [14:11:34<35:16:22,  2.30s/it]                                                           {'loss': 0.088, 'grad_norm': 0.45852023363113403, 'learning_rate': 2.343127680353276e-05, 'epoch': 7.13}
 30%|██▉       | 23331/78504 [14:11:34<35:16:22,  2.30s/it] 30%|██▉       | 23332/78504 [14:11:36<34:31:45,  2.25s/it]                                                           {'loss': 0.0568, 'grad_norm': 0.4707750082015991, 'learning_rate': 2.3430852193112817e-05, 'epoch': 7.13}
 30%|██▉       | 23332/78504 [14:11:36<34:31:45,  2.25s/it] 30%|██▉       | 23333/78504 [14:11:38<33:26:57,  2.18s/it]                                                           {'loss': 0.0701, 'grad_norm': 0.5994769930839539, 'learning_rate': 2.343042758269288e-05, 'epoch': 7.13}
 30%|██▉       | 23333/78504 [14:11:38<33:26:57,  2.18s/it] 30%|██▉       | 23334/78504 [14:11:40<32:30:14,  2.12s/it]                                                           {'loss': 0.0697, 'grad_norm': 0.5505498647689819, 'learning_rate': 2.3430002972272938e-05, 'epoch': 7.13}
 30%|██▉       | 23334/78504 [14:11:40<32:30:14,  2.12s/it] 30%|██▉       | 23335/78504 [14:11:42<31:20:27,  2.05s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.4228430390357971, 'learning_rate': 2.3429578361853e-05, 'epoch': 7.13}
 30%|██▉       | 23335/78504 [14:11:42<31:20:27,  2.05s/it] 30%|██▉       | 23336/78504 [14:11:44<30:29:39,  1.99s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.7700561285018921, 'learning_rate': 2.342915375143306e-05, 'epoch': 7.13}
 30%|██▉       | 23336/78504 [14:11:44<30:29:39,  1.99s/it] 30%|██▉       | 23337/78504 [14:11:45<29:30:05,  1.93s/it]                                                           {'loss': 0.0906, 'grad_norm': 0.4580347537994385, 'learning_rate': 2.342872914101312e-05, 'epoch': 7.13}
 30%|██▉       | 23337/78504 [14:11:45<29:30:05,  1.93s/it] 30%|██▉       | 23338/78504 [14:11:47<28:15:14,  1.84s/it]                                                           {'loss': 0.1819, 'grad_norm': 1.4098620414733887, 'learning_rate': 2.342830453059318e-05, 'epoch': 7.13}
 30%|██▉       | 23338/78504 [14:11:47<28:15:14,  1.84s/it] 30%|██▉       | 23339/78504 [14:11:49<26:52:15,  1.75s/it]                                                           {'loss': 0.139, 'grad_norm': 0.7304680943489075, 'learning_rate': 2.3427879920173242e-05, 'epoch': 7.14}
 30%|██▉       | 23339/78504 [14:11:49<26:52:15,  1.75s/it] 30%|██▉       | 23340/78504 [14:11:50<25:31:50,  1.67s/it]                                                           {'loss': 0.1334, 'grad_norm': 0.593011736869812, 'learning_rate': 2.34274553097533e-05, 'epoch': 7.14}
 30%|██▉       | 23340/78504 [14:11:50<25:31:50,  1.67s/it] 30%|██▉       | 23341/78504 [14:11:51<24:15:52,  1.58s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.6764066815376282, 'learning_rate': 2.3427030699333363e-05, 'epoch': 7.14}
 30%|██▉       | 23341/78504 [14:11:51<24:15:52,  1.58s/it] 30%|██▉       | 23342/78504 [14:11:53<22:53:15,  1.49s/it]                                                           {'loss': 0.158, 'grad_norm': 0.696047842502594, 'learning_rate': 2.342660608891342e-05, 'epoch': 7.14}
 30%|██▉       | 23342/78504 [14:11:53<22:53:15,  1.49s/it] 30%|██▉       | 23343/78504 [14:11:54<21:18:13,  1.39s/it]                                                           {'loss': 0.1414, 'grad_norm': 0.8870816826820374, 'learning_rate': 2.342618147849348e-05, 'epoch': 7.14}
 30%|██▉       | 23343/78504 [14:11:54<21:18:13,  1.39s/it] 30%|██▉       | 23344/78504 [14:11:55<19:56:13,  1.30s/it]                                                           {'loss': 0.1779, 'grad_norm': 1.2082443237304688, 'learning_rate': 2.3425756868073542e-05, 'epoch': 7.14}
 30%|██▉       | 23344/78504 [14:11:55<19:56:13,  1.30s/it] 30%|██▉       | 23345/78504 [14:11:56<18:46:59,  1.23s/it]                                                           {'loss': 0.1696, 'grad_norm': 1.5463789701461792, 'learning_rate': 2.34253322576536e-05, 'epoch': 7.14}
 30%|██▉       | 23345/78504 [14:11:56<18:46:59,  1.23s/it] 30%|██▉       | 23346/78504 [14:11:57<17:29:34,  1.14s/it]                                                           {'loss': 0.1878, 'grad_norm': 1.6664338111877441, 'learning_rate': 2.3424907647233663e-05, 'epoch': 7.14}
 30%|██▉       | 23346/78504 [14:11:57<17:29:34,  1.14s/it] 30%|██▉       | 23347/78504 [14:11:58<15:50:46,  1.03s/it]                                                           {'loss': 0.2259, 'grad_norm': 1.1175576448440552, 'learning_rate': 2.342448303681372e-05, 'epoch': 7.14}
 30%|██▉       | 23347/78504 [14:11:58<15:50:46,  1.03s/it] 30%|██▉       | 23348/78504 [14:12:06<47:33:21,  3.10s/it]                                                           {'loss': 0.1311, 'grad_norm': 0.8715552687644958, 'learning_rate': 2.3424058426393784e-05, 'epoch': 7.14}
 30%|██▉       | 23348/78504 [14:12:06<47:33:21,  3.10s/it] 30%|██▉       | 23349/78504 [14:12:09<48:45:10,  3.18s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.32900434732437134, 'learning_rate': 2.3423633815973842e-05, 'epoch': 7.14}
 30%|██▉       | 23349/78504 [14:12:09<48:45:10,  3.18s/it] 30%|██▉       | 23350/78504 [14:12:12<47:47:50,  3.12s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.5015802979469299, 'learning_rate': 2.3423209205553904e-05, 'epoch': 7.14}
 30%|██▉       | 23350/78504 [14:12:12<47:47:50,  3.12s/it] 30%|██▉       | 23351/78504 [14:12:15<45:28:28,  2.97s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.5751197934150696, 'learning_rate': 2.3422784595133963e-05, 'epoch': 7.14}
 30%|██▉       | 23351/78504 [14:12:15<45:28:28,  2.97s/it] 30%|██▉       | 23352/78504 [14:12:17<43:09:16,  2.82s/it]                                                           {'loss': 0.0535, 'grad_norm': 0.26570963859558105, 'learning_rate': 2.3422359984714025e-05, 'epoch': 7.14}
 30%|██▉       | 23352/78504 [14:12:17<43:09:16,  2.82s/it] 30%|██▉       | 23353/78504 [14:12:19<40:37:13,  2.65s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.2834629416465759, 'learning_rate': 2.3421935374294087e-05, 'epoch': 7.14}
 30%|██▉       | 23353/78504 [14:12:19<40:37:13,  2.65s/it] 30%|██▉       | 23354/78504 [14:12:22<39:03:37,  2.55s/it]                                                           {'loss': 0.0775, 'grad_norm': 0.22699296474456787, 'learning_rate': 2.342151076387415e-05, 'epoch': 7.14}
 30%|██▉       | 23354/78504 [14:12:22<39:03:37,  2.55s/it] 30%|██▉       | 23355/78504 [14:12:24<37:02:52,  2.42s/it]                                                           {'loss': 0.0677, 'grad_norm': 0.2192831039428711, 'learning_rate': 2.3421086153454208e-05, 'epoch': 7.14}
 30%|██▉       | 23355/78504 [14:12:24<37:02:52,  2.42s/it] 30%|██▉       | 23356/78504 [14:12:26<35:58:56,  2.35s/it]                                                           {'loss': 0.0643, 'grad_norm': 0.20734979212284088, 'learning_rate': 2.3420661543034267e-05, 'epoch': 7.14}
 30%|██▉       | 23356/78504 [14:12:26<35:58:56,  2.35s/it] 30%|██▉       | 23357/78504 [14:12:28<35:00:21,  2.29s/it]                                                           {'loss': 0.0705, 'grad_norm': 0.21715103089809418, 'learning_rate': 2.342023693261433e-05, 'epoch': 7.14}
 30%|██▉       | 23357/78504 [14:12:28<35:00:21,  2.29s/it] 30%|██▉       | 23358/78504 [14:12:30<33:50:12,  2.21s/it]                                                           {'loss': 0.0763, 'grad_norm': 0.24755936861038208, 'learning_rate': 2.3419812322194388e-05, 'epoch': 7.14}
 30%|██▉       | 23358/78504 [14:12:30<33:50:12,  2.21s/it] 30%|██▉       | 23359/78504 [14:12:32<32:47:23,  2.14s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.48555636405944824, 'learning_rate': 2.341938771177445e-05, 'epoch': 7.14}
 30%|██▉       | 23359/78504 [14:12:32<32:47:23,  2.14s/it] 30%|██▉       | 23360/78504 [14:12:34<31:36:20,  2.06s/it]                                                           {'loss': 0.0874, 'grad_norm': 0.6414110660552979, 'learning_rate': 2.341896310135451e-05, 'epoch': 7.14}
 30%|██▉       | 23360/78504 [14:12:34<31:36:20,  2.06s/it] 30%|██▉       | 23361/78504 [14:12:36<30:44:36,  2.01s/it]                                                           {'loss': 0.129, 'grad_norm': 0.352631539106369, 'learning_rate': 2.341853849093457e-05, 'epoch': 7.14}
 30%|██▉       | 23361/78504 [14:12:36<30:44:36,  2.01s/it] 30%|██▉       | 23362/78504 [14:12:38<29:26:25,  1.92s/it]                                                           {'loss': 0.1003, 'grad_norm': 0.42833444476127625, 'learning_rate': 2.341811388051463e-05, 'epoch': 7.14}
 30%|██▉       | 23362/78504 [14:12:38<29:26:25,  1.92s/it] 30%|██▉       | 23363/78504 [14:12:39<28:10:10,  1.84s/it]                                                           {'loss': 0.1116, 'grad_norm': 0.44595053791999817, 'learning_rate': 2.341768927009469e-05, 'epoch': 7.14}
 30%|██▉       | 23363/78504 [14:12:39<28:10:10,  1.84s/it] 30%|██▉       | 23364/78504 [14:12:41<26:48:03,  1.75s/it]                                                           {'loss': 0.13, 'grad_norm': 0.3936826288700104, 'learning_rate': 2.341726465967475e-05, 'epoch': 7.14}
 30%|██▉       | 23364/78504 [14:12:41<26:48:03,  1.75s/it] 30%|██▉       | 23365/78504 [14:12:42<25:31:00,  1.67s/it]                                                           {'loss': 0.1525, 'grad_norm': 1.44236421585083, 'learning_rate': 2.3416840049254812e-05, 'epoch': 7.14}
 30%|██▉       | 23365/78504 [14:12:42<25:31:00,  1.67s/it] 30%|██▉       | 23366/78504 [14:12:44<24:16:20,  1.58s/it]                                                           {'loss': 0.1352, 'grad_norm': 0.7849860191345215, 'learning_rate': 2.341641543883487e-05, 'epoch': 7.14}
 30%|██▉       | 23366/78504 [14:12:44<24:16:20,  1.58s/it] 30%|██▉       | 23367/78504 [14:12:45<22:53:58,  1.50s/it]                                                           {'loss': 0.169, 'grad_norm': 0.804653525352478, 'learning_rate': 2.3415990828414933e-05, 'epoch': 7.14}
 30%|██▉       | 23367/78504 [14:12:45<22:53:58,  1.50s/it] 30%|██▉       | 23368/78504 [14:12:46<21:21:24,  1.39s/it]                                                           {'loss': 0.1659, 'grad_norm': 0.9190242886543274, 'learning_rate': 2.341556621799499e-05, 'epoch': 7.14}
 30%|██▉       | 23368/78504 [14:12:46<21:21:24,  1.39s/it] 30%|██▉       | 23369/78504 [14:12:47<19:56:43,  1.30s/it]                                                           {'loss': 0.1859, 'grad_norm': 1.6475063562393188, 'learning_rate': 2.341514160757505e-05, 'epoch': 7.14}
 30%|██▉       | 23369/78504 [14:12:47<19:56:43,  1.30s/it] 30%|██▉       | 23370/78504 [14:12:48<18:46:59,  1.23s/it]                                                           {'loss': 0.21, 'grad_norm': 0.8101791739463806, 'learning_rate': 2.3414716997155112e-05, 'epoch': 7.14}
 30%|██▉       | 23370/78504 [14:12:48<18:46:59,  1.23s/it] 30%|██▉       | 23371/78504 [14:12:49<17:25:51,  1.14s/it]                                                           {'loss': 0.1972, 'grad_norm': 0.9632042646408081, 'learning_rate': 2.341429238673517e-05, 'epoch': 7.14}
 30%|██▉       | 23371/78504 [14:12:49<17:25:51,  1.14s/it] 30%|██▉       | 23372/78504 [14:12:50<15:45:43,  1.03s/it]                                                           {'loss': 0.2515, 'grad_norm': 1.0264912843704224, 'learning_rate': 2.3413867776315233e-05, 'epoch': 7.15}
 30%|██▉       | 23372/78504 [14:12:50<15:45:43,  1.03s/it] 30%|██▉       | 23373/78504 [14:12:59<53:23:56,  3.49s/it]                                                           {'loss': 0.1481, 'grad_norm': 0.327314168214798, 'learning_rate': 2.3413443165895292e-05, 'epoch': 7.15}
 30%|██▉       | 23373/78504 [14:12:59<53:23:56,  3.49s/it] 30%|██▉       | 23374/78504 [14:13:02<51:44:04,  3.38s/it]                                                           {'loss': 0.0868, 'grad_norm': 0.23926763236522675, 'learning_rate': 2.3413018555475354e-05, 'epoch': 7.15}
 30%|██▉       | 23374/78504 [14:13:02<51:44:04,  3.38s/it] 30%|██▉       | 23375/78504 [14:13:05<50:03:48,  3.27s/it]                                                           {'loss': 0.0531, 'grad_norm': 0.3098345994949341, 'learning_rate': 2.3412593945055413e-05, 'epoch': 7.15}
 30%|██▉       | 23375/78504 [14:13:05<50:03:48,  3.27s/it] 30%|██▉       | 23376/78504 [14:13:08<46:49:35,  3.06s/it]                                                           {'loss': 0.0468, 'grad_norm': 0.30871322751045227, 'learning_rate': 2.3412169334635475e-05, 'epoch': 7.15}
 30%|██▉       | 23376/78504 [14:13:08<46:49:35,  3.06s/it] 30%|██▉       | 23377/78504 [14:13:10<44:08:14,  2.88s/it]                                                           {'loss': 0.0399, 'grad_norm': 4.928985595703125, 'learning_rate': 2.3411744724215533e-05, 'epoch': 7.15}
 30%|██▉       | 23377/78504 [14:13:10<44:08:14,  2.88s/it] 30%|██▉       | 23378/78504 [14:13:13<42:01:22,  2.74s/it]                                                           {'loss': 0.0445, 'grad_norm': 0.153474360704422, 'learning_rate': 2.3411320113795595e-05, 'epoch': 7.15}
 30%|██▉       | 23378/78504 [14:13:13<42:01:22,  2.74s/it] 30%|██▉       | 23379/78504 [14:13:15<40:02:37,  2.62s/it]                                                           {'loss': 0.0425, 'grad_norm': 0.5192882418632507, 'learning_rate': 2.3410895503375654e-05, 'epoch': 7.15}
 30%|██▉       | 23379/78504 [14:13:15<40:02:37,  2.62s/it] 30%|██▉       | 23380/78504 [14:13:17<38:36:33,  2.52s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.4853235185146332, 'learning_rate': 2.3410470892955713e-05, 'epoch': 7.15}
 30%|██▉       | 23380/78504 [14:13:17<38:36:33,  2.52s/it] 30%|██▉       | 23381/78504 [14:13:20<37:04:21,  2.42s/it]                                                           {'loss': 0.0753, 'grad_norm': 0.3733968734741211, 'learning_rate': 2.3410046282535775e-05, 'epoch': 7.15}
 30%|██▉       | 23381/78504 [14:13:20<37:04:21,  2.42s/it] 30%|██▉       | 23382/78504 [14:13:22<35:53:12,  2.34s/it]                                                           {'loss': 0.0446, 'grad_norm': 1.8031589984893799, 'learning_rate': 2.3409621672115834e-05, 'epoch': 7.15}
 30%|██▉       | 23382/78504 [14:13:22<35:53:12,  2.34s/it] 30%|██▉       | 23383/78504 [14:13:24<33:41:29,  2.20s/it]                                                           {'loss': 0.0689, 'grad_norm': 0.370435893535614, 'learning_rate': 2.3409197061695896e-05, 'epoch': 7.15}
 30%|██▉       | 23383/78504 [14:13:24<33:41:29,  2.20s/it] 30%|██▉       | 23384/78504 [14:13:26<32:42:07,  2.14s/it]                                                           {'loss': 0.074, 'grad_norm': 0.463544100522995, 'learning_rate': 2.3408772451275954e-05, 'epoch': 7.15}
 30%|██▉       | 23384/78504 [14:13:26<32:42:07,  2.14s/it] 30%|██▉       | 23385/78504 [14:13:27<31:40:59,  2.07s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.3242402672767639, 'learning_rate': 2.3408347840856016e-05, 'epoch': 7.15}
 30%|██▉       | 23385/78504 [14:13:27<31:40:59,  2.07s/it] 30%|██▉       | 23386/78504 [14:13:29<30:48:10,  2.01s/it]                                                           {'loss': 0.0956, 'grad_norm': 0.28500935435295105, 'learning_rate': 2.3407923230436075e-05, 'epoch': 7.15}
 30%|██▉       | 23386/78504 [14:13:29<30:48:10,  2.01s/it] 30%|██▉       | 23387/78504 [14:13:31<29:39:42,  1.94s/it]                                                           {'loss': 0.1426, 'grad_norm': 0.502831757068634, 'learning_rate': 2.3407498620016137e-05, 'epoch': 7.15}
 30%|██▉       | 23387/78504 [14:13:31<29:39:42,  1.94s/it] 30%|██▉       | 23388/78504 [14:13:33<28:21:36,  1.85s/it]                                                           {'loss': 0.1144, 'grad_norm': 0.5672838091850281, 'learning_rate': 2.3407074009596196e-05, 'epoch': 7.15}
 30%|██▉       | 23388/78504 [14:13:33<28:21:36,  1.85s/it] 30%|██▉       | 23389/78504 [14:13:34<26:54:55,  1.76s/it]                                                           {'loss': 0.1559, 'grad_norm': 0.9320820569992065, 'learning_rate': 2.3406649399176258e-05, 'epoch': 7.15}
 30%|██▉       | 23389/78504 [14:13:34<26:54:55,  1.76s/it] 30%|██▉       | 23390/78504 [14:13:36<25:34:25,  1.67s/it]                                                           {'loss': 0.1622, 'grad_norm': 0.902898371219635, 'learning_rate': 2.3406224788756317e-05, 'epoch': 7.15}
 30%|██▉       | 23390/78504 [14:13:36<25:34:25,  1.67s/it] 30%|██▉       | 23391/78504 [14:13:37<24:26:45,  1.60s/it]                                                           {'loss': 0.1597, 'grad_norm': 0.6473668217658997, 'learning_rate': 2.340580017833638e-05, 'epoch': 7.15}
 30%|██▉       | 23391/78504 [14:13:37<24:26:45,  1.60s/it] 30%|██▉       | 23392/78504 [14:13:38<22:59:21,  1.50s/it]                                                           {'loss': 0.1704, 'grad_norm': 0.5314350724220276, 'learning_rate': 2.3405375567916438e-05, 'epoch': 7.15}
 30%|██▉       | 23392/78504 [14:13:38<22:59:21,  1.50s/it] 30%|██▉       | 23393/78504 [14:13:40<21:14:19,  1.39s/it]                                                           {'loss': 0.1464, 'grad_norm': 0.5236432552337646, 'learning_rate': 2.3404950957496496e-05, 'epoch': 7.15}
 30%|██▉       | 23393/78504 [14:13:40<21:14:19,  1.39s/it] 30%|██▉       | 23394/78504 [14:13:41<19:56:07,  1.30s/it]                                                           {'loss': 0.1527, 'grad_norm': 0.5150747299194336, 'learning_rate': 2.340452634707656e-05, 'epoch': 7.15}
 30%|██▉       | 23394/78504 [14:13:41<19:56:07,  1.30s/it] 30%|██▉       | 23395/78504 [14:13:42<18:30:21,  1.21s/it]                                                           {'loss': 0.1863, 'grad_norm': 0.9196963906288147, 'learning_rate': 2.3404101736656617e-05, 'epoch': 7.15}
 30%|██▉       | 23395/78504 [14:13:42<18:30:21,  1.21s/it] 30%|██▉       | 23396/78504 [14:13:43<17:16:42,  1.13s/it]                                                           {'loss': 0.2091, 'grad_norm': 1.5598653554916382, 'learning_rate': 2.340367712623668e-05, 'epoch': 7.15}
 30%|██▉       | 23396/78504 [14:13:43<17:16:42,  1.13s/it] 30%|██▉       | 23397/78504 [14:13:43<15:41:24,  1.02s/it]                                                           {'loss': 0.2546, 'grad_norm': 1.2005016803741455, 'learning_rate': 2.3403252515816738e-05, 'epoch': 7.15}
 30%|██▉       | 23397/78504 [14:13:43<15:41:24,  1.02s/it] 30%|██▉       | 23398/78504 [14:13:52<50:12:23,  3.28s/it]                                                           {'loss': 0.1384, 'grad_norm': 0.3426981568336487, 'learning_rate': 2.34028279053968e-05, 'epoch': 7.15}
 30%|██▉       | 23398/78504 [14:13:52<50:12:23,  3.28s/it] 30%|██▉       | 23399/78504 [14:13:55<50:16:54,  3.28s/it]                                                           {'loss': 0.0855, 'grad_norm': 0.16068808734416962, 'learning_rate': 2.340240329497686e-05, 'epoch': 7.15}
 30%|██▉       | 23399/78504 [14:13:55<50:16:54,  3.28s/it] 30%|██▉       | 23400/78504 [14:13:58<48:52:12,  3.19s/it]                                                           {'loss': 0.0605, 'grad_norm': 0.22008459270000458, 'learning_rate': 2.340197868455692e-05, 'epoch': 7.15}
 30%|██▉       | 23400/78504 [14:13:58<48:52:12,  3.19s/it] 30%|██▉       | 23401/78504 [14:14:01<46:10:52,  3.02s/it]                                                           {'loss': 0.052, 'grad_norm': 0.18149153888225555, 'learning_rate': 2.340155407413698e-05, 'epoch': 7.15}
 30%|██▉       | 23401/78504 [14:14:01<46:10:52,  3.02s/it] 30%|██▉       | 23402/78504 [14:14:03<43:38:33,  2.85s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.26743149757385254, 'learning_rate': 2.340112946371704e-05, 'epoch': 7.15}
 30%|██▉       | 23402/78504 [14:14:03<43:38:33,  2.85s/it] 30%|██▉       | 23403/78504 [14:14:06<40:58:06,  2.68s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.49076616764068604, 'learning_rate': 2.34007048532971e-05, 'epoch': 7.15}
 30%|██▉       | 23403/78504 [14:14:06<40:58:06,  2.68s/it] 30%|██▉       | 23404/78504 [14:14:08<39:18:06,  2.57s/it]                                                           {'loss': 0.0642, 'grad_norm': 0.21376174688339233, 'learning_rate': 2.3400280242877162e-05, 'epoch': 7.15}
 30%|██▉       | 23404/78504 [14:14:08<39:18:06,  2.57s/it] 30%|██▉       | 23405/78504 [14:14:10<37:08:10,  2.43s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.2696560323238373, 'learning_rate': 2.339985563245722e-05, 'epoch': 7.16}
 30%|██▉       | 23405/78504 [14:14:10<37:08:10,  2.43s/it] 30%|██▉       | 23406/78504 [14:14:12<35:17:23,  2.31s/it]                                                           {'loss': 0.0942, 'grad_norm': 0.42446136474609375, 'learning_rate': 2.339943102203728e-05, 'epoch': 7.16}
 30%|██▉       | 23406/78504 [14:14:12<35:17:23,  2.31s/it] 30%|██▉       | 23407/78504 [14:14:14<34:30:05,  2.25s/it]                                                           {'loss': 0.0741, 'grad_norm': 0.8028692603111267, 'learning_rate': 2.3399006411617342e-05, 'epoch': 7.16}
 30%|██▉       | 23407/78504 [14:14:14<34:30:05,  2.25s/it] 30%|██▉       | 23408/78504 [14:14:16<33:26:11,  2.18s/it]                                                           {'loss': 0.0671, 'grad_norm': 0.7726205587387085, 'learning_rate': 2.33985818011974e-05, 'epoch': 7.16}
 30%|██▉       | 23408/78504 [14:14:16<33:26:11,  2.18s/it] 30%|██▉       | 23409/78504 [14:14:18<32:27:21,  2.12s/it]                                                           {'loss': 0.0963, 'grad_norm': 0.32394957542419434, 'learning_rate': 2.3398157190777463e-05, 'epoch': 7.16}
 30%|██▉       | 23409/78504 [14:14:18<32:27:21,  2.12s/it] 30%|██▉       | 23410/78504 [14:14:20<31:15:25,  2.04s/it]                                                           {'loss': 0.1007, 'grad_norm': 0.3274622857570648, 'learning_rate': 2.339773258035752e-05, 'epoch': 7.16}
 30%|██▉       | 23410/78504 [14:14:20<31:15:25,  2.04s/it] 30%|██▉       | 23411/78504 [14:14:22<30:17:26,  1.98s/it]                                                           {'loss': 0.1148, 'grad_norm': 0.61168372631073, 'learning_rate': 2.3397307969937583e-05, 'epoch': 7.16}
 30%|██▉       | 23411/78504 [14:14:22<30:17:26,  1.98s/it] 30%|██▉       | 23412/78504 [14:14:24<29:06:35,  1.90s/it]                                                           {'loss': 0.1144, 'grad_norm': 1.3473035097122192, 'learning_rate': 2.3396883359517642e-05, 'epoch': 7.16}
 30%|██▉       | 23412/78504 [14:14:24<29:06:35,  1.90s/it] 30%|██▉       | 23413/78504 [14:14:25<27:56:04,  1.83s/it]                                                           {'loss': 0.1488, 'grad_norm': 0.5908524394035339, 'learning_rate': 2.3396458749097704e-05, 'epoch': 7.16}
 30%|██▉       | 23413/78504 [14:14:25<27:56:04,  1.83s/it] 30%|██▉       | 23414/78504 [14:14:27<26:30:26,  1.73s/it]                                                           {'loss': 0.138, 'grad_norm': 1.1037670373916626, 'learning_rate': 2.3396034138677763e-05, 'epoch': 7.16}
 30%|██▉       | 23414/78504 [14:14:27<26:30:26,  1.73s/it] 30%|██▉       | 23415/78504 [14:14:28<25:19:06,  1.65s/it]                                                           {'loss': 0.1363, 'grad_norm': 0.399033784866333, 'learning_rate': 2.3395609528257825e-05, 'epoch': 7.16}
 30%|██▉       | 23415/78504 [14:14:28<25:19:06,  1.65s/it] 30%|██▉       | 23416/78504 [14:14:30<24:09:59,  1.58s/it]                                                           {'loss': 0.1833, 'grad_norm': 0.5441644787788391, 'learning_rate': 2.3395184917837884e-05, 'epoch': 7.16}
 30%|██▉       | 23416/78504 [14:14:30<24:09:59,  1.58s/it] 30%|██▉       | 23417/78504 [14:14:31<22:29:46,  1.47s/it]                                                           {'loss': 0.1519, 'grad_norm': 0.7664006948471069, 'learning_rate': 2.3394760307417946e-05, 'epoch': 7.16}
 30%|██▉       | 23417/78504 [14:14:31<22:29:46,  1.47s/it] 30%|██▉       | 23418/78504 [14:14:32<21:02:42,  1.38s/it]                                                           {'loss': 0.1818, 'grad_norm': 0.9772031307220459, 'learning_rate': 2.3394335696998004e-05, 'epoch': 7.16}
 30%|██▉       | 23418/78504 [14:14:32<21:02:42,  1.38s/it] 30%|██▉       | 23419/78504 [14:14:33<19:46:53,  1.29s/it]                                                           {'loss': 0.1608, 'grad_norm': 0.4942556619644165, 'learning_rate': 2.3393911086578063e-05, 'epoch': 7.16}
 30%|██▉       | 23419/78504 [14:14:33<19:46:53,  1.29s/it] 30%|██▉       | 23420/78504 [14:14:34<18:23:45,  1.20s/it]                                                           {'loss': 0.1534, 'grad_norm': 1.0102193355560303, 'learning_rate': 2.3393486476158125e-05, 'epoch': 7.16}
 30%|██▉       | 23420/78504 [14:14:34<18:23:45,  1.20s/it] 30%|██▉       | 23421/78504 [14:14:35<17:08:18,  1.12s/it]                                                           {'loss': 0.2015, 'grad_norm': 0.6506147980690002, 'learning_rate': 2.3393061865738184e-05, 'epoch': 7.16}
 30%|██▉       | 23421/78504 [14:14:35<17:08:18,  1.12s/it] 30%|██▉       | 23422/78504 [14:14:36<15:39:57,  1.02s/it]                                                           {'loss': 0.1976, 'grad_norm': 1.9979287385940552, 'learning_rate': 2.3392637255318246e-05, 'epoch': 7.16}
 30%|██▉       | 23422/78504 [14:14:36<15:39:57,  1.02s/it] 30%|██▉       | 23423/78504 [14:14:45<54:06:15,  3.54s/it]                                                           {'loss': 0.1216, 'grad_norm': 0.2930675446987152, 'learning_rate': 2.3392212644898305e-05, 'epoch': 7.16}
 30%|██▉       | 23423/78504 [14:14:45<54:06:15,  3.54s/it] 30%|██▉       | 23424/78504 [14:14:49<53:17:27,  3.48s/it]                                                           {'loss': 0.0666, 'grad_norm': 0.260078489780426, 'learning_rate': 2.3391788034478367e-05, 'epoch': 7.16}
 30%|██▉       | 23424/78504 [14:14:49<53:17:27,  3.48s/it] 30%|██▉       | 23425/78504 [14:14:51<49:03:03,  3.21s/it]                                                           {'loss': 0.0846, 'grad_norm': 0.25905802845954895, 'learning_rate': 2.3391363424058425e-05, 'epoch': 7.16}
 30%|██▉       | 23425/78504 [14:14:51<49:03:03,  3.21s/it] 30%|██▉       | 23426/78504 [14:14:54<46:18:28,  3.03s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.5802618265151978, 'learning_rate': 2.3390938813638488e-05, 'epoch': 7.16}
 30%|██▉       | 23426/78504 [14:14:54<46:18:28,  3.03s/it] 30%|██▉       | 23427/78504 [14:14:56<43:43:15,  2.86s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.44580426812171936, 'learning_rate': 2.3390514203218546e-05, 'epoch': 7.16}
 30%|██▉       | 23427/78504 [14:14:56<43:43:15,  2.86s/it] 30%|██▉       | 23428/78504 [14:14:58<40:57:35,  2.68s/it]                                                           {'loss': 0.0488, 'grad_norm': 0.7273748517036438, 'learning_rate': 2.339008959279861e-05, 'epoch': 7.16}
 30%|██▉       | 23428/78504 [14:14:58<40:57:35,  2.68s/it] 30%|██▉       | 23429/78504 [14:15:01<39:17:14,  2.57s/it]                                                           {'loss': 0.0528, 'grad_norm': 0.28334876894950867, 'learning_rate': 2.3389664982378667e-05, 'epoch': 7.16}
 30%|██▉       | 23429/78504 [14:15:01<39:17:14,  2.57s/it] 30%|██▉       | 23430/78504 [14:15:03<37:03:12,  2.42s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.22055955231189728, 'learning_rate': 2.338924037195873e-05, 'epoch': 7.16}
 30%|██▉       | 23430/78504 [14:15:03<37:03:12,  2.42s/it] 30%|██▉       | 23431/78504 [14:15:05<35:57:54,  2.35s/it]                                                           {'loss': 0.072, 'grad_norm': 0.30757221579551697, 'learning_rate': 2.3388815761538788e-05, 'epoch': 7.16}
 30%|██▉       | 23431/78504 [14:15:05<35:57:54,  2.35s/it] 30%|██▉       | 23432/78504 [14:15:07<34:58:31,  2.29s/it]                                                           {'loss': 0.0526, 'grad_norm': 0.2521008253097534, 'learning_rate': 2.3388391151118847e-05, 'epoch': 7.16}
 30%|██▉       | 23432/78504 [14:15:07<34:58:31,  2.29s/it] 30%|██▉       | 23433/78504 [14:15:09<32:58:17,  2.16s/it]                                                           {'loss': 0.1057, 'grad_norm': 0.3559456765651703, 'learning_rate': 2.338796654069891e-05, 'epoch': 7.16}
 30%|██▉       | 23433/78504 [14:15:09<32:58:17,  2.16s/it] 30%|██▉       | 23434/78504 [14:15:11<32:11:39,  2.10s/it]                                                           {'loss': 0.0777, 'grad_norm': 0.6859438419342041, 'learning_rate': 2.3387541930278967e-05, 'epoch': 7.16}
 30%|██▉       | 23434/78504 [14:15:11<32:11:39,  2.10s/it] 30%|██▉       | 23435/78504 [14:15:13<31:09:23,  2.04s/it]                                                           {'loss': 0.0915, 'grad_norm': 3.493546485900879, 'learning_rate': 2.338711731985903e-05, 'epoch': 7.16}
 30%|██▉       | 23435/78504 [14:15:13<31:09:23,  2.04s/it] 30%|██▉       | 23436/78504 [14:15:15<30:21:19,  1.98s/it]                                                           {'loss': 0.1138, 'grad_norm': 0.3550647795200348, 'learning_rate': 2.3386692709439088e-05, 'epoch': 7.16}
 30%|██▉       | 23436/78504 [14:15:15<30:21:19,  1.98s/it] 30%|██▉       | 23437/78504 [14:15:16<29:21:12,  1.92s/it]                                                           {'loss': 0.1023, 'grad_norm': 0.46938690543174744, 'learning_rate': 2.338626809901915e-05, 'epoch': 7.17}
 30%|██▉       | 23437/78504 [14:15:16<29:21:12,  1.92s/it] 30%|██▉       | 23438/78504 [14:15:18<28:05:32,  1.84s/it]                                                           {'loss': 0.1213, 'grad_norm': 0.906051754951477, 'learning_rate': 2.338584348859921e-05, 'epoch': 7.17}
 30%|██▉       | 23438/78504 [14:15:18<28:05:32,  1.84s/it] 30%|██▉       | 23439/78504 [14:15:20<26:41:34,  1.75s/it]                                                           {'loss': 0.1284, 'grad_norm': 0.5548027753829956, 'learning_rate': 2.338541887817927e-05, 'epoch': 7.17}
 30%|██▉       | 23439/78504 [14:15:20<26:41:34,  1.75s/it] 30%|██▉       | 23440/78504 [14:15:21<25:27:10,  1.66s/it]                                                           {'loss': 0.137, 'grad_norm': 0.5707918405532837, 'learning_rate': 2.338499426775933e-05, 'epoch': 7.17}
 30%|██▉       | 23440/78504 [14:15:21<25:27:10,  1.66s/it] 30%|██▉       | 23441/78504 [14:15:23<24:14:42,  1.59s/it]                                                           {'loss': 0.1351, 'grad_norm': 1.069769263267517, 'learning_rate': 2.3384569657339392e-05, 'epoch': 7.17}
 30%|██▉       | 23441/78504 [14:15:23<24:14:42,  1.59s/it] 30%|██▉       | 23442/78504 [14:15:24<22:51:59,  1.50s/it]                                                           {'loss': 0.1545, 'grad_norm': 2.984057664871216, 'learning_rate': 2.338414504691945e-05, 'epoch': 7.17}
 30%|██▉       | 23442/78504 [14:15:24<22:51:59,  1.50s/it] 30%|██▉       | 23443/78504 [14:15:25<21:15:00,  1.39s/it]                                                           {'loss': 0.1546, 'grad_norm': 0.5194962024688721, 'learning_rate': 2.3383720436499513e-05, 'epoch': 7.17}
 30%|██▉       | 23443/78504 [14:15:25<21:15:00,  1.39s/it] 30%|██▉       | 23444/78504 [14:15:26<19:57:54,  1.31s/it]                                                           {'loss': 0.1598, 'grad_norm': 0.6017947793006897, 'learning_rate': 2.338329582607957e-05, 'epoch': 7.17}
 30%|██▉       | 23444/78504 [14:15:26<19:57:54,  1.31s/it] 30%|██▉       | 23445/78504 [14:15:27<18:46:46,  1.23s/it]                                                           {'loss': 0.1636, 'grad_norm': 0.5786232352256775, 'learning_rate': 2.338287121565963e-05, 'epoch': 7.17}
 30%|██▉       | 23445/78504 [14:15:27<18:46:46,  1.23s/it] 30%|██▉       | 23446/78504 [14:15:28<17:24:27,  1.14s/it]                                                           {'loss': 0.1758, 'grad_norm': 0.5544465780258179, 'learning_rate': 2.3382446605239692e-05, 'epoch': 7.17}
 30%|██▉       | 23446/78504 [14:15:28<17:24:27,  1.14s/it] 30%|██▉       | 23447/78504 [14:15:29<15:46:19,  1.03s/it]                                                           {'loss': 0.2125, 'grad_norm': 1.7820110321044922, 'learning_rate': 2.338202199481975e-05, 'epoch': 7.17}
 30%|██▉       | 23447/78504 [14:15:29<15:46:19,  1.03s/it] 30%|██▉       | 23448/78504 [14:15:39<57:00:29,  3.73s/it]                                                           {'loss': 0.1336, 'grad_norm': 0.45044657588005066, 'learning_rate': 2.3381597384399813e-05, 'epoch': 7.17}
 30%|██▉       | 23448/78504 [14:15:39<57:00:29,  3.73s/it] 30%|██▉       | 23449/78504 [14:15:42<54:49:29,  3.58s/it]                                                           {'loss': 0.0784, 'grad_norm': 0.1926298290491104, 'learning_rate': 2.338117277397987e-05, 'epoch': 7.17}
 30%|██▉       | 23449/78504 [14:15:42<54:49:29,  3.58s/it] 30%|██▉       | 23450/78504 [14:15:45<52:02:02,  3.40s/it]                                                           {'loss': 0.0887, 'grad_norm': 0.38860198855400085, 'learning_rate': 2.3380748163559934e-05, 'epoch': 7.17}
 30%|██▉       | 23450/78504 [14:15:45<52:02:02,  3.40s/it] 30%|██▉       | 23451/78504 [14:15:48<48:22:48,  3.16s/it]                                                           {'loss': 0.067, 'grad_norm': 0.21382705867290497, 'learning_rate': 2.3380323553139992e-05, 'epoch': 7.17}
 30%|██▉       | 23451/78504 [14:15:48<48:22:48,  3.16s/it] 30%|██▉       | 23452/78504 [14:15:50<44:41:25,  2.92s/it]                                                           {'loss': 0.0506, 'grad_norm': 0.39091649651527405, 'learning_rate': 2.3379898942720054e-05, 'epoch': 7.17}
 30%|██▉       | 23452/78504 [14:15:50<44:41:25,  2.92s/it] 30%|██▉       | 23453/78504 [14:15:52<41:38:13,  2.72s/it]                                                           {'loss': 0.0958, 'grad_norm': 0.36572951078414917, 'learning_rate': 2.3379474332300113e-05, 'epoch': 7.17}
 30%|██▉       | 23453/78504 [14:15:52<41:38:13,  2.72s/it] 30%|██▉       | 23454/78504 [14:15:55<39:46:35,  2.60s/it]                                                           {'loss': 0.0754, 'grad_norm': 0.22710393369197845, 'learning_rate': 2.3379049721880175e-05, 'epoch': 7.17}
 30%|██▉       | 23454/78504 [14:15:55<39:46:35,  2.60s/it] 30%|██▉       | 23455/78504 [14:15:57<37:25:55,  2.45s/it]                                                           {'loss': 0.0441, 'grad_norm': 0.36190563440322876, 'learning_rate': 2.3378625111460237e-05, 'epoch': 7.17}
 30%|██▉       | 23455/78504 [14:15:57<37:25:55,  2.45s/it] 30%|██▉       | 23456/78504 [14:15:59<36:11:46,  2.37s/it]                                                           {'loss': 0.0929, 'grad_norm': 0.2798950970172882, 'learning_rate': 2.33782005010403e-05, 'epoch': 7.17}
 30%|██▉       | 23456/78504 [14:15:59<36:11:46,  2.37s/it] 30%|██▉       | 23457/78504 [14:16:01<35:09:41,  2.30s/it]                                                           {'loss': 0.061, 'grad_norm': 0.9765605330467224, 'learning_rate': 2.3377775890620358e-05, 'epoch': 7.17}
 30%|██▉       | 23457/78504 [14:16:01<35:09:41,  2.30s/it] 30%|██▉       | 23458/78504 [14:16:03<33:54:44,  2.22s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.48029184341430664, 'learning_rate': 2.3377351280200417e-05, 'epoch': 7.17}
 30%|██▉       | 23458/78504 [14:16:03<33:54:44,  2.22s/it] 30%|██▉       | 23459/78504 [14:16:05<32:00:03,  2.09s/it]                                                           {'loss': 0.1163, 'grad_norm': 0.3164255917072296, 'learning_rate': 2.337692666978048e-05, 'epoch': 7.17}
 30%|██▉       | 23459/78504 [14:16:05<32:00:03,  2.09s/it] 30%|██▉       | 23460/78504 [14:16:07<30:57:40,  2.02s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.24859283864498138, 'learning_rate': 2.3376502059360538e-05, 'epoch': 7.17}
 30%|██▉       | 23460/78504 [14:16:07<30:57:40,  2.02s/it] 30%|██▉       | 23461/78504 [14:16:09<30:06:42,  1.97s/it]                                                           {'loss': 0.1225, 'grad_norm': 0.3582904040813446, 'learning_rate': 2.33760774489406e-05, 'epoch': 7.17}
 30%|██▉       | 23461/78504 [14:16:09<30:06:42,  1.97s/it] 30%|██▉       | 23462/78504 [14:16:10<29:14:22,  1.91s/it]                                                           {'loss': 0.0953, 'grad_norm': 0.6101423501968384, 'learning_rate': 2.337565283852066e-05, 'epoch': 7.17}
 30%|██▉       | 23462/78504 [14:16:10<29:14:22,  1.91s/it] 30%|██▉       | 23463/78504 [14:16:12<28:04:12,  1.84s/it]                                                           {'loss': 0.1325, 'grad_norm': 0.836677610874176, 'learning_rate': 2.337522822810072e-05, 'epoch': 7.17}
 30%|██▉       | 23463/78504 [14:16:12<28:04:12,  1.84s/it] 30%|██▉       | 23464/78504 [14:16:14<26:42:47,  1.75s/it]                                                           {'loss': 0.1321, 'grad_norm': 0.9694917798042297, 'learning_rate': 2.337480361768078e-05, 'epoch': 7.17}
 30%|██▉       | 23464/78504 [14:16:14<26:42:47,  1.75s/it] 30%|██▉       | 23465/78504 [14:16:15<25:25:06,  1.66s/it]                                                           {'loss': 0.1536, 'grad_norm': 0.4746935963630676, 'learning_rate': 2.337437900726084e-05, 'epoch': 7.17}
 30%|██▉       | 23465/78504 [14:16:15<25:25:06,  1.66s/it] 30%|██▉       | 23466/78504 [14:16:16<24:15:47,  1.59s/it]                                                           {'loss': 0.163, 'grad_norm': 1.8000982999801636, 'learning_rate': 2.33739543968409e-05, 'epoch': 7.17}
 30%|██▉       | 23466/78504 [14:16:16<24:15:47,  1.59s/it] 30%|██▉       | 23467/78504 [14:16:18<22:53:01,  1.50s/it]                                                           {'loss': 0.1689, 'grad_norm': 0.9712826013565063, 'learning_rate': 2.3373529786420962e-05, 'epoch': 7.17}
 30%|██▉       | 23467/78504 [14:16:18<22:53:01,  1.50s/it] 30%|██▉       | 23468/78504 [14:16:19<21:16:51,  1.39s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.7167025208473206, 'learning_rate': 2.337310517600102e-05, 'epoch': 7.17}
 30%|██▉       | 23468/78504 [14:16:19<21:16:51,  1.39s/it] 30%|██▉       | 23469/78504 [14:16:20<19:56:46,  1.30s/it]                                                           {'loss': 0.1505, 'grad_norm': 0.7523459792137146, 'learning_rate': 2.3372680565581083e-05, 'epoch': 7.17}
 30%|██▉       | 23469/78504 [14:16:20<19:56:46,  1.30s/it] 30%|██▉       | 23470/78504 [14:16:21<18:32:23,  1.21s/it]                                                           {'loss': 0.1636, 'grad_norm': 0.7821638584136963, 'learning_rate': 2.337225595516114e-05, 'epoch': 7.18}
 30%|██▉       | 23470/78504 [14:16:21<18:32:23,  1.21s/it] 30%|██▉       | 23471/78504 [14:16:22<17:19:15,  1.13s/it]                                                           {'loss': 0.1606, 'grad_norm': 0.7917117476463318, 'learning_rate': 2.33718313447412e-05, 'epoch': 7.18}
 30%|██▉       | 23471/78504 [14:16:22<17:19:15,  1.13s/it] 30%|██▉       | 23472/78504 [14:16:23<15:42:28,  1.03s/it]                                                           {'loss': 0.1971, 'grad_norm': 3.2409090995788574, 'learning_rate': 2.3371406734321262e-05, 'epoch': 7.18}
 30%|██▉       | 23472/78504 [14:16:23<15:42:28,  1.03s/it] 30%|██▉       | 23473/78504 [14:16:32<54:09:06,  3.54s/it]                                                           {'loss': 0.1296, 'grad_norm': 1.1813331842422485, 'learning_rate': 2.337098212390132e-05, 'epoch': 7.18}
 30%|██▉       | 23473/78504 [14:16:32<54:09:06,  3.54s/it] 30%|██▉       | 23474/78504 [14:16:35<52:06:25,  3.41s/it]                                                           {'loss': 0.0662, 'grad_norm': 0.4547446072101593, 'learning_rate': 2.3370557513481383e-05, 'epoch': 7.18}
 30%|██▉       | 23474/78504 [14:16:35<52:06:25,  3.41s/it] 30%|██▉       | 23475/78504 [14:16:38<49:52:21,  3.26s/it]                                                           {'loss': 0.0856, 'grad_norm': 0.34142613410949707, 'learning_rate': 2.3370132903061442e-05, 'epoch': 7.18}
 30%|██▉       | 23475/78504 [14:16:38<49:52:21,  3.26s/it] 30%|██▉       | 23476/78504 [14:16:41<46:42:28,  3.06s/it]                                                           {'loss': 0.0536, 'grad_norm': 0.2916230261325836, 'learning_rate': 2.3369708292641504e-05, 'epoch': 7.18}
 30%|██▉       | 23476/78504 [14:16:41<46:42:28,  3.06s/it] 30%|██▉       | 23477/78504 [14:16:43<44:06:34,  2.89s/it]                                                           {'loss': 0.0562, 'grad_norm': 0.6702030301094055, 'learning_rate': 2.3369283682221563e-05, 'epoch': 7.18}
 30%|██▉       | 23477/78504 [14:16:43<44:06:34,  2.89s/it] 30%|██▉       | 23478/78504 [14:16:46<42:07:17,  2.76s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.37804776430130005, 'learning_rate': 2.3368859071801625e-05, 'epoch': 7.18}
 30%|██▉       | 23478/78504 [14:16:46<42:07:17,  2.76s/it] 30%|██▉       | 23479/78504 [14:16:48<40:05:06,  2.62s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.3770039677619934, 'learning_rate': 2.3368434461381683e-05, 'epoch': 7.18}
 30%|██▉       | 23479/78504 [14:16:48<40:05:06,  2.62s/it] 30%|██▉       | 23480/78504 [14:16:50<37:45:46,  2.47s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.7993656396865845, 'learning_rate': 2.3368009850961745e-05, 'epoch': 7.18}
 30%|██▉       | 23480/78504 [14:16:50<37:45:46,  2.47s/it] 30%|██▉       | 23481/78504 [14:16:52<36:25:10,  2.38s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.8595466613769531, 'learning_rate': 2.3367585240541804e-05, 'epoch': 7.18}
 30%|██▉       | 23481/78504 [14:16:52<36:25:10,  2.38s/it] 30%|██▉       | 23482/78504 [14:16:54<35:20:01,  2.31s/it]                                                           {'loss': 0.0979, 'grad_norm': 0.462790846824646, 'learning_rate': 2.3367160630121866e-05, 'epoch': 7.18}
 30%|██▉       | 23482/78504 [14:16:54<35:20:01,  2.31s/it] 30%|██▉       | 23483/78504 [14:16:56<33:56:02,  2.22s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.6698777675628662, 'learning_rate': 2.3366736019701925e-05, 'epoch': 7.18}
 30%|██▉       | 23483/78504 [14:16:56<33:56:02,  2.22s/it] 30%|██▉       | 23484/78504 [14:16:58<32:00:09,  2.09s/it]                                                           {'loss': 0.0609, 'grad_norm': 0.18763791024684906, 'learning_rate': 2.3366311409281984e-05, 'epoch': 7.18}
 30%|██▉       | 23484/78504 [14:16:58<32:00:09,  2.09s/it] 30%|██▉       | 23485/78504 [14:17:00<30:57:11,  2.03s/it]                                                           {'loss': 0.0879, 'grad_norm': 0.564385712146759, 'learning_rate': 2.3365886798862046e-05, 'epoch': 7.18}
 30%|██▉       | 23485/78504 [14:17:00<30:57:11,  2.03s/it] 30%|██▉       | 23486/78504 [14:17:02<30:04:36,  1.97s/it]                                                           {'loss': 0.1013, 'grad_norm': 0.3195793628692627, 'learning_rate': 2.3365462188442104e-05, 'epoch': 7.18}
 30%|██▉       | 23486/78504 [14:17:02<30:04:36,  1.97s/it] 30%|██▉       | 23487/78504 [14:17:04<28:57:09,  1.89s/it]                                                           {'loss': 0.1283, 'grad_norm': 0.4421844780445099, 'learning_rate': 2.3365037578022166e-05, 'epoch': 7.18}
 30%|██▉       | 23487/78504 [14:17:04<28:57:09,  1.89s/it] 30%|██▉       | 23488/78504 [14:17:05<27:50:09,  1.82s/it]                                                           {'loss': 0.141, 'grad_norm': 0.5311647057533264, 'learning_rate': 2.3364612967602225e-05, 'epoch': 7.18}
 30%|██▉       | 23488/78504 [14:17:05<27:50:09,  1.82s/it] 30%|██▉       | 23489/78504 [14:17:07<26:33:16,  1.74s/it]                                                           {'loss': 0.1431, 'grad_norm': 0.5695652365684509, 'learning_rate': 2.3364188357182287e-05, 'epoch': 7.18}
 30%|██▉       | 23489/78504 [14:17:07<26:33:16,  1.74s/it] 30%|██▉       | 23490/78504 [14:17:08<25:20:48,  1.66s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.45085665583610535, 'learning_rate': 2.3363763746762346e-05, 'epoch': 7.18}
 30%|██▉       | 23490/78504 [14:17:08<25:20:48,  1.66s/it] 30%|██▉       | 23491/78504 [14:17:10<24:12:37,  1.58s/it]                                                           {'loss': 0.1742, 'grad_norm': 1.0345439910888672, 'learning_rate': 2.3363339136342408e-05, 'epoch': 7.18}
 30%|██▉       | 23491/78504 [14:17:10<24:12:37,  1.58s/it] 30%|██▉       | 23492/78504 [14:17:11<22:52:40,  1.50s/it]                                                           {'loss': 0.1485, 'grad_norm': 1.1505788564682007, 'learning_rate': 2.3362914525922467e-05, 'epoch': 7.18}
 30%|██▉       | 23492/78504 [14:17:11<22:52:40,  1.50s/it] 30%|██▉       | 23493/78504 [14:17:12<21:17:14,  1.39s/it]                                                           {'loss': 0.1749, 'grad_norm': 1.0843051671981812, 'learning_rate': 2.336248991550253e-05, 'epoch': 7.18}
 30%|██▉       | 23493/78504 [14:17:12<21:17:14,  1.39s/it] 30%|██▉       | 23494/78504 [14:17:13<19:58:41,  1.31s/it]                                                           {'loss': 0.1787, 'grad_norm': 0.6726582646369934, 'learning_rate': 2.3362065305082588e-05, 'epoch': 7.18}
 30%|██▉       | 23494/78504 [14:17:13<19:58:41,  1.31s/it] 30%|██▉       | 23495/78504 [14:17:14<18:30:37,  1.21s/it]                                                           {'loss': 0.1498, 'grad_norm': 0.5421465635299683, 'learning_rate': 2.3361640694662646e-05, 'epoch': 7.18}
 30%|██▉       | 23495/78504 [14:17:14<18:30:37,  1.21s/it] 30%|██▉       | 23496/78504 [14:17:15<17:15:15,  1.13s/it]                                                           {'loss': 0.1544, 'grad_norm': 0.8908745646476746, 'learning_rate': 2.336121608424271e-05, 'epoch': 7.18}
 30%|██▉       | 23496/78504 [14:17:15<17:15:15,  1.13s/it] 30%|██▉       | 23497/78504 [14:17:16<15:30:52,  1.02s/it]                                                           {'loss': 0.2075, 'grad_norm': 1.3951467275619507, 'learning_rate': 2.3360791473822767e-05, 'epoch': 7.18}
 30%|██▉       | 23497/78504 [14:17:16<15:30:52,  1.02s/it] 30%|██▉       | 23498/78504 [14:17:24<47:17:25,  3.10s/it]                                                           {'loss': 0.1205, 'grad_norm': 0.29271095991134644, 'learning_rate': 2.336036686340283e-05, 'epoch': 7.18}
 30%|██▉       | 23498/78504 [14:17:24<47:17:25,  3.10s/it] 30%|██▉       | 23499/78504 [14:17:27<48:26:46,  3.17s/it]                                                           {'loss': 0.0851, 'grad_norm': 0.22516010701656342, 'learning_rate': 2.3359942252982888e-05, 'epoch': 7.18}
 30%|██▉       | 23499/78504 [14:17:27<48:26:46,  3.17s/it] 30%|██▉       | 23500/78504 [14:17:30<47:18:30,  3.10s/it]                                                           {'loss': 0.0571, 'grad_norm': 0.25433430075645447, 'learning_rate': 2.335951764256295e-05, 'epoch': 7.18}
 30%|██▉       | 23500/78504 [14:17:30<47:18:30,  3.10s/it] 30%|██▉       | 23501/78504 [14:17:33<44:12:52,  2.89s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.26677805185317993, 'learning_rate': 2.335909303214301e-05, 'epoch': 7.18}
 30%|██▉       | 23501/78504 [14:17:33<44:12:52,  2.89s/it] 30%|██▉       | 23502/78504 [14:17:35<42:18:21,  2.77s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.2703262269496918, 'learning_rate': 2.335866842172307e-05, 'epoch': 7.18}
 30%|██▉       | 23502/78504 [14:17:35<42:18:21,  2.77s/it] 30%|██▉       | 23503/78504 [14:17:37<39:58:10,  2.62s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.2840028405189514, 'learning_rate': 2.335824381130313e-05, 'epoch': 7.19}
 30%|██▉       | 23503/78504 [14:17:37<39:58:10,  2.62s/it] 30%|██▉       | 23504/78504 [14:17:40<38:36:11,  2.53s/it]                                                           {'loss': 0.081, 'grad_norm': 0.3368328809738159, 'learning_rate': 2.335781920088319e-05, 'epoch': 7.19}
 30%|██▉       | 23504/78504 [14:17:40<38:36:11,  2.53s/it] 30%|██▉       | 23505/78504 [14:17:42<36:41:36,  2.40s/it]                                                           {'loss': 0.0588, 'grad_norm': 0.37254858016967773, 'learning_rate': 2.335739459046325e-05, 'epoch': 7.19}
 30%|██▉       | 23505/78504 [14:17:42<36:41:36,  2.40s/it] 30%|██▉       | 23506/78504 [14:17:44<35:40:50,  2.34s/it]                                                           {'loss': 0.0561, 'grad_norm': 0.5935482978820801, 'learning_rate': 2.3356969980043312e-05, 'epoch': 7.19}
 30%|██▉       | 23506/78504 [14:17:44<35:40:50,  2.34s/it] 30%|██▉       | 23507/78504 [14:17:46<34:48:27,  2.28s/it]                                                           {'loss': 0.0593, 'grad_norm': 0.19721931219100952, 'learning_rate': 2.335654536962337e-05, 'epoch': 7.19}
 30%|██▉       | 23507/78504 [14:17:46<34:48:27,  2.28s/it] 30%|██▉       | 23508/78504 [14:17:48<32:51:01,  2.15s/it]                                                           {'loss': 0.0807, 'grad_norm': 0.26686426997184753, 'learning_rate': 2.335612075920343e-05, 'epoch': 7.19}
 30%|██▉       | 23508/78504 [14:17:48<32:51:01,  2.15s/it] 30%|██▉       | 23509/78504 [14:17:50<32:05:10,  2.10s/it]                                                           {'loss': 0.0933, 'grad_norm': 0.240223690867424, 'learning_rate': 2.3355696148783492e-05, 'epoch': 7.19}
 30%|██▉       | 23509/78504 [14:17:50<32:05:10,  2.10s/it] 30%|██▉       | 23510/78504 [14:17:52<31:16:42,  2.05s/it]                                                           {'loss': 0.0964, 'grad_norm': 0.8069018721580505, 'learning_rate': 2.335527153836355e-05, 'epoch': 7.19}
 30%|██▉       | 23510/78504 [14:17:52<31:16:42,  2.05s/it] 30%|██▉       | 23511/78504 [14:17:54<30:32:33,  2.00s/it]                                                           {'loss': 0.0996, 'grad_norm': 0.24680493772029877, 'learning_rate': 2.3354846927943613e-05, 'epoch': 7.19}
 30%|██▉       | 23511/78504 [14:17:54<30:32:33,  2.00s/it] 30%|██▉       | 23512/78504 [14:17:55<29:29:00,  1.93s/it]                                                           {'loss': 0.1214, 'grad_norm': 0.4726537764072418, 'learning_rate': 2.335442231752367e-05, 'epoch': 7.19}
 30%|██▉       | 23512/78504 [14:17:55<29:29:00,  1.93s/it] 30%|██▉       | 23513/78504 [14:17:57<28:09:31,  1.84s/it]                                                           {'loss': 0.1307, 'grad_norm': 0.5991426110267639, 'learning_rate': 2.3353997707103733e-05, 'epoch': 7.19}
 30%|██▉       | 23513/78504 [14:17:57<28:09:31,  1.84s/it] 30%|██▉       | 23514/78504 [14:17:59<26:46:14,  1.75s/it]                                                           {'loss': 0.1622, 'grad_norm': 0.6080889105796814, 'learning_rate': 2.3353573096683792e-05, 'epoch': 7.19}
 30%|██▉       | 23514/78504 [14:17:59<26:46:14,  1.75s/it] 30%|██▉       | 23515/78504 [14:18:00<25:41:24,  1.68s/it]                                                           {'loss': 0.1452, 'grad_norm': 0.4634912312030792, 'learning_rate': 2.3353148486263854e-05, 'epoch': 7.19}
 30%|██▉       | 23515/78504 [14:18:00<25:41:24,  1.68s/it] 30%|██▉       | 23516/78504 [14:18:02<24:28:12,  1.60s/it]                                                           {'loss': 0.1605, 'grad_norm': 0.5445618629455566, 'learning_rate': 2.3352723875843913e-05, 'epoch': 7.19}
 30%|██▉       | 23516/78504 [14:18:02<24:28:12,  1.60s/it] 30%|██▉       | 23517/78504 [14:18:03<23:06:59,  1.51s/it]                                                           {'loss': 0.1681, 'grad_norm': 0.7616962790489197, 'learning_rate': 2.3352299265423975e-05, 'epoch': 7.19}
 30%|██▉       | 23517/78504 [14:18:03<23:06:59,  1.51s/it] 30%|██▉       | 23518/78504 [14:18:04<21:41:27,  1.42s/it]                                                           {'loss': 0.1558, 'grad_norm': 0.4954245686531067, 'learning_rate': 2.3351874655004034e-05, 'epoch': 7.19}
 30%|██▉       | 23518/78504 [14:18:04<21:41:27,  1.42s/it] 30%|██▉       | 23519/78504 [14:18:05<20:09:31,  1.32s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.787028968334198, 'learning_rate': 2.3351450044584096e-05, 'epoch': 7.19}
 30%|██▉       | 23519/78504 [14:18:05<20:09:31,  1.32s/it] 30%|██▉       | 23520/78504 [14:18:06<18:55:53,  1.24s/it]                                                           {'loss': 0.1683, 'grad_norm': 0.8455654382705688, 'learning_rate': 2.3351025434164154e-05, 'epoch': 7.19}
 30%|██▉       | 23520/78504 [14:18:06<18:55:53,  1.24s/it] 30%|██▉       | 23521/78504 [14:18:07<17:30:51,  1.15s/it]                                                           {'loss': 0.1653, 'grad_norm': 1.6702255010604858, 'learning_rate': 2.3350600823744213e-05, 'epoch': 7.19}
 30%|██▉       | 23521/78504 [14:18:07<17:30:51,  1.15s/it] 30%|██▉       | 23522/78504 [14:18:08<15:51:14,  1.04s/it]                                                           {'loss': 0.2292, 'grad_norm': 1.619771957397461, 'learning_rate': 2.3350176213324275e-05, 'epoch': 7.19}
 30%|██▉       | 23522/78504 [14:18:08<15:51:14,  1.04s/it] 30%|██▉       | 23523/78504 [14:18:18<58:10:32,  3.81s/it]                                                           {'loss': 0.1248, 'grad_norm': 0.7575592994689941, 'learning_rate': 2.3349751602904334e-05, 'epoch': 7.19}
 30%|██▉       | 23523/78504 [14:18:18<58:10:32,  3.81s/it] 30%|██▉       | 23524/78504 [14:18:22<56:06:05,  3.67s/it]                                                           {'loss': 0.0967, 'grad_norm': 0.2846376597881317, 'learning_rate': 2.3349326992484396e-05, 'epoch': 7.19}
 30%|██▉       | 23524/78504 [14:18:22<56:06:05,  3.67s/it] 30%|██▉       | 23525/78504 [14:18:24<52:38:58,  3.45s/it]                                                           {'loss': 0.0575, 'grad_norm': 0.39211925864219666, 'learning_rate': 2.3348902382064455e-05, 'epoch': 7.19}
 30%|██▉       | 23525/78504 [14:18:24<52:38:58,  3.45s/it] 30%|██▉       | 23526/78504 [14:18:27<48:50:13,  3.20s/it]                                                           {'loss': 0.0393, 'grad_norm': 0.1727498173713684, 'learning_rate': 2.3348477771644517e-05, 'epoch': 7.19}
 30%|██▉       | 23526/78504 [14:18:27<48:50:13,  3.20s/it] 30%|██▉       | 23527/78504 [14:18:30<45:28:47,  2.98s/it]                                                           {'loss': 0.043, 'grad_norm': 0.18861855566501617, 'learning_rate': 2.3348053161224575e-05, 'epoch': 7.19}
 30%|██▉       | 23527/78504 [14:18:30<45:28:47,  2.98s/it] 30%|██▉       | 23528/78504 [14:18:32<42:09:49,  2.76s/it]                                                           {'loss': 0.0614, 'grad_norm': 0.3570173382759094, 'learning_rate': 2.3347628550804638e-05, 'epoch': 7.19}
 30%|██▉       | 23528/78504 [14:18:32<42:09:49,  2.76s/it] 30%|██▉       | 23529/78504 [14:18:34<40:09:36,  2.63s/it]                                                           {'loss': 0.0376, 'grad_norm': 0.12790638208389282, 'learning_rate': 2.3347203940384696e-05, 'epoch': 7.19}
 30%|██▉       | 23529/78504 [14:18:34<40:09:36,  2.63s/it] 30%|██▉       | 23530/78504 [14:18:36<37:40:17,  2.47s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.24693183600902557, 'learning_rate': 2.334677932996476e-05, 'epoch': 7.19}
 30%|██▉       | 23530/78504 [14:18:36<37:40:17,  2.47s/it] 30%|██▉       | 23531/78504 [14:18:38<35:37:11,  2.33s/it]                                                           {'loss': 0.0748, 'grad_norm': 0.37179189920425415, 'learning_rate': 2.3346354719544817e-05, 'epoch': 7.19}
 30%|██▉       | 23531/78504 [14:18:38<35:37:11,  2.33s/it] 30%|██▉       | 23532/78504 [14:18:40<34:43:02,  2.27s/it]                                                           {'loss': 0.0435, 'grad_norm': 0.18821083009243011, 'learning_rate': 2.334593010912488e-05, 'epoch': 7.19}
 30%|██▉       | 23532/78504 [14:18:40<34:43:02,  2.27s/it] 30%|██▉       | 23533/78504 [14:18:42<33:33:12,  2.20s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.3019830286502838, 'learning_rate': 2.3345505498704938e-05, 'epoch': 7.19}
 30%|██▉       | 23533/78504 [14:18:42<33:33:12,  2.20s/it] 30%|██▉       | 23534/78504 [14:18:44<32:32:09,  2.13s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.22361727058887482, 'learning_rate': 2.3345080888284997e-05, 'epoch': 7.19}
 30%|██▉       | 23534/78504 [14:18:44<32:32:09,  2.13s/it] 30%|██▉       | 23535/78504 [14:18:46<31:18:32,  2.05s/it]                                                           {'loss': 0.1078, 'grad_norm': 1.2703369855880737, 'learning_rate': 2.334465627786506e-05, 'epoch': 7.2}
 30%|██▉       | 23535/78504 [14:18:46<31:18:32,  2.05s/it] 30%|██▉       | 23536/78504 [14:18:48<30:18:54,  1.99s/it]                                                           {'loss': 0.1137, 'grad_norm': 0.6473332047462463, 'learning_rate': 2.3344231667445117e-05, 'epoch': 7.2}
 30%|██▉       | 23536/78504 [14:18:48<30:18:54,  1.99s/it] 30%|██▉       | 23537/78504 [14:18:50<29:07:52,  1.91s/it]                                                           {'loss': 0.1191, 'grad_norm': 0.877281904220581, 'learning_rate': 2.334380705702518e-05, 'epoch': 7.2}
 30%|██▉       | 23537/78504 [14:18:50<29:07:52,  1.91s/it] 30%|██▉       | 23538/78504 [14:18:51<27:54:42,  1.83s/it]                                                           {'loss': 0.1077, 'grad_norm': 0.37966033816337585, 'learning_rate': 2.3343382446605238e-05, 'epoch': 7.2}
 30%|██▉       | 23538/78504 [14:18:51<27:54:42,  1.83s/it] 30%|██▉       | 23539/78504 [14:18:53<26:28:48,  1.73s/it]                                                           {'loss': 0.1519, 'grad_norm': 0.49361035227775574, 'learning_rate': 2.33429578361853e-05, 'epoch': 7.2}
 30%|██▉       | 23539/78504 [14:18:53<26:28:48,  1.73s/it] 30%|██▉       | 23540/78504 [14:18:54<25:03:25,  1.64s/it]                                                           {'loss': 0.1663, 'grad_norm': 0.6423585414886475, 'learning_rate': 2.334253322576536e-05, 'epoch': 7.2}
 30%|██▉       | 23540/78504 [14:18:54<25:03:25,  1.64s/it] 30%|██▉       | 23541/78504 [14:18:56<24:02:36,  1.57s/it]                                                           {'loss': 0.1357, 'grad_norm': 0.7748610377311707, 'learning_rate': 2.334210861534542e-05, 'epoch': 7.2}
 30%|██▉       | 23541/78504 [14:18:56<24:02:36,  1.57s/it] 30%|██▉       | 23542/78504 [14:18:57<22:25:56,  1.47s/it]                                                           {'loss': 0.1899, 'grad_norm': 0.8166571855545044, 'learning_rate': 2.334168400492548e-05, 'epoch': 7.2}
 30%|██▉       | 23542/78504 [14:18:57<22:25:56,  1.47s/it] 30%|██▉       | 23543/78504 [14:18:58<20:53:23,  1.37s/it]                                                           {'loss': 0.1433, 'grad_norm': 0.7871077656745911, 'learning_rate': 2.3341259394505542e-05, 'epoch': 7.2}
 30%|██▉       | 23543/78504 [14:18:58<20:53:23,  1.37s/it] 30%|██▉       | 23544/78504 [14:18:59<19:37:22,  1.29s/it]                                                           {'loss': 0.1768, 'grad_norm': 0.89417564868927, 'learning_rate': 2.33408347840856e-05, 'epoch': 7.2}
 30%|██▉       | 23544/78504 [14:18:59<19:37:22,  1.29s/it] 30%|██▉       | 23545/78504 [14:19:00<18:19:02,  1.20s/it]                                                           {'loss': 0.1693, 'grad_norm': 1.675459623336792, 'learning_rate': 2.3340410173665663e-05, 'epoch': 7.2}
 30%|██▉       | 23545/78504 [14:19:00<18:19:02,  1.20s/it] 30%|██▉       | 23546/78504 [14:19:01<17:07:14,  1.12s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.5127987861633301, 'learning_rate': 2.333998556324572e-05, 'epoch': 7.2}
 30%|██▉       | 23546/78504 [14:19:01<17:07:14,  1.12s/it] 30%|██▉       | 23547/78504 [14:19:02<15:26:33,  1.01s/it]                                                           {'loss': 0.1893, 'grad_norm': 1.2080742120742798, 'learning_rate': 2.333956095282578e-05, 'epoch': 7.2}
 30%|██▉       | 23547/78504 [14:19:02<15:26:33,  1.01s/it] 30%|██▉       | 23548/78504 [14:19:09<42:46:53,  2.80s/it]                                                           {'loss': 0.1368, 'grad_norm': 0.44982555508613586, 'learning_rate': 2.3339136342405842e-05, 'epoch': 7.2}
 30%|██▉       | 23548/78504 [14:19:09<42:46:53,  2.80s/it] 30%|██▉       | 23549/78504 [14:19:12<45:15:31,  2.96s/it]                                                           {'loss': 0.0939, 'grad_norm': 0.26386913657188416, 'learning_rate': 2.33387117319859e-05, 'epoch': 7.2}
 30%|██▉       | 23549/78504 [14:19:12<45:15:31,  2.96s/it] 30%|██▉       | 23550/78504 [14:19:15<43:27:05,  2.85s/it]                                                           {'loss': 0.0832, 'grad_norm': 0.5266050100326538, 'learning_rate': 2.3338287121565963e-05, 'epoch': 7.2}
 30%|██▉       | 23550/78504 [14:19:15<43:27:05,  2.85s/it] 30%|██▉       | 23551/78504 [14:19:17<42:21:36,  2.78s/it]                                                           {'loss': 0.0517, 'grad_norm': 0.24232913553714752, 'learning_rate': 2.333786251114602e-05, 'epoch': 7.2}
 30%|██▉       | 23551/78504 [14:19:17<42:21:36,  2.78s/it] 30%|███       | 23552/78504 [14:19:20<40:57:14,  2.68s/it]                                                           {'loss': 0.0596, 'grad_norm': 0.25076162815093994, 'learning_rate': 2.3337437900726084e-05, 'epoch': 7.2}
 30%|███       | 23552/78504 [14:19:20<40:57:14,  2.68s/it] 30%|███       | 23553/78504 [14:19:22<39:01:47,  2.56s/it]                                                           {'loss': 0.0412, 'grad_norm': 0.1217290461063385, 'learning_rate': 2.3337013290306142e-05, 'epoch': 7.2}
 30%|███       | 23553/78504 [14:19:22<39:01:47,  2.56s/it] 30%|███       | 23554/78504 [14:19:24<37:57:35,  2.49s/it]                                                           {'loss': 0.0524, 'grad_norm': 0.20172807574272156, 'learning_rate': 2.3336588679886204e-05, 'epoch': 7.2}
 30%|███       | 23554/78504 [14:19:25<37:57:35,  2.49s/it] 30%|███       | 23555/78504 [14:19:27<36:14:15,  2.37s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.5973860621452332, 'learning_rate': 2.3336164069466263e-05, 'epoch': 7.2}
 30%|███       | 23555/78504 [14:19:27<36:14:15,  2.37s/it] 30%|███       | 23556/78504 [14:19:29<35:22:12,  2.32s/it]                                                           {'loss': 0.0454, 'grad_norm': 0.1759631633758545, 'learning_rate': 2.3335739459046325e-05, 'epoch': 7.2}
 30%|███       | 23556/78504 [14:19:29<35:22:12,  2.32s/it] 30%|███       | 23557/78504 [14:19:31<34:34:03,  2.26s/it]                                                           {'loss': 0.0772, 'grad_norm': 0.28343310952186584, 'learning_rate': 2.3335314848626387e-05, 'epoch': 7.2}
 30%|███       | 23557/78504 [14:19:31<34:34:03,  2.26s/it] 30%|███       | 23558/78504 [14:19:33<33:28:26,  2.19s/it]                                                           {'loss': 0.0857, 'grad_norm': 0.4938347339630127, 'learning_rate': 2.333489023820645e-05, 'epoch': 7.2}
 30%|███       | 23558/78504 [14:19:33<33:28:26,  2.19s/it] 30%|███       | 23559/78504 [14:19:35<32:27:46,  2.13s/it]                                                           {'loss': 0.0631, 'grad_norm': 0.2072669118642807, 'learning_rate': 2.3334465627786508e-05, 'epoch': 7.2}
 30%|███       | 23559/78504 [14:19:35<32:27:46,  2.13s/it] 30%|███       | 23560/78504 [14:19:37<31:30:23,  2.06s/it]                                                           {'loss': 0.0816, 'grad_norm': 0.7502927184104919, 'learning_rate': 2.3334041017366567e-05, 'epoch': 7.2}
 30%|███       | 23560/78504 [14:19:37<31:30:23,  2.06s/it] 30%|███       | 23561/78504 [14:19:39<30:32:33,  2.00s/it]                                                           {'loss': 0.1055, 'grad_norm': 0.6558435559272766, 'learning_rate': 2.333361640694663e-05, 'epoch': 7.2}
 30%|███       | 23561/78504 [14:19:39<30:32:33,  2.00s/it] 30%|███       | 23562/78504 [14:19:40<29:27:48,  1.93s/it]                                                           {'loss': 0.0961, 'grad_norm': 2.159581422805786, 'learning_rate': 2.3333191796526688e-05, 'epoch': 7.2}
 30%|███       | 23562/78504 [14:19:40<29:27:48,  1.93s/it] 30%|███       | 23563/78504 [14:19:42<28:10:21,  1.85s/it]                                                           {'loss': 0.1258, 'grad_norm': 0.7611197233200073, 'learning_rate': 2.333276718610675e-05, 'epoch': 7.2}
 30%|███       | 23563/78504 [14:19:42<28:10:21,  1.85s/it] 30%|███       | 23564/78504 [14:19:44<26:45:36,  1.75s/it]                                                           {'loss': 0.1131, 'grad_norm': 0.46294793486595154, 'learning_rate': 2.333234257568681e-05, 'epoch': 7.2}
 30%|███       | 23564/78504 [14:19:44<26:45:36,  1.75s/it] 30%|███       | 23565/78504 [14:19:45<25:28:24,  1.67s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.7712613344192505, 'learning_rate': 2.333191796526687e-05, 'epoch': 7.2}
 30%|███       | 23565/78504 [14:19:45<25:28:24,  1.67s/it] 30%|███       | 23566/78504 [14:19:46<24:09:26,  1.58s/it]                                                           {'loss': 0.1608, 'grad_norm': 1.085827112197876, 'learning_rate': 2.333149335484693e-05, 'epoch': 7.2}
 30%|███       | 23566/78504 [14:19:47<24:09:26,  1.58s/it] 30%|███       | 23567/78504 [14:19:48<22:46:15,  1.49s/it]                                                           {'loss': 0.166, 'grad_norm': 0.43270784616470337, 'learning_rate': 2.333106874442699e-05, 'epoch': 7.2}
 30%|███       | 23567/78504 [14:19:48<22:46:15,  1.49s/it] 30%|███       | 23568/78504 [14:19:49<21:10:49,  1.39s/it]                                                           {'loss': 0.1551, 'grad_norm': 0.6703324317932129, 'learning_rate': 2.333064413400705e-05, 'epoch': 7.21}
 30%|███       | 23568/78504 [14:19:49<21:10:49,  1.39s/it] 30%|███       | 23569/78504 [14:19:50<19:51:54,  1.30s/it]                                                           {'loss': 0.15, 'grad_norm': 0.8114317059516907, 'learning_rate': 2.3330219523587112e-05, 'epoch': 7.21}
 30%|███       | 23569/78504 [14:19:50<19:51:54,  1.30s/it] 30%|███       | 23570/78504 [14:19:51<18:28:41,  1.21s/it]                                                           {'loss': 0.1563, 'grad_norm': 0.8681427240371704, 'learning_rate': 2.332979491316717e-05, 'epoch': 7.21}
 30%|███       | 23570/78504 [14:19:51<18:28:41,  1.21s/it] 30%|███       | 23571/78504 [14:19:52<17:14:23,  1.13s/it]                                                           {'loss': 0.1431, 'grad_norm': 1.8585891723632812, 'learning_rate': 2.3329370302747233e-05, 'epoch': 7.21}
 30%|███       | 23571/78504 [14:19:52<17:14:23,  1.13s/it] 30%|███       | 23572/78504 [14:19:53<15:37:57,  1.02s/it]                                                           {'loss': 0.1935, 'grad_norm': 1.4074339866638184, 'learning_rate': 2.332894569232729e-05, 'epoch': 7.21}
 30%|███       | 23572/78504 [14:19:53<15:37:57,  1.02s/it] 30%|███       | 23573/78504 [14:20:01<47:20:34,  3.10s/it]                                                           {'loss': 0.1557, 'grad_norm': 0.8556516170501709, 'learning_rate': 2.332852108190735e-05, 'epoch': 7.21}
 30%|███       | 23573/78504 [14:20:01<47:20:34,  3.10s/it] 30%|███       | 23574/78504 [14:20:04<47:29:13,  3.11s/it]                                                           {'loss': 0.0959, 'grad_norm': 1.3702579736709595, 'learning_rate': 2.3328096471487412e-05, 'epoch': 7.21}
 30%|███       | 23574/78504 [14:20:04<47:29:13,  3.11s/it] 30%|███       | 23575/78504 [14:20:06<44:59:41,  2.95s/it]                                                           {'loss': 0.0648, 'grad_norm': 0.3689086139202118, 'learning_rate': 2.332767186106747e-05, 'epoch': 7.21}
 30%|███       | 23575/78504 [14:20:06<44:59:41,  2.95s/it] 30%|███       | 23576/78504 [14:20:09<43:27:13,  2.85s/it]                                                           {'loss': 0.05, 'grad_norm': 0.26556479930877686, 'learning_rate': 2.3327247250647533e-05, 'epoch': 7.21}
 30%|███       | 23576/78504 [14:20:09<43:27:13,  2.85s/it] 30%|███       | 23577/78504 [14:20:11<41:39:49,  2.73s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.24363449215888977, 'learning_rate': 2.3326822640227592e-05, 'epoch': 7.21}
 30%|███       | 23577/78504 [14:20:11<41:39:49,  2.73s/it] 30%|███       | 23578/78504 [14:20:14<39:32:08,  2.59s/it]                                                           {'loss': 0.0384, 'grad_norm': 0.15647709369659424, 'learning_rate': 2.3326398029807654e-05, 'epoch': 7.21}
 30%|███       | 23578/78504 [14:20:14<39:32:08,  2.59s/it] 30%|███       | 23579/78504 [14:20:16<38:14:32,  2.51s/it]                                                           {'loss': 0.0487, 'grad_norm': 0.20803984999656677, 'learning_rate': 2.3325973419387713e-05, 'epoch': 7.21}
 30%|███       | 23579/78504 [14:20:16<38:14:32,  2.51s/it] 30%|███       | 23580/78504 [14:20:18<36:24:41,  2.39s/it]                                                           {'loss': 0.0735, 'grad_norm': 0.5423885583877563, 'learning_rate': 2.3325548808967775e-05, 'epoch': 7.21}
 30%|███       | 23580/78504 [14:20:18<36:24:41,  2.39s/it] 30%|███       | 23581/78504 [14:20:20<35:28:45,  2.33s/it]                                                           {'loss': 0.0424, 'grad_norm': 0.37016427516937256, 'learning_rate': 2.3325124198547833e-05, 'epoch': 7.21}
 30%|███       | 23581/78504 [14:20:20<35:28:45,  2.33s/it] 30%|███       | 23582/78504 [14:20:22<34:36:54,  2.27s/it]                                                           {'loss': 0.0544, 'grad_norm': 0.22967946529388428, 'learning_rate': 2.3324699588127895e-05, 'epoch': 7.21}
 30%|███       | 23582/78504 [14:20:22<34:36:54,  2.27s/it] 30%|███       | 23583/78504 [14:20:24<33:30:02,  2.20s/it]                                                           {'loss': 0.1145, 'grad_norm': 0.5105550289154053, 'learning_rate': 2.3324274977707954e-05, 'epoch': 7.21}
 30%|███       | 23583/78504 [14:20:25<33:30:02,  2.20s/it] 30%|███       | 23584/78504 [14:20:26<32:30:03,  2.13s/it]                                                           {'loss': 0.0711, 'grad_norm': 0.4131813645362854, 'learning_rate': 2.3323850367288016e-05, 'epoch': 7.21}
 30%|███       | 23584/78504 [14:20:26<32:30:03,  2.13s/it] 30%|███       | 23585/78504 [14:20:28<31:15:54,  2.05s/it]                                                           {'loss': 0.0934, 'grad_norm': 0.2530306279659271, 'learning_rate': 2.3323425756868075e-05, 'epoch': 7.21}
 30%|███       | 23585/78504 [14:20:28<31:15:54,  2.05s/it] 30%|███       | 23586/78504 [14:20:30<30:26:07,  2.00s/it]                                                           {'loss': 0.1102, 'grad_norm': 0.27912285923957825, 'learning_rate': 2.3323001146448134e-05, 'epoch': 7.21}
 30%|███       | 23586/78504 [14:20:30<30:26:07,  2.00s/it] 30%|███       | 23587/78504 [14:20:32<29:22:06,  1.93s/it]                                                           {'loss': 0.0899, 'grad_norm': 0.4756210744380951, 'learning_rate': 2.3322576536028196e-05, 'epoch': 7.21}
 30%|███       | 23587/78504 [14:20:32<29:22:06,  1.93s/it] 30%|███       | 23588/78504 [14:20:34<28:05:57,  1.84s/it]                                                           {'loss': 0.1291, 'grad_norm': 0.4314800202846527, 'learning_rate': 2.3322151925608254e-05, 'epoch': 7.21}
 30%|███       | 23588/78504 [14:20:34<28:05:57,  1.84s/it] 30%|███       | 23589/78504 [14:20:35<26:43:17,  1.75s/it]                                                           {'loss': 0.1441, 'grad_norm': 0.5992181301116943, 'learning_rate': 2.3321727315188317e-05, 'epoch': 7.21}
 30%|███       | 23589/78504 [14:20:35<26:43:17,  1.75s/it] 30%|███       | 23590/78504 [14:20:37<25:26:24,  1.67s/it]                                                           {'loss': 0.1463, 'grad_norm': 0.5746921896934509, 'learning_rate': 2.3321302704768375e-05, 'epoch': 7.21}
 30%|███       | 23590/78504 [14:20:37<25:26:24,  1.67s/it] 30%|███       | 23591/78504 [14:20:38<24:10:01,  1.58s/it]                                                           {'loss': 0.1388, 'grad_norm': 1.5133709907531738, 'learning_rate': 2.3320878094348437e-05, 'epoch': 7.21}
 30%|███       | 23591/78504 [14:20:38<24:10:01,  1.58s/it] 30%|███       | 23592/78504 [14:20:39<22:47:05,  1.49s/it]                                                           {'loss': 0.1513, 'grad_norm': 0.4399428069591522, 'learning_rate': 2.3320453483928496e-05, 'epoch': 7.21}
 30%|███       | 23592/78504 [14:20:39<22:47:05,  1.49s/it] 30%|███       | 23593/78504 [14:20:40<21:12:46,  1.39s/it]                                                           {'loss': 0.1579, 'grad_norm': 0.9891401529312134, 'learning_rate': 2.3320028873508558e-05, 'epoch': 7.21}
 30%|███       | 23593/78504 [14:20:40<21:12:46,  1.39s/it] 30%|███       | 23594/78504 [14:20:42<19:53:26,  1.30s/it]                                                           {'loss': 0.1537, 'grad_norm': 0.533439576625824, 'learning_rate': 2.3319604263088617e-05, 'epoch': 7.21}
 30%|███       | 23594/78504 [14:20:42<19:53:26,  1.30s/it] 30%|███       | 23595/78504 [14:20:43<18:46:32,  1.23s/it]                                                           {'loss': 0.204, 'grad_norm': 0.9828598499298096, 'learning_rate': 2.331917965266868e-05, 'epoch': 7.21}
 30%|███       | 23595/78504 [14:20:43<18:46:32,  1.23s/it] 30%|███       | 23596/78504 [14:20:44<17:23:47,  1.14s/it]                                                           {'loss': 0.1739, 'grad_norm': 0.707913875579834, 'learning_rate': 2.3318755042248738e-05, 'epoch': 7.21}
 30%|███       | 23596/78504 [14:20:44<17:23:47,  1.14s/it] 30%|███       | 23597/78504 [14:20:44<15:50:33,  1.04s/it]                                                           {'loss': 0.217, 'grad_norm': 1.485708236694336, 'learning_rate': 2.33183304318288e-05, 'epoch': 7.21}
 30%|███       | 23597/78504 [14:20:44<15:50:33,  1.04s/it] 30%|███       | 23598/78504 [14:20:54<53:17:36,  3.49s/it]                                                           {'loss': 0.1255, 'grad_norm': 0.370450884103775, 'learning_rate': 2.331790582140886e-05, 'epoch': 7.21}
 30%|███       | 23598/78504 [14:20:54<53:17:36,  3.49s/it] 30%|███       | 23599/78504 [14:20:57<52:37:28,  3.45s/it]                                                           {'loss': 0.0797, 'grad_norm': 0.6747261881828308, 'learning_rate': 2.3317481210988917e-05, 'epoch': 7.21}
 30%|███       | 23599/78504 [14:20:57<52:37:28,  3.45s/it] 30%|███       | 23600/78504 [14:20:59<48:33:01,  3.18s/it]                                                           {'loss': 0.0739, 'grad_norm': 2.817863941192627, 'learning_rate': 2.331705660056898e-05, 'epoch': 7.21}
 30%|███       | 23600/78504 [14:20:59<48:33:01,  3.18s/it] 30%|███       | 23601/78504 [14:21:02<45:43:52,  3.00s/it]                                                           {'loss': 0.054, 'grad_norm': 0.5097647309303284, 'learning_rate': 2.3316631990149038e-05, 'epoch': 7.22}
 30%|███       | 23601/78504 [14:21:02<45:43:52,  3.00s/it] 30%|███       | 23602/78504 [14:21:05<43:20:32,  2.84s/it]                                                           {'loss': 0.0456, 'grad_norm': 0.21368591487407684, 'learning_rate': 2.33162073797291e-05, 'epoch': 7.22}
 30%|███       | 23602/78504 [14:21:05<43:20:32,  2.84s/it] 30%|███       | 23603/78504 [14:21:07<41:27:08,  2.72s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.32262060046195984, 'learning_rate': 2.331578276930916e-05, 'epoch': 7.22}
 30%|███       | 23603/78504 [14:21:07<41:27:08,  2.72s/it] 30%|███       | 23604/78504 [14:21:09<39:38:44,  2.60s/it]                                                           {'loss': 0.0455, 'grad_norm': 0.23970291018486023, 'learning_rate': 2.331535815888922e-05, 'epoch': 7.22}
 30%|███       | 23604/78504 [14:21:09<39:38:44,  2.60s/it] 30%|███       | 23605/78504 [14:21:12<38:14:54,  2.51s/it]                                                           {'loss': 0.0729, 'grad_norm': 0.22784215211868286, 'learning_rate': 2.331493354846928e-05, 'epoch': 7.22}
 30%|███       | 23605/78504 [14:21:12<38:14:54,  2.51s/it] 30%|███       | 23606/78504 [14:21:14<36:49:01,  2.41s/it]                                                           {'loss': 0.058, 'grad_norm': 0.25229325890541077, 'learning_rate': 2.331450893804934e-05, 'epoch': 7.22}
 30%|███       | 23606/78504 [14:21:14<36:49:01,  2.41s/it] 30%|███       | 23607/78504 [14:21:16<35:39:04,  2.34s/it]                                                           {'loss': 0.0529, 'grad_norm': 0.23661941289901733, 'learning_rate': 2.33140843276294e-05, 'epoch': 7.22}
 30%|███       | 23607/78504 [14:21:16<35:39:04,  2.34s/it] 30%|███       | 23608/78504 [14:21:18<33:30:28,  2.20s/it]                                                           {'loss': 0.0995, 'grad_norm': 0.3268624246120453, 'learning_rate': 2.3313659717209462e-05, 'epoch': 7.22}
 30%|███       | 23608/78504 [14:21:18<33:30:28,  2.20s/it] 30%|███       | 23609/78504 [14:21:20<32:30:26,  2.13s/it]                                                           {'loss': 0.0787, 'grad_norm': 0.5911290645599365, 'learning_rate': 2.331323510678952e-05, 'epoch': 7.22}
 30%|███       | 23609/78504 [14:21:20<32:30:26,  2.13s/it] 30%|███       | 23610/78504 [14:21:22<31:31:56,  2.07s/it]                                                           {'loss': 0.1286, 'grad_norm': 0.41106441617012024, 'learning_rate': 2.331281049636958e-05, 'epoch': 7.22}
 30%|███       | 23610/78504 [14:21:22<31:31:56,  2.07s/it] 30%|███       | 23611/78504 [14:21:24<30:40:34,  2.01s/it]                                                           {'loss': 0.0782, 'grad_norm': 0.3164248764514923, 'learning_rate': 2.3312385885949642e-05, 'epoch': 7.22}
 30%|███       | 23611/78504 [14:21:24<30:40:34,  2.01s/it] 30%|███       | 23612/78504 [14:21:25<29:33:31,  1.94s/it]                                                           {'loss': 0.1196, 'grad_norm': 0.4245373010635376, 'learning_rate': 2.33119612755297e-05, 'epoch': 7.22}
 30%|███       | 23612/78504 [14:21:25<29:33:31,  1.94s/it] 30%|███       | 23613/78504 [14:21:27<27:55:38,  1.83s/it]                                                           {'loss': 0.1295, 'grad_norm': 0.5350608229637146, 'learning_rate': 2.3311536665109763e-05, 'epoch': 7.22}
 30%|███       | 23613/78504 [14:21:27<27:55:38,  1.83s/it] 30%|███       | 23614/78504 [14:21:28<26:24:03,  1.73s/it]                                                           {'loss': 0.1267, 'grad_norm': 0.5108667016029358, 'learning_rate': 2.331111205468982e-05, 'epoch': 7.22}
 30%|███       | 23614/78504 [14:21:28<26:24:03,  1.73s/it] 30%|███       | 23615/78504 [14:21:30<25:25:00,  1.67s/it]                                                           {'loss': 0.1315, 'grad_norm': 1.2656409740447998, 'learning_rate': 2.3310687444269883e-05, 'epoch': 7.22}
 30%|███       | 23615/78504 [14:21:30<25:25:00,  1.67s/it] 30%|███       | 23616/78504 [14:21:31<24:18:11,  1.59s/it]                                                           {'loss': 0.1571, 'grad_norm': 0.7121157050132751, 'learning_rate': 2.3310262833849942e-05, 'epoch': 7.22}
 30%|███       | 23616/78504 [14:21:31<24:18:11,  1.59s/it] 30%|███       | 23617/78504 [14:21:33<22:53:14,  1.50s/it]                                                           {'loss': 0.1551, 'grad_norm': 1.5707825422286987, 'learning_rate': 2.3309838223430004e-05, 'epoch': 7.22}
 30%|███       | 23617/78504 [14:21:33<22:53:14,  1.50s/it] 30%|███       | 23618/78504 [14:21:34<21:31:15,  1.41s/it]                                                           {'loss': 0.1741, 'grad_norm': 0.8015005588531494, 'learning_rate': 2.3309413613010063e-05, 'epoch': 7.22}
 30%|███       | 23618/78504 [14:21:34<21:31:15,  1.41s/it] 30%|███       | 23619/78504 [14:21:35<20:05:17,  1.32s/it]                                                           {'loss': 0.1533, 'grad_norm': 1.2085391283035278, 'learning_rate': 2.3308989002590125e-05, 'epoch': 7.22}
 30%|███       | 23619/78504 [14:21:35<20:05:17,  1.32s/it] 30%|███       | 23620/78504 [14:21:36<18:53:10,  1.24s/it]                                                           {'loss': 0.1785, 'grad_norm': 0.992590606212616, 'learning_rate': 2.3308564392170184e-05, 'epoch': 7.22}
 30%|███       | 23620/78504 [14:21:36<18:53:10,  1.24s/it] 30%|███       | 23621/78504 [14:21:37<17:29:52,  1.15s/it]                                                           {'loss': 0.2035, 'grad_norm': 1.1484583616256714, 'learning_rate': 2.3308139781750246e-05, 'epoch': 7.22}
 30%|███       | 23621/78504 [14:21:37<17:29:52,  1.15s/it] 30%|███       | 23622/78504 [14:21:38<15:47:41,  1.04s/it]                                                           {'loss': 0.2135, 'grad_norm': 3.7460622787475586, 'learning_rate': 2.3307715171330304e-05, 'epoch': 7.22}
 30%|███       | 23622/78504 [14:21:38<15:47:41,  1.04s/it] 30%|███       | 23623/78504 [14:21:46<47:19:40,  3.10s/it]                                                           {'loss': 0.1234, 'grad_norm': 0.7972167730331421, 'learning_rate': 2.3307290560910363e-05, 'epoch': 7.22}
 30%|███       | 23623/78504 [14:21:46<47:19:40,  3.10s/it] 30%|███       | 23624/78504 [14:21:49<47:04:02,  3.09s/it]                                                           {'loss': 0.0676, 'grad_norm': 0.23236145079135895, 'learning_rate': 2.3306865950490425e-05, 'epoch': 7.22}
 30%|███       | 23624/78504 [14:21:49<47:04:02,  3.09s/it] 30%|███       | 23625/78504 [14:21:52<46:34:24,  3.06s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.352235347032547, 'learning_rate': 2.3306441340070484e-05, 'epoch': 7.22}
 30%|███       | 23625/78504 [14:21:52<46:34:24,  3.06s/it] 30%|███       | 23626/78504 [14:21:54<44:32:30,  2.92s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.5784857869148254, 'learning_rate': 2.3306016729650546e-05, 'epoch': 7.22}
 30%|███       | 23626/78504 [14:21:54<44:32:30,  2.92s/it] 30%|███       | 23627/78504 [14:21:57<42:26:07,  2.78s/it]                                                           {'loss': 0.0486, 'grad_norm': 0.24430659413337708, 'learning_rate': 2.3305592119230605e-05, 'epoch': 7.22}
 30%|███       | 23627/78504 [14:21:57<42:26:07,  2.78s/it] 30%|███       | 23628/78504 [14:21:59<40:06:12,  2.63s/it]                                                           {'loss': 0.0371, 'grad_norm': 0.1576656997203827, 'learning_rate': 2.3305167508810667e-05, 'epoch': 7.22}
 30%|███       | 23628/78504 [14:21:59<40:06:12,  2.63s/it] 30%|███       | 23629/78504 [14:22:01<38:38:44,  2.54s/it]                                                           {'loss': 0.056, 'grad_norm': 0.21073509752750397, 'learning_rate': 2.3304742898390726e-05, 'epoch': 7.22}
 30%|███       | 23629/78504 [14:22:01<38:38:44,  2.54s/it] 30%|███       | 23630/78504 [14:22:04<37:25:25,  2.46s/it]                                                           {'loss': 0.0804, 'grad_norm': 0.4672001600265503, 'learning_rate': 2.3304318287970788e-05, 'epoch': 7.22}
 30%|███       | 23630/78504 [14:22:04<37:25:25,  2.46s/it] 30%|███       | 23631/78504 [14:22:06<36:16:36,  2.38s/it]                                                           {'loss': 0.0668, 'grad_norm': 0.39200523495674133, 'learning_rate': 2.3303893677550846e-05, 'epoch': 7.22}
 30%|███       | 23631/78504 [14:22:06<36:16:36,  2.38s/it] 30%|███       | 23632/78504 [14:22:08<35:11:58,  2.31s/it]                                                           {'loss': 0.0589, 'grad_norm': 0.3021319508552551, 'learning_rate': 2.330346906713091e-05, 'epoch': 7.22}
 30%|███       | 23632/78504 [14:22:08<35:11:58,  2.31s/it] 30%|███       | 23633/78504 [14:22:10<33:14:36,  2.18s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.39645272493362427, 'learning_rate': 2.3303044456710967e-05, 'epoch': 7.23}
 30%|███       | 23633/78504 [14:22:10<33:14:36,  2.18s/it] 30%|███       | 23634/78504 [14:22:12<32:20:57,  2.12s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.5940852165222168, 'learning_rate': 2.330261984629103e-05, 'epoch': 7.23}
 30%|███       | 23634/78504 [14:22:12<32:20:57,  2.12s/it] 30%|███       | 23635/78504 [14:22:14<31:25:58,  2.06s/it]                                                           {'loss': 0.0809, 'grad_norm': 0.28872933983802795, 'learning_rate': 2.3302195235871088e-05, 'epoch': 7.23}
 30%|███       | 23635/78504 [14:22:14<31:25:58,  2.06s/it] 30%|███       | 23636/78504 [14:22:16<30:30:56,  2.00s/it]                                                           {'loss': 0.1293, 'grad_norm': 0.6125587821006775, 'learning_rate': 2.3301770625451147e-05, 'epoch': 7.23}
 30%|███       | 23636/78504 [14:22:16<30:30:56,  2.00s/it] 30%|███       | 23637/78504 [14:22:17<29:26:02,  1.93s/it]                                                           {'loss': 0.1214, 'grad_norm': 0.6461135745048523, 'learning_rate': 2.330134601503121e-05, 'epoch': 7.23}
 30%|███       | 23637/78504 [14:22:17<29:26:02,  1.93s/it] 30%|███       | 23638/78504 [14:22:19<27:53:47,  1.83s/it]                                                           {'loss': 0.1366, 'grad_norm': 0.6580381989479065, 'learning_rate': 2.3300921404611267e-05, 'epoch': 7.23}
 30%|███       | 23638/78504 [14:22:19<27:53:47,  1.83s/it] 30%|███       | 23639/78504 [14:22:21<26:38:03,  1.75s/it]                                                           {'loss': 0.1551, 'grad_norm': 0.6256481409072876, 'learning_rate': 2.330049679419133e-05, 'epoch': 7.23}
 30%|███       | 23639/78504 [14:22:21<26:38:03,  1.75s/it] 30%|███       | 23640/78504 [14:22:22<25:22:30,  1.67s/it]                                                           {'loss': 0.1328, 'grad_norm': 3.8569271564483643, 'learning_rate': 2.3300072183771388e-05, 'epoch': 7.23}
 30%|███       | 23640/78504 [14:22:22<25:22:30,  1.67s/it] 30%|███       | 23641/78504 [14:22:23<24:07:33,  1.58s/it]                                                           {'loss': 0.1348, 'grad_norm': 0.7169557809829712, 'learning_rate': 2.329964757335145e-05, 'epoch': 7.23}
 30%|███       | 23641/78504 [14:22:23<24:07:33,  1.58s/it] 30%|███       | 23642/78504 [14:22:25<22:47:47,  1.50s/it]                                                           {'loss': 0.1546, 'grad_norm': 0.9319458603858948, 'learning_rate': 2.329922296293151e-05, 'epoch': 7.23}
 30%|███       | 23642/78504 [14:22:25<22:47:47,  1.50s/it] 30%|███       | 23643/78504 [14:22:26<21:14:01,  1.39s/it]                                                           {'loss': 0.1494, 'grad_norm': 1.1066652536392212, 'learning_rate': 2.329879835251157e-05, 'epoch': 7.23}
 30%|███       | 23643/78504 [14:22:26<21:14:01,  1.39s/it] 30%|███       | 23644/78504 [14:22:27<19:51:26,  1.30s/it]                                                           {'loss': 0.1744, 'grad_norm': 0.6153594851493835, 'learning_rate': 2.329837374209163e-05, 'epoch': 7.23}
 30%|███       | 23644/78504 [14:22:27<19:51:26,  1.30s/it] 30%|███       | 23645/78504 [14:22:28<18:40:41,  1.23s/it]                                                           {'loss': 0.19, 'grad_norm': 1.0638165473937988, 'learning_rate': 2.3297949131671692e-05, 'epoch': 7.23}
 30%|███       | 23645/78504 [14:22:28<18:40:41,  1.23s/it] 30%|███       | 23646/78504 [14:22:29<17:18:35,  1.14s/it]                                                           {'loss': 0.1512, 'grad_norm': 0.5165768265724182, 'learning_rate': 2.329752452125175e-05, 'epoch': 7.23}
 30%|███       | 23646/78504 [14:22:29<17:18:35,  1.14s/it] 30%|███       | 23647/78504 [14:22:30<15:42:44,  1.03s/it]                                                           {'loss': 0.1781, 'grad_norm': 0.9042559862136841, 'learning_rate': 2.3297099910831813e-05, 'epoch': 7.23}
 30%|███       | 23647/78504 [14:22:30<15:42:44,  1.03s/it] 30%|███       | 23648/78504 [14:22:38<49:35:03,  3.25s/it]                                                           {'loss': 0.1302, 'grad_norm': 0.44124728441238403, 'learning_rate': 2.329667530041187e-05, 'epoch': 7.23}
 30%|███       | 23648/78504 [14:22:38<49:35:03,  3.25s/it] 30%|███       | 23649/78504 [14:22:41<50:02:14,  3.28s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.3165130615234375, 'learning_rate': 2.329625068999193e-05, 'epoch': 7.23}
 30%|███       | 23649/78504 [14:22:41<50:02:14,  3.28s/it] 30%|███       | 23650/78504 [14:22:44<48:22:39,  3.17s/it]                                                           {'loss': 0.0574, 'grad_norm': 0.2216803878545761, 'learning_rate': 2.3295826079571992e-05, 'epoch': 7.23}
 30%|███       | 23650/78504 [14:22:44<48:22:39,  3.17s/it] 30%|███       | 23651/78504 [14:22:47<45:37:20,  2.99s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.2841487526893616, 'learning_rate': 2.329540146915205e-05, 'epoch': 7.23}
 30%|███       | 23651/78504 [14:22:47<45:37:20,  2.99s/it] 30%|███       | 23652/78504 [14:22:49<43:13:57,  2.84s/it]                                                           {'loss': 0.0464, 'grad_norm': 0.28842881321907043, 'learning_rate': 2.3294976858732113e-05, 'epoch': 7.23}
 30%|███       | 23652/78504 [14:22:49<43:13:57,  2.84s/it] 30%|███       | 23653/78504 [14:22:52<40:37:36,  2.67s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.22798144817352295, 'learning_rate': 2.329455224831217e-05, 'epoch': 7.23}
 30%|███       | 23653/78504 [14:22:52<40:37:36,  2.67s/it] 30%|███       | 23654/78504 [14:22:54<39:03:24,  2.56s/it]                                                           {'loss': 0.0591, 'grad_norm': 0.24835602939128876, 'learning_rate': 2.3294127637892234e-05, 'epoch': 7.23}
 30%|███       | 23654/78504 [14:22:54<39:03:24,  2.56s/it] 30%|███       | 23655/78504 [14:22:56<36:53:25,  2.42s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.2671664357185364, 'learning_rate': 2.3293703027472292e-05, 'epoch': 7.23}
 30%|███       | 23655/78504 [14:22:56<36:53:25,  2.42s/it] 30%|███       | 23656/78504 [14:22:58<35:06:53,  2.30s/it]                                                           {'loss': 0.0818, 'grad_norm': 0.35901138186454773, 'learning_rate': 2.3293278417052354e-05, 'epoch': 7.23}
 30%|███       | 23656/78504 [14:22:58<35:06:53,  2.30s/it] 30%|███       | 23657/78504 [14:23:00<34:21:47,  2.26s/it]                                                           {'loss': 0.0547, 'grad_norm': 0.25071877241134644, 'learning_rate': 2.3292853806632413e-05, 'epoch': 7.23}
 30%|███       | 23657/78504 [14:23:00<34:21:47,  2.26s/it] 30%|███       | 23658/78504 [14:23:02<33:06:26,  2.17s/it]                                                           {'loss': 0.0751, 'grad_norm': 0.3938788175582886, 'learning_rate': 2.3292429196212475e-05, 'epoch': 7.23}
 30%|███       | 23658/78504 [14:23:02<33:06:26,  2.17s/it] 30%|███       | 23659/78504 [14:23:04<31:25:19,  2.06s/it]                                                           {'loss': 0.067, 'grad_norm': 0.3274136483669281, 'learning_rate': 2.3292004585792537e-05, 'epoch': 7.23}
 30%|███       | 23659/78504 [14:23:04<31:25:19,  2.06s/it] 30%|███       | 23660/78504 [14:23:06<30:30:17,  2.00s/it]                                                           {'loss': 0.0821, 'grad_norm': 0.5091983079910278, 'learning_rate': 2.32915799753726e-05, 'epoch': 7.23}
 30%|███       | 23660/78504 [14:23:06<30:30:17,  2.00s/it] 30%|███       | 23661/78504 [14:23:08<29:45:44,  1.95s/it]                                                           {'loss': 0.1217, 'grad_norm': 0.40909692645072937, 'learning_rate': 2.3291155364952658e-05, 'epoch': 7.23}
 30%|███       | 23661/78504 [14:23:08<29:45:44,  1.95s/it] 30%|███       | 23662/78504 [14:23:10<28:55:49,  1.90s/it]                                                           {'loss': 0.1558, 'grad_norm': 1.1989398002624512, 'learning_rate': 2.3290730754532717e-05, 'epoch': 7.23}
 30%|███       | 23662/78504 [14:23:10<28:55:49,  1.90s/it] 30%|███       | 23663/78504 [14:23:11<27:47:47,  1.82s/it]                                                           {'loss': 0.1266, 'grad_norm': 0.6090399026870728, 'learning_rate': 2.329030614411278e-05, 'epoch': 7.23}
 30%|███       | 23663/78504 [14:23:11<27:47:47,  1.82s/it] 30%|███       | 23664/78504 [14:23:13<26:22:27,  1.73s/it]                                                           {'loss': 0.1361, 'grad_norm': 1.8391979932785034, 'learning_rate': 2.3289881533692838e-05, 'epoch': 7.23}
 30%|███       | 23664/78504 [14:23:13<26:22:27,  1.73s/it] 30%|███       | 23665/78504 [14:23:14<25:00:39,  1.64s/it]                                                           {'loss': 0.1587, 'grad_norm': 1.3347141742706299, 'learning_rate': 2.32894569232729e-05, 'epoch': 7.23}
 30%|███       | 23665/78504 [14:23:14<25:00:39,  1.64s/it] 30%|███       | 23666/78504 [14:23:16<23:59:35,  1.58s/it]                                                           {'loss': 0.178, 'grad_norm': 0.673775315284729, 'learning_rate': 2.328903231285296e-05, 'epoch': 7.24}
 30%|███       | 23666/78504 [14:23:16<23:59:35,  1.58s/it] 30%|███       | 23667/78504 [14:23:17<22:22:55,  1.47s/it]                                                           {'loss': 0.1819, 'grad_norm': 3.1830873489379883, 'learning_rate': 2.328860770243302e-05, 'epoch': 7.24}
 30%|███       | 23667/78504 [14:23:17<22:22:55,  1.47s/it] 30%|███       | 23668/78504 [14:23:18<20:55:18,  1.37s/it]                                                           {'loss': 0.1738, 'grad_norm': 0.6160210371017456, 'learning_rate': 2.328818309201308e-05, 'epoch': 7.24}
 30%|███       | 23668/78504 [14:23:18<20:55:18,  1.37s/it] 30%|███       | 23669/78504 [14:23:19<19:43:04,  1.29s/it]                                                           {'loss': 0.1531, 'grad_norm': 0.6021559834480286, 'learning_rate': 2.328775848159314e-05, 'epoch': 7.24}
 30%|███       | 23669/78504 [14:23:19<19:43:04,  1.29s/it] 30%|███       | 23670/78504 [14:23:20<18:23:20,  1.21s/it]                                                           {'loss': 0.1921, 'grad_norm': 0.9647721648216248, 'learning_rate': 2.32873338711732e-05, 'epoch': 7.24}
 30%|███       | 23670/78504 [14:23:20<18:23:20,  1.21s/it] 30%|███       | 23671/78504 [14:23:21<17:12:29,  1.13s/it]                                                           {'loss': 0.1914, 'grad_norm': 1.008527159690857, 'learning_rate': 2.3286909260753262e-05, 'epoch': 7.24}
 30%|███       | 23671/78504 [14:23:21<17:12:29,  1.13s/it] 30%|███       | 23672/78504 [14:23:22<15:36:24,  1.02s/it]                                                           {'loss': 0.2387, 'grad_norm': 1.267146110534668, 'learning_rate': 2.328648465033332e-05, 'epoch': 7.24}
 30%|███       | 23672/78504 [14:23:22<15:36:24,  1.02s/it] 30%|███       | 23673/78504 [14:23:29<44:10:52,  2.90s/it]                                                           {'loss': 0.1297, 'grad_norm': 0.5648046731948853, 'learning_rate': 2.3286060039913383e-05, 'epoch': 7.24}
 30%|███       | 23673/78504 [14:23:29<44:10:52,  2.90s/it] 30%|███       | 23674/78504 [14:23:32<45:15:33,  2.97s/it]                                                           {'loss': 0.1021, 'grad_norm': 0.3024613559246063, 'learning_rate': 2.328563542949344e-05, 'epoch': 7.24}
 30%|███       | 23674/78504 [14:23:32<45:15:33,  2.97s/it] 30%|███       | 23675/78504 [14:23:35<45:28:19,  2.99s/it]                                                           {'loss': 0.0823, 'grad_norm': 1.2299309968948364, 'learning_rate': 2.32852108190735e-05, 'epoch': 7.24}
 30%|███       | 23675/78504 [14:23:35<45:28:19,  2.99s/it] 30%|███       | 23676/78504 [14:23:38<43:47:14,  2.88s/it]                                                           {'loss': 0.064, 'grad_norm': 0.6651812791824341, 'learning_rate': 2.3284786208653562e-05, 'epoch': 7.24}
 30%|███       | 23676/78504 [14:23:38<43:47:14,  2.88s/it] 30%|███       | 23677/78504 [14:23:40<41:53:43,  2.75s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.6982271075248718, 'learning_rate': 2.328436159823362e-05, 'epoch': 7.24}
 30%|███       | 23677/78504 [14:23:40<41:53:43,  2.75s/it] 30%|███       | 23678/78504 [14:23:43<39:41:27,  2.61s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.35625869035720825, 'learning_rate': 2.3283936987813683e-05, 'epoch': 7.24}
 30%|███       | 23678/78504 [14:23:43<39:41:27,  2.61s/it] 30%|███       | 23679/78504 [14:23:45<38:21:41,  2.52s/it]                                                           {'loss': 0.0551, 'grad_norm': 0.6218798756599426, 'learning_rate': 2.3283512377393742e-05, 'epoch': 7.24}
 30%|███       | 23679/78504 [14:23:45<38:21:41,  2.52s/it] 30%|███       | 23680/78504 [14:23:47<36:24:28,  2.39s/it]                                                           {'loss': 0.0479, 'grad_norm': 0.21001151204109192, 'learning_rate': 2.3283087766973804e-05, 'epoch': 7.24}
 30%|███       | 23680/78504 [14:23:47<36:24:28,  2.39s/it] 30%|███       | 23681/78504 [14:23:49<34:44:02,  2.28s/it]                                                           {'loss': 0.0762, 'grad_norm': 0.38112980127334595, 'learning_rate': 2.3282663156553863e-05, 'epoch': 7.24}
 30%|███       | 23681/78504 [14:23:49<34:44:02,  2.28s/it] 30%|███       | 23682/78504 [14:23:51<34:03:24,  2.24s/it]                                                           {'loss': 0.0633, 'grad_norm': 0.24884800612926483, 'learning_rate': 2.3282238546133925e-05, 'epoch': 7.24}
 30%|███       | 23682/78504 [14:23:51<34:03:24,  2.24s/it] 30%|███       | 23683/78504 [14:23:53<32:55:57,  2.16s/it]                                                           {'loss': 0.1309, 'grad_norm': 0.3490852415561676, 'learning_rate': 2.3281813935713983e-05, 'epoch': 7.24}
 30%|███       | 23683/78504 [14:23:53<32:55:57,  2.16s/it] 30%|███       | 23684/78504 [14:23:55<31:17:52,  2.06s/it]                                                           {'loss': 0.0936, 'grad_norm': 0.7626113891601562, 'learning_rate': 2.3281389325294045e-05, 'epoch': 7.24}
 30%|███       | 23684/78504 [14:23:55<31:17:52,  2.06s/it] 30%|███       | 23685/78504 [14:23:57<30:25:06,  2.00s/it]                                                           {'loss': 0.0698, 'grad_norm': 0.7534968256950378, 'learning_rate': 2.3280964714874104e-05, 'epoch': 7.24}
 30%|███       | 23685/78504 [14:23:57<30:25:06,  2.00s/it] 30%|███       | 23686/78504 [14:23:59<29:44:38,  1.95s/it]                                                           {'loss': 0.1254, 'grad_norm': 0.8477213382720947, 'learning_rate': 2.3280540104454166e-05, 'epoch': 7.24}
 30%|███       | 23686/78504 [14:23:59<29:44:38,  1.95s/it] 30%|███       | 23687/78504 [14:24:00<28:45:17,  1.89s/it]                                                           {'loss': 0.1049, 'grad_norm': 0.47908759117126465, 'learning_rate': 2.3280115494034225e-05, 'epoch': 7.24}
 30%|███       | 23687/78504 [14:24:00<28:45:17,  1.89s/it] 30%|███       | 23688/78504 [14:24:02<27:39:09,  1.82s/it]                                                           {'loss': 0.1218, 'grad_norm': 0.9345760941505432, 'learning_rate': 2.3279690883614284e-05, 'epoch': 7.24}
 30%|███       | 23688/78504 [14:24:02<27:39:09,  1.82s/it] 30%|███       | 23689/78504 [14:24:04<26:24:56,  1.73s/it]                                                           {'loss': 0.1179, 'grad_norm': 0.3655157685279846, 'learning_rate': 2.3279266273194346e-05, 'epoch': 7.24}
 30%|███       | 23689/78504 [14:24:04<26:24:56,  1.73s/it] 30%|███       | 23690/78504 [14:24:05<25:12:56,  1.66s/it]                                                           {'loss': 0.1648, 'grad_norm': 1.412316083908081, 'learning_rate': 2.3278841662774404e-05, 'epoch': 7.24}
 30%|███       | 23690/78504 [14:24:05<25:12:56,  1.66s/it] 30%|███       | 23691/78504 [14:24:06<24:08:16,  1.59s/it]                                                           {'loss': 0.1754, 'grad_norm': 1.1097694635391235, 'learning_rate': 2.3278417052354467e-05, 'epoch': 7.24}
 30%|███       | 23691/78504 [14:24:06<24:08:16,  1.59s/it] 30%|███       | 23692/78504 [14:24:08<22:43:45,  1.49s/it]                                                           {'loss': 0.1768, 'grad_norm': 0.7811036109924316, 'learning_rate': 2.3277992441934525e-05, 'epoch': 7.24}
 30%|███       | 23692/78504 [14:24:08<22:43:45,  1.49s/it] 30%|███       | 23693/78504 [14:24:09<21:09:55,  1.39s/it]                                                           {'loss': 0.164, 'grad_norm': 0.7950069308280945, 'learning_rate': 2.3277567831514587e-05, 'epoch': 7.24}
 30%|███       | 23693/78504 [14:24:09<21:09:55,  1.39s/it] 30%|███       | 23694/78504 [14:24:10<19:49:08,  1.30s/it]                                                           {'loss': 0.1618, 'grad_norm': 4.122433185577393, 'learning_rate': 2.3277143221094646e-05, 'epoch': 7.24}
 30%|███       | 23694/78504 [14:24:10<19:49:08,  1.30s/it] 30%|███       | 23695/78504 [14:24:11<18:25:07,  1.21s/it]                                                           {'loss': 0.1482, 'grad_norm': 1.286889910697937, 'learning_rate': 2.3276718610674708e-05, 'epoch': 7.24}
 30%|███       | 23695/78504 [14:24:11<18:25:07,  1.21s/it] 30%|███       | 23696/78504 [14:24:12<17:09:29,  1.13s/it]                                                           {'loss': 0.1718, 'grad_norm': 1.3329142332077026, 'learning_rate': 2.3276294000254767e-05, 'epoch': 7.24}
 30%|███       | 23696/78504 [14:24:12<17:09:29,  1.13s/it] 30%|███       | 23697/78504 [14:24:13<15:34:02,  1.02s/it]                                                           {'loss': 0.2891, 'grad_norm': 7.729081153869629, 'learning_rate': 2.327586938983483e-05, 'epoch': 7.24}
 30%|███       | 23697/78504 [14:24:13<15:34:02,  1.02s/it] 30%|███       | 23698/78504 [14:24:19<41:08:15,  2.70s/it]                                                           {'loss': 0.1616, 'grad_norm': 0.4139579236507416, 'learning_rate': 2.3275444779414888e-05, 'epoch': 7.24}
 30%|███       | 23698/78504 [14:24:19<41:08:15,  2.70s/it] 30%|███       | 23699/78504 [14:24:22<42:05:04,  2.76s/it]                                                           {'loss': 0.0798, 'grad_norm': 0.3883295953273773, 'learning_rate': 2.327502016899495e-05, 'epoch': 7.25}
 30%|███       | 23699/78504 [14:24:22<42:05:04,  2.76s/it] 30%|███       | 23700/78504 [14:24:25<42:45:41,  2.81s/it]                                                           {'loss': 0.0512, 'grad_norm': 0.22595424950122833, 'learning_rate': 2.327459555857501e-05, 'epoch': 7.25}
 30%|███       | 23700/78504 [14:24:25<42:45:41,  2.81s/it] 30%|███       | 23701/78504 [14:24:28<41:42:02,  2.74s/it]                                                           {'loss': 0.051, 'grad_norm': 0.28479132056236267, 'learning_rate': 2.3274170948155067e-05, 'epoch': 7.25}
 30%|███       | 23701/78504 [14:24:28<41:42:02,  2.74s/it] 30%|███       | 23702/78504 [14:24:30<40:32:29,  2.66s/it]                                                           {'loss': 0.0548, 'grad_norm': 1.7204155921936035, 'learning_rate': 2.327374633773513e-05, 'epoch': 7.25}
 30%|███       | 23702/78504 [14:24:30<40:32:29,  2.66s/it] 30%|███       | 23703/78504 [14:24:33<39:33:59,  2.60s/it]                                                           {'loss': 0.0437, 'grad_norm': 0.2080840766429901, 'learning_rate': 2.3273321727315188e-05, 'epoch': 7.25}
 30%|███       | 23703/78504 [14:24:33<39:33:59,  2.60s/it] 30%|███       | 23704/78504 [14:24:35<38:15:31,  2.51s/it]                                                           {'loss': 0.0505, 'grad_norm': 0.39411064982414246, 'learning_rate': 2.327289711689525e-05, 'epoch': 7.25}
 30%|███       | 23704/78504 [14:24:35<38:15:31,  2.51s/it] 30%|███       | 23705/78504 [14:24:37<37:19:09,  2.45s/it]                                                           {'loss': 0.0774, 'grad_norm': 0.21762950718402863, 'learning_rate': 2.327247250647531e-05, 'epoch': 7.25}
 30%|███       | 23705/78504 [14:24:37<37:19:09,  2.45s/it] 30%|███       | 23706/78504 [14:24:40<37:05:12,  2.44s/it]                                                           {'loss': 0.0428, 'grad_norm': 0.766501784324646, 'learning_rate': 2.327204789605537e-05, 'epoch': 7.25}
 30%|███       | 23706/78504 [14:24:40<37:05:12,  2.44s/it] 30%|███       | 23707/78504 [14:24:42<35:50:34,  2.35s/it]                                                           {'loss': 0.0594, 'grad_norm': 0.3347494900226593, 'learning_rate': 2.327162328563543e-05, 'epoch': 7.25}
 30%|███       | 23707/78504 [14:24:42<35:50:34,  2.35s/it] 30%|███       | 23708/78504 [14:24:44<33:34:14,  2.21s/it]                                                           {'loss': 0.1055, 'grad_norm': 0.28427550196647644, 'learning_rate': 2.327119867521549e-05, 'epoch': 7.25}
 30%|███       | 23708/78504 [14:24:44<33:34:14,  2.21s/it] 30%|███       | 23709/78504 [14:24:46<32:32:41,  2.14s/it]                                                           {'loss': 0.0659, 'grad_norm': 0.21418242156505585, 'learning_rate': 2.327077406479555e-05, 'epoch': 7.25}
 30%|███       | 23709/78504 [14:24:46<32:32:41,  2.14s/it] 30%|███       | 23710/78504 [14:24:48<31:33:56,  2.07s/it]                                                           {'loss': 0.0553, 'grad_norm': 0.19381678104400635, 'learning_rate': 2.3270349454375612e-05, 'epoch': 7.25}
 30%|███       | 23710/78504 [14:24:48<31:33:56,  2.07s/it] 30%|███       | 23711/78504 [14:24:49<30:37:30,  2.01s/it]                                                           {'loss': 0.101, 'grad_norm': 0.596067488193512, 'learning_rate': 2.326992484395567e-05, 'epoch': 7.25}
 30%|███       | 23711/78504 [14:24:49<30:37:30,  2.01s/it] 30%|███       | 23712/78504 [14:24:51<29:30:47,  1.94s/it]                                                           {'loss': 0.1171, 'grad_norm': 0.8410853743553162, 'learning_rate': 2.3269500233535733e-05, 'epoch': 7.25}
 30%|███       | 23712/78504 [14:24:51<29:30:47,  1.94s/it] 30%|███       | 23713/78504 [14:24:53<28:11:35,  1.85s/it]                                                           {'loss': 0.1399, 'grad_norm': 0.7543322443962097, 'learning_rate': 2.3269075623115792e-05, 'epoch': 7.25}
 30%|███       | 23713/78504 [14:24:53<28:11:35,  1.85s/it] 30%|███       | 23714/78504 [14:24:54<26:47:45,  1.76s/it]                                                           {'loss': 0.1111, 'grad_norm': 0.41287365555763245, 'learning_rate': 2.326865101269585e-05, 'epoch': 7.25}
 30%|███       | 23714/78504 [14:24:54<26:47:45,  1.76s/it] 30%|███       | 23715/78504 [14:24:56<25:27:49,  1.67s/it]                                                           {'loss': 0.1575, 'grad_norm': 0.8246889710426331, 'learning_rate': 2.3268226402275913e-05, 'epoch': 7.25}
 30%|███       | 23715/78504 [14:24:56<25:27:49,  1.67s/it] 30%|███       | 23716/78504 [14:24:57<24:12:13,  1.59s/it]                                                           {'loss': 0.1561, 'grad_norm': 0.6634794473648071, 'learning_rate': 2.326780179185597e-05, 'epoch': 7.25}
 30%|███       | 23716/78504 [14:24:57<24:12:13,  1.59s/it] 30%|███       | 23717/78504 [14:24:59<22:48:41,  1.50s/it]                                                           {'loss': 0.1298, 'grad_norm': 0.46853360533714294, 'learning_rate': 2.3267377181436033e-05, 'epoch': 7.25}
 30%|███       | 23717/78504 [14:24:59<22:48:41,  1.50s/it] 30%|███       | 23718/78504 [14:25:00<21:14:15,  1.40s/it]                                                           {'loss': 0.1971, 'grad_norm': 0.6043888926506042, 'learning_rate': 2.3266952571016092e-05, 'epoch': 7.25}
 30%|███       | 23718/78504 [14:25:00<21:14:15,  1.40s/it] 30%|███       | 23719/78504 [14:25:01<19:52:55,  1.31s/it]                                                           {'loss': 0.1737, 'grad_norm': 0.7716415524482727, 'learning_rate': 2.3266527960596154e-05, 'epoch': 7.25}
 30%|███       | 23719/78504 [14:25:01<19:52:55,  1.31s/it] 30%|███       | 23720/78504 [14:25:02<18:42:37,  1.23s/it]                                                           {'loss': 0.1936, 'grad_norm': 1.0044721364974976, 'learning_rate': 2.3266103350176213e-05, 'epoch': 7.25}
 30%|███       | 23720/78504 [14:25:02<18:42:37,  1.23s/it] 30%|███       | 23721/78504 [14:25:03<17:18:38,  1.14s/it]                                                           {'loss': 0.1917, 'grad_norm': 0.9743267893791199, 'learning_rate': 2.3265678739756275e-05, 'epoch': 7.25}
 30%|███       | 23721/78504 [14:25:03<17:18:38,  1.14s/it] 30%|███       | 23722/78504 [14:25:04<15:40:59,  1.03s/it]                                                           {'loss': 0.2003, 'grad_norm': 13.365703582763672, 'learning_rate': 2.3265254129336334e-05, 'epoch': 7.25}
 30%|███       | 23722/78504 [14:25:04<15:40:59,  1.03s/it] 30%|███       | 23723/78504 [14:25:11<46:19:31,  3.04s/it]                                                           {'loss': 0.1397, 'grad_norm': 0.3112136721611023, 'learning_rate': 2.3264829518916396e-05, 'epoch': 7.25}
 30%|███       | 23723/78504 [14:25:11<46:19:31,  3.04s/it] 30%|███       | 23724/78504 [14:25:15<47:44:47,  3.14s/it]                                                           {'loss': 0.0607, 'grad_norm': 0.5048288702964783, 'learning_rate': 2.3264404908496454e-05, 'epoch': 7.25}
 30%|███       | 23724/78504 [14:25:15<47:44:47,  3.14s/it] 30%|███       | 23725/78504 [14:25:18<47:09:42,  3.10s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.20759430527687073, 'learning_rate': 2.3263980298076517e-05, 'epoch': 7.25}
 30%|███       | 23725/78504 [14:25:18<47:09:42,  3.10s/it] 30%|███       | 23726/78504 [14:25:20<44:43:15,  2.94s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.31609711050987244, 'learning_rate': 2.3263555687656575e-05, 'epoch': 7.25}
 30%|███       | 23726/78504 [14:25:20<44:43:15,  2.94s/it] 30%|███       | 23727/78504 [14:25:23<42:40:18,  2.80s/it]                                                           {'loss': 0.0613, 'grad_norm': 0.19368991255760193, 'learning_rate': 2.3263131077236634e-05, 'epoch': 7.25}
 30%|███       | 23727/78504 [14:25:23<42:40:18,  2.80s/it] 30%|███       | 23728/78504 [14:25:25<40:55:22,  2.69s/it]                                                           {'loss': 0.0364, 'grad_norm': 0.4456719160079956, 'learning_rate': 2.3262706466816696e-05, 'epoch': 7.25}
 30%|███       | 23728/78504 [14:25:25<40:55:22,  2.69s/it] 30%|███       | 23729/78504 [14:25:27<39:12:46,  2.58s/it]                                                           {'loss': 0.0651, 'grad_norm': 1.9473007917404175, 'learning_rate': 2.3262281856396755e-05, 'epoch': 7.25}
 30%|███       | 23729/78504 [14:25:27<39:12:46,  2.58s/it] 30%|███       | 23730/78504 [14:25:30<37:04:25,  2.44s/it]                                                           {'loss': 0.0406, 'grad_norm': 0.45218995213508606, 'learning_rate': 2.3261857245976817e-05, 'epoch': 7.25}
 30%|███       | 23730/78504 [14:25:30<37:04:25,  2.44s/it] 30%|███       | 23731/78504 [14:25:32<35:54:08,  2.36s/it]                                                           {'loss': 0.0451, 'grad_norm': 0.44046494364738464, 'learning_rate': 2.3261432635556876e-05, 'epoch': 7.25}
 30%|███       | 23731/78504 [14:25:32<35:54:08,  2.36s/it] 30%|███       | 23732/78504 [14:25:34<35:01:21,  2.30s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.9501919150352478, 'learning_rate': 2.3261008025136938e-05, 'epoch': 7.26}
 30%|███       | 23732/78504 [14:25:34<35:01:21,  2.30s/it] 30%|███       | 23733/78504 [14:25:36<33:42:59,  2.22s/it]                                                           {'loss': 0.0841, 'grad_norm': 1.0934481620788574, 'learning_rate': 2.3260583414716996e-05, 'epoch': 7.26}
 30%|███       | 23733/78504 [14:25:36<33:42:59,  2.22s/it] 30%|███       | 23734/78504 [14:25:38<32:38:30,  2.15s/it]                                                           {'loss': 0.0776, 'grad_norm': 0.2504015266895294, 'learning_rate': 2.326015880429706e-05, 'epoch': 7.26}
 30%|███       | 23734/78504 [14:25:38<32:38:30,  2.15s/it] 30%|███       | 23735/78504 [14:25:40<31:26:08,  2.07s/it]                                                           {'loss': 0.0794, 'grad_norm': 0.40258678793907166, 'learning_rate': 2.3259734193877117e-05, 'epoch': 7.26}
 30%|███       | 23735/78504 [14:25:40<31:26:08,  2.07s/it] 30%|███       | 23736/78504 [14:25:42<30:30:18,  2.01s/it]                                                           {'loss': 0.1105, 'grad_norm': 0.7731305360794067, 'learning_rate': 2.325930958345718e-05, 'epoch': 7.26}
 30%|███       | 23736/78504 [14:25:42<30:30:18,  2.01s/it] 30%|███       | 23737/78504 [14:25:43<29:12:59,  1.92s/it]                                                           {'loss': 0.0904, 'grad_norm': 0.37572747468948364, 'learning_rate': 2.3258884973037238e-05, 'epoch': 7.26}
 30%|███       | 23737/78504 [14:25:43<29:12:59,  1.92s/it] 30%|███       | 23738/78504 [14:25:45<27:57:22,  1.84s/it]                                                           {'loss': 0.1106, 'grad_norm': 0.2474011927843094, 'learning_rate': 2.3258460362617297e-05, 'epoch': 7.26}
 30%|███       | 23738/78504 [14:25:45<27:57:22,  1.84s/it] 30%|███       | 23739/78504 [14:25:47<26:34:45,  1.75s/it]                                                           {'loss': 0.114, 'grad_norm': 0.2931773364543915, 'learning_rate': 2.325803575219736e-05, 'epoch': 7.26}
 30%|███       | 23739/78504 [14:25:47<26:34:45,  1.75s/it] 30%|███       | 23740/78504 [14:25:48<25:18:05,  1.66s/it]                                                           {'loss': 0.1314, 'grad_norm': 1.2501306533813477, 'learning_rate': 2.3257611141777417e-05, 'epoch': 7.26}
 30%|███       | 23740/78504 [14:25:48<25:18:05,  1.66s/it] 30%|███       | 23741/78504 [14:25:49<24:09:28,  1.59s/it]                                                           {'loss': 0.1571, 'grad_norm': 1.3506578207015991, 'learning_rate': 2.325718653135748e-05, 'epoch': 7.26}
 30%|███       | 23741/78504 [14:25:49<24:09:28,  1.59s/it] 30%|███       | 23742/78504 [14:25:51<22:45:56,  1.50s/it]                                                           {'loss': 0.1932, 'grad_norm': 4.447240352630615, 'learning_rate': 2.3256761920937538e-05, 'epoch': 7.26}
 30%|███       | 23742/78504 [14:25:51<22:45:56,  1.50s/it] 30%|███       | 23743/78504 [14:25:52<21:09:02,  1.39s/it]                                                           {'loss': 0.164, 'grad_norm': 1.2878581285476685, 'learning_rate': 2.32563373105176e-05, 'epoch': 7.26}
 30%|███       | 23743/78504 [14:25:52<21:09:02,  1.39s/it] 30%|███       | 23744/78504 [14:25:53<19:47:15,  1.30s/it]                                                           {'loss': 0.1712, 'grad_norm': 2.503309965133667, 'learning_rate': 2.325591270009766e-05, 'epoch': 7.26}
 30%|███       | 23744/78504 [14:25:53<19:47:15,  1.30s/it] 30%|███       | 23745/78504 [14:25:54<18:25:39,  1.21s/it]                                                           {'loss': 0.1452, 'grad_norm': 1.3379359245300293, 'learning_rate': 2.325548808967772e-05, 'epoch': 7.26}
 30%|███       | 23745/78504 [14:25:54<18:25:39,  1.21s/it] 30%|███       | 23746/78504 [14:25:55<17:11:21,  1.13s/it]                                                           {'loss': 0.1822, 'grad_norm': 1.1568659543991089, 'learning_rate': 2.325506347925778e-05, 'epoch': 7.26}
 30%|███       | 23746/78504 [14:25:55<17:11:21,  1.13s/it] 30%|███       | 23747/78504 [14:25:56<15:28:31,  1.02s/it]                                                           {'loss': 0.1776, 'grad_norm': 1.2100625038146973, 'learning_rate': 2.3254638868837842e-05, 'epoch': 7.26}
 30%|███       | 23747/78504 [14:25:56<15:28:31,  1.02s/it] 30%|███       | 23748/78504 [14:26:05<52:07:45,  3.43s/it]                                                           {'loss': 0.1386, 'grad_norm': 0.6170368194580078, 'learning_rate': 2.32542142584179e-05, 'epoch': 7.26}
 30%|███       | 23748/78504 [14:26:05<52:07:45,  3.43s/it] 30%|███       | 23749/78504 [14:26:08<51:47:23,  3.41s/it]                                                           {'loss': 0.086, 'grad_norm': 0.612281858921051, 'learning_rate': 2.3253789647997963e-05, 'epoch': 7.26}
 30%|███       | 23749/78504 [14:26:08<51:47:23,  3.41s/it] 30%|███       | 23750/78504 [14:26:11<49:32:03,  3.26s/it]                                                           {'loss': 0.0598, 'grad_norm': 0.28503143787384033, 'learning_rate': 2.325336503757802e-05, 'epoch': 7.26}
 30%|███       | 23750/78504 [14:26:11<49:32:03,  3.26s/it] 30%|███       | 23751/78504 [14:26:14<46:25:00,  3.05s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.20142380893230438, 'learning_rate': 2.325294042715808e-05, 'epoch': 7.26}
 30%|███       | 23751/78504 [14:26:14<46:25:00,  3.05s/it] 30%|███       | 23752/78504 [14:26:16<43:50:23,  2.88s/it]                                                           {'loss': 0.0645, 'grad_norm': 0.2998499274253845, 'learning_rate': 2.3252515816738142e-05, 'epoch': 7.26}
 30%|███       | 23752/78504 [14:26:16<43:50:23,  2.88s/it] 30%|███       | 23753/78504 [14:26:18<41:43:46,  2.74s/it]                                                           {'loss': 0.0496, 'grad_norm': 0.29830828309059143, 'learning_rate': 2.32520912063182e-05, 'epoch': 7.26}
 30%|███       | 23753/78504 [14:26:18<41:43:46,  2.74s/it] 30%|███       | 23754/78504 [14:26:21<39:47:20,  2.62s/it]                                                           {'loss': 0.0356, 'grad_norm': 0.4287185072898865, 'learning_rate': 2.3251666595898263e-05, 'epoch': 7.26}
 30%|███       | 23754/78504 [14:26:21<39:47:20,  2.62s/it] 30%|███       | 23755/78504 [14:26:23<38:22:11,  2.52s/it]                                                           {'loss': 0.084, 'grad_norm': 0.3068135380744934, 'learning_rate': 2.325124198547832e-05, 'epoch': 7.26}
 30%|███       | 23755/78504 [14:26:23<38:22:11,  2.52s/it] 30%|███       | 23756/78504 [14:26:25<36:49:57,  2.42s/it]                                                           {'loss': 0.0673, 'grad_norm': 0.2981056272983551, 'learning_rate': 2.3250817375058384e-05, 'epoch': 7.26}
 30%|███       | 23756/78504 [14:26:25<36:49:57,  2.42s/it] 30%|███       | 23757/78504 [14:26:28<36:34:21,  2.40s/it]                                                           {'loss': 0.0527, 'grad_norm': 0.372040331363678, 'learning_rate': 2.3250392764638442e-05, 'epoch': 7.26}
 30%|███       | 23757/78504 [14:26:28<36:34:21,  2.40s/it] 30%|███       | 23758/78504 [14:26:29<34:02:56,  2.24s/it]                                                           {'loss': 0.0828, 'grad_norm': 0.3581133782863617, 'learning_rate': 2.3249968154218504e-05, 'epoch': 7.26}
 30%|███       | 23758/78504 [14:26:30<34:02:56,  2.24s/it] 30%|███       | 23759/78504 [14:26:31<32:50:58,  2.16s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.32489287853240967, 'learning_rate': 2.3249543543798563e-05, 'epoch': 7.26}
 30%|███       | 23759/78504 [14:26:31<32:50:58,  2.16s/it] 30%|███       | 23760/78504 [14:26:33<31:44:29,  2.09s/it]                                                           {'loss': 0.0873, 'grad_norm': 0.932296633720398, 'learning_rate': 2.3249118933378625e-05, 'epoch': 7.26}
 30%|███       | 23760/78504 [14:26:33<31:44:29,  2.09s/it] 30%|███       | 23761/78504 [14:26:35<30:50:38,  2.03s/it]                                                           {'loss': 0.0938, 'grad_norm': 0.48477983474731445, 'learning_rate': 2.3248694322958687e-05, 'epoch': 7.26}
 30%|███       | 23761/78504 [14:26:35<30:50:38,  2.03s/it] 30%|███       | 23762/78504 [14:26:37<29:38:03,  1.95s/it]                                                           {'loss': 0.1348, 'grad_norm': 0.4643875062465668, 'learning_rate': 2.324826971253875e-05, 'epoch': 7.26}
 30%|███       | 23762/78504 [14:26:37<29:38:03,  1.95s/it] 30%|███       | 23763/78504 [14:26:39<27:57:02,  1.84s/it]                                                           {'loss': 0.0902, 'grad_norm': 0.29377666115760803, 'learning_rate': 2.3247845102118808e-05, 'epoch': 7.26}
 30%|███       | 23763/78504 [14:26:39<27:57:02,  1.84s/it] 30%|███       | 23764/78504 [14:26:40<26:28:11,  1.74s/it]                                                           {'loss': 0.1295, 'grad_norm': 1.107051968574524, 'learning_rate': 2.3247420491698867e-05, 'epoch': 7.27}
 30%|███       | 23764/78504 [14:26:40<26:28:11,  1.74s/it] 30%|███       | 23765/78504 [14:26:42<25:24:48,  1.67s/it]                                                           {'loss': 0.1437, 'grad_norm': 0.47522103786468506, 'learning_rate': 2.324699588127893e-05, 'epoch': 7.27}
 30%|███       | 23765/78504 [14:26:42<25:24:48,  1.67s/it] 30%|███       | 23766/78504 [14:26:43<24:14:57,  1.59s/it]                                                           {'loss': 0.1604, 'grad_norm': 0.435418963432312, 'learning_rate': 2.3246571270858988e-05, 'epoch': 7.27}
 30%|███       | 23766/78504 [14:26:43<24:14:57,  1.59s/it] 30%|███       | 23767/78504 [14:26:44<22:36:32,  1.49s/it]                                                           {'loss': 0.1515, 'grad_norm': 0.8480985164642334, 'learning_rate': 2.324614666043905e-05, 'epoch': 7.27}
 30%|███       | 23767/78504 [14:26:44<22:36:32,  1.49s/it] 30%|███       | 23768/78504 [14:26:45<21:19:33,  1.40s/it]                                                           {'loss': 0.1527, 'grad_norm': 0.6124703884124756, 'learning_rate': 2.324572205001911e-05, 'epoch': 7.27}
 30%|███       | 23768/78504 [14:26:46<21:19:33,  1.40s/it] 30%|███       | 23769/78504 [14:26:47<19:52:08,  1.31s/it]                                                           {'loss': 0.1507, 'grad_norm': 3.0419983863830566, 'learning_rate': 2.324529743959917e-05, 'epoch': 7.27}
 30%|███       | 23769/78504 [14:26:47<19:52:08,  1.31s/it] 30%|███       | 23770/78504 [14:26:48<18:41:09,  1.23s/it]                                                           {'loss': 0.1688, 'grad_norm': 0.6224229335784912, 'learning_rate': 2.324487282917923e-05, 'epoch': 7.27}
 30%|███       | 23770/78504 [14:26:48<18:41:09,  1.23s/it] 30%|███       | 23771/78504 [14:26:49<17:21:57,  1.14s/it]                                                           {'loss': 0.2141, 'grad_norm': 2.234553575515747, 'learning_rate': 2.324444821875929e-05, 'epoch': 7.27}
 30%|███       | 23771/78504 [14:26:49<17:21:57,  1.14s/it] 30%|███       | 23772/78504 [14:26:49<15:48:34,  1.04s/it]                                                           {'loss': 0.224, 'grad_norm': 0.8151829242706299, 'learning_rate': 2.324402360833935e-05, 'epoch': 7.27}
 30%|███       | 23772/78504 [14:26:49<15:48:34,  1.04s/it] 30%|███       | 23773/78504 [14:26:59<53:06:41,  3.49s/it]                                                           {'loss': 0.1294, 'grad_norm': 0.5124159455299377, 'learning_rate': 2.3243598997919412e-05, 'epoch': 7.27}
 30%|███       | 23773/78504 [14:26:59<53:06:41,  3.49s/it] 30%|███       | 23774/78504 [14:27:02<52:01:55,  3.42s/it]                                                           {'loss': 0.0582, 'grad_norm': 0.2508696913719177, 'learning_rate': 2.324317438749947e-05, 'epoch': 7.27}
 30%|███       | 23774/78504 [14:27:02<52:01:55,  3.42s/it] 30%|███       | 23775/78504 [14:27:05<49:59:42,  3.29s/it]                                                           {'loss': 0.0781, 'grad_norm': 0.9982229471206665, 'learning_rate': 2.3242749777079533e-05, 'epoch': 7.27}
 30%|███       | 23775/78504 [14:27:05<49:59:42,  3.29s/it] 30%|███       | 23776/78504 [14:27:07<46:49:08,  3.08s/it]                                                           {'loss': 0.0519, 'grad_norm': 0.1696411818265915, 'learning_rate': 2.324232516665959e-05, 'epoch': 7.27}
 30%|███       | 23776/78504 [14:27:07<46:49:08,  3.08s/it] 30%|███       | 23777/78504 [14:27:10<43:29:53,  2.86s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.19217020273208618, 'learning_rate': 2.324190055623965e-05, 'epoch': 7.27}
 30%|███       | 23777/78504 [14:27:10<43:29:53,  2.86s/it] 30%|███       | 23778/78504 [14:27:12<40:45:42,  2.68s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.3116132318973541, 'learning_rate': 2.3241475945819712e-05, 'epoch': 7.27}
 30%|███       | 23778/78504 [14:27:12<40:45:42,  2.68s/it] 30%|███       | 23779/78504 [14:27:14<39:05:50,  2.57s/it]                                                           {'loss': 0.058, 'grad_norm': 0.25774896144866943, 'learning_rate': 2.324105133539977e-05, 'epoch': 7.27}
 30%|███       | 23779/78504 [14:27:14<39:05:50,  2.57s/it] 30%|███       | 23780/78504 [14:27:16<36:53:43,  2.43s/it]                                                           {'loss': 0.0421, 'grad_norm': 0.3285776972770691, 'learning_rate': 2.3240626724979833e-05, 'epoch': 7.27}
 30%|███       | 23780/78504 [14:27:16<36:53:43,  2.43s/it] 30%|███       | 23781/78504 [14:27:19<35:45:50,  2.35s/it]                                                           {'loss': 0.0902, 'grad_norm': 0.6755558252334595, 'learning_rate': 2.3240202114559892e-05, 'epoch': 7.27}
 30%|███       | 23781/78504 [14:27:19<35:45:50,  2.35s/it] 30%|███       | 23782/78504 [14:27:21<34:47:07,  2.29s/it]                                                           {'loss': 0.0767, 'grad_norm': 1.2839343547821045, 'learning_rate': 2.3239777504139954e-05, 'epoch': 7.27}
 30%|███       | 23782/78504 [14:27:21<34:47:07,  2.29s/it] 30%|███       | 23783/78504 [14:27:23<33:35:07,  2.21s/it]                                                           {'loss': 0.0946, 'grad_norm': 0.8022035360336304, 'learning_rate': 2.3239352893720013e-05, 'epoch': 7.27}
 30%|███       | 23783/78504 [14:27:23<33:35:07,  2.21s/it] 30%|███       | 23784/78504 [14:27:25<32:31:51,  2.14s/it]                                                           {'loss': 0.0731, 'grad_norm': 0.28710445761680603, 'learning_rate': 2.3238928283300075e-05, 'epoch': 7.27}
 30%|███       | 23784/78504 [14:27:25<32:31:51,  2.14s/it] 30%|███       | 23785/78504 [14:27:27<31:15:10,  2.06s/it]                                                           {'loss': 0.0909, 'grad_norm': 1.2620956897735596, 'learning_rate': 2.3238503672880133e-05, 'epoch': 7.27}
 30%|███       | 23785/78504 [14:27:27<31:15:10,  2.06s/it] 30%|███       | 23786/78504 [14:27:28<30:24:29,  2.00s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.7456585764884949, 'learning_rate': 2.3238079062460196e-05, 'epoch': 7.27}
 30%|███       | 23786/78504 [14:27:29<30:24:29,  2.00s/it] 30%|███       | 23787/78504 [14:27:30<29:19:48,  1.93s/it]                                                           {'loss': 0.0952, 'grad_norm': 0.28476881980895996, 'learning_rate': 2.3237654452040254e-05, 'epoch': 7.27}
 30%|███       | 23787/78504 [14:27:30<29:19:48,  1.93s/it] 30%|███       | 23788/78504 [14:27:32<28:01:53,  1.84s/it]                                                           {'loss': 0.1547, 'grad_norm': 0.680684506893158, 'learning_rate': 2.3237229841620316e-05, 'epoch': 7.27}
 30%|███       | 23788/78504 [14:27:32<28:01:53,  1.84s/it] 30%|███       | 23789/78504 [14:27:33<26:40:21,  1.75s/it]                                                           {'loss': 0.1009, 'grad_norm': 0.6757149696350098, 'learning_rate': 2.3236805231200375e-05, 'epoch': 7.27}
 30%|███       | 23789/78504 [14:27:33<26:40:21,  1.75s/it] 30%|███       | 23790/78504 [14:27:35<25:21:34,  1.67s/it]                                                           {'loss': 0.181, 'grad_norm': 0.6952542066574097, 'learning_rate': 2.3236380620780434e-05, 'epoch': 7.27}
 30%|███       | 23790/78504 [14:27:35<25:21:34,  1.67s/it] 30%|███       | 23791/78504 [14:27:36<24:04:42,  1.58s/it]                                                           {'loss': 0.1388, 'grad_norm': 0.9310382604598999, 'learning_rate': 2.3235956010360496e-05, 'epoch': 7.27}
 30%|███       | 23791/78504 [14:27:36<24:04:42,  1.58s/it] 30%|███       | 23792/78504 [14:27:38<22:39:53,  1.49s/it]                                                           {'loss': 0.1569, 'grad_norm': 2.1101839542388916, 'learning_rate': 2.3235531399940554e-05, 'epoch': 7.27}
 30%|███       | 23792/78504 [14:27:38<22:39:53,  1.49s/it] 30%|███       | 23793/78504 [14:27:39<21:07:25,  1.39s/it]                                                           {'loss': 0.1561, 'grad_norm': 1.1486607789993286, 'learning_rate': 2.3235106789520617e-05, 'epoch': 7.27}
 30%|███       | 23793/78504 [14:27:39<21:07:25,  1.39s/it] 30%|███       | 23794/78504 [14:27:40<19:49:44,  1.30s/it]                                                           {'loss': 0.1572, 'grad_norm': 1.4883836507797241, 'learning_rate': 2.3234682179100675e-05, 'epoch': 7.27}
 30%|███       | 23794/78504 [14:27:40<19:49:44,  1.30s/it] 30%|███       | 23795/78504 [14:27:41<18:24:48,  1.21s/it]                                                           {'loss': 0.1597, 'grad_norm': 3.606260061264038, 'learning_rate': 2.3234257568680737e-05, 'epoch': 7.27}
 30%|███       | 23795/78504 [14:27:41<18:24:48,  1.21s/it] 30%|███       | 23796/78504 [14:27:42<17:07:29,  1.13s/it]                                                           {'loss': 0.1836, 'grad_norm': 0.784544050693512, 'learning_rate': 2.3233832958260796e-05, 'epoch': 7.27}
 30%|███       | 23796/78504 [14:27:42<17:07:29,  1.13s/it] 30%|███       | 23797/78504 [14:27:43<15:32:14,  1.02s/it]                                                           {'loss': 0.2561, 'grad_norm': 1.2223987579345703, 'learning_rate': 2.3233408347840858e-05, 'epoch': 7.28}
 30%|███       | 23797/78504 [14:27:43<15:32:14,  1.02s/it] 30%|███       | 23798/78504 [14:27:51<47:26:59,  3.12s/it]                                                           {'loss': 0.1135, 'grad_norm': 0.3682945668697357, 'learning_rate': 2.3232983737420917e-05, 'epoch': 7.28}
 30%|███       | 23798/78504 [14:27:51<47:26:59,  3.12s/it] 30%|███       | 23799/78504 [14:27:54<48:15:29,  3.18s/it]                                                           {'loss': 0.0674, 'grad_norm': 0.3608521819114685, 'learning_rate': 2.323255912700098e-05, 'epoch': 7.28}
 30%|███       | 23799/78504 [14:27:54<48:15:29,  3.18s/it] 30%|███       | 23800/78504 [14:27:57<47:05:38,  3.10s/it]                                                           {'loss': 0.0778, 'grad_norm': 0.32096946239471436, 'learning_rate': 2.3232134516581038e-05, 'epoch': 7.28}
 30%|███       | 23800/78504 [14:27:57<47:05:38,  3.10s/it] 30%|███       | 23801/78504 [14:27:59<44:52:24,  2.95s/it]                                                           {'loss': 0.0675, 'grad_norm': 0.2516865134239197, 'learning_rate': 2.32317099061611e-05, 'epoch': 7.28}
 30%|███       | 23801/78504 [14:27:59<44:52:24,  2.95s/it] 30%|███       | 23802/78504 [14:28:02<42:45:57,  2.81s/it]                                                           {'loss': 0.0388, 'grad_norm': 0.21718594431877136, 'learning_rate': 2.323128529574116e-05, 'epoch': 7.28}
 30%|███       | 23802/78504 [14:28:02<42:45:57,  2.81s/it] 30%|███       | 23803/78504 [14:28:04<40:59:35,  2.70s/it]                                                           {'loss': 0.0556, 'grad_norm': 0.25808700919151306, 'learning_rate': 2.3230860685321217e-05, 'epoch': 7.28}
 30%|███       | 23803/78504 [14:28:04<40:59:35,  2.70s/it] 30%|███       | 23804/78504 [14:28:07<39:14:16,  2.58s/it]                                                           {'loss': 0.0353, 'grad_norm': 0.14768345654010773, 'learning_rate': 2.323043607490128e-05, 'epoch': 7.28}
 30%|███       | 23804/78504 [14:28:07<39:14:16,  2.58s/it] 30%|███       | 23805/78504 [14:28:09<37:05:44,  2.44s/it]                                                           {'loss': 0.0611, 'grad_norm': 0.26673921942710876, 'learning_rate': 2.3230011464481338e-05, 'epoch': 7.28}
 30%|███       | 23805/78504 [14:28:09<37:05:44,  2.44s/it] 30%|███       | 23806/78504 [14:28:11<35:56:50,  2.37s/it]                                                           {'loss': 0.0557, 'grad_norm': 0.27328744530677795, 'learning_rate': 2.32295868540614e-05, 'epoch': 7.28}
 30%|███       | 23806/78504 [14:28:11<35:56:50,  2.37s/it] 30%|███       | 23807/78504 [14:28:13<35:01:41,  2.31s/it]                                                           {'loss': 0.0566, 'grad_norm': 0.5546548962593079, 'learning_rate': 2.322916224364146e-05, 'epoch': 7.28}
 30%|███       | 23807/78504 [14:28:13<35:01:41,  2.31s/it] 30%|███       | 23808/78504 [14:28:15<33:45:17,  2.22s/it]                                                           {'loss': 0.1123, 'grad_norm': 1.2917226552963257, 'learning_rate': 2.322873763322152e-05, 'epoch': 7.28}
 30%|███       | 23808/78504 [14:28:15<33:45:17,  2.22s/it] 30%|███       | 23809/78504 [14:28:17<32:38:23,  2.15s/it]                                                           {'loss': 0.0936, 'grad_norm': 0.6455583572387695, 'learning_rate': 2.322831302280158e-05, 'epoch': 7.28}
 30%|███       | 23809/78504 [14:28:17<32:38:23,  2.15s/it] 30%|███       | 23810/78504 [14:28:19<31:22:01,  2.06s/it]                                                           {'loss': 0.0654, 'grad_norm': 0.4846774935722351, 'learning_rate': 2.322788841238164e-05, 'epoch': 7.28}
 30%|███       | 23810/78504 [14:28:19<31:22:01,  2.06s/it] 30%|███       | 23811/78504 [14:28:21<30:21:19,  2.00s/it]                                                           {'loss': 0.1289, 'grad_norm': 0.573660671710968, 'learning_rate': 2.32274638019617e-05, 'epoch': 7.28}
 30%|███       | 23811/78504 [14:28:21<30:21:19,  2.00s/it] 30%|███       | 23812/78504 [14:28:22<28:51:15,  1.90s/it]                                                           {'loss': 0.1189, 'grad_norm': 0.5390806198120117, 'learning_rate': 2.3227039191541762e-05, 'epoch': 7.28}
 30%|███       | 23812/78504 [14:28:22<28:51:15,  1.90s/it] 30%|███       | 23813/78504 [14:28:24<27:41:00,  1.82s/it]                                                           {'loss': 0.1335, 'grad_norm': 0.40413886308670044, 'learning_rate': 2.322661458112182e-05, 'epoch': 7.28}
 30%|███       | 23813/78504 [14:28:24<27:41:00,  1.82s/it] 30%|███       | 23814/78504 [14:28:26<26:17:11,  1.73s/it]                                                           {'loss': 0.1444, 'grad_norm': 0.8877401351928711, 'learning_rate': 2.3226189970701883e-05, 'epoch': 7.28}
 30%|███       | 23814/78504 [14:28:26<26:17:11,  1.73s/it] 30%|███       | 23815/78504 [14:28:27<25:06:55,  1.65s/it]                                                           {'loss': 0.1601, 'grad_norm': 0.8697389960289001, 'learning_rate': 2.3225765360281942e-05, 'epoch': 7.28}
 30%|███       | 23815/78504 [14:28:27<25:06:55,  1.65s/it] 30%|███       | 23816/78504 [14:28:29<24:02:39,  1.58s/it]                                                           {'loss': 0.1547, 'grad_norm': 1.0678263902664185, 'learning_rate': 2.3225340749862e-05, 'epoch': 7.28}
 30%|███       | 23816/78504 [14:28:29<24:02:39,  1.58s/it] 30%|███       | 23817/78504 [14:28:30<22:25:03,  1.48s/it]                                                           {'loss': 0.1934, 'grad_norm': 1.5194889307022095, 'learning_rate': 2.3224916139442063e-05, 'epoch': 7.28}
 30%|███       | 23817/78504 [14:28:30<22:25:03,  1.48s/it] 30%|███       | 23818/78504 [14:28:31<20:51:56,  1.37s/it]                                                           {'loss': 0.1664, 'grad_norm': 0.8860782980918884, 'learning_rate': 2.322449152902212e-05, 'epoch': 7.28}
 30%|███       | 23818/78504 [14:28:31<20:51:56,  1.37s/it] 30%|███       | 23819/78504 [14:28:32<19:34:23,  1.29s/it]                                                           {'loss': 0.1703, 'grad_norm': 1.2239643335342407, 'learning_rate': 2.3224066918602183e-05, 'epoch': 7.28}
 30%|███       | 23819/78504 [14:28:32<19:34:23,  1.29s/it] 30%|███       | 23820/78504 [14:28:33<18:12:30,  1.20s/it]                                                           {'loss': 0.1775, 'grad_norm': 1.2048522233963013, 'learning_rate': 2.3223642308182242e-05, 'epoch': 7.28}
 30%|███       | 23820/78504 [14:28:33<18:12:30,  1.20s/it] 30%|███       | 23821/78504 [14:28:34<17:01:46,  1.12s/it]                                                           {'loss': 0.215, 'grad_norm': 1.4706958532333374, 'learning_rate': 2.3223217697762304e-05, 'epoch': 7.28}
 30%|███       | 23821/78504 [14:28:34<17:01:46,  1.12s/it] 30%|███       | 23822/78504 [14:28:35<15:28:23,  1.02s/it]                                                           {'loss': 0.2086, 'grad_norm': 3.5317749977111816, 'learning_rate': 2.3222793087342363e-05, 'epoch': 7.28}
 30%|███       | 23822/78504 [14:28:35<15:28:23,  1.02s/it] 30%|███       | 23823/78504 [14:28:43<49:42:52,  3.27s/it]                                                           {'loss': 0.1248, 'grad_norm': 0.34920844435691833, 'learning_rate': 2.3222368476922425e-05, 'epoch': 7.28}
 30%|███       | 23823/78504 [14:28:43<49:42:52,  3.27s/it] 30%|███       | 23824/78504 [14:28:46<49:38:24,  3.27s/it]                                                           {'loss': 0.0744, 'grad_norm': 0.8708038330078125, 'learning_rate': 2.3221943866502484e-05, 'epoch': 7.28}
 30%|███       | 23824/78504 [14:28:46<49:38:24,  3.27s/it] 30%|███       | 23825/78504 [14:28:49<47:06:03,  3.10s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.38900867104530334, 'learning_rate': 2.3221519256082546e-05, 'epoch': 7.28}
 30%|███       | 23825/78504 [14:28:49<47:06:03,  3.10s/it] 30%|███       | 23826/78504 [14:28:52<44:47:18,  2.95s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.5158032178878784, 'learning_rate': 2.3221094645662605e-05, 'epoch': 7.28}
 30%|███       | 23826/78504 [14:28:52<44:47:18,  2.95s/it] 30%|███       | 23827/78504 [14:28:54<42:40:34,  2.81s/it]                                                           {'loss': 0.0684, 'grad_norm': 0.47443437576293945, 'learning_rate': 2.3220670035242667e-05, 'epoch': 7.28}
 30%|███       | 23827/78504 [14:28:54<42:40:34,  2.81s/it] 30%|███       | 23828/78504 [14:28:56<39:50:46,  2.62s/it]                                                           {'loss': 0.0451, 'grad_norm': 0.47119998931884766, 'learning_rate': 2.3220245424822725e-05, 'epoch': 7.28}
 30%|███       | 23828/78504 [14:28:56<39:50:46,  2.62s/it] 30%|███       | 23829/78504 [14:28:59<38:28:35,  2.53s/it]                                                           {'loss': 0.0734, 'grad_norm': 0.2534792125225067, 'learning_rate': 2.3219820814402784e-05, 'epoch': 7.28}
 30%|███       | 23829/78504 [14:28:59<38:28:35,  2.53s/it] 30%|███       | 23830/78504 [14:29:01<36:16:44,  2.39s/it]                                                           {'loss': 0.0525, 'grad_norm': 3.705641031265259, 'learning_rate': 2.3219396203982846e-05, 'epoch': 7.29}
 30%|███       | 23830/78504 [14:29:01<36:16:44,  2.39s/it] 30%|███       | 23831/78504 [14:29:03<35:25:35,  2.33s/it]                                                           {'loss': 0.0833, 'grad_norm': 0.2713260352611542, 'learning_rate': 2.3218971593562905e-05, 'epoch': 7.29}
 30%|███       | 23831/78504 [14:29:03<35:25:35,  2.33s/it] 30%|███       | 23832/78504 [14:29:05<34:30:34,  2.27s/it]                                                           {'loss': 0.0533, 'grad_norm': 0.20460495352745056, 'learning_rate': 2.3218546983142967e-05, 'epoch': 7.29}
 30%|███       | 23832/78504 [14:29:05<34:30:34,  2.27s/it] 30%|███       | 23833/78504 [14:29:07<33:12:57,  2.19s/it]                                                           {'loss': 0.0896, 'grad_norm': 1.04416823387146, 'learning_rate': 2.3218122372723026e-05, 'epoch': 7.29}
 30%|███       | 23833/78504 [14:29:07<33:12:57,  2.19s/it] 30%|███       | 23834/78504 [14:29:09<31:27:49,  2.07s/it]                                                           {'loss': 0.078, 'grad_norm': 0.26077309250831604, 'learning_rate': 2.3217697762303088e-05, 'epoch': 7.29}
 30%|███       | 23834/78504 [14:29:09<31:27:49,  2.07s/it] 30%|███       | 23835/78504 [14:29:11<30:28:13,  2.01s/it]                                                           {'loss': 0.0881, 'grad_norm': 1.1468485593795776, 'learning_rate': 2.3217273151883146e-05, 'epoch': 7.29}
 30%|███       | 23835/78504 [14:29:11<30:28:13,  2.01s/it] 30%|███       | 23836/78504 [14:29:13<29:42:58,  1.96s/it]                                                           {'loss': 0.0872, 'grad_norm': 0.2716189920902252, 'learning_rate': 2.321684854146321e-05, 'epoch': 7.29}
 30%|███       | 23836/78504 [14:29:13<29:42:58,  1.96s/it] 30%|███       | 23837/78504 [14:29:14<28:41:34,  1.89s/it]                                                           {'loss': 0.1229, 'grad_norm': 0.28022170066833496, 'learning_rate': 2.3216423931043267e-05, 'epoch': 7.29}
 30%|███       | 23837/78504 [14:29:14<28:41:34,  1.89s/it] 30%|███       | 23838/78504 [14:29:16<27:33:53,  1.82s/it]                                                           {'loss': 0.1201, 'grad_norm': 3.7536308765411377, 'learning_rate': 2.321599932062333e-05, 'epoch': 7.29}
 30%|███       | 23838/78504 [14:29:16<27:33:53,  1.82s/it] 30%|███       | 23839/78504 [14:29:18<26:18:39,  1.73s/it]                                                           {'loss': 0.1475, 'grad_norm': 1.5540374517440796, 'learning_rate': 2.3215574710203388e-05, 'epoch': 7.29}
 30%|███       | 23839/78504 [14:29:18<26:18:39,  1.73s/it] 30%|███       | 23840/78504 [14:29:19<24:56:41,  1.64s/it]                                                           {'loss': 0.1527, 'grad_norm': 2.320582151412964, 'learning_rate': 2.321515009978345e-05, 'epoch': 7.29}
 30%|███       | 23840/78504 [14:29:19<24:56:41,  1.64s/it] 30%|███       | 23841/78504 [14:29:20<23:52:31,  1.57s/it]                                                           {'loss': 0.1757, 'grad_norm': 0.6754719018936157, 'learning_rate': 2.321472548936351e-05, 'epoch': 7.29}
 30%|███       | 23841/78504 [14:29:20<23:52:31,  1.57s/it] 30%|███       | 23842/78504 [14:29:22<22:15:52,  1.47s/it]                                                           {'loss': 0.1742, 'grad_norm': 0.8668972849845886, 'learning_rate': 2.3214300878943567e-05, 'epoch': 7.29}
 30%|███       | 23842/78504 [14:29:22<22:15:52,  1.47s/it] 30%|███       | 23843/78504 [14:29:23<20:51:51,  1.37s/it]                                                           {'loss': 0.1679, 'grad_norm': 0.5367320775985718, 'learning_rate': 2.321387626852363e-05, 'epoch': 7.29}
 30%|███       | 23843/78504 [14:29:23<20:51:51,  1.37s/it] 30%|███       | 23844/78504 [14:29:24<19:36:08,  1.29s/it]                                                           {'loss': 0.185, 'grad_norm': 0.5318883657455444, 'learning_rate': 2.3213451658103688e-05, 'epoch': 7.29}
 30%|███       | 23844/78504 [14:29:24<19:36:08,  1.29s/it] 30%|███       | 23845/78504 [14:29:25<18:14:52,  1.20s/it]                                                           {'loss': 0.1836, 'grad_norm': 0.6772513389587402, 'learning_rate': 2.321302704768375e-05, 'epoch': 7.29}
 30%|███       | 23845/78504 [14:29:25<18:14:52,  1.20s/it] 30%|███       | 23846/78504 [14:29:26<17:04:23,  1.12s/it]                                                           {'loss': 0.2044, 'grad_norm': 6.775463581085205, 'learning_rate': 2.321260243726381e-05, 'epoch': 7.29}
 30%|███       | 23846/78504 [14:29:26<17:04:23,  1.12s/it] 30%|███       | 23847/78504 [14:29:27<15:29:25,  1.02s/it]                                                           {'loss': 0.2219, 'grad_norm': 1.4887217283248901, 'learning_rate': 2.321217782684387e-05, 'epoch': 7.29}
 30%|███       | 23847/78504 [14:29:27<15:29:25,  1.02s/it] 30%|███       | 23848/78504 [14:29:35<48:46:44,  3.21s/it]                                                           {'loss': 0.1675, 'grad_norm': 0.7553520202636719, 'learning_rate': 2.321175321642393e-05, 'epoch': 7.29}
 30%|███       | 23848/78504 [14:29:35<48:46:44,  3.21s/it] 30%|███       | 23849/78504 [14:29:38<48:13:55,  3.18s/it]                                                           {'loss': 0.0796, 'grad_norm': 0.47593313455581665, 'learning_rate': 2.3211328606003992e-05, 'epoch': 7.29}
 30%|███       | 23849/78504 [14:29:38<48:13:55,  3.18s/it] 30%|███       | 23850/78504 [14:29:41<45:27:03,  2.99s/it]                                                           {'loss': 0.0725, 'grad_norm': 0.2691708207130432, 'learning_rate': 2.321090399558405e-05, 'epoch': 7.29}
 30%|███       | 23850/78504 [14:29:41<45:27:03,  2.99s/it] 30%|███       | 23851/78504 [14:29:43<43:43:48,  2.88s/it]                                                           {'loss': 0.0657, 'grad_norm': 0.2981351912021637, 'learning_rate': 2.3210479385164113e-05, 'epoch': 7.29}
 30%|███       | 23851/78504 [14:29:43<43:43:48,  2.88s/it] 30%|███       | 23852/78504 [14:29:46<41:51:46,  2.76s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.22296224534511566, 'learning_rate': 2.321005477474417e-05, 'epoch': 7.29}
 30%|███       | 23852/78504 [14:29:46<41:51:46,  2.76s/it] 30%|███       | 23853/78504 [14:29:48<39:36:43,  2.61s/it]                                                           {'loss': 0.06, 'grad_norm': 0.2979072034358978, 'learning_rate': 2.320963016432423e-05, 'epoch': 7.29}
 30%|███       | 23853/78504 [14:29:48<39:36:43,  2.61s/it] 30%|███       | 23854/78504 [14:29:50<38:15:29,  2.52s/it]                                                           {'loss': 0.0584, 'grad_norm': 0.23715132474899292, 'learning_rate': 2.3209205553904292e-05, 'epoch': 7.29}
 30%|███       | 23854/78504 [14:29:50<38:15:29,  2.52s/it] 30%|███       | 23855/78504 [14:29:52<36:24:36,  2.40s/it]                                                           {'loss': 0.0747, 'grad_norm': 0.5764185190200806, 'learning_rate': 2.320878094348435e-05, 'epoch': 7.29}
 30%|███       | 23855/78504 [14:29:52<36:24:36,  2.40s/it] 30%|███       | 23856/78504 [14:29:55<35:28:03,  2.34s/it]                                                           {'loss': 0.04, 'grad_norm': 0.42383432388305664, 'learning_rate': 2.3208356333064413e-05, 'epoch': 7.29}
 30%|███       | 23856/78504 [14:29:55<35:28:03,  2.34s/it] 30%|███       | 23857/78504 [14:29:57<34:41:32,  2.29s/it]                                                           {'loss': 0.0664, 'grad_norm': 0.6391013860702515, 'learning_rate': 2.320793172264447e-05, 'epoch': 7.29}
 30%|███       | 23857/78504 [14:29:57<34:41:32,  2.29s/it] 30%|███       | 23858/78504 [14:29:59<32:48:52,  2.16s/it]                                                           {'loss': 0.0696, 'grad_norm': 0.4598758816719055, 'learning_rate': 2.3207507112224534e-05, 'epoch': 7.29}
 30%|███       | 23858/78504 [14:29:59<32:48:52,  2.16s/it] 30%|███       | 23859/78504 [14:30:01<31:59:13,  2.11s/it]                                                           {'loss': 0.0621, 'grad_norm': 0.526427149772644, 'learning_rate': 2.3207082501804592e-05, 'epoch': 7.29}
 30%|███       | 23859/78504 [14:30:01<31:59:13,  2.11s/it] 30%|███       | 23860/78504 [14:30:02<31:08:50,  2.05s/it]                                                           {'loss': 0.0992, 'grad_norm': 0.466989129781723, 'learning_rate': 2.3206657891384655e-05, 'epoch': 7.29}
 30%|███       | 23860/78504 [14:30:03<31:08:50,  2.05s/it] 30%|███       | 23861/78504 [14:30:04<30:21:54,  2.00s/it]                                                           {'loss': 0.0922, 'grad_norm': 0.48408326506614685, 'learning_rate': 2.3206233280964713e-05, 'epoch': 7.29}
 30%|███       | 23861/78504 [14:30:04<30:21:54,  2.00s/it] 30%|███       | 23862/78504 [14:30:06<29:16:30,  1.93s/it]                                                           {'loss': 0.0893, 'grad_norm': 0.39424270391464233, 'learning_rate': 2.3205808670544775e-05, 'epoch': 7.3}
 30%|███       | 23862/78504 [14:30:06<29:16:30,  1.93s/it] 30%|███       | 23863/78504 [14:30:08<28:00:39,  1.85s/it]                                                           {'loss': 0.1066, 'grad_norm': 0.3795454502105713, 'learning_rate': 2.3205384060124837e-05, 'epoch': 7.3}
 30%|███       | 23863/78504 [14:30:08<28:00:39,  1.85s/it] 30%|███       | 23864/78504 [14:30:09<26:38:58,  1.76s/it]                                                           {'loss': 0.1285, 'grad_norm': 0.6522400975227356, 'learning_rate': 2.32049594497049e-05, 'epoch': 7.3}
 30%|███       | 23864/78504 [14:30:09<26:38:58,  1.76s/it] 30%|███       | 23865/78504 [14:30:11<25:19:24,  1.67s/it]                                                           {'loss': 0.1174, 'grad_norm': 0.5838062167167664, 'learning_rate': 2.3204534839284958e-05, 'epoch': 7.3}
 30%|███       | 23865/78504 [14:30:11<25:19:24,  1.67s/it] 30%|███       | 23866/78504 [14:30:12<24:09:05,  1.59s/it]                                                           {'loss': 0.1331, 'grad_norm': 0.4402773976325989, 'learning_rate': 2.3204110228865017e-05, 'epoch': 7.3}
 30%|███       | 23866/78504 [14:30:12<24:09:05,  1.59s/it] 30%|███       | 23867/78504 [14:30:13<22:46:32,  1.50s/it]                                                           {'loss': 0.1442, 'grad_norm': 0.7123770713806152, 'learning_rate': 2.320368561844508e-05, 'epoch': 7.3}
 30%|███       | 23867/78504 [14:30:14<22:46:32,  1.50s/it] 30%|███       | 23868/78504 [14:30:15<21:11:18,  1.40s/it]                                                           {'loss': 0.1667, 'grad_norm': 0.571160614490509, 'learning_rate': 2.3203261008025138e-05, 'epoch': 7.3}
 30%|███       | 23868/78504 [14:30:15<21:11:18,  1.40s/it] 30%|███       | 23869/78504 [14:30:16<19:46:46,  1.30s/it]                                                           {'loss': 0.1765, 'grad_norm': 0.6983046531677246, 'learning_rate': 2.32028363976052e-05, 'epoch': 7.3}
 30%|███       | 23869/78504 [14:30:16<19:46:46,  1.30s/it] 30%|███       | 23870/78504 [14:30:17<18:36:37,  1.23s/it]                                                           {'loss': 0.2147, 'grad_norm': 0.633408784866333, 'learning_rate': 2.320241178718526e-05, 'epoch': 7.3}
 30%|███       | 23870/78504 [14:30:17<18:36:37,  1.23s/it] 30%|███       | 23871/78504 [14:30:18<17:15:51,  1.14s/it]                                                           {'loss': 0.1552, 'grad_norm': 0.9154729247093201, 'learning_rate': 2.320198717676532e-05, 'epoch': 7.3}
 30%|███       | 23871/78504 [14:30:18<17:15:51,  1.14s/it] 30%|███       | 23872/78504 [14:30:19<15:45:17,  1.04s/it]                                                           {'loss': 0.2118, 'grad_norm': 2.1865878105163574, 'learning_rate': 2.320156256634538e-05, 'epoch': 7.3}
 30%|███       | 23872/78504 [14:30:19<15:45:17,  1.04s/it] 30%|███       | 23873/78504 [14:30:27<48:54:16,  3.22s/it]                                                           {'loss': 0.1419, 'grad_norm': 1.2641278505325317, 'learning_rate': 2.320113795592544e-05, 'epoch': 7.3}
 30%|███       | 23873/78504 [14:30:27<48:54:16,  3.22s/it] 30%|███       | 23874/78504 [14:30:30<49:04:31,  3.23s/it]                                                           {'loss': 0.0656, 'grad_norm': 0.2361089140176773, 'learning_rate': 2.32007133455055e-05, 'epoch': 7.3}
 30%|███       | 23874/78504 [14:30:30<49:04:31,  3.23s/it] 30%|███       | 23875/78504 [14:30:33<48:02:50,  3.17s/it]                                                           {'loss': 0.0919, 'grad_norm': 0.3454267382621765, 'learning_rate': 2.3200288735085562e-05, 'epoch': 7.3}
 30%|███       | 23875/78504 [14:30:33<48:02:50,  3.17s/it] 30%|███       | 23876/78504 [14:30:36<45:20:40,  2.99s/it]                                                           {'loss': 0.0623, 'grad_norm': 0.3168964087963104, 'learning_rate': 2.319986412466562e-05, 'epoch': 7.3}
 30%|███       | 23876/78504 [14:30:36<45:20:40,  2.99s/it] 30%|███       | 23877/78504 [14:30:38<43:00:20,  2.83s/it]                                                           {'loss': 0.0645, 'grad_norm': 1.473423957824707, 'learning_rate': 2.3199439514245683e-05, 'epoch': 7.3}
 30%|███       | 23877/78504 [14:30:38<43:00:20,  2.83s/it] 30%|███       | 23878/78504 [14:30:40<40:24:58,  2.66s/it]                                                           {'loss': 0.0432, 'grad_norm': 0.15473470091819763, 'learning_rate': 2.319901490382574e-05, 'epoch': 7.3}
 30%|███       | 23878/78504 [14:30:40<40:24:58,  2.66s/it] 30%|███       | 23879/78504 [14:30:43<38:49:56,  2.56s/it]                                                           {'loss': 0.0497, 'grad_norm': 0.3272840976715088, 'learning_rate': 2.31985902934058e-05, 'epoch': 7.3}
 30%|███       | 23879/78504 [14:30:43<38:49:56,  2.56s/it] 30%|███       | 23880/78504 [14:30:45<36:45:49,  2.42s/it]                                                           {'loss': 0.0647, 'grad_norm': 0.2878062129020691, 'learning_rate': 2.3198165682985862e-05, 'epoch': 7.3}
 30%|███       | 23880/78504 [14:30:45<36:45:49,  2.42s/it] 30%|███       | 23881/78504 [14:30:47<35:41:10,  2.35s/it]                                                           {'loss': 0.0914, 'grad_norm': 0.4353795051574707, 'learning_rate': 2.319774107256592e-05, 'epoch': 7.3}
 30%|███       | 23881/78504 [14:30:47<35:41:10,  2.35s/it] 30%|███       | 23882/78504 [14:30:49<34:43:18,  2.29s/it]                                                           {'loss': 0.0765, 'grad_norm': 0.46554169058799744, 'learning_rate': 2.3197316462145983e-05, 'epoch': 7.3}
 30%|███       | 23882/78504 [14:30:49<34:43:18,  2.29s/it] 30%|███       | 23883/78504 [14:30:51<33:20:42,  2.20s/it]                                                           {'loss': 0.0678, 'grad_norm': 0.3869338631629944, 'learning_rate': 2.3196891851726042e-05, 'epoch': 7.3}
 30%|███       | 23883/78504 [14:30:51<33:20:42,  2.20s/it] 30%|███       | 23884/78504 [14:30:53<32:22:05,  2.13s/it]                                                           {'loss': 0.0728, 'grad_norm': 0.3823343515396118, 'learning_rate': 2.3196467241306104e-05, 'epoch': 7.3}
 30%|███       | 23884/78504 [14:30:53<32:22:05,  2.13s/it] 30%|███       | 23885/78504 [14:30:55<31:08:44,  2.05s/it]                                                           {'loss': 0.0824, 'grad_norm': 0.3608725965023041, 'learning_rate': 2.3196042630886163e-05, 'epoch': 7.3}
 30%|███       | 23885/78504 [14:30:55<31:08:44,  2.05s/it] 30%|███       | 23886/78504 [14:30:57<30:10:18,  1.99s/it]                                                           {'loss': 0.112, 'grad_norm': 0.5952056050300598, 'learning_rate': 2.3195618020466225e-05, 'epoch': 7.3}
 30%|███       | 23886/78504 [14:30:57<30:10:18,  1.99s/it] 30%|███       | 23887/78504 [14:30:59<29:00:52,  1.91s/it]                                                           {'loss': 0.1203, 'grad_norm': 0.36357682943344116, 'learning_rate': 2.3195193410046283e-05, 'epoch': 7.3}
 30%|███       | 23887/78504 [14:30:59<29:00:52,  1.91s/it] 30%|███       | 23888/78504 [14:31:00<27:48:22,  1.83s/it]                                                           {'loss': 0.1261, 'grad_norm': 0.4984031617641449, 'learning_rate': 2.3194768799626346e-05, 'epoch': 7.3}
 30%|███       | 23888/78504 [14:31:00<27:48:22,  1.83s/it] 30%|███       | 23889/78504 [14:31:02<26:21:26,  1.74s/it]                                                           {'loss': 0.154, 'grad_norm': 0.9246265292167664, 'learning_rate': 2.3194344189206404e-05, 'epoch': 7.3}
 30%|███       | 23889/78504 [14:31:02<26:21:26,  1.74s/it] 30%|███       | 23890/78504 [14:31:03<25:09:43,  1.66s/it]                                                           {'loss': 0.1318, 'grad_norm': 1.2141603231430054, 'learning_rate': 2.3193919578786466e-05, 'epoch': 7.3}
 30%|███       | 23890/78504 [14:31:03<25:09:43,  1.66s/it] 30%|███       | 23891/78504 [14:31:05<24:03:17,  1.59s/it]                                                           {'loss': 0.1407, 'grad_norm': 2.175302743911743, 'learning_rate': 2.3193494968366525e-05, 'epoch': 7.3}
 30%|███       | 23891/78504 [14:31:05<24:03:17,  1.59s/it] 30%|███       | 23892/78504 [14:31:06<22:23:36,  1.48s/it]                                                           {'loss': 0.1585, 'grad_norm': 2.3923046588897705, 'learning_rate': 2.3193070357946584e-05, 'epoch': 7.3}
 30%|███       | 23892/78504 [14:31:06<22:23:36,  1.48s/it] 30%|███       | 23893/78504 [14:31:07<20:47:50,  1.37s/it]                                                           {'loss': 0.1627, 'grad_norm': 1.0512028932571411, 'learning_rate': 2.3192645747526646e-05, 'epoch': 7.3}
 30%|███       | 23893/78504 [14:31:07<20:47:50,  1.37s/it] 30%|███       | 23894/78504 [14:31:08<19:34:35,  1.29s/it]                                                           {'loss': 0.1682, 'grad_norm': 0.7506199479103088, 'learning_rate': 2.3192221137106705e-05, 'epoch': 7.3}
 30%|███       | 23894/78504 [14:31:08<19:34:35,  1.29s/it] 30%|███       | 23895/78504 [14:31:09<18:14:20,  1.20s/it]                                                           {'loss': 0.1767, 'grad_norm': 0.6418784856796265, 'learning_rate': 2.3191796526686767e-05, 'epoch': 7.31}
 30%|███       | 23895/78504 [14:31:09<18:14:20,  1.20s/it] 30%|███       | 23896/78504 [14:31:10<17:01:11,  1.12s/it]                                                           {'loss': 0.1857, 'grad_norm': 0.728244423866272, 'learning_rate': 2.3191371916266825e-05, 'epoch': 7.31}
 30%|███       | 23896/78504 [14:31:10<17:01:11,  1.12s/it] 30%|███       | 23897/78504 [14:31:11<15:29:00,  1.02s/it]                                                           {'loss': 0.2217, 'grad_norm': 1.2794231176376343, 'learning_rate': 2.3190947305846887e-05, 'epoch': 7.31}
 30%|███       | 23897/78504 [14:31:11<15:29:00,  1.02s/it] 30%|███       | 23898/78504 [14:31:20<51:07:57,  3.37s/it]                                                           {'loss': 0.1518, 'grad_norm': 0.6630212068557739, 'learning_rate': 2.3190522695426946e-05, 'epoch': 7.31}
 30%|███       | 23898/78504 [14:31:20<51:07:57,  3.37s/it] 30%|███       | 23899/78504 [14:31:23<48:57:30,  3.23s/it]                                                           {'loss': 0.1114, 'grad_norm': 0.3408677279949188, 'learning_rate': 2.3190098085007008e-05, 'epoch': 7.31}
 30%|███       | 23899/78504 [14:31:23<48:57:30,  3.23s/it] 30%|███       | 23900/78504 [14:31:25<46:55:34,  3.09s/it]                                                           {'loss': 0.0608, 'grad_norm': 0.24706241488456726, 'learning_rate': 2.3189673474587067e-05, 'epoch': 7.31}
 30%|███       | 23900/78504 [14:31:25<46:55:34,  3.09s/it] 30%|███       | 23901/78504 [14:31:28<43:50:21,  2.89s/it]                                                           {'loss': 0.0691, 'grad_norm': 0.2821144163608551, 'learning_rate': 2.318924886416713e-05, 'epoch': 7.31}
 30%|███       | 23901/78504 [14:31:28<43:50:21,  2.89s/it] 30%|███       | 23902/78504 [14:31:30<41:55:32,  2.76s/it]                                                           {'loss': 0.0495, 'grad_norm': 0.3791678845882416, 'learning_rate': 2.3188824253747188e-05, 'epoch': 7.31}
 30%|███       | 23902/78504 [14:31:30<41:55:32,  2.76s/it] 30%|███       | 23903/78504 [14:31:32<39:39:02,  2.61s/it]                                                           {'loss': 0.0358, 'grad_norm': 1.276155710220337, 'learning_rate': 2.318839964332725e-05, 'epoch': 7.31}
 30%|███       | 23903/78504 [14:31:32<39:39:02,  2.61s/it] 30%|███       | 23904/78504 [14:31:35<38:17:41,  2.52s/it]                                                           {'loss': 0.0597, 'grad_norm': 0.26700568199157715, 'learning_rate': 2.318797503290731e-05, 'epoch': 7.31}
 30%|███       | 23904/78504 [14:31:35<38:17:41,  2.52s/it] 30%|███       | 23905/78504 [14:31:37<36:24:14,  2.40s/it]                                                           {'loss': 0.0493, 'grad_norm': 0.18867693841457367, 'learning_rate': 2.3187550422487367e-05, 'epoch': 7.31}
 30%|███       | 23905/78504 [14:31:37<36:24:14,  2.40s/it] 30%|███       | 23906/78504 [14:31:39<35:23:13,  2.33s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.17558744549751282, 'learning_rate': 2.318712581206743e-05, 'epoch': 7.31}
 30%|███       | 23906/78504 [14:31:39<35:23:13,  2.33s/it] 30%|███       | 23907/78504 [14:31:41<34:30:23,  2.28s/it]                                                           {'loss': 0.0573, 'grad_norm': 0.3345417082309723, 'learning_rate': 2.3186701201647488e-05, 'epoch': 7.31}
 30%|███       | 23907/78504 [14:31:41<34:30:23,  2.28s/it] 30%|███       | 23908/78504 [14:31:43<33:20:13,  2.20s/it]                                                           {'loss': 0.1061, 'grad_norm': 0.7432676553726196, 'learning_rate': 2.318627659122755e-05, 'epoch': 7.31}
 30%|███       | 23908/78504 [14:31:43<33:20:13,  2.20s/it] 30%|███       | 23909/78504 [14:31:45<32:18:01,  2.13s/it]                                                           {'loss': 0.0617, 'grad_norm': 0.4716528058052063, 'learning_rate': 2.318585198080761e-05, 'epoch': 7.31}
 30%|███       | 23909/78504 [14:31:45<32:18:01,  2.13s/it] 30%|███       | 23910/78504 [14:31:47<31:06:33,  2.05s/it]                                                           {'loss': 0.0766, 'grad_norm': 0.17835237085819244, 'learning_rate': 2.318542737038767e-05, 'epoch': 7.31}
 30%|███       | 23910/78504 [14:31:47<31:06:33,  2.05s/it] 30%|███       | 23911/78504 [14:31:49<30:09:47,  1.99s/it]                                                           {'loss': 0.1323, 'grad_norm': 0.32393383979797363, 'learning_rate': 2.318500275996773e-05, 'epoch': 7.31}
 30%|███       | 23911/78504 [14:31:49<30:09:47,  1.99s/it] 30%|███       | 23912/78504 [14:31:51<28:57:40,  1.91s/it]                                                           {'loss': 0.1082, 'grad_norm': 0.5987812876701355, 'learning_rate': 2.318457814954779e-05, 'epoch': 7.31}
 30%|███       | 23912/78504 [14:31:51<28:57:40,  1.91s/it] 30%|███       | 23913/78504 [14:31:52<27:48:14,  1.83s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.61748206615448, 'learning_rate': 2.318415353912785e-05, 'epoch': 7.31}
 30%|███       | 23913/78504 [14:31:52<27:48:14,  1.83s/it] 30%|███       | 23914/78504 [14:31:54<26:28:39,  1.75s/it]                                                           {'loss': 0.1283, 'grad_norm': 0.40666183829307556, 'learning_rate': 2.3183728928707912e-05, 'epoch': 7.31}
 30%|███       | 23914/78504 [14:31:54<26:28:39,  1.75s/it] 30%|███       | 23915/78504 [14:31:55<25:12:56,  1.66s/it]                                                           {'loss': 0.1105, 'grad_norm': 0.4495156705379486, 'learning_rate': 2.318330431828797e-05, 'epoch': 7.31}
 30%|███       | 23915/78504 [14:31:55<25:12:56,  1.66s/it] 30%|███       | 23916/78504 [14:31:57<23:54:27,  1.58s/it]                                                           {'loss': 0.1535, 'grad_norm': 0.4638597071170807, 'learning_rate': 2.3182879707868033e-05, 'epoch': 7.31}
 30%|███       | 23916/78504 [14:31:57<23:54:27,  1.58s/it] 30%|███       | 23917/78504 [14:31:58<22:35:18,  1.49s/it]                                                           {'loss': 0.1393, 'grad_norm': 0.46969127655029297, 'learning_rate': 2.3182455097448092e-05, 'epoch': 7.31}
 30%|███       | 23917/78504 [14:31:58<22:35:18,  1.49s/it] 30%|███       | 23918/78504 [14:31:59<21:03:55,  1.39s/it]                                                           {'loss': 0.1279, 'grad_norm': 0.7166615724563599, 'learning_rate': 2.318203048702815e-05, 'epoch': 7.31}
 30%|███       | 23918/78504 [14:31:59<21:03:55,  1.39s/it] 30%|███       | 23919/78504 [14:32:00<19:44:47,  1.30s/it]                                                           {'loss': 0.1357, 'grad_norm': 0.5580765604972839, 'learning_rate': 2.3181605876608213e-05, 'epoch': 7.31}
 30%|███       | 23919/78504 [14:32:00<19:44:47,  1.30s/it] 30%|███       | 23920/78504 [14:32:01<18:20:19,  1.21s/it]                                                           {'loss': 0.1435, 'grad_norm': 1.1279016733169556, 'learning_rate': 2.318118126618827e-05, 'epoch': 7.31}
 30%|███       | 23920/78504 [14:32:01<18:20:19,  1.21s/it] 30%|███       | 23921/78504 [14:32:02<17:07:16,  1.13s/it]                                                           {'loss': 0.2035, 'grad_norm': 1.2911899089813232, 'learning_rate': 2.3180756655768333e-05, 'epoch': 7.31}
 30%|███       | 23921/78504 [14:32:02<17:07:16,  1.13s/it] 30%|███       | 23922/78504 [14:32:03<15:35:34,  1.03s/it]                                                           {'loss': 0.2107, 'grad_norm': 2.0224404335021973, 'learning_rate': 2.3180332045348392e-05, 'epoch': 7.31}
 30%|███       | 23922/78504 [14:32:03<15:35:34,  1.03s/it] 30%|███       | 23923/78504 [14:32:12<50:10:51,  3.31s/it]                                                           {'loss': 0.1361, 'grad_norm': 0.5141564607620239, 'learning_rate': 2.3179907434928454e-05, 'epoch': 7.31}
 30%|███       | 23923/78504 [14:32:12<50:10:51,  3.31s/it] 30%|███       | 23924/78504 [14:32:15<49:21:00,  3.26s/it]                                                           {'loss': 0.0709, 'grad_norm': 0.3064340651035309, 'learning_rate': 2.3179482824508513e-05, 'epoch': 7.31}
 30%|███       | 23924/78504 [14:32:15<49:21:00,  3.26s/it] 30%|███       | 23925/78504 [14:32:18<48:14:52,  3.18s/it]                                                           {'loss': 0.0822, 'grad_norm': 0.41244131326675415, 'learning_rate': 2.3179058214088575e-05, 'epoch': 7.31}
 30%|███       | 23925/78504 [14:32:18<48:14:52,  3.18s/it] 30%|███       | 23926/78504 [14:32:20<45:05:28,  2.97s/it]                                                           {'loss': 0.0615, 'grad_norm': 0.751066267490387, 'learning_rate': 2.3178633603668634e-05, 'epoch': 7.31}
 30%|███       | 23926/78504 [14:32:20<45:05:28,  2.97s/it] 30%|███       | 23927/78504 [14:32:23<42:50:48,  2.83s/it]                                                           {'loss': 0.0622, 'grad_norm': 0.5163701772689819, 'learning_rate': 2.3178208993248696e-05, 'epoch': 7.31}
 30%|███       | 23927/78504 [14:32:23<42:50:48,  2.83s/it] 30%|███       | 23928/78504 [14:32:25<41:02:28,  2.71s/it]                                                           {'loss': 0.0586, 'grad_norm': 0.6134297847747803, 'learning_rate': 2.3177784382828755e-05, 'epoch': 7.32}
 30%|███       | 23928/78504 [14:32:25<41:02:28,  2.71s/it] 30%|███       | 23929/78504 [14:32:27<39:14:11,  2.59s/it]                                                           {'loss': 0.0423, 'grad_norm': 0.3604957163333893, 'learning_rate': 2.3177359772408817e-05, 'epoch': 7.32}
 30%|███       | 23929/78504 [14:32:27<39:14:11,  2.59s/it] 30%|███       | 23930/78504 [14:32:30<37:55:19,  2.50s/it]                                                           {'loss': 0.0823, 'grad_norm': 0.3128524422645569, 'learning_rate': 2.3176935161988875e-05, 'epoch': 7.32}
 30%|███       | 23930/78504 [14:32:30<37:55:19,  2.50s/it] 30%|███       | 23931/78504 [14:32:32<36:32:18,  2.41s/it]                                                           {'loss': 0.0558, 'grad_norm': 0.25266480445861816, 'learning_rate': 2.3176510551568934e-05, 'epoch': 7.32}
 30%|███       | 23931/78504 [14:32:32<36:32:18,  2.41s/it] 30%|███       | 23932/78504 [14:32:34<35:24:51,  2.34s/it]                                                           {'loss': 0.0518, 'grad_norm': 0.23381051421165466, 'learning_rate': 2.3176085941148996e-05, 'epoch': 7.32}
 30%|███       | 23932/78504 [14:32:34<35:24:51,  2.34s/it] 30%|███       | 23933/78504 [14:32:36<33:18:18,  2.20s/it]                                                           {'loss': 0.0986, 'grad_norm': 0.5354254841804504, 'learning_rate': 2.3175661330729055e-05, 'epoch': 7.32}
 30%|███       | 23933/78504 [14:32:36<33:18:18,  2.20s/it] 30%|███       | 23934/78504 [14:32:38<32:20:48,  2.13s/it]                                                           {'loss': 0.0651, 'grad_norm': 0.4018115699291229, 'learning_rate': 2.3175236720309117e-05, 'epoch': 7.32}
 30%|███       | 23934/78504 [14:32:38<32:20:48,  2.13s/it] 30%|███       | 23935/78504 [14:32:40<31:22:08,  2.07s/it]                                                           {'loss': 0.0923, 'grad_norm': 0.6323752403259277, 'learning_rate': 2.3174812109889176e-05, 'epoch': 7.32}
 30%|███       | 23935/78504 [14:32:40<31:22:08,  2.07s/it] 30%|███       | 23936/78504 [14:32:42<30:31:21,  2.01s/it]                                                           {'loss': 0.1264, 'grad_norm': 1.1013585329055786, 'learning_rate': 2.3174387499469238e-05, 'epoch': 7.32}
 30%|███       | 23936/78504 [14:32:42<30:31:21,  2.01s/it] 30%|███       | 23937/78504 [14:32:44<29:23:33,  1.94s/it]                                                           {'loss': 0.144, 'grad_norm': 0.35086312890052795, 'learning_rate': 2.3173962889049296e-05, 'epoch': 7.32}
 30%|███       | 23937/78504 [14:32:44<29:23:33,  1.94s/it] 30%|███       | 23938/78504 [14:32:45<27:45:02,  1.83s/it]                                                           {'loss': 0.1155, 'grad_norm': 0.9254657626152039, 'learning_rate': 2.317353827862936e-05, 'epoch': 7.32}
 30%|███       | 23938/78504 [14:32:45<27:45:02,  1.83s/it] 30%|███       | 23939/78504 [14:32:47<26:24:57,  1.74s/it]                                                           {'loss': 0.1365, 'grad_norm': 2.834726333618164, 'learning_rate': 2.3173113668209417e-05, 'epoch': 7.32}
 30%|███       | 23939/78504 [14:32:47<26:24:57,  1.74s/it] 30%|███       | 23940/78504 [14:32:48<25:24:27,  1.68s/it]                                                           {'loss': 0.1528, 'grad_norm': 1.0431766510009766, 'learning_rate': 2.317268905778948e-05, 'epoch': 7.32}
 30%|███       | 23940/78504 [14:32:48<25:24:27,  1.68s/it] 30%|███       | 23941/78504 [14:32:50<24:06:37,  1.59s/it]                                                           {'loss': 0.1665, 'grad_norm': 0.5493155121803284, 'learning_rate': 2.3172264447369538e-05, 'epoch': 7.32}
 30%|███       | 23941/78504 [14:32:50<24:06:37,  1.59s/it] 30%|███       | 23942/78504 [14:32:51<22:40:36,  1.50s/it]                                                           {'loss': 0.1877, 'grad_norm': 0.4090520143508911, 'learning_rate': 2.31718398369496e-05, 'epoch': 7.32}
 30%|███       | 23942/78504 [14:32:51<22:40:36,  1.50s/it] 30%|███       | 23943/78504 [14:32:52<21:04:58,  1.39s/it]                                                           {'loss': 0.1483, 'grad_norm': 0.8909623026847839, 'learning_rate': 2.317141522652966e-05, 'epoch': 7.32}
 30%|███       | 23943/78504 [14:32:52<21:04:58,  1.39s/it] 31%|███       | 23944/78504 [14:32:53<19:49:39,  1.31s/it]                                                           {'loss': 0.1643, 'grad_norm': 1.490296721458435, 'learning_rate': 2.3170990616109717e-05, 'epoch': 7.32}
 31%|███       | 23944/78504 [14:32:53<19:49:39,  1.31s/it] 31%|███       | 23945/78504 [14:32:54<18:39:02,  1.23s/it]                                                           {'loss': 0.1815, 'grad_norm': 0.9645735621452332, 'learning_rate': 2.317056600568978e-05, 'epoch': 7.32}
 31%|███       | 23945/78504 [14:32:54<18:39:02,  1.23s/it] 31%|███       | 23946/78504 [14:32:55<17:16:31,  1.14s/it]                                                           {'loss': 0.1871, 'grad_norm': 3.149449586868286, 'learning_rate': 2.3170141395269838e-05, 'epoch': 7.32}
 31%|███       | 23946/78504 [14:32:55<17:16:31,  1.14s/it] 31%|███       | 23947/78504 [14:32:56<15:43:59,  1.04s/it]                                                           {'loss': 0.2066, 'grad_norm': 9.631153106689453, 'learning_rate': 2.31697167848499e-05, 'epoch': 7.32}
 31%|███       | 23947/78504 [14:32:56<15:43:59,  1.04s/it] 31%|███       | 23948/78504 [14:33:03<45:14:17,  2.99s/it]                                                           {'loss': 0.1478, 'grad_norm': 0.8233566284179688, 'learning_rate': 2.316929217442996e-05, 'epoch': 7.32}
 31%|███       | 23948/78504 [14:33:03<45:14:17,  2.99s/it] 31%|███       | 23949/78504 [14:33:06<44:52:53,  2.96s/it]                                                           {'loss': 0.1062, 'grad_norm': 0.5068669319152832, 'learning_rate': 2.316886756401002e-05, 'epoch': 7.32}
 31%|███       | 23949/78504 [14:33:06<44:52:53,  2.96s/it] 31%|███       | 23950/78504 [14:33:09<44:41:13,  2.95s/it]                                                           {'loss': 0.0926, 'grad_norm': 0.8042405247688293, 'learning_rate': 2.316844295359008e-05, 'epoch': 7.32}
 31%|███       | 23950/78504 [14:33:09<44:41:13,  2.95s/it] 31%|███       | 23951/78504 [14:33:12<43:10:36,  2.85s/it]                                                           {'loss': 0.0541, 'grad_norm': 0.22273173928260803, 'learning_rate': 2.3168018343170142e-05, 'epoch': 7.32}
 31%|███       | 23951/78504 [14:33:12<43:10:36,  2.85s/it] 31%|███       | 23952/78504 [14:33:14<41:26:39,  2.74s/it]                                                           {'loss': 0.0382, 'grad_norm': 0.6677346229553223, 'learning_rate': 2.31675937327502e-05, 'epoch': 7.32}
 31%|███       | 23952/78504 [14:33:14<41:26:39,  2.74s/it] 31%|███       | 23953/78504 [14:33:17<40:04:04,  2.64s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.6307243704795837, 'learning_rate': 2.3167169122330263e-05, 'epoch': 7.32}
 31%|███       | 23953/78504 [14:33:17<40:04:04,  2.64s/it] 31%|███       | 23954/78504 [14:33:19<38:34:39,  2.55s/it]                                                           {'loss': 0.0683, 'grad_norm': 0.23144373297691345, 'learning_rate': 2.316674451191032e-05, 'epoch': 7.32}
 31%|███       | 23954/78504 [14:33:19<38:34:39,  2.55s/it] 31%|███       | 23955/78504 [14:33:21<36:32:19,  2.41s/it]                                                           {'loss': 0.0489, 'grad_norm': 1.002418041229248, 'learning_rate': 2.3166319901490383e-05, 'epoch': 7.32}
 31%|███       | 23955/78504 [14:33:21<36:32:19,  2.41s/it] 31%|███       | 23956/78504 [14:33:23<34:47:23,  2.30s/it]                                                           {'loss': 0.0732, 'grad_norm': 0.597310483455658, 'learning_rate': 2.3165895291070442e-05, 'epoch': 7.32}
 31%|███       | 23956/78504 [14:33:23<34:47:23,  2.30s/it] 31%|███       | 23957/78504 [14:33:25<34:04:34,  2.25s/it]                                                           {'loss': 0.0457, 'grad_norm': 0.2409968227148056, 'learning_rate': 2.31654706806505e-05, 'epoch': 7.32}
 31%|███       | 23957/78504 [14:33:25<34:04:34,  2.25s/it] 31%|███       | 23958/78504 [14:33:27<33:03:34,  2.18s/it]                                                           {'loss': 0.0587, 'grad_norm': 0.21313738822937012, 'learning_rate': 2.3165046070230563e-05, 'epoch': 7.32}
 31%|███       | 23958/78504 [14:33:27<33:03:34,  2.18s/it] 31%|███       | 23959/78504 [14:33:29<32:08:55,  2.12s/it]                                                           {'loss': 0.076, 'grad_norm': 0.4379555881023407, 'learning_rate': 2.316462145981062e-05, 'epoch': 7.32}
 31%|███       | 23959/78504 [14:33:29<32:08:55,  2.12s/it] 31%|███       | 23960/78504 [14:33:31<30:58:46,  2.04s/it]                                                           {'loss': 0.0885, 'grad_norm': 0.4547993242740631, 'learning_rate': 2.3164196849390684e-05, 'epoch': 7.32}
 31%|███       | 23960/78504 [14:33:31<30:58:46,  2.04s/it] 31%|███       | 23961/78504 [14:33:33<30:03:47,  1.98s/it]                                                           {'loss': 0.0911, 'grad_norm': 0.8066165447235107, 'learning_rate': 2.3163772238970742e-05, 'epoch': 7.33}
 31%|███       | 23961/78504 [14:33:33<30:03:47,  1.98s/it] 31%|███       | 23962/78504 [14:33:35<28:55:24,  1.91s/it]                                                           {'loss': 0.1025, 'grad_norm': 0.4970864951610565, 'learning_rate': 2.3163347628550805e-05, 'epoch': 7.33}
 31%|███       | 23962/78504 [14:33:35<28:55:24,  1.91s/it] 31%|███       | 23963/78504 [14:33:36<27:44:03,  1.83s/it]                                                           {'loss': 0.1315, 'grad_norm': 0.45138174295425415, 'learning_rate': 2.3162923018130863e-05, 'epoch': 7.33}
 31%|███       | 23963/78504 [14:33:36<27:44:03,  1.83s/it] 31%|███       | 23964/78504 [14:33:38<26:20:15,  1.74s/it]                                                           {'loss': 0.1248, 'grad_norm': 2.6973214149475098, 'learning_rate': 2.3162498407710925e-05, 'epoch': 7.33}
 31%|███       | 23964/78504 [14:33:38<26:20:15,  1.74s/it] 31%|███       | 23965/78504 [14:33:39<24:57:54,  1.65s/it]                                                           {'loss': 0.1517, 'grad_norm': 1.8511420488357544, 'learning_rate': 2.3162073797290987e-05, 'epoch': 7.33}
 31%|███       | 23965/78504 [14:33:39<24:57:54,  1.65s/it] 31%|███       | 23966/78504 [14:33:41<23:53:32,  1.58s/it]                                                           {'loss': 0.1843, 'grad_norm': 0.8997952342033386, 'learning_rate': 2.316164918687105e-05, 'epoch': 7.33}
 31%|███       | 23966/78504 [14:33:41<23:53:32,  1.58s/it] 31%|███       | 23967/78504 [14:33:42<22:35:49,  1.49s/it]                                                           {'loss': 0.1442, 'grad_norm': 1.524084210395813, 'learning_rate': 2.3161224576451108e-05, 'epoch': 7.33}
 31%|███       | 23967/78504 [14:33:42<22:35:49,  1.49s/it] 31%|███       | 23968/78504 [14:33:43<21:02:58,  1.39s/it]                                                           {'loss': 0.1859, 'grad_norm': 0.7852483987808228, 'learning_rate': 2.3160799966031167e-05, 'epoch': 7.33}
 31%|███       | 23968/78504 [14:33:43<21:02:58,  1.39s/it] 31%|███       | 23969/78504 [14:33:44<19:46:20,  1.31s/it]                                                           {'loss': 0.1595, 'grad_norm': 0.4738018214702606, 'learning_rate': 2.316037535561123e-05, 'epoch': 7.33}
 31%|███       | 23969/78504 [14:33:44<19:46:20,  1.31s/it] 31%|███       | 23970/78504 [14:33:45<18:21:21,  1.21s/it]                                                           {'loss': 0.1668, 'grad_norm': 0.6250832676887512, 'learning_rate': 2.3159950745191288e-05, 'epoch': 7.33}
 31%|███       | 23970/78504 [14:33:45<18:21:21,  1.21s/it] 31%|███       | 23971/78504 [14:33:46<17:05:25,  1.13s/it]                                                           {'loss': 0.1528, 'grad_norm': 0.5363277792930603, 'learning_rate': 2.315952613477135e-05, 'epoch': 7.33}
 31%|███       | 23971/78504 [14:33:46<17:05:25,  1.13s/it] 31%|███       | 23972/78504 [14:33:47<15:31:57,  1.03s/it]                                                           {'loss': 0.2048, 'grad_norm': 0.916037380695343, 'learning_rate': 2.315910152435141e-05, 'epoch': 7.33}
 31%|███       | 23972/78504 [14:33:47<15:31:57,  1.03s/it] 31%|███       | 23973/78504 [14:33:55<49:11:05,  3.25s/it]                                                           {'loss': 0.1239, 'grad_norm': 0.4278410077095032, 'learning_rate': 2.315867691393147e-05, 'epoch': 7.33}
 31%|███       | 23973/78504 [14:33:55<49:11:05,  3.25s/it] 31%|███       | 23974/78504 [14:33:59<49:14:33,  3.25s/it]                                                           {'loss': 0.0901, 'grad_norm': 0.3395937383174896, 'learning_rate': 2.315825230351153e-05, 'epoch': 7.33}
 31%|███       | 23974/78504 [14:33:59<49:14:33,  3.25s/it] 31%|███       | 23975/78504 [14:34:01<46:49:28,  3.09s/it]                                                           {'loss': 0.0534, 'grad_norm': 0.2836955487728119, 'learning_rate': 2.315782769309159e-05, 'epoch': 7.33}
 31%|███       | 23975/78504 [14:34:01<46:49:28,  3.09s/it] 31%|███       | 23976/78504 [14:34:04<44:32:56,  2.94s/it]                                                           {'loss': 0.0698, 'grad_norm': 1.010936975479126, 'learning_rate': 2.315740308267165e-05, 'epoch': 7.33}
 31%|███       | 23976/78504 [14:34:04<44:32:56,  2.94s/it] 31%|███       | 23977/78504 [14:34:06<41:56:18,  2.77s/it]                                                           {'loss': 0.047, 'grad_norm': 0.14916926622390747, 'learning_rate': 2.3156978472251712e-05, 'epoch': 7.33}
 31%|███       | 23977/78504 [14:34:06<41:56:18,  2.77s/it] 31%|███       | 23978/78504 [14:34:09<39:38:13,  2.62s/it]                                                           {'loss': 0.0632, 'grad_norm': 0.3316066861152649, 'learning_rate': 2.315655386183177e-05, 'epoch': 7.33}
 31%|███       | 23978/78504 [14:34:09<39:38:13,  2.62s/it] 31%|███       | 23979/78504 [14:34:11<38:17:54,  2.53s/it]                                                           {'loss': 0.0792, 'grad_norm': 0.23658272624015808, 'learning_rate': 2.3156129251411833e-05, 'epoch': 7.33}
 31%|███       | 23979/78504 [14:34:11<38:17:54,  2.53s/it] 31%|███       | 23980/78504 [14:34:13<36:24:04,  2.40s/it]                                                           {'loss': 0.0658, 'grad_norm': 0.27476832270622253, 'learning_rate': 2.315570464099189e-05, 'epoch': 7.33}
 31%|███       | 23980/78504 [14:34:13<36:24:04,  2.40s/it] 31%|███       | 23981/78504 [14:34:15<35:24:35,  2.34s/it]                                                           {'loss': 0.0636, 'grad_norm': 0.28388094902038574, 'learning_rate': 2.315528003057195e-05, 'epoch': 7.33}
 31%|███       | 23981/78504 [14:34:15<35:24:35,  2.34s/it] 31%|███       | 23982/78504 [14:34:17<34:40:31,  2.29s/it]                                                           {'loss': 0.0742, 'grad_norm': 0.9236795902252197, 'learning_rate': 2.3154855420152012e-05, 'epoch': 7.33}
 31%|███       | 23982/78504 [14:34:17<34:40:31,  2.29s/it] 31%|███       | 23983/78504 [14:34:19<32:46:32,  2.16s/it]                                                           {'loss': 0.0548, 'grad_norm': 0.2750842571258545, 'learning_rate': 2.315443080973207e-05, 'epoch': 7.33}
 31%|███       | 23983/78504 [14:34:19<32:46:32,  2.16s/it] 31%|███       | 23984/78504 [14:34:21<32:00:06,  2.11s/it]                                                           {'loss': 0.0851, 'grad_norm': 0.37107059359550476, 'learning_rate': 2.3154006199312133e-05, 'epoch': 7.33}
 31%|███       | 23984/78504 [14:34:21<32:00:06,  2.11s/it] 31%|███       | 23985/78504 [14:34:23<31:08:29,  2.06s/it]                                                           {'loss': 0.1093, 'grad_norm': 1.5662755966186523, 'learning_rate': 2.3153581588892192e-05, 'epoch': 7.33}
 31%|███       | 23985/78504 [14:34:23<31:08:29,  2.06s/it] 31%|███       | 23986/78504 [14:34:25<30:21:05,  2.00s/it]                                                           {'loss': 0.1086, 'grad_norm': 0.3789205849170685, 'learning_rate': 2.3153156978472254e-05, 'epoch': 7.33}
 31%|███       | 23986/78504 [14:34:25<30:21:05,  2.00s/it] 31%|███       | 23987/78504 [14:34:27<29:16:28,  1.93s/it]                                                           {'loss': 0.1246, 'grad_norm': 0.521248459815979, 'learning_rate': 2.3152732368052313e-05, 'epoch': 7.33}
 31%|███       | 23987/78504 [14:34:27<29:16:28,  1.93s/it] 31%|███       | 23988/78504 [14:34:29<27:59:06,  1.85s/it]                                                           {'loss': 0.1264, 'grad_norm': 0.3398914635181427, 'learning_rate': 2.3152307757632375e-05, 'epoch': 7.33}
 31%|███       | 23988/78504 [14:34:29<27:59:06,  1.85s/it] 31%|███       | 23989/78504 [14:34:30<26:37:05,  1.76s/it]                                                           {'loss': 0.1477, 'grad_norm': 0.39047306776046753, 'learning_rate': 2.3151883147212433e-05, 'epoch': 7.33}
 31%|███       | 23989/78504 [14:34:30<26:37:05,  1.76s/it] 31%|███       | 23990/78504 [14:34:32<25:29:23,  1.68s/it]                                                           {'loss': 0.1551, 'grad_norm': 0.5977687835693359, 'learning_rate': 2.3151458536792496e-05, 'epoch': 7.33}
 31%|███       | 23990/78504 [14:34:32<25:29:23,  1.68s/it] 31%|███       | 23991/78504 [14:34:33<24:15:59,  1.60s/it]                                                           {'loss': 0.1709, 'grad_norm': 0.5765331387519836, 'learning_rate': 2.3151033926372554e-05, 'epoch': 7.33}
 31%|███       | 23991/78504 [14:34:33<24:15:59,  1.60s/it] 31%|███       | 23992/78504 [14:34:34<22:50:14,  1.51s/it]                                                           {'loss': 0.1651, 'grad_norm': 0.4538646638393402, 'learning_rate': 2.3150609315952616e-05, 'epoch': 7.33}
 31%|███       | 23992/78504 [14:34:34<22:50:14,  1.51s/it] 31%|███       | 23993/78504 [14:34:35<21:12:54,  1.40s/it]                                                           {'loss': 0.1494, 'grad_norm': 1.6461440324783325, 'learning_rate': 2.3150184705532675e-05, 'epoch': 7.34}
 31%|███       | 23993/78504 [14:34:35<21:12:54,  1.40s/it] 31%|███       | 23994/78504 [14:34:37<19:51:15,  1.31s/it]                                                           {'loss': 0.1731, 'grad_norm': 2.5345730781555176, 'learning_rate': 2.3149760095112734e-05, 'epoch': 7.34}
 31%|███       | 23994/78504 [14:34:37<19:51:15,  1.31s/it] 31%|███       | 23995/78504 [14:34:38<18:43:53,  1.24s/it]                                                           {'loss': 0.1851, 'grad_norm': 19.407346725463867, 'learning_rate': 2.3149335484692796e-05, 'epoch': 7.34}
 31%|███       | 23995/78504 [14:34:38<18:43:53,  1.24s/it] 31%|███       | 23996/78504 [14:34:39<17:20:02,  1.14s/it]                                                           {'loss': 0.2377, 'grad_norm': 1.3814663887023926, 'learning_rate': 2.3148910874272855e-05, 'epoch': 7.34}
 31%|███       | 23996/78504 [14:34:39<17:20:02,  1.14s/it] 31%|███       | 23997/78504 [14:34:39<15:41:27,  1.04s/it]                                                           {'loss': 0.198, 'grad_norm': 1.6397733688354492, 'learning_rate': 2.3148486263852917e-05, 'epoch': 7.34}
 31%|███       | 23997/78504 [14:34:39<15:41:27,  1.04s/it] 31%|███       | 23998/78504 [14:34:46<42:26:32,  2.80s/it]                                                           {'loss': 0.126, 'grad_norm': 0.28886592388153076, 'learning_rate': 2.3148061653432975e-05, 'epoch': 7.34}
 31%|███       | 23998/78504 [14:34:46<42:26:32,  2.80s/it] 31%|███       | 23999/78504 [14:34:50<44:54:29,  2.97s/it]                                                           {'loss': 0.08, 'grad_norm': 0.3009711503982544, 'learning_rate': 2.3147637043013037e-05, 'epoch': 7.34}
 31%|███       | 23999/78504 [14:34:50<44:54:29,  2.97s/it] 31%|███       | 24000/78504 [14:34:53<44:57:52,  2.97s/it]                                                           {'loss': 0.0843, 'grad_norm': 0.2695312201976776, 'learning_rate': 2.3147212432593096e-05, 'epoch': 7.34}
 31%|███       | 24000/78504 [14:34:53<44:57:52,  2.97s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160

  0%|          | 0/15 [00:00<?, ?it/s][A
 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s][A
 20%|██        | 3/15 [00:00<00:02,  4.43it/s][A
 27%|██▋       | 4/15 [00:01<00:06,  1.61it/s][A
 33%|███▎      | 5/15 [00:02<00:05,  1.70it/s][A
 40%|████      | 6/15 [00:02<00:04,  2.00it/s][A
 47%|████▋     | 7/15 [00:03<00:03,  2.44it/s][A
 53%|█████▎    | 8/15 [00:04<00:04,  1.55it/s][A
 60%|██████    | 9/15 [00:04<00:03,  1.78it/s][A
 67%|██████▋   | 10/15 [00:04<00:02,  2.13it/s][A
 73%|███████▎  | 11/15 [00:06<00:02,  1.39it/s][A
 80%|████████  | 12/15 [00:06<00:01,  1.53it/s][A
 87%|████████▋ | 13/15 [00:06<00:01,  1.82it/s][A
 93%|█████████▎| 14/15 [00:07<00:00,  2.24it/s][A
100%|██████████| 15/15 [00:08<00:00,  1.19it/s][A                                                           
                                               [A{'eval_loss': 0.22998958826065063, 'eval_wer': 0.32870590206977457, 'eval_cer': 0.18858629832084056, 'eval_runtime': 19.1035, 'eval_samples_per_second': 237.548, 'eval_steps_per_second': 0.785, 'epoch': 7.34}
 31%|███       | 24000/78504 [14:35:57<44:57:52,  2.97s/it]
100%|██████████| 15/15 [00:11<00:00,  1.19it/s][A
                                               [ASaving model checkpoint to ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/checkpoint-24000/added_tokens.json
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-23000] due to args.save_total_limit


Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from ./w2v-bert-2.0-hausa_579_450h/checkpoint-19000 (score: 0.22853875160217285).
                                                           {'train_runtime': 52573.3399, 'train_samples_per_second': 477.739, 'train_steps_per_second': 1.493, 'train_loss': 0.2190107949541416, 'epoch': 7.34}
 31%|███       | 24000/78504 [14:36:13<44:57:52,  2.97s/it]Deleting older checkpoint [w2v-bert-2.0-hausa_579_450h/checkpoint-24000] due to args.save_total_limit
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
 31%|███       | 24000/78504 [14:36:15<33:09:59,  2.19s/it]
Waiting for the current checkpoint push to be finished, this might take a couple of minutes.
Saving model checkpoint to ./w2v-bert-2.0-hausa_579_450h
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Saving model checkpoint to ./w2v-bert-2.0-hausa_579_450h
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.32870590206977457}]}
events.out.tfevents.1745849767.synvoices-hausa-1tb.10695.0:   0%|          | 0.00/5.11M [00:00<?, ?B/s]events.out.tfevents.1745849767.synvoices-hausa-1tb.10695.0:  31%|███       | 1.57M/5.11M [00:00<00:00, 9.35MB/s]events.out.tfevents.1745849767.synvoices-hausa-1tb.10695.0:  49%|████▉     | 2.52M/5.11M [00:00<00:00, 5.49MB/s]events.out.tfevents.1745849767.synvoices-hausa-1tb.10695.0:  89%|████████▉ | 4.54M/5.11M [00:00<00:00, 8.68MB/s]events.out.tfevents.1745849767.synvoices-hausa-1tb.10695.0: 100%|██████████| 5.11M/5.11M [00:01<00:00, 4.68MB/s]
***** train metrics *****
  epoch                    =         7.3372
  total_flos               = 766932055982GF
  train_loss               =          0.219
  train_runtime            =    14:36:13.33
  train_samples            =        1046515
  train_samples_per_second =        477.739
  train_steps_per_second   =          1.493
04/29/2025 04:53:59 - INFO - __main__ - *** Evaluate ***
The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.

***** Running Evaluation *****
  Num examples = 4538
  Batch size = 160
  0%|          | 0/15 [00:00<?, ?it/s] 13%|█▎        | 2/15 [00:00<00:02,  4.91it/s] 20%|██        | 3/15 [00:00<00:02,  4.38it/s] 27%|██▋       | 4/15 [00:01<00:06,  1.68it/s] 33%|███▎      | 5/15 [00:02<00:05,  1.81it/s] 40%|████      | 6/15 [00:02<00:04,  2.12it/s] 47%|████▋     | 7/15 [00:02<00:03,  2.57it/s] 53%|█████▎    | 8/15 [00:04<00:04,  1.50it/s] 60%|██████    | 9/15 [00:04<00:03,  1.73it/s] 67%|██████▋   | 10/15 [00:04<00:02,  2.08it/s] 73%|███████▎  | 11/15 [00:05<00:02,  1.46it/s] 80%|████████  | 12/15 [00:06<00:01,  1.57it/s] 87%|████████▋ | 13/15 [00:06<00:01,  1.86it/s] 93%|█████████▎| 14/15 [00:06<00:00,  2.27it/s]100%|██████████| 15/15 [00:08<00:00,  1.17it/s]100%|██████████| 15/15 [00:11<00:00,  1.29it/s]
***** eval metrics *****
  epoch                   =     7.3372
  eval_cer                =     0.1878
  eval_loss               =     0.2279
  eval_runtime            = 0:00:20.21
  eval_samples            =       4538
  eval_samples_per_second =     224.52
  eval_steps_per_second   =      0.742
  eval_wer                =     0.3244
Saving model checkpoint to ./w2v-bert-2.0-hausa_579_450h
Configuration saved in ./w2v-bert-2.0-hausa_579_450h/config.json
Model weights saved in ./w2v-bert-2.0-hausa_579_450h/model.safetensors
Feature extractor saved in ./w2v-bert-2.0-hausa_579_450h/preprocessor_config.json
tokenizer config file saved in ./w2v-bert-2.0-hausa_579_450h/tokenizer_config.json
Special tokens file saved in ./w2v-bert-2.0-hausa_579_450h/special_tokens_map.json
added tokens file saved in ./w2v-bert-2.0-hausa_579_450h/added_tokens.json
Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.3244322784279769}]}
events.out.tfevents.1745902505.synvoices-hausa-1tb.10695.1:   0%|          | 0.00/460 [00:00<?, ?B/s]events.out.tfevents.1745902505.synvoices-hausa-1tb.10695.1: 100%|██████████| 460/460 [00:00<00:00, 943B/s]
[rank0]:[W429 04:55:19.430502802 ProcessGroupNCCL.cpp:1476] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources. For more info, please see https://pytorch.org/docs/stable/distributed.html#shutdown (function operator())